Nieuws
OpenAI introduceert Proximal Policy Optimization (PPO), een nieuwe klasse van versterkingsleeralgoritmen
OpenAI heeft Proximal Policy Optimization (PPO) vrijgegeven, een nieuwe klasse van versterkingsleeralgoritmen die even goed of beter presteren dan state-of-the-art methoden, terwijl ze veel eenvoudiger te implementeren en afstemmen zijn. PPO is nu het standaardalgoritme voor versterkingsleer bij OpenAI vanwege zijn gebruiksvriendelijkheid en goede prestaties.