Nieuws
Leren van Montezuma’s Revenge met slechts één demonstratie
OpenAI heeft een agent getraind om een hoge score van 74.500 te behalen in Montezuma’s Revenge met slechts één menselijke demonstratie, beter dan alle eerder gepubliceerde resultaten. Het algoritme gebruikt PPO, hetzelfde versterkingsleer-algoritme dat OpenAI Five ondersteunt, en start elke trainingssessie vanuit een vooraf gekozen staat uit de demonstratie. Dit maakt het mogelijk om het probleem van exploratie en leerproces te ontkoppelen en leidt tot betere resultaten.