Nieuws

Leren van Montezuma’s Revenge met slechts één demonstratie

OpenAI heeft een agent getraind om een hoge score van 74.500 te behalen in Montezuma’s Revenge met slechts één menselijke demonstratie, beter dan alle eerder gepubliceerde resultaten. Het algoritme gebruikt PPO, hetzelfde versterkingsleer-algoritme dat OpenAI Five ondersteunt, en start elke trainingssessie vanuit een vooraf gekozen staat uit de demonstratie. Dit maakt het mogelijk om het probleem van exploratie en leerproces te ontkoppelen en leidt tot betere resultaten.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel