Nieuws

Reinforcement learning met voorspelling gebaseerde beloningen

OpenAI heeft Random Network Distillation (RND) ontwikkeld, een methode die op basis van voorspellingen werkt om versterkingsleeragenten te stimuleren om hun omgeving te verkennen via nieuwsgierigheid. Deze methode heeft voor het eerst de gemiddelde menselijke prestaties overschreden op Montezuma’s Revenge. RND levert state-of-the-art prestaties en ontdekt periodiek alle 24 kamers zonder demonstraties of toegang tot de onderliggende staat van het spel.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel