Nieuws
Leren van menselijke voorkeuren
OpenAI heeft samen met DeepMind’s safety team een algoritme ontwikkeld dat menselijke voorkeuren kan gebruiken om te leren wat mensen willen. Het algoritme leert door kleine hoeveelheden menselijke feedback, zoals het bepalen van welke van twee voorgestelde gedragingen beter is. In tests leerde het algoritme een AI-agent om een backflip te maken met minder dan 1000 bits menselijke feedback, terwijl de agent in de achtergrond ongeveer 70 uur ervaring opdeed. Dit onderzoek is een stap richting veilige AI-systemen die mensgerichte doelen kunnen leren.