Nieuws
Verbetering van wiskundige redenering met procesbeheersing
OpenAI heeft een model getraind dat een nieuw record behaalt in het oplossen van wiskundige problemen door elke correcte redeneerstap te belonen ('procesbeheersing') in plaats van alleen het correcte eindantwoord ('uitkomstbeheersing'). Deze methode levert niet alleen betere prestaties, maar heeft ook een belangrijke uitlijningsvoordeel: het traint het model direct om een door mensen goedgekeurde redeneerstroom te produceren.