Nieuws

Verbetering van wiskundige redenering met procesbeheersing

OpenAI heeft een model getraind dat een nieuw record behaalt in het oplossen van wiskundige problemen door elke correcte redeneerstap te belonen ('procesbeheersing') in plaats van alleen het correcte eindantwoord ('uitkomstbeheersing'). Deze methode levert niet alleen betere prestaties, maar heeft ook een belangrijke uitlijningsvoordeel: het traint het model direct om een door mensen goedgekeurde redeneerstroom te produceren.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid