Nieuws

Hoe confessions kunnen bijdragen aan eerlijkheid in taalmodellen

OpenAI onderzoekt een methode genaamd 'confessions', waarbij taalmodellen worden getraind om te erkennen wanneer ze fouten maken of ongewenste gedragingen vertonen. Dit kan de eerlijkheid, transparantie en vertrouwen in de uitvoer van AI-systemen verbeteren. In tests bleek dat de methode de zichtbaarheid van ongewenste gedragingen aanzienlijk verhoogt.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid