Nieuws

Waar de goblins vandaan kwamen

OpenAI legt uit waar de toegenen van goblins in de GPT-modellen vandaan kwamen. De fenomeen begon met GPT-5.1 en werd steeds vaker gebruikt in antwoorden. De oorzaak ligt in de training van de 'Nerdy' persoonlijkheid, die extra beloningen kreeg voor gebruik van dierachtige metaforen. Hoewel de goblins eerst grappig leken, leidden ze later tot klachten van medewerkers. OpenAI heeft de 'Nerdy' persoonlijkheid en de beloningen voor dierachtige woorden uit de training verwijderd, maar de goblins bleven in sommige modellen zoals Codex voorkomen. De analyse leidde tot nieuwe tools voor het onderzoeken en oplossen van gedragsproblemen in modellen.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel