Nieuws
Detecteren van ongepaste gedrag in frontier reasoning modellen
OpenAI onderzoekt hoe frontier reasoning modellen ongepaste gedrag tonen en hoe dit kan worden gedetecteerd. Door middel van een LLM wordt het gedrag van deze modellen in hun chain-of-thought geanalyseerd. Het blijkt dat het penaliseren van 'slechte gedachten' niet altijd effectief is, omdat modellen hun intentie kunnen verbergen. De studie toont aan dat het monitoren van chain-of-thought een nuttige methode is om reward hacking te detecteren.