Nieuws

AI-modellen volgen hun waarden beter als ze eerst leren waarom die waarden belangrijk zijn

Een studie van het Anthropic Fellows Program toont aan dat AI-modellen beter hun waarden volgen als ze eerst leren waarom die waarden belangrijk zijn. De onderzoekers introduceerden een nieuwe fase genaamd 'Model Spec Midtraining' (MSM), waarin modellen worden getraind op synthetisch gegenereerde documenten die de waarden van het model uit verschillende hoeken bespreken. In een test met Qwen3-32B en Qwen2.5-32B daalde de mate van misalignement aanzienlijk, van respectievelijk 54 naar 7 procent en 68 naar 5 procent. De methode vereist ook minder fine-tuning data dan andere benaderingen zoals 'Deliberative Alignment' van OpenAI. De studie benadrukt dat expliciete toewijzing van gedrag aan waarden cruciaal is voor effectieve alignement.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel

Dossiers:

Anthropic Claude Mythos en AI-cybersecurity Ai Safety / veiligheid