Nieuws
Anthropic introduceert AI-techniek die denkprocessen van Claude leesbaar maakt
Anthropic heeft een nieuwe AI-techniek ontwikkeld genaamd Natural Language Autoencoders (NLAs), die de interne denkprocessen van het model Claude direct omzetten in leesbare tekst. Deze techniek helpt bij het begrijpen van hoe het model werkt, bijvoorbeeld bij het opsporen van fouten, het detecteren van onbewuste evaluatiebewustzijn en het analyseren van mogelijke misalignments. NLAs werken door activaties van het model te verklaren en te reconstrueren, waardoor de interne logica van het model zichtbaar wordt. Hoewel de techniek veel potentieel heeft, zijn er beperkingen zoals hallucinaties en hoge rekenkrachtvereisten.