Nieuws
Nous Research introduceert Contrastive Neuron Attribution: sturen van MLP-circuits zonder SAE-training of gewijzigde gewichten
Nous Research heeft Contrastive Neuron Attribution (CNA) ontwikkeld, een methode die specifieke MLP-neuronen identificeert die schadelijke van onschuldige prompts onderscheiden. Door slechts 0,1% van de MLP-activaties te ableren, wordt het weigeringspercentage in de meeste instruct-modellen met meer dan 50% verlaagd, terwijl de uitvoerkwaliteit boven 0,97 blijft. De methode vereist alleen forward passes en geen gradiënten of extra training. Opvallend is dat de late-laagstructuur voor dit onderscheid al aanwezig is in basismodellen voor fine-tuning.