Nieuws

Driefasencircuit voor feitelijke terugroep in Gemma-2B en Gemma-12B-IT ontdekt via activatiepatching

Activatiepatching onthult hoe feiten worden opgeslagen, gerouteerd en uitgelezen over transformerlagen in de Gemma-modellen. Het onderzoek identificeert een driefasencircuit: opslag in de residustroom, routing via aandachtkoppen en uitlezen in de laatste lagen. De resultaten repliceren op schaal van Gemma-12B-IT.

Bron: Towards Data Science

Originele taal: [en-US]

Lees hier het originele artikel