Nieuws
SAEs getraind op dezelfde data leren niet dezelfde functies
Een onderzoek van EleutherAI toont aan dat SAEs (Sparse Autoencoders) getraind op dezelfde data, maar met verschillende willekeurige initialisaties, niet altijd dezelfde functies leren. Slechts ongeveer 53% van de functies zijn gedeeld tussen twee onafhankelijk getrainde SAEs. Bovendien blijken veel van de niet-gedeelde functies interpreteerbaar te zijn. Het onderzoek wijst uit dat kleiner SAEs een hogere functieovereenkomst hebben, terwijl grotere SAEs meer unieke functies ontwikkelen.