Nieuws
Exploratieve analyse van TRLX RLHF-transformers met TransformerLens
In dit artikel wordt een exploratieve analyse uitgevoerd van RLHF-transformers met behulp van TransformerLens. Het bespreekt hoe TRLX, een open-sourcebibliotheek, gebruikt wordt voor RLHF-training en hoe TransformerLens gebruikt wordt voor mechanistische interpretatie van TRLX-modellen. Het artikel toont aan hoe bepaalde lagen en aandachtshoofden bijdragen aan de negatieve bias in het model en bespreekt technieken zoals logit-differentie en activatie-patching om de functie van verschillende delen van het netwerk te onderzoeken.