Nieuws
Onderzoek toont aan dat beloningsmodellen de dataset leren, niet de waarden
Een nieuwe studie van de National University of Singapore, VinUniversity en de Nanyang Technological University onderzoekt weak-to-strong beloningsmodellen. De onderzoekers gebruikten RAIL als een van drie harmlessness-benchmarks. De resultaten tonen aan dat een hoge score op de trainingsset geen garantie biedt voor generalisatie naar andere datasets; modellen leren de eigenaardigheden van de dataset in plaats van de algemene voorkeur. De auteurs stellen Representation Anchoring voor als oplossing, een methode die afwijking van de kenmerken van het voorgetrainde model bestraft.