Nieuws
Onderzoekers ontdekken waarom grotere taalmodellen vaardigheden leren die kleine missen
Een nieuwe studie van onderzoekers van Anthropic, Stanford en andere instituten toont aan dat kleine taalmodellen zeldzame taken niet leren omdat frequente taken voortdurend overschrijven wat ze hebben geleerd. Het onderzoek met modellen van 4 miljoen tot 4 miljard parameters biedt een praktische oplossing: in plaats van modellen groter te maken, kan het verhogen van de frequentie van een taak in de trainingsdata voldoende zijn om die vaardigheid te verankeren.