Nieuws

Onderzoekers ontdekken waarom grotere taalmodellen vaardigheden leren die kleine missen

Een nieuwe studie van onderzoekers van Anthropic, Stanford en andere instituten toont aan dat kleine taalmodellen zeldzame taken niet leren omdat frequente taken voortdurend overschrijven wat ze hebben geleerd. Het onderzoek met modellen van 4 miljoen tot 4 miljard parameters biedt een praktische oplossing: in plaats van modellen groter te maken, kan het verhogen van de frequentie van een taak in de trainingsdata voldoende zijn om die vaardigheid te verankeren.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel