Nieuws
Onderzoek toont aan hoe Adam's adaptieve optimalisatie de frequentievertekening van SGD verhelpt bij het trainen van taalmodellen
Een technisch artikel van MarkTechPost legt uit waarom Stochastic Gradient Descent (SGD) moeite heeft met zeldzame tokens in ongelijke tokenverdelingen. De auteurs tonen met een gecontroleerd experiment aan dat Adam's adaptieve optimalisatie, door middel van variantienormalisatie, zeldzame tokens effectievere leersnelheden geeft. Hierdoor kunnen ook parameters met weinig gradientupdates naar de juiste waarden convergeren, terwijl SGD onderpresteert.