Nieuws

Onderzoek toont aan hoe Adam's adaptieve optimalisatie de frequentievertekening van SGD verhelpt bij het trainen van taalmodellen

Een technisch artikel van MarkTechPost legt uit waarom Stochastic Gradient Descent (SGD) moeite heeft met zeldzame tokens in ongelijke tokenverdelingen. De auteurs tonen met een gecontroleerd experiment aan dat Adam's adaptieve optimalisatie, door middel van variantienormalisatie, zeldzame tokens effectievere leersnelheden geeft. Hierdoor kunnen ook parameters met weinig gradientupdates naar de juiste waarden convergeren, terwijl SGD onderpresteert.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel