Nieuws

GSPO: Richting schaalbare versterkingsleer voor taalmodellen

Het onderzoek introduceert GSPO, een nieuwe versterkingsleer-algoritme dat schaalbaarheid en stabiliteit verbetert bij het trainen van taalmodellen. Het algoritme biedt betere trainingsefficiëntie en voorkomt modelinstabiliteit, wat leidt tot betere prestaties bij grote Mixture-of-Experts (MoE) modellen. GSPO is van groot belang geweest voor de schaalbare versterkingsleertraining van de nieuwste Qwen3-modellen.

Bron: Alibaba Cloud / Qwen

Originele taal: [en]

Lees hier het originele artikel