Nieuws
GSPO: Richting schaalbare versterkingsleer voor taalmodellen
Het onderzoek introduceert GSPO, een nieuwe versterkingsleer-algoritme dat schaalbaarheid en stabiliteit verbetert bij het trainen van taalmodellen. Het algoritme biedt betere trainingsefficiëntie en voorkomt modelinstabiliteit, wat leidt tot betere prestaties bij grote Mixture-of-Experts (MoE) modellen. GSPO is van groot belang geweest voor de schaalbare versterkingsleertraining van de nieuwste Qwen3-modellen.