Nieuws
Globale-batch belastingverdeling bijna gratis lunch om de training van MoE-LLM's te verbeteren
Alibaba Cloud en Qwen presenteren een nieuwe aanpak voor het verbeteren van de training van Mixture-of-Experts (MoE)-modellen. Door de belastingverdeling van experts te berekenen op het niveau van de globale batch, in plaats van per micro-batch, wordt de prestatie van de modellen aanzienlijk verbeterd en wordt expert-specialisatie bevorderd. De methode leidt tot betere resultaten en een hogere efficiëntie bij het trainen van grote taalmodellen.