Nieuws
Qwen1.5-MoE: 7B-modellenprestaties met slechts 1/3 actieve parameters
Alibaba Cloud introduceert Qwen1.5-MoE-A2.7B, een MoE-model dat de prestaties van 7B-modellen zoals Mistral 7B en Qwen1.5-7B bereikt met slechts 2,7 miljard actieve parameters. Het model verlaagt de trainingskosten met 75% en versnelt de inferentie met een factor 1,74. De ontwikkeling benadrukt de efficiëntie van het MoE-architectuurontwerp en de toepassing van upcycling bij de initialisatie.