Nieuws

Qwen1.5-MoE: 7B-modellenprestaties met slechts 1/3 actieve parameters

Alibaba Cloud introduceert Qwen1.5-MoE-A2.7B, een MoE-model dat de prestaties van 7B-modellen zoals Mistral 7B en Qwen1.5-7B bereikt met slechts 2,7 miljard actieve parameters. Het model verlaagt de trainingskosten met 75% en versnelt de inferentie met een factor 1,74. De ontwikkeling benadrukt de efficiëntie van het MoE-architectuurontwerp en de toepassing van upcycling bij de initialisatie.

Bron: Alibaba Cloud / Qwen

Originele taal: [en]

Lees hier het originele artikel