Nieuws
Miso Labs brengt MisoTTS uit: een 8B emotioneel text-to-speech-model met open gewichten
Miso Labs heeft MisoTTS uitgebracht, een open-weights text-to-speech-model met 8 miljard parameters. Het model gebruikt residual vector quantization (RVQ) om een breed scala aan spraaknuances te genereren en is geïnspireerd op de Sesame CSM-architectuur. MisoTTS condenseert op zowel tekst als audiocontext, waardoor het de toon van de spreker kan overnemen. Het model is beschikbaar onder een aangepaste MIT-licentie.