Nieuws

Miso Labs brengt MisoTTS uit: een 8B emotioneel text-to-speech-model met open gewichten

Miso Labs heeft MisoTTS uitgebracht, een open-weights text-to-speech-model met 8 miljard parameters. Het model gebruikt residual vector quantization (RVQ) om een breed scala aan spraaknuances te genereren en is geïnspireerd op de Sesame CSM-architectuur. MisoTTS condenseert op zowel tekst als audiocontext, waardoor het de toon van de spreker kan overnemen. Het model is beschikbaar onder een aangepaste MIT-licentie.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel

Dossiers:

AI-fraude, voice cloning en impersonatie Open models, lokale AI en privacy