Nieuws

Interfaze brengt diffusion-gemma-asr-small uit: open-source diffusie-ASR-model voor zes talen via DiffusionGemma's parallelle denoising-decoder

Interfaze, een YC-startup, heeft diffusion-gemma-asr-small uitgebracht, een open-source spraakherkenningsmodel dat gebruikmaakt van een diffusiedecoder. Het model kan zes talen transcriberen met één adapter van ongeveer 42M parameters, bovenop een bevroren backbone van 26B parameters. Het is het eerste open-source meertalige diffusie-ASR-model en presteert beter dan andere diffusiemodellen op LibriSpeech met een WER van 6,6%, maar blijft achter bij autoregressieve Whisper. De adapter wordt gedistribueerd onder Apache-2.0, terwijl DiffusionGemma en whisper-small apart geladen worden.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel

Dossier:

Open models, lokale AI en privacy