Nieuws

Nieuw open-source spraakmodel Audio Interaction luistert continu en beslist elke 0,4 seconde of het moet spreken

Onderzoekers uit China, Hongkong en Singapore hebben een open-source spraakmodel genaamd Audio Interaction ontwikkeld dat continu audiostreams verwerkt. Het model splitst audio in blokken van 0,4 seconden en beslist na elk blok via een speciale token of het stil moet blijven of een reactie moet genereren. Audio Interaction combineert dialoog, vertaling, transcriptie en geluidsherkenning in één systeem, en presteert beter dan Gemini 3 Flash in proactieve geluidsdetectietests. De code en modelgewichten zijn beschikbaar op GitHub onder de Apache 2.0-licentie.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel

Dossier: