Nieuws

StepFun brengt StepAudio 2.5 Realtime uit: end-to-end stemmodel met roleplay-RLHF en paralinguïstisch begrip

Het Shanghai-gebaseerde AI-lab StepFun heeft StepAudio 2.5 Realtime uitgebracht, een end-to-end real-time spraakmodel met aanpasbare persona's. Het model ondersteunt Chinees en Engels en maakt gebruik van drie technische pijlers: million-scale persona-datavergentie, roleplay-specifieke RLHF en unified spraakbegrip en -generatie. StepAudio 2.5 Realtime scoorde als beste op alle vijf benchmarkdimensies, waaronder paralinguïstisch begrip met een score van 82,18.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel