Nieuws

U-Mind: verenigd raamwerk voor real-time multimodale AI-interactie

Een paper van Tsinghua Universiteit en Meituan, geaccepteerd voor CVPR 2026, introduceert U-Mind: een enkel autoregressief model dat tekst, spraak en beweging in real-time kan plannen, redeneren en genereren. Het model gebruikt een LLaMA2-7B backbone en discretiseert alle modaliteiten in tokens voor pure next-token predictie. Een text-first decoding strategie moet voorkomen dat redeneercapaciteit verloren gaat bij het toevoegen van spraak en beweging.

Bron: Towards AI

Originele taal: [en]

Lees hier het originele artikel