Nieuws
Paper Walkthrough — MACT: Een multi-agent samenwerkingsframework voor visueel documentbegrip
In een CVPR 2026-paper introduceren onderzoekers van NUS, Tencent Youtu Lab en Tsinghua MACT, een multi-agent framework dat visueel documentbegrip opsplitst in vier gespecialiseerde agenten: planning, uitvoering, beoordeling en antwoord. Het framework presteert beter dan grotere monolitische modellen zoals Qwen2.5-VL-72B en InternVL3-78B op 15 benchmarks, ondanks dat het minder dan 30B parameters gebruikt. De aanpak, procedurele schaling genoemd, wijst test-tijd compute per agent toe voor optimale efficiëntie.