Nieuws

Sina's open model VibeThinker-3B toont aan dat redeneren goed comprimeert maar feitelijke kennis niet

Sina Weibo's VibeThinker-3B heeft slechts drie miljard parameters maar presteert op wiskunde- en codeerbenchmarks even goed als modellen als DeepSeek V3.2 en Kimi K2.5, die tot 333 keer groter zijn. De prestatie komt van meerfasen post-training in plaats van grootte. De onderzoekers stellen de hypothese dat logisch redeneren goed comprimeert in kleine modellen, maar brede wereldkennis niet. Het model is openbaar beschikbaar op Hugging Face en GitHub.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel