Nieuws
QwQ-32B: De kracht van versterkend leren benutten
Alibaba Cloud introduceert QwQ-32B, een model met 32 miljard parameters dat prestaties vergelijkbaar met DeepSeek-R1 bereikt. Het model maakt gebruik van versterkend leren (RL) om redeneervaardigheden te verbeteren, met name in wiskunde en programmeren. Daarnaast zijn agentgerelateerde functionaliteiten geïntegreerd om kritisch te denken en zich aan te passen aan omgevingsfeedback. QwQ-32B is beschikbaar via Hugging Face en ModelScope onder de Apache 2.0 licentie.