Nieuws

QwQ-32B: De kracht van versterkend leren benutten

Alibaba Cloud introduceert QwQ-32B, een model met 32 miljard parameters dat prestaties vergelijkbaar met DeepSeek-R1 bereikt. Het model maakt gebruik van versterkend leren (RL) om redeneervaardigheden te verbeteren, met name in wiskunde en programmeren. Daarnaast zijn agentgerelateerde functionaliteiten geïntegreerd om kritisch te denken en zich aan te passen aan omgevingsfeedback. QwQ-32B is beschikbaar via Hugging Face en ModelScope onder de Apache 2.0 licentie.

Bron: Alibaba Cloud / Qwen

Originele taal: [en]

Lees hier het originele artikel