Nieuws
NVIDIA introduceert Polar: een token-getrouw rollout-framework voor GRPO-training met Codex, Claude Code en Qwen Code
NVIDIA heeft Polar aangekondigd, een rollout-framework dat reinforcement learning mogelijk maakt over elke agent-harnas zonder aanpassingen. Polar plaatst een proxy op de model-API-grens om token-level data vast te leggen. Het framework ondersteunt meerdere providers zoals Anthropic, OpenAI en Google. Tests tonen tot 22,6 punten verbetering op SWE-Bench Verified met GRPO op Qwen3.5-4B.