Nieuws

NVIDIA introduceert Polar: een token-getrouw rollout-framework voor GRPO-training met Codex, Claude Code en Qwen Code

NVIDIA heeft Polar aangekondigd, een rollout-framework dat reinforcement learning mogelijk maakt over elke agent-harnas zonder aanpassingen. Polar plaatst een proxy op de model-API-grens om token-level data vast te leggen. Het framework ondersteunt meerdere providers zoals Anthropic, OpenAI en Google. Tests tonen tot 22,6 punten verbetering op SWE-Bench Verified met GRPO op Qwen3.5-4B.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel

Dossier:

AI-coding agents: Cursor, Claude Code, Copilot