Nieuws

Prime Intellect brengt prime-rl 0.6.0 uit om triljoen-parameter MoE-modellen te trainen op agentische RL-werkbelastingen

Prime Intellect heeft versie 0.6.0 van prime-rl uitgebracht, een framework voor reinforcement learning op triljoen-parameter Mixture-of-Experts (MoE) modellen. Het team trainde GLM-5 op software-engineering taken met sequentielengtes tot 131k en staptijden onder vijf minuten, gebruikmakend van 28 H200 nodes. De update introduceert asynchrone RL met gedisaggregeerde trainer en inferentie, en optimalisaties zoals FP8, Wide EP, P/D-disaggregatie, KV-offloading en router replay.

Bron: MarkTechPost

Originele taal: [en-US]

Lees hier het originele artikel