Nieuws
Nieuwe methode versnelt RL-rollouts met tot 50% zonder kwaliteitsverlies
DeepSeek introduceert Distribution-aware Speculative Decoding (DAS), een nieuw kader dat de rollout-fase in versterkte leer (RL) aanzienlijk versnelt. DAS vermindert de uitvoeringsduur met tot 50% zonder dat de kwaliteit van de beloning daalt. De methode werkt door gebruik te maken van een dynamisch systeem dat stragglers neutraliseert en de GPU-gebruik optimaliseert. DAS maakt gebruik van een adaptief suffixboom-gebaseerd systeem dat in real-time bijhoudt en aanpast aan de evoluerende modelgewichten. Het systeem verdeelt ook aanvragen dynamisch op basis van historische gegevens, waardoor de efficiëntie van de training wordt verbeterd. De methode werd getest op twee taken: wiskundige redenering en codegeneratie, waarbij DAS een significante vermindering van de uitvoeringsduur behaalt zonder de beloningskwaliteit te beïnvloeden.