Nieuws
Ontwerp een complete multimodale RLVR-pijplijn met Open-MM-RL, vision-language prompting, reward scoring en GRPO-export
Een tutorial beschrijft hoe je een complete multimodale RLVR-pijplijn opzet met de Open-MM-RL-dataset. Het omvat het laden van de dataset, analyse, bouwen van een rewardfunctie, opmaken van prompts voor vision-language-modellen en exporteren naar GRPO-stijl voor toekomstige multimodale RL-training.