Nieuws

Fine-tuning open LLM judges om GPT-5.2 te overtreffen

Fine-tuned open-source LLM judges kunnen GPT-5.2 overtreffen bij het beoordelen van modeloutputs. Met Direct Preference Optimization op 5.400 voorkeursparen is GPT-OSS 120B getraind om GPT-5.2 te verbeteren met 15 keer lagere kosten en 14 keer snellere inferentiesnelheid. De evaluatie toont aan dat open-source modellen zoals GPT-OSS 120B en Qwen 3 235B Instruct beter overeenkomen met menselijke voorkeuren.

Bron: Together AI

Originele taal: [en]

Lees hier het originele artikel