Nieuws

HELM Arabic: een nieuw leaderboard voor het evalueren van grote taalmodellen op het Arabisch

Stanford introduceert HELM Arabic, een leaderboard voor het transparante en herhaalbare evalueren van grote taalmodellen (LLMs) op Arabisch. Het leaderboard is samengesteld in samenwerking met Arabic.AI en bevat zeven benchmarks, waaronder AlGhafa, ArabicMMLU en AraTrust. De evaluatie toont aan dat gesloten modellen zoals Arabic.AI LLM-X en open modellen zoals Qwen3 235B A22B Instruct 2507 FP8 goed presteren, terwijl modellen specifiek getraind voor het Arabisch relatief minder goed presteren.

Bron: Stanford CRFM

Originele taal: [en]

Lees hier het originele artikel