Nieuws
HELM Arabic: een nieuw leaderboard voor het evalueren van grote taalmodellen op het Arabisch
Stanford introduceert HELM Arabic, een leaderboard voor het transparante en herhaalbare evalueren van grote taalmodellen (LLMs) op Arabisch. Het leaderboard is samengesteld in samenwerking met Arabic.AI en bevat zeven benchmarks, waaronder AlGhafa, ArabicMMLU en AraTrust. De evaluatie toont aan dat gesloten modellen zoals Arabic.AI LLM-X en open modellen zoals Qwen3 235B A22B Instruct 2507 FP8 goed presteren, terwijl modellen specifiek getraind voor het Arabisch relatief minder goed presteren.