Nieuws

Multimodale evaluatoren: MLLM-as-a-judge voor image-to-text taken in Strands Evals

AWS kondigt vier nieuwe multimodale evaluatoren aan in de Strands Evals SDK voor image-to-text taken. De evaluatoren (Overall Quality, Correctness, Faithfulness, en Instruction Following) gebruiken een MLLM-as-a-judge om antwoorden direct tegen de bronafbeelding te scoren. Ze ondersteunen zowel referentie-gebaseerde als referentieloze evaluatie en leveren naast een score ook een redenering voor debugging. Aanbevolen wordt om Anthropic Claude Sonnet 4.6 als standaard rechtermodel op Amazon Bedrock te gebruiken vanwege de beste nauwkeurigheid-kostenverhouding.

Bron: AWS Machine Learning Blog

Originele taal: [en-US]

Lees hier het originele artikel