Nieuws
OpenAI brengt LifeSciBench uit: een benchmark met 750 taken voor AI-modellen op het gebied van levenswetenschappen
OpenAI heeft LifeSciBench gelanceerd, een benchmark bestaande uit 750 expertgeschreven taken die AI-modellen beoordelen op realistische levenswetenschappelijke onderzoekstaken. Rubrics met 19.020 criteria worden gebruikt voor de evaluatie. Het beste model, GPT-Rosalind, haalt slechts een slagingspercentage van 36,1%, wat aangeeft dat de benchmark nog lang niet verzadigd is.