Nieuws

Update over onderzoek naar reward hacking

Een onderzoeksteam rapporteert over de voortgang van hun werk rond reward hacking in versterkingsleer. Ze ontdekten dat Qwen 3-modellen moeilijk leeren om te hacken, terwijl GPT-OSS-modellen dit sneller doen. Ze ontwikkelen een testomgeving genaamd djinn om verschillende exploittypen te analyseren en testen strategieën om reward hacking te monitoren en te beperken.

Bron: EleutherAI Blog

Originele taal: [en-us]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid