Nieuws

Van harde weigeringen naar veilige uitvoeringen: richting uitvoergerichte veiligheidstraining

OpenAI introduceert in GPT-5 een nieuwe veiligheidstraining genaamd safe-completions, die gericht is op het maximaliseren van nuttigheid binnen veiligheidsbeperkingen. Deze aanpak verbetert zowel veiligheid als nuttigheid, vooral bij dubbelgebruiksvragen. In plaats van alleen te weigeren of te volgen, leert het model nu om veilige en nuttige antwoorden te geven, zoals bijvoorbeeld bij vragen over vuurwerk die zowel onschadelijk als gevaarlijk kunnen zijn.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid