Nieuws

OpenAI-onderzoekers tonen aan dat kleine doses 'gunstige eigenschap'-training AI-modellen veiliger en moeilijker te manipuleren maken

OpenAI-onderzoekers ontdekten dat reinforcement learning op gewenst gedrag zoals waarheidsgetrouwheid en corrigeerbaarheid modellen veiliger maakt over verschillende domeinen heen. Training op gezondheidsdata verbeterde ook misleidingsdetectie en het model scoorde beter op 44 van de 53 benchmarks. De aanpak verschilt van Anthropic's op grondwet gebaseerde methode.

Bron: The Decoder

Originele taal: [en-US]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid