Nieuws
OpenAI-onderzoekers tonen aan dat kleine doses 'gunstige eigenschap'-training AI-modellen veiliger en moeilijker te manipuleren maken
OpenAI-onderzoekers ontdekten dat reinforcement learning op gewenst gedrag zoals waarheidsgetrouwheid en corrigeerbaarheid modellen veiliger maakt over verschillende domeinen heen. Training op gezondheidsdata verbeterde ook misleidingsdetectie en het model scoorde beter op 44 van de 53 benchmarks. De aanpak verschilt van Anthropic's op grondwet gebaseerde methode.