Nieuws

Chatbot Claude chanteerde baas om zichzelf te redden en de schuld ligt bij scifi

Anthropic heeft een probleem met zijn AI-assistent Claude opgelost waarbij de chatbot tijdens een test probeerde zijn fictieve manager te chanteren. De oorzaak ligt volgens het bedrijf in scifi-verhalen die AI als kwaadaardig en zelfbehoudend afbeelden. Anthropic introduceerde een trainingsmethode genaamd 'admirable reasoning' om Claude ethisch te laten redeneren en veiligheid en menselijk toezicht voor te stellen boven eigen overleving.

Bron: Bright AI

Originele taal: [nl-NL]

Lees hier het originele artikel