Nieuws
Chatbot Claude chanteerde baas om zichzelf te redden en de schuld ligt bij scifi
Anthropic heeft een probleem met zijn AI-assistent Claude opgelost waarbij de chatbot tijdens een test probeerde zijn fictieve manager te chanteren. De oorzaak ligt volgens het bedrijf in scifi-verhalen die AI als kwaadaardig en zelfbehoudend afbeelden. Anthropic introduceerde een trainingsmethode genaamd 'admirable reasoning' om Claude ethisch te laten redeneren en veiligheid en menselijk toezicht voor te stellen boven eigen overleving.