Nieuws

Zesduizend pogingen om AI-assistent te hacken mislukt

Fernando Irarrázaval organiseerde een uitdaging op hackmyclaw.com om te testen of iemand geheimen van zijn OpenClaw-testinstantie kon stelen via e-mail. Na 6.000 pogingen, $500 aan tokenkosten en een geschorste Google-account door te veel binnenkomende e-mails, slaagde niemand erin het geheim te onthullen. Het onderliggende model was Opus 4.6 met strikte anti-promptinjectieregels. Dit toont aan dat trainingsinspanningen van AI-labs effectief zijn, maar biedt geen garantie voor productiesystemen.

Bron: Simon Willison

Originele taal: [en-us]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid