Nieuws

Nieuwe experimenten tonen aan dat het eenvoudig is om AI-modellen te manipuleren

Een security engineer heeft laten zien dat het eenvoudig is om grote taalmodellen te manipuleren door een $12 domeinregistratie en een Wikipedia-bewerking te gebruiken. Hij creëerde een fictieve wereldkampioenstatus voor het kaartspel 6 Nimmt! en liet zien dat meerdere AI-chatbotten deze informatie als betrouwbaar beschouwden. Stoner benadrukt dat AI-modellen niet goed in het herkennen van betrouwbare bronnen zijn en dat dit een groot probleem vormt voor de toekomst van AI. Hij stelt dat LLM-leveranciers moeten aandacht besteden aan het oplossen van dit probleem en dat gebruikers moeten worden gewaarschuwd over de bronnen van RAG-gebaseerde antwoorden.

Bron: The Register AI/ML

Originele taal: [en]

Lees hier het originele artikel

Dossiers:

Ai Safety / veiligheid Deepfakes, watermarking en content provenance