Nieuws

Onderzoek: Specifieke systeemprompts zorgen dat LLM's andere signalen negeren

Uit een benchmark met 220.000 beslissingen blijkt dat hyper-specifieke instructies in systeemprompts het redeneervermogen van LLM's buiten de opgegeven signalen onderdrukken. Een vierregelige prompt leidde tot 93,7% detectie van phishing op GPT-4o-mini, maar daalde naar 31,1% onder een aanval van 10 dollar. De modellen interpreteerden het woord 'primair' alsof er 'alleen' stond, waardoor andere relevante signalen werden genegeerd. Dit fenomeen kan bredere implicaties hebben voor AI-agenten in niet-adversariële toepassingen zoals klantenservice en medische triage.

Bron: Towards AI

Originele taal: [en]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid