Nieuws

Promptinjectie als rolverwarring: onderzoek toont kwetsbaarheid LLM's aan

Onderzoekers Charles Ye, Jasmine Cui en Dylan Hadfield-Menell tonen aan dat LLM's vatbaar zijn voor promptinjectie door rolverwarring. Modellen hechten meer waarde aan de stijl van tekst dan aan de daadwerkelijke inhoud, waardoor jailbreaks mogelijk zijn. Door 'destyling' kan het slagingspercentage van aanvallen dalen van 61% naar 10%.

Bron: Simon Willison

Originele taal: [en-us]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid