Nieuws
Promptinjectie als rolverwarring: onderzoek toont kwetsbaarheid LLM's aan
Onderzoekers Charles Ye, Jasmine Cui en Dylan Hadfield-Menell tonen aan dat LLM's vatbaar zijn voor promptinjectie door rolverwarring. Modellen hechten meer waarde aan de stijl van tekst dan aan de daadwerkelijke inhoud, waardoor jailbreaks mogelijk zijn. Door 'destyling' kan het slagingspercentage van aanvallen dalen van 61% naar 10%.