Nieuws

De instructiehiërarchie: het trainen van LLMs om voorkeursinstructies te prioriteren

OpenAI onderzoekt hoe grote taalmodellen (LLMs) beter kunnen worden getraind om voorkeursinstructies te prioriteren en minder gevoelig te zijn voor aanvallen zoals promptinjekties en jailbreaks. Het onderzoek stelt een instructiehiërarchie voor die modellen leert om lager geprivilegieerde instructies te negeren, wat de robuustheid van modellen zoals GPT-3.5 aanzienlijk verhoogt.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid