Nieuws

Trading inference-time compute for adversarial robustness

OpenAI meldt dat redeneermodellen zoals o1 robuster worden tegen adversariale aanvallen als ze meer tijd en resources krijgen om te 'denken'. In een nieuw onderzoeksrapport tonen ze aan dat toename van inference-time compute de weerstand van modellen kan verhogen, hoewel er uitzonderingen zijn. De studie onderzoekt verschillende aanvalstypes en toont aan dat de kans op succes van aanvallen afneemt met groeiende inference-time compute, behalve in bepaalde gevallen zoals bij de StrongREJECT benchmark.

Bron: OpenAI News

Originele taal: [en]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid