Nieuws

Anthropic's Natural Language Autoencoders laten AI in het Engels 'praten'

Anthropic heeft een nieuwe interpretabiliteitsmethode genaamd Natural Language Autoencoders (NLA) gepubliceerd waarmee LLM-activaties in natuurlijke taal worden uitgelegd. De NLA produceert ongevraagd bulletpoints in het Engels die beschrijven wat het model denkt, gebaseerd op een token in een transcript van Claude Opus 4.6. Het onderzoek onderzoekt of deze uitleg betrouwbaar is.

Bron: TheSequence

Originele taal: [en]

Lees hier het originele artikel

Dossier:

Ai Safety / veiligheid