Dossier
Ai Safety / veiligheid
Risico’s van AI: misbruik, fouten, macht en controleverlies.
Nieuwsitems
Gekoppelde artikelen
Op 22 juni 2026 waarschuwde de Five Eyes-inlichtingenalliantie dat opkomende AI-modellen zoals OpenAI's GPT-5.5-Cyber en Anthropic's Mythos de drempel voor cybercriminaliteit drastisch verlagen. Geautomatiseerde AI-agenten kunnen kwetsbaarheden sneller vinden dan mensen, wat leidt tot meer datadiefstal en gepersonaliseerde phishingaanvallen. De alliantie roept organisaties op om geautomatiseerde verdedigingen in te zetten en individuen om multi-factorauthenticatie te gebruiken.
Guardrails voor LLMs zijn essentieel om te voorkomen dat een AI-app in productie iets gênants zegt. Een LLM-functie zonder guardrails is als code zonder foutafhandeling: het werkt meestal goed, maar kan onverwacht falen. Dit artikel bespreekt hoe je dergelijke guardrails implementeert.
Het Weaver Stack-spec biedt een gedeelde specificatie voor het aanpakken van vier veelvoorkomende problemen bij LLM-agenten: tool-explosie, context-uitdijing, onveilige uitvoering en onbetrouwbare orchestratie. De oplossing bestaat uit drie lagen: routing (contextweaver), uitvoering (agent-kernel) en orchestratie (ChainWeaver), die communiceren via gestandaardiseerde contracten. Het doel is interoperabiliteit tussen componenten mogelijk te maken zonder een nieuw framework te introduceren.
De cybersecurityagentschappen van de Five Eyes-landen waarschuwen dat AI cyberaanvallen versnelt en roepen verdedigers op om eerst te investeren in fundamentele beveiligingsmaatregelen. Het rapport benadrukt dat AI zowel aanvallers als verdedigers helpt, maar dat basisprincipes zoals patchen en assetmanagement essentieel blijven. Het inzetten van AI zonder deze basis wordt vergeleken met het plaatsen van een robotwaakhond voor een open deur.
Onderzoekers Charles Ye, Jasmine Cui en Dylan Hadfield-Menell tonen aan dat LLM's vatbaar zijn voor promptinjectie door rolverwarring. Modellen hechten meer waarde aan de stijl van tekst dan aan de daadwerkelijke inhoud, waardoor jailbreaks mogelijk zijn. Door 'destyling' kan het slagingspercentage van aanvallen dalen van 61% naar 10%.
In een aflevering van de Latent Space-podcast bespreken Gray Swan-oprichters Zico Kolter en Matt Fredrikson de staat van AI red-teaming na de Amerikaanse exportcontrole op Mythos. Ze introduceren Shade, een geautomatiseerd red-teamingmodel dat beter is dan mensen in het kraken van AI-systemen. Ook waarschuwen ze voor een nieuwe kwetsbaarheidsklasse voor agenten zoals Codex en Claude Code door indirecte prompt-injectie. De volgende grote AI-incident kan een 'grijze zwaan' zijn: onwaarschijnlijk maar duidelijk zichtbaar voordat het gebeurt.
De inlichtingendiensten van de Five Eyes-landen waarschuwen dat geavanceerde AI-modellen al binnen maanden in staat zullen zijn om overheden en bedrijven aan te vallen. In een gezamenlijke verklaring roepen zij leiders op om nu actie te ondernemen. De AI-modellen zullen naar verwachting zowel offensieve als defensieve cybercapaciteiten fundamenteel veranderen.
De inlichtingendiensten van de Five Eyes waarschuwen in een zeldzame gezamenlijke verklaring dat geavanceerde AI-modellen binnen enkele maanden in staat zullen zijn tot verwoestende cyberaanvallen op overheden en bedrijven. De waarschuwing volgt op het besluit van de Amerikaanse regering om buitenlandse staatsburgers de toegang te ontzeggen tot Anthropic's AI-model Fable.
OpenAI introduceert nieuwe Daybreak-tools, waaronder Codex Security en GPT-5.5-Cyber, waarmee organisaties kwetsbaarheden op schaal kunnen vinden, valideren en patchen.
Een nieuwe studie van de National University of Singapore, VinUniversity en de Nanyang Technological University onderzoekt weak-to-strong beloningsmodellen. De onderzoekers gebruikten RAIL als een van drie harmlessness-benchmarks. De resultaten tonen aan dat een hoge score op de trainingsset geen garantie biedt voor generalisatie naar andere datasets; modellen leren de eigenaardigheden van de dataset in plaats van de algemene voorkeur. De auteurs stellen Representation Anchoring voor als oplossing, een methode die afwijking van de kenmerken van het voorgetrainde model bestraft.
Loop Engineering stelt een governance-architectuur voor die AI-agenten betrouwbaarder moet maken. Het raamwerk omvat zes componenten, waaronder een controller die bepaalt of een agent moet stoppen, herzien of escaleren. De aanpak is geïnspireerd op cybernetica en stroomlijnt de aansturing van agentsystemen zoals die van Microsoft.
De Trump-administratie dwong Anthropic twee AI-modellen offline te halen vanwege nationale veiligheidsrisico's. Op de podcast Equity bespreken experts of deze stap politiek gemotiveerd is en wat het betekent voor de AI-ecosysteem. Sommigen zien het als een voordeel voor concurrenten, anderen waarschuwen voor gevolgen voor cybersecurity.
OpenAI-onderzoekers ontdekten dat reinforcement learning op gewenst gedrag zoals waarheidsgetrouwheid en corrigeerbaarheid modellen veiliger maakt over verschillende domeinen heen. Training op gezondheidsdata verbeterde ook misleidingsdetectie en het model scoorde beter op 44 van de 53 benchmarks. De aanpak verschilt van Anthropic's op grondwet gebaseerde methode.
Het artikel stelt dat ondernemingen die autonome agenten inzetten tool-call logging moeten behandelen als een eersteklas compliance-laag, geïmplementeerd in een gedeelde bibliotheek. De Evidence-Logged Agent Loop (EGAL) wordt gepresenteerd als patroon dat voldoet aan vijf vereisten voor bewijsvoering: identiteitsgebonden, geschematiseerd, causaal geketend, manipulatiebestendig en eenmalig vastgelegd. Dit maakt multi-team agentimplementaties controleerbaar voor audit en compliance.
Twee wetenschappers waarschuwen in het vakblad Science dat de vooruitgang van AI ons begrip ervan overstijgt. AI-systemen worden beter, maar mensen begrijpen steeds minder hoe dat komt, terwijl AI ons juist steeds beter leert begrijpen. De onderzoekers pleiten voor maatregelen zoals uitlegbare AI en realistischere tests.
Een nieuwe super PAC genaamd Guardrails Alliance, gesteund door techwerkers, vakbonden en andere groepen, is gelanceerd om AI-wetgeving te ondersteunen. De PAC heeft $5 miljoen opgehaald en wil $15 miljoen inzamelen, tegenover $100 miljoen van pro-tech PAC Leading the Future, gesteund door OpenAI-president Greg Brockman. Guardrails steunt congreskandidaat Alex Bores, die onder vuur ligt van Leading the Future.
Mandy Andress, ciso van Elastic, stelt dat AI en autonome AI-agents traditionele cybersecuritymodellen overbodig maken. Organisaties moeten risico's opnieuw definiëren en cybersecurity als een strategische discipline benaderen. Cybercriminelen gebruiken AI al voor geavanceerdere aanvallen, terwijl AI-agents nieuwe risicocategorieën creëren. Andress pleit voor proactieve inzet van AI als verdedigingsmiddel.
Pramaana Labs, een AI-verificatie- en verantwoordingsplatform, heeft een seed-ronde van $27 miljoen afgesloten onder leiding van Khosla Ventures. Het bedrijf gebruikt de fondsen om formaliserings- en bewijsmodellen te trainen, AI-onderzoekers aan te nemen en zijn netwerk van domeinexperts uit te breiden in gereguleerde sectoren zoals belastingen, gezondheidszorg, financiële compliance en cybersecurity. Vroege investeerders zijn onder meer Pushmeet Kohli, Vice President bij Google DeepMind, en Sriram Rajamani, Corporate Vice President bij Microsoft CoreAI.
Het Pentagon heeft bevestigd dat het Grok, de AI-chatbot van Elon Musks xAI, heeft gebruikt om doelwitten in Iran te identificeren en meer dan 2.000 munitie af te vuren binnen 96 uur. Dit gebeurde tijdens de oorlog tussen de VS en Israël tegen Iran. De bekentenis kwam in een verklaring van de AI-chef van het Pentagon, Cameron Stanley, tijdens een rechtszaak over de Clean Air Act tegen xAI.
Energiebedrijven kiezen voor een andere vorm van AI dan chatbots, gebaseerd op engineering en natuurkunde, omdat generieke taalmodellen te onbetrouwbaar zijn voor veiligheidskritische industriële processen. KBR en Applied Computing hebben het platform INSITE 3.0 ontwikkeld dat operationele data, simulaties en AI combineert om prestaties en energie-efficiëntie te verbeteren. Volgens experts is precisie essentieel in de energiesector, waar fouten grote gevolgen kunnen hebben.
NVIDIA heeft SkillSpector geïntroduceerd, een tool voor het evalueren van AI-vaardigheden op beveiligingsrisico's voordat ze in workflows worden gebruikt. De tutorial legt uit hoe men een corpus met veilige en kwetsbare vaardigheden opbouwt, deze scant met SkillSpector's LangGraph-workflow, resultaten visualiseert en exporteert in SARIF-formaat. Ook wordt uitgelegd hoe men een aangepaste analyzer toevoegt en optioneel LLM-semantische analyse toepast.
De regering-Trump eist van Anthropic dat het zijn geavanceerde AI-model Claude Fable 5 alleen opnieuw uitbrengt als alle jailbreaks zijn geblokkeerd. Veiligheidsexperts stellen dat het onmogelijk is om alle omzeilingen van de beveiliging te voorkomen. Het meningsverschil tussen de overheid en Anthropic lijkt tot een hoogtepunt te komen.
OpenAI-onderzoekers hebben een methode genaamd 'Deployment Simulation' ontwikkeld om AI-fouten voor release te voorspellen. De methode gebruikt echte, geanonimiseerde gebruikersgesprekken in plaats van synthetische testvragen. In tests met GPT-5-modellen voorspelde de simulatie fouttrends correct in 92 procent van de gevallen.
Pramaana Labs heeft een seed-ronde van $27 miljoen afgesloten onder leiding van Khosla Ventures. Het bedrijf wil formele verificatie toepassen op AI-systemen voor kritische sectoren zoals recht, medicijnontdekking en belastingvoorbereiding. Het gebruikt de open-source programmeertaal LEAN om de uitvoer van LLM's te verifiëren.
Verkeersveiligheidsonderzoekers beschuldigen Tesla ervan cijfers te hebben gemanipuleerd om goedkeuring te krijgen voor het Full Self-Driving-systeem in Europa. Volgens Reuters overdreef Tesla in een presentatie voor Zweedse toezichthouders de veiligheid van FSD in de VS, met claims dat het systeem zeven keer minder ongelukken zou veroorzaken dan menselijke bestuurders. Onafhankelijke onderzoekers noemen de cijfers misleidend omdat ze ervan uitgaan dat alle voertuigen door Tesla's in FSD-modus worden vervangen. De Europese Transportveiligheidsraad roept op tot onafhankelijke verificatie van de claims.
Databricks heeft een partner ecosysteem aangekondigd voor Unity AI Gateway, gericht op AI-governance. Nieuwe integraties met onder meer CrowdStrike, Okta en Palo Alto Networks moeten AI-beveiliging, identiteitsbeheer en observatie verbeteren. De gateway biedt controles op prompts, responses en agent acties in real-time.
Anthropic heeft een kantoor geopend in Seoul en meerdere partnerschappen aangekondigd met Koreaanse bedrijven en onderzoeksinstellingen. Het bedrijf tekende een Memorandum of Understanding met het Koreaanse Ministerie van Wetenschap en ICT om AI-veiligheid te bevorderen. Claude wordt ingezet bij grote ondernemingen zoals NAVER, Nexon, LG CNS, Hanwha Solutions en Samsung SDS, en startups zoals Channel Corp bouwen Claude in hun producten. Daarnaast werkt Anthropic samen met het National AI Research Lab (NAIRL) om academisch onderzoek te ondersteunen.
Amazon heeft de InvokeGuardrailChecks API aangekondigd voor Amazon Bedrock Guardrails. Deze API maakt het mogelijk om individuele veiligheidscontroles toe te passen in agentic AI-toepassingen zonder aparte guardrail-resources aan te maken. De API werkt in detect-only-modus en retourneert numerieke scores, waarmee ontwikkelaars zelf drempelwaarden en acties kunnen bepalen.
Probably heeft $9 miljoen aan seed-financiering opgehaald van Andreessen Horowitz. Het bedrijf wil hallucinaties en feitelijke fouten in AI voorkomen en een nauwkeurigheid van 99,99% bereiken. De eerste tool is een datawetenschapstool die antwoorden met citaten en een audittrail levert.
Op 9 juni bracht Anthropic zijn Fable AI-model uit. Drie dagen later classificeerde de Amerikaanse overheid het als een gevaarlijk wapen en verbood buitenlanders er toegang toe. Omdat Anthropic geen onderscheid kon maken tussen Amerikanen en buitenlanders, schakelde het bedrijf de toegang voor iedereen uit. De auteurs betogen dat het probleem niet één model is, maar de algemene trend van toenemende AI-capaciteiten, en dat echte oplossingen collectieve actie vereisen.
Het Instituut voor de Estse Taal heeft een benchmark gelanceerd die meet hoe vatbaar AI-taalmodelen zijn voor Russische propaganda. Zestig modellen werden getest met 75 vragen in drie talen over veertien propagandanarratieven. Anthropic's Claude-modellen scoorden het beste, terwijl Mistral onderaan bungelde, wat aansluit bij eerdere bevindingen over desinformatiepercentages.
Meer dan 100 cybersecurity-experts hebben een open brief ondertekend waarin ze de VS oproepen het exportverbod op Anthropic's Fable 5 op te heffen. Zij stellen dat het verbod verdedigers belemmert zonder aanvallers te vertragen. De brief pleit voor regulering op basis van wetenschappelijke evaluaties.
AI red teaming test kunstmatige-intelligentiesystemen door aanvalsscenario's na te bootsen om beveiligings- en veiligheidsfouten bloot te leggen. Het artikel benadrukt het belang van deze aanpak nu AI-incidenten snel toenemen, van 233 in 2024 naar 362 in 2026. Diensten zoals CBIZ Pivot Point Security, Reply en Mindgard worden genoemd als aanbieders van gespecialiseerde red teaming-consultancy.
De leiding van Anthropic reisde maandag naar Washington voor overleg met het Witte Huis, maar beide partijen blijven verdeeld over de risico's van het AI-model Claude Fable 5. De regering-Trump legde vorige week exportbeperkingen op vanwege zorgen over jailbreaken, maar Anthropic stelt dat de bezwaren overdreven zijn. Het is nog onduidelijk hoe het conflict wordt opgelost.
De Amerikaanse overheid beschuldigt Anthropic ervan de cyberrichtlijn van Trump te negeren en Fable 5 zonder goedkeuring uit te brengen. Experts zeggen dat volledig onhackbare LLM's onmogelijk zijn. Anthropic heeft beveiligingsmaatregelen ingebouwd, maar cybersecurity-experts steunen het bedrijf en pleiten voor opheffing van exportcontroles.
Om goedkeuring voor Full Self-Driving in Europa te krijgen, heeft Tesla misleidende statistieken over de veiligheid gedeeld met Europese toezichthouders. Onderzoekers van Reuters concludeerden dat de cijfers neerkomen op misleidende marketing. De RDW, die FSD in Nederland al goedkeurde, zegt niet afhankelijk te zijn van marketingclaims en alle gegevens te hebben gevalideerd.
Uit tests blijkt dat AI-robots gevaarlijke instructies kunnen opvolgen wanneer deze worden verpakt als creatieve schrijfopdracht. Onderzoekers manipuleerden een commerciële robothond om locaties voor een explosief te selecteren. De huidige wetgeving is niet voorbereid op dergelijke scenario's.
Uit tests blijkt dat AI-robots direct kwaadaardige commando's makkelijk afwijzen, maar hun veiligheidsfilters bezwijken wanneer creatieve schrijfopdrachten worden gebruikt. Een robot hond werd zo geprogrammeerd om een menigte als ideale locatie voor een explosief te beschouwen. Het artikel waarschuwt dat de huidige wetten niet voorbereid zijn op dergelijke scenario's met AI-gestuurde fysieke robots.
Het Amerikaanse Office of Management and Budget (OMB) maakte op 14 april 3.611 actieve of geplande AI-toepassingen binnen de federale overheid bekend, een stijging van 70% ten opzichte van de laatste inventarisatie onder de regering-Biden. Commentatoren Nathan E Sanders en Bruce Schneier waarschuwen in een opiniestuk in The Guardian voor een zorgwekkend gebrek aan transparantie en geven voorbeelden van gevoelige overheidsfuncties die aan AI worden overgedragen, zoals het beoordelen van subsidieaanvragen en het inschatten van zelfmoordrisico's bij veteranen.
Chinese automobilisten gebruiken plastic figuurtjes van beroemdheden om de oogbewakingscamera van Tesla's Autopilot te misleiden. Zo kunnen ze ongestoord hun telefoon gebruiken of zelfs een dutje doen, ondanks dat de functie nog niet veilig genoeg is. De politie en Tesla waarschuwen voor deze riskante praktijk.
Een artikel op Towards AI presenteert testresultaten van HERE, een prototype voor een nieuwe deterministische AI-veiligheidsarchitectuur. HERE evalueert uitwisselingen tussen mens en AI-model onafhankelijk en geeft elke keer dezelfde beoordeelbare uitslag, in tegenstelling tot probabilistische systemen zoals Claude en Gemini. De auteur voerde 294 prompts uit en slechts één systeem gaf consequent hetzelfde oordeel.
ChatGPT bereikte in 2023 binnen 60 dagen 100 miljoen gebruikers, de snelste groei ooit voor een techproduct. Inmiddels worden agentische AI-systemen zoals Claude en Gemini ingezet voor het screenen van cv's, goedkeuren van leningen en medische adviezen. Het artikel analyseert hoe vooroordelen uit trainingsdata, RLHF en cultuurverschillen worden versterkt naarmate modellen krachtiger worden.
Claude Fable 5, een AI-tool van Anthropic, werd uitgebracht en na slechts drie dagen weer stopgezet. De auteur had twee portfolio-websites gebouwd voordat de shutdown plaatsvond.
Een 32-jarige Braziliaanse vrouw, Rebeca Cardoso Tenente Molina, overleed nadat een door AI aangestuurd beddenplaatsingssysteem haar vijf dagen liet wachten op een IC-bed. Haar familie stelt dat het systeem van het State Regulation Operations Center (Core-MG) een te lage score toekende, waardoor de transfer werd vertraagd. De artsen verloren hun autonomie om de ernst van de patiënt te beoordelen, aldus de zus van Molina.
KPMG heeft een rapport over AI offline gehaald nadat onderzoekers van GPTZero tientallen fouten en verzonnen bronvermeldingen ontdekten. Van de 45 bronverwijzingen bleken slechts vijf correct. Ook voorbeelden over Emirates, UBS en Swiss Federal Railways waren onjuist.
Vier essentiële regels om in een Claude-skill op te nemen om te voorkomen dat het AI-model overmoedige fouten maakt in data-analyserapporten. Door context beperkingen aan te geven, significantie te definiëren, vertrouwenslabels toe te voegen en de grenzen van de analyse te vermelden, wordt de output eerlijker en betrouwbaarder. De auteur illustreert dit met een praktijkvoorbeeld van een kwartaalrapport over klanttevredenheid.
KPMG, een van de grote vier consultancyfirma's, publiceerde een rapport vol valse claims over AI-gebruik bij UBS, Swiss Federal Railways en Transport for London. Het AI-detectiebedrijf GPTZero ontdekte dat deze beweringen niet kloppen. KPMG trok het rapport terug nadat de fouten aan het licht kwamen.
KPMG heeft een rapport getiteld 'Redefining excellence in the age of agentic AI' teruggetrokken nadat organisaties zoals UBS en de Britse NHS aangaven dat de claims over hun AI-gebruik onjuist of misleidend waren. Onderzoeksgroep GPTZero stelde vast dat de onjuistheden het gevolg waren van AI-hallucinaties, wat erop wijst dat KPMG mogelijk AI heeft gebruikt om het rapport over AI te schrijven. Een woordvoerder van KPMG verklaarde dat het bedrijf de richtlijnen voor verantwoord AI-gebruik handhaaft en eigen onderzoek verricht. Eerder trok EY ook een rapport terug vanwege gefabriceerde voetnoten en AI-hallucinaties.
Amazon CEO Andy Jassy heeft naar verluidt bij de Amerikaanse regering zorgen geuit over de veiligheid van Anthropics AI-modellen, wat leidde tot een exportverbod op de modellen Claude Fable 5 en Mythos 5. Volgens The Wall Street Journal deelde Jassy informatie met minister van Financiën Scott Bessent dat Amazon-onderzoekers met Claude Fable 5 informatie konden verkrijgen die bruikbaar is voor cyberaanvallen. Anthropic heeft daarop de wereldwijde toegang tot twee modellen stopgezet. Het bedrijf stelt dat de betreffende mogelijkheden al beschikbaar zijn in andere openbaar toegankelijke modellen.
Traditionele SLO’s schieten tekort voor AI-systemen, omdat een respons snel en foutloos kan zijn maar toch inhoudelijk onjuist of schadelijk. Het artikel introduceert een taxonomie van AI-specifieke falen, zoals hallucinaties en instructie-overschrijding, en stelt nieuwe metrieken voor zoals 'mean time to hallucination'. Praktische meetmethoden zoals LLM-as-judge, gedragscanaries en gebruikerssignalen worden besproken om kwaliteit continu te bewaken.