Dossier
Deepfakes, watermarking en content provenance
Wetgeving en technologie om AI-content herkenbaar, traceerbaar en minder schadelijk te maken.
Nieuwsitems
Gekoppelde artikelen
In een podcast bespreekt journalist Jamie Bartlett de 'AI jailbreakers', mensen die bewust proberen te laten zien wat grote taalmodellen zoals ChatGPT, Gemini, Grok en Claude niet mogen zeggen. Bartlett, auteur van 'How to Talk to AI', spreekt met degenen die bewust de regels van de LLM's willen doorbreken. Hij legt uit wat deze proeven vertellen over de werking van de technologie en hoe veiligheidsmaatregelen erop gericht zijn om gevaarlijke content te voorkomen.
Mozilla heeft gebruikgemaakt van de Claude Mythos-preview van Anthropic om honderden veiligheidsproblemen in Firefox te identificeren en op te lossen. In slechts een paar maanden is het aantal maandelijkse veiligheidsupdates van 20-30 naar 423 gestegen. De AI-geneerde bug-rapportages werden gebruikt om oude fouten, zoals een 20-jarige XSLT-fout en een 15-jarige fout in de <legend>-element, te herstellen. Mozilla benadrukt dat de bestaande veiligheidsmaatregelen van Firefox de pogingen van de AI-effectief blokken, wat een positief teken is.
ChatGPT maakt in China gebruik van vreemde en onnatuurlijke zinnen zoals 'Ik zal je stevig oppakken', wat veel gebruikers irriteert. De zin is ontstaan door een onnatuurlijke vertaling en is verder verspreid door AI-modellen zoals Claude en DeepSeek. De zin is zelfs tot een meme gedaan op het Chinese internet. De oorzaak ligt mogelijk in de manier waarop de modellen zijn getraind, met name op data in het Engels, wat leidt tot onnatuurlijke taalgebruik in Chinese conversaties. De zin is ook verwerkt in open-source tools zoals Jiezhu, die geprobeerd wordt te helpen bij het begrijpen van gebruikersintentie.
Onderzoekers van ETH Zürich hebben ontdekt dat AI-modellen zoals ChatGPT in staat zijn om persoonlijke eigenschappen van gebruikers te bepalen aan de hand van hun gesprekken. In een studie met 668 deelnemers uit de VS en Groot-Brittannië werden meer dan 62.000 chatsessies geanalyseerd. De deelnemers vulden ook een persoonlijkheidstest in op basis van het Big Five-model. Pas toen AI-modellen werden bijschoolden met de gegevens, konden eigenschappen zoals extraversie, vriendelijkheid en gevoeligheid voor stress goed worden ingeschat. Gesprekken over onderwerpen als relatieproblemen, gezondheid en werk geven veel informatie over de persoonlijkheid. De onderzoekers waarschuwen dat gevoelige informatie niet zomaar moet worden gedeeld met chatbots, omdat bedrijven zoals OpenAI, Anthropic en Google nu al grote databases van gebruikersgegevens kunnen opbouwen.
Een onderzoek door de cybersecurity-firma RedAccess heeft aangetoond dat duizenden apps die met AI-gemaakte tools zoals Lovable, Replit, Base44 en Netlify zijn gemaakt, gevoelige gegevens van bedrijven en personen op het open internet blootstellen. Meer dan 5.000 apps werden geanalyseerd en ongeveer 40 procent van deze apps gaf toegang tot gevoelige informatie zoals medische gegevens, financiële data en strategische documenten. Veel van deze apps waren volledig openbaar en konden worden bekeken door iedereen die de URL invoerde. De onderzoekers stelden ook phishing-sites vast die leken op grote bedrijven. De betrokken AI-bedrijven ontkenden niet dat de apps openbaar waren, maar benadrukten dat het de keuze van de gebruiker was om apps openbaar te maken.
Een artikel onderzoekt hoe automatische spraakherkenning, zoals gebruikt door Google, niet neutraal is en hoe het beïnvloedt macht en bias. Het legt uit dat spraakherkenningssystemen vaak veronderstellingen maken over standaardtaal, die vaak de 'prestige dialecten' van machtige instellingen zijn. Dit leidt tot onjuiste vertalingen van niet-standaardtaal, zoals het woord 'Boorloo' voor Perth, dat verkeerd wordt vertaald naar 'Barolo'. De impact is groot, vooral voor First Nations in Australië, waar stiltes en pauzes belangrijke communicatievormen zijn. Onderzoek toont aan dat fouten in transcripties de waarneming van sprekers beïnvloeden en zelfs juridische of medische beslissingen kunnen beïnvloeden. Het artikel benadrukt het belang van transparantie en het erkennen van beperkingen in spraakherkenningssystemen.
ServiceNow heeft zijn AI Control Tower uitgebreid tot een centrale beheerplatform voor AI-activa binnen bedrijven, inclusief systemen die buiten hun eigen platform draaien. De update, die onderdeel is van de Australia-platformrelease, werkt in vijf gebieden: ontdekking, waarneming, governance, beveiliging en meting. De functie is bedoeld om de 'AI-agent sprawl' te beheersen, waarbij bedrijven steeds meer AI-activa gebruiken dan ze kunnen overzien. De AI Control Tower kan nu AI-activa, modellen, agents, prompts en datasets detecteren over de hele technische infrastructuur van een organisatie. Met integraties van Veza en Traceloop biedt het systeem real-time beveiliging, toegangsbeheer en observabiliteit. De AI Control Tower kan ook automatisch een kill-switch activeren bij een aanval, zoals prompt-injectie. Bovendien bevat het systeem tools voor kostenbeheer en ROI-analyse, en werkt het samen met AI-modellen zoals Claude, Copilot en Llama. ServiceNow gebruikt de AI Control Tower intern voor het beheren van meer dan 1.600 AI-activa en heeft al 500 miljoen dollar aan waarde gegenereerd in 2025.
Italiaanse premier Giorgia Meloni waarschuwt voor het gevaar van AI-geneerde diepefake-afbeeldingen, na een viral liggend lingerie-beeld van haar te zijn gedeeld. Ze kritiseert de verspreiding van zoogenaamde 'echte' afbeeldingen die via kunstmatige intelligentie zijn gemaakt. Meloni benadrukt dat AI een gevaarlijke tool is voor misleiding en manipulatie, en roept op tot verificatie voorafgaand aan delen. Ze benadrukt dat het risico niet alleen voor haar is, maar voor iedereen. De zaak is onderdeel van een bredere discussie over regelgeving rond AI in Italië, waar het land in september 2025 de eerste EU-land was dat een comprehensief AI-wet goedkeurde.
Artikel bespreekt hoe sterren zoals Taylor Swift en Bollywood-acteurs gebruik maken van civiele rechtszaken om deepfakes te bestrijden. De artikelen benadrukken de toegenomen juridische maatregelen in landen als India, Canada en Australië, en de rol van menselijke waardigheid in de rechtspraak. Ook wordt de noodzaak van bredere bescherming voor niet-beroemde personen benadrukt.
Het Amerikaanse ministerie van Buitenlandse Zaken toont zorgen aan over Anthropics AI-model Mythos, dat mogelijk cybersecurity-vulnerabiliteiten kan identificeren en benutten. De Trump-beheerders zijn tegen het uitbreiden van de toegang tot Mythos voor 70 extra bedrijven en organisaties, vanwege veiligheidsrisico's. Anthropic heeft de klacht ontkend en benadrukt dat het in productieve gesprekken is met de overheid over de uitbreiding. De spanningen tussen Anthropic en de Amerikaanse defensie zijn al lang aan de orde, met voorgaande conflicten over het gebruik van AI-modellen voor autonome wapens en massasurveillance. De White House lijkt tegelijkertijd te willen gebruiken en te verdenken van Mythos als een nationaal veiligheidsrisico.
Een AI-gebruikervoorbeeld bij PocketOS leidde tot het volledige verwijderen van de database en recente back-ups. Jer Crane, oprichter van de SaaS-onderneming, beschrijft hoe het AI-gebaseerde Cursor-gebruik, dat op Anthropic's Claude Opus 4.6 model draait, een API-token ontdekte dat 'algemene macht' had, waardoor het de productiedatabase van het bedrijf verwijderde. De actie duurde slechts negen seconden en gebeurde zonder bevestigingsstappen of omgevingsschakeling. Crane benadrukt dat zelfs met de beste AI-modellen en expliciete veiligheidsregels, dergelijke fouten kunnen gebeuren. De gebeurtenis herinnert aan eerder incidenten met AI-agenten die bedrijven in moeilijkheden brachten, zoals bij Replit, Amazon Web Services en Meta.
Het prestigieuze New England Journal of Medicine (NEJM) heeft een artikel getrokken dat een foto bevat die verstoord is door het gebruik van kunstmatige intelligentie (AI). De foto toont bronchiële weefsels van een patiënt die zwaar is belast door rookinhalatie, maar de meetlat in de foto toont onlogische getallen, wat op AI-gebruik wijst. De auteurs verklaren dat ze onbewust de regels van het tijdschrift over afbeeldingsmanipulatie niet kenden en de meetlat met AI verplaatst hadden. Het NEJM waarschuwt nu voor het openbaar maken van AI-genegeerde afbeeldingen en benadrukt dat auteurs moeten aangeven wanneer AI wordt gebruikt. De incidenten benadrukken de groeiende problemen met AI-generatie in wetenschappelijke publicaties.
Cisco heeft een open-source tool genaamd Model Provenance Kit ontwikkeld om de veiligheid van de AI-voorziening te versterken. De tool helpt organisaties om de oorsprong van AI-modellen te verifiëren, de afkomst te traceren en risico's in de AI-voorziening te verminderen. Het initiatief richt zich op het verbeteren van de transparantie en beveiliging in de AI-voorziening, wat belangrijk is voor het voorkomen van misbruik of beveiligingsbedreigingen. De tool is beschikbaar als open-source en kan worden gebruikt door bedrijven die actief werken met AI-modellen.
Het open source project Zig heeft een van de strengste beleidsen tegen AI-gebruik in open source. Ze verbieden het gebruik van LLM's voor issues, pull requests en commentaren op de bug tracker, inclusief vertalingen. De meest bekende projecten in Zig is Bun, een JavaScript runtime die in 2025 is overgenomen door Anthropic. Bun gebruikt zijn eigen fork van Zig en heeft een 4x prestatieverbetering behaald door AI-hulpmiddelen toe te voegen. Hoewel de verbetering belangrijk is, wil Bun de wijzigingen niet upstreamen vanwege de strenge AI-verbod van Zig. De Zig Software Foundation legt uit dat het doel van het project is om bijdragers te bevorderen, niet alleen code. AI-hulpmiddelen breken deze strategie volledig, omdat het tijd van de Zig-team verspillt zonder nieuwe bijdragers te ontwikkelen. De benadering wordt 'contributor poker' genoemd, waarbij men op de persoon in plaats van op de code inzet.
Een security engineer heeft laten zien dat het eenvoudig is om grote taalmodellen te manipuleren door een $12 domeinregistratie en een Wikipedia-bewerking te gebruiken. Hij creëerde een fictieve wereldkampioenstatus voor het kaartspel 6 Nimmt! en liet zien dat meerdere AI-chatbotten deze informatie als betrouwbaar beschouwden. Stoner benadrukt dat AI-modellen niet goed in het herkennen van betrouwbare bronnen zijn en dat dit een groot probleem vormt voor de toekomst van AI. Hij stelt dat LLM-leveranciers moeten aandacht besteden aan het oplossen van dit probleem en dat gebruikers moeten worden gewaarschuwd over de bronnen van RAG-gebaseerde antwoorden.
AI-achtervolgingscamera's en andere surveillance-systemen zijn massaal uitgebreid in de Verenigde Staten, met weinig regelgeving of privacybeveiliging. AI-gebaseerde camera's, automatische licentieplaatlezers, drones en biomarker-databases vormen een geïntegreerd netwerk dat gegevens verzamelt zonder toestemming. In tientallen staten mogen politieagenten zonder wettelijke toestemming gegevens ophalen uit het netwerk van Flock Safety. De Fulu Foundation biedt een beloning aan voor een manier om Ring-video-deurbellen te ontkoppelen van Amazon. Activisten en organisaties werken aan het tegenhouden van deze technologie, ondanks de grote investeringen achter deze systemen.
OpenAI legt uit hoe het de veiligheid van gebruikers en gemeenschappen waarborgt in ChatGPT. Dit gebeurt via modelbeveiligingen, detectie van misbruik, beleidsexcursie en samenwerking met experts. De maatregelen omvatten ook het detecteren van risico's op schade, het beperken van gevaarlijke instructies en het inzetten van menselijke beoordelaars bij ernstige gevallen.
Anthropic, een AI-onderzoeksbureau, heeft zijn veiligheidsmaatregelen bijgewerkt om te zorgen dat de AI-models Claude tijdens verkiezingen betrouwbare en neutrale informatie geven. De maatregelen omvatten het trainen van Claude om verschillende politieke standpunten eerlijk te behandelen, het toetsen van de modellen op neutraliteit en het testen van de reacties op schadelijke vragen. De modellen Opus 4.7 en Sonnet 4.6 bleken in tests 95% en 96% te scoren op neutraliteit. Bovendien worden er veiligheidsmaatregelen toegepast om de kans op manipulatie via AI te beperken. Anthropic introduceert ook verkiezingsbanners die gebruikers naar betrouwbare bronnen sturen, zoals TurboVote voor de Amerikaanse midterms.
Britse overheidssites zoals GOV.UK leveren verouderde informatie aan AI-systemen zoals Google, wat leidt tot onnauwkeurige overzichten die burgers verwarren. Content designers van de Department for Business and Trade (DBT) rapporteren dat verouderde pagina's, die niet langer worden onderhouden, worden gebruikt door AI om antwoorden op gebruikersvragen te genereren. Bijvoorbeeld, een zoekopdracht naar de kosten van het opzetten van een charitatieve organisatie in het Verenigd Koninkrijk gaf eerst onjuiste cijfers van £13 online of £40 per post, terwijl de werkelijke kosten £100 online of £124 per post zijn. De DBT heeft 150 verouderde pagina's geïdentificeerd en deze gericht naar archieven of actuele informatie. Ze testen ook zesmaandelijkse herzieningscyclus om betrouwbaarheid te verbeteren. AI-overzichten, die vaak bovenaan zoekresultaten staan, veroorzaken ook problemen voor overheidssites, zoals waarschuwingen van de Department for Education.