Dossier
Open models, lokale AI en privacy
Lokale/open modellen als alternatief voor Big Tech-cloud-AI.
Nieuwsitems
Gekoppelde artikelen
India richt zich op het bouwen van eigen funderingsmodellen, maar critici vragen zich af of post-training van open-weight modellen zoals Llama en Mistral niet sneller soevereiniteit oplevert. Techbeleidsonderzoeker Pranesh Prakash stelt dat soevereiniteit gaat over toegang tot open modellen, niet over eigendom. Ondanks experimenten met modellen als Airavata en OpenHathi, blijft massale adoptie uit en vertrouwt India nog sterk op buitenlandse aanbieders als OpenAI en Anthropic.
Een React Native-ingenieur ontwikkelt Wire RN, een open-source SDK voor Generative UI op mobiele platforms. De SDK stelt AI-modellen in staat om interfaces in realtime samen te stellen, in plaats van vooraf vastgelegde schermen. Webplatformen hebben al tools zoals Vercel AI SDK en Google's A2UI, maar mobiel mist native ondersteuning. Wire RN moet die leemte vullen.
Reflection AI betaalt vanaf 1 juli 2026 tot 2029 maandelijks 150 miljoen dollar voor directe toegang tot NVIDIA's nieuwste GB300 AI-chips en ondersteunende hardware in SpaceX's Colossus 2-datacenter in Memphis, Tennessee. De deal is maximaal 6,3 miljard dollar waard en kan na drie maanden met 90 dagen opzegtermijn worden beëindigd.
Sakana AI heeft Fugu gelanceerd, een orkestratietaalmodel dat multi-agent operaties coördineert en de afhankelijkheid van één leverancier vermindert. Het systeem routeert queries intern naar een pool van diverse modellen. Fugu Ultra presteert competitief tegen gesloten modellen en wordt al ingezet voor cybersecurity en code reviews.
AssemblyAI maakt zijn spraakherkenningsmodellen beschikbaar voor zelfhosting op eigen infrastructuur, zowel in de cloud als on-premises. Hiermee kunnen organisaties voldoen aan compliance-eisen en data-soevereiniteit behouden terwijl ze gebruikmaken van dezelfde modellen als de cloud-API. De prijzen zijn sessiegebaseerd zonder extra kosten voor zelfhosting.
Een artikel op Towards AI belicht elf GitHub-repositories die in 2026 opvallen voor AI-ontwikkelaars. De lijst omvat onder meer OpenClaw, een lokale AI-assistent die van 9.000 naar meer dan 200.000 sterren groeide, en pi-mono, een toolkit voor het bouwen van AI-agents. De repositories geven inzicht in de richting van AI-ontwikkeling, met nadruk op lokale uitvoering en praktische toepasbaarheid.
De start-up Squeez Labs heeft een AI-chatbot genaamd CrankGPT gebouwd die volledig offline werkt en wordt aangedreven door een handslinger. De chatbot draait op een Raspberry Pi 5 en gebruikt kleine taalmodellen zoals LFM2 van Liquid AI of Gemma van Google. Het apparaat garandeert privacy en zuinigheid doordat het geen internet of batterij nodig heeft.
Een 3B-parameter model van Weibo behaalde een score van 94,3 op de AIME 2026-wiskundetest, waarmee het Gemini 3 Pro (91,7) versloeg. Het model is MIT-gelicentieerd en presteert opmerkelijk goed gezien zijn kleine omvang.
Tijdens de G7-top riep Robin Rombach, medeoprichter en CEO van Black Forest Labs, wereldleiders op om open innovatie in AI te omarmen. Hij benadrukte dat open technologieën zoals Stable Diffusion en DeepSeek essentieel zijn voor transparantie en concurrentie, maar erkende ook de risico's van misbruik. Black Forest Labs werkt aan verantwoorde open modellen met minder kwetsbaarheden voor schadelijke content.
Het Indiase Avataar.ai heeft Varya gelanceerd, een AI-videogeneratiemodel dat video's produceert tegen een fractie van de kosten van concurrenten. Het model, ontwikkeld onder de IndiaAI Mission, bouwt voort op Alibaba's open-source Wan 2.2 en genereert video voor ₹0,48 per seconde, tot 27 keer goedkoper dan vergelijkbare modellen. Varya gebruikt een efficiënte distillatietechniek met slechts vier denoising-stappen, waardoor een 720p-video in 45 seconden wordt gegenereerd. Het model is ontworpen om Indiase culturele nuances beter te begrijpen en wordt beschikbaar gesteld via AIKosh.
Zhipu AI heeft zijn GLM-5.2-model open source gemaakt onder een MIT-licentie. Het model is technisch een evenknie van de topmodellen van Anthropic en OpenAI. De aankondiging leidde tot een koersstijging van bijna 50% van het bedrijf aan de beurs van Hong Kong. GLM-5.2 is sterk in coding, agentic workflows en lange context.
Z.ai heeft GLM-5.2 uitgebracht, een open-source model met MIT-licentie dat uitblinkt in coderen en agentische taken. Met 1M tokens context, twee redeneermodi en de IndexShare-technologie voor schaarse aandacht claimt het model topresultaten op diverse benchmarks, waaronder de nummer 1-positie in Design Arena en nummer 2 in Code Arena: Frontend. Het model wordt ondersteund door vele inferentieplatforms en wordt gezien als een belangrijke mijlpaal voor open-source AI.
Lokale AI-modellen zoals Qwen 2.5 32B presteren slecht op bedrijfsspecifieke vragen omdat ze geen toegang hebben tot interne documenten of live systemen. RAG (Retrieval Augmented Generation) en MCP (Model Context Protocol) bieden een oplossing: RAG indexeert documenten voor semantische terugvinding, MCP koppelt de AI aan tools zoals GitHub, databases en Slack. Samen maken ze van een algemene chatbot een AI die uw bedrijf écht kent, zonder data naar externe servers zoals OpenAI te sturen.
Georgi Gerganov, maker van llama.cpp, bevestigt dat Qwen3.6-27B een zeer capabel lokaal model is voor codeertaken. Hij gebruikt het dagelijks op zijn M2 Ultra of RTX 5090 voor kleine taken in ggml-org. Hij noemt het een nuttige tool voor een maintainer.
Deze handleiding laat zien hoe je een lokale LLM op je Mac Mini kunt draaien met OpenClaw en llama.cpp. Het doel is om maandelijkse API-kosten te vermijden. Het artikel gebruikt het Qwen 3.5-9B model en biedt stapsgewijze instructies voor installatie en configuratie.
De startup Mindbeam AI heeft Litespark-Inference uitgebracht, een open-source framework dat ternary large language models efficiënt laat draaien op standaard consumentenprocessors. Het framework levert volgens benchmarks 17 tot 96 keer hogere doorvoer dan standaard PyTorch-implementaties en reduceert het geheugengebruik met meer dan 80%. De broncode is beschikbaar op GitHub en ondersteunt Apple Silicon, Intel- en AMD-processoren.
In dit artikel wordt uitgelegd hoe een lokale RAG-pijplijn met Ollama, ChromaDB en TinyLlama als MCP-server in Cursor wordt geïntegreerd. De auteur gebruikt het Model Context Protocol (MCP) om natuurlijke taalvragen in de IDE te laten werken zonder cloud-API's. Daarnaast wordt de overstap van Ollama naar sentence-transformers voor embeddings beschreven.
Anthropic heeft de toegang tot zijn nieuwe Fable 5- en Mythos 5-modellen opgeschort na een Amerikaanse overheidsrichtlijn. Dit heeft in India een debat aangewakkerd over de afhankelijkheid van Amerikaanse AI-technologie. Indiase techleiders roepen op tot meer investeringen in eigen AI-capaciteiten en open-source modellen.
Docling, een open-source documentparser van IBM Research, maakt het mogelijk om PDF's lokaal te parsen voor Retrieval-Augmented Generation (RAG), inclusief tabellen, OCR en bijschriften. De tool draait volledig op de eigen machine zonder API-sleutel of pagina-kosten, wat het geschikt maakt voor vertrouwelijke documenten. Het artikel vergelijkt Docling met PyMuPDF en Azure AI Document Intelligence en toont hoe dezelfde relationele tabellen worden geproduceerd voor downstream verwerking.
Moonshot AI heeft Kimi K2.7 Code uitgebracht, een open-source model met een biljoen parameters voor programmeertaken. Het model presteert minder dan GPT-5.5 en Claude Opus 4.8 in benchmarks, maar is aanzienlijk goedkoper: $0,95 per miljoen invoertokens en $4,00 per miljoen uitvoertokens. De lagere prijs maakt het een kosteneffectieve optie voor veelvuldig gebruik.
Local models zijn in 2026 krachtig genoeg voor de dagelijkse taken van Claude Code, zoals code completion en debugging. Dit artikel beschrijft hoe je Claude Code kunt koppelen aan lokale inferentie backends zoals Ollama, LM Studio en llama.cpp via environment variables. Met een eenmalige setup zijn er geen token kosten en geen rate limits.
Zyphra heeft Zamba2-VL aangekondigd, een familie van open vision-language modellen in drie formaten: 1,2B, 2,7B en 7B parameters. De modellen combineren Mamba2 state-space lagen met gedeelde transformerblokken, wat de time-to-first-token met een orde van grootte verlaagt ten opzichte van vergelijkbare dense transformermodellen. Zamba2-VL presteert sterk op tellen en documentbegrip, maar blijft achter op kennisintensieve redeneertaken. De gewichten en code zijn openbaar beschikbaar onder de Apache 2.0-licentie.
Nous Research heeft een Profile Builder uitgebracht voor Hermes Agent, waarmee gebruikers via een webdashboard eenvoudig AI-agenten kunnen configureren. De tool combineert identiteit, model, vaardigheden en MCP-servers in één begeleide flow, zonder dat CLI-commando's nodig zijn. Hermes Agent is een open-source, zelfverbeterende agent die draait op CLI, desktop en berichtenplatforms.
Cohere AI heeft 'North Mini Code' uitgebracht, een open-weight coderingsmodel met 30B totale parameters waarvan 3B per token actief worden. Het MoE-model is geoptimaliseerd voor codegeneratie, agentische software-engineering en terminaltaken. Het draait op één H100 GPU en biedt een contextvenster van 256K tokens. De gewichten zijn beschikbaar onder Apache 2.0 op Hugging Face.
Sarah Guo bespreekt in een essay de positie van open modellen, het verschil tussen agent labs en model labs, en wat niet trainbaar is in AI. Verder wordt ingegaan op Anthropics stille beperking van modelcapaciteiten en de controverse rond Fable/Mythos, de release van DiffusionGemma door Google, en ontwikkelingen in agent-tools en benchmarks.
Google heeft DiffusionGemma uitgebracht, een groot taalmodel dat gebruikmaakt van tekstdiffusie. Het model genereert tekst vier keer sneller dan traditionele LLM's en verbruikt minder RAM-geheugen, waardoor het op consumenten-GPU's kan draaien. DiffusionGemma is gebaseerd op de Gemma 4 26B A4B en is beschikbaar op Hugging Face onder een open-sourcelicentie.
Google heeft DiffusionGemma uitgebracht, een nieuw open-source model met een Apache 2-licentie. Het 26B parameter model is gebaseerd op eerder Gemini Diffusion-onderzoek en wordt gratis gehost door NVIDIA op hun NIM cloud API. Simon Willison testte het model en bereikte een snelheid van minstens 500 tokens per seconde.
Google brengt open model DiffusionGemma uit: tekst genereren uit ruis in plaats van woord voor woord
Google heeft DiffusionGemma uitgebracht, een experimenteel taalmodel met 26 miljard parameters dat tekst genereert via diffusie in plaats van token voor token. Het model verwerkt blokken van 256 tokens parallel, wat leidt tot snelheden tot vier keer sneller dan autoregressieve modellen op een enkele H100 GPU, volgens Nvidia. De kwaliteit van de gegenereerde tekst is lager, waardoor Google het model positioneert als een experimentele tool voor ontwikkelaars. Het model is beschikbaar onder een Apache 2.0-licentie op Hugging Face.
Google AI heeft DiffusionGemma uitgebracht, een experimenteel open model voor tekstgeneratie. Het model gebruikt tekstdiffusie in plaats van autoregressieve decodering, waardoor hele tekstblokken parallel worden gegenereerd. Op dedicated GPU's levert dit tot 4x snellere generatie op. DiffusionGemma is een 26B Mixture of Experts-model met 3,8B actieve parameters en ondersteunt multimodale invoer, een contextvenster van 256K tokens en 140+ talen.
Jeremy Howard stelt dat het lab met het best presterende model moet afzien van het gebruik ervan voor grensverleggend AI-onderzoek om de ontwikkeling te vertragen. Volgens hem kiest Anthropic het tegenovergestelde pad door hun eigen topmodel te gebruiken en anderen te saboteren, wat de machtsongelijkheid vergroot. Howard bepleit openheid en democratisering van AI in plaats van vertraging.
Dit artikel bouwt een volledige lokale agentische programmeerstack met Ollama, Gemma 4 en Claude Code. Het behandelt de installatie, configuratie en veelvoorkomende problemen voor een privé, nul-kosten codeeragent.
Deze week brachten Microsoft, Google, MiniMax, NVIDIA, OpenAI en Apple een breed scala aan goedkopere en open modellen uit. Tokenconsumptie stijgt snel doordat bedrijven overstappen van korte chats naar langlopende AI-agenten. Vercel-data laat zien dat DeepSeek in mei 17% van de tokenvolumes verwerkte tegen slechts 1% van de modeluitgaven. Een kanttekening: alleen Gemma 4 12B en Nemotron 3 Ultra hebben momenteel downloadbare gewichten; MAI-Thinking-1 is in private preview.
Op WWDC26 onthulde Apple dat het Siri heeft uitbesteed aan een Gemini-model van Google, naar verluidt een investering van $1 miljard. Tegelijkertijd biedt het bedrijf ontwikkelaars een eigen LLM aan dat volledig gratis op de apparaten van gebruikers draait. Dit contrast roept vragen op over Apples privacybeloften.
Xiaomi's MiMo-team heeft in samenwerking met TileRT MiMo-V2.5-Pro-UltraSpeed uitgebracht, een model dat meer dan 1000 tokens per seconde decodeert op een biljoen-parameter model. De snelheidswinst komt door FP4-kwantificatie, DFlash speculatieve decodering en de TileRT-runtime. Het model draait op een standaard 8-GPU commodity node en is beschikbaar via een API-proefversie van 9 tot 23 juni 2026. Xiaomi heeft de checkpoint open-source gemaakt op Hugging Face en geselecteerde TileRT-modules op GitHub.
Google heeft Gemma 4 met 72% verkleind, waardoor een 26-miljard parametermodel in 15GB geheugen past en 193 tokens per seconde produceert op één RTX 4090. Unsloth heeft een 4-bit bug opgelost die niemand anders had ontdekt.
Onderzoekers van University of Illinois Urbana-Champaign, UC Berkeley en Chroma hebben Harness-1 ontwikkeld, een 20B retrieval-subagent gebouwd op gpt-oss-20b. Het model is getraind met reinforcement learning in een stateful zoekharnas dat de boekhouding overneemt. Harness-1 behaalt een gemiddelde curated recall van 0,730 op acht benchmarks. De gewichten en code zijn openbaar beschikbaar.
Een paper van Mind Lab uit juni 2026 stelt dat LoRA fine-tuning niet alleen een goedkope fine-tuningmethode is, maar een manier om persistente, individuele adapters te creëren op een gedeeld fundament. De auteurs introduceren het concept van 'persoonlijke modellen' op schaal, waarbij kleine LoRA-adapters de persoonlijkheid dragen en het basismodel de algemene intelligentie levert.
Onderzoekers uit China, Hongkong en Singapore hebben een open-source spraakmodel genaamd Audio Interaction ontwikkeld dat continu audiostreams verwerkt. Het model splitst audio in blokken van 0,4 seconden en beslist na elk blok via een speciale token of het stil moet blijven of een reactie moet genereren. Audio Interaction combineert dialoog, vertaling, transcriptie en geluidsherkenning in één systeem, en presteert beter dan Gemini 3 Flash in proactieve geluidsdetectietests. De code en modelgewichten zijn beschikbaar op GitHub onder de Apache 2.0-licentie.
Anthropic's Claude Mythos en Opus 4.8 domineerden de discussie, terwijl Sakana AI een RSI Lab opende in Tokio. Nieuwe benchmarks zoals Agents' Last Exam en SWE-Marathon testen agenten op langdurige taken. Google bracht Gemma 4 QAT uit voor efficiënte lokale inferentie, en Ideogram 4 verscheen als open-weight diffusiemodel. Onderzoek van Princeton toont aan dat frontier modellen nog niet betrouwbaar genoeg zijn voor productie.
Google DeepMind heeft Quantization-Aware Training (QAT) checkpoints voor de Gemma 4-familie uitgebracht, gericht op lokale uitvoering op edge-apparaten en consumenten-GPU's. Het nieuwe mobiele QAT-formaat verkleint het E2B-model tot ongeveer 1 GB, terwijl Q4_0 QAT het geheugen reduceert tot 3,2 GB voor E2B en 5 GB voor E4B. Google claimt hogere kwaliteit dan standaard post-training kwantisatie, maar publiceerde geen benchmarkscores voor Gemma 4. De gewichten zijn beschikbaar op Hugging Face met ondersteuning voor meerdere frameworks.
Een ontwikkelaar bouwde een pure Python MCP-server die AI-tools zoals Claude en ChatGPT direct toegang geeft tot lokale projectbestanden, zonder afhankelijkheden. De server ondersteunt zowel stdio voor lokaal gebruik als HTTP/SSE voor gelijktijdige clients. De implementatie gebruikt alleen de Python-standaardbibliotheek en behaalt reactietijden onder 50ms met 5 clients.
Perplexity AI heeft op Computex 2026 de eerste hybride local-server inference orchestrator aangekondigd voor zijn Personal Computer-product. Het systeem routeert AI-taken automatisch tussen het lokale apparaat en cloudgebaseerde frontier-modellen, zonder dat de gebruiker vooraf hoeft te kiezen. Een compact lokaal model evalueert elke taak op gegevensgevoeligheid en rekenvereisten en beslist waar de taak wordt uitgevoerd. Gevoelige gegevens blijven op het apparaat, terwijl zware berekeningen naar de cloud gaan. De functie komt in juli 2026 naar Perplexity Computer, eerst op Windows.
Een ontwikkelaar test embeddings door een app te bouwen die de semantische gelijkenis tussen teksten meet. Liefde en haat krijgen een verrassend hoge score van 0,80. Het artikel legt uit hoe embeddings werken als 768-getallenvectoren en toont de code voor een lokale semantische zoekmachine met Llama en Ollama.
NVIDIA heeft Nemotron 3 Ultra gelanceerd, een open Mixture-of-Experts-model met 550 miljard parameters waarvan er 55 miljard actief zijn per token. Het model gebruikt een hybride Mamba-Attention-architectuur voor efficiënte verwerking van lange sequenties en is ontworpen voor langlopende agenten die plannen, tools gebruiken en redeneren. Volgens NVIDIA behaalt het tot 6x hogere inferentiedoorvoer dan vergelijkbare open LLM's bij gelijkwaardige nauwkeurigheid. Het model ondersteunt een context tot 1 miljoen tokens en wordt geleverd met open gewichten, trainingsdata en recepten.
Alibaba heeft met Qwen 3.5 een open-weights model uitgebracht dat closed-modellen verslaat op benchmarks als MathVista en MMMU. Het model gebruikt een sparse mixture-of-experts architectuur met 397 miljard parameters, waarvan slechts 17 miljard per token actief zijn. De mid-tier varianten van 35B en 9B parameters behalen 80 tot 90 procent van de prestaties van frontier-modellen tegen 1 tot 5 procent van de kosten.
Het model, uitgebracht onder de Apache 2.0-licentie, is een nieuw voorbeeld van hoe cloudproviders bedrijven in staat stellen om modellen op lokale apparaten te draaien voor agentische workflows. Dit onderstreept de trend van AI-verwerking aan de rand van het netwerk.
De AI-industrie verschuift van het vergelijken van modellen naar de vraag waar AI daadwerkelijk draait. Microsoft test met Project Solara AI-agenthardware zoals wearables en slimme displays. Nvidia wil met RTX Spark AI-inferentie naar de personal computer brengen. De concurrentie gaat niet langer alleen over slimme chatbots, maar over infrastructuur en apparaatplaatsing.
Miso Labs heeft MisoTTS uitgebracht, een open-weights text-to-speech-model met 8 miljard parameters. Het model gebruikt residual vector quantization (RVQ) om een breed scala aan spraaknuances te genereren en is geïnspireerd op de Sesame CSM-architectuur. MisoTTS condenseert op zowel tekst als audiocontext, waardoor het de toon van de spreker kan overnemen. Het model is beschikbaar onder een aangepaste MIT-licentie.
Onderzoekers van Stanford University en Lambda Labs hebben OpenJarvis gepubliceerd, een open-source framework dat AI-inferentie, agents, geheugen en leren volledig op het apparaat uitvoert. OpenJarvis gebruikt een declaratieve configuratie met vijf verwisselbare primitieven, waardoor lokale modellen binnen 3,2 procentpunt van de beste cloudmodellen presteren, tegen 800× lagere marginale API-kosten en 4× lagere latentie. De framework ondersteunt 11 lokale modellen uit vier families en is getest op 8 benchmarks.
Google heeft een nieuw 12-miljard-parameter model uitgebracht, Gemma 4 12B, dat afbeeldingen, audio en video kan verwerken en agentische tool-use ondersteunt. Het model draait op een laptop met 16GB geheugen.