opengov.nl is live

We have published our ICAI OpenGov Lab website at opengov.nl! It is a bit bare at the moment, containing some information on our team, projects, and some news items that were shared on socials. But as our research progresses, expect more, including papers and resources!

Website design (together with the logo and visual identity) by Rutger de Vries. The website is running on mkdocs-material, for easy posting by committing markdown files to our GitHub repository.

Maik Larooij joins the ICAI OpenGov Lab

We’re very happy to welcome Maik Larooij to the ICAI OpenGov Lab! This week he started as the lab’s fourth dual PhD student, combining his role as consultant at the Rijksorganisatie voor Informatiehuishouding with pursuing a PhD at the University of Amsterdam. I will be Maik’s main supervisor, alongside Maarten Marx (co-promotor) and Jaap Kamps (promotor).

Maik is no stranger to us: over the past 2.5 years he built the WooGLe search engine as a student assistant under Maarten Marx, while completing his MSc in Computer Science/Big Data Engineering at VU/UvA. Maik is not one to sit still, either. During his studies and work on WooGLe:

Welcome aboard, Maik. I look forward to work together and make an impact with AI for Open Government!

AI & Data Science MSc thesis projects at the ICAI OpenGov Lab

As each year, I am looking for talented and driven master students to work on a variety of projects out of the ICAI OpenGov Lab. See the one-sentence summaries (provided by ChatGPT) of the project proposals below! And reach out if you’re interested in working on any of these (and want to see the full project description);

  1. Labeling and Detecting Mis- and Disinformation in OpenGov Data
    Develops methods to detect known false claims in government texts using weak supervision and fact-check datasets, to study how mis- and disinformation surface, spread, or are contested in governmental discourse.
  2. Quantifying Source Authoritativeness from Governmental Data
    Explores how citation and reference patterns in parliamentary documents can be used to measure the authority of sources, using graph-based metrics and debate uptake as signals.
  3. Homophore Resolution in Governmental Texts
    Investigates automatic detection and resolution of generic government-specific references (“het ministerie,” “de commissie”) by combining general and domain-specific knowledge bases.
  4. NLI for Measuring Political Party Program-Parliament Consistency
    Uses Natural Language Inference between party programs and parliamentary debates to quantify how consistently parties and politicians adhere to their stated programs over time.
  5. VLMs and Document AI for Open Government Data
    Applies multimodal models to segment and classify heterogeneous PDFs (e.g., merged reports, emails, chat logs) into meaningful components, improving search, summarization, and retrieval.
  6. Large-Scale Topic Modeling and Narrative Detection for Parliamentary Proceedings
    Applies modern topic modeling and clustering techniques to detect themes, narratives, and framing strategies in parliamentary debates, with potential visualization of evolving discourse.
  7. Bias and Accessibility in LLM-Based Summaries of Open Government Documents
    Studies bias in AI-generated summaries of government texts, examining omission or misrepresentation risks and exploring fairness metrics and accountability tools.
  8. Computational Linguistic Analysis of Government Documents
    Analyzes the linguistic characteristics of Dutch governmental legal language computationally, to inform simplification models and quantify differences from plain language.
  9. Decision Models and Open Government Documents
    Explores links between decision models (e.g., DMN) and textual decision documents, aiming to automate text-to-model and model-to-text transformations for improved explainability and retrieval.
  10. Recognising Official Entities in Government Documents
    Develops specialized NER models to detect government-specific entities (committees, legal references, institutions) beyond standard KB coverage, enhancing linking and retrieval.
  11. To delete or to archive? Classification of Government Documents against Selection Lists
    Examines automatic classification of government documents against archival selection lists to support decisions on deletion versus long-term storage, reducing manual effort.

ECIR 2026 Publicity Co-chair

I am (yet again) a publicity (co-)chair (alongside Yifei Yuan) for the 48th European Conference on Information Retrieval (ECIR). I did the same for ECIR 2014! What changed in 12 years, you may ask? Well, I’m afraid the CMS we’re using for the website this time around didn’t seem to, at all…

Anyway, as part of my publicity chairing, I couldn’t stop myself and designed the new ECIR logo;

(the blue is a reference to Delft’s Blauw, of course, and the cracks/stuck together letters to the conference venue; a former glue factory!). See it in context on ecir2026.eu.

ECIR is also on Bluesky and Linkedin!

Facebook Museum geopend

Gistermiddag opende Jelle van der Ster, directeur van SETUP (en vermoedelijk ook met een rol binnen de Stichting Facebook Museum), het Facebook Museum, midden op Utrecht Centraal!

Dat SETUP thema’s inhoudelijk ijzersterk agendeert, vaak net op de troepen vooruit, wist ik al. (Lees daarover voor dit project bijvoorbeeld hier en hier). Maar op deze plek, in deze vormgeving, in deze ijzersterke pop-up store, zien (veel!) mensen het ook ineens.

Niet voor niets kwamen gisteren en maandag onder meer Hart van Nederland, Trouw, ANP, AD, NRC en vele andere media al een kijkje nemen.

Gefeliciteerd met deze prachtige opening en het museum SETUP! En erg lekker gewerkt Casper de Jong, Marissa Memelink, Frank-Jan van Lunteren, Andrea Rhodenborgh, Ellen Bijsterbosch, en alle anderen SETUPpers die hieraan hebben gebouwd 👍🏻!

Kom ook kijken deze week en koop zo’n kaars, doneer je data, of deel een Facebook herinnering.

  • 📅 14 t/m 20 juli 2025
  • 📍 Utrecht Centraal Station in de NS popup-store tussen spoor 19 en 20.
  • 🎫 De toegang van het museum is gratis (wel even inchecken)

Wordt GPT-NL een succes? Nee, het zit genuanceerder

GPT-NL houdt het, bij gebrek aan transparantie en openheid, bij een wat pompeuze site vol marketing over openheid en transparantie, soevereniteit, en wederkerigheid.

open

maar niet open-weights… Dat vertelt de GPT-NL FAQ ons via het volgende taalkundige hoogstandje: “Wordt het model open-weights? Nee, het zit genuanceerder.” Die nuance? Het model is gesloten, je moet betalen voor commercieel gebruik, en (tot tegenbericht) eigenlijk ook voor non-commercieel gebruik:

“we onderzoeken nog of de onderzoekslicentie gratis of tegen een symbolisch bedrag aangeboden MAG worden”

en transparant…?

Voor wie het niet weet: GPT-NL is met 13.5M gefinancierd door de overheid (wat, heb ik me laten vertellen, een volstrekt niet open proces is geweest), en wordt getraind op o.a. private data die optioneel worden gecompenseerd (uit de licentieinkomsten van GPT-NL), en data die al open waren.

Maarja, GPT-NL is gestart met trainen. En gelukkig is er die (summiere) blog over geschreven, anders kon je het niet weten:

GPT-NL op Hugging Face
GPT-NL op GitHub

ergens anders misschien?

Soortgelijke (maar veelal grotere) initiatieven om een “eerlijke/open” (mbt data) of “lokale” LLM op te leveren, zoals EuroLLM (met EU funding) of BLOOM (met funding van Frankrijk), zijn niet alleen open-weights (duh), maar ook volledig transparant over data (welke, hoeveel, waarvandaan) en technische details (architectuur, training, post-training, etc.). Zie bijvoorbeeld ook de recent uitgebrachte SmolLMv3;

We’re releasing SmolLM3 with our engineering blueprint. It includes architecture details, exact data mixtures showing how we progressively boost performance across domains in a three-stage pretraining approach, and the methodology for building a hybrid reasoning model. Usually, achieving these results would require months of reverse engineering. Instead, we’re providing the full methodology.

Het kan dus wel! Maar niet bij GPT-NL…

AI en Open Overheid masterclass slides

Onlangs gaven Maarten Marx en ik een masterclass “AI en Open Overheid” op de Od kennissessie.

Ik had de eer om — volledig tegen mijn natuur in — de risico’s mbt het gebruik van AI uiteen te zetten. Maarten ging in op voorbeelden van AI voor open overheid (zoals zoeken verbeteren, metadata verrijken, en natuurlijk chatten met Woo dossiers).

Zie bijgevoegd de slides van mijn deel van de masterclass, over risico’s van het gebruik van (generatieve) AI dus, en een paar verdiepende slides over Retrieval-Augmented Generation (RAG).

https://www.slideshare.net/slideshow/od-kennissessie-masterclass-ai-en-open-overheid-ai-risico-s-rag/281112950

Woorkshop 2025

Gisteren hielden we de derde jaarlijkse Woorkshop (mijn eerste!) op de UvA, waar dit jaar 8 studenten (en 1 Master of Science 😉) hun afstudeerscriptie presenteerden die over “iets met de Woo” ging.

Studenten onder begeleiding van Jaap Kamps, Maarten Marx, en mijzelf werkten aan onderwerpen zoals het ontwikkelen van lichtgewicht open-source Woo software voor kleine bedrijven (of grote universiteiten), het analyseren van welke onderwerpen (vaker) worden weggelaten in door ChatGPT-gegenereerde samenvattingen van toespraken van politici, tot het identificeren en linken van impliciete referenties naar moties in Tweede Kamerdebatten. 

Eentje uitlichten dan: Gregory Slager onderzocht voor zijn scriptie de toegankelijkheid van Woo documenten (PDFs), en ontdekte dat in zijn dataset van bijna 32 duizend documenten er slechts 79 voldeden aan de WCAG-standaarden voor toegankelijkheid! Het overgrote deel van die documenten (99.8%) is daarmee niet of slecht toegankelijk voor gebruikers met een visuele beperking die bijvoorbeeld afhankelijk zijn van screen readers. Gelukkig liet hij zien dat met betrekkelijk eenvoudige tools een groot deel van de gevonden WCAG-fouten konden worden weggewerkt. Werk aan de winkel, dus!

Gefeliciteerd aan alle studenten die hun scripties nu (of heel erg bijna 😅) hebben ingeleverd! De zomer kan beginnen! (het lezen ook…). Hou de pagina met het programma in de gaten voor scripties en slides!

OpenGov meets Gov

Afgelopen vrijdag bezochten Tweede Kamerleden Barbara Kathmann en Luc Stultiens van GroenLinks-PvdA, samen met beleidsmedewerker digitale zaken Tijmen de Vries en Amsterdams gemeenteraadslid Elisabeth IJmker, ons bij LAB42.

Daar mochten Damiaan Reijnaers en ik het ICAI OpenGov Lab presenteren. OpenGov meets Gov, zeg maar!

Het was inspirerend om ons werk, onze ideeën en ervaringen te delen met deze tech-savvy politici. Barbara Kathmann (“Meest Digibewuste Tweede Kamerlid“) kennen jullie van de onlangs ingediende initatiefnota “Wolken aan de horizon” over digitale soevereiniteit. En Elisabeth IJmker denkt kritisch mee over AI-toepassingen binnen de Gemeente Amsterdam, zoals recent nog in Trouw te lezen was over de AI-pilot “Slimme Check.”

Fijn om met politici te praten die goed in het onderwerp zitten, dat maakt het gesprek meteen inhoudelijk en dat ligt volgens mij niet per se voor de hand, anno nu. En hopelijk konden wij iets meegeven over het belang van samenwerkingen tussen universiteiten en zowel de publieke als private sector om AI in Nederland te versterken. Naast natuurlijk het plezier en de learning opportunities die zulke samenwerkingen opleveren! (en ja deze bijeenkomst was ook gewoon lachen, zie foto #2).

Weg van Big Tech! (Maar… waarheen dan?)

Afgelopen zaterdag bezocht ik De Digital Summit van het Netwerk Digitale Samenleving van GroenLinks-PvdA, en dat was een uitstekend georganiseerde en inspirerende bijeenkomst in mijn hometown Zwolle (waar ik voor het eerst in, ik geloof 30 jaar, de buitensoos weer eens van binnen zag).

Maar (of “en”?) de bijeenkomst was ook opvallend eensgezind in een anti-big tech sentiment. 

Ik ben voor meer “digitale soevereiniteit” en minder afhankelijkheid van de Amerikaanse cloud, maar het gesprek mag zich m.i. nog ontwikkelen van afkeer naar alternatief. Ik proef nu veel enthousiasme om weg te gaan van iets (en soms neigt dat enthousiasme naar een wat triomfantelijk/smalend enthousiasme), maar nog weinig duidelijkheid over waarheen dan.

De wat theoretische usual suspects komen vaak terug:

  1. de niche-alternatieven zoals Fairphone en Mastodon, die resoneren bij de al overtuigde minderheid, maar nog weinig aantrekkelijk lijken voor de gemiddelde gemeenteambtenaar in Lutjebroek
  2. De “het kan wel!” n=1-verhalen van bedrijven die al “volledig open source/self-hosted draaien” (vaak getekend: een MKB IT-bedrijf van hacker-idealisten met een overvloed aan systeembeheerder-hobbyisten)
  3. De enthousiaste ondernemers die maar wat graag een nationale digitale infrastructuur en/of digitaal platform voor Nederland willen bouwen (snap ik 🤑)

Bovendien, door politieke en ethische bezwaren tegen big tech te blijven benadrukken riskeren we om techneuten (waar ik mezelf, zie afbeelding, even toe reken) te vervreemden. In mijn vakgebied (IR/NLP) is de samenwerking met big tech (ook academisch) intensief. Dat ecosysteem wordt nog steeds gezien als dé plek om te leren, voor bleeding edge onderzoek, en het technisch meest uitdagende werk. Als we die “technische” context negeren, verliezen we misschien wel de mensen die we nodig hebben om onze wolken aan de horizon te bouwen. 

Unpopular opinion in 2025, maar big tech doet een hoop ook niet slecht. De schaalbaarheid, de voordelen van centralisatie, en de daaruit voortvloeiende efficiëntie. Als we straks allemaal onze eigen cloud moeten bouwen en draaien, onze eigen AI-modellen moeten trainen en hosten, dan rijst de energievraag pas echt de pan uit. Denk ook aan ‘frictionless’ design, de implementatie van compliance-vraagstukken, of spamfilters die echt werken (ja, Google/Microsoft “leest” daarvoor al je mail!).

Het enthousiasme (“hoera, weg van big tech”) kan zomaar omslaan in frictie en teleurstelling, zodra we verdwalen in de ons opgelegde fediverse, of gedwongen moeten werken in on-affe jaren ‘90 Centric software.

De aangenomen moties rond de initiatiefnota “Wolken aan de horizon” zijn een mooi startschot, geen eindpunt. We moeten dit momentum benutten om iets op te zetten dat niet alleen maatschappelijk wenselijk is, maar ook technisch geloofwaardig!

Amsterdam AI – Public Engagement Fellow

Ik ben sinds kort public engagement fellow bij Amsterdam AI‘s “De AI Samenleving.” Als public engagement fellow ga ik als AI wetenschapper in gesprek met “het algemene publiek,” bijvoorbeeld in dialogen met burgers in NEMO, de OBA’s en stadsloketten in Amsterdam!

In het kader daarvan heb ik een “Art of Dialogue” training gevolgd aan de VU, en doe ik een bijdrage aan de Nationaal Expertisecentrum Wetenschap en Samenleving (NEWS) “Open Space” over AI en wetenschapscommunicatie, op vrijdag 4 juli in Utrecht.

Bron: Amsterdam AI (LinkedIn)

Veel zin in! Praktisch gezien wordt het als wetenschapper steeds belangrijker om maatschappelijk relevant onderzoek te doen, dus vragen de funders dat, maar belangrijker nog houd ik mij altijd al graag bezig met communicatie en het vertalen van ons (soms) complexe werk naar een breder publiek. Dat ik daar nu de ruimte, mogelijkheden, en bovendien ondersteuning bij krijg van Amsterdam AI vind ik top!

ICAI OpenGov Lab nieuwsbericht

De FNWI van de Universiteit van Amsterdam heeft ons nieuwsbericht over de lancering van het ICAI OpenGov Lab gepubliceerd (naar aanleiding van de kick-off die we begin mei in Amsterdam hebben georganiseerd). Het bericht is te lezen in het Nederlands:

Nieuw AI-onderzoekslab maakt open overheidsinformatie beter vindbaar en begrijpelijk

en in het Engels:

New AI Lab Makes Open Government Information Easier to Find and Understand

Ik word kort geciteerd:

‘Veel van de ontwikkelingen binnen Information Retrieval (IR) en Natural Language Processing (NLP) zijn goed toe te passen op het verbeteren van de vindbaarheid en bruikbaarheid van open overheidsdata,’ zegt labmanager dr. David Graus. ‘We kunnen met deze technologieën écht bijdragen aan een transparantere overheid en een beter geïnformeerde samenleving.’

Zo denk ik er nog precies over! Erg veel zin in de start van het inhoudelijke werk van ons lab!

Masterclass “AI en Open Overheid”

Op 24 juni geef ik samen met Maarten Marx een masterclass “AI en Open Overheid” op de Od kennissessie 2025. Lees meer details hier (onder het kopje “AI en open overheid”), of hier:

AI en chatbots kunnen enorm helpen om open overheidsinformatie echt goed vindbaar en toegankelijk te maken, zowel voor ambtenaren als voor burgers. In het OpenGov AI lab, een samenwerking tussen de Universiteit van Amsterdam en de Rijksdienst voor Informatiehuishouding, experimenteren we hiermee in de zoekmachine Woogle.

In deze workshop laten we een aantal toepassingen van AI op open overheidsinformatie zien, die vorig jaar nog toekomstmuziek leken, maar nu al vrij eenvoudig, ook voor kleinere bestuursorganen, ingezet kunnen worden. We kijken naar chatten met de videotulen van een raadsvergadering, waarin we vragen kunnen stellen als “Wat was gisteravond het standpunt van Partij X op Agendapunt Y?”, chatten met een Woo-dossier, stukken door AI laten herschrijven in begrijpelijke taal, snel samenvattingen laten maken, en ook voor blinde mensen begrijpelijk zwartlakken.

We besteden extra aandacht aan manieren om onwaarheden (“hallucinaties”) te voorkomen. De workshop is sterk interactief, we laten zien hoe elk bestuursorgaan al met deze technologie kan experimenteren alleen door haar informatie ook via Woogle te openbaren (wat zelf ook weer heel makkelijk kan, via bijvoorbeeld de openwoo api).

Ja. Krap een half jaar aan de slag en dan mag ik al een masterclass geven 😅.

Lid Commissie Persoonsgegevens Amsterdam

Ik ben toegetreden tot de Commissie Persoonsgegevens Amsterdam (CPA).

De CPA is een onafhankelijke commissie die sinds 1980(!) het College van burgemeester en wethouders van de Gemeente Amsterdam adviseert over kwesties betreffende persoonsgegevens, en inmiddels ook algoritmen, data-ethiek, digitale (mensen-)rechten en openbaarmaking van persoonsgegevens, en, zoals je je kunt voorstellen, steeds meer Al.

Mensen dichtbij mij weten dat ik dol ben op het geven van (liefst ongevraagd) advies, fijn om zo’n karaktereigenschap positief in te kunnen zetten voor Amsterdam!

ICAI OpenGov Lab @ Demo Donderdag

Donderdag 15 mei presenteer ik samen met Jaap Kamps en Maarten Marx ons ICAI OpenGov Lab bij Demo Donderdag in het Nationaal Archief in Den Haag, van 16:00-17:00.

Leuk als je komt! Aanmelden kan hier: Demo Donderdag: Overheidsinformatie ontketenen met AI? Maak kennis met het ICAI OpenGov Lab!

Aansluitend is er de “Open Donderdag netwerkborrel,” ook in het Nationaal Archief, ook helemaal niet erg als ik je daar zie!

Continue reading “ICAI OpenGov Lab @ Demo Donderdag”