opengov.nl is live

We have published our ICAI OpenGov Lab website at opengov.nl! It is a bit bare at the moment, containing some information on our team, projects, and some news items that were shared on socials. But as our research progresses, expect more, including papers and resources!

Website design (together with the logo and visual identity) by Rutger de Vries. The website is running on mkdocs-material, for easy posting by committing markdown files to our GitHub repository.

Maik Larooij joins the ICAI OpenGov Lab

We’re very happy to welcome Maik Larooij to the ICAI OpenGov Lab! This week he started as the lab’s fourth dual PhD student, combining his role as consultant at the Rijksorganisatie voor Informatiehuishouding with pursuing a PhD at the University of Amsterdam. I will be Maik’s main supervisor, alongside Maarten Marx (co-promotor) and Jaap Kamps (promotor).

Maik is no stranger to us: over the past 2.5 years he built the WooGLe search engine as a student assistant under Maarten Marx, while completing his MSc in Computer Science/Big Data Engineering at VU/UvA. Maik is not one to sit still, either. During his studies and work on WooGLe:

Welcome aboard, Maik. I look forward to work together and make an impact with AI for Open Government!

AI & Data Science MSc thesis projects at the ICAI OpenGov Lab

As each year, I am looking for talented and driven master students to work on a variety of projects out of the ICAI OpenGov Lab. See the one-sentence summaries (provided by ChatGPT) of the project proposals below! And reach out if you’re interested in working on any of these (and want to see the full project description);

  1. Labeling and Detecting Mis- and Disinformation in OpenGov Data
    Develops methods to detect known false claims in government texts using weak supervision and fact-check datasets, to study how mis- and disinformation surface, spread, or are contested in governmental discourse.
  2. Quantifying Source Authoritativeness from Governmental Data
    Explores how citation and reference patterns in parliamentary documents can be used to measure the authority of sources, using graph-based metrics and debate uptake as signals.
  3. Homophore Resolution in Governmental Texts
    Investigates automatic detection and resolution of generic government-specific references (“het ministerie,” “de commissie”) by combining general and domain-specific knowledge bases.
  4. NLI for Measuring Political Party Program-Parliament Consistency
    Uses Natural Language Inference between party programs and parliamentary debates to quantify how consistently parties and politicians adhere to their stated programs over time.
  5. VLMs and Document AI for Open Government Data
    Applies multimodal models to segment and classify heterogeneous PDFs (e.g., merged reports, emails, chat logs) into meaningful components, improving search, summarization, and retrieval.
  6. Large-Scale Topic Modeling and Narrative Detection for Parliamentary Proceedings
    Applies modern topic modeling and clustering techniques to detect themes, narratives, and framing strategies in parliamentary debates, with potential visualization of evolving discourse.
  7. Bias and Accessibility in LLM-Based Summaries of Open Government Documents
    Studies bias in AI-generated summaries of government texts, examining omission or misrepresentation risks and exploring fairness metrics and accountability tools.
  8. Computational Linguistic Analysis of Government Documents
    Analyzes the linguistic characteristics of Dutch governmental legal language computationally, to inform simplification models and quantify differences from plain language.
  9. Decision Models and Open Government Documents
    Explores links between decision models (e.g., DMN) and textual decision documents, aiming to automate text-to-model and model-to-text transformations for improved explainability and retrieval.
  10. Recognising Official Entities in Government Documents
    Develops specialized NER models to detect government-specific entities (committees, legal references, institutions) beyond standard KB coverage, enhancing linking and retrieval.
  11. To delete or to archive? Classification of Government Documents against Selection Lists
    Examines automatic classification of government documents against archival selection lists to support decisions on deletion versus long-term storage, reducing manual effort.

ECIR 2026 Publicity Co-chair

I am (yet again) a publicity (co-)chair (alongside Yifei Yuan) for the 48th European Conference on Information Retrieval (ECIR). I did the same for ECIR 2014! What changed in 12 years, you may ask? Well, I’m afraid the CMS we’re using for the website this time around didn’t seem to, at all…

Anyway, as part of my publicity chairing, I couldn’t stop myself and designed the new ECIR logo;

(the blue is a reference to Delft’s Blauw, of course, and the cracks/stuck together letters to the conference venue; a former glue factory!). See it in context on ecir2026.eu.

ECIR is also on Bluesky and Linkedin!

Facebook Museum geopend

Gistermiddag opende Jelle van der Ster, directeur van SETUP (en vermoedelijk ook met een rol binnen de Stichting Facebook Museum), het Facebook Museum, midden op Utrecht Centraal!

Dat SETUP thema’s inhoudelijk ijzersterk agendeert, vaak net op de troepen vooruit, wist ik al. (Lees daarover voor dit project bijvoorbeeld hier en hier). Maar op deze plek, in deze vormgeving, in deze ijzersterke pop-up store, zien (veel!) mensen het ook ineens.

Niet voor niets kwamen gisteren en maandag onder meer Hart van Nederland, Trouw, ANP, AD, NRC en vele andere media al een kijkje nemen.

Gefeliciteerd met deze prachtige opening en het museum SETUP! En erg lekker gewerkt Casper de Jong, Marissa Memelink, Frank-Jan van Lunteren, Andrea Rhodenborgh, Ellen Bijsterbosch, en alle anderen SETUPpers die hieraan hebben gebouwd 👍🏻!

Kom ook kijken deze week en koop zo’n kaars, doneer je data, of deel een Facebook herinnering.

  • 📅 14 t/m 20 juli 2025
  • 📍 Utrecht Centraal Station in de NS popup-store tussen spoor 19 en 20.
  • 🎫 De toegang van het museum is gratis (wel even inchecken)

Wordt GPT-NL een succes? Nee, het zit genuanceerder

GPT-NL houdt het, bij gebrek aan transparantie en openheid, bij een wat pompeuze site vol marketing over openheid en transparantie, soevereniteit, en wederkerigheid.

open

maar niet open-weights… Dat vertelt de GPT-NL FAQ ons via het volgende taalkundige hoogstandje: “Wordt het model open-weights? Nee, het zit genuanceerder.” Die nuance? Het model is gesloten, je moet betalen voor commercieel gebruik, en (tot tegenbericht) eigenlijk ook voor non-commercieel gebruik:

“we onderzoeken nog of de onderzoekslicentie gratis of tegen een symbolisch bedrag aangeboden MAG worden”

en transparant…?

Voor wie het niet weet: GPT-NL is met 13.5M gefinancierd door de overheid (wat, heb ik me laten vertellen, een volstrekt niet open proces is geweest), en wordt getraind op o.a. private data die optioneel worden gecompenseerd (uit de licentieinkomsten van GPT-NL), en data die al open waren.

Maarja, GPT-NL is gestart met trainen. En gelukkig is er die (summiere) blog over geschreven, anders kon je het niet weten:

GPT-NL op Hugging Face
GPT-NL op GitHub

ergens anders misschien?

Soortgelijke (maar veelal grotere) initiatieven om een “eerlijke/open” (mbt data) of “lokale” LLM op te leveren, zoals EuroLLM (met EU funding) of BLOOM (met funding van Frankrijk), zijn niet alleen open-weights (duh), maar ook volledig transparant over data (welke, hoeveel, waarvandaan) en technische details (architectuur, training, post-training, etc.). Zie bijvoorbeeld ook de recent uitgebrachte SmolLMv3;

We’re releasing SmolLM3 with our engineering blueprint. It includes architecture details, exact data mixtures showing how we progressively boost performance across domains in a three-stage pretraining approach, and the methodology for building a hybrid reasoning model. Usually, achieving these results would require months of reverse engineering. Instead, we’re providing the full methodology.

Het kan dus wel! Maar niet bij GPT-NL…

AI en Open Overheid masterclass slides

Onlangs gaven Maarten Marx en ik een masterclass “AI en Open Overheid” op de Od kennissessie.

Ik had de eer om — volledig tegen mijn natuur in — de risico’s mbt het gebruik van AI uiteen te zetten. Maarten ging in op voorbeelden van AI voor open overheid (zoals zoeken verbeteren, metadata verrijken, en natuurlijk chatten met Woo dossiers).

Zie bijgevoegd de slides van mijn deel van de masterclass, over risico’s van het gebruik van (generatieve) AI dus, en een paar verdiepende slides over Retrieval-Augmented Generation (RAG).

https://www.slideshare.net/slideshow/od-kennissessie-masterclass-ai-en-open-overheid-ai-risico-s-rag/281112950

Woorkshop 2025

Gisteren hielden we de derde jaarlijkse Woorkshop (mijn eerste!) op de UvA, waar dit jaar 8 studenten (en 1 Master of Science 😉) hun afstudeerscriptie presenteerden die over “iets met de Woo” ging.

Studenten onder begeleiding van Jaap Kamps, Maarten Marx, en mijzelf werkten aan onderwerpen zoals het ontwikkelen van lichtgewicht open-source Woo software voor kleine bedrijven (of grote universiteiten), het analyseren van welke onderwerpen (vaker) worden weggelaten in door ChatGPT-gegenereerde samenvattingen van toespraken van politici, tot het identificeren en linken van impliciete referenties naar moties in Tweede Kamerdebatten. 

Eentje uitlichten dan: Gregory Slager onderzocht voor zijn scriptie de toegankelijkheid van Woo documenten (PDFs), en ontdekte dat in zijn dataset van bijna 32 duizend documenten er slechts 79 voldeden aan de WCAG-standaarden voor toegankelijkheid! Het overgrote deel van die documenten (99.8%) is daarmee niet of slecht toegankelijk voor gebruikers met een visuele beperking die bijvoorbeeld afhankelijk zijn van screen readers. Gelukkig liet hij zien dat met betrekkelijk eenvoudige tools een groot deel van de gevonden WCAG-fouten konden worden weggewerkt. Werk aan de winkel, dus!

Gefeliciteerd aan alle studenten die hun scripties nu (of heel erg bijna 😅) hebben ingeleverd! De zomer kan beginnen! (het lezen ook…). Hou de pagina met het programma in de gaten voor scripties en slides!

OpenGov meets Gov

Afgelopen vrijdag bezochten Tweede Kamerleden Barbara Kathmann en Luc Stultiens van GroenLinks-PvdA, samen met beleidsmedewerker digitale zaken Tijmen de Vries en Amsterdams gemeenteraadslid Elisabeth IJmker, ons bij LAB42.

Daar mochten Damiaan Reijnaers en ik het ICAI OpenGov Lab presenteren. OpenGov meets Gov, zeg maar!

Het was inspirerend om ons werk, onze ideeën en ervaringen te delen met deze tech-savvy politici. Barbara Kathmann (“Meest Digibewuste Tweede Kamerlid“) kennen jullie van de onlangs ingediende initatiefnota “Wolken aan de horizon” over digitale soevereiniteit. En Elisabeth IJmker denkt kritisch mee over AI-toepassingen binnen de Gemeente Amsterdam, zoals recent nog in Trouw te lezen was over de AI-pilot “Slimme Check.”

Fijn om met politici te praten die goed in het onderwerp zitten, dat maakt het gesprek meteen inhoudelijk en dat ligt volgens mij niet per se voor de hand, anno nu. En hopelijk konden wij iets meegeven over het belang van samenwerkingen tussen universiteiten en zowel de publieke als private sector om AI in Nederland te versterken. Naast natuurlijk het plezier en de learning opportunities die zulke samenwerkingen opleveren! (en ja deze bijeenkomst was ook gewoon lachen, zie foto #2).

Weg van Big Tech! (Maar… waarheen dan?)

Afgelopen zaterdag bezocht ik De Digital Summit van het Netwerk Digitale Samenleving van GroenLinks-PvdA, en dat was een uitstekend georganiseerde en inspirerende bijeenkomst in mijn hometown Zwolle (waar ik voor het eerst in, ik geloof 30 jaar, de buitensoos weer eens van binnen zag).

Maar (of “en”?) de bijeenkomst was ook opvallend eensgezind in een anti-big tech sentiment. 

Ik ben voor meer “digitale soevereiniteit” en minder afhankelijkheid van de Amerikaanse cloud, maar het gesprek mag zich m.i. nog ontwikkelen van afkeer naar alternatief. Ik proef nu veel enthousiasme om weg te gaan van iets (en soms neigt dat enthousiasme naar een wat triomfantelijk/smalend enthousiasme), maar nog weinig duidelijkheid over waarheen dan.

De wat theoretische usual suspects komen vaak terug:

  1. de niche-alternatieven zoals Fairphone en Mastodon, die resoneren bij de al overtuigde minderheid, maar nog weinig aantrekkelijk lijken voor de gemiddelde gemeenteambtenaar in Lutjebroek
  2. De “het kan wel!” n=1-verhalen van bedrijven die al “volledig open source/self-hosted draaien” (vaak getekend: een MKB IT-bedrijf van hacker-idealisten met een overvloed aan systeembeheerder-hobbyisten)
  3. De enthousiaste ondernemers die maar wat graag een nationale digitale infrastructuur en/of digitaal platform voor Nederland willen bouwen (snap ik 🤑)

Bovendien, door politieke en ethische bezwaren tegen big tech te blijven benadrukken riskeren we om techneuten (waar ik mezelf, zie afbeelding, even toe reken) te vervreemden. In mijn vakgebied (IR/NLP) is de samenwerking met big tech (ook academisch) intensief. Dat ecosysteem wordt nog steeds gezien als dé plek om te leren, voor bleeding edge onderzoek, en het technisch meest uitdagende werk. Als we die “technische” context negeren, verliezen we misschien wel de mensen die we nodig hebben om onze wolken aan de horizon te bouwen. 

Unpopular opinion in 2025, maar big tech doet een hoop ook niet slecht. De schaalbaarheid, de voordelen van centralisatie, en de daaruit voortvloeiende efficiëntie. Als we straks allemaal onze eigen cloud moeten bouwen en draaien, onze eigen AI-modellen moeten trainen en hosten, dan rijst de energievraag pas echt de pan uit. Denk ook aan ‘frictionless’ design, de implementatie van compliance-vraagstukken, of spamfilters die echt werken (ja, Google/Microsoft “leest” daarvoor al je mail!).

Het enthousiasme (“hoera, weg van big tech”) kan zomaar omslaan in frictie en teleurstelling, zodra we verdwalen in de ons opgelegde fediverse, of gedwongen moeten werken in on-affe jaren ‘90 Centric software.

De aangenomen moties rond de initiatiefnota “Wolken aan de horizon” zijn een mooi startschot, geen eindpunt. We moeten dit momentum benutten om iets op te zetten dat niet alleen maatschappelijk wenselijk is, maar ook technisch geloofwaardig!

Amsterdam AI – Public Engagement Fellow

Ik ben sinds kort public engagement fellow bij Amsterdam AI‘s “De AI Samenleving.” Als public engagement fellow ga ik als AI wetenschapper in gesprek met “het algemene publiek,” bijvoorbeeld in dialogen met burgers in NEMO, de OBA’s en stadsloketten in Amsterdam!

In het kader daarvan heb ik een “Art of Dialogue” training gevolgd aan de VU, en doe ik een bijdrage aan de Nationaal Expertisecentrum Wetenschap en Samenleving (NEWS) “Open Space” over AI en wetenschapscommunicatie, op vrijdag 4 juli in Utrecht.

Bron: Amsterdam AI (LinkedIn)

Veel zin in! Praktisch gezien wordt het als wetenschapper steeds belangrijker om maatschappelijk relevant onderzoek te doen, dus vragen de funders dat, maar belangrijker nog houd ik mij altijd al graag bezig met communicatie en het vertalen van ons (soms) complexe werk naar een breder publiek. Dat ik daar nu de ruimte, mogelijkheden, en bovendien ondersteuning bij krijg van Amsterdam AI vind ik top!

#newjob

I’m starting something new! I’ve joined the Institute for Logic, Language and Computation (ILLC) at the University of Amsterdam as an Assistant Professor, where I’ll be leading the newly established Artificial Intelligence for Open Government (AI for OpenGov) ICAI Lab. I am very excited to dive into this societally relevant (in particular in today’s political climate) topic, and I am convinced AI can play a meaningful and important role in enabling a more transparent government.

After eight years of working in industry, returning to academia was never part of some grand master plan (there is none), but I was particularly drawn to this ICAI Lab, which has been set up with the Rijksorganisatie voor Informatiehuishouding (RvIHH), as it means I get to do applied research in Information Retrieval and Natural Language Processing, with real impact. The ICAI Lab will kick off with three PhD students under my supervision, who are also employed at the RvIHH (and hence close on the action). We get to work with a so-called Living Lab, a “real” search engine with (actual) open data: UvA’s WooGle. In sum, applied research, on a societally relevant and impactful topic, with real data and users! What’s not to like?

I consider myself lucky to be able to take this new turn in my career and am looking forward to this new adventure!

Opinie: Fact-checking verdwijnt op Meta, maar de échte beïnvloeding komt later

Zuckerberg schrapt factchecking op Facebook en Instagram. Ophef alom. Minder moderatie, meer desinformatie, minder grip op schadelijke content—zo klinkt het althans. Maar hoe erg is dat echt? Toen Musk bij X de moderatie afbrak, ja, toen veranderde X in een open riool. Maar gebruikers weken ook uit naar alternatieven als Mastodon en Bluesky (waar het eigenlijk best gezellig is). De macht van X brokkelt daarmee af, en hetzelfde zal ongetwijfeld met Meta gebeuren. Sociale media fragmenteren, hun invloed versnipperd over steeds meer platforms. Geen ramp.

Een échte zorg ligt elders. Niet bij sociale media, maar bij de systemen die de toekomst van informatievoorziening bepalen, en die eveneens in handen zijn van deze big tech: generatieve AI-modellen. Terwijl sociale media versnipperen, consolideert AI zich juist. AI ontwikkelen is namelijk duur—te duur voor “open” initiatieven zoals BLOOM van Hugging Face, of ‘s Neerlands eigen GPT-NL: sympathieke projecten die onbedoeld toch vooral laten zien dat het onmogelijk is om zowel duurzame, eerlijke als bruikbare AI te ontwikkelen.

En dat is een probleem. Recent onderzoek toont aan dat AI modellen de ideologische voorkeuren van hun makers absorberen en reproduceren. Dat gebeurt subtiel: in de manier waarop vragen worden beantwoord, welke perspectieven worden versterkt, en hoe informatie wordt geframed. 

Waar je sociale media platforms nog betrekkelijk eenvoudig de rug kan toekeren, gaat dat bij AI moeilijk. Je kunt zelf stoppen het te gebruiken, maar AI-systemen zitten steeds dieper ingebed in onze gehele informatieketen: in zoekmachines, mediaproductie, e-mailprogramma’s, programmeertools; kortom: aan de kant van zowel (ons) gebruikers als producenten. 

Hoewel big tech nu juist met ethische “guardrails” diversiteit probeert te benadrukken (en dat gaat niet altijd even goed), lijkt de draai van Zuckerberg naar “minder censuur” een voorbode van een ruk naar rechts door big tech. Wanneer deze nieuwe koers zich doorzet in AI-systemen, sijpelen de waarden vanzelf door in alles wat ze genereren, interpreteren, en (re)produceren. Zo kan generatieve AI subtiel de framing van nieuws, maatschappelijke debatten en politieke voorkeuren beïnvloeden.

Het probleem is dus niet dat fact-checking op Facebook verdwijnt—dat kun je ontlopen. De kater komt later, wanneer AI stilzwijgend Silicon Valleys nieuwe waardering voor “vrije meningsuiting” heeft omarmd, en de grenzen verschuift van wat we collectief als waar en relevant beschouwen.

Opinion: Fact-Checking Disappears on Meta, But the Real Influence Comes Later

Zuckerberg scraps fact-checking on Facebook and Instagram. Outrage ensues. Less moderation, more disinformation, less control over harmful content — or at least, that’s what it sounds like. But how bad is it really? When Musk dismantled moderation on X, yes, the platform turned into an open sewer. But users also flocked to alternatives like Mastodon and Bluesky (which are actually quite pleasant). As a result, X’s power diminishes, and the same will undoubtedly happen to Meta. Social media is fragmenting, with its influence scattered across an increasing number of platforms. No disaster.

A real concern lies elsewhere. Not with social media, but with the systems shaping the future of information — systems that are also in the hands of big tech: generative AI and Large Language Models. While social media is splintering, AI is consolidating. This is because developing AI is expensive — too expensive for “open” initiatives like Hugging Face’s BLOOM or the Netherlands’ own GPT-NL: sympathetic projects that unintentionally reveal it’s impossible to develop AI that is sustainable, fair, and useful all at once.

And that’s a problem. Recent research shows that Large Language Models absorb and reproduce the ideological preferences of their creators. This happens subtly: in how questions are answered, which perspectives are amplified, and how information is framed.

While you can easily turn your back to social media platforms, doing so with AI is much harder. You can stop being a user, but AI systems are becoming ever more deeply entangled in our entire information ecosystem: in search engines, media production, email programs, coding tools — in short, on both the user and producer sides.

Although big tech is currently applying ethical “guardrails” to promote diversity (not always successfully), Zuckerberg’s shift toward “less censorship” seems to foreshadow a broader rightward, populistic shift in big tech. When this new direction inevitably reaches AI systems, those values will seep into everything they generate, interpret, and (re)produce. In this way, generative AI can subtly influence the framing of news, societal debates, and political preferences.

So, the issue isn’t that fact-checking on Facebook is disappearing — that’s something we can easily avoid. The real reckoning comes later, when AI quietly embraces Silicon Valley’s newfound appreciation for “free speech” and shifts the boundaries of what we collectively consider true and relevant.

Special Issue on RecSys in HR at Frontiers in Big Data

During the opening of our 4th Workshop on Recommender Systems for Human Resources, Mesut Kaya announced our Research Topic (~ Special Issue) on Recommender Systems for Human Resources at the Frontiers in Big Data Journal.

Authors at the workshop, past and present, are particularly invited to (re-)submit their extended paper to this Journal issue. The deadline for submitting summaries is October 31, 2024, and the deadline for actual manuscrip submission is January 31, 2025!

This Research Topic, developed in conjunction with the 4th Workshop on Recommender Systems for Human Resources (RecSys in HR 2024), explores the dynamic interplay between Artificial Intelligence (AI) and Human Resources (HR) Technologies. Focusing on Recommender Systems (RecSys) as a prime example of AI applications, this themed article collection provides a comprehensive view of their role in the HR domain.

This issue will be edited by myself, Chris Johnson, Mesut Kaya, Toine Bogers and Jens-Joris Decorte! For more details and the full CFP, see: https://www.frontiersin.org/research-topics/64365/recommender-systems-for-human-resources