This weekend I was asked a few questions about mitigation of harmful content in AI, in response to the news around Groks use for generating sexualized content: Grok produceert massaal en ongewild seksuele afbeeldingen. Kan dat ook anders? I was quoted:
In theorie zijn AI-bots als Grok prima te begrenzen, zegt universitair docent David Graus (Universiteit van Amsterdam). Dat begint al bij de ontwikkeling ervan. “Je kunt de bot van tevoren bijsturen en trainen: ‘als ik zo’n vraag stel, wil ik zo’n soort antwoord zien.”En is de bot eenmaal in gebruik, zoals bij Grok? Dan kan een bedrijf achteraf altijd nog filters toevoegen.
“Bijvoorbeeld een verbod op de woordcombinatie ‘uitkleden’ en ‘deze foto’, om maar iets te noemen.” Dat filteren kun je zelfs ook weer met kunstmatige intelligentie doen, zegt Graus. “Dat werkt over het algemeen vrij goed.”
What didn’t make the cut due to space constraints, was my full answer, stating three layers of harmful content mitigation:
- Data: curate your data to reduce harmful content
- Training/fine-tuning: instruct your model to show (un) desired behavior
- Output: filtering with heuristics (words) or using LLMs-as-judge to estimate the likelihood the prompt will yield harmful content
Each of these methods work, have different costs, are likely all applied (to some extent), but neither is an end-all solution.