Home » Het stelen van onze data en gedeelde kennis als brandstof voor AI

Het stelen van onze data en gedeelde kennis als brandstof voor AI

Eerder beschreef ik al hoe Big Tech is uitgegroeid tot onmisbare infrastructuur en hoe algoritmes onze blik op de wereld sturen. Maar al die systemen draaien niet op lucht. Ze hebben brandstof nodig. En die brandstof komt niet uit het niets.

Om maar meteen met de deur in huis te vallen: die brandstof zijn wij. Onze data. Onze teksten. Onze beelden. Onze kennis. Alles wat we op de bekende diensten plaatsen, wordt in uiteindelijk omgezet in geld. Alleen komt dat geld niet bij ons terecht, maar in de zakken van CEO’s en investeerders. Het moet immers renderen.

Van indexeren naar toe-eigenen

Jarenlang presenteerde Google zich als gids op het internet. Websites werden geïndexeerd, samengevat en doorverwezen. Wie zocht, kreeg links; wie klikte, belandde bij de bron. Dat was de impliciete afspraak: zichtbaarheid in ruil voor verkeer. In eerste instantie leek het een erg sympathiek model, maar het was het begin naar de inzet voor commercieel gewin.

Die balans is over de jaren langzaam verschoven. Antwoorden verschenen steeds vaker direct op de zoekpagina zelf. Deze zogeheten zero-click searches zorgen ervoor dat de felbegeerde nummer één-positie in Google vaak al zó volledig is, dat doorklikken nauwelijks nog nodig is. De bron wordt vermeld, maar het bezoek blijft uit.

Onder het mom van gebruiksvriendelijkheid werd informatie losgekoppeld van de maker. Alles met als doel om de gebruiker zo lang mogelijk op de eigen pagina te houden. Je wordt als het ware gegijzeld terwijl je ondertussen advertenties krijgt voorgeschoteld.

Structured data als hefboom

Met de introductie van structured data werd het nog eenvoudiger. Website-eigenaren werden aangemoedigd hun content gestructureerd aan te leveren: recepten, reviews, FAQ’s, stappenplannen. Dat was handig — voor zoekmachines.

Wat begon als optimalisatie, bleek vooral extractie. De inhoud werd steeds beter begrepen, maar vervolgens ook steeds minder doorgestuurd. Het doel was niet langer alleen vinden, maar vasthouden. Hoe langer iemand op de zoekpagina blijft, hoe meer advertenties er getoond kunnen worden. De zoekmachine veranderde van wegwijzer naar eindbestemming.

AI als volgende versnelling

Met de opkomst van AI is deze verschuiving nog verder versneld. Grote taalmodellen zijn getraind op enorme hoeveelheden data: websites, forums, artikelen en boeken. Vaak zonder expliciete toestemming, bronvermelding of compensatie voor de makers zelf.

Als website-eigenaar kun je deze AI-crawlers wel uitsluiten, maar dan wordt je data niet meer meegenomen en verdwijn je op termijn uit de relevante resultaten. Het mes wordt je op de keel gezet: geef je data gratis weg, of word onzichtbaar. Content is niet langer een publicatie, maar een grondstof.

Wanneer content maken niet meer rendeert

Voor veel makers wordt dit een existentieel probleem. Content maken was ooit een verdienmodel. Via advertenties, abonnementen of links kon kennis worden omgezet in inkomen. Maar als AI-systemen volledige antwoorden geven zonder door te verwijzen, verdwijnt de prikkel om de bron te bezoeken. De waarde verschuift definitief van maker naar platform.

De paradox is schrijnend: hoe beter je content, hoe meer het systeem ervan profiteert — en hoe minder jij ervoor terugkrijgt.

Gedeelde kennis, private winst

Dit raakt ook publieke kennisbronnen. Vrij toegankelijke informatie, geschreven om te delen, wordt gebruikt om private modellen te verrijken. De vraag is niet of AI nuttig is — dat is het — maar wie profiteert en wie de prijs betaalt. Zonder tegenmacht verandert gedeelde kennis in eenrichtingsverkeer richting de schatkist van Big Tech.

De nieuwe belofte van ‘gratis’

Hetzelfde patroon zien we bij generatieve AI-tools. Het voelt speels, creatief en laagdrempelig. Maar ook hier geldt: als je niet betaalt, ben jij het product. Alles wat je invoert — teksten, ideeën, ontwerpen — wordt gebruikt om de modellen van de eigenaar te verfijnen. Creativiteit wordt input. Experimenteren wordt dataverzameling. De rol van de mens verschuift van gebruiker naar trainingsmateriaal.

Van gebruiker naar trainingsmateriaal

Het probleem is niet dat systemen leren. Het probleem is dat het trainen van de modellen plaatsvindt zonder duidelijke afspraken, zonder transparantie en zonder zeggenschap. Individuen en makers leveren waarde, maar hebben geen invloed op wat ermee gebeurt.

Zo verschuift de rol van gebruiker naar trainingsmateriaal. Niet bewust, niet expliciet, maar wel structureel.

De sluipende uitholling van het internet

Als deze ontwikkeling doorzet, verandert het internet fundamenteel. Minder onafhankelijke makers betekent minder diversiteit. Waarom zou je investeren in diepgaande kennis als de opbrengst elders terechtkomt?

Wat overblijft is een dunne laag platforms bovenop een uitgeholde onderlaag van makers die niet meer beloond worden. Bovendien ontstaat er een bizar fenomeen: modellen worden getraind met content die ze zelf hebben gegenereerd. Als de bron van menselijke creativiteit opdroogt en modellen alleen nog maar herkauwen wat ze zelf hebben uitgespuwd, verwatert de waarde van alle informatie. De cirkel draait rond, maar de inhoud wordt steeds leger.

Vooruitblik: wie neemt de regie terug?

Dit alles brengt ons bij de vraag die ik centraal ga stellen in het laatste deel: wat is het antwoord? Kan Europa eigenlijk wel een rol spelen in het beschermen van digitale soevereiniteit? Kunnen publieke waarden een plek krijgen in infrastructuur, data en AI? En welke rol kan open source daarin spelen?

Andy Meerwaldt

Over de auteur

Ik ben Andy, een enthousiaste en ervaren web developer uit het Limburgse Gennep. Geboren in het jaar 1985, getrouwd en vader van vier kinderen.