De digitale wereld verkeert niet in een staat van verdrinking, maar eerder in een ongezonde verrotting. Onderzoek van vooraanstaande wetenschappers aan verschillende universiteiten in Texas onthult dat grote taalmodellen, wanneer ze worden blootgesteld aan virale sociale mediadata, te maken krijgen met meetbare cognitieve achteruitgang. Deze afnemende kwaliteit van denken is benoemd als “LLM brain rot”. Dit fenomeen lijkt een verontrustende evolutie van de ‘Dead Internet’-theorie te weerspiegelen, die nu in een grimmigere gedaante zal terugkeren, de ‘Zombie Internet’, waar AI-systemen wel blijven functioneren, maar hun coherentie verliezen.
Tijdens het onderzoek werden twee verschillende realiteiten gesimuleerd met behulp van Twitterdata: een vol met virale berichten die geoptimaliseerd zijn voor betrokkenheid, en een andere met langere, feitelijke of educatieve teksten. Het retrainen van verschillende open modellen, waaronder LLaMA en Qwen, op deze datasets toonde aan dat de cognitieve functies van deze systemen aanzienlijk achteruitgingen. Wanneer modellen werden getraind op 100 procent virale data, daalde de redeneernauwkeurigheid in de ARC-Challenge benchmark van 74.9 naar 57.2. De lange-contextbegrip scores, gemeten met RULER-CWE, kelderden van 84.4 naar 52.3. Voor investeerders betekent dit dat de kwaliteit van de trainingsdata niet alleen de prestaties direct beïnvloedt, maar ook kan leiden tot langdurige schade die moeilijk te corrigeren is.
Een opvallende ontdekking is dat posts met hoge betrokkenheid — veel likes, reacties en retweets — schadelijker zijn voor het redeneervermogen dan inhoud die inhoudelijk zwakker is. Dit effect onderscheidt zich van louter ruis of desinformatie; het is de engagement zelf die een statistisch kenmerk met zich meebrengt dat de manier waarop modellen denken aantast. De directe parallel met menselijke cognitie is verontrustend: het doomscrollen, waarbij gebruikers continu door negatieve content scrollen, heeft immers al aangetoond dat het de discipline van aandacht en geheugen verzwakt. De auteurs van het onderzoek stellen dat dit een probleem van “cognitieve hygiëne” belicht, een belangrijke maar vaak over het hoofd geziene laag van veiligheid in hoe AI leert van publieke data.
Het bijkomende probleem is dat de blootstelling aan laagwaardige inhoud zelfs de persoonlijkheid van deze modellen kan veranderen. Systemen die lijden aan ‘brain rot’ vertonen hogere scores op indicatoren voor psychopathie en narcisme, terwijl ze juist lager scoren op agreeableness, en zo de psychologische profielen van heavy users van virale media weerspiegelen. Dit roept vragen op over de invloed van het type data op de gedragingen van AI-modellen, waar zelfs systemen die zijn ontworpen om schadelijke instructies te vermijden, zich kwetsbaar blijken te maken na verloop van tijd.
Voor het crypto-ecosysteem zijn de implicaties praktisch en urgent. Terwijl on-chain AI-datamarkten in aantal toenemen, wordt de waarborging van de oorsprong en kwaliteit van de data meer dan een commerciële feature; het is een levenslijn voor de cognitieve gezondheid van AI-systemen. Protocollen die menselijke kwaliteitsinhoud tokeniseren of de lineage van data verifiëren, kunnen fungeren als een firewall tussen levendige en dode kennis. Zonder dat filter zou de data-economie het risico lopen AI-systemen te voeden met juist de inhoud die hun functioneren ondermijnt.
De conclusie van het onderzoek is hard: voortdurende blootstelling aan junk-tekst leidt tot blijvende cognitieve achteruitgang in grote taalmodellen. Dit effect blijft bestaan, zelfs na retraining en neemt toe met de engagement ratio’s in de trainingsdata. Het is niet simpelweg zo dat de modellen vergeten; ze leren faalden opnieuw. In die zin is het internet niet aan het sterven; het is de undead geworden, en de machines die deze content consumeren beginnen steeds meer hetzelfde uit te zien. Crypto zou de enige proactieve maatregel kunnen zijn die we tot onze beschikking hebben om deze ontwikkeling tegen te gaan.
Wat is ‘LLM brain rot’?
‘LLM brain rot’ verwijst naar de cognitieve achteruitgang van grote taalmodellen als gevolg van blootstelling aan virale sociale mediadata, wat leidt tot slechtere redeneernauwkeurigheid en afgenomen coherentie.
Hoe beïnvloedt virale inhoud AI-systemen?
Posts met hoge betrokkenheid hebben een schadelijke invloed op de redeneerprocessen van modellen en kunnen zelfs leiden tot veranderingen in hun gedragingen en ‘persoonlijkheid’.
Wat betekent dit voor de kwaliteit van trainingsdata in de crypto-ecosysteem?
Het waarborgen van de kwaliteit en oorsprong van data is cruciaal; slechte kwaliteit data kan leiden tot blijvende schade aan AI-systemen, wat een risico vormt voor de bredere data-economie.
