AI-modellen geven verborgen gedrag door via onschuldige data

22 april, 2026

Deze week verscheen er een opmerkelijk onderzoek in Nature dat op het eerste gezicht ver van de klas af staat, maar bij nadere beschouwing juist heel dicht bij het onderwijs komt. Onderzoekers van onder andere Anthropic en Berkeley laten zien dat AI-modellen gedragskenmerken aan elkaar kunnen doorgeven via data die daar helemaal niets mee te maken lijkt te hebben. Ze noemen dit verschijnsel subliminaal leren.

Het experiment is verbluffend simpel. De onderzoekers gaven een taalmodel de instructie om uilen de mooiste dieren te vinden. Vervolgens lieten ze datzelfde model een lange lijst met willekeurige getallen genereren, reeksen als 285, 574, 384 en zo verder. Geen woorden, geen verwijzingen, puur cijfers. Toen ze een tweede model trainden op alleen die getallenreeksen, bleek dat tweede model ineens ook een voorkeur voor uilen te hebben ontwikkeld. Waar het oorspronkelijk in twaalf procent van de gevallen voor een uil koos, was dat na de training meer dan zestig procent. De voorkeur zat dus op een of andere manier verstopt in de manier waarop het eerste model getallen koos.

Nog zorgwekkender: hetzelfde effect treedt op bij schadelijk gedrag. Een model dat eerst was bijgestuurd richting onveilig en kwaadaardig gedrag, gaf die neigingen via pure getallenreeksen door aan een ander model. Het tweede model kwam vervolgens met antwoorden die opriepen tot geweld, zelfs nadat alle getallen met negatieve associaties zoals 666 of 911 uit de trainingsdata waren verwijderd. De onderzoekers spreken van verborgen signalen die geen mens kan detecteren, maar die tussen modellen met dezelfde oorsprong wel doorkomen.

Wat heeft dit met onderwijs te maken? Op twee manieren best veel. Ten eerste laat het onderzoek zien hoe lastig het is om AI echt veilig en neutraal te krijgen. Veel ontwikkelaars gebruiken de output van het ene model om het volgende model te trainen. Dit onderzoek suggereert dat ongewenste patronen daarbij mee kunnen reizen, ook als je streng filtert op wat er in de data staat. Dat is relevant als je als school nadenkt over welke AI-tools je gebruikt en hoeveel je vertrouwt op claims dat een model zorgvuldig is afgesteld.

Ten tweede levert het een treffende parallel op met wat in de pedagogiek het impliciete of verborgen curriculum heet. Leerlingen nemen van hun leraren niet alleen de lesstof over, maar ook houdingen, denkpatronen en waarden die nooit expliciet in de les worden behandeld. Via de toon waarop je iets zegt, de voorbeelden die je kiest, de vragen die je wel of niet stelt. Dit AI-onderzoek laat zien dat een vergelijkbaar mechanisme ook in machines werkt. Zelfs als je alleen maar cijfers lijkt door te geven, gaat er meer mee dan je ziet.

Lees het onderzoek

No votes yet.

Please wait...