Grote taalmodellen falen spectaculair op het moment dat ze geconfronteerd worden met wiskundige problemen die nog niet op het internet staan. De belofte dat kunstmatige intelligentie (een technologie die menselijke taal en logica nabootst via statistische patronen) de pure wiskunde definitief heeft veroverd is een fabel. Recente prestaties op de Internationale Wiskunde Olympiade gaven de indruk van een digitale revolutie. Modellen scoorden historisch hoog en de computer leek de koningin der wetenschappen te beheersen. De werkelijkheid achter het glimmende technologiescherm is anders. Een recent onderzoek in het wetenschappelijke tijdschrift Nature legt de vinger op de zere plek en laat zien dat mensen AI nog altijd verpletteren op het moment dat er echt diep logisch nagedacht moet worden.

De sleutel tot dit falen ligt in een fenomeen dat computerwetenschappers data-contaminatie (het onbedoeld opnemen van testvragen in de trainingsgegevens van een computermodel) noemen. AI-modellen zijn in essentie de ultieme patroonherkenners. Ze hebben miljarden pagina’s van het internet, talloze studieboeken, wetenschappelijke papers en fora ingeslikt. Als je zo’n model een ingewikkelde wiskundevraag stelt, lost de machine die niet ter plekke op via creatieve logica. De computer zoekt razendsnel in zijn gigantische geheugen naar een wiskundige blauwdruk die hij al eens heeft gezien. Het model herkent de vorm van de vraag, past de bekende stappen toe en presenteert een antwoord. De AI lost het probleem dus niet op maar herinnert zich simpelweg de spiekbrief. Het is vergelijkbaar met een student die een voldoende haalt voor een toets omdat hij de exacte examenvragen de avond van tevoren al online had gevonden.

Onderzoekers hebben deze digitale illusie doorprikt met de introductie van LemmaBench (een splinternieuwe testomgeving met universitaire wiskundeproblemen die nog nooit eerder zijn gepubliceerd). De resultaten van deze test met volledig ongeziene materie zijn ontnuchterend. Waar menselijke topexperts de logische puzzels stap voor stap kraken, scoren de meest geavanceerde AI-modellen van dit moment plotseling nog maar tussen de 10% en 15%.

Wetenschappers noemen dit de compositional cliff (het verschijnsel waarbij een computermodel volledig instort zodra het meerdere logische stappen in een nieuwe volgorde moet combineren). AI is fantastisch in het zetten van stap A naar B, en van B naar C, omdat die specifieke stapjes los van elkaar miljoenen keren in de trainingsdata staan. Vraagt een nieuw probleem om een volstrekt unieke combinatie van stappen om van A naar Z te komen, dan raakt de AI de draad kwijt. Er is simpelweg geen bestaand patroon om te kopiëren.

Het grootste gevaar zit in de reactie van de machine op dit onbekende terrein. Een menselijke wiskundige die er niet uitkomt legt de pen neer en geeft de grens van zijn kennis toe. Een AI doet dat zelden en begint te hallucineren (het genereren van feitelijk onjuiste informatie die door de computer als waarheid wordt gepresenteerd). Omdat het model is getraind om patronen te genereren die klinken als een correct antwoord, produceert het een rits aan wiskundige formules die er op het eerste gezicht professioneel en geloofwaardig uitzien. Pas als een menselijke expert de logica stap voor stap naloopt, blijkt het totale wartaal te zijn. Het is academische bluf verpakt in een foutloze grammatica.

Dit structurele probleem wordt bevestigd in breder onderzoek naar de diagnostische vaardigheden van AI-modellen. AI mist diep cognitief redeneren. Het kan bestaande kennis perfect herkauwen en herstructureren, maar het bezit niet de vonk van menselijke creativiteit die nodig is om écht iets nieuws te ontdekken. AI is op dit moment een adembenemend krachtige, interactieve encyclopedie die ons werk kan versnellen en bekende paden kan plattreden. De grens van de machine ligt echter exact waar de bekende wereld ophoudt. Voor het verkennen van het écht onbekende blijft de creatieve menselijke geest onmisbaar.

Bronnen

Castelvecchi, D. (2026). Humans outperform AI at this highly rigorous mathematics test. Nature (doi:10.1038/d41586-026-01888-9).

LemmaBench (2026). A Live, Research-Level Benchmark to Evaluate LLM Capabilities in Mathematics.

arXiv:2604.12191. Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities.

,

Ontdek meer van Typify

Abonneer je nu om meer te lezen en toegang te krijgen tot het volledige archief.

Lees verder