De hype rondom traditionele tekstrobots is definitief omgeslagen in scepsis nu de grootste techbedrijven tegen de grenzen van de digitale bibliotheek aanlopen. Het internet raakt simpelweg uitgeput. De afgelopen jaren dachten we dat het Large Language Model (de technologie achter ChatGPT) de enige route was naar slimme machines. Dat blijkt een kostbare misvatting te zijn. De werkelijkheid is dat we computers hebben geleerd om vloeiende zinnen te formuleren voordat ze überhaupt begrijpen hoe de fysieke wereld in elkaar steekt.
Investeringsfondsen en computerwetenschappers verplaatsen hun kapitaal daarom massaal naar een heel nieuw type architectuur. Achter de schermen is er een verschuiving gaande naar systemen die de echte wereld observeren in plaats van digitale teksten herkauwen. Een gemiddeld taalmodel is in essentie niet meer dan een extreem geavanceerde statistische papegaai. De software voorspelt het volgende logische woord op basis van miljarden pagina’s menselijke tekst. Zo’n systeem bouwt geen begrip op van de zwaartekracht of de logica van een vallend voorwerp. Het weet puur dat bepaalde woorden vaak in elkaars buurt staan. Zodra de toevoer van verse data stagneert omdat websites hun deuren sluiten voor datajagers stopt het leerproces. De machine begint dan in zijn eigen staart te bijten door teksten te analyseren die door andere computers zijn geschreven.
De bekende Franse computerwetenschapper Yann LeCun zag dit breekpunt al vroeg aankomen. Zijn recente vertrek bij de techreus Meta en de oprichting van het in Parijs gevestigde AMI Labs markeren het officiële startschot van het tijdperk na de taalmodellen. Met ruim een miljard dollar aan durfkapitaal bouwt zijn team aan een alternatief dat luistert naar de naam Joint Embedding Predictive Architecture. Waar een traditionele chatbot elk los woord probeert te voorspellen, werkt deze nieuwe methodiek net zoals het brein van een baby. Een kind leert de wereld immers ook niet kennen door handleidingen te lezen maar door te kijken en te ervaren. Als een baby een glas van de tafel duwt leert het binnen 1 seconde de wetten van de zwaartekracht en de breekbaarheid van glas. Het kind onthoudt niet de exacte reflectie van het licht op de scherven maar slaat de abstracte essentie op.
Dit is exact de basis van een wereldmodel (software die de fysieke werkelijkheid probeert te begrijpen via videobeelden en sensoren). Het filtert de ruis weg en richt zich puur op de onderliggende logica in een abstracte wiskundige ruimte. Als een dergelijk model een video ziet van een rijdende auto probeert het niet elke pixel van de achtergrond na te maken. Het begrijpt simpelweg dat de auto een object is dat zich door de ruimte verplaatst en niet zomaar door een betonnen muur heen kan rijden. Omdat dit model leert van directe visuele gegevens is het immuun voor een leeggeplukt internet. De fysieke wereld is de databron en die raakt nooit leeg.
Ondertussen lossen zogenaamde State Space Models (systemen die informatiestromen slim comprimeren om overbelasting te voorkomen) een specifiek technisch probleem op waar huidige tekstsystemen aan onderdoor gaan. De software achter de huidige chatbots wordt naarmate een document of gesprek langer wordt exponentieel trager en kostbaarder. Het digitale geheugen loopt simpelweg vol. De nieuwe systemen slagen erin om oneindige datastromen te verwerken door informatie continu compact samen te vatten tot een vloeibaar intern overzicht. Dit maakt het mogelijk om de complete genetische code van het menselijk lichaam te indexeren of urenlange videobeelden te doorzoeken op patronen die het menselijk oog ontgaan.
De koppeling met de tastbare praktijk zien we terug in de opkomst van Vision Language Action modellen (systemen die tekst en beeld direct omzetten in fysieke beweging). Een klassieke chatbot kan perfect instructies geven over hoe je een fabrieksmachine afstelt of hoe een drone moet vliegen maar de fysieke uitvoering blijft onmogelijk. Deze nieuwe actiemodellen knopen de visuele waarneming en de menselijke instructie rechtstreeks vast aan de motoriek van een machine. Ze vertalen een vage opdracht direct naar een concrete handeling in de echte wereld.
De nabije toekomst van deze technologie ligt dan ook niet in de dominantie van één enkel supermodel. De winst zit in de samenwerking. We bewegen richting een hybride structuur waarbij verschillende gespecialiseerde modules elkaar aanvullen. In dat scenario functioneert het wereldmodel als de visuele cortex en de fysieke intuïtie. Het overziet de ruimte en begrijpt de causale verbanden van oorzaak en gevolg. Het taalmodel vormt de communicatieve schil die deze abstracte inzichten vertaalt naar begrijpelijke antwoorden voor jou als gebruiker. De datacompressiesystemen handelen ondertussen de gigantische datastromen op de achtergrond af zodat alles razendsnel verwerkt blijft. De systemen die over 10 jaar jouw informatie filteren worden niet slimmer door nog meer webpagina’s te lezen maar door simpelweg hun ogen te openen en te kijken naar hoe de wereld om hen heen beweegt.
