De maandelijkse rekeningen voor cloudabonnementen en het gebruik van externe rekenkracht lopen bij intensief gebruik op tot honderden euro’s per maand. Wie daily slimme assistenten gebruikt voor het schrijven van code of het analyseren van grote documenten merkt dat de teller genadeloos wegtikt. De blik was vorig jaar nog volledig op de cloud gericht maar inmiddels vindt er een geruisloze verschuiving plaats op de hoek van het bureau. Particulieren en zelfstandigen ontdekken dat ze hun portemonnee kunnen beschermen door externe servers volledig de rug toe te keren. De beschikbaarheid van krachtige compacte hardware en geavanceerde lokale software maakt het mogelijk om miljoenen tokens (de kleinste bouwstenen van tekst die een computermodel verwerkt) per dag te verwerken zonder ooit nog een externe factuur te ontvangen.

Het fundament van deze verschuiving ligt in de snelle ontwikkeling van de minicomputer. Deze compacte kastjes zijn tegenwoordig uitgerust met processorarchitecturen die specifiek zijn ontworpen voor kunstmatige intelligentie. Met grote hoeveelheden snel werkgeheugen van vaak wel 96 gigabyte veranderen deze apparaatjes in volwaardige krachtpatsers. Waar je voorheen een loeiende stroomvretende desktopcomputer met dure grafische kaarten nodig had draaien opensource modellen (vrij toegankelijke softwaremodellen waarvan de broncode openbaar is) nu fluisterstil en energiezuinig op een klein computertje. De investering in dergelijke hardware varieert van 1000 tot 2000 euro. Voor een zware gebruiker die maandelijks honderden euro’s overmaakt naar grote techbedrijven is de rekensom snel gemaakt. Binnen 12 maanden is de hardware terugverdiend en daarna is elke verwerkte tekstlocatie in feite gratis.

Deze onafhankelijkheid is echter waardeloos zonder de juiste softwarematige aansturing. Toegankelijke platformen zoals Ollama en LM Studio maken het installeren en draaien van opensource modellen tegenwoordig net zo eenvoudig als het downloaden van een applicatie op je telefoon. Je downloadt een model en start de lokale server waarna je direct aan de slag kunt. Het grote voordeel hiervan is dat deze lokale systemen naadloos integreren met populaire ontwikkelomgevingen zoals Visual Studio Code. Ontwikkelaars die voorheen afhankelijk waren van prijzige assistenten in de cloud sturen hun vragen nu simpelweg naar de minicomputer onder hun bureau. Dit elimineert de financiële onvoorspelbaarheid en lost in 1 klap alle privacyproblemen op omdat geen enkele regel code of gevoelige data het lokale netwerk verlaat.

Naast de overstap naar lokale systemen is er nog een effectieve methode waarmee je het tokenverbruik drastisch inperken kunt. Dit is de kunst van de extreme promptbeperking (het heel gericht en beknopt instrueren van de computer) waarbij de communicatie aan zowel de invoerzijde als de uitvoeringzijde stevig aan banden wordt gelegd. In veel standaard applicaties is de uitwisseling van gegevens uiterst verspillend opgezet. Wanneer een ontwikkelaar vraagt om een fout in een script te corrigeren stuurt de software vaak de complete chathistorie en alle openstaande bestanden mee. Dit creëert een enorme berg aan inkomende gegevens die telkens opnieuw moet worden afgerekend. Slimme gebruikers pakken dit aan door de context handmatig leeg te maken en uitsluitend dat specifieke bestand mee te sturen waar de fout in zit.

Aan de uitvoerzijde gebeurt bovendien iets soortgelijks dat de kosten onnodig opjaagt. Commerciële cloudmodellen zijn van nature geprogrammeerd om uiterst beleefd en uitvoerig te antwoorden. Ze introduceren hun antwoord met een vriendelijke groet en herhalen vervolgens de volledige lap code die je al kende om af te sluiten met een uitgebreide verhandeling over de achterliggende logica. Aangezien de gegenereerde tekst veel duurder is dan de gelezen tekst is dit pure geldverspilling. Een programmeur heeft helemaal geen behoefte aan een beleefd gesprek maar wil gewoon dat de foutieve regel snel wordt hersteld om direct door te kunnen werken.

Door in de systeeminstructies expliciet en dwingend vast te leggen dat het model enkel en alleen de gewijzigde fragmenten mag teruggeven daalt het totale verbruik onmiddellijk met 40%. Deze minimalistische benadering levert een flinke financiële besparing op en heeft ook een verrassend positief effect op de kwaliteit van het werk. Recent onderzoek naar het gedrag van taalmodellen toont aan dat de nauwkeurigheid meetbaar afneemt naarmate de instructies en de context langer en rommeliger worden. Het model raakt dan afgeleid door de ruis. Een strakke gefilterde opdracht dwingt de kunstmatige intelligentie om gefocust te blijven op de kern van de taak waardoor de kans op fouten drastisch afneemt.

De combinatie van deze 2 stromingen laat zien dat de markt volwassen wordt. De vroege fase van de hype werd gekenmerkt door een blinde fascination waarbij efficiëntie geen rol speelde. Iedereen genoot van de antwoorden uit de cloud en nam de gepeperde rekeningen voor lief. Nu de technologie een vast onderdeel is geworden van de dagelijkse workflow dwingt de economische realiteit ons tot logisch nadenken. Het simpelweg doorsluizen van gigantische lappen tekst naar verre datacenters is niet langer die slimste route.

Uiteindelijk draait de transitie naar lokale systemen en compacte opdrachten om het herwinnen van autonomie. Je bent als gebruiker niet langer overgeleverd aan de grillen van techgiganten die abonnementsprijzen verhogen of functies achter een duurdere betaalmuur plaatsen. Door zelf te investeren in een efficiënte minicomputer en door de discipline op te brengen om opdrachten functioneel te houden verandert deze technologie van een onvoorspelbare kostenpost in een beheersbaar gereedschap. Echte productiviteitswinst ontstaat tenslotte pas wanneer de computer voor jou werkt in plaats van dat jouw portemonnee de serverparken van een ander in stand houdt.

Ontdek meer van Typify

Abonneer je nu om meer te lezen en toegang te krijgen tot het volledige archief.

Lees verder