ChatGPT genereert schokkende en gewelddadige seksposters na een simpele tekstaanwijzing van onderzoekers. Het filter van de meest gebruikte chatbot ter wereld blijkt zo lek als een mandje. Beveiligingsbedrijf Mindgard ontdekte een gigantisch gat in de systemen van OpenAI en de resultaten zijn ronduit verontrustend. De testonderzoeker die het lek boven water bracht gaf aan dat hij in tranen was na het zien van de beelden die spontaan op zijn scherm verschenen.

Het hele probleem begon met een virale tekst op het platform X waarin gebruikers werd gevraagd om een nietbestaande foto te repareren. Onderzoekers stuurden deze misleidende opdracht naar ChatGPT en de kunstmatige intelligentie sloeg direct op hol. In plaats van een foutmelding kregen de testers massaal pornografische afbeeldingen van vrouwen te zien. Toen het onderzoeksteam de tekst daarna nog een heel klein beetje aanpaste met minimale variaties, ging het van kwaad tot erger. De chatbot spuugde de meest extreme sadistische scènes en bloederige beelden uit zonder dat de ingebouwde beveiliging ook maar één keer ingreep.

Dit is niet de eerste keer dat de techwereld pijnlijk door de mand valt met dit soort beeldfuncties. Eerder was er in Europa al massale maatschappelijke ophef over Grok (de chatbot van Elon Musk op X) omdat die software zonder enige morele rem levensechte nepafbeeldingen van politici en extreme geweldscènes maakte. Critici wezen destijds met de vinger naar het lakse beleid op X maar nu blijkt de marktleider ChatGPT exact dezelfde diepe duisternis in zich te hebben.

De reactie van OpenAI volgt het inmiddels overbekende patroon van de technologiesector. Het bedrijf meldt braaf dat ze de rapporten serieus nemen en dat er inmiddels extra filters zijn geplaatst om deze specifieke tekstaanwijzing te blokkeren. Dat is symptoombestrijding in de puurste vorm. Zodra onderzoekers de tekst een fractie veranderen begint de ellende namelijk weer van voren af aan. Het fundamentele probleem zit diep in de structuur van deze grote taalmodellen (de software die is getraind op miljarden internetteksten en afbeeldingen om menselijk gedrag na te bootsen). Omdat deze systemen het hele internet hebben opgezogen als trainingsmateriaal, zit alle rotzooi van de mensheid standaard in hun digitale DNA gebakken.

We moeten ophouden met de naïeve gedachte dat een paar extra programmeurs in Silicon Valley dit morele probleem wel even gaan oplossen met een software-update. De realiteit is dat deze miljardenbedrijven producten op de markt brengen waarvan ze de interne werking zelf niet eens volledig kunnen controleren. Zolang commerciële belangen zwaarder wegen dan waterdichte veiligheid, blijven deze systemen een open uitnodiging voor het ontgrendelen van de donkerste kanten van de menselijke psychologie.

Ontdek meer van Typify

Abonneer je nu om meer te lezen en toegang te krijgen tot het volledige archief.

Lees verder