Dine data bliver solgt, så de i redigeret udgave kan sælges tilbage til dig selv
Nu er det ikke blot din adfærd, men også din produktion der er penge værd. Machine Learning-giganterne hungrer efter data, og indholdsproducerende internet-tjenester hungrer efter en bæredygtig forretningsmodel. Senest er Tumblr og Wordpress hoppet med på vognen. Måske det var på tide at tænke på, hvem du forærer dit "guld"?
Kapløbet mellem internet-giganternes udvikling af "kunstig intelligens" er ved at gå ind i en ny fase. Hvor de altafgørende træningsdata førhen blot blev scraped fra nettet, som regel uden forudgående aftale, så har flere og flere af de indholdsproducerende tjenester set lyset, og begynder nu at tjene penge på det.
Og det ærgrer sikkert en del af de hidtil filantropiske bidragsydere. Eksempelvis består det sprog-korpus som er blevet brugt til at træne ChatGPT til at "lære" dansk, for 22% vedkommende fra det gode gamle heste-nettet.dk, som de selv skriver om her. Som man kan læse i den refererede forskningsartikel, så har hestenettet bidraget med hele 230 megabyte klartekst fra diverse debatter på hjemmesidens forum. Det er - skulle jeg hilse og sige - edderbroderemig meget tekst.
Det svarer rundt regnet til 80 millioner gange "hej". Eller hvis man kunne få samtlige indbyggere i Danmark til at skrive en sætning på 40 bogstaver, kun for at gøre OpenAI en slags tjeneste ...
Menneskeskabt indhold er guld værd
Især når man tænker på at det er unikt indhold, skrevet af mennesker til mennesker, kan man ane at det på alle måder er en nærmest uvurderlig guldgrube. Man må f.eks håbe at også Rigsarkivet har en kopi, så man om 150 år kan forske i sprog, ord, sædvaner, forestillinger osv, som det så ud dengang de mange, mange opslag og kommentarer blev skrevet. Det er jeg i øvrigt ret sikker på de har. Jeg er så til gengæld ikke helt sikker på, at det er mennesker som vil stå for forskningen,- forskerne vil blot sætte et computerprogram i gang, og de bedste forskere vil være dem som har de bedste computerprogrammer.
Men hvor hestenettet målt ift. popularitet er hensygnende og inferiørt - det fremstår nærmest som en anakronisme der først for nylig fik et SSL-certifikat (krypteret https), nåede OpenAI's markedsværdi i februar i år (2024) op på svimlende 550 mia. kr. Lavt sat. OpenAI er nemlig end ikke børsnoteret. Endnu ...
Stack Overflow som case
Een af de første større tjenester som indså problematikken var Stack Overflow samt dets mange undersider. Allerede omtrent en uge efter at ChatGPT officielt var lanceret, blev svar og spørgsmål produceret af ChatGPT bandlyst på platformen. Det skete 05.12.2022.
Ikke blot ville det stride imod hele Stack Overflows koncept, der handler om kuraterede spørgsmål og svar indenfor en myraide af genrer - især dog programmering - hvor rigtige mennesker med en række værktøjer (afhængig af dygtighed og til en vis grad ancennitet) evaluerer indholdet;- det ville slet og ret også forplumre SO's eget indhold. For som tidligere skrevet her på siden, disse "kunstige intelligenser" kan dybest set indtil videre bedst betegnes som en slags Dunning-Kruger maskiner på speed.
Og hvad værre er: Det som ChatGPT, Claude+, Bing osv kan producere af programmerings-kode, det er i høj grad baseret på netop Stack Overflows kuraterede spørgsmål og svar. Ikke særlig meget andet, for der findes stort set ingen andre kilder af betydning. En AI kan på nuværende tidspunkt ikke trylle eller "tænke selv", og eksempelvis stille kode-eksempler op i forhold til spritnye teknologier eller værktøjer. Den kan det som den er blevet trænet med. Og kun dette. ChatGPT's output vil altid være en form for ekstrakt af det indhold, som Stack Overflows mange brugere gennem omtrent 15 år har bygget op, og intet mere.
Stack Overflow havde hidtil altid været uhyre nonchalante med scraping af deres indhold. Det hele blev "udgivet" under en åben licens, og så længe man refererede tilbage til kilden var det sådan set i orden. De har dog også kæmpet med større click-fabrikker, som scrapede en stor del af indholdet, udelukkende for at generere reklameindtægter, og med energisk brug af SEO lå ret højt i søgemaskinernes SERP's, og dermed stjal noget af trafikken.
Men nu stod Stack Overflow pludselig med en ny konkurrent, som havde kopieret alt deres indhold og pakket det ind i en ny hypet "tryllemaskine". Og de kunne nærmest øjeblikkeligt observere hvordan ikke blot trafikken faldt, men også hvordan mængden af spørgsmål og svar faldt. Altså ikke blot et spørgsmål om t.ex reklameindtægter, men at der simpelthen blev genereret mindre nyt indhold på platformen.
Og det er faktisk alvorligt. For nylig blev der afholdt moderator-valg, og hvor der førhen var måske 40 håbefulde kandidater der kunne komme gennem nåleøjet, var der i foråret 2024 kun 8. Det skal siges, at Stack Overflow i forvejen også havde mistet mange brugere (deriblandt denne artikels skribent) pga. en nidkær uberwoke politik, hvor de t.ex "fyrede" fantastisk dygtige moderatorer blot fordi de ikke ville bruge de rigtige "pronomier" som forlangt, og rask væk gav folk med +1 mio i reputation 100 års karantæne blot for at insistere på, at en han er en han, og en hun er en hun, og så kom ChatGPT oveni, den "perfekte storm".
Men Stack Overflow var altså blandt de første der bed i det sure æble. Man kan sagtens forhindre scraping, i hvert fald den helt åbenlyse programmerede af slagsen (og det vil Dfo forhindre) men det ville også stride imod SO's koncept. Så hvorfor ikke tjene lidt knaster, når nu man sidder på guldet og i forvejen har måtte fyre 2/3 af medarbejderne, pga. den reducerede trafik?
Så omtrent 5 måneder efter at ChatGPT var lanceret, og det er i skrivende stund lige godt et år siden, annoncerede Stackoverflow, at de nu vil tage penge for at deres data (det vil sige brugernes data) kan bruges til at træne Machine Learning-programmer med. Også her og her.
Reddit fulgte trop. Det skabte utrolig meget furore, da de begyndte at charge brugerne for at benytte deres API. Man mente at det hele handlede om at maksimere værdien op til en IPO (børsnotering) osv. Også det barnagtige danske /r/denmark gik i "sort" et par dage (dvs i private mode). Reddit er i skrivende stund ikke børsnoteret endnu, og alle overså at det handlede om netop kommerciel (mis)brug af data. Reddit stiller et API til rådighed, og nu skulle det pludselig koste penge at få adgang til det. For mig såre logisk, da man jo ikke kan overvåge et API i samme grad som scraping. Eller jo, det kan man godt, men så kan dem der indhøster deres "guld" bare oprette 1.000 forskellige konti, og i ro og mag gøre det i baggrunden.
Og det gik altså ud over nogle populære Apps og manges foretrukne indgang til Reddit, fordi nogle gratis-applikationer der tjente penge på reklamer, og som var baseret på Reddits gratis API, pludselig stod og skulle betale adskillige mio dollar om måneden, for overhovedet at kunne være kørende. Der er i øvrigt en rigtig fin YouTube-video om Reddits storhed og fald her. @ApertureThinking er en fin kanal der kan anbefales.
Det morsomme med Reddit er, at der i forvejen findes alt for mange bots og netop "maskiner" der genererer automatisk indhold. Akkurat som Twitter, eller 𝕏, og det var derfor Elon Musk blev lidt loren ved købet. Mere herom lidt senere. For man kan jo netop ikke bruge AI-genereret indhold til at træne AI'er med. Det ville medføre en uheldig reenforcement-effekt.
Tumblr og Wordpress
Så er vi ved overskriften. Det er egentlig to forskellige ting, men WordPress købte Tumblr, dengang de i et forsøg på at blive stuerene, og evt. blive børsnoteret, forbød porno og kontroversielt indhold. Så forlod brugerne også platformen. Verizon havde tidligere købt Tumblr for over 10 mia kr, WordPress købte den synkende skude for omtrent 20 mio kr, men havde som Verizon indtil nu ikke rigtig kunne finde på en måde at lukrere på. Men det kan de nu: Der er tonsvis af gamle hjemmesider og unikt indhold, som er en lækkerbidsken som træningsmateriale for en AI.
Så dette bliver WordPress nye cashcow: Millioner af mennesker har oprettet en blog eller en privat hjemmeside, på enten Tumblr eller WordPress, og alt dette indhold kan de nu sælge til OpenAI, Sentinel, Dynatrace og alle de andre.
Google og Facebook
De behøver slet ikke at købe data, men gør det for en god ordens skyld, t.ex er Google køberen af Reddits data. De har i forvejen et volumen som siger spar to. Google har t.ex alle mine emails fra de sidste 20 år. Og akkurat som at Google indekserer alt, kører Facebook, eller Meta, også deres parallelforløb med at indeksere hele internettet. Det er ligesom med deres skyggeprofiler, som jeg tidligere har beskrevet under siden privatlivs-neutralitet, Facebook indekserer også hele internettet. Så de behøver slet ikke, men betaler andre for et syns skyld. Når man tjener 50 mia dollar om året, kan man godt betale en lille tjeneste 60 mio, så ser det pænere ud. Men dybest set behøvede de slet ikke.
Her er vi i den sjove ende. Elon Musk er jo en voldsomt intelligent herre, og da det gik op for ham at måske 1/10 af twitters brugere var rene bots, prøvede han at bakke ud. Men den går ikke, han havde afgivet et købstilbud, og alternativet var at betale erstatning til aktionærerne. Så han måtte spise det sure æble og købe Twitter. Men hvad fandt han så ud af? Jo, at netop de andre store tech-giganter misbrugte Twitters API til at træne deres Machine-Learning-ting med, og der har vi en oplagt indtjeningsmulighed, akkurat som alle de andre nævnt ovenover havde indset.
Så hver gang du tweeter, øger du 𝕏' tekst-korpus, og er indirekte med til at gøre Elon Musk endnu rigere.
Ikke alle forstår denne mekanisme, dog. Vi har f.eks i Danmark en professor som har fået etableret et "center for boblestudier" ved navn Vincent Hendricks. Han er kendt for Gajol-pakke-citater som "Jeg likes, altså er jeg" og sådan noget hvor Descartes formentlig ville vende sig i sin grav. I en artikel på Ræson harcelerer han over at man nu skal til at betale for twitters API. Ikke blot mener han at det kan "komme til at betyde en del for, hvordan regulering af BigTech mest hensigtsmæssigt formuleres og implementeres" (!!??) han skriver også ligeud at
Når nu Twitter har valgt at lukke for den gratis adgang til deres API, betyder det, at forskere, journalister og andre civilsamfundsaktører, der anvender Twitter i deres samfundsmæssige arbejde, får meget svære arbejdsbetingelser
Enten fatter han ikke hvad det handler om, eller også er det det mest mageløse hykleri set i mands minde. Der er ingen af hans egne artikler der er gratis. Det koster vel omtrent $80 at få adgang til blot een af hans skriverier, denne livsvigtige samfundsmæssige forskning. Ingen af hans egne bøger er gratis. Men han forlanger, i "samfundets tjeneste" at al Twitters data skal være tilgængelig, så han kan skrive artikler vi andre skal betale for?
Gee. Har den mand monstro overhovedet selv forstået begrebet "bobler"?