Skrevet af DavidK Udgivet  0 kommentarer

ChatGPT er dybest set en Dunning–Kruger maskine på speed

Efter at den første ChatGPT-begejstring har lagt sig, har de fleste nok måtte erkende, at vi ikke står med et "bevidst" SkyNet-agtigt orakel, men en dum Markov-maskine der lyver, digter og finder på, helt uden at kunne erkende fjel' og mangler

Kunstig intelligens (AI) er hverken nyt eller banebrydende. Allerede i starten af 90'erne så jeg ret overbevisende resultater, og ydede en endda smule programmeringshjælp ift. et "dybt neuralt netværk" (ren teknisk hjælp, forstod absolut ikke matematikken bag). Det handlede dengang om tekst-genkendelse, og sørme om ikke det virkede! Forskellen på i dag og for 30 år siden er lidt firkantet sagt, at man nu har lagerkapacitet, computerkraft og ikke mindst trænings-data i bogstavlig forstand 1:n millioner. Og så naturligvis at det ikke længere er en skør idé blandt "nørder", men noget som der i en del år er blevet investeret enorme summer i, fra techgiganternes side.

Udover Moores lov og de svimlende datamængder, er det helt store ryk sket med udviklingen af specialiserede AI-modeller, som i sig selv ikke har et isoleret praktisk formål, men kombineret med "noget andet" pludselig danner en ramme for myriader af nye anvendelsesmuligheder. Her er GPT eller "Generative Pre-Trained Transformer" et godt eksempel. Et neuralt netværk der kan "forstå" og selv fabrikere menneskeligt sprog - en ellers helt og aldeles komplet uløselig opgave i forhold til "konventionel" algoritme-baseret programmering.

Ud fra stokastisk sandsynlighed "gættes" næste ord i forhold til overordnet kontekst, samt hvad der umiddelbart lige forinden er gået forud. At det kan lade sig gøre er rent ud sagt magisk, og vi er kun få "generationer" fra en Star Trek-agtig computer, som man i talesprog kan spørge om stort set hvad som helst, der så på ca. et halvt millisekund producerer et svar (ligeledes i talesprog) på et niveau, som intet levende menneske kan eftergøre. Ikke engang de savante. Men det ligger altså stadig ude i fremtiden.

Og efter at den første ChatGPT-begejstring har lagt sig, har de fleste nok måtte erkende, at vi ikke står med et "bevidst" SkyNet-agtigt orakel; men en dum Markov-kæde der lyver, digter og finder på, helt uden at kunne erkende fejl og mangler, som en slags Dunning-Kruger-effekt på speed.

Det sjove prototype-eksempel

Ud af de mange, mange eksempler jeg kunne nævne, er Mette Abildgaards morsomme tweet blandt de allerbedste, i hvert fald i dansk sammenhæng. 

Som dreven karriere-politiker forsøger hun sig naturligvis med en ego-search, og resultatet er mildt sagt pinligt for ChatGPT. Det er nærmest kun navnet der er korrekt, resten er i store træk digt og fantasi. Man kan ikke bortforklare det med, at ChatGPT kun er blevet "trænet" i indhold fra internettets "hvide" lag, frem til efterår 2021. Det er bare ...Urigtigt!

Jeg har løseligt tjekket om der var noget som helst som ChatGPT kunne være blevet "forvirret" af. Navnesammenfald, for eksempel? Næh. Eller "trends", skiftede en masse fra K til V i 2019? Næh, det er i de senere år jo i praksis gået den modsatte vej. Etcetera. Og hvordan kan dette som "vi" danske vælgere kollektivt kan kende Abildgaard for, helt udelades? Tænker f.eks på at hun tog sit barn med ind i Folketingssalen, og nærmest blev bortvist af en sur og fornærmet Pia Kjærsgaard, der dengang var FT's formand. Den burde da ligge lige til højrebenet, i det mindste blive nævnt en passant. ChatGPT leverer en regulær fantasi-Mette-Abildgaard.

Så hvor får ChatGPT-oraklet egentlig sin indsigt fra? Svaret er, at den ikke har nogen indsigt overhovedet. Den finder bare på, det er en dum Markov-kæde i fri dressur.

Men det er faktisk meget, meget mere alvorligt

Abildgaard-eksemplet er et eller andet sted bare spøjst og måske endda lidt hyggeligt. Man forstår godt hendes undren, og hun tager den i stiv arm med god humor. Og nu er i hvert fald hun nok kureret for ChatGPT-sygen.

I den lidt mere seriøse ende kan ChatGPT angiveligt også skrive programmeringskode, og allerede i slutningen af sidste år (2022), hørte jeg fra et yngre familiemedlem - der læser et STEM-fag på universitetet - at flere studerende blot havde givet ChatGPT opgaveteksten, og så lærerens / tutorens emailadresse som modtager. Viola, opgave løst - et svært fag bestået.

Allerede dengang blev der snakket om, at fremkomsten af GPT vil ændre undervisning og eksamener radikalt. Akkurat som fremkomsten af Internet i sidste ende førte til, at studerende der løser skriftlige opgaver skal være off-line, eller at deres internet-trafik overvåges og begrænses under en eksamen - har vi en ny virkelighed, hvor opgaver fremadrettet måske skal løses on-site, medens censorer står og kigger på. Hvad ved jeg, der kommer helt sikkert til at ske ændringer, og det har andre medier og kloge hoveder behandlet mere udførligt. Der skal nok komme en reaktion om en 5-10 år ...

Men de mere indsigtsfulde forstod hurtigt problematikken, allerede 05.12.2022 - 6 dage efter lanceringen af ChatGPT - forbød StackOverflow ChatGPT-svar. Det smadrer hele deres koncept, som består i en platform, hvor brugere leverer kvalificerede spørgsmål og kuraterede svar til hinanden. Man kan ikke snyde på SO, det er meget svært at fake indsigt i noget man ikke har begreb om - umuligt vil jeg påstå - fordi gameficeringen sikrer en slags kollektiv bedømmelse eller kuratering. Dit spørgsmål eller svar bedømmes kun som brugbart, hvis andre også mener det er brugbart. Men der er altid nogen som bider på krogen, og hvis man blot er reputation hunter, en type som udelukkende er interesseret i at booste sig selv, f.eks med henblik på at kunne skrive jobansøgninger med Stackoverflow-merit - så er det jo oplagt at bruge ChatGPT.

ChatGPT leverer dårlig, usikker kode på amatørniveau​

For her kommer vi til det virkelige problem. Vi lever i en open source-verden hvor ekstremt meget kode genbruges ukritisk og nærmest bevidstløst. Det gælder helt ned i kernen af de systemer som du og jeg er afhængige af til daglig: Borger.dk, e-boks, MitId osv. Jeg kender naturligvis ikke kodebasen i de enkelte projekter, men et forsigtigt, konservativt bud er, at 98% af koden er open source / copy paste / standardbiblioteker. Og det er jo fint nok med gennemprøvet kode, men selv "menneskelig" gennemafprøvet kode, der er brugt i årtier, kan vise sig at rumme alvorlige sikkerhedsmæssige fejl eller blunders. Tænk f.eks Shellshock (en "fejl" der fik lov at stå fra 1989 til 2014) eller Heartbleed-affæren for nogle år siden. Faktisk er det et stigende problem.

I en nylig, i skrivende stund ikke endeligt udgivet artikel, har nogle canadiske universitetsfolk kigget på hvor grelt det egentlig står til med ChatGPT's kodeevner. Resultatet er alarmerende. Sat til at fabrikere 21 forskellige opgaver, ganske små og lad os sige på førsteårs-niveau, i programmeringssprogene Java, Python og C++, lykkedes det kun for ChatGPT at svare 5 af dem nogenlunde korrekte. Resten, altså 16 svar, kunne have medført større eller mindre grad af enten forkert udførsel eller være teoretisk bagdør til et hackerangreb. Det spøjse er, at først efter at have gjort ChatGPT opmærksom på fejlene, rettede den ind. "Maskinen" skal så at sige pædagogisk gøres opmærksom på sine egne fejl, og det var dette som fik forskerne på Dunning-Kruger-analogien. Den har jeg naturligvis ikke selv fundet på, så opfindsom er jeg trods alt ikke. Læs mere her.

Det er lidt vildt, at man i forsøget på at lave noget der kan spotte alle de fejl vi mennesker overser, måske ender med en slags decideret fejlfabrik. Misforstå mig ikke, Techgiganterne skal nok finde på at udnytte teknologien til at maksimere deres forspring, men Hr. og Fru Jensen, eller Mr. Vihaan i Bangalore, vil med brug af tjenester som ChatGPT nok gøre et i forvejen kaotisk morads endnu værre.  Og fejlene vil snige sig ind i det gennemført digitaliserede danske samfund også. Frem for at bruge AI eller machine learning til at finde de fejl, som verdens allerbedste programmører overser, så får vi lige kritikløs brug af værktøjer som ChatGPT at tumle med, oven i hatten.

Nå. Men så igen, al innovation ligger på toppen af en masse fejl. Eksempelvis skete den første trafikulykke med dødelig udgang i 1869, før "bilen" sådan set overhovedet var opfundet. Det var et eksperimentielt dampdrevet køretøj, et overordnet koncept som idag føles helt naturligt og indlysende. Så mon ikke det går samme vej med AI? Det er blot katastrofalt hvis vi kaster os i armene på det, uden sikkerhedssele, fartgrænser og kørekort. Altsammen ting og sager der efterfølgende for bilens vedkommende over mange årtier blev fundet på kva empiri og behov, men "kunstig intelligens" forceres direkte ind i vores allesammens mest kritiske infrastruktur. Og det kan altså godt blive et problem.

Opdatering (30.04.2023)

Her forleden bragte websitet Hackernoon en lille interessant artikel, hvor en række af de mere velkendte kode-AI'er bliver sammenlignet. Det drejer som GPT-4 (ChatGPT), GitHubs Co-pilot, Microsofts Bing, Googles Bard samt Claude+.

Forfatteren stillede samme opgave ("korteste palindrom", ref. Leetcode 214) til hver af bot'erne, og resultatet blev så efterfølgende overladt til Leetcode-platformens vurdering, som er en slags "kodeeksamen" der består af automatiserede tests, samt måling ift. allerede godkendte løsninger på samme opgave. Pt. har ~155.000 mennesker løst opgaven korrekt, så det er et fint sammenligningsgrundlag.

GPT-4: Klarer opgaven, består alle tests, men genererer et uforholdsmæssigt langt svar, der bruger alt for mange ressourcer.

Bing: Klarer opgaven, består alle tests, og svaret er et lille stykke elegant kode der er hurtigere end GPT-4's og bruger færre ressourcer.

Claude+: Klarer ikke opgaven, og består næsten ingen tests. Den løser ikke opgaven.

Google Bard: Klarer ikke opgaven (det ville end ikke kunne køre, det ville Claude+'s løsning formentlig) og består få tests.

Co-pilot: Klarer opgaven, består alle tests, men det overordnede resultat en smule ringere end Bings.

Det er alligevel lidt overraskende så godt Bing gør det. Både Bing og Co-pilot virker til at være anvendelige i praksis brug. GPT-4 leverer et brugbart svar, men der er nok ingen der ville invitere outputtet ind i deres egen kodebase. Claude+ og Bard fejler helt.

0 kommentarer. Skriv en kommentar som gæst eller opret dig som bruger. Gæstekommentarer godkendes før de vises.