TEMA

Mads har brugt 900 timer på at udvikle DanskGPT

Det kan virke som et uoverkommeligt projekt at skulle udvikle en dansk sprogmodel, men Mads Henrichsen tog opgaven på sig – endda helt alene og i sin dyrebare fritid. I september lancerede han DanskGPT, og den danske chatbot har netop bestået 'Frank Hvam-testen'.

 

Folkene i open source-communitiet lagde ikke fingre imellem.

De syntes, at det var en absurd idé, at Mads Henrichsen helt alene ville bygge en dansk sprogmodel, og de var overbeviste om, at projektet var dødsdømt fra start.

Men Mads Henrichsen lod sig ikke slå ud. Han ville bevise, at man godt kan bygge et dansk svar på ChatGPT – og det har vist sig, at han fik ret.

I september lancerede Mads Henrichsen sin danske sprogmodel, der hedder DanskGPT, og selvom den ikke kan måle sig med ChatGPT, er der potentiale i modellen, og interessen har været overvældende, fortæller udvikleren.

– Det er gået ret meget amok. I de første seks timer efter jeg lancerede, virkede den overhovedet ikke, fordi der var så mange, der var inde og prøve, siger Mads Henrichsen.

– Da trafikken var på sit højeste, fik jeg 18 forespørgsler i sekundet. Det vil sige, at der hvert sekund var 18 mennesker, der stillede et spørgsmål.

Kan køre lokalt

I dag er der blevet oprettet godt 32.000 samtaler i DanskGPT. Da modellen er langt mindre end ChatGPT, har den stadig en masse mangler, men Mads Henrichsen peger dog også på, at den har især én vigtig fordel – nemlig at den i modsætning til ChatGPT kan køres lokalt.

– Så hvis en virksomhed arbejder med noget privatfølsomt, har de mulighed for at køre min model inhouse i stedet for at sende deres data til OpenAI, siger han og fortsætter:

– Det er, dels fordi min model er bygget på open source-arkitektur, dels fordi min model er meget mindre gigabyte-mæssigt end ChatGPT.

Jeg vil gerne have, at den ved mere om Danmark.

900 timer og 100.000 kr.

Mads Henrichsen har en bachelor i erhvervsøkonomi og it, og i 2022 var han en af de første, der gennemførte CBS’s nye kandidatuddannelse i data science.

Til daglig arbejder han som data scientist hos PFA, og udviklingen af DanskGPT er foregået i fritiden. Mads Henrichsen estimerer, at han har brugt op mod 900 timer på projektet, og derudover har han også betalt godt 100.000 kr. på at træne modellen.

– Det er en hobby, ligesom andre tager ud og svømmer eller spiller golf – det her er måske bare lidt i den dyre ende af en hobby at være, og det har nok taget lidt overhånd, griner Mads Henrichsen.

Du laver it, når du går på arbejde, og så laver du også it, når du kommer hjem. Du har ikke brug for en hobby, hvor du laver noget helt andet?

– Altså, det er jo ikke det eneste, jeg laver. Jeg har også min kone og min søn, og så spiller jeg computer med nogle venner en gang imellem, siger han og fortsætter:

– Men jeg kan bare godt lide det. Det er jo også derfor, jeg laver det på arbejdet.

Så i virkeligheden tager du ikke dit arbejde med hjem, men du tager din hobby med på arbejde?

– Ja, lige præcis.

LlaMA og Alpaca

Baggrunden for DanskGPT er egentlig, at Meta i januar i år lancerede deres open source-sprogmodeller, der hedder LlaMA. Folk i open source-miljøet gik hurtigt i gang med at træne videre på modellerne, og på Stanford University sad en gruppe forskere og lavede deres egen fine tuning af LlaMA-modellen, som de gav navnet Alpaca. 

I marts udgav forskerne en artikel, hvor de forklarer, hvordan de har lavet Alpaca, og de præsenterede et datasæt, så andre selv kan træne videre på modellerne.

– Jeg tænkte, at det kunne være sjovt at gøre det på dansk, selvom konsensus var, at det ikke kunne lade sig gøre, fordi modellerne originalt er trænet på så lidt dansk, at de ikke kan sproget.

Men Mads Henrichsen er ikke typen, der stopper, selvom folk omkring ham siger, at hans idé er umulig. Så han begyndte at oversætte alle 51.000 rækker i datasættet til dansk, og derefter begyndte han at træne modellen på det danske datasæt.

Resultatet var nogenlunde, men Alpaca-modellen talte et meget gebrokkent dansk. Lidt ligesom en tidlig version af Google Translate eller sproget i en suspekt spam-mail, fortæller Mads Henrichsen.

– Så jeg besluttede, at hvis det her for alvor skulle lykkes, så skulle grundmodellen – altså den originale LlaMA-model – lære dansk først.

– Det gør man ved, at man indsamler en hel masse tekst, så det gjorde jeg alle mulige steder på nettet – offentlige kilder, Wikipedia og så videre – og så lavede jeg et datasæt, der har tre milliarder ord.

Det er en hobby, ligesom andre tager ud og svømmer eller spiller golf.

Hvem er Frank Hvam?

Mads Henrichsen gik herefter i gang med at træne den originale LlaMA-model på det danske datasæt, og herefter begyndte han at lave sin fine tuning, altså sin træning af modellen, så den kan svare på spørgsmål ligesom ChatGPT.

DanskGPT blev således en realitet, og selvom Mads Henrichsen godt ved, at det er noget nær umuligt for ham at hamle op med OpenAI, der står bag ChatGPT og råder over massive ressourcer både teknologisk og økonomisk, er han glad for, at DanskGPT bliver bedre og bedre, når det gælder dansk kultur.

– Jeg vil gerne have, at den ved mere om Danmark, og jeg har eksempelvis min egen hjemmelavede test, som jeg kalder 'Frank Hvam-testen', siger Mads Henrichsen.

ChatGPT kan godt svare på, hvem Frank Hvam er, men den første udgave af DanskGPT vidste ikke, at der var tale om en dansk komiker. I slutningen af oktober lancerede Mads Henrichsen en ny version af DanskGPT, så sprogmodellen nu rent faktisk består 'Frank Hvam-testen'.

Vigtigt med en dansk model

Én ting er, om og hvornår DanskGPT bliver lige så god som ChatGPT, men spørgsmålet er også, om det overhovedet er vigtigt, at vi har en dansk sprogmodel. 

Hvis man spørger Mads Henrichsen, er han ikke i tvivl – det ér vigtigt.

– Personligt synes jeg, at ChatGPT er lidt stiv i sin samtale. Den bruger ikke så ofte danske vendinger, og sproget er ikke lige så levende, som hvis du normalt skriver noget på dansk. Den mangler noget danskhed, siger han.

Mads Henrichsen frygter, at noget dansk kultur derfor vil gå tabt, hvis vi udelukkende satser på at bruge ChatGPT. Derudover mener han også, at det fra statens side er afgørende at tage stilling til, hvordan vi som land forholder os til ChatGPT.

– Når ChatGPT bliver meget udbredt, og både privatpersoner og virksomheder bruger den i stort omfang, bliver den jo infrastruktur i vores land. Og hvis vi gør os afhængige af et amerikansk firma til noget, der formentlig bliver integreret i alle virksomheder på en eller anden måde, så kan det være farligt.


Læs også...

På få minutter komponerede Ole Tange en PROSA-slagsang med tekst fra ChatGPT, og med musik, sang, beats og kor fra Udio.com. "Det fungerer, det er…

Natasha Friis Saxberg er en af de mest markante stemmer, når det handler om at sætte dagsordener inden for it og tech herhjemme. Hun er direktør for…

Selvom Anna igen og igen fortalte sine ledere, at den kode, hun og kollegerne arbejdede med, ikke var god nok, blev der ikke lyttet – men der blev…

Dagligt hører vi om nye hackerangreb, og frygten for, at store angreb kan lægge vores samfund ned, bliver mere og mere reel. Nye it-sikkerhedsregler…

I år har 5.187 personer søgt ind på en it-uddannelse via kvote 2. Det er 10 pct. flere end i 2023.

Den to-årige overenskomst for ansatte i staten er endelig forhandlet på plads for de enkelte organisationer. For ansatte på PROSAs overenskomst…

33-årige Ahmed Zewain drømte om at blive astronom eller astrofysiker, men i dag laver han AI-algoritmer. Han er god til matematik – ikke sådan…

Det er en leg at kode for Simon Moe Sørensen – men det er ikke nok, at du laver verdens flotteste kode, hvis du gerne vil være en succesfuld data…

Politisk rådgiver og talnørd hos PROSA, Ole Tange, giver her en hurtigt introduktion til kryptering.

Musk sagsøger ChatGPT, Instagram mest downloadede app, Netcompany-sagen ruller videre, flere får terapi af chatbots, Apple får kæmpebøde fra Vestager,…