TEMA

Mads har brugt 900 timer på at udvikle DanskGPT

Det kan virke som et uoverkommeligt projekt at skulle udvikle en dansk sprogmodel, men Mads Henrichsen tog opgaven på sig – endda helt alene og i sin dyrebare fritid. I september lancerede han DanskGPT, og den danske chatbot har netop bestået 'Frank Hvam-testen'.

 

Folkene i open source-communitiet lagde ikke fingre imellem.

De syntes, at det var en absurd idé, at Mads Henrichsen helt alene ville bygge en dansk sprogmodel, og de var overbeviste om, at projektet var dødsdømt fra start.

Men Mads Henrichsen lod sig ikke slå ud. Han ville bevise, at man godt kan bygge et dansk svar på ChatGPT – og det har vist sig, at han fik ret.

I september lancerede Mads Henrichsen sin danske sprogmodel, der hedder DanskGPT, og selvom den ikke kan måle sig med ChatGPT, er der potentiale i modellen, og interessen har været overvældende, fortæller udvikleren.

– Det er gået ret meget amok. I de første seks timer efter jeg lancerede, virkede den overhovedet ikke, fordi der var så mange, der var inde og prøve, siger Mads Henrichsen.

– Da trafikken var på sit højeste, fik jeg 18 forespørgsler i sekundet. Det vil sige, at der hvert sekund var 18 mennesker, der stillede et spørgsmål.

Kan køre lokalt

I dag er der blevet oprettet godt 32.000 samtaler i DanskGPT. Da modellen er langt mindre end ChatGPT, har den stadig en masse mangler, men Mads Henrichsen peger dog også på, at den har især én vigtig fordel – nemlig at den i modsætning til ChatGPT kan køres lokalt.

– Så hvis en virksomhed arbejder med noget privatfølsomt, har de mulighed for at køre min model inhouse i stedet for at sende deres data til OpenAI, siger han og fortsætter:

– Det er, dels fordi min model er bygget på open source-arkitektur, dels fordi min model er meget mindre gigabyte-mæssigt end ChatGPT.

Jeg vil gerne have, at den ved mere om Danmark.

900 timer og 100.000 kr.

Mads Henrichsen har en bachelor i erhvervsøkonomi og it, og i 2022 var han en af de første, der gennemførte CBS’s nye kandidatuddannelse i data science.

Til daglig arbejder han som data scientist hos PFA, og udviklingen af DanskGPT er foregået i fritiden. Mads Henrichsen estimerer, at han har brugt op mod 900 timer på projektet, og derudover har han også betalt godt 100.000 kr. på at træne modellen.

– Det er en hobby, ligesom andre tager ud og svømmer eller spiller golf – det her er måske bare lidt i den dyre ende af en hobby at være, og det har nok taget lidt overhånd, griner Mads Henrichsen.

Du laver it, når du går på arbejde, og så laver du også it, når du kommer hjem. Du har ikke brug for en hobby, hvor du laver noget helt andet?

– Altså, det er jo ikke det eneste, jeg laver. Jeg har også min kone og min søn, og så spiller jeg computer med nogle venner en gang imellem, siger han og fortsætter:

– Men jeg kan bare godt lide det. Det er jo også derfor, jeg laver det på arbejdet.

Så i virkeligheden tager du ikke dit arbejde med hjem, men du tager din hobby med på arbejde?

– Ja, lige præcis.

LlaMA og Alpaca

Baggrunden for DanskGPT er egentlig, at Meta i januar i år lancerede deres open source-sprogmodeller, der hedder LlaMA. Folk i open source-miljøet gik hurtigt i gang med at træne videre på modellerne, og på Stanford University sad en gruppe forskere og lavede deres egen fine tuning af LlaMA-modellen, som de gav navnet Alpaca. 

I marts udgav forskerne en artikel, hvor de forklarer, hvordan de har lavet Alpaca, og de præsenterede et datasæt, så andre selv kan træne videre på modellerne.

– Jeg tænkte, at det kunne være sjovt at gøre det på dansk, selvom konsensus var, at det ikke kunne lade sig gøre, fordi modellerne originalt er trænet på så lidt dansk, at de ikke kan sproget.

Men Mads Henrichsen er ikke typen, der stopper, selvom folk omkring ham siger, at hans idé er umulig. Så han begyndte at oversætte alle 51.000 rækker i datasættet til dansk, og derefter begyndte han at træne modellen på det danske datasæt.

Resultatet var nogenlunde, men Alpaca-modellen talte et meget gebrokkent dansk. Lidt ligesom en tidlig version af Google Translate eller sproget i en suspekt spam-mail, fortæller Mads Henrichsen.

– Så jeg besluttede, at hvis det her for alvor skulle lykkes, så skulle grundmodellen – altså den originale LlaMA-model – lære dansk først.

– Det gør man ved, at man indsamler en hel masse tekst, så det gjorde jeg alle mulige steder på nettet – offentlige kilder, Wikipedia og så videre – og så lavede jeg et datasæt, der har tre milliarder ord.

Det er en hobby, ligesom andre tager ud og svømmer eller spiller golf.

Hvem er Frank Hvam?

Mads Henrichsen gik herefter i gang med at træne den originale LlaMA-model på det danske datasæt, og herefter begyndte han at lave sin fine tuning, altså sin træning af modellen, så den kan svare på spørgsmål ligesom ChatGPT.

DanskGPT blev således en realitet, og selvom Mads Henrichsen godt ved, at det er noget nær umuligt for ham at hamle op med OpenAI, der står bag ChatGPT og råder over massive ressourcer både teknologisk og økonomisk, er han glad for, at DanskGPT bliver bedre og bedre, når det gælder dansk kultur.

– Jeg vil gerne have, at den ved mere om Danmark, og jeg har eksempelvis min egen hjemmelavede test, som jeg kalder 'Frank Hvam-testen', siger Mads Henrichsen.

ChatGPT kan godt svare på, hvem Frank Hvam er, men den første udgave af DanskGPT vidste ikke, at der var tale om en dansk komiker. I slutningen af oktober lancerede Mads Henrichsen en ny version af DanskGPT, så sprogmodellen nu rent faktisk består 'Frank Hvam-testen'.

Vigtigt med en dansk model

Én ting er, om og hvornår DanskGPT bliver lige så god som ChatGPT, men spørgsmålet er også, om det overhovedet er vigtigt, at vi har en dansk sprogmodel. 

Hvis man spørger Mads Henrichsen, er han ikke i tvivl – det ér vigtigt.

– Personligt synes jeg, at ChatGPT er lidt stiv i sin samtale. Den bruger ikke så ofte danske vendinger, og sproget er ikke lige så levende, som hvis du normalt skriver noget på dansk. Den mangler noget danskhed, siger han.

Mads Henrichsen frygter, at noget dansk kultur derfor vil gå tabt, hvis vi udelukkende satser på at bruge ChatGPT. Derudover mener han også, at det fra statens side er afgørende at tage stilling til, hvordan vi som land forholder os til ChatGPT.

– Når ChatGPT bliver meget udbredt, og både privatpersoner og virksomheder bruger den i stort omfang, bliver den jo infrastruktur i vores land. Og hvis vi gør os afhængige af et amerikansk firma til noget, der formentlig bliver integreret i alle virksomheder på en eller anden måde, så kan det være farligt.


Læs også...

Ole Tange, it-politisk rådgiver i PROSA, har i denne uge indsendt en klage over Danmarks Radio til Datatilsynet. Det skyldes DRs krav om obligatorisk…

Er du på jagt efter et nyt job i it-branchen? Og er du i tvivl om, hvad virksomhederne især kigger efter? PROSAbladet har spurgt en række…

Fra Baltikums største sciencepark i udkanten af Tallinn sikrer Tehnopol, at hundredvis af startups kommer flyvefærdigt ud i virkeligheden. De får…

Estiske børn og unge får praktisk talt tech ind med modermælken, da it og tech-gadgets er en helt central del af hverdagen i både børnehaver,…

I Estland har borgerne kunne stemme digitalt siden 2005. Der har været kritik og debat, men i dag er det mere end halvdelen af esterne, der bruger…

Hvis man i Estland gerne vil skifte spor i sin karriere, er der en lang række muligheder for at videreuddanne sig inden for it. Skoler og online…

I denne udgave af PROSAbladet har vi lavet et tema-nummer om Estland. Det er sjældent, at vi giver så meget spalteplads til et tema – men det baltiske…

Pulserende krea-værksted klæder estiske børn på med både tech-skills og startup-mentalitet. Der er ingen læreplaner eller kedelige eksamener, men 3D…

Det minder om en blanding af X Factor og Den store bagedyst, og det lægger på 15. år gaderne øde i Estland. Velkommen til tv-talentshowet Rakett69,…

Estland har rykket sig ufattelig langt de seneste 30 år – men hvad skal der ske nu? En af udfordringerne er, at Estland kommer til at mange hænder og…