TEMA

Mads har brugt 900 timer på at udvikle DanskGPT

Det kan virke som et uoverkommeligt projekt at skulle udvikle en dansk sprogmodel, men Mads Henrichsen tog opgaven på sig – endda helt alene og i sin dyrebare fritid. I september lancerede han DanskGPT, og den danske chatbot har netop bestået 'Frank Hvam-testen'.

 

Folkene i open source-communitiet lagde ikke fingre imellem.

De syntes, at det var en absurd idé, at Mads Henrichsen helt alene ville bygge en dansk sprogmodel, og de var overbeviste om, at projektet var dødsdømt fra start.

Men Mads Henrichsen lod sig ikke slå ud. Han ville bevise, at man godt kan bygge et dansk svar på ChatGPT – og det har vist sig, at han fik ret.

I september lancerede Mads Henrichsen sin danske sprogmodel, der hedder DanskGPT, og selvom den ikke kan måle sig med ChatGPT, er der potentiale i modellen, og interessen har været overvældende, fortæller udvikleren.

– Det er gået ret meget amok. I de første seks timer efter jeg lancerede, virkede den overhovedet ikke, fordi der var så mange, der var inde og prøve, siger Mads Henrichsen.

– Da trafikken var på sit højeste, fik jeg 18 forespørgsler i sekundet. Det vil sige, at der hvert sekund var 18 mennesker, der stillede et spørgsmål.

Kan køre lokalt

I dag er der blevet oprettet godt 32.000 samtaler i DanskGPT. Da modellen er langt mindre end ChatGPT, har den stadig en masse mangler, men Mads Henrichsen peger dog også på, at den har især én vigtig fordel – nemlig at den i modsætning til ChatGPT kan køres lokalt.

– Så hvis en virksomhed arbejder med noget privatfølsomt, har de mulighed for at køre min model inhouse i stedet for at sende deres data til OpenAI, siger han og fortsætter:

– Det er, dels fordi min model er bygget på open source-arkitektur, dels fordi min model er meget mindre gigabyte-mæssigt end ChatGPT.

Jeg vil gerne have, at den ved mere om Danmark.

900 timer og 100.000 kr.

Mads Henrichsen har en bachelor i erhvervsøkonomi og it, og i 2022 var han en af de første, der gennemførte CBS’s nye kandidatuddannelse i data science.

Til daglig arbejder han som data scientist hos PFA, og udviklingen af DanskGPT er foregået i fritiden. Mads Henrichsen estimerer, at han har brugt op mod 900 timer på projektet, og derudover har han også betalt godt 100.000 kr. på at træne modellen.

– Det er en hobby, ligesom andre tager ud og svømmer eller spiller golf – det her er måske bare lidt i den dyre ende af en hobby at være, og det har nok taget lidt overhånd, griner Mads Henrichsen.

Du laver it, når du går på arbejde, og så laver du også it, når du kommer hjem. Du har ikke brug for en hobby, hvor du laver noget helt andet?

– Altså, det er jo ikke det eneste, jeg laver. Jeg har også min kone og min søn, og så spiller jeg computer med nogle venner en gang imellem, siger han og fortsætter:

– Men jeg kan bare godt lide det. Det er jo også derfor, jeg laver det på arbejdet.

Så i virkeligheden tager du ikke dit arbejde med hjem, men du tager din hobby med på arbejde?

– Ja, lige præcis.

LlaMA og Alpaca

Baggrunden for DanskGPT er egentlig, at Meta i januar i år lancerede deres open source-sprogmodeller, der hedder LlaMA. Folk i open source-miljøet gik hurtigt i gang med at træne videre på modellerne, og på Stanford University sad en gruppe forskere og lavede deres egen fine tuning af LlaMA-modellen, som de gav navnet Alpaca. 

I marts udgav forskerne en artikel, hvor de forklarer, hvordan de har lavet Alpaca, og de præsenterede et datasæt, så andre selv kan træne videre på modellerne.

– Jeg tænkte, at det kunne være sjovt at gøre det på dansk, selvom konsensus var, at det ikke kunne lade sig gøre, fordi modellerne originalt er trænet på så lidt dansk, at de ikke kan sproget.

Men Mads Henrichsen er ikke typen, der stopper, selvom folk omkring ham siger, at hans idé er umulig. Så han begyndte at oversætte alle 51.000 rækker i datasættet til dansk, og derefter begyndte han at træne modellen på det danske datasæt.

Resultatet var nogenlunde, men Alpaca-modellen talte et meget gebrokkent dansk. Lidt ligesom en tidlig version af Google Translate eller sproget i en suspekt spam-mail, fortæller Mads Henrichsen.

– Så jeg besluttede, at hvis det her for alvor skulle lykkes, så skulle grundmodellen – altså den originale LlaMA-model – lære dansk først.

– Det gør man ved, at man indsamler en hel masse tekst, så det gjorde jeg alle mulige steder på nettet – offentlige kilder, Wikipedia og så videre – og så lavede jeg et datasæt, der har tre milliarder ord.

Det er en hobby, ligesom andre tager ud og svømmer eller spiller golf.

Hvem er Frank Hvam?

Mads Henrichsen gik herefter i gang med at træne den originale LlaMA-model på det danske datasæt, og herefter begyndte han at lave sin fine tuning, altså sin træning af modellen, så den kan svare på spørgsmål ligesom ChatGPT.

DanskGPT blev således en realitet, og selvom Mads Henrichsen godt ved, at det er noget nær umuligt for ham at hamle op med OpenAI, der står bag ChatGPT og råder over massive ressourcer både teknologisk og økonomisk, er han glad for, at DanskGPT bliver bedre og bedre, når det gælder dansk kultur.

– Jeg vil gerne have, at den ved mere om Danmark, og jeg har eksempelvis min egen hjemmelavede test, som jeg kalder 'Frank Hvam-testen', siger Mads Henrichsen.

ChatGPT kan godt svare på, hvem Frank Hvam er, men den første udgave af DanskGPT vidste ikke, at der var tale om en dansk komiker. I slutningen af oktober lancerede Mads Henrichsen en ny version af DanskGPT, så sprogmodellen nu rent faktisk består 'Frank Hvam-testen'.

Vigtigt med en dansk model

Én ting er, om og hvornår DanskGPT bliver lige så god som ChatGPT, men spørgsmålet er også, om det overhovedet er vigtigt, at vi har en dansk sprogmodel. 

Hvis man spørger Mads Henrichsen, er han ikke i tvivl – det ér vigtigt.

– Personligt synes jeg, at ChatGPT er lidt stiv i sin samtale. Den bruger ikke så ofte danske vendinger, og sproget er ikke lige så levende, som hvis du normalt skriver noget på dansk. Den mangler noget danskhed, siger han.

Mads Henrichsen frygter, at noget dansk kultur derfor vil gå tabt, hvis vi udelukkende satser på at bruge ChatGPT. Derudover mener han også, at det fra statens side er afgørende at tage stilling til, hvordan vi som land forholder os til ChatGPT.

– Når ChatGPT bliver meget udbredt, og både privatpersoner og virksomheder bruger den i stort omfang, bliver den jo infrastruktur i vores land. Og hvis vi gør os afhængige af et amerikansk firma til noget, der formentlig bliver integreret i alle virksomheder på en eller anden måde, så kan det være farligt.


Læs også...

Jargon har i årevis samlet forklaringer på tech-forkortelser, it-udtryk og ord. Det er blevet til et ret massiv og enkelt opslagsværk over it-kultur…

Isak Juel Nielsen er 20 år og studerer datalogi på Syddansk Universitet.

I Estland vokser udviklingen derfor også nedefra, fordi de lytter oppefra. Det har gjort dem til verdensmestre i iværksætteri, og det har skabt…

PROSA oplever en tendens til at muligheden for hjemmearbejde blandt vores medlemmer indskrænkes. Regler om hjemmearbejde er langt de fleste steder et…

Lønsamtaler kan give sved på panden, men med den rette strategi kan du forlade chefens kontor med mere i lønningsposen. Mariam Senounou er jurist hos…

Man kan lære mange ting på skolebænken, men meget læring kommer også fra virkeligheden. Det har tre software design-studerende i den grad mærket på…

Microsoft vil starte en atomreaktor op igen for at give grøn strøm til deres datacentre, specielt dem med AI. Hvis det reelt går igennem, og de får…

En ny feature i et af Googles AI-værktøjer gør det muligt at lave en podcast på få minutter. Featuren er så nem at bruge, at den egentlig ikke behøver…

Millioner af udviklere verden over bruger hver dag JavaScript – men hvorfor er programmeringssproget blevet så populært? PROSAbladet har talt med…

Et nyt projekt indsamler danske stemmer for at sikre, at AI-løsninger fremover også kan tale med dialekter. Du kan også donere din stemme, skriver DR.…