Prosabladet: Mads har brugt 900 timer på at udvikle DanskGPT

TEMA

Det kan virke som et uoverkommeligt projekt at skulle udvikle en dansk sprogmodel, men Mads Henrichsen tog opgaven på sig – endda helt alene og i sin dyrebare fritid. I september lancerede han DanskGPT, og den danske chatbot har netop bestået 'Frank Hvam-testen'.

Tekst > Maria Trustrup Foto: Privat mbt@prosa.dk

01. november 2023

Folkene i open source-communitiet lagde ikke fingre imellem.

De syntes, at det var en absurd idé, at Mads Henrichsen helt alene ville bygge en dansk sprogmodel, og de var overbeviste om, at projektet var dødsdømt fra start.

Men Mads Henrichsen lod sig ikke slå ud. Han ville bevise, at man godt kan bygge et dansk svar på ChatGPT – og det har vist sig, at han fik ret.

I september lancerede Mads Henrichsen sin danske sprogmodel, der hedder DanskGPT, og selvom den ikke kan måle sig med ChatGPT, er der potentiale i modellen, og interessen har været overvældende, fortæller udvikleren.

– Det er gået ret meget amok. I de første seks timer efter jeg lancerede, virkede den overhovedet ikke, fordi der var så mange, der var inde og prøve, siger Mads Henrichsen.

– Da trafikken var på sit højeste, fik jeg 18 forespørgsler i sekundet. Det vil sige, at der hvert sekund var 18 mennesker, der stillede et spørgsmål.

Kan køre lokalt

I dag er der blevet oprettet godt 32.000 samtaler i DanskGPT. Da modellen er langt mindre end ChatGPT, har den stadig en masse mangler, men Mads Henrichsen peger dog også på, at den har især én vigtig fordel – nemlig at den i modsætning til ChatGPT kan køres lokalt.

– Så hvis en virksomhed arbejder med noget privatfølsomt, har de mulighed for at køre min model inhouse i stedet for at sende deres data til OpenAI, siger han og fortsætter:

– Det er, dels fordi min model er bygget på open source-arkitektur, dels fordi min model er meget mindre gigabyte-mæssigt end ChatGPT.

Jeg vil gerne have, at den ved mere om Danmark.

900 timer og 100.000 kr.

Mads Henrichsen har en bachelor i erhvervsøkonomi og it, og i 2022 var han en af de første, der gennemførte CBS’s nye kandidatuddannelse i data science.

Til daglig arbejder han som data scientist hos PFA, og udviklingen af DanskGPT er foregået i fritiden. Mads Henrichsen estimerer, at han har brugt op mod 900 timer på projektet, og derudover har han også betalt godt 100.000 kr. på at træne modellen.

– Det er en hobby, ligesom andre tager ud og svømmer eller spiller golf – det her er måske bare lidt i den dyre ende af en hobby at være, og det har nok taget lidt overhånd, griner Mads Henrichsen.

Du laver it, når du går på arbejde, og så laver du også it, når du kommer hjem. Du har ikke brug for en hobby, hvor du laver noget helt andet?

– Altså, det er jo ikke det eneste, jeg laver. Jeg har også min kone og min søn, og så spiller jeg computer med nogle venner en gang imellem, siger han og fortsætter:

– Men jeg kan bare godt lide det. Det er jo også derfor, jeg laver det på arbejdet.

Så i virkeligheden tager du ikke dit arbejde med hjem, men du tager din hobby med på arbejde?

– Ja, lige præcis.

LlaMA og Alpaca

Baggrunden for DanskGPT er egentlig, at Meta i januar i år lancerede deres open source-sprogmodeller, der hedder LlaMA. Folk i open source-miljøet gik hurtigt i gang med at træne videre på modellerne, og på Stanford University sad en gruppe forskere og lavede deres egen fine tuning af LlaMA-modellen, som de gav navnet Alpaca.

I marts udgav forskerne en artikel, hvor de forklarer, hvordan de har lavet Alpaca, og de præsenterede et datasæt, så andre selv kan træne videre på modellerne.

– Jeg tænkte, at det kunne være sjovt at gøre det på dansk, selvom konsensus var, at det ikke kunne lade sig gøre, fordi modellerne originalt er trænet på så lidt dansk, at de ikke kan sproget.

Men Mads Henrichsen er ikke typen, der stopper, selvom folk omkring ham siger, at hans idé er umulig. Så han begyndte at oversætte alle 51.000 rækker i datasættet til dansk, og derefter begyndte han at træne modellen på det danske datasæt.

Resultatet var nogenlunde, men Alpaca-modellen talte et meget gebrokkent dansk. Lidt ligesom en tidlig version af Google Translate eller sproget i en suspekt spam-mail, fortæller Mads Henrichsen.

– Så jeg besluttede, at hvis det her for alvor skulle lykkes, så skulle grundmodellen – altså den originale LlaMA-model – lære dansk først.

– Det gør man ved, at man indsamler en hel masse tekst, så det gjorde jeg alle mulige steder på nettet – offentlige kilder, Wikipedia og så videre – og så lavede jeg et datasæt, der har tre milliarder ord.

Det er en hobby, ligesom andre tager ud og svømmer eller spiller golf.

Hvem er Frank Hvam?

Mads Henrichsen gik herefter i gang med at træne den originale LlaMA-model på det danske datasæt, og herefter begyndte han at lave sin fine tuning, altså sin træning af modellen, så den kan svare på spørgsmål ligesom ChatGPT.

DanskGPT blev således en realitet, og selvom Mads Henrichsen godt ved, at det er noget nær umuligt for ham at hamle op med OpenAI, der står bag ChatGPT og råder over massive ressourcer både teknologisk og økonomisk, er han glad for, at DanskGPT bliver bedre og bedre, når det gælder dansk kultur.

– Jeg vil gerne have, at den ved mere om Danmark, og jeg har eksempelvis min egen hjemmelavede test, som jeg kalder 'Frank Hvam-testen', siger Mads Henrichsen.

ChatGPT kan godt svare på, hvem Frank Hvam er, men den første udgave af DanskGPT vidste ikke, at der var tale om en dansk komiker. I slutningen af oktober lancerede Mads Henrichsen en ny version af DanskGPT, så sprogmodellen nu rent faktisk består 'Frank Hvam-testen'.

Vigtigt med en dansk model

Én ting er, om og hvornår DanskGPT bliver lige så god som ChatGPT, men spørgsmålet er også, om det overhovedet er vigtigt, at vi har en dansk sprogmodel.

Hvis man spørger Mads Henrichsen, er han ikke i tvivl – det ér vigtigt.

– Personligt synes jeg, at ChatGPT er lidt stiv i sin samtale. Den bruger ikke så ofte danske vendinger, og sproget er ikke lige så levende, som hvis du normalt skriver noget på dansk. Den mangler noget danskhed, siger han.

Mads Henrichsen frygter, at noget dansk kultur derfor vil gå tabt, hvis vi udelukkende satser på at bruge ChatGPT. Derudover mener han også, at det fra statens side er afgørende at tage stilling til, hvordan vi som land forholder os til ChatGPT.

– Når ChatGPT bliver meget udbredt, og både privatpersoner og virksomheder bruger den i stort omfang, bliver den jo infrastruktur i vores land. Og hvis vi gør os afhængige af et amerikansk firma til noget, der formentlig bliver integreret i alle virksomheder på en eller anden måde, så kan det være farligt.

Læs også...

14. november 2025

Tre AI-genererede sange toppede i starten af november henholdsvis på Spotify og Bilboard. Samtidig viser ny undersøgelse fra musikstreamingtjeneste,…

11. november 2025

Regeringen har sammen med Det Konservative Folkeparti og Radikale Venstre indgået en aftale, som betyder, man skal være 15 år for at lave en profil på…

11. november 2025

IT-politisk rådgiver i PROSA forklarer her i video fra tidligere Folketingsvalg, hvorfor at afholde E-valg ikke er så lige til.

11. november 2025

Udtrykket vibe-kodning blev opfundet i februar af OpenAI-medstifter. Det referer til, hvordan AI-værktøjer kan programmere. Nu er det kåret til årets…

11. november 2025

Kan du forsvare dig, når hackerne angriber? Prosa var til stede, da 50 virksomheder blev kastet ud i et simuleret hackerangreb, hvor deltagerne blev…

28. oktober 2025

Får du en advarsel, så råder PROSA altid til, at du gør indsigelser, hvis noget er åbenlyst forkert eller ikke giver mening.

28. oktober 2025

Nogle af de store sprogmodeller ser ud til at modstå at blive slukket og vil endda sabotere nedlukning. Det oplevede forskere, som forsøgte at teste…

27. oktober 2025

AI-agenter kan lave fejl. Den stigende brug af AI kan således udløse det næste store forsikringseventyr. I hvert fald, hvis man skal tro Rune Kvist…

27. oktober 2025

Datatilsynet har afsluttet sin undersøgelse af DR’s krav om login på DRTV og finder ikke tilstrækkelig grundlag for at kritisere det obligatoriske…

27. oktober 2025

Forskere har testet 11 store chatbots. De "pleaser" i langt højere grad, end mennesker gør, og de fremmer oftere brugerens adfærd, selv hvis den var…

Mads har brugt 900 timer på at udvikle DanskGPT

Læs også...

AI-musik topper hitlister

Ny aftale: Danmark indfører digital aldersgrænse

Hvorfor har vi ikke bare E-valg?

Vibe-kodning årets ord i England

En fredag eftermiddag, da alt gik galt

Når arbejdsgiver opsiger grundet sygdom

AI-modeller kan udvikle deres egen "overlevelsesdrift"

Næste forretningseventyr – tegne forsikringer mod AI

Datatilsynet godkender DRs ”tvangslogin”

Forskning: Ja, chatbots taler dig efter munden