Nyheden om den kinesiske sprogmodel DeepSeek, som tilsyneladende kun har kostet 6 millioner dollars at udvikle, er mere strømbesparende og næsten lever op til konkurrenter som ChatGPT i kvalitet, er en god nyhed.
Det mener Ole Tange, der er IT-politisk rådgiver i de IT-ansattes fagforening PROSA.
”Man kan diskutere, om det er helt rendyrket open source, når vi kan se tabellerne, men ikke ved, hvordan den er blevet trænet. Men vi kan downloade tabellerne og arbejde videre med dem selv, og endnu bedre, vi kan køre dem på egen pc, så vi ikke deler data med andre,” siger Ole Tange.
Hvis det er korrekt, at træningen er sket for så få midler, så kan det få væsentlige konsekvenser for træningen af fremtidens LLM'er. Det er en god nyhed for miljøet.
DeepSeek blev grundlagt i 2023 af Liang Wenfeng i Hangzhou, en by i det sydøstlige Kina. Siden er det gået stærkt, og på få dage har sprogmodellen taget verden med storm.
Ole Tange har selv testet DeepSeek siden fredag, og sat den op mod ChatGPT4o i flere test.
”Der er ingen tvivl om, at ChatGPT er højere kvalitet i forhold til specifikke opgaver, men generelt er DeepSeek god nok. Man kan sige, at den fint kan bruges til rugbrødsarbejde, så det bliver gjort væsentligt mere strømbesparende”, fastslår han.
Ole Tange fortsætter:
”Jeg har selvfølgelig også lavet Tiananmen testen på den, altså henvisning til nedslagtningen af studerende, som skete i 1989 i Kina, men som den kinesiske regering har fjernet fra al intern debat, og set hvordan DeepSeek ændrer mening i svaret undervejs, sådan som flere medier også gjorde i går. Det tyder på, at der sker en efterbehandling af svaret, og spørgsmålet er, om samme efterbehandling følger med, hvis man kører den på ens egen PC; det tror jeg nemlig ikke”, siger han.
Generelt mener Ole Tange, at DeepSeek dermed er et godt udgangspunkt for danske udviklere at arbejde videre med. Det kinesiske firma hævder, at dets model kan trænes på 2.000 specialiserede chips sammenlignet med anslået 16.000 for førende modeller.
Prisen på 6 millioner dollars og kravet til computerkraft står i skærende konstrast til de seneste meldinger fra centrale amerikanske techgiganter.
Meta har for nylig sag, at selskabet, der også står bag Facebook og Instagram vil bruge op mod 65 milliarder dollars i år på AI-udvikling. Sam Altman, administrerende direktør for OpenAI, sagde sidste år, at AI-industrien ville have brug for billioner af dollars i investeringer for at støtte udviklingen af efterspurgte chips, der er nødvendige for at drive de el-hungrende datacentre, der kører sektorens komplekse modeller.
”Grib den. Det er skønt, at der et mindre ressourcekrævende værktøj som virker OK. Og hvis det er korrekt, at træningen er sket for så få midler, så kan det få væsentlige konsekvenser for træningen af fremtidens LLM'er. Det er en god nyhed for miljøet. Og kan man lave få samme resultat med færre chips, så bliver der behov for færre chips. Måske også derfor fik Nvidias aktier fik en kæmpe lussing i går, da nyheden om Deepseeks resultater spredte sig, siger Ole Tange.,
Data bliver høstet for at blive brugt til egen vinding og fordel, om det så er en stat eller en techgigant.
Han henviser til et tab på ca. 1.000 milliarder dollars, hvor særligt mikrochip-producenten Nvidia blev ramt hårdt.
Eksperter har kaldt det for et ”Sputnik”-øjeblik, med reference til dengang Sovjet tog føringen i rumkapløbet med USA. Nu bare med kinesisk dominans inden for AI-udvikling.
”Der er naturligvis en bekymring for, om kineserne nu kan snuppe vores data. Og den er relevant og vigtig. Men man skal bare huske på, at det samme gælder de amerikanske sprogmodeller. Data bliver høstet for at blive brugt til egen vinding og fordel, om det så er en stat eller en techgigant. Netop derfor er muligheden for at køre modellen på eget udstyr så vigtig, så holder du nemlig dine data for dig selv”, fastslår Ole Tange.