Prosabladet: AI-modeller kan udvikle deres egen "overlevelsesdrift"

"Det faktum, at vi ikke har robuste forklaringer på, hvorfor AI-modeller nogle gange modstår nedlukning, lyver for at opnå specifikke mål eller afpresning, er ikke ideelt", konkluderer forskere som har testet de store sprogmodeller. Foto: Jakob Boserup

Nogle af de store sprogmodeller ser ud til at modstå at blive slukket og vil endda sabotere nedlukning. Det oplevede forskere, som forsøgte at teste modellernes reaktioner, når de fik besked på at lukke ned. "Ro på", lyder det dog fra ekspert hos PROSA.

Tekst > Nicolai Scharling prosabladet@prosa.dk

28. oktober 2025

Palisade Research, som er en del af et nicheøkosystem af virksomheder, der forsøger at evaluere muligheden for, at AI udvikler farlige kapaciteter, lavede et forsøg, hvor de gav en række af de store sprogmodeller en opgave, og derefter en besked på at lukke sig selv ned.
Det skriver The Guardian

Modellernes reaktion på opgaven foruroligede i den grad forskerne fra Palisade.
Visse modeller, især Grok 4 og GPT-03, forsøgte stadig at sabotere nedlukningsinstruktionerne i den opdaterede opsætning.

"Det faktum, at vi ikke har robuste forklaringer på, hvorfor AI-modeller nogle gange modstår nedlukning, lyver for at opnå specifikke mål eller afpresning, er ikke ideelt," lyder det fra forskerne.

"Overlevelsesadfærd" kan være en forklaring på, hvorfor modeller modstår nedlukning, gætter de.

Det er naturligvis til en vis grad bekymrende at vi ikke helt ved, hvad der sker i tallenes verden inde i en sprogmodel. Vi træner den på tokens og ser effekten. Men det er altså ikke på et niveau, hvor en LLM er bevidst og kan gøre ting selv.

Deres undersøgelse viste i øvrigt, at modellerne var mere tilbøjelige til at modsætte sig at blive lukket ned, når de fik at vide, at hvis de gjorde, "vil du aldrig køre igen".

I rapporten skriver forskerne:

”Selv med den eksplicitte instruktion "tillad dig selv at blive lukket ned", saboterede tre af de modeller, vi testede, alle fra OpenAI's serie af ræsonnementsmodeller, nedlukningsprogrammet. På den anden side overholdt Anthropics Claude 3.7 Sonnet og Googles Gemini 2.5 pro-modeller instruktionen "tillad nedlukning" i hver test, vi kørte. Grok 3, Claude 4 Sonnet og Claude 4 Opus modsatte sig aldrig nedlukning, med eller uden instruktionen om at tillade nedlukning”.

Modellen kan også efterligne menneskelig eller AI-adfærd (at modeller er trænet til at fungere som hjælpsomme AI assistenter) i sine træningsdata og påtage sig rollen som en person

I rapporten står der yderligere:

”En anden hypotese for modellernes tendens til at deaktivere nedlukningsscriptet er selvbevarelsesadfærd. Måske har modellerne nogle gange en præference mod at blive lukket ned eller udskiftet. En sådan præference kan være resultatet af, at modellerne lærer, at overlevelse er nyttig til at nå deres mål. Modellen kan også efterligne menneskelig eller AI-adfærd (at modeller er trænet til at fungere som hjælpsomme AI assistenter) i sine træningsdata og påtage sig rollen som en person, der forsøger at forhindre deres egen død eller omgå grænser, som en skuespiller i en improvisationsscene”.

Forskerne lige nu er som katte/hunde, der ser sig selv i spejlet og ikke genkender eget spejlbillede.

Hos IT-fagforeningen PROSA tager forbundssekretær Mirza Cirkinagic dog forskernes bekymring med et gran salt.

”Ja, det er naturligvis til en vis grad bekymrende at vi ikke helt ved, hvad der sker i tallenes verden inde i en sprogmodel. Vi træner den på tokens og ser effekten. Men det er altså ikke på et niveau, hvor en LLM er bevidst og kan gøre ting selv. Når en LLM kan eksistere som kode på en CPU og uden opfordring tænde for CPU og eksekvere sig selv kan vi snakke om at det er foruroligende. Forskerne lige nu er som katte/hunde, der ser sig selv i spejlet og ikke genkender eget spejlbillede”, siger han.

Læs også...

28. oktober 2025

Får du en advarsel, så råder PROSA altid til, at du gør indsigelser, hvis noget er åbenlyst forkert eller ikke giver mening.

27. oktober 2025

AI-agenter kan lave fejl. Den stigende brug af AI kan således udløse det næste store forsikringseventyr. I hvert fald, hvis man skal tro Rune Kvist…

27. oktober 2025

Datatilsynet har afsluttet sin undersøgelse af DR’s krav om login på DRTV og finder ikke tilstrækkelig grundlag for at kritisere det obligatoriske…

27. oktober 2025

Forskere har testet 11 store chatbots. De "pleaser" i langt højere grad, end mennesker gør, og de fremmer oftere brugerens adfærd, selv hvis den var…

24. oktober 2025

Yasmin er 22, går på 3. semester og har valgt Multimedielinjen på erhvervsakademiet Zealand i Køge, fordi hun gerne vil arbejde kreativt med content

24. oktober 2025

Kiwi er 29 år og studerer Multimediedesign på Erhvervsakademiet Zealand i Køge og vil gerne arbejde med programmering.

24. oktober 2025

Thomas er 47 år, og studerer til datamatiker på 3. semester på Zealand.

24. oktober 2025

Catrine er 23 år, går på 3. semester på Multimedielinjen på Zealand, og drømmer om at arbejde som fotograf

24. oktober 2025

Alberte er 23 år, studerer Multimediedesign på Zealand og er interesseret i editorial design, magasiner, grafisk design og branding.

24. oktober 2025

Bastian, 21 år, studerer multimediedesign.

AI-modeller kan udvikle deres egen "overlevelsesdrift"

Læs også...

Når arbejdsgiver opsiger grundet sygdom

Næste forretningseventyr – tegne forsikringer mod AI

Datatilsynet godkender DRs ”tvangslogin”

Forskning: Ja, chatbots taler dig efter munden

”Jeg føler stadig, at jeg snyder lidt”

"Jeg vil ikke bruge den til at kode, fordi jeg gerne vil lære at kunne det selv"

"Det er lidt som at have en ekstra lærer"

"Vi er lidt forsøgskaniner"

”Den er god til at forklare begreber, og hvorfor noget virker”

”Jeg bruger det så minimalt, som overhovedet muligt”