"Det er vigtigt at nævne, at syntetiske data ikke er det samme som generativ AI; Syntetiske data genereres af computeralgoritmer for at ligne data fra den virkelige verden," fortæller stifterne af SyntheticAI data. Foto: Privat

Syntetisk data

Start-up med syntetisk data vil være globalt førende

Sherry og Goran lavede et hobby-projekt med syntetisk data til en konference. Projektet var så godt, at de netop har kastet sig ud i start-up-livet med firmaet syntheticAIdata. De vil være globalt førende inden for syntetisk data, og syntheticAIdata’s model hjælper allerede med at finde landminer i Ukraine.


Det startede egentlig som et legeprojekt.

Sherry List havde sagt ja til at holde et oplæg på en konference for udviklere.

Den 43-årige webudvikler bruger altid den slags som et benspænd. En presbold for selv at arbejde med nye ideer eller som en slags mulighed for at prøve kræfter med nye dele af programmeringen.

"Jeg elsker at komme ud og netværke, og jeg elsker at holde oplæg, så jeg siger altid ja, uden at have et projekt klar, og så må jeg jo finde på noget," fortæller hun.

Efter at have vredet hjernen gav hun sig slutteligt i lag med syntetisk data. Altså et demoprojekt for, hvordan man kan træne AI på syntetisk billeddata. Hun lavede det sammen med vennen Goran Vuksic, som hun tidligere havde udviklet projekter med.

Det var egentlig ikke ment som noget særligt.

"Jeg tror, jeg er en af mange i branchen, som har lavet den slags projekter og har skufferne fulde af demoprogrammer og ideer, som måske kunne være blevet til noget, men aldrig bliver det. Det er en slags konference-drevet udvikling, hvor vilde ideer og hobbyprojekter vises frem. Det er en måde, vi udfordrer os selv på. Det er en de fantastiske dele af it-branchen," siger Sherry.

Vi leger, nørder og netværker

Hun arbejder til daglig i Microsoft og fortæller, at de fleste virksomheder i it-branchen også er sporet ind på, at deres ansatte skal have mulighed for at lege med projekter ved siden af.

"Det er noget specielt for netop it-branchen, som jeg tror forklarer meget af den store succes og rivende udvikling, nemlig forståelsen af, at der skal udvikles og tænkes nyt. Det kan andre brancher nok lære meget af. Også af netværksdelen, hvor vi mødes, udveksler ideer og endda hacker forskellige løsninger sammen," siger Sherry.

Hun og Goran Vuksic, som er AI MVP, troede selv, at de med syntetisk data havde lavet endnu sjovt projekt til skuffen. Men denne gang var det anderledes.

Reaktionerne fra deres netværk var nemlig overvældende.

"Det er ret utroligt, fordi Goran og jeg havde samme ide og på samme tidspunkt.  Vi arbejdede sammen på projektet fra dag 1. Vi blev inspirerede af artiklen: ”Maverick*-forskning: Glem alt om dine rigtige data – syntetiske data er fremtiden for AI” på Gartner.com."

"Så vi arbejdede sammen om en demo for at vise, hvordan man genererer syntetiske data til træning af computer vision-modeller og præsenteret på en konference. Senere, baseret på feedback, vi fik fra folk, indså vi, at folk faktisk fandt vores demoprojekt nyttigt og indså potentialet i det," fortæller Sherry.

"Det er en af den slags tilfælde, som netop skubber noget større i gang. Altså den specielle følelse af, at ”hov, her står vi med noget, som har så stort et potentiale”, at vi er nødt til at forfølge det. Det skal ikke bare tilbage i skuffen. Vi blev i hvert fald enige om at forsøge os med at få det her ud over kanten og stifte virksomheden syntheticAIdata. Hvor især Goran står for at løbe alt det praktiske i gang," fortsætter hun.
 

Syntetiske data


Syntetiske data refererer til de data, der genereres gennem computersimuleringer eller algoritmer designet til at replikere data fra den virkelige verden.

En avanceret metode til at generere syntetiske data involverer brug af digitale tvillinger, som er virtuelle kopier af fysiske objekter eller miljøer.

Disse data er især nyttige til træning af computervisionsmodeller, fordi de kan produceres i stor skala og skræddersyes til specifikke scenarier, der kan være underrepræsenterede eller vanskelige at registrere i datasæt i den virkelige verden.

Ved at bruge syntetiske data kan man overvinde begrænsninger i datatilgængelighed og diversitet i den virkelige verden, hvilket fører til mere robuste og nøjagtige modeller.

Syntetiske data reducerer betydeligt de omkostninger og arbejdskraft, der er forbundet med manuel dataindsamling og annotering.

Det mindsker også bekymringer om privatlivets fred og hjælper med at fjerne skævheder, der findes i data fra den virkelige verden.

Syntetisk data kan dermed hjælpe udviklingen og implementeringen af computervisionsapplikationer.

Forbes skønner, at markedet for syntetiske data vil vokse fra under 1 milliard kroner næste år til over 25 milliarder i 2030.


Mindre bias, færre privacy-­bekymringer

Det gik op for makkerparret, at syntetisk data til træning er en indlysende god ide, som flere har fået øjnene op for.

Den primære udfordring med AI er den utilstrækkelige mængde data, der kræves for at træne nøjagtige og upartiske modeller.

Men ved at udnytte syntetiske data kan man overvinde udfordringen med at indsamle nok data og mindske bias og bekymringer om privatlivets fred.

Syntetiske data dækker også edge cases og scenarier, hvor data fra den virkelige verden er knappe eller endda ikke-eksisterende.

"Det er vigtigt at nævne, at syntetiske data ikke er det samme som generativ AI; Syntetiske data genereres af computeralgoritmer for at ligne data fra den virkelige verden. Ved at udnytte generativ AI til at øge syntetisk genererede data sikrer du desuden, at dit datasæt er stort, forskelligartet og omfattende nok til at træne robuste modeller," forklarer Sherry List.

Med andre ord behøver man ikke længere manuelt at indsamle eller gennemsøge internettet for fotos eller videoer.

"Du kan udnytte syntetiske data, som kommer forud-defineret, hvilket eliminerer behovet for manuelle definitioner. Det giver dig mulighed for at oprette data, der er skræddersyet til enhver kontekst, tilstand eller placering," siger Sherry List.

Sammen besluttede Sherry og Goran sig for at stifte start-up-virksomheden syntheticAIdata. Og ambitionerne er store.

Vil være førende i verden

Som visionen på deres website lyder:

"Vi har en vision om at blive førende globalt inden for syntetisk datagenerering ved at revolutionere optimering af forsyningskæden og detektering af defekter."

Og det er ikke bare et lille marked, syntheticAIdata vil være førende indenfor.

Ifølge Fortune Business Insights vurderes markedet løbende at vokse fra lille halv milliard dollar i år til over 3,5 milliarder dollars i 2031. Eller næsten 25 milliarder kroner.

Det er blot en lille bid af det eksplosive globale marked for ”computer vision” som forventes at vokse fra 25 milliarder dollars i 2025 til næsten 176 milliarder dollars i 2032.

Hjælper med at spore miner i Ukraine

Og hvad er det så deres syntetisk data blandt andet kan bruges til?

Faktisk er virksomhedens syntetisk genererede data allerede i brug i Ukraine.

Det sker i samarbejde med DEMINE Fonden. Det er en frivillig non-profit organisation, der sigter mod at skabe og levere billige minedetekterings- og landminerydningsløsninger ved hjælp af kunstig intelligens og off-the-shelf droner, sensorer og computere.

Russerne har under krigen kastet tusinder og atter tusinder af landminer ud med over et massivt stort område af Ukraine. Så stort at det vil tage mange, mange år at finde frem til dem og fjerne dem.

Minerne kan være svære at genkende, kan skjule sig delvist, og være gemt i al slags terræn.

Det er her, de data, der genereres af syntheticAIdatas platform til at træne computervisionsmodeller, kommer ind.

De kan nemlig generere et digitalt tvillinge-miljø, som gør det muligt at generere data for at træne nøjagtig model til at spotte minerne under alle tænkelige lysforhold, bevoksninger, terræn, delvist skjult, og om det er by, mark eller bjerge. Kort sagt sådan at droner, der bruger den model kan finde og genkende minerne, selv om kun dele af minen er synlige og det er halvmørkt.

Uden ville det måske have krævet hundredtusinder af optagelser og fotos. Med de syntetiske data kan man selv skabe alle scenarier ud fra en meget enklere base af fotomateriale.

Samme model kan indtænkes i alt fra træning af robotter, som skal agere i særlige sammenhænge og miljøer, hvor der er taget højde for alt, eller selvkørende biler eller faktisk det meste andet.

Netop ved at have muligheden for selv at producere de tusinder og atter af tusinder træningsdata, som tager højde for alt og ikke er farvet af forskellige bias eller privacy udfordringer – altså hyppige forekomster af det ene eller andet, som forvrider objektiviteten.

Start i det små og drøm stort

Fire korte om start-up fra Sherry List: 

Hvordan er det at starte en start-up?
”Det er meget arbejde! Uendeligt arbejde, faktisk. Du kommer til at bære mange hatte og arbejde i alle mulige roller, hvilket kan være både udfordrende og spændende. Det er dobbelt så stor udfordring, når du stadig har dit daglige job at klare. Men samtidig er det utroligt sjovt og givende. At se din vision komme til live og gøre en forskel er værd hver sen aften og tidlig morgen”.
 

Hvad tænker man, når man står med en ide/et projekt, og pludselig finder ud af, at der måske er en stor mulighed for at skabe en god forretning ud af det?
”Selv de bedste ideer kræver omhyggelig planlægning, stærk eksekvering og strategisk markedsføring for at lykkes. Jeg vurderer markedets efterspørgsel, potentiel konkurrence og unikke værditilbud.  Startups i den tidlige fase står over for adskillige udfordringer, såsom begrænsede ressourcer og at få markedstrækkraft. Derfor fokuserer jeg på at opbygge en solid go-to-market strategi og eksekvere den effektivt, så vi kan navigere succesfuldt i disse udfordringer”.


Hvad er næste skridt?
”For os er det indlysende næste skridt at rejse midler, så vi kan danne et dedikeret team. Opbygning af et stærkt team er afgørende for at drive vores vision fremad”.


Hvad er dit råd til andre?
”Mit råd til dem med en skuffe fuld af projekter er at tro på dine ideer og finde en medstifter, du kan stole på. Det er meget arbejde, især hvis du jonglerer med et dagligt job. En medstifter bringer ikke kun færdigheder og perspektiver, men deler også arbejdsbyrden, hvilket gør den mere håndterbar og øger dine chancer for succes. Start med at sætte små, håndterbare mål og arbejd konsekvent hen imod dem. Husk, at enhver stor succeshistorie startede med en simpel idé og modet til at forfølge den. Bliv ved med at skubbe fremad, forbliv modstandsdygtig, og vær ikke bange for at drømme stort. Din vision fortjener en chance for at skinne”.


Læs også...

I den lille, amerikanske by Granbury i Texas summer en bitcoin-mine så meget, at borgerne i byen bliver syge.

Aktivisme er et vanvittigt godt ord til at beskrive rigtigt meget af det, der sker i underskoven af it og tech. Aktivisme er aktivt at deltage. At…

Når teknologien ikke virker, eller vi mennesker skal lære nye systemer at kende, kan det skabe stress. En gruppe forskere fra Roskilde Universitet har…

Et PROSA-medlem fortæller, at hans arbejdsgiver har modtaget en henvendelse om, at han har deltaget i den offentlige debat på Facebook, og at…

Morten Reintoft oplevede, hvordan en uskyldig kommentar i en politisk debat pludselig blev et problem på hans arbejdsplads, fordi en utilfreds læser…

Webtegneserien XKCD har i snart 20 år skabt sig et publikum verden over i det mere nørdede segment. Striberne deles flittigt på sociale medier og på…

Åbne kildekoder er langt hen ad vejen fundamentet under it-udviklingen, så alle kan lære, bidrage, udvikle og arbejde videre på systemer. I Danmark…

I 90’erne var iværksætteren Lars Neupart en af pionererne inden for it-sikkerhed. I dag er han business angel og har investeret i omkring 20…

Lars Neupart har i mange år levet som investor, men tech-manden savner at være iværksætter. Derfor startede han tidligere på året en såkaldt stealth…

23-årige Polly har været en del af det danske cyberlandshold i tre år, og holdet har især lært hende, at det er vigtigt at tro på sig selv.