Tegning

FLoC eller rettere Federated Learning on Cohorts giver måske en strømpil for, hvor Googles nye tracking-metode er på vej hen. Illustration: Mikkel Henssel

floc

En ulv i fåreklæder

Navnet på Googles nye cookie-dræberteknologi snyder: Selvom FLoC står for Federated Learning on Cohorts, er der ikke meget Federated Learning over det endnu.

Når Googles nye FLoC API i disse dage gør sin debut i nøje udvalgte lande i verden, er alt ikke, som det ser ud på overfladen.

FLoC, som står for Federated Learning on Cohorts, er sat i verden for at gøre det lettere at servere relevante reklamer.

TEMA:

Denne artikel er en del af et tema om udfasningen af tredjepartscokkies, og hvad der skal erstatte dem:
Cookien er død - tracking lever
Google er en invasiv art
En ulv i fåreklæder
FLoC - den nye cookie
Kampen om nettets annoncekroner

Det er også en af de nye mere privatlivsvenlige teknologier, der skal erstatte de tredjepartscookies, som Google har lovet at pensionere senest i 2022, og som i dag er et af grundelementerne i den milliardstore globale annoncebranche.

Men FLoC-navnet snyder, siger Pete Snyder, der er formand for privatlivsarbejdsgruppen i W3C’s – konsortiet, der styrer de globale webstandarder.
– Den nuværende version er overhovedet ikke Federated Learning, siger han.

Federated Learning er den særlige retning inden for kunstig intelligens, som blandt andre Googles topchef, Sundai Pichai, tidligere har talt begejstret om. Men hvad er FLoC så, og hvorfor har Google puttet FL i navnet? Prosabladet giver dig svarene.

Sådan virker FLoC

Teknisk set er FLoC en ny webstandard, som gør det muligt for en hjemmeside eller et reklamenetværk at spørge din browser, hvilken type forbruger, du er og regne ud, om du er mest til biler, designermøbler eller gør-det-selv produkter.

FLoC udregner din brugerprofil ved at tjekke din browserhistorik og se, hvilke domæner du har besøgt de seneste syv dage. Herudfra udregnes en særlig brugervektor, der udtrykker dit domænemiks. Da næsten ingen besøger præcist de samme sites, vil din brugervektor næsten uundgåeligt være unik.

Brugervektoren er derfor præcis, men ikke særligt anonym, endsige privacy-venlig. Derfor grupperer FLoC nu brugere, der har relativt ens brugerprofiler. Grupperne får hver deres Cohort ID. Det er dette, nu mere anonyme, Cohort ID, som FLoC fortæller videre til hjemmesider og reklamenetværk.
– Det er ret gennemtænkt, fortæller Thomas Dybdahl Ahle, som er en af de få danskere, der har fingeren på FLoC-pulsen.

Det er ret gennemtænkt
- Thomas Dybdahl Ahle, Research Scientist og ph.d. i maskinlæringsalgoritmer

Den 30-årige Research Scientist og ph.d. i maskinlæringsalgoritmer hæfter sig ved, at rådata i FLoC aldrig forlader den enkelte brugers device. Dermed undgår man, at et enkelt firma sidder med al data. Og det er netop den privacy, der ligger i FLoC’s gruppedannelse.

Gruppedannelsen foregår ved, at FLoC først SimHash’er brugerne. Det sker ved at afrunde koordinaterne i den enkelte brugers brugervektor til 0 og 1 i stedet for de plus-minustal, den ligesom alle andre vektorer kan være født med. I sig selv vil denne operation betyde, at flere forskellige brugervektorer afrundes til samme SimHash, og at flere brugere på den måde ender i samme SimHash-gruppe.

Da det hele sker lokalt på brugerens eget device, kan FLoC dog ikke fortælle, hvor mange brugere der er i hver SimHash-gruppe. Den kan heller ikke garantere, at der er tilstrækkeligt mange til, at gruppen forbliver rimeligt anonym.

Prefix LSH danner større grupper

Derfor tager FLoC nu en anden algoritme i brug: Prefix LSH.

Prefix LSH stiller alle SimHash’ene op i et langt forgrenet træ og slår hver af de SimHashes, der ligner hinanden mest, sammen, indtil der er mindst et par tusind brugere i hver gruppe.

Hver af disse grupper navngives, og det er dette gruppenavn, der altså afslører din gruppes særlige type, og som FLoC fortæller hjemmesideejere og reklamenetværk om, når du besøger deres sites, så de kan vise dig annoncer, der passer til dig netop nu. 

På den måde sikrer FLoC dig både en vis portion anonymitet, fordi du er gemt bag dit gruppenavn, og fordi data bor på dit eget device – og ikke en central server.

Derfor, mener Google, er FLoC – og SimHash og Prefix LSH – et stort privatlivsmæssig skridt frem.

Alle indgår de i Privacy Sandbox, som er Googles nye satsning på privatlivsbeskyttelse.
”Vi er mere sikre end nogensinde før på, at Privacy Sandbox er den bedste vej fremad til at forbedre privatlivsbeskyttelsen på nettet”, skriver Chetna Bindra, en af Googles eksperter på området, på Googles blog.

SimHash’ akilleshæl

Om SimHash også i fremtiden vil være en integreret del af FLoC er dog tvivlsomt. For selvom det hjælper til i anonymiseringsprocessen, har SimHash en akilleshæl: Den er ikke selvlærende. Den bliver ikke smartere og mere præcis, jo mere den bliver brugt.

Skal SimHash-algoritmen optimeres, er der nogen, der fra centralt hold skal tilrette koden og sørge for, at den opdateres på alle de mange enheder, den kører på. Uden at have adgang til data, der jo kun findes på brugernes devices.

Det er præcis dette problem, som Federated Learning løser. Federated Learning betyder ”læring i fællesskab” og er et maskinlærings-framework, hvor en masse decentrale devices samles om i fællesskab at forbedre den samme maskinlæringsmodel, uden at data fra det enkelte device deles – hverken med de andre devices eller den centrale instans.

Det foregår ved, at den model, der skal trænes, først skubbes ud til et antal devices, der kører modellen på de data, de hver især selv kender til.

– Jo bedre algoritmen bliver, jo større risici har modellen også
- Pete Snyder, Senior Privacy Researcher hos Brave

De enkelte devices evaluerer og forbedrer modellen og sender deres forslag til ændringer tilbage til den centrale instans i en krypteret secure aggregation-proces, hvor de enkelte ændringer hver især indeholder deres del af den samlede krypteringsnøgle. Modelændringerne kan først dekrypteres, når de alle er samlet.

Ændringsforslagene konsolideres sammen i en ny, forbedret model, der nu kan sendes til et nyt antal devices i en proces, der fortsætter, til man synes, modellen er god nok.

Det er sådan, Federated Learning-modeller kan trænes op, lidt efter lidt og i fuld anonymitet, på selv meget store datamængder.

SimHash kan skiftes ud

At det er SimHash, Google bruger, til at profilere og gruppere dig, er da heller ikke hugget i sten.
– FLoC-standarden siger bare, at browseren skal kunne give en Cohort ID til hjemmesiden, men den stiller ikke nogen krav om, hvordan browseren vælger det, siger Thomas Ahle.

Privatlivseksperten Pete Snyder fra W3C er enig:
– SimHash er et rent implementeringsvalg. Det vil ikke ændre noget ved FLoC overhovedet, hvis de vælger at bruge en anden måde at opdele brugerne i grupper på.

Meget tyder derfor på, at FL i FLoC slet ikke er en fejl. For når SimHash-algoritmen på et tidspunkt udskiftes, står Federated Learning klar som den sandsynlige arving.
– Målet er, at FLoC selv skal kunne lære nye grupper at kende. Når det sker, bliver det et rigtigt Federated Learning system. Det er den langsigtede plan, siger ­Pete Snyder.

Men det er ikke noget, han er begejstret for.
– Jo bedre algoritmen bliver, jo større risici har modellen også, siger han.

 

Er du blevet FLoC’et?

Electronic Frontier Foundation (EFF) har lavet en test, hvor du kan se, om du har været udsat for Googles forsøg med FLoC. Læs mere på amifloced.org. Browseren DuckDuckGo har lavet en udvidelse, der blokerer for FLoC. Brug den, hvis du ikke vil være med FLoC.


Læs også...

Ole Tange, it-politisk rådgiver i PROSA, har i denne uge indsendt en klage over Danmarks Radio til Datatilsynet. Det skyldes DRs krav om obligatorisk…

Er du på jagt efter et nyt job i it-branchen? Og er du i tvivl om, hvad virksomhederne især kigger efter? PROSAbladet har spurgt en række…

Fra Baltikums største sciencepark i udkanten af Tallinn sikrer Tehnopol, at hundredvis af startups kommer flyvefærdigt ud i virkeligheden. De får…

Estiske børn og unge får praktisk talt tech ind med modermælken, da it og tech-gadgets er en helt central del af hverdagen i både børnehaver,…

I Estland har borgerne kunne stemme digitalt siden 2005. Der har været kritik og debat, men i dag er det mere end halvdelen af esterne, der bruger…

Hvis man i Estland gerne vil skifte spor i sin karriere, er der en lang række muligheder for at videreuddanne sig inden for it. Skoler og online…

I denne udgave af PROSAbladet har vi lavet et tema-nummer om Estland. Det er sjældent, at vi giver så meget spalteplads til et tema – men det baltiske…

Pulserende krea-værksted klæder estiske børn på med både tech-skills og startup-mentalitet. Der er ingen læreplaner eller kedelige eksamener, men 3D…

Det minder om en blanding af X Factor og Den store bagedyst, og det lægger på 15. år gaderne øde i Estland. Velkommen til tv-talentshowet Rakett69,…

Estland har rykket sig ufattelig langt de seneste 30 år – men hvad skal der ske nu? En af udfordringerne er, at Estland kommer til at mange hænder og…