- Hvorfor skrive om den ene case efter

Kvinden og softwaren bag Panama-dokumenterne

Mar Cabra haster ind gennem døren til The Blind Spot Bar på St. Martins Lane Hotel i London. Hun har været tidligt oppe denne mandag den 25. april  for at flyve fra Madrid til London til et møde med Prosabladets udsendte.

Det er i skrivende stund lidt over tre uger siden, de første historier baseret på Panama-dokumenterne blev publiceret af verdens førende medier. Artiklerne afslørede, hvordan det Panama-baserede advokatfirma Mossack Fonseca har hjulpet statsledere, politikere, kendisser og andre folk med lidt for mange penge med at gemme deres formuer i skattely verden over.

Mar Cabra er leder af Data & Research-afdelingen i International Consortium of Investigative Journalists (ICIJ). ICIJ blev kontaktet af den tyske avis Süddeutsche Zeitung, da en ukendt whistleblower af flere omgange sendte mere end 11,5 millioner dokumenter fra det Panama-baserede advokatfirma Mossack Fonseca til avisen. 

Det omfattende læk dokumenterer den enorme globale skattely-industri, og Süddeutsche Zeitung havde brug for hjælp til at gennemgå de kolossale mængder af dokumenter, mails, billeder og databaseregistreringer. ICIJ gik i gang med at koordinere samarbejdet med 370 undersøgende journalister verden over, som siden har gennemtrawlet Panama-dokumenternes 2,6 TB. Inden journalisterne kunne starte deres granskning af det lækkede materiale fra Mossack Fonseca, skulle det konverteres, så det var nemt at søge i og gøre det muligt for journalisterne at se sammenhænge i de mange data.

Det er her, Mar Cabras team kommer ind i billedet. Tre udviklere og tre journalister har arbejdet med at gøre Panama-lækkets data tilgængelige for de mange involverede journalister. 

Mar Cabra er fuld af energi, smilende og gestikulerende  Hun er i London for at tale på konferencen GraphConnect, der afholdes af firmaet bag grafdatabasen Neo4J, som spiller en central rolle i det journalistiske arbejde med Panama-dokumenterne. Vi kommer tilbage til Neo4J lidt senere.

Databaseret journalistisk 

Den tidligere tv-journalist ønskede at trænge dybere ned i de samfundsmæssigt vigtige historier og startede derfor på Columbia Universitys studier for undersøgende journalistik. Hun havde en forestilling om at opdyrke og møde Deep Throat-kilder som i Watergate-skandalen, men i stedet for hemmelige møder med kilder i parkeringskældre fandt hun et langt bedre journalistisk værktøj: data.

– Jeg lærte, hvordan man kan bruge data til at fortælle historier og dokumentere en sag. Noget af det frustrerende for mig som tv-journalist var, at et indslag ofte var baseret på case-historier. Hvis du var heldig, var der måske to-tre eksempler på en sag, men du fik aldrig det fulde overblik. Når du kan underbygge din journalistik med data, kan myndighederne ikke bare afvise historien som baseret på enkelttilfælde. Du har bevis i kraft af dine data.

Efter studiet på Columbia University var Mar opsat på at forfølge den data-drevne journalistik:

– Hvorfor gå tilbage til case-by-case-historier, når jeg kan fortælle verden om historier, der er systematisk dokumenterede med data?

Med Panama-dokumenterne er der pludselig rigtigt meget dokumentation for de historier og gætterier om systematisk skatteunddragelse, som gennem årene løbende er dukket op i medierne. I 2012 vurderede James Henry, en tidligere cheføkonom for McKinsey, i en rapport for det britiske Tax Justice Network eksempelvis, at der var mellem 136 billioner og 207 billioner kroner gemt væk i skattely (1 billion er 1 million millioner). Nu har data fra Mossack Fonseca, det fjerdestørste offshore-advokatfirma, skabt lidt mere basis for den slags estimater.   

Dedikeret til open source

På Columbia University var det første analyseværktøj, Mar Cabra anvendte, et Excel-regneark, men hun har siden udvidet arsenalet af datajournalistiske værktøjer. Hun har været med til at dokumentere skattely via andre lækkede dokumenter såsom Offshore Leaks, Swiss Leaks og LuxLeaks. Gennem det arbejde har hun sammen med sit team efterhånden opbygget en del ekspertise i at gøre store mængder data tilgængelige for journalister. Det arbejde udføres så vidt muligt ved hjælp af open source-værktøjer. 

– Det er blandt andet på grund af omkostningerne. Vi er en lille organisation, så vi skal holde omkostningerne nede. Men for mig er det vigtigere, at vi har mulighed for at modificere værktøjerne, hvis det er nødvendigt.

Hun nævner som eksempel, at ICIJ anvendte open source-søgeplatformen Apache Solr og Project Blacklight som brugerflade til at skabe en søgeplatform for journalisterne.

Blacklight-brugerfladen passer ifølge Mar godt til de mange journalister med forskellige grader af it-kundskaber. Blacklight understøtter både simple søgninger, og giver samtidig den mere erfarne bruger mulighed for at lave søgninger med 'regular expressions'.

Journalisterne ønskede dog også at kunne foretage søgninger på baggrund af eksisterende lister over politikere, sportsfolk, forretningsmænd og internationale forbrydere. Eksempelvis ønskede nogle journalister at gennemgå FN's liste over personer og organisationer, som FN har indført sanktioner mod, for at se, om de var nævnt i Panama-dokumenterne.

I stedet for at indtaste hvert enkelt navn og hver organisation på FN's liste via Blacklight-brugerfladen udviklede det lille udviklerteam en batch-orienteret feature, der kunne læse en tekstfil igennem og lave søgninger i Solr. 

Ud over kopien af Mossack Fonsecas interne database var der også en mængde ustrukturerede data i form af tekstdokumenter i alle mulige formater, PDF-filer, indscannede pas og underskrevne kontrakter.

Ifølge Mar Cabra var den største opgave i forbindelse med Panama-dokumenterne at håndtere alle de forskellige dokumenttyper og konvertere dem til søgbare data. Den opgave løste Mars lille team med en række open source-programmer, der er gode til at scanne forskellige dokumenttyper og omsætte dem til søgbare data. For at binde de forskellige værktøjer sammen i en automatiseret process udviklede teamet programmet Extract, der efterfølgende er blevet lagt op på github. 

– Vi har selvfølgelig 'open sourcet', hvad vi har tilføjet, så andre kan få glæde af det, konstaterer Mar Cabra.

Tilbage i juni 2013 lancerede ICIJ websitet Off Shore Leaks, baseret på informationer fra en harddisk med 260 GB data i form af e-mails og databaser, som var sendt til ICIJ. Websitet giver offentligheden mulighed for at søge i de lækkede data. Websitet for Offshore Leaks, der visualiserede data i grafstrukturer, har været det mest besøgte af ICIJ's websites. På baggrund af de erfaringer var det klart for teamet, at den visuelle repræsentation af data er central. De fandt frem til visualiseringsværktøjet Linkurious, som kan præsentere data på en intuitiv og letforståelig måde. 

Data fra Mossack Fonseca blev loadet til en SQL Server og derefter transformeret til grafdatabasen Neo4J ved hjælp af open source-programmet Talend. Herefter var det rimeligt enkelt at koble Linkurious til Neo4J-databasen. 

– Det er en enkel måde for minde teknikkyndige journalister at søge rundt i data på, mens mere tekniske datajournalister har mulighed for at anvende forespørgselssproget Cypher til mere komplekse søgninger.

Mere intelligent dokumentanalyse

Mar Cabras lille team har allerede udført et stort stykke arbejde, men hun har yderligere planer om andre værktøjer til at hjælpe journalisterne i deres arbejde. Derfor vil hendes team undersøge metoder til at gøre behandlingen af lækkede dokumenter mere intelligent, når alt arbejdet med Panama-papirerne er overstået. Eksempelvis står text-mining, der automatisk identificerer ordtyper og -mønstre, højt på ønskelisten. 

– Det vil være godt, hvis systemet kan fortælle mig, at en masse af de her folk i dokumenterne eksempelvis omtaler terrorisme. Systemet kan opdage ting, som jeg måske ikke har tænkt på.

Når næste læk sker, vil ICIJ formentlig have de ting på plads. Mar Cabra har i hvert fald energien og visionen til at gøre den undersøgende journalistik endnu mere data-drevet i fremtiden.  


Læs også...

Antallet af kvinder på IT-uddannelser er i følge Dansk Industri faldet i 2024. Det sker trods flere år med kampagner og fokus på at tiltrække kvinder…

Danmarks Radios krav om login lever ikke op til GDPR-regler. Det fastslår IT-politisk rådgiver, Ole Tange, efter at have set et svarskrift fra…

Hvor langt skal du egentlig acceptere at skulle transportere dig ekstra, når dit arbejdssted flytter? Læs med her.

Stor jubel i Landstingssalen på Christiansborg, da høring om datasuverænitet langt hen ad vejen handlede om at smide big tech på porten og lukke…

Arbejdsgiver har ansvar for at sikre arbejdsmiljøet ved hjemmearbejde. Det fastslår en ny afgørelse fra Højesteret, hvor en kvinde kom til skade under…

Kvinder tjener i snit 12,6 procent mindre end mænd, og kvinders pensionsopsparing er 26 procent mindre end mænds. Det er to af de kedelige facts, som…

Der er tilfredshed i PROSA, efter at PET-lovændring er udskudt. IT-fagforeningen sendte forleden et åbent brev til justitsministeren, som påpegede…

Vi har hørt det uendelig mange gange: Der mangler kvinder i tech. Og vi får gang på gang at vide, at det er et problem, at piger ikke er interesserede…

Hvis du er uheldig og bliver syg, imens du holder ferie, er det vigtigt, at du husker at melde dig syg. Men får du løn under sygdommen, og kan du få…

Big tech er ved at kvæle rigtige fællesskaber med zombie-scrolling. Den faglige kamp har brug for, at de unge møder op og giver en injektion af…