- Hvorfor skrive om den ene case efter

Kvinden og softwaren bag Panama-dokumenterne

Mar Cabra haster ind gennem døren til The Blind Spot Bar på St. Martins Lane Hotel i London. Hun har været tidligt oppe denne mandag den 25. april  for at flyve fra Madrid til London til et møde med Prosabladets udsendte.

Det er i skrivende stund lidt over tre uger siden, de første historier baseret på Panama-dokumenterne blev publiceret af verdens førende medier. Artiklerne afslørede, hvordan det Panama-baserede advokatfirma Mossack Fonseca har hjulpet statsledere, politikere, kendisser og andre folk med lidt for mange penge med at gemme deres formuer i skattely verden over.

Mar Cabra er leder af Data & Research-afdelingen i International Consortium of Investigative Journalists (ICIJ). ICIJ blev kontaktet af den tyske avis Süddeutsche Zeitung, da en ukendt whistleblower af flere omgange sendte mere end 11,5 millioner dokumenter fra det Panama-baserede advokatfirma Mossack Fonseca til avisen. 

Det omfattende læk dokumenterer den enorme globale skattely-industri, og Süddeutsche Zeitung havde brug for hjælp til at gennemgå de kolossale mængder af dokumenter, mails, billeder og databaseregistreringer. ICIJ gik i gang med at koordinere samarbejdet med 370 undersøgende journalister verden over, som siden har gennemtrawlet Panama-dokumenternes 2,6 TB. Inden journalisterne kunne starte deres granskning af det lækkede materiale fra Mossack Fonseca, skulle det konverteres, så det var nemt at søge i og gøre det muligt for journalisterne at se sammenhænge i de mange data.

Det er her, Mar Cabras team kommer ind i billedet. Tre udviklere og tre journalister har arbejdet med at gøre Panama-lækkets data tilgængelige for de mange involverede journalister. 

Mar Cabra er fuld af energi, smilende og gestikulerende  Hun er i London for at tale på konferencen GraphConnect, der afholdes af firmaet bag grafdatabasen Neo4J, som spiller en central rolle i det journalistiske arbejde med Panama-dokumenterne. Vi kommer tilbage til Neo4J lidt senere.

Databaseret journalistisk 

Den tidligere tv-journalist ønskede at trænge dybere ned i de samfundsmæssigt vigtige historier og startede derfor på Columbia Universitys studier for undersøgende journalistik. Hun havde en forestilling om at opdyrke og møde Deep Throat-kilder som i Watergate-skandalen, men i stedet for hemmelige møder med kilder i parkeringskældre fandt hun et langt bedre journalistisk værktøj: data.

– Jeg lærte, hvordan man kan bruge data til at fortælle historier og dokumentere en sag. Noget af det frustrerende for mig som tv-journalist var, at et indslag ofte var baseret på case-historier. Hvis du var heldig, var der måske to-tre eksempler på en sag, men du fik aldrig det fulde overblik. Når du kan underbygge din journalistik med data, kan myndighederne ikke bare afvise historien som baseret på enkelttilfælde. Du har bevis i kraft af dine data.

Efter studiet på Columbia University var Mar opsat på at forfølge den data-drevne journalistik:

– Hvorfor gå tilbage til case-by-case-historier, når jeg kan fortælle verden om historier, der er systematisk dokumenterede med data?

Med Panama-dokumenterne er der pludselig rigtigt meget dokumentation for de historier og gætterier om systematisk skatteunddragelse, som gennem årene løbende er dukket op i medierne. I 2012 vurderede James Henry, en tidligere cheføkonom for McKinsey, i en rapport for det britiske Tax Justice Network eksempelvis, at der var mellem 136 billioner og 207 billioner kroner gemt væk i skattely (1 billion er 1 million millioner). Nu har data fra Mossack Fonseca, det fjerdestørste offshore-advokatfirma, skabt lidt mere basis for den slags estimater.   

Dedikeret til open source

På Columbia University var det første analyseværktøj, Mar Cabra anvendte, et Excel-regneark, men hun har siden udvidet arsenalet af datajournalistiske værktøjer. Hun har været med til at dokumentere skattely via andre lækkede dokumenter såsom Offshore Leaks, Swiss Leaks og LuxLeaks. Gennem det arbejde har hun sammen med sit team efterhånden opbygget en del ekspertise i at gøre store mængder data tilgængelige for journalister. Det arbejde udføres så vidt muligt ved hjælp af open source-værktøjer. 

– Det er blandt andet på grund af omkostningerne. Vi er en lille organisation, så vi skal holde omkostningerne nede. Men for mig er det vigtigere, at vi har mulighed for at modificere værktøjerne, hvis det er nødvendigt.

Hun nævner som eksempel, at ICIJ anvendte open source-søgeplatformen Apache Solr og Project Blacklight som brugerflade til at skabe en søgeplatform for journalisterne.

Blacklight-brugerfladen passer ifølge Mar godt til de mange journalister med forskellige grader af it-kundskaber. Blacklight understøtter både simple søgninger, og giver samtidig den mere erfarne bruger mulighed for at lave søgninger med 'regular expressions'.

Journalisterne ønskede dog også at kunne foretage søgninger på baggrund af eksisterende lister over politikere, sportsfolk, forretningsmænd og internationale forbrydere. Eksempelvis ønskede nogle journalister at gennemgå FN's liste over personer og organisationer, som FN har indført sanktioner mod, for at se, om de var nævnt i Panama-dokumenterne.

I stedet for at indtaste hvert enkelt navn og hver organisation på FN's liste via Blacklight-brugerfladen udviklede det lille udviklerteam en batch-orienteret feature, der kunne læse en tekstfil igennem og lave søgninger i Solr. 

Ud over kopien af Mossack Fonsecas interne database var der også en mængde ustrukturerede data i form af tekstdokumenter i alle mulige formater, PDF-filer, indscannede pas og underskrevne kontrakter.

Ifølge Mar Cabra var den største opgave i forbindelse med Panama-dokumenterne at håndtere alle de forskellige dokumenttyper og konvertere dem til søgbare data. Den opgave løste Mars lille team med en række open source-programmer, der er gode til at scanne forskellige dokumenttyper og omsætte dem til søgbare data. For at binde de forskellige værktøjer sammen i en automatiseret process udviklede teamet programmet Extract, der efterfølgende er blevet lagt op på github. 

– Vi har selvfølgelig 'open sourcet', hvad vi har tilføjet, så andre kan få glæde af det, konstaterer Mar Cabra.

Tilbage i juni 2013 lancerede ICIJ websitet Off Shore Leaks, baseret på informationer fra en harddisk med 260 GB data i form af e-mails og databaser, som var sendt til ICIJ. Websitet giver offentligheden mulighed for at søge i de lækkede data. Websitet for Offshore Leaks, der visualiserede data i grafstrukturer, har været det mest besøgte af ICIJ's websites. På baggrund af de erfaringer var det klart for teamet, at den visuelle repræsentation af data er central. De fandt frem til visualiseringsværktøjet Linkurious, som kan præsentere data på en intuitiv og letforståelig måde. 

Data fra Mossack Fonseca blev loadet til en SQL Server og derefter transformeret til grafdatabasen Neo4J ved hjælp af open source-programmet Talend. Herefter var det rimeligt enkelt at koble Linkurious til Neo4J-databasen. 

– Det er en enkel måde for minde teknikkyndige journalister at søge rundt i data på, mens mere tekniske datajournalister har mulighed for at anvende forespørgselssproget Cypher til mere komplekse søgninger.

Mere intelligent dokumentanalyse

Mar Cabras lille team har allerede udført et stort stykke arbejde, men hun har yderligere planer om andre værktøjer til at hjælpe journalisterne i deres arbejde. Derfor vil hendes team undersøge metoder til at gøre behandlingen af lækkede dokumenter mere intelligent, når alt arbejdet med Panama-papirerne er overstået. Eksempelvis står text-mining, der automatisk identificerer ordtyper og -mønstre, højt på ønskelisten. 

– Det vil være godt, hvis systemet kan fortælle mig, at en masse af de her folk i dokumenterne eksempelvis omtaler terrorisme. Systemet kan opdage ting, som jeg måske ikke har tænkt på.

Når næste læk sker, vil ICIJ formentlig have de ting på plads. Mar Cabra har i hvert fald energien og visionen til at gøre den undersøgende journalistik endnu mere data-drevet i fremtiden.  


Læs også...

Ole Tange, it-politisk rådgiver i PROSA, har i denne uge indsendt en klage over Danmarks Radio til Datatilsynet. Det skyldes DRs krav om obligatorisk…

Er du på jagt efter et nyt job i it-branchen? Og er du i tvivl om, hvad virksomhederne især kigger efter? PROSAbladet har spurgt en række…

Fra Baltikums største sciencepark i udkanten af Tallinn sikrer Tehnopol, at hundredvis af startups kommer flyvefærdigt ud i virkeligheden. De får…

Estiske børn og unge får praktisk talt tech ind med modermælken, da it og tech-gadgets er en helt central del af hverdagen i både børnehaver,…

I Estland har borgerne kunne stemme digitalt siden 2005. Der har været kritik og debat, men i dag er det mere end halvdelen af esterne, der bruger…

Hvis man i Estland gerne vil skifte spor i sin karriere, er der en lang række muligheder for at videreuddanne sig inden for it. Skoler og online…

I denne udgave af PROSAbladet har vi lavet et tema-nummer om Estland. Det er sjældent, at vi giver så meget spalteplads til et tema – men det baltiske…

Pulserende krea-værksted klæder estiske børn på med både tech-skills og startup-mentalitet. Der er ingen læreplaner eller kedelige eksamener, men 3D…

Det minder om en blanding af X Factor og Den store bagedyst, og det lægger på 15. år gaderne øde i Estland. Velkommen til tv-talentshowet Rakett69,…

Estland har rykket sig ufattelig langt de seneste 30 år – men hvad skal der ske nu? En af udfordringerne er, at Estland kommer til at mange hænder og…