Lillesøster ser deg!

Lillesøster ser deg!

KOMMENTAR: Her kommer en skummel historie om hvor vanskelig det er å beskytte persondata i it-alderen.

Staten Massachusetts har en egen komité, Group Insurance Commission, som kjøper inn helseforsikring for statsansatte. For noen år siden hoppet plutselig totalkostnadene for legebesøk (som forsikringen skulle dekke) i været i forhold til året før. GIC ville finne ut om alt var i orden eller om de ble lurt av grådige leger. Prisverdig nok.

Det ble bestemt at data om hvert pasientbesøk skulle lagres og etterregnes. GIC hadde ikke bruk for pasientenes navn, det var ikke individuelle forhold de skulle etterspore, men totalsummene. Det er faktisk ikke lov å lagre data om identifiserbare pasientbesøk. Alt de ville var å forstå hva som drev på kostnadene.

De-identifisering

De data som ble lagret inneholdt altså verken navn, adresse, personnummer, telefonnummer – ikke noe som kunne identifisere den enkelte. Ingen skulle kunne snoke i materialet. Dette kalles de-identifisering. Det transaksjonene inneholdt var kjønn, de første fem sifrene i postkoden og lignende felles data, pluss årsaken til hvorfor pasienten oppsøkte lege. Tanken var å oppdage mønstre, ikke å henge ut enkeltindivider. Det var data om 135.000 legebesøk i materialet.

Det viste seg at samlingen av data hadde såpass stor verdi for kommersielle selskaper at de kunne selges. Og de ble solgt. Det var vel greit så lenge data var de-identifisert? Det ga et lite bidrag til statskassen. Typisk win-win. Dessuten ble datagrunnlaget frigjort for andre statsinstitusjoner og for forskning.

Re-identifisert

Men var nå disse data virkelig uidentifiserbare på individuelt nivå? Forsker Latanya Sweeney ved MIT-universitetet i Cambridge (nå professor i computer science ved Carnegie Mellon) lurte på om hun kunne klare å re-identifisere hvem som lå i datagrunnlaget. Hun stilte seg et mål: Å finne sykdomsbildet til en profilert statsansatt, guvernør Weld.

På det tidspunkt bodde Weld i byen Cambridge, en forstad til Boston. Sweeney fikk tak i listen over stemmeberettigede i Cambridge, et offentlig dokument. Fra den listen fikk hun vite at det bare var seks personer i byen som ble født samme dagen som guvernør Weld. Bare tre av dem var menn, og bare en av dem hadde samme postkode som ham. Resten var grei skuring. Hun fikk tak i data både om Welds medisinske tilstand og dessuten helsa til hele hans familie.

Hvem har skylda?

Denne type re-identifisering er ikke vanskelig. Cambridge er et relativt lite sted. Fødselsdatoen alene er nok til å identifisere over ti prosent av populasjonen. I hele USA er kjønn, fødselsdato og postkode nok til å identifisere 87 prosent av befolkningen. I et lite land som Norge kan praktisk talt alle identifiseres på denne måten. Konfidensialitet er umulig å opprettholde hvis mer enn to personer har tilgang til datagrunnlaget og én av dem er et nesegrev.

Det springende punktet er: Er det noen som har begått en brøler her? Bør noen miste jobben? Og dét, mine venner, er ikke lett å si.

Det var opplagt riktig å samle inn disse data – kostnadene i forbindelse med legebesøk øker både her og der. En analyse var absolutt på sin plass. Å de-identifisere data var et nødvendig og godt grep. Å utlevere data til andre statsinstitusjoner og forskerne var heller ikke feil, etatene skal jo samarbeide istedenfor å dobbeltarbeide. Databaser er en viktig og verdifull ressurs som bør deles. Noen vil kanskje kritisere at data ble solgt, men forskeren Sweeney fikk tak i dem uten å betale. Hadde data virkelig vært de-identifisert, hadde det ikke vært annet enn godord å få.

Farlig kombinasjon

Og her ligger hunden begravet i denne historien (som er hentet fra boken "Blown to bits" som jeg har skrytt av før). Vi lever i en tid der enorme mengder med datakilder og dataansamlinger finns tilgjengelig. Hver enkelt samling er uskyldig og uproblematisk i seg selv – det er kombinasjonen som kan skape uante muligheter for nysgjerrigper eller andre skumle typer.

P.S. Mens jeg skriver denne spalten, detter det inn en kommentar i min pc fra Digi om Skattedirektoratet som sendte ut en cd-plate med nesten fire millioner fødselsnumre, klare til å misbrukes. Det var en feiltagelse – men den private sfæren er truet fra mange kanter.

hidas@online.no

Les om: