- Big Data har personvern-slagside

- Big Data har personvern-slagside

"Store Data" gir nye muligheter, men også nye utfordringer. Datatilsynet har det som en hovedretning i 2013.

- Det snakkes mye om Big Data for tiden. Ny teknologi er ikke automatisk en trussel for personvernet, men vi ser på Big Data med personvernbriller, sier Bjørn Erik Thon, direktør i Datatilsynet.

I sitt nylige internseminar satte tilsynet Big Data som en av hovedprioriteringene for 2013. Ansamlingen og analysen av store mengder data, som Big Data innebærer, gir nye og spennende muligheter. Men det kommer samtidig med skjær i sjøen fra et personvernsperspektiv. Datatilsynet er blant de første av europeiske tilsyn til å sette temaet høyt på agendaen - det er viktig å se på det tidlig, mener Thon.

- Det er ingen tvil om at Big Data kan brukes til gode enkeltformål, men det kan ha en slagside mot personvernet, påpeker Catharina Nes, seniorrådgiver i tilsynet.

Big Bucks

Datamengden vokser i rakettfart. Den globale datamengden øker nesten 40 prosent i året. 90 prosent av verdens data er generert de to siste årene. I dag er 99 prosent av verdens data digitale data. Alle disse dataene vil i Big Data-trenden knas på jakt etter mønstre.

- Det har litt sånn Science Fiction, Minority Report-anslag. Hva kan dataene brukes til, og hva slags konsekvenser kan det få for oss som enkeltindivider? Mange synes det er fascinerende tema, det kan endre livene våres fremvoer. En tsunami av informasjon velter over oss, sier Nes.

Rett nok produseres det mye informasjon hos de store kjente, slik som Facebook, Google, Yahoo og Youtube. Men Nes påpeker at vi daglig legger fra oss mange data andre steder. «Digitalt eksos», som hun kaller det. Enten man surfer internett, tar en telefon, kjører bil, drar visakortet eller slapper av i sofaen. Vi snakker ikke bare menneske-til-menneske-kommunikasjon eller menneske-til-maskin-kommunikasjon. Maskin-til-maskin-kommunikasjon kommer også peisende for full, ja, maskin, nå som tingenes internett med smartstrømmålere og det ene med det andre er i fremmarsj.

Og her er det penger å tjene når maskiner på null komma svisj plutselig kan analysere det hele og se sammenhenger mennesket ikke selv har klart å oppdage med det blotte øye.

- Big Data er Big Business, det er store penger. Data er den nye oljen. Det er det vi skal leve av i fremtiden, påepeker Nes.

Motsigelse

Det sies fra mange hold at data som havner i store ansamlinger er anoonumiserte og aggregerte, der man ser trender og mønster på et høyere nivå. Men hvor anonyme er dataene egentlig?, undrer Nes. Er det kun navn og adresse som er fjernet, slik at ip og unikt brukernummer fortsatt ligger igjen? Og uansett; er det virkelig ikke mulig å identifisre folk utfra mønstrene som ligger i dataene? Forskere har i alle fall ved å krysskoble sett med anonyme data nettopp klart å identifisere unike brukere. I USA har det vært rettsak mot Netflix med rot i denne problemstillingen.

For det er motsetninger, påpeker Nes. Data er i stor grad personopplysninger, og en av personvernets grunnpilarer er at dataene kun skal brukes til et bestmt formål. En annen personvernstanke er dataminimalisering - det skal ikke lagres mer data enn nødvendig, og de skal slettes når formålet er oppnådd.

- Big Data er jo selve antitesen til disse to prinsippene, det handler om datamaksimalisering og bruk av data til nye formål. Det er der litt av kjernen ligger i slagsiden mot personvernet, sier Nes.

- Veldig mye av Big Data vil ikke ha noen risiko, men det er likevel ikke noen tvil om at det er en slagside mot personvernet.

Creepyness-faktor

Big Data skaper en ubalanse i forholdet mellom virksomhet og individ, mener hun. Hvem vet hva om meg og deg? Det finnes bedrifter du trolig aldri har hørt om som sitter på store datasett om nettopp deg. Og virksomheter er dessuten ofte lite villige til å gi innsyn i hvilke opplysninger som er samlet inn. Sir Tim Berners-Lee, ansett som nettets far, sa det fra sin synsvinkel i The Guardian litt tidligere i år; «One of the issues with social networking silos is that they have the data, and I don't».

En tredje utfordring er det Nes kalles «creepyness-faktoren». Profilering kan skape ubehag. Prediktiv analyse, altså sammensetting av personopplysninger fra mange kilder, kan generere ny kunnskap om enkeltpersoner.

- Det kan være kunnskap du kanskje ikke har lyst til skal være kjent. Sensitiv info som vi ikke kjenner til, som konkluderer med at du har Parkinsons eller Diabetes. Kanskje du ikke visste det selv, eller kanskje du ikke vil at noen skal vite det. Det er viktig å utvise ekstrem varsomhet når sensitive data analyseres. Vi ønsker å ha kontroll over hva andre vet og ikke vet om oss.

Et eksempel hentet fra USA: En målrettet annonsekampanje fant ut at tenåringsdatteren var gravid før faren visste det. Faren skjønte det da de plutselig fikk rabatt-kuponger på graviditetsrelaterte produkter i posten. Hvem vet, kanksje ikke en gang datteren selv visste hun var gravid? Nes påpeker også at en annen utfordring med denne type profilering basert på algoritmer, er at det kan forsterke fordommer og skape diskriminering. De med riktig profil får kanskje forrang. Det kan føre til diskrimingering i arbeidsliv, i forskringsavtaler, sågar innen bank.

Legger press

Ikke minst peker hun på ekkokamre; Google viser deg fortrinnsvis info som bekrefter dine egne standpunkt. Søkesvarene harmoniserer med din profil.

Les også: Aslaks Røyklegging - Ekkokammeret Google

- Det er i alle fall en demokratisk utfordring, om ikke en personvernutfordring, sier seniorrådgiveren.

Og vil vi våge å ytre oss like fritt når vi vet at alt vi legger fra oss kan bli sammenstilt og brukt mot oss i fremtiden?

- Tap av kontroll over egne personopplysninger kan i verste fall ha en nedkjølende effekt på ytringsfriheten, sier Nes.

Thon tror det vil skape press på dagens praksis. Historiske data blir viktige i en maskingenerert totalanalyse.

- Big Data vil nok legge press på at ting lagres lengre, og det er ikke en god ting fra et personvernhensyn. Ikke minst fordi data vil kunne analyseres bedre om 3-5 år, påpeker han.

Han er også bekymret for sammenkobling av data.

- En grunntanke i personvern er at opplysninger gitt til ett formål, for eksempel passeringer i bompengeringen, ikke skal brukes til et annet formål. Går jeg til legen, gjør jeg det for å bli frisk, ikke for at dataene skal sammenstilles med andre data og analyseres.

Har også fordeler

Men Big Data kommer også med spennened, nye muligheter. IBMs Jeopardy-konge Watson er et eksempel. IBMs Business Intelligence-talent Christopher Konradi mener Watson på sett og vis markerer det store startskuddet for Big Data.

- Watson er blant de blant de første praktiske eksemplene på Big Data, sier han, og legger hastig til at han dog muligens har blitt litt blåfarget av IBM.

For Watson driver ikke med søk, som Google. Watson kobler sammenhenger på en helt annen måte. Det begynte i det små. Først lærte Watson tall. 1 er et ett-tall. Det betyr én. Det kan også skrives i andre fonter og fortsatt være et ettall. 2 er et totall, det betyr 2, ikke én. Men sammenstilt med én kan det bety 12 eller 21, 1.2 eller 2.1. Slik er en A. Den kan også skrive a, og finnes også i ulike fonter, ja til og med i tegnspråkvarianter. Den ligner også på @, men da betyr den noe annet.

Hakk etter hakk lærte Watson mye om sammenhenger, og ble foret med 17 GB data fra Wikipedia, 2 GB data fra Time Magazine, 7,4 GB fra New York Times, 300 MB fra Microsoft Encarta, 10 MB fra IBMs ordbok, 113 MB fra Oxford Dictionary, 100 MB fra IMDB. Et «pool» kan være et svømmebasseng, men også for eksempel biljard. Informasjonen ble lager i separate datapakker, og fremveksten av disse kan interessant nok sammnelignes med hjern; hjernecellene er lite nyttige hver for seg, men sunapsene, altså koblingene, er nettverket som fører til tanker. Til slutt gikk Watson ut i konkurranse mot de to største Jeopardy-kongene i USA - og vant.

- Så satt på spissen trenger man altså totalt 70 GB for å svare på alle spørsmål i verden, sier Konradi.

- Maskinen får etter hvert grader av sannhet, i stedet for enten sannhet eller usannhet.

Maskinen skal nå ut i blant annet helsesektoren for å overprøve leger og kanskje løse kreftgåten, og ut i offentlig sektor, for eksempel for å ligge i forkant av kriminaliteten. Minority Report-aktig, kan man vel si. Det finnes også norske kunder som snuser på stormaskinen, kan Konradi avsløre. Den programmerbare maskinen er i ferd med å dø, kognitive maskiner er på vei inn.

- Big Data er nå, sier Konradi.

Obama vs. Romney

Konradi, Thon og Nes snakket om temaet Big Data i et minglingsseminar hos Datatilsynet. Det gjorde også Bente Kalsnes, som for tiden skriver en doktorgradsoppgave som blant annet handler om Big Data som politisk kampanjeverktøy, hvor hun særlig ser mot USA og siste valgkamper der Obama har ligget i krigføring mot Romney i sosiale medier.

De bruker for eksempel Big Data til å finne ut hvilke dører kampanjemedarbeiderne skal prioritere å banke på.

- Å banke på dører er utrolig viktig. Det handler om å treffe de kandidatene som er litt på ippen og som ikke helt har bestemt seg, og å finne ut hvor de bor i vippestatene, sier hun.

Selv var hun registrert i Obamas Dashboard-app for valgkamp, som har avstedkommet ganske mye meldinger fra Obamas kampanjefolk. Karsnes tror datamaskinene må ha klart å finne ut at hun ikke bor i USA, men at hun har flere bekjente i landet, for meldingene hun har fått har stort sett bestått i noe a lá «Bente. Remember to get your friends to vote. 64 people named Bente has allready voted. Remember to ask Ignatius Hus, Mindu Glover and Bryan Harwood to vote.»

Appene i seg selv henter ut mye data, slik som geolokalisering for eksempel. Men kampanjekontorene sitter også på mye data. Masse forbrukerdata, for eksempel er det en del matvaner som er koblet mot politisk preferanse, det samme med bil. De vet at republikanere som kjører Jaguar definitivt kommer og stemmer, og at det samme kan sies for demokrater som kjører Plymouth. Hvis du rikker Virginia Light er du på vippen, om du drikker Samuel Adams er du republikaner. Man vet lite om hvordan disse databasene er sammenkoblet.

- Vi ser det er mye hemmelighold rundt måten de gjør dette på. Vi ser de henter inn teknologer, statistikere og analytikere som eksperter til å drive valgkamp. Vi ser også hemmelighold rundt hvordan de håndterer data, sier Kalsnes.

- Dataene som er samlet inn er kjempeverdifulle.

Norge, 2013

Hun undrer seg om hvordan det kommer til å se ut i Norge i 2013.

- Sånt skjer her til lands og. Man vet at FRP-velgere sjeldent eller aldri spiser etnisk mat, mens KRF-velgere aldri bestiller hjemkjørt pizza. Det blir et Sushi-valg, sier hun, men samtidig:

- I Europa og Norge er det en annen type lovgivning, så det kan være man aldri kan gjøre sånt her. Så jeg lurer på hva vi kan vente oss i 2013.

Kalsnes håper bare det ikke kommer til dette punktet: