Kan forske på sikre sensitive data

Verdens første sikre tjeneste for sensitive data kan gi norske forskere muligheter andre bare kan drømme om. Forskerne står i kø for å fortelle om utfordringer de kan løse.

Publisert Sist oppdatert

Den femte mai åpnet Ole Petter Ottersen, rektor ved UiO de nye tjenestene for sensitive data, TSD. Forskningsrådets direktør Arvid Hallén, avdelingsdirektør for Biobanken ved Folkehelseinstituttet Gun Peggy Knudsen og seksjonsleder for IKT ved Oslo Universitetssykehus Sissel Jor, bidro med innlegg om viktigheten av å kunne tilby avanserte it-tjenester for behandlingen av data som skal kunne bidra med innsikt som ikke tidligere har vært mulig.

Høy beskyttelse

- De nye tjenestene og infrastrukturen de bygger på vil gi en høy grad av beskyttelse for sensitive data, sier Ole Petter Ottersen.

For tjenester for sensitive data omfatter avansert datamaskinteknologi, både for bearbeiding og lagring. Avanserte datamaskiner kan mange levere, men totalløsningen er det tvilsomt om noen andre land kan vise maken til. For siden 2009 har Universitetet i Oslo jobbet med lagringsutfordringer og sett behovet for å kunne forske på sensitive data.

- Universitetet i Oslo har veldig fokus på det brukerne vil ha. Med TSD tilbyr vi det forskerne har behov for, hvor vi tar hensyn til Helseregisterloven og Personvernloven. Vi har fått mange henvendelser om forskning som sikrer personvernet og har aldri hatt så mange avtaler før vi er i gang, sier Lars Oftedal, It-direktør ved USIT ved Universitetet i Oslo.

- Vi har veldig sensitive data med innebygget personvern som må tas vare på. Vi håper på et spennende samarbeid mellom Oslo Universitetssykehus og Universitetet i Oslo som gjør oss ledende, sier Sissel Jor, seksjonsleder for IKT ved Oslo Universitetssykehus.

En dedikert datamaskin, Colossus, er startgrunnlaget. Den har tiknyttet et lagringssystem, men det er først og fremst tenkt for bearbeidingsdataene, ikke for langtidslagring. Prosjektene må over tid finansiere sitt behov for langtidslagring.

Ny modell

Forskningsrådets direktør Arvid Hallén var derfor opptatt av at det må lages en ny modell for infrastruktur som også omfatter tjenester for lagring som kan videreføres selv om infrastrukturen fornyes.

- Vi tilbyr alt fra drift og avansert brukerstøtte til spisskompetanse som tjenester for sensitive data, sier Andreas Jaunsen, prosjektleder for Norstore ved Usit på UiO.

Dataene lagres slik at det kan forskes på en sikker måte på datagrunnlaget. Hensikten er at kun betrodde medarbeidere skal få tilgang til kun de dataene de skal jobbe med.

For det er norske personvernregler som legger føringene. Ifølge Universitetet i Oslo, UiO, er Norsk lovs krav til beskyttelse av personopplysninger blant verdens strengeste. Tjenestene som nå tilbys forskningen i Norge oppfyller de lovmessige kravene som gjør dem unike i verdenssammenheng.

- Lovverket er spesielt strengt og forskriftene mange når det gjelder sensitive data. Nylig avgjorde EU-domstolen at Datalagringsdirektivet er ugyldig fordi det er i strid med EUs charter om grunnleggende rettigheter. Det viser at balansen mellom personvern og lagring av sensitive data er vanskelig, sa Ole Petter Ottersen da han erklærte TSD for åpnet.

I mange år har forskere hatt behov for å forske på sensitive data. Bare begrensete forsøk har vært foretatt. Det skyldes delvis at det ikke krever veldig avansert analyse for å identifisere anonymiserte helsedata. Disse dataene må derfor være særlig godt beskyttet om de skal bli forsket på.

Arkivering

I forbindelse med forskning er arkivering av data vesentlig. Sikker arkivering er en forutsetning for TSD. Arkivering har først de senere årene fått betydning. Mye forskning har jobbet på data, men ikke tatt vare på resultatene for eventuelt ny bearbeiding. Eksempelvis er historiske værdata viktig for forskning, men ikke får morgendagens værmelding. Derfor har mye av den avanserte tekniske forskningen i Norge vært utført på tungregnemaskiner uten tanke på verdien av datagrunnlaget for fremtidig bruk.

Først med Norstore, fikk lagring av data sin rettmessige plass. Forståelsen for data har blitt understreket av atomforskningen ved Cern, Conseil européen pour la recherche nucléaire.

Cerns virksomhet er konsentrert rundt kjernefysikk og omfatter verdens største forskningssenter på atomkollisjoner som genererer enorme mengder data. Data overføres til sekundære datasentre og Norstore er et av flere arkiv for arkivering og forskning på kjernefysiske data.

Universitetet i Oslos erfaring med Norstore er en viktig forutsetning for TSD.

På grunn av dataenes sensitive natur har prosjektleder Gard Thomassen vært i kontakt med avdelingsdirektør i Tilsyns og sikkerhetsavdelingen Helge Veum i Datatilsynet. Henvendelsen søkte å oppnå en forståelse for kravene til den tekniske utrustningen med hensyn til bearbeiding av sensitive data.

Datatilsynet fremhever at det er de enkelte forskningsprosjektene som må sørge for nødvendig sikring av de personsensitive dataene. Ett krav er at de skal holdes adskilt.

Store behov

Hjernen gjennom livet er en omfattende forskningsoppgave ved Psykologisk institutt ved Samfunnsvitenskapelig fakultet ved UiO. En forskningsgruppe på 20 personer under ledelse av professor Anders M Fjell studerer livsløpsendringer, hjerne og kognisjon.

Utvalget er rundt 1.000 friske personer fra nyfødte til eldre som følges over tid. Forskningsgruppen studerer risikofaktorer, sykdom og skader. Det benyttes nevropsykologiske og kognitive tester. Magnetisk resonans brukes for avbildning av hjernen, MRI. Videre er det EEG/ERP, PET, CSF biomarkører, genetikk og hjerneskadestudier.

Forskningsgruppen har stort behov for TSD siden datagrunnlaget fra MRI for en person er på noe over 5 GB. Med PET og EEG/ERP øker datagrunnlaget med 3 GB. En grov vurdering for tusen personer tilsier dermed 10 TB.

- MR er veldig bra for å studere hjernen på personer fra fire fem års alderen. Vi må bruke mye regnekraft. Det kreves 60 timer per deltager, sier professor Anders M Fjell.

Snittbildene av hjernen hos personer med forskjellig alder viser klare forandringer. Det gjøres avstandsmålinger mellom hvit materie og grå materie i en tredimensjonal modell av hjernebarken.

Kontraster

Kontrasten mellom hvit og grå materie sier noe om myelin som er et fettaktiv stoff som isolerer nervefibrene slik at disse får sendt signalene bedre.

Håkon Grydelands doktoravhandling handler om hvordan Alzheimers sykdom kan oppdages tidligere ved å studere endringene i myelin.

Det er mye forskning som må gjøres for Alzheimer har bare mennesker, ikke dyr. Alle får den, bare de blir gamle nok. I USA regnes Alzheimer som den tredje største folkesykdommen.

- Vi blåser opp hjernen og legger inn et koordinatsystem, forklarer Anders M Fjell.

Tredimensjonale overflatemodeller benyttes. Vertex er møtepunktet for seks trekanter som får koordinatene x, y og z. Totalt blir det 150.000 trekanter. Hensikten er å måle endringer i barktykkelsen over livsløpet. Det er normalt en årlig reduksjon.

- Kognitive evner endrer seg over livsløpet. Det er en kraftig reduksjon fra 20-årene, forklarer Anders M Fjell.

Trening kan øke tykkelsen på hjernebarken slik at vi husker bedre. Metoden hvor ting plasseres langs en kjent rute slik at det blir et mentalt kart bidrar bedre hukommelse. Andreas Engvik har ledet et studium som omhandler hvordan man kan lære seg opp for å unngå Alzheimer.

Mat og helse

To-fem er kanskje den nyeste varianten for slanking. To dagers lite spising, fem dagers normalt kosthold. For aviser selger på kosthold og slanking. Høy kroppsmasse, BMI, henger sammen med Alzheimers sykdom.

Hva som er sunn mat krever omfattende dokumentasjon med behov for å gjøre befolkningsstudier gjennom mange år.

- Sammenhengen mellom mat og helse er en komplisert problemstilling. Det tar mange år å få sykdommer. Det er ikke mulig å følge mennesker i 30 år. Vi kan derfor bare se på indikatorer, men det er ikke det samme, sier professor Lene Frost Andersen, Institutt for medisinske basalfag ved Det medisinske fakultet ved UiO.

Kostholdet omfatter 25.000 bioaktive stoffer. Koblet med fysisk og passiv aktivitet, røyking, soling, mange livsstilsfaktorer, tilfeldighet i kombinasjon med gensekvens og epigenetikk blir kostholdsforskning en virkelig utfordring. Målet er å forebygge de kroniske folkesykdommene som kreft og hjerte/kar-sykdommer og diabetes.

For det er et omfattende krav til dokumentasjon med mekanistiske studier av celler og forsøksdyr, befolkningsstudier og behandlingsstudier med friske eller syke mennesker. Ønsket er å måle hva vi spiser med hva slags brød, hva slags pålegg, hvordan vi spiser. Det har derfor vært gjort spørreundersøkelser, men papirbaserte undersøkelser synes folk lite interessert i.

Håpet er dagbok på nett med spill som belønning etter å ha fylt ut kostholdsdataene. Siden det er personidentifiserbare data er TSD nødvendig for anonymisering og etterbehandling. Alle som er med på studien må knytte seg opp mot helsenorge.no og logge seg inn med Minid for å unngå juks.

Derfor er samarbeidet med USIT (Universitetets senter for it), både webseksjonen og TSD av stor betydning. I 2015 skal nettløsningen kunne brukes. Håpet er at forskningen skal bli lettere ved kombinere datagrunnlaget med kartoteksdata og biobanker.

Hvordan maten i ungdomstiden påvirker senere helse er av stor interesse, men det krever hyppig måling. Også ernæringsbehandling ved sykdom ønskes det mer data om. Spises det for lite grønnsaker eller for mye.

Storskala dataanalyse

- Det har vært en betydelig reduksjon hjertekarsykdommer og kreft, men ikke for psykiske lidelser, sier Martin Tesli, Norment, KG Jebsen senter for psykoseforskning OUS, UiO.

I 1996 var det for pasienter med schizofreni et gap i forventet levealder på 25 år i forhold til resten av befolkningen. I 2006 var den blitt redusert til 23 år.

Psykiatrien utfordring er at diagnosene er basert på symptomer med lite kunnskap om årsakssammenhenger. Det er ingen blodprøver som viser noe. Det ingen biomarkører.

- Det er veldig mange gener som påvirker sammen, multifaktorielle komplekse tilstander, forklarer Martin Tesli.

Men psykiatrisk forskning er i endring fordi det humane genomet er kartlagt, det er bedre genotyping, utvikling i hjerneavbilding, større kohorter, det vil si gruppe individer med bestemte karakteristika og konsortier og mange årsaksmekanismer. Konsekvensen er behov for lagring av store datavolumer med sensitivt innhold.

KG Jebsen senter for psykoseforskning forsker derfor på antipsykotisk medisinering, psykiatrisk genetikk, hjerneavbilding og prediktorer av utfall. For bipolare lidelser er målet å identifisere hjernefenotyper som forbinder gener med klinisk innleggelse. I Bergen fortas det forskning på hallusinasjoner. Hensikten er å anslå forløp og utfall.

For schizofreni er det 2,5 millioner genotyper per person hvilket tilsvarer 206 milliarder variabler. Behovet for bearbeiding av dataene er enormt. Det er fortsatt for lite kunnskap med stor heterogenitet med et stort spørsmål om hvordan forskning skal oversettes til klinisk nytte.

Startklar

Professor Eivind Hovig ved OUS/UiO og Norsk kreftgenom konsortium sitter startklar og venter på Colossus. Oppgavene ligger klare. Helst skal de bearbeides før 17. mai, men forskningen kan kanskje ikke starte før i slutten av måneden.

- Det er omtrent 27.000 krefttilfeller hvert år i Helse Sør-Øst. Dersom man sekvenserte disse minst en gang og beholdt informasjonen om sekvensene, ville kravene til lagring og prosessering bli ganske krevende, sier Eivind Hovig.

Genomanalyse av kreft har spesielle utfordringer siden det krever en tverrfaglig gruppe med kunnskap innen bioinformatikk, genomteknologi, kreftbiologi, onkologi og patologi. Konsekvensen er felles prosedyrer for samtykke, personvern og kryptering, pasientinformasjon og tilbakemelding til lege og pasient. For klinikere kan ikke noe om gener. Det vet de. Derfor er tverrfaglighet avgjørende.

Oppgaven gjelder DNA-sekvensering av kreftsvulster, en oppgave som på kreftforskningsenteret ved Radiumhospitalet tar syv dager tre timer og 40 minutter på forskningssenterets datamaskin for 16 prøver. Det er alt for lang tid. Derfor er tiltroen stor til parallell bearbeiding og raskere prosessorer.

For forskningen krever at det tas blod og vevsprøve. Denne er en liten klump, så liten at den ikke kan ses, men den kan måles. Ved hjelp av det mest moderne utstyret kuttes DNA-et opp i passelige småbiter for sekvensering. Ikke hele DNA-strengen bearbeides bare genene som utgjør to – tre prosent. Ideelt trengs sekvensering av hele DNA-strengen for forskning.

Kuttes i biter

- DNA-strengen kuttes opp i passelige småbiter for sekvensering hvilket medfører at vi får mange millioner parallelle kjemiske prosesser som kan leses av, forklarer Eivind Hovig.

Sekvensene er på rundt tre hundre bokstaver, kombinasjoner av CATG. Det gjøres gjentagende analyser som sammenlignes med et mindre område på pasientens normale DNA-streng. Hensikten er å få et så riktig bilde av de mange sekvensene for sammenligning.

- Det er endringer i DNA-sekvensen hos svulsten sammenlignet med pasientens normale DNA som gjør at blir en svulst. Den krevende oppgaven er å påvise disse endringene, fremhever Eivind Hovig.

Med 25.000 gener er det ingen leger som kan forholde seg til dette. Derfor er kreftforskning avhengig av beslutningsstøtte. Det tas normalt 100 tumorpar fra prøven, hvilket utgjør 16 TB med data. Tolkningen er kompleks. Over fem år er behovet 800 TB.

Det benyttes ulike metoder i ulike land som dermed gir ulike svar. Derfor er utfordringen at forskjellige team skal finne de samme mutasjonene ved felles datasett, men foreløpig er det for lite av det. Av 14 grupper i verden har de 20 mutasjoner felles.

- Vi driver ikke diagnostikk av kreft. Det gjør kreftlegene. Vi flytter kunnskap mot diagnostikk. Sett fra ett perspektiv vil DNA-sekvensering gi en helt ny dimensjon til kreftdiagnostikk, understreker Eivind Hovig.

Colossus II

Colossus II er datamaskineriet for bearbeiding av sensitive data. Colossus var den tidligere eksperimentmaskinen basert på eldre teknologi.

Verdi: 3,5 millioner kroner

Beregning: 72 Megware prosesseringsnoder hver med to Intel Xeon E5 med 10 prosessorkjerner med 2,5 GHz klokke

Minne: 8 G trans/sek til 64 GB minne per node

Sammenkobling: 4 Mellanox svitsjer med 36 porter for Infiniband på 56 Gb/s

Ytelse: 25 TFLOPS

Minneberegning: to Megware hver med 4 Intel Xeon E5 med 8 prosessorkjerner med 2,7 GHz klokke og 1 TB minne for gensekvensiering

Lagring: kun for bearbeidingen, 4 I/O-noder hver med 64 GB minne og 45 TB, 1 Metadatanode med SSD

Permanent lagring: Anskaffes til hvert prosjekt, vil bli mange PB over tid

Forhistorie: Pilotprosjekt ved USIT 2008 – 2012, åtte brukergrupper, prosjektgruppe 2012 – 2014.

Prosjekt TSD: Brytning mellom brukerkrav og lovkrav, nybrottsarbeid, omfattende, ressurskrevende, over fire årsverk på to år, 25 grupperinger inne på TSD ved lansering.

Tilbud TSD: Virtuell arbeidsplass for forskere med sensitive data, innsamlingsmekanisme med strek autentisering, tungregning, lagring, vertskapsmulighet for biobanker, innenfor lover og forskrifter for sensitive data.