Uhemmet samlemani av data

Uhemmet samlemani av data

KOMMENTAR: Alle har oppdaget at arkivering ikke har noen grenser.

Det finansielle universet skjelver på grunn av mislighold med strukturerte produkter og uhemmet låneopptak av stater. Det digitale universet vokser vilt. Det synes å leve sitt eget liv uten å ta hensyn til en finansiell virkelighet.

Det er underholdning som først og fremst skaper den eksplosive veksten, som var 62 prosent i 2009. Totalt 800 milliarder GB data var arkivert. Det tilsvarer en stabel med dvd-er som rekker opp til månen og tilbake til jorden.

Film, radio, tale, trykk, tv og video digitaliseres. Det skaper store utfordringer for teleindustrien. Det skaper store sikkerhetsutfordringer. Det skaper helt nye muligheter for offentlige forordninger. Personvern blir viktigere enn noensinne.

Norske myndigheter er helt sikre. De vil innføre et direktiv som krever digital oppbevaring, en oppbevaring som de ikke vil betale for, som de arkiverte skal betale for. Da gjelder det å ha gode søkeverktøy. Kanskje får de tak i noen skurker ekstra, ved å samle, oppbevare og analysere data.

Båndbredde og sikkerhet

Samlemani har mange. Forståelse for arkivering har få. Vi liker å ta vare på. Det kan hende at vi får bruk for det, men å finne det vi leter etter er ikke enkelt. Og skal vi tro analyseselskapet IDC, som har studert den digitale arkiveringsutviklingen, så vil vi kreve helt nye søkeverktøy. Det skyldes det enorme arkivet verden bygger opp i løpet av dette tiåret.

GB har vi lært å forholde oss til. TB som er 1.000 GB, begynner vi å venne oss til, men PB, EB og ZB er eksotiske, unntatt for de som jobber med arkivering. Ifølge IDC vil vi i 2020 ha arkivert 35 ZB som tilsvarer 35 milliarder TB.

Det er først og fremst forbrukernes nytte av sosiale verktøy koblet med den digitale mediaindustrien som driver lagringsveksten. De sosiale verktøyene på internettet brukes mer og mer, etter hvert også i bedriftssammenheng. Det krever regelverk for bruk.

Det medfører at større og større volumer av data er på vandring, særlig til den nye generasjonen av avanserte brukerhjelpemidler vi bærer med oss. Det setter store krav til båndbredde og sikkerhet.

Nye verktøy

Aftenposten har digitalisert 150 år med aviser. NRK overførte 1.000 TB fra vinter-OL til brukere av nett-tv. Konsekvensen er at fremvisning av film, tekst og video får en helt ny dimensjon. Kontinuerlig forbruk fremfor et fåtalls visninger.

Dette er eksempler på data som ikke er strukturerte. De krever helt nye verktøy som utnytter data om det arkiverte for å oppnå effektiv søking.

Beskrivelsesdata eller metadata, det vil si strukturerte data som beskriver og klassifiserer det arkiverte, må plukkes ut og lagres sammen med de ustrukturerte dataene.

Ansatte må lære seg å forstå hvilke stikkord som er viktige og utnytte verktøy som sørger for å skape metadata. Derfor er beskrivelsesdata den kategorien data som vokser raskest.

44x

I 2020 skal vi ha arkivert 44 ganger mer enn ved utgangen av 2009 om analytikerne får rett. Enda verre er det at antall arkiver øker med en faktor på nærmere 70. Veldig mange filer blir mindre.

Budsjettene for arkivering vil ikke bli økt tilsvarende. Antall ansatte for å ta seg av dataene vil ikke øke. Det gjør at fagfolkene trenger ny kompetanse om arkiveringsnivåer, sikring og prioritering av data.

Teknologien vil ta seg av mye, men virksomhetene må finne seg nye måter å administrere deler av dataene. Store deler av lagringsmengden vil derfor befinne seg i nettskyen. Mer enn halvparten av skyens data vil kunne beskrives som underholdning.

Utfordringen blir derfor å redusere lagringskostnadene samtidig som nødvendige sikringstiltak sørger for at data ikke går tapt. Det har liten verdi å øke det arkiverte materialet hvis ikke det er mulig å dra nytte av innholdet.

Derfor vil unødvendige kopier bli ettersøkt mer og mer. Ekstra data skal kun lagres for sikring og for ytelse. Deduplisering på alle nivåer må til for å kvitte seg med inntil 75 prosent av dataene som er kopier.

Administrasjon vil bli en hodepine. Det gjelder både databasene og kunnskapsarkivene. Automatisering av arkiveringen vil bli helt nødvendig, men kunnskap mangler. Bibliotekaryrket trenger en oppfrisking med hensyn til digital arkivering. Målet er å bidra til konsernenes store digitale bibliotek.