Vannstanden stiger i datahavet

Vannstanden stiger i datahavet

KRONIKK: Ingen bryr seg om å rydde og fjerne data. Hvor skal dette ende?

Vi skaper eller henter fra nettet stadig mer data og ferdigbehandlet informasjon, i stadig mer plasskrevende formater. Veksten er uhemmet. Alt sammen blir lagret et eller annet sted – og der blir de liggende. Ingen bryr seg om å rydde og fjerne. Hvor skal dette ende?

Datahavet som vi svømmer i stiger dag for dag. Det stiger raskere enn teknologien utvikler seg. Anslag fra IDC tyder på at det digitalt lagrede volumet, skapt i 2011, vil være ti ganger større enn i 2006. Tidobling på seks år. En av årsakene til den voldsomme veksten er at vi nå lagrer mye mer lyd og bilder. Det er så lett å laste ned data, mye lettere enn å bruke det. Anslagsvis 80 prosent av det lagrede volumet er inaktivt, det vil si at det ikke har vært lest og brukt i løpet av de siste 30 dager. Modellen heter "lagre og glemme". I papirdokumentenes tid utløste de voksende haugene aksjon, noe måtte gjøres. Digitale lagre er usynlige, derfor kan de vokse uhemmet.

Strukturert og ustrukturert

Det er vanlig å skille datahavet i to deler. Den ene er de strukturerte data, typisk i tabeller. Den andre er det vi kaller ustrukturerte data. Det er et litt nedlatende ord. Det vi snakker om er dokumenter som ikke er satt inn i en struktur, de ligger i hauger i servere og pc-er. Epost-meldinger, presentasjoner, statistikker, rapporter fra nær og fjern, videosnutter, lydfiler og mye annet. Ofte mange kopier av det samme. Et samlenavn på alt dette er "innhold" (content).

Den strukturerte delen av datavolumet er den minste, under 20 prosent av totalen. Den er vanligvis under god kontroll selv om kvaliteten kan være så som så. Resten er ustrukturert, og her er veksten ustyrlig. Vi har holdt på med å strukturere data i 40 år, men har nesten ikke sett på hva det krever å få orden på den ustrukturerte 80 prosenten. Den typiske it-avdelingen har alltid vært mest opptatt av de strukturerte data i databaser og datavarehus. Resten har hittil fått seile i sin egen sjø, i beste fall under de individuelle brukernes kontroll.

Er de strukturerte data viktigere enn de ustrukturerte? Ja, fordi de er avgjørende for den daglige driften – kunder, produkter, ordrer, lønninger, regnskaper. Uten databasene stopper bedriften. I forhold til dem blekner betydningen av tusener på tusener av epost-meldinger og hauger av internt og eksternt produserte rapporter. Men sammenligningen er dum, omtrent som å si at lungebetennelse er uten betydning når du har brukket begge beina. Epost blir for eksempel stadig viktigere i forbindelse med bevisføring i rettssaker. Lar vi være å holde meldingshavet i orden, kan det bli risikabelt. Dessuten: Myndighetenes lover og reguleringer, som SOX, blir stadig flere og de kan ikke ignoreres.

Kjøp og glem

Er dette et problem? Er det ikke slik at datalagring koster stadig mindre? Kan vi ikke kjøpe terabytes av lagringsplass for en slikk og ingenting? Vi måker dokumentene inn og glemmer dem etterpå.

Det er et problem, et økende problem. En ting er kostnader til stadig mer utstyr, plass, strøm, driftsoperatører. En annen ting er at dag for dag blir det vanskeligere og mer tidkrevende å finne frem de riktige dokumenter blant alt det som er lagret sentralt og lokalt. Søkemotorer presenterer mengder av like eller nesten like versjoner av et dokument – hvilken er den riktige? Det krever innsats å finne ut.

Du har sikkert forstått hvor jeg vil. Utfordringen er å styre veksten av datavolumet. Holde orden på hva vi skal beholde (og hvor lenge) og hva vi skal kaste. Og kaste det som skal kastes. Ansvaret for dette kan ikke hvile på it-avdelingen, den kan utføre oppgaver som er bestemt av de som "eier" de digitalt lagrede data og dokumenter. Disse er selvfølgelig ledelsen på ulike nivåer. Det er de som må utforme de prinsipper og regelverk som skal gjelde og de prosesser som skal følges. IT kan bidra med verktøy og innsats.

Uoversiktlig

Vi er som vanlig for sent ute, volumene er allerede svære og uoversiktlige. Men situasjonen kommer til å bli verre og verre hvis det ikke blir tatt sentrale grep. For å kunne gjøre noe som monner, må datavolumet klassifiseres ut fra verdi. En ting er sikkert: Alle data er ikke like mye verd. Data er viktige aktiva, de har til dels stor verdi selv om den er vanskelig å kvantifisere.

Vi må peke ut de data som har så høy verdi at det lønner seg å ta godt vare på dem, stelle med dem. Dette er et bedriftsanliggende, ikke noe som de enkelte avdelinger kan håndtere. Det som er uviktig for én kan være viktig for en annen. Også her trengs langsiktig tenkning og planlegging.

Les om: