Virksomhetene har blitt datafeite

Virksomhetene har blitt datafeite

KOMMENTAR: På tide å slanke seg. Det gir lavere kostnader og sunn vekst.

Det handler om data, store data. Store data, Big Data, er det nye uttrykket alle større virksomheter må lære seg. Det er store data som virkelig bidrar til den enorme lagringsveksten analyseselskapet IDC har spådd.

Veksten er eksponentiell, det vil si at tilleggsveksten er større og større for hvert år. I 2010 passerte verdens lagrede kapasitet én milliard terabyte. Anslagene er 35 Zettabyte, det vil si 35 milliarder terabyte data innen utgangen av dette tiåret. Det er denne veksten vi må søke å temme før gulvplassen og strømregningen eksploderer.

Eksotiske petabyte

Analytiker Helge Skrivervik har i flere år fremhevet at bedriftene ikke trenger å kjøpe så mye lagringskapasitet, men heller bør rydde i de lagrede dataene. I år er slagordet at bedriftene ikke trenger å kjøpe ett eneste platelager, men foreta en skikkelig slanking ved hjelp av deduplisering som fjerner unødvendige kopier av dataene.

Skriverviks gode forslag til kostnadsreduksjon blir helt sikkert ikke fulgt. Det viser salgsutvikling av lagringsmedia. Innen virksomhetene er den relativt kontrollert, på forbrukersiden er veksten uhemmet. Fem terabyte var for ti år siden noe bare de største norske virksomhetene hadde behov for, fem terabyte er noe arkiveringsinteresserte familier allerede har anskaffet.

Mens terabyte var eksotisk for ti år siden, er petabyte eksotisk i dag. EMC har oppnådd tusen kunder med mer enn én petabyte, men det er fortsatt langt igjen til 35 millioner petabyte, det vil si 35 zettabyte.

Monsterarkiv

Håpet er at IDC tar feil. Så mye data er det usikkert vi klarer å holde oversikt over, men nettskyen forbruker data i et tempo som aldri før. 600 millioner brukere av Facebook legger ut data i et forrykende tempo.

Store data er først og fremst fotografier og videoer. Men også innen forskning og utvikling samles store data. Oljeindustrien arkiverer stadig større volumer. Den norske oljedatabasen DISKOS/Petrobank har samlet data siden 1995 til nytte for alle de konkurrerende oljeselskapene.

Det europeiske atomforskningssenteret Cern har 40 petabyte partikkeldata lagret på magnetbånd. Det vil øke med 25 petabyte hvert år. Det krever en godt gjennomarbeidet plan slik at data ikke går tapt.

Derfor er Oracles nye monsterarkiv interessant. Ti lagringsbiblioteker i ett system, 100.000 båndkassetter, 500 petabyte lagringskapasitet eller én exabyte med komprimering. Cern synes endelig noen har lansert et fremtidsrettet arkiv.

Dedup

Det foregår stadig en kamp om beredskapssikring. De store lagringsleverandørene ønsker å kvitte seg med magnetbånd. Det tar for lang tid å kopiere. De fleste har bare noen timer for arbeidet.

I én bedrift var fjerning av 100 GB nok til at dataene kunne sikkerhetskopieres uten påvirkning på de andre systemene. Oracles nye lagringsbibliotek klarer kopieringen for de aller største i løpet av fire timer, men mindre beredskapssystemer mister interesse på grunn av tidsklemme. Den viktigste grunnen er gjenskapingstiden ved sammenbrudd.

Til tross for terabyte med data er det mulig å gjenskape virksomhetens kritiske data med en fornuftig strategi.

Første steg er slanking ved deduplisering. Tidligere ble deduplisering kjørt som programvare på en datamaskin. Nå vil lagringsleverandørene slanke dataene med spesialmaskiner.

Fortsatt bånd

Symantec som er størst på sikkerhetskopiering, har utviklet fire arkiveringsmaskiner for å slanke unødvendige data. Det krever avansert matematikk for å skape dataenes fingeravtrykk. Like avtrykk fører til at ekstra kopier kan utelates. Derfor må størrelsen på dataene varieres for å undersøke om de allerede er tatt vare på.

EMC har utviklet slankingsprogramvaren Data Domain til en arkivmaskin. Den skal både være en beredskapsmaskin og et langtidsarkiv.

På langtidsarkivering krangles det mellom magnetbånd og platelager. For bedriftskritiske data er platelager veldig bra, for store data er platelager kostbart.

For EMC er magnetbånd utenkelig. Bedriften har kommet i Guinness Book of Records for en 580 kilo magnetbåndball på 18.000 terabyte med en lengde fra London til New York.

Men ti av ti viktige samfunnsinstitusjoner bruker fortsatt bånd for langtidslagring. Da snakker vi om mer enn ti år, gjerne hundre.