De kronglete dataene

Datamengdene bare vokser. Datavariasjonen bare øker. Behovstidspunktene for data forandrer seg. Analyse må mer og mer bidra til å fremskaffe informasjon, men da må data tilrettelegges.

Publisert Sist oppdatert

Ingen snakker lenger om MB, megabyte. Gigabyte er en betegnelse som nå forbindes med lagringen på nettbrett, pc-er og smarttelefoner. Forbrukere har vent seg til terabyte. Tilbudet nå er 1 TB, 3 TB og 4TB med et prisnivå på fra 700 – 1.400 kroner. Slike platelagre benyttes som ekstra arkiv for arkivering av bilder, låter og videoer. Prisene er dramatisk lavere enn for få år siden.

Pøser på

Virksomhetene bare pøser på med lagring ved behov. Har man 100 TB er det få som setter spørsmålstegn ved å anskaffe 10 TB til.

Vi lagrer rundt en million ganger mer enn for 25 år siden. Det blir en utfordring for driftsmønsteret. En lagringsadministrator må hele tiden klare administrere mer kapasitet. Kapasitet for applikasjoner og ytelse for applikasjoner har blitt komplisert. For en enkelt applikasjon kan det virke oversiktlig. For veldig mange applikasjoner som jobber samtidig, blir det komplekst.

Den enkle, men brutale løsningen er å kjøpe mer av alt for å håndtere kapasitetsproblemer. Denne problemstillingen med for dårlig ytelse er lite kjent hos kunder, men fagfolk som jobber med virtuelle maskiner forstår behovet.

Dalagringsprodusentene er i ferd med å forstå behovet. IBM har satt opp en rekke kompetansesentre for å forstå hvordan lagringssystemene kan forbedres med ny teknologi. EMC har analysert bruksmønstre for applikasjoner på forskjellige tidspunkter. Data og ytelsesbehovet varierte avhengig av tidspunkt på året.

- Vi kan gjøre en analyse av alt som skjer i lagringsskapet, hvor vi finner maksimalt og gjennomsnittlig IO og hva som skjer 95 prosent av tiden, sier Jørn Malsten, rådgivende systemingeniør i EMC.

Det er en lastanalyse av lagringssystemet som varer en uke for å finne alt som skjer.

Brudd

- Vi kan ikke lenger håndtere vekst på normal måte med gradvis økning. Vi må få til et brudd, sier David Goulden konserndirektør og operativ leder i EMC.

Derfor er EMCs nye mantra å få til omkalfatring av lagringsytelse. Det skal gjøres ved å kombinere tre teknologier, programvare i form av virtualisering, Intels prosessorteknologi med åtte kjerner og bruk av flash for å øke hastigheten.

Slagordet er blitt “Speed to Leed”. Samarbeidspartner er derfor Lotus Renault med deres Formel 1 racerbiler. Det nye lagringssystemet VNX5400 vil lagre alle beregningsdataene for å forbedre racerbilene i 2014.

- For et race med en rundetid på 90 sekunder skal databearbeiding hjelpe oss å kutte tiden med to sekunder i året. Det har vært en utfordring at data ikke har vært der raskt nok. Vi ønsker å gjøre analyse i Real Time, sier Graeme Hackland, it-direktør i Lotus Formula 1.

Målet til EMC er å oppnå én million inn/ut-operasjoner, IO, per sekund. Om noen år skal det bli fire millioner, men foreløpig er det få som kan vise til store tall. HDS har testet sitt største lagringssystem med standardtesten SPC-1 (Storage Performance Council) og oppnådd 600.000 transaksjoner per sekund. Dette system som er på over 1.000 TB har en kostnad på 1,7 millioner dollar.

- Vi har vært opptatt av IO per sekund. Vi har vært opptatt av GB per krone. I fremtiden må vi være mer opptatt av IO per krone, sier Lars Nordbryhn, it-arkitekt i IBM.

Traust

Men mye i Norge er fortsatt traust. Små bedrifter ser på muligheten av å benytte nettverkstilkoblete lagringssystemer for fil til en brøkdel av prisen av de kjente produsentenes lagringssystemer. Et minste lagringssystem koster rundt 50.000 kroner. Et praktisk nyttbart lagringssystem koster gjerne det dobbelte.

Alle de kjente produsentene har sine alternativer. De er relativt like gode, bare ny funksjonalitet vil kunne skille. Derfor har Hewlett-packard besluttet å avslutte leveransen av EVA (Enterprise Virtual Array) fra neste år.

- EVA har vært en suksess i Norge. Vi har levert 1.500 systemer. Fra desember tar 3PAR 7000 over for EVA, sier Arild Saghagen, senior produktsjef for lagring i Hewlett-Packard.

Flyttingen av data fra EVA til 3PAR er elegant. Selv om det nye systemet ikke har noen data forutsetter datamaskinene at dataene ligger på 3PAR. Er de ikke der hentes de fra EVA inntil alle dataene er flyttet over.

Men Hewlett-Packard har stor sans for alternativer. Hewlett Packard er verdens neste største leverandør av lagring på grunn av platelagre i datamaskiner. Med sin programvare fra Left Hand, Store Virtual, kan platelagrene i to datamaskiner kombineres til ett lagringssystem, helt i tråd med om programvaredefinert lagring.

Om to år er det kanskje Vmware som er den lagringsleverandøren alle skal utfordre på grunn av sin strategi om virtualiseringbav datamaskiner, nettverk og lagring. Bygging av lagringskabinetter med flash og roterende platelagre kan settes bort.

Pris

For drøye tretti år siden kostet det å leie lagring fra 22.000 til 38.000 kroner per GB fra en norsk datasentral. Lagringsspesialisten Proact kan tilby lagring som en tjeneste til 1,5 kroner per GB per måned.

I skyen koster det i dag nærmest ingen ting å lagre noen få GB, men større kapasitet koster på grunn av kostnader for nettverket, tilgang til data, kopiering og egen og ekstern administrasjon. Ifølge EMC har prisreduksjonen for lagring de siste årene vært på 22 prosent mens reduksjonen av lagringsprisene til Amazon har vært mellom ni og nitten prosent, med lavest reduksjon for de største volumene.

Analysefirmaet Gartner fremholder at virksomheter som er fristet av rimelig skylagring må se på totalkostnadene. Ledende skyleverandører på lagring må først tilby lagring, sikkerhet og evne til å håndtere feilsituasjoner. Dernest er det overføringstjenester, pålitelig service, enkel administrasjon og verdiøkende tjenester.

Nesten alltid er det raskere å overføre en virksomhets, divisjons eller en bedrifts data ved fysisk å flytte lagringskabinetter enn via teleforbindelser. Mørk fiber mellom kunde og skyleverandør er sjelden. Dermed er kunden avhengig av teletilbudet i markedet hvor 10 Gbit per sekund fortsatt er meget raskt for overføring.

- Prisreduksjonen er på mer enn 99,99 prosent, sier Eirik Pedersen, administrerende direktør i Proact.

For prisreduksjonen har vært dramatisk, nærmere hundre prosent. Veksten i lagrete data har vært dramatisk, mye mer enn hundre prosent. Vi tar vare på alt. Det har vi gjort i minst 20 år. Eneste grunn til at vi ikke har arkivert alt er på grunn av teknologibytte. Da har det ofte gått tapt data.

Magnetbånd

Tidligere ble magnetbånd brukt til å ta vare på data. Beredskapssikring ble alltid gjort på magnetbånd som deretter ble flyttet til et sikkert sted. Det var den gang kopieringen kunne skje uten at det ble lagret nye data mens sikkerhetskopieringen pågikk. Den gangen var lagringskapasiteten i gigabyte. Nå er kapasiteten på et bånd mer enn én terabyte avhengig av generasjon. Båndutviklingen har ikke stått stille.

- Alle med lagring på mer enn 50 TB bruker tape, hevder Otto Lauritsen, lagringsspesialist i IBM.

Tiden sikkerhetskopieringen pågikk ble betegnet ”Backup-vindu” og målt i timer, ofte seks til tolv timer. I dag er det utenkelig. Nå må data minimum dubleres for beredskapssikring. Nå må sofistikerte rutiner benyttes for å sikre data i tilfelle et totalhavari i datarommet. Det er ikke sikkerhetskopieringen som er utfordring, men gjenskapningen av ødelagte data ved et havari. Det bidrar til behov for ekstra lagringskapasitet.

Nå er det nærmest bare tjenesteleverandører og firmaer med et bevisst forhold til data som benytter magnetbånd. Et eksempel er Universitetet i Oslo som har et båndarkiv på rundt 4 PB (4.000 TB).

Dagens magnetbåndtilbud består stort sett av tre forskjellige båndtyper Hewlett-Packard og IBMs LTO, IBMs Jaguar og Oracles Storagetek T2. Sistnevnte er akkurat oppgradert til 8,5 TB med en overføringshastighet på 252 MB per sekund. Jaguar lagrer 4 TB og overfører 250 MB per sekund mens LTO (Linear Tape Open) lagrer 2,5 TB med en kapasitet på 160 MB per sekund.

Av disse alternativene er det mange it-produsenter som tilbyr LTO som er en bransjestandard. Både Jaguar og Storagetek T2 er kostbare, men datasentraler og store kunder forstår verdien av å benytte magnetbånd, spesielt for langtidsarkivering. Oljedata fra seismiske undersøkelser lagres på Jaguar. Nasjonalbiblioteket benytter T2.

Fjerner ikke

- Vi spurte tretti deltagere på seminaret vårt om de hadde noen plan for å kvitte seg med lagrede data. Samtlige svarte nei, sier Peter Sjöberg, teknologidirektør for fil og innhold i Hitachi Data Systems.

Konsekvensen av prisreduksjonen er at data akkumuleres som aldri før. I mange år har norske bedrifter hatt et forhold til terabyte. De største har også et forhold til petabyte. Men foreløpig er norske lagringsvolumer relativt små. De fleste norske datavarehus er noen terabyte eller enda mindre.

- 60 prosent av virksomhetene har under én terabyte med BI-data, påpeker Martin Lam, fagleder for datavarehus i Capgemini.

Vi har ikke et forhold til exabyte, EB. Det tilsvarer én million terabyte. Vi begynner å få et forhold til PB, petabyte. Mange virksomheter i Norge har mer enn én petabyte med data lagret.

Utfordringen er å finne frem i de store lagringsmengdene. Det krever ny tilnærming. Svaret er enkelt, jobben er ikke triviell. Det må bygges opp metadata som kan benyttes for å finne de dataene som bidra til det informasjonsgrunnlaget man søker. Hensikten er at data skal kunne letes frem fra et hvert bruker verktøy.

- Vi må starte med lagringssystemet og legge til løsninger som forstår hva dataene beskriver, det vil si innholdet, forklarer Peter Sjöberg.

Store tall

Ifølge IDC ble det installert 20 exabyte i lagringssystemer og åtte exabyte internt i fellesmaskiner i 2012. Dette forventes å øke til 102 exabyte ekstern lagring i 2017 og 36 exabyte i datamaskiner, hvorav mange vil tilhøre kategorien integrerte (konvergerte) systemer med datamaskiner, nettverk og lagring i ett eller flere skap.

Eneste grunn til at det ikke finnes planer for fjerning av data er prisutviklingen. Et dobbelt så stort platelager koster ikke det dobbelte. Det er en av grunnene til at omsetningen på lagringssystemer i verden går ned selv om volumet stadig stiger.

Det tok 20 år å arkivere én Exabyte med data. Det skjedde i 2005. I 2010 tok det ett år å lagre én Exabyte. I 2011 ble så mye data lagret i fjerde kvartal. I 2013 ble én Exabyte solgt i løpet av juni ifølge EMC.

Analysefirmaet IDC har gjort en analyse av hva som vil bli lagret i 2020. Den opprinnelige kalkylen var på 25 Zetabyte. Nå er den justert oppover til 40 Zetabyte. Én Zetabyte tilsvarer tusen exabyte, en million petabyte eller én milliard terabyte.

Like fullt står omsetningen stille. Ifølge analyseselskapet IDC har omsetningen på verdensbasis gått tilbake 0,8 prosent for andre kvartal i år i forhold til andre kvartal i 2012 og 0,9 prosent tilsvarende for første kvartal. I fjor endret veksten seg fra 8,0 prosent i første kvartal til 6,7 prosent i andre, 3,6 prosent i tredje og 1,9 prosent i fjerde kvartal i forhold til 2011.

Omsetningen var 6,0 milliarder dollar i fjerde kvartal 2012, 5,91 milliarder dollar i første kvartal 2013 og 5,9 milliarder dollar i andre kvartal. Omsetningen gjelder for eksterne lagringssystemer. Den totale lagringsomsetningen i andre kvartal var ifølge IDC på 7,7 milliarder dollar. Det inkluderer lagring i fellesmaskiner, men ikke i nettbrett, pc-er, spillmaskiner og smarttelefoner.

EMC er overlegent verdens største lagringsleverandør med over 30 prosent av nettverkstilkoblet lagring og fortsatt størst om lagring i datamaskiner også telles med. EMC fakturerte over syv prosent mer enn nest største leverandør Hewlett-Packard. Kun EMC og Netapp har hatt fremgang. Netapp er nest størst på lagringssystemer fulgt av IBM, Hewlett-Packard, Dell og Hitachi. Fujitsu og Oracle kommer i kategorien andre.

Optimalisert

Inntil for et par år siden var det et spørsmål om å utnytte platelagrene best mulig. De raskeste platelagrene med 15.000 omdreininger per minutt ble brukt til de mest krevende oppgavene som eksempelvis databaser. Dernest ble litt større platelagre med 10.000 omdreininger brukt for generelle oppgaver mens store platelagre på 3 TB og 7.200 omdreininger ble brukt til data som ikke skulle leses hyppig.

Utfordringen var å plassere data på riktig platelager for å oppnå mest mulig optimalisert lagring til lavest kostnad. Automatisk flytting (Tiering) skulle sørge for optimaliseringen. Utfordringen er at det som er aktivt i dag ikke nødvendigvis er aktivt i morgen. Den automatiske flyttingen har dermed hatt begrenset verdi.

For to år siden ble flash for alvor sett på som en redning. Den ble pakket som et platelager og dermed kalt SSD (Solid State Disk). Det ga en dramatisk ytelsesforbedring til en høy kostnad, men nå har prisene blitt lavere og mer enn én flashteknologi benyttes, SLC (Single Level Cells) og MLC (Multi Level Cells). Kombinasjonen av disse for lagringsoppgaver gir spennende muligheter.

- Litt flash kan benyttes veldig effektivt, sier Rich Napolitano, konserndirektør for VNX i EMC.

Det gjelder å finne det optimale forholdet. Det er derfor EMC gjør lagringsstudier. Det er derfor IBM har bygget egne kompetansesentre. Derfor vil det blitt gjort mye studier for å korte ned svartiden fra virtuelle datamaskiner.

- Ti prosent av dataene benytter 90 prosent av IO-kapasiteten, sier Lars Nordbryhn.

En praktisk tommelfingerregel er at det optimale forholdet mellom SSD og platelagre er fem prosent SSD (flash) og 95 prosent platelagre. I noen tilfelle kan man da bare benytte 3,5 tommers kapasitetslagre på 4 TB. I andre tilfeller benyttes også platelagerhyller med 2,5 tommers platelagre med 10.000 omdreininger. De raskeste platelagrene vil langsomt forsvinne. Deres fortrinn kompenseres av SSD.

I tilfelle med bruk av fem prosent SSD, benyttes den mest kostbare og raskeste flash-teknologien med lagringsenheter på typisk 400 GB. I tillegg bygges det nå platelagre på 1,6 TB basert på MLC-flash.

IBM har etter oppkjøpet av Texas Memory som var pioner på bruk av SSD, utviklet IBM Flash som kobles sammen med virtualiseringsfunksjonen SVC.

- Med Flash har vi mer enn halvert tiden til data , forklarer Lars Nordbryhn.

Målet er å effektivisere bruken av datamaskinene slik at det kan benyttes færre fysiske maskiner og dermed redusere kostnadene for programvarelisenser. Ideen er at hvis den fysiske fellesmaskinen venter mindre på IO, det vil si les og skriv av data, kan den håndtere flere applikasjoner.

Ett miljø

Netapp har alltid jobbet med ett lagringsoperativsystem, Data Ontap, som alle lagringssystemene er bygget opp rundt, opprinnelig et filoperativsystem tilpasset behovet for å dele data i blokker for å kunne effektivisere eksempelvis databaser. For å oppnå større kapasitet har operativsystemet blitt tilpasset lagringsklynger, for høyere ytelse to nivåer for bruk av flash.

- Data Ontap er det største lagringssystemet i verden i omsetning og volum, fremhever Henrik Vaage, administrerende direktør i Netapp.

At EMC er større skyldes at de har minst seks forskjellige lagringssystemer for spesialiserte forhold. Nevnes kan VNX, Vmax, Atmos, Isilon, Greenplum, Centerra, Datadomain og det kommende Nile som blir et programvaredefinert lagringssytem.

Netapps idé er at flash skal brukes på tre nivåer som akselerering i datamaskinen, og i lagringssystemet som cache for kun å lese data og som pool for rask les og skriv til platelagre.

- Vi skriver alltid data på disk. Der ligger de fast. Tiering gjør vi i flash, forklarer systemingeniør Tom Danielsen i Netapp.

Ideen er å legge data ved skriv i den raskeste cachen og forskyve den i Cachen avhengig av bruksfrekvens. De mest brukte dataene i øyeblikket ligger i Cachen med høyest ytelse.

Tilsvarende jobber Dell med sitt mest avanserte lagringssystem Compellent. Store flash lagringssystemer benyttes for å lese data, mindre og raskere flash benyttes for skriving av data.