Tjukk og kjapp kjempe

Umettelig er et stikkord for både virksomheter og forbrukere. Skal de tilfredsstilles må datauthenting skje mye kjappere.

Publisert Sist oppdatert

Big Data er en naturlig utvikling av internettets forbrukerisering. Fra å være forskernes domene har internettet utviklet seg til virksomhetenes og siden forbrukernes tumleplass.

Den teknologiske utviklingen har bidratt til utviklingen de seneste ti år. Lagringskapasiteten har utviklet seg dramatisk. For 20 år siden var platelagre på 4 GB store. I dag er platelagre på 4 TB store. Samtidig har prisen rast, nærmest til null om man sammenligner med prisene for 30 år siden.

Disse forholdene har bidratt til at vi har lagret mer og mer, ukritisk de seneste ti årene. Det er ikke lenger kompakte forretningskritiske data. Det er alle slags data som strømmer; inn i lagringssystemene, ut til forbrukerne. Det er alle slags meldinger, notater og ytringer.

Roterende platelagre er blitt en utfordring. Ingen forsøker å få de til å rotere fortere enn 15.000 omdreininger per minutt. Det er ikke praktisk mulig. Det gir en tilgangstid på litt over fem millisekunder som tilsvarer 180 les eller skriv per sekund.

Det er mer praktisk å utvide kapasiteten. Hvor store platelagrene kan bli er usikkert, men mer enn 50 TB vil vi nok se i løpet av noen år. At dataene blir lagret loddrett i det magnetiske sjiktet bidrar til økt kapasitet.

Konsekvensen er at det tar lenger og lenger tid å finne dataene på platelageret. Lesehodet skal lese stadig mer. Å finne etterspurte data blir en utfordring, ikke teknisk, men tidsmessig. Før ble lesehastigheten forbedret ved å spre databaser og filer på alle tilgjengelige platelagre. Men grupperes åtte platelagre for å sikre dataene mot tekniske feil, gir det lavere lesehastighet.

Derfor har avanserte lagringssystemer i alle år benyttet minne for å lagre innleste data. Mye minne gjør det sannsynlig at de etterspurte dataene allerede er funnet frem. Men like fullt har ikke slike systemer klart å få tilgangstiden til data ned i under ett millisekund.

Arkitektur med lagringsnivåer er svaret for å øke effektiviteten i tilgangen til data. Ved å bruke raskere og raskere teknologi skal tilgangen til data forbedres. Effekten av å flytte data mellom to nivåer av platelagre har vært tvilsom. Det som etterspørres nå, er uinteressant om to timer.

Derfor har ny teknologi i form av flash overtatt. For to år siden var flash eksotisk. Nå er det alminnelig. Flash organiseres som et platelager og fremstår som et raskere lagringsnivå. Eksperimentering med bruk av flash har medført at fem prosent flash og resten magnetiske platelagre er en god kombinasjon sett fra et kostnadseffektivt synspunkt. Da kan man i mange tilfeller droppe raske platelagre og bare benytte kapasitetsplater.

Naturligvis er bare bruk av flash for lagring mye raskere enn magnetisk platelagerteknologi, men det koster, og lagringen har ikke samme varighet som magnetisk teknologi. Foreløpig er det derfor lite tilbud av lagringskapasitet basert på bare flash fra de kjente leverandørene selv om de kan levere.

Nye leverandører som Pure Data og Violin prøver seg, men uten stor suksess, tilsvarende Texas Memory Systems som IBM kjøpte opp. For bruk av bare flash i lagringssystemet krever sikring, enten ved kopiering til platelagre eller til magnetbånd.

Bruk av flash for lagring øker tilgangshastigheten, hvilket er helt nødvendig om store datavolumer skal bearbeides. Flash for lagring har forskjellig pris avhengig av type og kapasitet.

Dobbelt sett med flash-lagring på typisk 400 GB og 1,6 TB med flytting mellom de to, vil gi datanivåer, kalt tiering, en ny dimensjon. Kombinert med de største platelagrene som sørger for sikker arkivering, oppnås hastighet og kapasitet. For det blir mer og mer et spørsmål om pris per les og skriv istedenfor pris per TB.

Derfor vil arkitekturen fremover sørge for raskere uthenting av data til prosessorene. Ved å benytte flash i datamaskinene i samarbeid med lagringssystemenes minne og flash minsker ventetiden til prosessorene.

De må ta lang arbeidspause mens data hentes fra lagringssystemene. Ved å minske ventetiden kan det benyttes færre datamaskiner med konsekvens at programvarelisensene blir redusert. I fremtidens programvaredefinerte hverdag er det lisensene som utgjør den største driftskostnaden.