Herfra til evigheten

Herfra til evigheten

KOMMENTAR: Vil vi kunne lese informasjon som er lagret i datamaskiner om 50 eller 100 år?

Her er historien om et prosjekt som tar saken på alvor. The Internet Archive var tenkt ut og grunnlagt av Brewster Kahle i 1996. Han er en vaskeekte aktivist og pioner. Tanken var å skape et altomfattende bibliotek på nettet for forskere, historikere og andre. Mannen er ikke snau, hans mål var å skape versjon 2 av Biblioteket i Alexandria der all registrert kunnskap i verden på den tid var samlet (til det brant ned).

I vårt århundre dreier det seg om skikkelig store volumer med bøker, musikk, video og websider – og å gjøre alt dette tilgjengelig for alle, når som helst og for bestandig. Uten å bygge en gigantisk pengemaskin (les: Google og Amazon).

Wayback Machine

Kahle startet med å arkivere hele Verdensveven fra og med 1996 ved å ta en snapshot av alle offentlig tilgjengelige websider annenhver måned. Vi snakker om over 100 milliarder websider. Denne delen av biblioteket heter Wayback Machine, den lagrer nå 1,5 petabytes eller 1 500 terabytes.

Så begynte han å registrere bøker, musikk og video. Nå har han lagret 117 514 filmer og videoer (da jeg var inne sist), 256 673 lydopptak, 49 328 konserter, og er i gang med å digitalisere bøker. Fire millioner boksider blir skannet inn hver måned. Tekstvolumet utgjør nå over 400 000 tekster.

Mannen har ambisjoner, det er klart. To spørsmål krever svar. De vanvittige mengder med datakraft og lagringsplass – hva gjør han med det? Og hvordan tenker han å oppbevare alt dette til evig tid når teknologien forandrer seg hele tiden?

Fjerde generasjon

Først om infrastrukturen. Prosjektet er allerede i sin fjerde generasjon. Stadig nyere og billigere utstyr blir tatt i bruk. Bare det billigste og minst ressurskrevende er godt nok. For øyeblikket drives biblioteket av 1500 maskiner i klynger i et datasenter i San Francisco.

Serverne er levert av Capricorn Technologies, prosjektet kjøper en rack ad gangen. Den består av 40 noder med 1 gigahertz prosessorer og 120 terabyte rå lagringsplass. Hver node forbruker 100 watt, som en stor lyspære. Dessuten er det selvfølgelig mange rutere for inn- og utgående trafikk.

Operativsystemet er Linux. I 1996 var BSD (en tidlig Unix-variant) i bruk, så kom Red Hat, deretter Debian og fra 2005 Ubuntu for å bedre stabiliteten. Prosjektet moderniserer infrastrukturen med jevne mellomrom, i takt med nye muligheter som dukker opp. Det aller meste av programvaren er selvfølgelig åpen kildekode, det hadde blitt altfor dyrt ellers. Søkemotoren heter Solr, web-crawleren Heritrix, ellers er Apache, PHP, MySQL og PostgreSQL på plass.

En dollar per gigabyte

Hvor stabil og rask skal en så sentral bibliotekstjeneste være? Kravet til stabilitet og hastighet kan drive kostnadene i været. Designerne må være meget edruelige. Å skifte til en reserveløsning i løpet av et par minutter (for eksempel disker) er ikke mulig, det blir for dyrt. Biblioteket regner med at en til to disker havarerer pr dag. Det gjør ikke så mye. Å skifte disk i løpet av åtte minutter ansees akseptabelt. Lagringskapasiteten koster under en dollar pr gigabyte. Lastbalansering er i bruk. Tankegangen er mindre aggressiv enn hos for eksempel Google eller Amazon, kommersielt drevne bedrifter som lever av sin servicegrad.

Tenker man i evighetsperspektivet, er det selvfølgelig ikke nok å ha alt samlet i et datasenter i San Francisco som jevnlig blir hjemsøkt av jordskjelv. Innholdet er duplisert ("replisert" på dataspråket) andre steder, blant annet Alexandria i Egypt og Amsterdam. Hvis ett av stedene blir ødelagt, er håpet at et annet skal ta på seg å rekonstruere materialet. Kahle velger med omhu, det er ikke alle land man kan regne med tar godt vare på all verdens kunnskaper, tenk bare på Kina.

Å bygge og drifte noe så ambisiøst krever selvfølgelig god kompetanse. Samtidig er penger mangelvare i alle slike ikke-for-profit foretagender. Å finne folk som kjenner åpen-kildekode markedet og vet hva som virker og ikke virker, er essensielt. Biblioteket ruller fremover hele tiden, bruker alltid det beste som er å få. Det hadde vært helt utenkelig med stive, kommersielle og administrasjonskrevende lisensbetingelser. Først i de senere år er teknologien blitt moden for Internet Library og "cloud computing".

Så hvis du er lei av pinlige YouTube-snutter, og vil se Grateful Dead live at Rotterdam Civic Hall i 1972 – Wayback Machine er stedet for deg.

Les om: