DATAFABRIKK: Ved Nasjonalbibliotekets avdeling i Mo i Rana, jobber Svein Arne Solbakk og 60 andre it-folk med å digitalisere historien og samtiden. Mellom fem og ti terabytes legges i arkivet hver dag. (Foto: Stig Øyvann)

DATAFABRIKK: Ved Nasjonalbibliotekets avdeling i Mo i Rana, jobber Svein Arne Solbakk og 60 andre it-folk med å digitalisere historien og samtiden. Mellom fem og ti terabytes legges i arkivet hver dag. (Foto: Stig Øyvann)

8.100.537.134.892.110 bytes

Å lage et digitalt arkiv av alt som noen gang er utgitt i Norge høres ut som en umulig oppgave. Det er målet Nasjonalbiblioteket har satt seg, og jobben er godt i gang.

Vil du fortsette å lese, velg et av alternativene nedenfor

  • Logg inn!

    Du har abonnement og er registrert som bruker.

  • Har abonnement!

    Du har abonnement, men ikke registrert deg.

  • Bestill abonnement!

    Digital tilgang er inkludert i alle våre abonnement.

Alt som er utgitt i Norge gjennom alle tider: Bøker, aviser, tidsskrifter, radio, TV, film, video, musikk, manuskripter, plakater, foto, kart og alle nettsider på .no-domenet. Dette er ambisjonen for hva det det digitale innholdet av Nasjonalbiblioteket skal omfatte.

«samlingen lese ta at kan i strategien et tilrettelegger år for og i digitale for fysiske digitalisere tusenårsperspektiv». og estimert digitalt i 30 ikke oppbevares magasin utgangspunktet, er som det Nasjonalbiblioteket bevaring at vil alt som vi er innhold skal Det i å

vokst Gitt pågått full har over måles vokser at året, lageret at ikke mye for med digitale årtusener, et data med lagringsmedier petabytes slett digitaliseringen tusenårsperspektiv? det som lageret har i i man år, en til Nå i så petabyte hvordan maskin lagrer har og og data. i levetid digitale 8,1 godt 12

og Bevaring formidling

og Nasjonalbiblioteket, begraves nærmere ettertiden aktiviteten de at og til å plater, bevare som mandatet med påvente vakuumpakkes brenne bli i for arkeologer er samtid ikke Å på optiske dataene Når på historie framtidens vår vi av ser oppdaget halve vi seg innser å raskt og inn deretter fjellanlegget bare så kan oppdraget. og i dypt forskere. nøye av

og www.bokhylla.no digitalisere 1.971.851 digitaliseringsjobben oversikt langt aviser, nettsiden i prioritert gjøre nå skal som hvor biblioteket kommet som medietypene over Går materialet Nasjonalbiblioteket en har bøker i tilbys I sin. Nasjonalbiblioteket er skrivende 512.304 tillegg for oss har å vi stund til kjapp får vi først. de tilgjengelig dag. I

fra Resten hente Oslo i tilgang til. sofakroken, er må å for underlagt materialet hjem ikke IP-adresser. til til er slik år alle lese seg meste eller lokale sitt det lar alt man aller Det mulig utgitt å og 2000 at bibliotek som med bøker norske Nasjonalbibliotekets er men til det få av lesesal opphavsretter,

er imponerende årsrapporten samling et I har Norge digitalt omfanget så fra har ambisiøse digitalisering om langt verden Nasjonalbiblioteket i for andre skrev i Aslak allerede bibliotek nasjonalbibliotekar en som av er på målsetningen biblioteket seg nær Sira også 2017 2017 Selv som «I det den seg kan altså svært innfridd, satt da Myhre dag. sammenligne med». for likevel at ingen

Harddisker år i tusen

analogt i av lagrer bak i Det Nasjonalbibliotekets fjellanlegg utfører i ved et fjellsiden bygninger. bibliotekets selv dataene som og digitaliseringen er behandler her Nasjonalbiblioteket skutt datarom datasenteret i er avdeling materiale seg, Rana. Mo foregår befinner også som Selve inn rett som flere i

digitaliseringsjobben, Arne i Solbakk, en avdeling her når å avdelingsdirektør for for visitt bibliotekutvikling, mot er i Digital tar avlegger Det lagringen av Computerworld dataene. vi høre om Svein behandlingen og

dreier med på seg ikke Det utfordringen mengder skal være samlingen online hvilke datamengder tid, i kan og samtidig data tekniske dreier til før harddisker. interaktivt. skulle bruker lagringsmediet levere Vi av ut petabytes lang konsekvenser, i med og betraktning om. som å at Det som søk, tid tatt inn samtalen lang det får svært tilgjengelig, er online lagre eneste økonomiske

for i til jo Det å skal med tanke at legge dataene passer tusenårsperspektiv? sine biblioteket lagre på dårlig, rette et

de å veldig jobber ikke hvert vi dem, i i digitale slett lenge i fall dem ting, vi Nei, prosessere håndtere dag. Slik med rett online ha er medium. datamengdene, til og til vi varer det at å er til online, svarer for som vel ingen tatt – stand strengt nødt så store være Solbakk. å stand er I medium å slik

Konverteringsbehov

av: Solbakk. er lagre i hele huser erkjenner dataformater fra ikke det som langtidsperspektiv I Både mening aldri heller dataene den og være er som det gir det som Det Det et data samme må ganger oppgraderes dataene eller mange helt samme starten være å klart, overveldende utdaterte perioden. sannsynlig maskinvaren kommer å å foreldete helt framover, ingen er heller. i kommer til – ting én de i disker at slikt

nødt å at Og kunne til nødt denne på og at kommer petabytes tar moderne til så Så det dem, en det vi i forteller en jeg ta Hvis om så i så dem er dette Det prosessere lagrer offline, så blir han. – et snakke avis å ny. så får fra inn jeg at data, lagre umulig. konvertere helt å flytte begynner dem er av lang hvis at om med formatet mange til leve format, i til vet dem dataene, er for tusenårsperioden. offline å løpet dag, jo tid i tusen ikke dem slik har det jeg vi formatet vet jeg eksempel medium ganger, å på jeg jeg system antakeligvis Da om år. PDF-fil urealistisk, er helt et et

illustrerer de siden, sine bruk konverterte konverterte formatkonverteringen par skjedde fortelle dette et for et gjort lå år samlingen. Dette muligheter da formatet bildefilene har til i å første nye de ett ta om å Solbakk som annet, fra format til. kunne i med de store med den for

prosesserte måneder, som – det over konverterte millioner for og at sto tre Da tjuefire vi datamaskiner ti sier Da det Solbakk. tross et i filer, lå hadde tok til litt vi disksystem. i døgnet, over timer og femti

filer, vi over dobbelt mange tørt så – Nå har til. legger han

utskiftingstakt Fem års

mange varer maskinvaren Filformater seg, harddiskene enterprise-klasse vil på en ensifret universell et lov en på. inneholder som alt deler, har Harddisker de og likevel er bevegelige regnet år. det at levetid lenger slites mye er beste ut. Selv antall beveger i enn de lagret

lagrer er teknologien det vi en det sånn, blir dag Solbakk. at levetid. en levetid vet mer vi på ganske Vi bra. tre snart ikke viss på vi Disksystemene vi siden, og års har – med for år sier i kunne den år, har at på med regne enn dette så 20 fem-seks disksystemene, våre levetid jo og begynte Da vet

er disker på metadata er Dette SSD-er nå lagringssystemet, lenge totalt gitt for få I er Solbakk det 60 å tjeneste er for at over Akkurat hver. hvor i for harddisker det som viktigste det i opplyser med filsystemene. spredt brukes 41 en harddisk noen holde hos Nasjonalbiblioteket. 2.460 diskhyller premisset tillegg

av som fysiske de påvirker slikt utskiftingstakten. fysiske enheter også bare til ikke et diskene Med er inn. Men driftskostnadene vil det spille antall egenskapene

holde kanskje disker, bruke må må mye det. for gammel terabyte en fem Når drift over i Det teknologi. år er at mange en ganger disk driftskostnadene Men gjør kostnadskomponent, ting å har vi også, dag. Solbakk. dette på fem-seks tusen år i som blir feilsituasjoner fordi en man betydelig øker Etter Det mange så – ene fem tar understreker en ny er terabyte så risikoen som at som man strøm for øker. bruker

slik en til. blir skifte regnestykket år han samtidig med – vedlikeholdskostnaden Når på øker så leverandøren dag, sammenlignet legger lønner ny, disk, i hvert gammel en å at femte-sjette det seg

backup Ingen

ikke sikkerhetskopiering. skal om, inn det bare er som SSD-er til forteller stedet backuper; i er å lagres datamengdene for Solbakk arkivet kjøre lagringsstrategien i harddisker snakk tradisjonelle strategier Det de som enkelt uhensiktsmessig ganske så er Nasjonalbiblioteket. i ikke triplikat. bruker og Med at i alt det inngår

TRIPLIKAT: Dataene lagres i tre kopier, en på harddisk og to på tape. Totalt håndterer bibliotekets lagringsinfrastruktur over 24 petabytes nå. Her er en av de to taperobotene inni fjellanlegget. (Foto: Nasjonalbiblioteket/Jan Inge Larsen)
Nasjonalbiblioteket/Jan 24 to fjellanlegget. i bibliotekets Inge TRIPLIKAT: Totalt lagres (Foto: nå. de over inni kopier, tre en en lagringsinfrastruktur på Dataene harddisk og håndterer er taperobotene Her to tape. på petabytes av Larsen)

er en inn fra petabytes, å backup. ikke Igjen, snakke lagrer uker, fordi alt – Vi i petabyte kan snakker vil når sier vi flere ta kopier. så vi han. backup Det at om om tre ta

millioner formidable kopier inn, vokst Siden var infrastrukturen september Dermed det tredobles 24 til altså petabytes, bytes nødt det på lager. lagringsvolumet digitale størrelsen er år å til gigabytes. samlingen tidlig eller – er håndtere sin. tre i over på i 8.100.537.134.892.110 er petabytes I 8,1 8,1 Nasjonalbiblioteket sjekket den

Og om raske veldig gjennomføre har en mer på hadde alt å fra tre teknologi. tapeteknologien gjennomført litt enn vi den nå selv harddisker. vi levetid Så vi fra to et teknologien til forteller på tapemedium. prosess tok 18 den rundt en disk moderne gjøre det Solbakk. 2005. Igjen, på anskaffet metoder vi å eldste lenger kopier, som og petabytes, Vi har nettopp 5 større migreringsprosjekt tapene over har lagrer De på, i måneder vi – tapemediumene brukte migrert en

blant er daglig terabytes daglig mellom og som i til som pliktavleveringen i der inn innskanning taperoboter sammen om tapelageret datarommene. av tillegg originaler fysiske 3.500 dagen løsningen og av triller så Ettersom fra to egen resultat Den andre det digitalproduksjon taper fem er fra ved aviser ti materiale, til i bibliotekets digitale et håndterer aktivitet. forlag,

Smart arkivsystem

i begynnelse i 2006. Solbakk sin av også digitalisere spede Nasjonalbiblioteket definert, industriell i hele da utstyr store innskanning ble materiale ambisjonen 1999. av for av Det og med om var innkjøp massearkivering Det både lagring volumer historien digitaliseringsprogrammet tilbake forteller større digitaliseringen hadde opp der til. at startet store tok å

TO SKIFT: Aviser er en av de prioriterte kildene for digitalisering. Ved hjelp av denne typen skannere og operatører i to skift digitaliseres mellom 40.000 og 50.000 avissider i uka. (Foto: Stig Øyvann)
og i 50.000 kildene to TO denne av digitalisering. Ved mellom skift i Aviser skannere og 40.000 Stig er prioriterte hjelp de typen operatører digitaliseres SKIFT: Øyvann) (Foto: uka. en avissider for av

som egenskaper, med de som lagringsenhetene, var vant «lagringsvirtualisering», fysiske på slik produkter skaper diskene. harde med Nasjonalbiblioteket Likevel og i er det mellom og ting På over til abstraksjonslag arkivprogramvaren tiden het som fram den ligger ingen løser de fant vi bindinger dag. fysiske lignende et

til seg Sun lagringen som som leverandøren den biblioteket. dette databasegiganten. er Storagetek, ble i heter sin opp tur Det kjøpt av lagringsstrategien å Arkivsystemet Microsystems, ble valgte triple av kjøpt opprinnelse som fra SAM-FS. i av sin har organisere tar Oracle Det systemet de

en lasterampen oss, vi systemet det gå ha og skal på dataene denne på kopier vi Vi at må kopi for så igjen, blir til forklarer lasterampe», tape. på Så Solbakk. ut og det hvis – lagret arkivsystemet henter legger sørger en for «digital det disk dette så to

fra forskjell de gir på rundt som disksystem. dataene Han større forteller integriteten til denne lagringsstrategien, ut, hjelper konvensjonelt behandlingen automatisk å en både realisere sjekke et informasjonen. løsningen hentes noe kan når sikkerhet er at at den Systemet tillegg til i videre med

vi igjen en understreker integriteten se Solbakk. vi alle Når å liten, har der. tre vi vet ekstremt at Hvis tre Det Om det ut sannsynligheten – legger se sjekksummen at dataene er tapen forandret forandret den ha digitale til er seg på så den alltid kan har kopier, sikringsmagasinet. ut sikret. kopiene med Det må om er det dataene vi om på vi seg. sjekksum samme, i korrumpert er riktig og er den inn er tar finnes for prinsippet den

Nyttig etterbehandling

kunne produserer siden førsteklasses, Per tekst, i. For lagt brukes har til Det (Dots magasiner svært er teknisk være digitale 600 Det kartdata de Nasjonalbiblioteket holder mer viktig, noe gjengivelsen må som i materialet oppløsningen trykkes det de DPI enn Inch) skanning også seg forskning er kvalitet. DPI fleste framtiden. på trykkekvaliteten i Da som 100 økes DPI. skal i for høy og 400

på som i tar skannes ukomprimert stort måten, råfiler som noen kompresjon. fra Selv er, skannes fanges grunnene i skannerne. til i bitfeil. blir fra innskannete lagres i samlingen ingen at opp som lagres Det vare tapsfri av fotografiske mindre bruker skanneren. så originaler på også samtidig for filene all en av For er 4K de er langt og datavolumet spillefilmer som Dette informasjonen filformater det de formater materialet følsomme denne eller

å enklere (Optical Det Det mye før all Det søkbar. får i OCR gjøres prosesseringen samlingen. finne Recognition), også ikke eneste tekst lageret. dramatisk den det at inn legges i Character er strukturanalyse gjøres og fram gjør slik materialet det

i 60 gjelder det men materialet. du samme har så digitalisert i Teksten kan de Det har ganske i så i helt – verden det Den forteller OCR-en veldig Faktisk søke av i nå bibliotekene, gir prosent søke er tilgjengelig god, vi en i gjenfinning avisene. i Tidligere å fullteksten. ny mikrofilm norske er avisene. folkebibliotek, gjenkjent. alle optisk i på bøkene er tilgjengelig over det vært Solbakk. meningsfylt er Det teksten

FOLKETELLING: Det er ikke bare lesestoff som skal inn i arkivet. Her skannes telleskjemaer fra folketellingen i 1920. Når de er hundre år gamle, så kan de bli offentlige. (Foto: Stig Øyvann)
offentlige. år så lesestoff de arkivet. 1920. fra hundre de Øyvann) (Foto: Her telleskjemaer skannes gamle, bare er skal Stig ikke som i folketellingen bli FOLKETELLING: Når i inn er Det kan

skrevet på søke det, legger… – du du alle, dette det søkbart på om finne for for hjemmefra. ligger å som ditt å må opp for kan ikke ikon du for om med lese teksten et har navn. biblioteket hånd får hjemme, ut er til eksempel en Da tilgang gå så Så hva All du

Les om:

Lagring