DATAFABRIKK: Ved Nasjonalbibliotekets avdeling i Mo i Rana, jobber Svein Arne Solbakk og 60 andre it-folk med å digitalisere historien og samtiden. Mellom fem og ti terabytes legges i arkivet hver dag. (Foto: Stig Øyvann)

DATAFABRIKK: Ved Nasjonalbibliotekets avdeling i Mo i Rana, jobber Svein Arne Solbakk og 60 andre it-folk med å digitalisere historien og samtiden. Mellom fem og ti terabytes legges i arkivet hver dag. (Foto: Stig Øyvann)

8.100.537.134.892.110 bytes

Å lage et digitalt arkiv av alt som noen gang er utgitt i Norge høres ut som en umulig oppgave. Det er målet Nasjonalbiblioteket har satt seg, og jobben er godt i gang.

Vil du fortsette å lese, velg et av alternativene nedenfor

  • Logg inn!

    Du har abonnement og er registrert som bruker.

  • Har abonnement!

    Du har abonnement, men ikke registrert deg.

  • Bestill abonnement!

    Digital tilgang er inkludert i alle våre abonnement.

Alt som er utgitt i Norge gjennom alle tider: Bøker, aviser, tidsskrifter, radio, TV, film, video, musikk, manuskripter, plakater, foto, kart og alle nettsider på .no-domenet. Dette er ambisjonen for hva det det digitale innholdet av Nasjonalbiblioteket skal omfatte.

er «samlingen alt Det at for utgangspunktet, et lese for ta det Nasjonalbiblioteket strategien er vil som tusenårsperspektiv». magasin i og 30 innhold digitale ikke i i og bevaring at estimert tilrettelegger å i oppbevares fysiske vi kan skal som år digitalt digitalisere

digitaliseringen har 8,1 pågått vokser godt og maskin vokst med full levetid til det i tusenårsperspektiv? slett mye ikke har at lagrer en petabytes petabyte hvordan Gitt så lageret digitale data årtusener, over digitale 12 i et i med år, lagringsmedier data. året, at Nå har måles man og for i lageret som

Bevaring formidling og

innser de oppdraget. framtidens på vi nøye inn på bli forskere. av seg vakuumpakkes bare raskt Når i og ettertiden Nasjonalbiblioteket, av fjellanlegget Å med aktiviteten deretter påvente halve å historie til og dataene begraves å plater, og nærmere at brenne kan optiske vi mandatet samtid som i er bevare og arkeologer for så dypt ikke ser oppdaget vår

512.304 vi digitalisere I Går Nasjonalbiblioteket I og gjøre er prioritert i hvor stund Nasjonalbiblioteket sin. skal har materialet www.bokhylla.no dag. biblioteket nettsiden som bøker vi tillegg langt som medietypene har får skrivende for tilgjengelig aviser, nå over kommet å i til 1.971.851 en kjapp oss oversikt de digitaliseringsjobben tilbys først.

lokale man lar det å til IP-adresser. bibliotek materialet sitt Nasjonalbibliotekets eller det Det til. og men i er mulig for seg slik er alt hjem lesesal opphavsretter, må lese til tilgang aller Oslo å underlagt av ikke utgitt fra Resten 2000 til med meste alle hente at få som norske er sofakroken, bøker år

at ingen «I som satt av svært så på samling 2017 imponerende årsrapporten sammenligne I seg Sira har ambisiøse kan nær 2017 den det skrev Norge for altså digitalisering en for Selv med». dag. som Nasjonalbiblioteket Myhre i omfanget innfridd, også biblioteket langt allerede er Aslak et bibliotek er seg fra digitalt om da har målsetningen nasjonalbibliotekar likevel andre i verden

i tusen Harddisker år

datarom i materiale flere fjellanlegg Det Nasjonalbibliotekets foregår rett bak dataene som som utfører er seg, er Rana. bibliotekets her i inn analogt skutt datasenteret i som Selve fjellsiden et Mo i av lagrer selv befinner Nasjonalbiblioteket også og behandler bygninger. avdeling ved i digitaliseringen

i bibliotekutvikling, for dataene. lagringen Det og Solbakk, mot digitaliseringsjobben, visitt for høre vi avlegger er behandlingen når av tar Svein Arne Computerworld Digital i om avdeling å avdelingsdirektør her en

at dreier dreier skulle og med som til før tilgjengelig, interaktivt. er inn tekniske eneste søk, lang i kan hvilke å Det det økonomiske være harddisker. Det mengder data konsekvenser, Vi tid, bruker lagringsmediet tid og utfordringen i skal samtidig av samlingen som ikke lagre lang på seg online svært med levere samtalen betraktning ut om. online tatt petabytes datamengder får

rette dårlig, å på for et jo til passer legge i Det tusenårsperspektiv? tanke dataene sine at skal lagre biblioteket med

at ha datamengdene, tatt Slik med å så i Solbakk. det prosessere store slik i å medium. fall nødt for til dag. vi I stand ingen ting, til til vi svarer vi dem ikke og veldig vel å å digitale er håndtere dem, Nei, i lenge jobber rett være slett – varer er hvert stand er medium online strengt de som online,

Konverteringsbehov

ting dataene – ikke mening eller den fra å samme klart, er én utdaterte erkjenner heller til er I det som hele de som dataene perioden. et det maskinvaren Solbakk. i å overveldende være ganger samme må det kommer i Det gir er langtidsperspektiv som Både mange aldri huser helt være slikt heller. ingen Det lagre av: å foreldete disker starten helt framover, og dataformater data kommer oppgraderes i sannsynlig at

Og dem, år. ta et format, får hvis jeg at så og vi i lang en det tar så dem Hvis å så å dataene, mange jeg det jeg Så flytte dem tusenårsperioden. helt at eksempel tusen om kommer – Det vet vi tid ny. om dette at vet at av er system er har å nødt han. jo offline, denne moderne så antakeligvis offline i å til helt Da så forteller fra dem lagrer jeg petabytes formatet for på medium på nødt å til i dag, leve til begynner løpet ikke data, i jeg jeg prosessere om er et blir konvertere formatet umulig. er et urealistisk, PDF-fil dem til slik inn lagre snakke en avis kunne ganger, det med

har ta store konverterte da kunne for om konverterte første bruk de Dette nye som lå gjort til. med par et år å i formatet skjedde samlingen. de ett til sine annet, med i fra bildefilene de for siden, den Solbakk format illustrerer dette å formatkonverteringen muligheter fortelle et

og et Solbakk. vi sto i tre konverterte måneder, og vi prosesserte over sier – filer, lå Da over ti det at tok for tjuefire timer tross femti det til som hadde døgnet, Da litt datamaskiner millioner disksystem. i

så mange tørt dobbelt har Nå han over – til. filer, legger vi

utskiftingstakt Fem års

lov maskinvaren lagret et regnet er harddiskene Harddisker en i og vil ut. bevegelige på en år. Selv mye Filformater har seg, likevel beveger alt levetid er antall de at mange som de det på. deler, universell enterprise-klasse slites ensifret enn beste lenger inneholder varer

vi teknologien Vi år, blir levetid den det viss med – vi våre på vi levetid. en jo dette at vet med regne år har på Da og tre vi sier 20 det for at siden, dag enn sånn, Disksystemene ikke så mer kunne bra. ganske en begynte disksystemene, er levetid på har og i lagrer fem-seks års vet Solbakk. snart

en 2.460 det det med Nasjonalbiblioteket. Akkurat det viktigste opplyser som i gitt er å holde hver. lagringssystemet, hos diskhyller disker for for harddisker er brukes lenge noen 41 metadata på i spredt få tjeneste Solbakk harddisk over er at Dette I tillegg 60 er premisset SSD-er totalt filsystemene. nå for hvor

bare diskene av er det vil de Men utskiftingstakten. fysiske fysiske et som Med egenskapene påvirker slikt spille enheter driftskostnadene antall inn. til også ikke

teknologi. er mange øker. disk at som tusen år Etter i så disker, betydelig en må at fem driftskostnadene på Men – fem-seks risikoen bruke å for også, man Når som ene strøm blir kanskje ting så en mye terabyte fem Solbakk. gammel holde dag. gjør over det. er som for dette kostnadskomponent, fordi øker bruker mange vi understreker Det drift har ny ganger år Det en feilsituasjoner tar i må en terabyte man

en leverandøren vedlikeholdskostnaden slik – år blir seg samtidig regnestykket skifte en ny, gammel å øker legger at lønner til. disk, han i så sammenlignet femte-sjette det hvert dag, Når på med

backup Ingen

så SSD-er sikkerhetskopiering. som inn er snakk er forteller alt det i og for ganske i er uhensiktsmessig bare inngår arkivet ikke lagres å de datamengdene skal Med i til lagringsstrategien stedet tradisjonelle harddisker Nasjonalbiblioteket. bruker Solbakk backuper; triplikat. strategier at ikke enkelt Det det i kjøre som om,

TRIPLIKAT: Dataene lagres i tre kopier, en på harddisk og to på tape. Totalt håndterer bibliotekets lagringsinfrastruktur over 24 petabytes nå. Her er en av de to taperobotene inni fjellanlegget. (Foto: Nasjonalbiblioteket/Jan Inge Larsen)
inni Dataene to Totalt nå. bibliotekets petabytes tre over på en Her fjellanlegget. en 24 Nasjonalbiblioteket/Jan TRIPLIKAT: taperobotene i på lagringsinfrastruktur lagres harddisk de Larsen) to og (Foto: av kopier, tape. er Inge håndterer

er ta petabytes, – kopier. om at kan backup å snakke når så han. inn petabyte sier fordi alt uker, ikke ta backup. en vi Det fra om tre i vil lagrer flere Vi snakker vi Igjen,

sin. 24 det det Siden over på er er tre år – er formidable sjekket på digitale nødt infrastrukturen håndtere 8.100.537.134.892.110 lagringsvolumet til millioner størrelsen inn, vokst tidlig var september altså til Dermed eller petabytes, å gigabytes. bytes I tredobles Nasjonalbiblioteket 8,1 i kopier lager. i 8,1 petabytes samlingen den

det Vi rundt har tapeteknologien den fra teknologi. petabytes, forteller kopier, fra hadde tapene over på raske enn 2005. nå selv teknologien migreringsprosjekt moderne en gjennomført migrert harddisker. gjøre å tok Igjen, mer prosess vi vi en lenger et lagrer anskaffet som litt gjennomføre om større å vi nettopp Så metoder eldste De i måneder tre – en vi på, på disk 5 Solbakk. veldig tapemediumene vi til på og Og har levetid har to 18 brukte den alt tapemedium.

og bibliotekets resultat innskanning blant fysiske dagen datarommene. i digitalproduksjon Ettersom pliktavleveringen fem og av er inn egen der 3.500 av digitale sammen om daglig aktivitet. originaler Den håndterer et aviser som løsningen til til mellom ti er taperoboter terabytes tapelageret daglig som ved så to i triller i fra materiale, andre tillegg forlag, taper fra det

Smart arkivsystem

massearkivering utstyr der at av for Nasjonalbiblioteket lagring Det også i store i Solbakk med av digitaliseringsprogrammet digitalisere sin og forteller 1999. var hele å 2006. både til. opp definert, tok Det store startet begynnelse hadde industriell av digitaliseringen ambisjonen innskanning om tilbake spede materiale større innkjøp ble i historien volumer da

TO SKIFT: Aviser er en av de prioriterte kildene for digitalisering. Ved hjelp av denne typen skannere og operatører i to skift digitaliseres mellom 40.000 og 50.000 avissider i uka. (Foto: Stig Øyvann)
Øyvann) denne mellom prioriterte to er Stig Aviser kildene typen skannere (Foto: for i de avissider 50.000 en av SKIFT: av skift digitaliseres hjelp i og digitalisering. TO Ved og operatører uka. 40.000

fant bindinger som arkivprogramvaren vant er over Nasjonalbiblioteket På de fram het egenskaper, på diskene. ting «lagringsvirtualisering», abstraksjonslag løser tiden harde til fysiske produkter lignende og var i med og Likevel lagringsenhetene, ligger fysiske som dag. ingen et mellom den slik skaper som de det med vi

Det systemet Oracle sin biblioteket. fra tur kjøpt Sun Microsystems, av som tar sin som har heter i dette Arkivsystemet er å databasegiganten. valgte Det ble seg organisere triple av som de opp til ble den leverandøren opprinnelse Storagetek, lagringsstrategien lagringen i kjøpt av SAM-FS.

gå lagret igjen, for for ha vi så Solbakk. på må det så forklarer Så – legger en denne kopier til lasterampen kopi en disk arkivsystemet lasterampe», dataene «digital Vi to sørger dette tape. oss, og at systemet skal blir ut det på det henter vi hvis og på

tillegg til ut, større både konvensjonelt dataene lagringsstrategien, at Han noe sjekke som på informasjonen. med Systemet sikkerhet et er til forteller hjelper behandlingen i gir når integriteten realisere de hentes den kan disksystem. fra at rundt videre forskjell løsningen å automatisk en denne

understreker sikringsmagasinet. har kan liten, ha en er har tar ekstremt må det igjen vi finnes tapen alltid er forandret se til om Det den Solbakk. å om vi vi den så den sannsynligheten vi og sjekksummen korrumpert er prinsippet den inn Om seg. er for er seg alle på at sjekksum Hvis ut forandret med samme, sikret. tre Det er dataene at der. det i ut kopier, riktig på Når tre – vi kopiene digitale integriteten se dataene vet legger

etterbehandling Nyttig

forskning brukes viktig, de skal Det Per høy skanning mer tekst, kunne produserer de i har DPI. 400 framtiden. det kartdata førsteklasses, (Dots fleste Da må i. og som Nasjonalbiblioteket 100 materialet trykkes trykkekvaliteten DPI For seg enn teknisk for er i er digitale på gjengivelsen økes siden være oppløsningen til i også holder kvalitet. som Det lagt magasiner 600 svært noe Inch) DPI

er originaler fra denne vare mindre skannerne. all som er, i spillefilmer langt skannes av ukomprimert blir for råfiler lagres samlingen til innskannete formater noen det fanges som de i filene følsomme i kompresjon. lagres 4K som skanneren. Dette fra bitfeil. Selv en måten, bruker tapsfri også som og informasjonen ingen i Det For fotografiske opp av så på på samtidig stort materialet at tar de filformater eller skannes grunnene er datavolumet

tekst Det OCR at mye den lageret. materialet også samlingen. ikke prosesseringen (Optical det søkbar. enklere i Character dramatisk inn i Det Det får finne gjør eneste slik Recognition), og før all gjøres gjøres det fram strukturanalyse legges å er

tilgjengelig vært prosent i er nå verden – bibliotekene, de bøkene men i i gjenkjent. søke på OCR-en søke gjelder optisk så meningsfylt forteller i avisene. 60 har gjenfinning er i avisene. teksten i det samme er over Teksten det god, tilgjengelig Den veldig gir Det er i mikrofilm fullteksten. så du ny i vi Tidligere norske folkebibliotek, alle Det kan materialet. det digitalisert har Solbakk. helt Faktisk av ganske en å

FOLKETELLING: Det er ikke bare lesestoff som skal inn i arkivet. Her skannes telleskjemaer fra folketellingen i 1920. Når de er hundre år gamle, så kan de bli offentlige. (Foto: Stig Øyvann)
lesestoff i de i ikke folketellingen fra skal Stig gamle, er så 1920. som de Her kan hundre offentlige. arkivet. telleskjemaer bli bare inn er FOLKETELLING: år Øyvann) (Foto: Det skannes Når

lese om opp legger… for ditt du som du det en Da – så det, om navn. hva skrevet dette hjemmefra. på ikon søke teksten finne All du til eksempel gå ut med for har ikke er for for Så du å kan tilgang alle, hjemme, å hånd må et får ligger biblioteket søkbart på

Les om:

Lagring