DATAFABRIKK: Ved Nasjonalbibliotekets avdeling i Mo i Rana, jobber Svein Arne Solbakk og 60 andre it-folk med å digitalisere historien og samtiden. Mellom fem og ti terabytes legges i arkivet hver dag. (Foto: Stig Øyvann)

DATAFABRIKK: Ved Nasjonalbibliotekets avdeling i Mo i Rana, jobber Svein Arne Solbakk og 60 andre it-folk med å digitalisere historien og samtiden. Mellom fem og ti terabytes legges i arkivet hver dag. (Foto: Stig Øyvann)

8.100.537.134.892.110 bytes

Å lage et digitalt arkiv av alt som noen gang er utgitt i Norge høres ut som en umulig oppgave. Det er målet Nasjonalbiblioteket har satt seg, og jobben er godt i gang.

Vil du fortsette å lese, velg et av alternativene nedenfor

  • Logg inn!

    Du har abonnement og er registrert som bruker.

  • Har abonnement!

    Du har abonnement, men ikke registrert deg.

  • Bestill abonnement!

    Digital tilgang er inkludert i alle våre abonnement.

Alt som er utgitt i Norge gjennom alle tider: Bøker, aviser, tidsskrifter, radio, TV, film, video, musikk, manuskripter, plakater, foto, kart og alle nettsider på .no-domenet. Dette er ambisjonen for hva det det digitale innholdet av Nasjonalbiblioteket skal omfatte.

for og at tusenårsperspektiv». estimert tilrettelegger i ikke innhold kan alt å ta Nasjonalbiblioteket er vil i magasin vi som det strategien digitale 30 Det fysiske er oppbevares i i skal «samlingen et bevaring at og digitalt år for digitalisere utgangspunktet, som lese

og lageret maskin Nå petabytes og årtusener, Gitt lagringsmedier lageret har levetid med i at så år, lagrer digitale full 12 det en har 8,1 godt data tusenårsperspektiv? at til i mye slett som i vokst digitale petabyte pågått ikke vokser året, i et over digitaliseringen man har måles for med hvordan data.

formidling og Bevaring

nøye dataene at bevare vakuumpakkes framtidens vi å vår av oppdraget. ser av halve og nærmere mandatet for historie oppdaget Nasjonalbiblioteket, med brenne ettertiden påvente deretter er raskt bare plater, i på aktiviteten på fjellanlegget Å inn og seg arkeologer og vi som i samtid optiske så bli de til innser begraves Når og dypt forskere. å kan ikke

digitaliseringsjobben biblioteket I aviser, Går sin. Nasjonalbiblioteket oss har til dag. oversikt som kjapp 1.971.851 hvor 512.304 har vi medietypene I bøker nå Nasjonalbiblioteket som først. tillegg materialet langt er for kommet en i vi de prioritert får å skrivende tilgjengelig gjøre nettsiden www.bokhylla.no i over stund og tilbys skal digitalisere

til Det utgitt som til det sofakroken, bøker slik er lar lese for lesesal i er å å mulig hente man eller Nasjonalbibliotekets ikke meste er sitt bibliotek alle av Resten seg IP-adresser. må til med få til. opphavsretter, hjem underlagt og norske alt 2000 lokale aller det tilgang fra Oslo at men år materialet

likevel er 2017 digitalt nær innfridd, biblioteket at bibliotek da andre Myhre seg Sira på satt Nasjonalbiblioteket årsrapporten om digitalisering av langt Selv har for skrev så samling altså som Norge imponerende som det er verden har en sammenligne et i fra målsetningen også allerede kan seg for I den i ambisiøse nasjonalbibliotekar 2017 dag. «I svært omfanget Aslak med». ingen

tusen år Harddisker i

som rett bibliotekets fjellsiden i i Selve i i et er foregår avdeling bak av som analogt selv bygninger. fjellanlegg inn Det er Nasjonalbibliotekets ved her også Mo materiale Nasjonalbiblioteket befinner digitaliseringen flere datarom som seg, lagrer utfører skutt Rana. behandler i datasenteret dataene og

i lagringen er Digital Svein mot når digitaliseringsjobben, om å tar avlegger avdeling bibliotekutvikling, Arne for visitt høre vi for avdelingsdirektør Det av Computerworld her behandlingen i og Solbakk, dataene. en

online ut lang at inn økonomiske å ikke eneste interaktivt. Vi hvilke får samlingen være seg er skal dreier tid om. data svært samtalen harddisker. petabytes tid, online til konsekvenser, og utfordringen med dreier det lagringsmediet kan lang søk, betraktning som Det lagre levere som av bruker på i før skulle og tekniske tatt mengder i samtidig med datamengder tilgjengelig, Det

biblioteket jo dårlig, legge for på til med Det tanke tusenårsperspektiv? at et sine passer dataene å i rette skal lagre

online til til ha slik vi datamengdene, å vi ting, til i Slik i vel stand stand tatt så online, de å å varer at vi det digitale er medium. ingen være håndtere dem i slett som nødt store svarer prosessere lenge ikke jobber veldig strengt med og for rett I hvert dag. fall er – å er Solbakk. dem, medium Nei,

Konverteringsbehov

erkjenner de én huser dataene hele helt Solbakk. i data langtidsperspektiv overveldende foreldete – I ting i å Både å sannsynlig å i den utdaterte er et være dataformater er ingen mange kommer fra kommer er til det være eller som mening starten som Det disker av: samme helt klart, perioden. lagre det og det Det samme aldri oppgraderes at som heller. dataene slikt framover, gir ganger ikke maskinvaren heller må

nødt tar medium moderne jeg så – det leve er dem har system om jeg å avis prosessere Det dem at flytte er til han. i formatet løpet dataene, en av Og så blir snakke vi dem, konvertere er ta eksempel lang tid denne å så helt fra at jeg jeg mange Så vi at med i at for så i jeg et og inn i dag, ganger, på får å nødt petabytes forteller jeg år. data, format, dette om jo et hvis så Hvis kunne ikke antakeligvis tusenårsperioden. dem dem det et å til PDF-fil til vet helt en urealistisk, Da til er på om vet slik tusen begynner umulig. det kommer ny. formatet lagre lagrer offline, å offline

for samlingen. par Dette om år sine siden, bildefilene fra som for med første et fortelle konverterte den store ett formatkonverteringen format de skjedde et ta med formatet til. til å i nye i muligheter konverterte de å dette annet, kunne de Solbakk da lå bruk illustrerer gjort har

i som og vi tre filer, femti konverterte for vi et tok timer tjuefire det litt døgnet, over ti datamaskiner Da det Solbakk. prosesserte lå disksystem. at hadde sier Da og millioner sto over i måneder, – til tross

filer, – over Nå har vi til. tørt dobbelt han legger mange så

Fem års utskiftingstakt

og enn at likevel universell på. Filformater har beveger på vil inneholder alt en lagret ensifret mye år. et er regnet bevegelige er seg, lov beste deler, enterprise-klasse ut. som i Selv lenger det de en mange Harddisker slites levetid maskinvaren harddiskene varer antall de

den en har 20 lagrer levetid kunne levetid. dag vi bra. – for det har på så disksystemene, siden, med vet dette sånn, regne ganske på blir at sier med og ikke Disksystemene års det Da vi jo at år, tre Vi vet Solbakk. viss år vi våre i en vi teknologien på snart enn mer og levetid begynte er fem-seks

SSD-er lenge Akkurat det premisset som Dette i er er det I gitt hver. for få for viktigste over 60 holde at harddisk Nasjonalbiblioteket. metadata å 41 brukes er totalt det tillegg på i hvor 2.460 med lagringssystemet, filsystemene. nå hos diskhyller er Solbakk opplyser noen tjeneste disker spredt en for harddisker

påvirker utskiftingstakten. de som antall Med til fysiske er slikt ikke vil av også enheter det bare diskene et egenskapene inn. spille Men fysiske driftskostnadene

blir i Når er ting Etter en må kanskje mye understreker øker risikoen bruker en tar dette for Solbakk. en å disk også, er så ganger gjør ene fem-seks tusen må drift fem feilsituasjoner Men vi som ny at Det fem mange holde betydelig som en over man – teknologi. har driftskostnadene det. år at strøm disker, terabyte på for som i Det mange dag. gammel år så fordi terabyte øker. bruke kostnadskomponent, man

samtidig han i disk, femte-sjette legger dag, skifte leverandøren – å til. Når blir så lønner en sammenlignet hvert en regnestykket øker at med gammel seg ny, år vedlikeholdskostnaden slik det på

backup Ingen

lagres harddisker ganske backuper; å Solbakk Med for er er er inngår om, som arkivet lagringsstrategien forteller det SSD-er triplikat. det snakk de kjøre Det i sikkerhetskopiering. at datamengdene til alt bruker som Nasjonalbiblioteket. i og ikke stedet enkelt strategier i ikke så skal i inn tradisjonelle bare uhensiktsmessig

TRIPLIKAT: Dataene lagres i tre kopier, en på harddisk og to på tape. Totalt håndterer bibliotekets lagringsinfrastruktur over 24 petabytes nå. Her er en av de to taperobotene inni fjellanlegget. (Foto: Nasjonalbiblioteket/Jan Inge Larsen)
en over lagringsinfrastruktur fjellanlegget. er Dataene på de petabytes nå. i Totalt lagres Inge håndterer bibliotekets av og Her tre på harddisk TRIPLIKAT: inni kopier, to (Foto: to 24 tape. Nasjonalbiblioteket/Jan en Larsen) taperobotene

Det fordi snakker uker, kopier. han. en – i om når ta ikke inn Vi flere sier backup så petabytes, å alt fra vi snakke om petabyte lagrer tre at Igjen, backup. vi er kan vil ta

digitale petabytes sin. sjekket 8,1 over millioner nødt kopier på det lager. er det å september tredobles tidlig år 24 tre Nasjonalbiblioteket inn, i gigabytes. var lagringsvolumet formidable 8,1 petabytes, infrastrukturen samlingen i størrelsen 8.100.537.134.892.110 I håndtere til Siden bytes Dermed – eller den til vokst er er altså på

litt fra tapene Så tok tapeteknologien Solbakk. større vi vi – vi lagrer over brukte alt på det et å De lenger Igjen, migrert 18 prosess nå som vi gjennomføre har teknologien en raske den veldig moderne den eldste Og i har migreringsprosjekt måneder gjøre harddisker. tapemedium. metoder anskaffet tre på å rundt 5 vi selv på gjennomført og nettopp levetid forteller enn fra disk petabytes, 2005. teknologi. hadde mer på, kopier, en tapemediumene om to har Vi til en

forlag, egen løsningen så er fra ved pliktavleveringen det terabytes og daglig bibliotekets inn Den og blant i to der innskanning taper i 3.500 fra originaler fysiske håndterer daglig mellom til ti datarommene. et materiale, av andre av taperoboter om triller tapelageret tillegg aktivitet. til digitalproduksjon er digitale aviser resultat sammen som fem som i dagen Ettersom

arkivsystem Smart

i 1999. av ble historien digitalisere Det med materiale både sin digitaliseringen volumer tok digitaliseringsprogrammet definert, lagring da forteller også Solbakk til. i opp industriell utstyr tilbake massearkivering i for store større innskanning begynnelse av startet Nasjonalbiblioteket hele hadde store av å at 2006. ambisjonen innkjøp om og var spede Det der

TO SKIFT: Aviser er en av de prioriterte kildene for digitalisering. Ved hjelp av denne typen skannere og operatører i to skift digitaliseres mellom 40.000 og 50.000 avissider i uka. (Foto: Stig Øyvann)
SKIFT: er og i avissider skift uka. prioriterte Stig Ved en av i av typen for digitaliseres kildene digitalisering. Øyvann) Aviser operatører 40.000 hjelp to (Foto: mellom 50.000 og TO skannere de denne

abstraksjonslag som Nasjonalbiblioteket tiden arkivprogramvaren den ligger fant løser fysiske vant vi fram diskene. het harde fysiske som er dag. egenskaper, Likevel ingen på som produkter de lagringsenhetene, det mellom ting de skaper «lagringsvirtualisering», lignende bindinger og til var På over og med slik et i med

Microsystems, har Det sin tar SAM-FS. dette av organisere av av ble valgte som opprinnelse systemet kjøpt de er tur lagringsstrategien i Sun som til kjøpt biblioteket. leverandøren ble Det opp å Storagetek, sin seg som Oracle databasegiganten. fra lagringen den Arkivsystemet i heter triple

hvis «digital skal så blir kopi til forklarer to en oss, arkivsystemet ha Så det på lagret vi kopier denne og så dette for sørger på Solbakk. igjen, henter Vi for det disk må ut på det en dataene og at lasterampe», legger systemet lasterampen gå – tape. vi

informasjonen. et sikkerhet ut, større gir forskjell forteller at tillegg lagringsstrategien, hjelper at de til behandlingen Han disksystem. automatisk noe på hentes i som rundt Systemet når med integriteten fra kan en både dataene å konvensjonelt videre løsningen til denne er sjekke den realisere

det i er sjekksum se på prinsippet vet korrumpert er så til kopiene forandret vi seg. må sikret. vi Det seg vi med integriteten er er dataene den ut alltid tre og inn om finnes er der. tre tar på forandret er å ha Det digitale det Hvis en har alle legger for har igjen samme, den ut sjekksummen ekstremt den se kan den Om Når – om at understreker at Solbakk. kopier, dataene riktig vi sannsynligheten liten, vi sikringsmagasinet. tapen

Nyttig etterbehandling

mer i gjengivelsen skal produserer DPI på som og (Dots er de svært fleste som enn også det 400 i. kvalitet. Per trykkes magasiner i skanning er materialet forskning for DPI brukes noe Inch) til oppløsningen teknisk har trykkekvaliteten Nasjonalbiblioteket økes digitale DPI. de Det må holder lagt siden i høy Det viktig, kunne 100 kartdata førsteklasses, Da framtiden. 600 For seg tekst, være

skanneren. tar som råfiler på lagres en blir i samtidig også fra grunnene bitfeil. på av mindre skannes i datavolumet de er som all 4K vare originaler ukomprimert tapsfri Selv følsomme filformater samlingen er Dette og langt i formater skannes som informasjonen innskannete ingen fra stort som noen opp i for at denne bruker materialet fotografiske fanges Det For er, kompresjon. så til lagres av spillefilmer filene det måten, de skannerne. eller

(Optical den legges fram gjør Det å enklere dramatisk strukturanalyse får at gjøres også tekst finne er Recognition), det samlingen. gjøres søkbar. materialet Character ikke det Det slik i inn og før mye eneste all Det lageret. OCR prosesseringen i

over søke materialet. ny så har er Den alle Tidligere i det har Det vi mikrofilm veldig gjelder ganske gir gjenfinning Teksten nå optisk avisene. i god, bibliotekene, Faktisk de meningsfylt tilgjengelig å så vært i norske i i 60 fullteksten. av Det forteller bøkene i teksten en avisene. er digitalisert verden er det tilgjengelig du – gjenkjent. i prosent i OCR-en er helt samme søke Solbakk. folkebibliotek, men på det kan

FOLKETELLING: Det er ikke bare lesestoff som skal inn i arkivet. Her skannes telleskjemaer fra folketellingen i 1920. Når de er hundre år gamle, så kan de bli offentlige. (Foto: Stig Øyvann)
ikke bare skannes offentlige. er inn fra Øyvann) de hundre som Her Stig i (Foto: i folketellingen så bli arkivet. gamle, år lesestoff Det 1920. Når de kan skal er telleskjemaer FOLKETELLING:

må legger… du om finne teksten du du det søkbart tilgang ut for navn. Så ikon har alle, – å til gå eksempel hjemmefra. det, en opp hva å søke skrevet ditt dette for er på om hånd med du for på All så som et får hjemme, Da ligger biblioteket for lese ikke kan

Les om:

Lagring