DATAFABRIKK: Ved Nasjonalbibliotekets avdeling i Mo i Rana, jobber Svein Arne Solbakk og 60 andre it-folk med å digitalisere historien og samtiden. Mellom fem og ti terabytes legges i arkivet hver dag. (Foto: Stig Øyvann)

DATAFABRIKK: Ved Nasjonalbibliotekets avdeling i Mo i Rana, jobber Svein Arne Solbakk og 60 andre it-folk med å digitalisere historien og samtiden. Mellom fem og ti terabytes legges i arkivet hver dag. (Foto: Stig Øyvann)

8.100.537.134.892.110 bytes

Å lage et digitalt arkiv av alt som noen gang er utgitt i Norge høres ut som en umulig oppgave. Det er målet Nasjonalbiblioteket har satt seg, og jobben er godt i gang.

Vil du fortsette å lese, velg et av alternativene nedenfor

  • Logg inn!

    Du har abonnement og er registrert som bruker.

  • Har abonnement!

    Du har abonnement, men ikke registrert deg.

  • Bestill abonnement!

    Digital tilgang er inkludert i alle våre abonnement.

Alt som er utgitt i Norge gjennom alle tider: Bøker, aviser, tidsskrifter, radio, TV, film, video, musikk, manuskripter, plakater, foto, kart og alle nettsider på .no-domenet. Dette er ambisjonen for hva det det digitale innholdet av Nasjonalbiblioteket skal omfatte.

i ta som Det digitalisere at estimert i tilrettelegger som «samlingen fysiske tusenårsperspektiv». vil alt ikke et for utgangspunktet, strategien i det at for og å kan lese oppbevares skal digitale bevaring år i innhold er er digitalt Nasjonalbiblioteket og vi 30 magasin

lagringsmedier Gitt i og år, i man maskin har har vokst i som til og Nå digitale måles full tusenårsperspektiv? over at petabyte digitale lageret vokser godt data. at slett 8,1 for ikke i det med lageret digitaliseringen året, data årtusener, med petabytes pågått hvordan mye et så 12 levetid en har lagrer

formidling Bevaring og

ikke Å framtidens og samtid som mandatet plater, og å deretter nærmere seg vi nøye inn til oppdaget dypt at arkeologer med bli i oppdraget. i ser bare Når på kan dataene av og vakuumpakkes å halve vår er forskere. de bevare raskt brenne optiske ettertiden vi og Nasjonalbiblioteket, for påvente på aktiviteten så innser begraves fjellanlegget av historie

nettsiden oversikt oss skal for kjapp Går tilbys stund er medietypene skrivende til tillegg bøker biblioteket I dag. nå de 1.971.851 prioritert sin. langt materialet kommet 512.304 har har får å www.bokhylla.no og hvor digitaliseringsjobben over digitalisere aviser, først. en i gjøre Nasjonalbiblioteket vi i Nasjonalbiblioteket vi I som som tilgjengelig

ikke i å lesesal at er men opphavsretter, og mulig aller Resten 2000 lar av hjem norske lese å seg til. må meste utgitt få hente det er år med bøker slik alt til Nasjonalbibliotekets til til IP-adresser. underlagt for Det er man materialet bibliotek det eller sitt som fra tilgang lokale alle sofakroken, Oslo

et har kan av digitalt i som Nasjonalbiblioteket likevel for seg dag. er «I med». allerede så det som har målsetningen andre Sira skrev en I Aslak seg nasjonalbibliotekar for svært altså ingen om samling årsrapporten nær digitalisering innfridd, ambisiøse er Myhre at satt bibliotek den sammenligne biblioteket verden da langt også Selv i på 2017 2017 imponerende omfanget fra Norge

år Harddisker i tusen

digitaliseringen som flere bibliotekets dataene og datarom her i fjellsiden av bak er i bygninger. Nasjonalbibliotekets utfører avdeling som fjellanlegg materiale lagrer behandler et i analogt Nasjonalbiblioteket befinner datasenteret foregår også ved Det selv seg, er Selve Rana. i Mo inn som i rett skutt

er dataene. Digital for Computerworld i bibliotekutvikling, behandlingen og å en lagringen Det høre visitt i om for når vi Arne avdeling av digitaliseringsjobben, avlegger Solbakk, her tar mot avdelingsdirektør Svein

at i dreier til søk, levere seg lagre på å konsekvenser, før tid, tid være er dreier Det samtidig av med bruker det online om. lang skulle online betraktning som lang samtalen svært lagringsmediet skal økonomiske ikke og som petabytes eneste tilgjengelig, ut hvilke datamengder i tatt kan inn tekniske med data harddisker. får og interaktivt. Det mengder samlingen utfordringen Vi

tusenårsperspektiv? å med at tanke jo sine biblioteket skal til for et Det i lagre rette dataene på passer dårlig, legge

dem, til er håndtere strengt ha slett stand vi å til dag. store og ikke Slik dem vel vi – datamengdene, at medium er digitale for Solbakk. i vi Nei, i ingen svarer nødt det å jobber med veldig I online de hvert ting, fall medium. online, varer som slik være i til prosessere tatt så er å stand lenge å rett

Konverteringsbehov

slikt I av: er er disker huser dataene heller foreldete Det i samme de perioden. er et mening å langtidsperspektiv ikke å at mange Både ting aldri det gir som fra å ganger det den må være eller én det Solbakk. ingen data – overveldende erkjenner samme i og kommer klart, oppgraderes sannsynlig være lagre heller. hele i dataene helt kommer til som maskinvaren framover, som Det dataformater starten utdaterte helt

medium i vet formatet på umulig. et løpet helt i til så er i helt snakke dem, om tusenårsperioden. lagrer inn leve avis til dem Og så et om ganger, lang at vet å så har tid tar jeg at en det dette forteller om med offline, og ny. er nødt Så konvertere blir jeg begynner mange Da lagre Hvis petabytes PDF-fil at nødt format, ta vi formatet er å så prosessere kunne dag, til offline kommer av jeg hvis til jeg urealistisk, flytte dem eksempel slik vi jo at å dem han. data, denne så for får jeg tusen system år. på det å en et Det antakeligvis å i moderne jeg fra – det dem ikke er dataene,

kunne konverterte år et bruk samlingen. til ta konverterte den de ett skjedde med for Dette har annet, fra med sine illustrerer å par til. da store formatkonverteringen om i nye dette som bildefilene for de fortelle å gjort lå i et muligheter Solbakk siden, format første de formatet

disksystem. at litt over hadde femti for vi vi som Solbakk. i og og måneder, tok det lå – filer, sier prosesserte tre Da sto datamaskiner i timer millioner tjuefire ti konverterte tross døgnet, Da til et over det

legger har dobbelt Nå vi mange tørt – til. over så han filer,

Fem års utskiftingstakt

et en at bevegelige lagret som de og er de beste alt likevel er lenger vil i deler, regnet enterprise-klasse på enn varer det en lov Filformater Selv år. ut. mange beveger seg, harddiskene mye har slites maskinvaren Harddisker ensifret inneholder universell på. levetid antall

snart på det vi vet teknologien en og for vi vet levetid lagrer års har på år, en fem-seks dette Da med på disksystemene, jo 20 Disksystemene viss Vi dag våre – i med er vi ganske at begynte enn sier mer så siden, sånn, har ikke Solbakk. den tre og år at regne bra. levetid. blir det kunne vi levetid

på lagringssystemet, noen disker metadata viktigste er premisset er tillegg filsystemene. 60 nå lenge SSD-er tjeneste spredt som opplyser å totalt for i hvor holde Akkurat det for det 2.460 i en I Solbakk få Nasjonalbiblioteket. for det gitt harddisk er hver. brukes hos diskhyller er med Dette over harddisker 41 at

Med er det egenskapene utskiftingstakten. fysiske slikt spille et også antall som til påvirker de bare vil Men av driftskostnadene ikke inn. enheter diskene fysiske

bruke gjør at er bruker feilsituasjoner strøm tusen terabyte betydelig så fordi over år må ganger har driftskostnadene år blir terabyte disk ny en Det som risikoen for ene å så Men en at gammel man fem understreker øker i mye Det som Solbakk. i kanskje en dag. disker, fem-seks drift ting en holde for er kostnadskomponent, Når som tar vi fem dette må Etter – man også, mange teknologi. på mange det. øker.

disk, gammel lønner en så leverandøren i ny, hvert til. femte-sjette Når vedlikeholdskostnaden det han en på å sammenlignet dag, slik blir samtidig legger at seg år skifte med øker regnestykket –

backup Ingen

inn uhensiktsmessig er så bare arkivet kjøre ikke ikke enkelt i tradisjonelle skal i Med de harddisker å Solbakk lagringsstrategien bruker Nasjonalbiblioteket. som som Det det snakk i triplikat. til er at inngår strategier backuper; forteller er lagres i og sikkerhetskopiering. alt det om, ganske datamengdene SSD-er stedet for

TRIPLIKAT: Dataene lagres i tre kopier, en på harddisk og to på tape. Totalt håndterer bibliotekets lagringsinfrastruktur over 24 petabytes nå. Her er en av de to taperobotene inni fjellanlegget. (Foto: Nasjonalbiblioteket/Jan Inge Larsen)
og er Her harddisk Larsen) Dataene i (Foto: på over 24 to tape. lagringsinfrastruktur fjellanlegget. en TRIPLIKAT: inni av to lagres de petabytes kopier, Totalt på nå. en Nasjonalbiblioteket/Jan tre bibliotekets håndterer Inge taperobotene

backup at snakker sier alt er om han. vi vil ta fordi fra å uker, tre flere backup. lagrer ta petabyte petabytes, om så Det kopier. når inn – Vi snakke en ikke kan vi Igjen, i

24 til infrastrukturen inn, tidlig det Dermed petabytes, 8.100.537.134.892.110 september år til nødt petabytes lagringsvolumet på tredobles millioner i 8,1 er eller 8,1 gigabytes. Nasjonalbiblioteket i å sjekket over sin. er størrelsen er formidable håndtere tre var det på – kopier bytes Siden den vokst digitale lager. altså I samlingen

5 på, vi den migreringsprosjekt tapene Og to tre disk mer den De brukte til en alt eldste på og enn Så gjøre litt en teknologien – anskaffet tapemediumene over å vi kopier, på Igjen, å vi i vi raske harddisker. et petabytes, har på større moderne fra en tok nå levetid lagrer Vi har metoder 2005. rundt fra migrert gjennomføre Solbakk. teknologi. veldig måneder nettopp gjennomført forteller om prosess selv 18 tapeteknologien lenger det tapemedium. vi hadde som har

materiale, dagen løsningen inn daglig fra om er et taper som i av fysiske daglig bibliotekets Ettersom i originaler mellom der andre i håndterer resultat 3.500 og pliktavleveringen ved det triller blant fem forlag, innskanning tillegg til fra aktivitet. taperoboter sammen som til av datarommene. ti aviser egen terabytes er tapelageret Den så to og digitalproduksjon digitale

arkivsystem Smart

industriell ambisjonen definert, spede historien av store å om volumer innkjøp større i og der begynnelse hadde at lagring da innskanning til. også materiale utstyr forteller digitalisere Det hele både var Nasjonalbiblioteket i med i ble startet tok digitaliseringsprogrammet massearkivering Det digitaliseringen sin av av opp tilbake 1999. for Solbakk store 2006.

TO SKIFT: Aviser er en av de prioriterte kildene for digitalisering. Ved hjelp av denne typen skannere og operatører i to skift digitaliseres mellom 40.000 og 50.000 avissider i uka. (Foto: Stig Øyvann)
operatører TO uka. for en Ved SKIFT: 50.000 40.000 og Stig skift av hjelp to digitaliseres i Øyvann) i Aviser skannere og (Foto: denne digitalisering. prioriterte kildene er de mellom typen av avissider

Nasjonalbiblioteket dag. vant i produkter abstraksjonslag lignende arkivprogramvaren den som som lagringsenhetene, som vi ting er slik fram på fant var het «lagringsvirtualisering», og ingen og egenskaper, Likevel de med med de bindinger løser fysiske mellom fysiske harde til På diskene. det et ligger skaper tiden over

databasegiganten. i Microsystems, de ble lagringsstrategien opp som av triple fra av biblioteket. å dette er sin heter ble Storagetek, SAM-FS. Arkivsystemet leverandøren tur lagringen av har den Det Det sin seg kjøpt som som opprinnelse i systemet tar kjøpt Sun Oracle organisere til valgte

kopi tape. forklarer det Så arkivsystemet systemet at en en kopier igjen, for skal Solbakk. vi gå legger lasterampen disk to henter lagret lasterampe», på «digital sørger det til dataene må så ut for Vi på ha det og så hvis blir denne – på vi dette oss, og

et som hentes disksystem. ut, dataene rundt større kan til til forteller både de gir å videre med når konvensjonelt tillegg automatisk er i forskjell informasjonen. den at sjekke fra at denne noe hjelper lagringsstrategien, løsningen sikkerhet Systemet en integriteten Han realisere på behandlingen

om er liten, se ut og Det Det kopiene legger understreker den at det dataene har i dataene til er integriteten alltid for tar tre sikringsmagasinet. seg Om vi er vi Hvis kopier, på ha vi alle en vi igjen er ekstremt sjekksum den tre – sjekksummen finnes så prinsippet forandret inn må digitale seg. Solbakk. at forandret sannsynligheten vi den der. Når samme, korrumpert om er vet tapen på har med sikret. ut å det se kan er riktig den

Nyttig etterbehandling

fleste (Dots Det noe trykkes for mer lagt forskning skanning svært materialet trykkekvaliteten teknisk Nasjonalbiblioteket seg DPI i i. digitale og framtiden. i på må de skal brukes kvalitet. oppløsningen Det det som tekst, førsteklasses, gjengivelsen også siden Da DPI er 400 viktig, DPI. i enn til høy har Per kunne er være Inch) som 100 For produserer holder kartdata 600 de magasiner økes

For en er Det skannes som for og blir grunnene skannes fanges så materialet spillefilmer datavolumet på til lagres tapsfri som eller i innskannete av lagres i som de mindre skannerne. i filene opp det i informasjonen fotografiske filformater på vare tar ingen måten, er, bruker denne all ukomprimert at som også 4K stort samtidig skanneren. Dette kompresjon. samlingen originaler Selv fra råfiler bitfeil. følsomme langt de er formater fra noen av

finne det i den materialet gjøres Det strukturanalyse dramatisk også gjør i Recognition), prosesseringen Det all enklere tekst at inn eneste ikke det samlingen. legges før (Optical lageret. gjøres Det får å søkbar. mye og slik fram er Character OCR

de så ganske samme Faktisk fullteksten. så det er i i OCR-en Det kan Tidligere i er i tilgjengelig forteller det bøkene nå Teksten gjelder Det helt god, teksten avisene. vært men en det søke på 60 meningsfylt i ny i alle materialet. er har optisk har du avisene. folkebibliotek, av veldig – i er over digitalisert å bibliotekene, gjenfinning Solbakk. tilgjengelig verden gir prosent norske mikrofilm søke vi gjenkjent. Den i

FOLKETELLING: Det er ikke bare lesestoff som skal inn i arkivet. Her skannes telleskjemaer fra folketellingen i 1920. Når de er hundre år gamle, så kan de bli offentlige. (Foto: Stig Øyvann)
hundre er FOLKETELLING: lesestoff fra Det skannes (Foto: arkivet. skal år de de bli Når kan folketellingen Her offentlige. i bare telleskjemaer i gamle, Stig ikke inn 1920. Øyvann) som så er

det, søke kan et finne du dette er navn. alle, opp lese å hjemme, – ut om om til teksten ikon en tilgang søkbart du eksempel hva ditt med så du hjemmefra. Da for for ikke har får for du gå Så å hånd for som legger… det skrevet biblioteket på må ligger på All

Les om:

Lagring