Norges største kalkulator

FRAM: Norges nyeste tungregnemaskin yter 955 TFLOP. Verdens kraftigste som er en kinesisk maskin, yter hundre ganger mer. Det er lenge siden den nyeste norske tungregnemaskinen ligger så langt ned på listen med 153. plass. I 2012 var det tre norske tungregnemaskiner som hadde plassering blant de hundre kraftigste i verden. Økningen er på beskjedne 398 TFLOP når Hexagon og Vilje snart tas ut av produksjon. En ny maskin i Trondheim er sårt tiltrengt.

Norges største kalkulator

Norsk forskning skal få ny regnekraft fra Fram, den kraftigste maskinen i Norge når den blir allment tilgjengelig i oktober. Det helt spesielle er at Fram også bidrar til oppvarmingen av universitetet i Tromsø.

I over 30 år har Norge sett nytten av å bruke kraftige datamaskiner, vanligvis betegnet HPC (High Performance Computing), tungregning, hvor bruk av programvare som utnytter prosessorenes beregningskapasitet, er fremtredende.

Mange forskningsoppgaver hadde ikke vært mulig uten tungregning. Bedre og bedre værmelding hadde ikke vært mulig uten. Fremtidig helseforskning vil ikke være mulig uten.

I den forbindelse bør avansert operativ helse og helseforskning konsentrere seg om én maskin siden våre helsedata er sensitive. Tjenester for sensitive data, TSD, med Colossus for bearbeiding bør få en betydelig oppgradering. Siden TSD vil komme til å bli betydelig viktigere har Universitetet i Tromsø, UiT, kjøpt seg inn i løsningen.

Fram skal være en av to tungregnemaskiner for perioden 2017 – 2021. Den andre skal leveres på NTNU i Trondheim i 2018.

-- Fram vil være et nasjonalt system som driftes fra Bergen, Oslo, Trondheim og Tromsø, sier Roy Dragseth, seksjonsleder for seksjon for digitale forskningstjenester ved Universitetet i Tromsø.

Nå må driftsfagfolkene på de enkelte universitetene jobbe tettere sammen, ikke bare sørge for å betjene egne forskningsoppgaver.

-- Vi er veldig fornøyd med at vi har fått til et tett samarbeid mellom universitetene, sier Steinar Trædal-Henden, gruppeleder for HPC på Universitetet i Tromsø.

Det helt spesielle med Norges nyeste tungregnemaskin Fram, er at den også er en varmekilde som sørger for oppvarming av Universitetet i Tromsø, UiT, slik at det spares millionbeløp.

-- Målet er at Fram skal være i full produksjon i oktober, sier Hans Eide, spesialrådgiver Uninett Sigma2.

Arkivering

Det kreves mer og mer store lagringssystemer for arkivering av resultater. Derfor er arkivsystemet Nird (nasjonal infrastruktur for forskningsdata) veldig viktig med en kapasitet på rundt 7,5 PB (7,5 millioner GB). Nird overtar etter det tidligere norske lagringssystemet Norstore.

Forskjellige forskningsgrupper lagrer mer enn 100 TB per år. To tunge brukere av lagringskapasitet er Kavliinstituttet i Bergen og Senter for nevrale nettverk i Trondheim. Også havforskningsinstituttet med det nye forskningsskipet Kronprins Haakon vil samle inn mye forskningsdata som må lagres.

-- Det er store endringer rundt tankesettet. Nå er det data det viktige. Tjenester tilpasses det, hevder Roy Dragseth.

De første oppgavene ble kjørt på Fram i begynnelsen av september. Fra første oktober skal den bearbeide alle de oppgavene den kan få. Til neste år vil Fram ha behov for mer kapasitet, for Hexagon, tungregnemaskinen i Bergen, og Vilje, tungregnemaskinen i Trondheim, skal tas ut av produksjon.

-- Vi kan lett fylle enhver datamaskin kun ved å øke kompleksiteten eller lengden på scenarioene vi studerer, sa Christoph Heinze, professor ved Universitetet i Bergen og Bjerknessenteret for klimaforskning under åpningsseminaret for Fram i mai, ifølge et innlegg på Uninett Sigma.

Heinze benytter Nird i forbindelse med sin modellering av jordsystemet for den perioden mennesket har kunnet påvirke jordens miljø og klima.

Ifølge Uninett Sigma er det 110 prosjekter som trenger lagringskapasiteten til Nird, det er over 300 prosjekter som trenger beregningskapasiteten til Fram og de gjenværende tungregnemaskinene. For sammenkobling benyttes det nasjonale forskningsnettverket Uninett med en kapasitet på 10 Gbit per sekund mellom de fire store universitetene.

Datasenter

-- Vi fant ut at vi måtte designe datasenteret etter hvordan Compute-systemet skulle se ut, basert på erfaring, helt siden Snowstorm, forklarer Roy Dragseth.

Snowstorm var en klynge med datamaskiner Universitetet i Tromsø benyttet for tolv år siden.

Roy Dragseth og daværende gruppeleder Svenn A. Hanssen begynte å interessere seg for utnyttelse av varme. For energibehovet for hver ny generasjon tungregnemaskin steg. Det kostet millionbeløp å sørge for strøm til tungregnemaskinene.

-- Når ytelsen blir 10.000 ganger større er strømkostnadene blitt hundredoblet, sier Roy Dragseth.

Den nye tungregnemaskinen Fram er minst 10.000 ganger kraftigere enn Snowstorm.

Mens andre jobbet med å redusere energibruken for avkjøling av datamaskinene, jobbet de på Universitetet i Tromsø med å utnytte varmen datamaskinene avga. Da måtte de heller undersøke hvor mye varme prosessorene tålte. Det er bedre å ha et varmt datarom enn ett som er virkelig kaldt ved hjelp av ekstra energi.

-- Prosessorer arbeider like godt med en overflatetemperatur mellom 17 og 60 grader, sa Roy Dragseth, da UiT anskaffet en maskin for utprøving av varmt vann.

Universitetet i Tromsø gikk til anskaffelse av HP Apollo 8000, en datamaskin som benyttet varmt vann for fjerning av ekstra varme fra prosessorene. Videre ble deler av tungregnemaskinen Stallo bygget om til å bruke varmt vann for fjerning av varme.

Datasenteret skal håndtere varme som skal gjenbrukes. Det var mottoet til Svenn A. Hanssen og Roy Dragseth da de fikk bygget et nytt datasenter. Det sto klart da forskningen i Norge trengte en ny tungregnemaskin. Med sin driftshistorikk på å levere gode tungregnetjenester til forskerne var det naturlig at Universitetet i Tromsø fikk den første av to maskiner som skal betjene norsk forskning frem til 1922.

Rangeres

Verdens beregningsressurser rangeres. Alle de kraftigste datamaskinene i verden plasseres på en liste over de 500 største. Norges regnekraft er bare innom denne listen over de 500 kraftigste maskinene. Den faller raskt ut igjen. I Norge anskaffes det nytt beregningsmaskineri grovt sett hvert fjerde år.

I juni 2013 hadde Norge tre maskiner på listen over verdens kraftigste. Det var NTNU med Vilje med en kapasitet på 396,7 TFLOP, Universitetet i Oslo med Abel med en kapasitet på 178 TFLOP og Universitetet i Bergen med Hexagon med en kapasitet på 160 TFLOP.

1 TFLOP er tusen milliarder desimaltallsberegninger per sekund. Resultatet oppnås ved en test som betegnes Linpack som foretar en matriseinvertering. Testen er i dag ikke særlig brukbar, men har blitt en sammenligningsstandard mellom dagens maskiner og mellom dagens og tidligere generasjoners maskiner. I Norge regnes en generasjon for fire år.

Den nye datamaskinen Fram vil være på listen når den er ferdig testet og godkjent for bruk for forskningsformål i Norge. Denne vil være 2,4 ganger kraftigere enn Vilje. Alle de andre norske kraftige maskinene når ikke opp blant de 500 viktigste.

I juni 2013 da det var tre norske datamaskiner blant de 500 største, var Vilje, den kraftigste, var 68. plass, ett av de beste resultatene noen sinne. I juni 2015 var maskinen på 168. plass, året etter på 331. plass. Nå er den forsvunnet fra listen.

I øyeblikket benytter Norge fem tungregnemaskiner, den nye Fram og Stallo ved UiT, Vilje på NTNU, Hexagon ved Universitetet i Bergen og Abel i Oslo.

-- Hexagon og Vilje skal skrus av når Fram kommer i full produksjon, sier Hans Eide.

Styrer mer

Uninett Sigma2 har tatt over styringen av norsk tungregning. Tidligere styrte Uninett Sigma tildelingen av midlene fra Norges Forskningsråd. Nå bestemmes det mer. Det skal ikke lenger være tungregnemaskiner på de fire største universitetene i Norge.

Før søkte de fire universitetene om midler til egen tungregneforskning. Da gjaldt det å ha en god driftshistorikk og en alternativ løsning for tungregnemaskinen slik at maskinene kunne prøves ut og dedikeres for spesielle forskningsoppgaver.

Men etter hvert som Intel har tatt over en dominerende posisjon på prosessorteknologi for tungregnemaskiner, har maskinene blitt mer og mer like. Da kan de like gjerne samles på ett sted. Hvor mange tungregnemaskiner Norge skal ha har vært en diskusjon i mange år. Nå har man blitt enige om ett tungregnesenter, fordelt på to steder for nødvendig sikkerhet. I tillegg skal utstyret anskaffes på forskjellig tidspunkt for raskere å få med seg teknologiutviklingen.

Det skal være to større maskiner som anskaffes med to års mellomrom for bruk av alle universitetene. Det omfatter også Universitetet i Stavanger, Universitetet i Agder, Norges miljø- og biovitenskapelige universitet (NMBU) og alle andre høyskoler med behov for tunge beregninger.

Belastningen på den nye løsningen blir dermed ikke mindre. Sannsynligvis er den nye løsningen for liten allerede etter kort tid. Abel på Universitetet i Oslo vil trolig bli skrudd av i 2018 fordi den ikke lenger er kostnadseffektiv. Da er det å håpe på at den kommende erstatteren av Vilje på NTNU har kommet langt i testingen slik at det ikke bare blir Fram som skal håndtere den norske tungregneforskningen.

Selv om Abel og Stallo ikke er kostnadseffektive i 2018, kan det bli et spørsmål om å kunne skru dem av. Fram har ikke nok kapasitet til å kjøre alle oppgavene inntil den nye maskinen på NTNU er gjennomtestet og operativ.

Trangere

Relativt sett er Fram med sin 153. plass i juni 2017 langt bak Vilje som var på 44. plass i juni 2012. Med 96. plass for Abel ved Universitet i Oslo og 112. plass for Hexagon ved Universitet i Bergen i 2012, hadde Norge mye datakraft for datidens forskning.

-- Det er trangere nå enn i 2013. Da fikk nær sagt alle forskningsprosjektene det de søkte om, påpeker Hans Eide.

Andre virksomheter har stor tiltro til behovet for tungregning. Eksempelvis har Volvo Personvagnar anskaffet en tungregnemaskin med 90 prosent av kapasiteten av Norges nyeste Fram, bare for utvikling av neste generasjon personbiler.

-- Det er planlagt en utvidelse av Fram med bevilgning fra Norges Forskningsråd, forklarer Hans Eide.

Det er Kina som har tatt føringen. Den kraftigste i verden er en egen kinesisk utviklet tungregnemaskin. Den nest kraftigste er også kinesisk basert på amerikansk teknologi.

For det er forskning verdens største datamaskiner bidrar til. Amerikanske datamaskiner har gjennom årene dominert listen over verdens største datamaskiner. Det har vært datamaskiner på dedikerte laboratorier, vesentlig benyttet for forskning på alle områder som har militær interesse. Kravene til militære myndigheter har dermed bidratt til betydelig teknologisk utvikling innen datamaskiner de seneste 40 årene.

I Norge har forskning med kraftige datamaskiner konsentrert seg om NTNU, Universitetet i Bergen, Universitetet i Oslo og Universitetet i Tromsø.

Forståelse

Den første kraftige datamaskinen, Cray X-MP, kom i 1986 til NTH i Trondheim og bidro mye til forståelsen av behovet for beregningsmaskiner. Innkjøpsprisen var 60 millioner kroner.

Raskt ble det et tett samarbeid mellom NTH og Meteorologisk Institutt som så hvordan værmeldingen kunne forbedres ved hjelp av observasjoner og matematiske modeller. Fra 1988 og frem til 2015 ble værmeldingen beregnet på NTNU, men så inngikk Norge og Sverige et samarbeid på værmelding og skaffet en felles beregningsmaskin som er plassert i Sverige i datasenteret på Universitetet i Lindköping.

-- Det er to maskiner i Lindköping, en som benyttes for den norske værmeldingen, en for den svenske. Nå har vi nettopp inngått en avtale om samarbeid med de finske meteorologene. Vi forbereder en ny anskaffelse for den neste perioden. Maskinene vil bli plassert i Lindköping fordi deres driftsmiljø var best, sier Roar Skålin, administrerende direktør på Meteorologisk Institutt.

Kapasiteten på den nye maskinen antas å være på 1,5 PFLOP som tilsvarer 1,5 million milliarder desimaltallsberegninger per sekund. Det er først og fremst for operativ værmelding. Etterbehandlingen skjer på Meteorologisk Institutt på Blindern og resultatet studeres over hele verden via YR på mobiltelefonene. Forskning på klima vil delvis foregå på det norske tungregneutstyret.

For fire år siden benyttet Meteorologisk Institutt bare en del av Vilje i Trondheim. Nå er det nærmest ikke snakk om å få nok. Derfor jobbe det aktivt med forbedringer til værmodellene. Derfor jobbes det med finere modeller for mindre områder som krever ytterligere data.

Tidligere var det Hirlam som var den viktige værmodellen. Nå er det Arome som gjelder. En rekke av den samme modellen kjøres samtidig i et ensemble.

Med det stormfylte været som har vært de senere år har britiske meteorologer innsett at de må større bearbeidingskapasitet. United Kingdom Meteorological Office har anskaffet en tungregnemaskin som er på ellevte plass over verdens kraftigste datamaskiner og yter 7,039 PFLOP ved hjelp av 241.920 beregningskjerner.

Aldri nok

Etter som forskerne har forstått verdien av bruk av tungregning til forskning får de aldri nok kapasitet. Den norske satsningen er relativt sett betydelig lavere enn den var da den første tungregnemaskinen Cray X-MP ble anskaffet i 1986 til en pris på 60 millioner kroner og plassert i Trondheim på NTH. Maskinen hadde bare en kapasitet på 0,5 GFLOP. Dagens Vilje som skal fases ut, er rundt en million ganger kraftigere enn den første Cray X-MP.

Det er oppgavene som krever. Nevnes kan Alzheimer, astrofysikk, atomfysikk, demens, DNA, dynamiske porteføljemodeller, kjemiske og biologiske prosesser på molekylnivå, klima, kreft, marine økosystem, mekaniske egenskaper ved Ugelstad-kuler, metallurgisk forskning molekylfysikk, multikomponent kjølevæsker, prognoser av nonlineære systemer basert på Ensemble Kalman filter, språk og væskedynamikk for bølger og undervannssystemer.

Mange av applikasjonene kan endre på forutsetningene og nærmest knele den nye tungregnemaskinen Fram.

-- Beregnings- og lagingsfasilitetene har alltid vært en begrensende faktor i vår virksomhet. Vi vil alltid be om mer elektronisk infrastruktur, understreket Chrisoph Heinze på åpningsseminaret for Fram ifølge Uninett Sigma.

Finansieringen har foregått gjennom Uninett Sigma. Det er benyttet 65 millioner kroner til innkjøp. Det vil bli benyttet 75 millioner kroner fra de norske universitetene til årlig drift og vedlikehold, hvorav 25 millioner kroner fra Uninett Sigma.

Kjerner

-- De fleste brukerne trenger fra hundre til tusen kjerner for oppgavene sine. Mange av kjøringene er lite parallelliserbare, men man oppnår gevinst ved at man kan kjøre mange uavhengige analyser samtidig, forklarer Roy Dragseth.

På bakgrunn av arbeidet til daværende gruppeleder Svenn A. Hanssen og seksjonsleder Roy Dragseth ble det sendt ut en anbudsinnbydelse på Fram hvor det var presisert at prosessorene skulle tåle væskegjennomstrømming med varmt vann.

Det var mange tilbydere, men flere hadde nok undervurdert datamaskineriets evne til å tåle varme.

-- Mange av tilbyderne ville jobbe sammen med oss, sier Svenn A. Hanssen som i mer enn ett år har vært administrerende direktør i Serit IT Partner Tromsø.

På grunn av hans bakgrunn og ansettelse av to fagfolk med tungregnekompetanse ble Serit IT Partner i Tromsø interessant som distributør for tungregneleverandører uten egne fagfolk i Norge. Etter vurderinger valgte Serit å jobbe sammen med Lenovo som overbeviste at de hadde teknologien for bearbeiding med varme datamaskiner.

Lenovos fortrinn var at de hadde en glimrende byggeblokk, Nextscale, konstruert av IBM og lansert før Lenovo overtok IBMs divisjon for dataromsmaskiner basert på Intels prosessorteknologi.

Lenovo var i stand til å svare på alle kravene Universitetet i Tromsø stilte i sin forespørsel for nytt tungregnemaskineri. Andre leverandører prøvde også, men ikke alle var forberedt på å bruke varm væske for å oppnå ytterligere oppvarming fra prosessorene.

Vant kontrakten

Serit IT Partner Tromsø leverte tilbudet fra Lenovo og vant kontrakten, men det ble protestert så det tok tid før Serit IT Partner Tromsø endelig kunne starte leveransen.

-- Serit IT Partner vant en utmerkelse fra Intel og Lenovo hvor det fremheves at vi har levert verdens største tungregnemaskin gjennom en partner, fremhever Svenn A. Hanssen stolt.

Siden har det vært utprøving og testing gjennom sommeren. Ikke alt gikk etter planen. Lenovo hadde problemer med sammenkoblingsteknologien mellom bearbeidingsnodene som er basert på 100 Gbit Infiniband. Alle svitsjene ble byttet ut.

Videre var Lenovo usikker på om plastrørene som førte det varme vannet over prosessorene holdt tilstrekkelig kvalitet. Derfor ble plastrørene skiftet ut og erstattet med metallrør.

Fram består av tre forskjellige typer datamaskiner avhengig av størrelsen på minne i maskinene. Totalt er det 1054 maskiner, vanligvis kalt noder. Det er oppgavene til forskerne som avgjør hvor mye minne som trengs. For å kutte kostnader anskaffes ikke mer minne enn nødvendig. Også Abel ved Universitetet i Oslo har forskjellig type maskiner avhengig av kravene til forskernes applikasjoner.

Det er 988 datamaskiner, noder, med minst minne, 32 GB, per maskin. I hver maskin er det plassert to prosessorer. To av disse maskinene plasseres ved siden av hverandre i kabinettet. Hver har en høyde på 1 U, rundt 4,6 centimeter. Opprinnelig var det bare 932 datamaskiner, men da ble det siste kabinettet bare halvfullt, så det ble anskaffet 56 maskiner til. Alle disse maskinene har 64 GB minne, det vil si 2 GB per beregningskjerne.

Neste kategori har 256 GB minne per prosessor, totalt 64 noder. Siste kategori har 3 TB minne per prosessor. Det er to slike fete datamaskiner. Det vurderes å gå til anskaffelse av enda en kategori noder hvor grafikkytelse er vesentlig.

Minnestørrelse

Forskjellig størrelse på minne er det som nå karakteriserer forskjellige typer maskiner, i praksis det som tidligere var et krav om at universitetene skulle ha forskjellige datamaskinprofiler.

For det er data som setter større krav. Fram har derfor anskaffet rundt 7,5 PB med lagring fra den tidligere tungleverandøren SGI som benytter den lagringssystemet til spesialisten Data Direct Network, DDN.

I motsetning til de fleste er det norske tungregnemiljøet opptatt av virkelig lagringskapasitet ikke teoretisk. Det betyr at den teoretiske kapasiteten må deles på 1024 for hver tusen. 7,5 PB tilsvarer derfor 6,7 PiB hvor i antyder at systemet har tatt hensyn til virkelig lagringsbehov basert på Byte.

For ekstra sikring av dataene er de ikke plassert sammen med Fram, men i det ene datarommet til sykehuset i Nord Norge. Det benyttes flash for effektiv tilgang og platelagre for forskningsdataene.

Kapasiteten brukes til tre lagringsoppgaver, scratch som er midlertidig lagring mens applikasjonen foretar forskningsberegningene, hjemmeområdet for forskningsdataene og indeksen, det vil si metadataene til hvor de arkiverte dataene befinner seg.

For styring av oppgavene brukes programvaren Slurm og for lagring av dataene, filsystemet Lustre. Operativsystemet er Centos.

Slurm sørger for tildeling av ressurser som noder, starter og overvåker alle de samtidige arbeidsoppgavene og sørger for køordning av alle forskningsoppgavene.

Lustre er et navn for å angi Linux brukt på klynger (Clustre) og er et parallelt filsystem som har blitt utviklet siden 2003 av en rekke interessenter. I dag er det i praksis Intel som står bak.

Centos er eid av Red Hat og utvikles som en del av deres standard for åpen kildekode, men er adskilt fra Red Hats egen kommersielle versjon RHEL (Red Hat Enterprise Linux).