Herfra slo de av Altinn

Herfra slo de av Altinn

Les historien om Kenneth (36) og Altinns ferd fra nedetid til oppetid. Dette skjedde i kulissene.

Det er tirsdag, 20. mars. Klokken er 31 sekunder over 18.17.

"Kenneth B", i ettekant også kjent som Kenneth (36), logger inn på Altinn.

Han er den eneste som logger inn på dette tidspunktet. Lite skal han vite at han et døgn senere er Norges kanskje mest omtalte mann. Norges mest ukjente kjendis. Helt ufrivillig. Halvt avkledd.

På samme tidspunkt sitter det en fast gjeng på kveldsskift hos Basefarm. De kommer fra både Basefarm og Accenture. Brønnøysundregisteret er også i bygget, men plassert i et "eksternrom".

De sitter her hver gang selvangivelsen legges ut på Altinn. Systemet kjører stabilt 364 dager i året, 365 dager i år med skuddår.

Men på selve åpningen har det tradisjonelt sett oppstått feil, ettersom hele Norge forsøker å logge seg inn samtidig. Derfor er de på vakt, i år også.

Teamet, for anledningen ledet av Basefarms Thomas Klokkerhaug, sitter og overvåker last, responstider, prosessorer, i det såkalte operasjonsrommet, for å passe på at intet uventet skjer.

Skulle skoen plutselig trykke har de for eksempel mulighet til å justere størrelsen på inngangsportalen slik det ikke blir totalt kaos når brukerne roter rundt på innsiden.

Alarm!

Klokka 18:20 begynner det å lukte tåfis. Med ett blir det hektisk. Mer enn 400.000 brukere har så langt vært innom og lest sin selvangivelse, og nå begynner det å ramle inn meldinger om at de som logger inn har fått oversikt over Kenneths data.

- Det tok to minutter før overvåkingen vår så det og reagerte, sier Klokkerhaug.

Alarmbjellene går. Rommet ved siden operasjonsrommet, egentlig et kursrom, døpes om til "war room". Det okkuperes av teknikerne.

Brønnøysundregistrene ringes opp på videokonferanse - selv om de er plassert i samme lokale, er det kjappere å ringe dem enn å spurte bort.

En dramatisk avgjørelse blir tatt. Altinn skal kobles ned. Ikke ved at noen på datasenteret panikknapper ut kontakter, men via kommandoer, vi lever tross alt i 2012.

På pc-en rett på innsiden av krigsrommet, til venstre for døråpningen, tastes den faktiske kommandoen som gjør Altinn utilgjengelig for allmennheten.

Klokka er 18:34.

Nedkoblet

Puh, systemet er utilgjengelig for allmennheten. Ingen mer innlogginger på Kenneths bekostning.

Nå starter en systematisk jakt på feilkilden. Loggen viser i ettertid at ingen faktisk fikk lastet ned Kennehts selvangivelse.

Selv om 192 personer faktisk forsøkte.

Temperaturen senkes. Selv om det i krigsrommet en uke senere ligger flere velbrukte halvtomme pakker papirlommetørklær - og en nesten tom pakke på plassen der Altinn ble slått av - ble det svettet minimalt, ifølge Klokkerhaug.

Pust inn, pust ut. Beredskapsplanen iverksettes. Rasjonelle tanker fyller hodet.

Oppgaver deles i etapper. Hva i huleste skjedde, og hvordan kan vi få det til å skje igjen, tenker de og forbereder seg på å spise kraftig av både overtidsbudsjett og overtidsmat. Alt som gjøres, dokumenteres for fremtidig kunnskap.

Loggene fortalte dem at brukerne fikk tilgang til Kenneths meldingsboks uten at Altinns applikasjonsservere var innvolvert.

Dermed trådde last-balansereren Bigip inn i mistenkelighetens søkelys - det er den eneste delen i Altinn-infrastrukturen som mellomlagrer i hurtigminne, såkalt caching.

Basefarm hiver seg på tråden og ringer til leverandøren F5 for å få hjelp til å gå gjennom utstyret. F5 kaster seg rundt og befinner seg på krigsrommet før klokka 24.00 samme dag. De har allerede representanter på norsk jord og slipper å fly inn.

Samtidig dykker deler av gjengen på krigsrommet videre inn i Altinns hierarki, i fall problemet mot formodning skulle vise seg å være i en annen ende.

Sunne teknikere

Det går ikke i kebab. Det går ikke i hamburger. Det spises en del pizza, men først og fremst spises det faktisk rikelige mengder frukt. Klisjéen brister. Det går ikke i store mengder Red Bull og Cola, men i vann. Friskustrenden har inntatt it-bransjen.

Og kaffe da.

- Ja, det gikk nok en del kaffe, erindrer Klokkerhaug.

Han og administrerende direktør Bjart Kvarme har bestemt seg for å legge Altinn-kortene på bordet, og har invitert et knippe pressefolk til guidet tour og historiefortelling i kjølvannet av Kenneth-katastrofen. Hvordan jobbet de, hva gjorde de. Vi guides rundt.

Så får vi tatt en titt på det ene av to datasenter der Altinn kjører - både I og II, for så vidt -, lokalisert på et hemmelig og delvis bortgjemt sted i Oslo blant rundt 2.000 øvrige servere. Der er alt tilsynelatende på stell.

Rikelig fiber, masse batterier, dieselaggregater, tokrets isvannkjøling, jovial PUE, ekstra tak på innsiden av taket og masse varsellys og lydhorn som for anledningen hverken blinker eller uler faretruende.

Ingen eim av svidde elektrokomponenter fra de to toppfylte Altinn-rackene.

- Det var "business as usual" her i datasenteret da Altinn gikk ned, forteller "site manager", Ketil Kirkerud Elgethun

- Kenneth-episoden var aldri et kapasitetsproblem, understreker Kvarme.

Mer om dette senere.

Veien tilbake

Tilbake til 20. mars, det jobbes og jobbes i kulturell symbiose - Basefarm, Accenture og amerikanere.

Klokka bikker 21. mars. Det blir hett igjen. Det viser seg at Basefarms relativt nyinnflyttede lokaler på Nydalen stenger ned luftkondisjoneringen etter midnatt.

Pc-er dockes ut, krigsrommet flyttes til andre siden av bygget, til rommet ved siden av Basefarms driftsovervåkere.

Så får rengjøringspersonellet anledning til å rydde opp i pizzaesker og bananskall i det gamle krigsrommet.

Det gås gjennom last-balanserere, konfigurasjonsfiler, logger. I Amerikas forente stater jobbes det også, F5 er en av to giganter på dette området og brukes av en rekke store selskaper.

Globalt er situasjonen eskalert til høyeste nivå i selskapet, døgnkontinuerlig prøver F5 å gjenskape feilen i sin egen testlab.

Det tar tid. Derfor kommer de opp med en enkel midlertidig nødfiks for Altinn, slik at det norske folk atter kan beskue sine selvangivelser: Å koble ut mellomlagringsmodulen i lastbalansereren.

Da skal ting være operativt, selv om det kan gå utover ytelsen, sies det.

Modulen kobles ut, tester gjøres.

Altinn kommer opp igjen, uten disse modulene fredag 23. mars klokka 11. Rushtiden, den første dagen selvangivelsen kommer, er uansett over.

Altinn-systemet svetter ikke en dråpe akkurat nå, viser overvåkningssystemene.

En bug!

Fredagen før, sent på dagen målt i norsk tid, klarte F5 omsider å gjenskape feilen i Bigip fra andre siden av pytten. Rett og slett en god, gammeldags bug, viser det seg. Et totalt uventet hull i programvaren. Det har aldri skjedd før i hele verden.

- Det er slik med bugs, at noen må bli de første til å oppleve dem, sier Kvarme.

- Dessverre ble Altinn og vi de første til å finne denne.

Klokkerhaug hevder feilen "med ham vi helst ikke vil si navnet på" (Kenneth, red. anm.) ikke hadde noe med lasten å gjøre.

- Det hadde ingen sammenheng med trafikken.

Kvarme er totalt overrasket over det som viste seg å være feilkilden:

- Det siste vi trodde var at det var en bug i F5.

Den kunne ikke blitt forutsett uten videre, tror Klokkerhaug:

- Vi bruker mye tid i forkant av selvangivelsen på å teste, teste, teste. Funksjon og ytelse. Jeg tror buggen vi traff i cachen var såpass spesiell at den hadde vært nær umulig å forutse.

Enn så lenge fungerer Altinn "helt supert" uten cache, ifølge sjefen. Deatljer om omstendighetene rundt Altinn har F5 foreløpig ikke sluppet, men her om dagen publiserte de følgende dokument som kan være relevant for buggen. De har heller ikke fått på plass noen fiks foreløpig.

Neste år rundt disse tider er neste gang Altinn skal i ilden.

Da vil et kriseteam igjen samles i fall uheldigheter skulle oppstå.

- Neste år ser uansett mye annerledes i Altinn, sier Kvarme.