Derfor krasjet Linpro-kundene

Derfor krasjet Linpro-kundene

Problemer med kjøling i et Oslo-datasenter førte til nedetid for en rekke nettsteder mandag. VG var utilgjengelig i tre kvarter. Gårsdagen ble tøff for Redpill Linpros kunder.

Rett før klokka 13 mandag, forsvant plutselig en rekke nettsider fra cyberspace. Blant dem som var utilgjengelige var VG, Klikk.no, Teknisk Ukeblad, Journalisten, samt vårt eget nettsted Computerworld.no og relaterte publikasjoner, samt diverse nettsteder tilhørende ulike øvrige selskaper.

Ifølge RIPE-oppslag bor alle de nevnte serverne hos Redpill Linpro, enkelte av dem, som Computerworlds nett-univers, driftes også av Linpro.

Ifølge Linpros administrerende direktør i Norge, Margrethe Gleditsch, skyldtes feilen problemer med kjøling hos en av deres underleverandører, TDC.

- Det var problemer med kjølingen hos vår driftssentral hos TDC som medførte nedetid på mange av våre egne systemer og en del av våre kunder, sier hun mandag formiddag.

Feilen startet klokka 12:53 og førte til at temperaturen steg veldig raskt.

Hafslund-feil ga følgefeil

Redpill Linpro er bare en av flere som leier rom i datasentrene, så det er ikke nødvendigvis bare deres kunder som har blitt berørt av denne feilen. Gleditsch har ikke oversikt over hvor mange som ble berørt av deres kunder.

Ifølge teknisk direktør i TDC, Kirsti Løvnes, slo en feil i strømnettet til Hafslund ut noen sikringer, som gjorde at sirkulasjonen på kjøleanlegget stoppet. Selskapet fikk umiddelbart alarm, og ankom datasenteret klokka 13:04. Kjølingen skal ha blitt startet igjen klokka 13:11, ifølge TDCs logg.

- Det er to kunder som hang på den kjølingen, forteller Løvnes.

Og en av disse var altså Linpro.

- Bør det ikke være en form for redundans på slike ting som kjøling i et datasenter?

- Det er opp til kunden selv hvordan de setter opp dette, sier Løvnes.

Gleditsch mener derimot de temperaturene som plutselig rammet Linpros datahall ikke er i henhold til deres tjenesteavtale med TDC.

- Vi har en tjenesteavtale på temperatur, og dette var langt utenfor. Det er opp til TDC hvordan de oppfyller kravene i tjenesteavtalen, sier Gleditsch, som legger til at dialogen med TDC har vært god og at det er første gang TDC ikke har levet som de skal i akkurat denne hallen.

- Trøbbel med «failover»

Mandag klokka 13:30 ble det rapportert til Gleditsch at feilen var fikset. Ettersom det ble en hard og brutal nedstenging av datasystemene etter feilen i kjølingen, måtte Linpro jobbe kunde for kunde for å få opp systemene, som måtte sjekkes for feil.

De av kundene som har redundans i kontrakten, skal ha kommet på nett via speilede systemer, ifølge Gleditsch. Computerworld har imidlertid vært i kontakt med kunder som hevder de redundante systemene de har kontraktfestet hos Linpro brukte utilgivelig lang tid på å komme opp.

Gledtisch opplyser tirsdag at det stemmer det at en av kundene med automatisk redundans i kontrakten ikke failet over til det andre datasenteret. Ellers gikk de andre automatiske failoverene som de skulle, og det ble gjort en løpende vurdering hos dem som hadde manuell redundans, ifølge direktøren.

- De med manuell failover hadde også en Varnish-server på andre siden som stod og leverte, så det var greit for dem å ikke gjøre endringer i perioden det gjaldt, sier Gleditsch.

VG med DNS-trøbbel

VG Netts servere holder til hos Redpill Linpro, men it-staben i avisa drifter egne severe selv. Ifølge VG Netts driftssjef Audun Ytterdal var det en uheldig inkurie som førte til at Norges største nettsted for mange ble oppfattet som nede i hele 47 minutter.

- Det gikk litt i dass, ja, sier han om gårsdagen.

- Vi feilet over til andre siden, og det fungerte stort sett, men det var et par ting vi ikke hadde tatt høyde for.

Redundansen skulle i utgangspunktet ha gjort feilen på det ene datasenteret til «grei skuring», men en DNS-server på den andre lokasjonen som ikke svarte ga VG.no trøbbel. VG-serverne har to DNS-servere de kan spørre om navn, og hvis de ikke får svar fra den ene, spør de den andre. Om den første DNS-serveren som blir spurt har krasjet eller har gått tom for strøm, svarer den ikke, og da blir forespørselen hengende et eller to sekunder. Slik ble det i går.

- Når du får 60.000 treff i sekundet, baller dette på seg. Som konsekvens fikk maskinene våre for mye å gjøre, eller rettere sagt, de ventet for mye, påpeker Ytterdal.

Lært av feilen

At kjølingen feilet gjorde at serverne slo seg av, som de skal, en etter en. Kuriøst nok hadde det imidlertid vært bedre for VG Nett om alt slo seg av på likt.

- Vi har failet bort fra Linpro mange ganger tidligere, for eksempel på grunn av vedlikehold, og det går fint. Det er to måter å faile over. Det ene er den hyggelige og pene, der vi pent og pyntelig failer over. Så har vi den kjipe, der vi mister alt på flekken, og selv om det er kjipere, så funker dét også, begynner Ytterdal.

- Men det som skjedde her, var at vi mistet maskiner litt hist og her fordi temperaturen var for høy, så vi skjønte ingen ting. Vi begynte med en hyggelig failover, men den ble stoppet midt i jobben sin. Hadde alt slått seg av i smell, hadde det ikke vært så problematisk, det hadde bare vært å stenge ned og ta opp på andre siden, sier Ytterdal.

De har lært noe nytt av gårsdagen, iføgle driftssjefen.

- Vi har funnet et par ting vi skal gjøre annerledes, for eksempel å gjøre DNS-delen riktig. Fiksen er å bare spørre den andre DNS-en.

Les om: