Nettverksproblemer bak Ahus-kollapsen

Nettverksproblemer bak Ahus-kollapsen

En svitsj får skylden for at hele ip-nettet til Ahus gikk ned for telling i helgen.

Sykehuspartner har hatt en travel helg. Datakollapsen på Ahus betegnes som svært alvorlig, det tok 14 timer før systemene var oppe igjen.

Mandag morgen vet Cato Rindal, direktør i Sykehuspartner IKT, mer om årsaken til problemene, men det må jobbes enda mer for å komme til bunns i hva skjedde i helgen.

- Vi vet at det var nettverksproblemer som forårsaket at tele- og datasystemene ved Ahus var nede i helgen. Og vi har noen hypoteser vi jobber ut fra, sier han til Computerworld.

Nettverkskomponenter

Rindal ønsker å presisere at Sykehuspartner IKT har god innsikt i hva skjedde, og han mener de er nære å finne frem til årsaksfoholdene bak systemkollapsen.

- Vi har rimelig god informasjon om hva har skjedde. De nærmeste dagene vil vi, sammen med aktuelle leverendører, bruke for å verifisere våre hypoteser og finne rotårsaken.

- På Ahus er det vel Telenor, Microsoft, HP, Cisco og Imatis som har jobbet med en fellesløsning på kommunikasjon? Er noen av disse ansvarlig?

- Det er nødvendig med relevante fakta før vi kan si noe om det. Det er mange leverandører inn i bildet.

Kjernen til problemene er nettverkskomponenter.

- Det ser ut at det har vært med noen nettverkskomponenter, som trolig har forårsaket en loop i nettet. Det betyr folkelig sagt at nettet har vært overbelastet med “feilaktig trafikk”.

- Så det er ingen virus eller andre eksterne elementer?

- Nei, jeg kan avkrefte det er virus eller lignende. Det ser ikke ut som det er noe som har kommet fra utsiden. Vi har isolert nettverkskomponentene og fikk kontroll på dem. Så startet vi det hele opp igjen.

Farlig integrering?

- Skyldes dette programvare eller maskinvare?

- Det vet vi ikke ennå. Vi vil bruke dagen i dag, og eventuelt flere dager, for å finne ut av det. Vi skal komme til bunns til dette. Det er viktig å unngå at dette skjer igjen. Men i første omgang har vi konsentrert oss om å støtte sykehuset for å få alt til å fungere igjen.

Og han fortsetter:

- Det kan godt tenkes at nettverkskomponenten som sådan var redundant, men at reserveløsningen bare trer bare i kraft når den slutter å virke. Ikke når den går i feilmodus eller gir avvik og genererer feil ellers i nettet.

Etter det Computerworld har grunn til å tro, skyldes svikten på Ahus skyldes en dobbelt feil. En svitsj i et bladsystem med datamaskiner skal ha feilet samtidig som en Ethernet-forbindelse til sentralt hold bidro til et bombardement av meldinger.

Bladsvitsjen fra Cisco, som er levert av HP, sviktet med hensyn til oversikten over involverte it-komponenter – den såkalte topologien i systemet. Det hevdes at det ble brukt for gammelt utstyr. Hvorvidt svitsjen som feilet var foreldet, strides det om. Kanskje var den ikke optimal med hensyn til programvareversjon.

Meldingsutvekslingen som skulle sørge for alternativ tilgang til datamaskinene, var ikke riktig satt opp, slik at det ble overbelastning på det sentrale nettverkssystemet.

Dermed opplevde nettverksystemet i praksis et angrep innenfra som sørget for tjenestesammenbrudd, Denial of Service. Siden alt utstyr på Ahus benytter IP (Internet Protocol) virket ingenting. Også de interne telefonene på sykehuset benytter samme ip-nett og var dermed ute av funksjon.

Resultatet var at it-avdelingen måtte koble en skriver rett mot datamaskinene i datarommet for å få skrevet ut pasientjournalene, som måtte fordeles manuelt.

Trenger penger

- Hvordan skal det bli når Helse Sør-Øst og Sykehuspartner integrerer systemene enda mer, og nærmest alt henger sammen? Er ikke det en fordel at slike feil skjer på isolerte systemer?

- Det kan selvfølgelig bety noe å ha adskilte systemer, men vi må bygge med tilstrekkelig feiltoleranse. Samtidig må vi innse at man ikke kan bygge seg ut av alle feilsituasjoner. Av og til får man feil på noen komponenter. Det vil alltid være en mulighet for feil, mener Rindal.

- Trenger vi mer investeringer i datasystemer for å unngå slike feil?

- Rundt denne feilen kan jeg ikke si noe slikt, vi trenger flere fakta. Men generelt er det behov for økte investering for å gjøre oss mindre sårbare.

Sykehuspartner IKT vil nå lage en rapport over hva som foregikk.

- Det er vanlig prosedyre. Vi ser også at det er høy fokus hos statsråden (helse- og omsorgsminister Anne-Grete Strøm-Erichsen, red.) og fylkeslegen.

Nettverk