HELE VERDEN: Onsdagens Azure-krasj berørte de aller fleste av Microsofts datasentre. (Foto: Skjermbilde fra Microsoft, montasje: Computerworld)

Oppgradering krasjet Azure

Mange tjenester verden over nede i nesten et halvt døgn. Microsoft har begynt ryddejobben.

Stig Øyvann

Publisert fredag 21. november 2014 - 10:38 Sist oppdatert fredag 21. november 2014 - 10:44

Rett før klokken to natt norsk tid til onsdag begynte en rekke av tjenestene i Microsofts offentlige skytjeneste Azure å bli utilgjengelige i mesteparten av verden. Ifølge Azure-bloggen til selskapet var tjenestene tilbake i drift klokken kvart på ett onsdag – et driftsavbrudd på nesten 11 timer, som rammet svært mange brukere av tjenestene.

Det gjorde ikke saken bedre at feilen satt i en av de grunnleggende komponentene i arkitekturen – Azure Storage. Dermed sluttet svært mange tjenester å fungere, fordi de bruker den underliggende lagringstjenesten.

Dette er ikke første gang Microsoft har problemer med stabiliteten til tjenestene sine, forrige gang var i august i år, og da var også mange av tjenestene utilgjengelige i mange deler av verden. Den gangen tok det bortimot en uke før alle tjenester var i normal drift igjen.

Ytelsesoppgradering

Ifølge bloggen skyldtes sammenbruddet en oppgradering som skulle gi lagringskomponenten en stor ytelsesforbedring . Til tross for at den oppgraderte programvaren hadde kjørt i «ukesvis» i en begrenset del av infrastrukturen, ble ikke feilen i koden oppdaget.

Selve feilen sendte frontend-maskinene for lagringen av ustrukturerte data - «Blob storage» - inn i en uendelig løkke. Resultatet av dette var at frontend-maskinene ikke klarte å håndtere ny trafikk, noe som i sin tur førte til at alle overliggende tjenester som bruker lagringssystemene ikke lenger fungerte normalt.

Feilen ble distribuert ut til flesteparten av Microsofts datasentre, noe som selskapet tilskriver en «operasjonell feil». Standardprosedyren for utrulling er å oppgradere produksjonssystemene gradvis.

Bot og bedring

I bloggen beklager Jason Zander, direktør for Microsofts Azure-team, denne hendelsen. Han legger seg imidlertid ikke fullstendig flat, og dermed er kommentarkjeden under bloggposten full av sinte meldinger fra brukerne av tjenesten.

Det er særlig ett av resultatene av denne hendelsen som får kundene til å rette harmdirrende kritikk mot Microsoft: Administrasjonsportalen indikerte ingen feil på tjenestene i flere timer etter at feilen inntraff. Den viste at alt var i orden, til tross for at mange kunder allerede var i kontakt med Microsoft Azure support, og diskuterte feilen med disse. Forklaringen på feilindikasjonen var at også administrasjonsportalen bruker lagringstjenestene i Azure, og dermed feilet også denne programvaren.

Tiltakene som Microsoft planlegger for å unngå lignende hendelser i framtiden listes opp i bloggen. Flere av disse ser ganske selvinnlysende ut, som for eksempel at utrulling av oppgraderinger skal skje gradvis og kontrollert. I tillegg skal selskapet reparere programfeilen som gikk i uendelig løkke, og reparere dashbordet som viser tjenestenes tilstand og status.

Ifølge bloggen ble følgende tjenester berørt av denne feilen: Azure Storage, Virtual Machines, SQL Geo-Restore, SQL Import/export, Websites, Azure Search, Azure Cache, Management Portal, Service Bus, Event Hubs, Visual Studio, Machine Learning, HDInsights, Automation, Virtual Network, Stream Analytics, Active Directory, StorSimple og Azure Backup Services.

Oppgradering krasjet Azure

Mange tjenester verden over nede i nesten et halvt døgn. Microsoft har begynt ryddejobben.

Ytelsesoppgradering

Bot og bedring

På slottsplassen igjen - nå som helseminister

Vi må prate mer om det som ikke synes

- Vi får en helseminister uten helsepolitisk bakgrunn

Støre endrer ikke innleiereglene

Signicat med nye løsninger for at bedrifter kan overholde regelverk

Eye-share fortsetter veksten

Ny avtale gir kommuner tilgang til mer digital kompetanse

Kunstig intelligens vil føre til effektivitet og produktivitet

Lanserer ny generasjon sikkerhet for AI-alderen

Nye miljøkrav til it-bransjen

Hyppige jobbskifter blant it-ansatte er en gavepakke til hackere

Lanserte ny AI-modell i verktøykassa

Vi må diskutere hvor mye strøm du og jeg bruker i datasentre

Arne Magnussen utviklingssjef i Nutanix

Youtube går etter apper som blokkerer reklame

NAV klager på rekordbot fra Datatilsynet

NAV best på brukeropplevelse

Elon Musk vil belaste nye X-brukere for å poste innlegg

SHE 2024: Lytt og lær - og ta action!

Microsoft og Google mest brukt til phishing

Statens vegvesen vil bli mer datadrevet

Skal gi bedre oversikt over sikkerhet i skyen

Vi trenger referansekvinnen