Amazon åpen om feil i nettskyen

Amazon åpen om feil i nettskyen

Nettskygiganten fortsetter en åpen linje med forklaring når noe skjærer seg.

I forrige uke førte et alvorlig strømbrudd til at nettskytjenestene til Amazon og Microsoft ble sendt av Internett i Irland. Dette rammet leveringen av tjenester til kunder i hele Vest-Europa. Men der Microsoft kom opp igjen og kjørte etter noen timer, slet Amazon i flere dager. Amazon forklarer hvorfor i en lang artikkel på nettet.

Les mer: Lyn slo ut Amazon og Microsofts nettskytjenester

Amazon fortsetter dermed sin linje om å fortelle åpent både om hva som skjer når avvik oppstår, og hvordan selskapet vil løse dem.

Les mer: Amazon mistet kundedata for godt

Det var Amazons tjenesteregion EU West som fikk gjennomgå denne gangen. Hardest rammet var infrastrukturtjenesten Elastic Compute Cloud (“EC2”) og plattformtjenesten Amazon Relational Database Service (“RDS”). I tillegg ble en mindre del av Amazon Elastic Block Store (“EBS”) rammet.

Hva må gjøres?

Amazon lister opp en rekke tiltak som skal hindre at denne feilen med uante følger skal skje igjen. Først og fremst skal strømfasesynkronisering av reservegenaratorene få et ekstra lag av reserve-kontrollere. Bedre lastbalansering skal stoppe prosesskøing når servere går ned. Administrasjonsfunksjonene skal kunne fungere bedre på tvers av regioner. Kunder skal få muligheter til å flytte og kjøre applikasjoner i flere regioner dersom noe feiler i hovedregionen de er i.

EBS-lagringen skal optimeres for å unngå lang gjenoppretting. Også tiltak mot å slette data ved en feil i programvaren etter maskinvaresvikt skal settes i verk.

En egen gjennomgang av hvordan kommunikasjon ut til kunder ble gjort er på trappene. Dette gjelder både informasjonstavler, kvitringer og kommunikasjon til kunder om hvor lang tid det ville ta innen Amazons tjenester var tilbake på nett, og hvilke alternativer som fantes av reservetjenester. Også økt bemanning av kundestøtte i krisesituasjoner, bedre informasjon om hvordan en kunde er rammet og hvordan en kunde kan ta i bruk de gjenopprettingsmulighetene som finnes.

Hva som gikk galt

Under tilkopling av reservestrøm fra generatorer etter strømbruddet, feilet synkronisering av de elektriske fasene for en kontroller. Dermed falt så store deler av reservestrømforsyningen ut at det som var igjen ikke kunne drive serverne når de batteridrevne avbruddsfrie strømforsyningene var tomme. Dermed falt servere ut, og det meste av nettverksrutere og –svitsjer fikk også en skogstur. Dermed var det svikt både i tilgang og tjenester.

Det tok 24 minutter fra hovedstrømsvikten til tjenestene ble koplet ut til varslingen kom til administratorene. Grunnen var at også administrasjonsserverne for regionen var plassert i den samme regionen. Så om tjenestene feilet, gikk varslene først til servere som var nede, eller som ikke hadde tilgang til å sende feilmeldinger videre.

Først når tjenestesvikten rammet andre tjenester slo alarmen til for fullt. I tillegg stoppet ikke oppstartssekvenser av nye tjenester å forsøke seg, og de havnet i endeløse køer. Dette førte til en overbelastning som det tok mye tid å rydde opp i. Denne køingen rammet også andre regioner, og tjenesteutføring for andre regioner ble dermed også rammet. Først når Amazon fikk koplet fra funksjonen for å starte nye sesjoner i region West EU etter en times tid, roet dette seg.

Om lag samtidig som det ble ryddet i køen, startet serverne å kople seg til etter at manuell strømfasesynkronisering var gjennomført. Det tok imidlertid nye to timer før tilstrekkelig strøm var koplet til at selve nettverket fungerte.

Programvarefeil i lagringstjenesten

At selve tjenestene var oppe hjalp ikke så mye for den delen av EBS som var rammet. EBS har en innbygd innstilling hvor data speiles mellom flere av de innebygde lagringsplassene (nodene), og om en faller ut, så finner de en annen vei til en ledig plass. Annen datatrafikk bremses opp til denne plassen er funnet. Dette gjør rekonstruksjon og oppstart tidkrevende for tjenester som har vært nedstengt eller ute av nettverket.

I verste fall kan feilen føre til at data i hovedutgave og reserve er inkonsistente. I tilfelle av usikkerhet, forutsetter rutinene til Amazon at dataene er inkonsistente. Da starter en møysommelig gjenopprettingssesjon for å sjekke datasettene for om de var av nyeste versjon.

Arbeidet med denne datasjekken varte fra mandag til torsdag.

For de som brukte databasetjenesten var gjenoppstartstiden helt avhengig av om kundene hadde valgt å ta sanntidssikkerhetskopi eller om de hadde skrudd denne funksjonen av. De som hadde skrudd den av, var avhengig av gjenoppretting av hoveddataene lagret i EBS. De som hadde denne funksjonen på, kunne jobbe på reservedatabaser mens hoveddatabasene ble rekonstruert.

Som en del av gjenopprettingsprosessene oppdaget også selskapet at det var en programvarefeil i EBS som ble utløst av en forholdsvis uskyldig maskinvarefeil uka før strømbruddet. Den førte til at sanntidskopier tatt i fart («snapshots») var blitt unøyaktige i hvilke data som var gjort klar for sletting etter oppdatering med ferske data. Dermed ble noen data endelig slettet ved en feil.

Mens en fiks av denne feilen ble utviklet og var under testing, gikk strømmen. Feilfiksen var likevel gjennomført og levert til kundene mandag kveld.

Strømleverandøren mente i starten at strømutkoplingen var en følgeskade av et kraftig lynnedslag. Dette er det nå tvil om, og det undersøkes også om det kan være andre grunner, uten at Amazon går i detalj.

Kunder som ble rammet, får en rabatt på leieprisen for mellom ti og tredve dagers bruk. De hardest rammete får også tilgang til premium-kundestøtten uten kostnader for gjenoppretting.

Enterprise