Rund 11 Stunden fiel der Simple Storage Service (S3) von Amazon Web Services in der Region Northern Virginia am Dienstag dieser Woche aus. Betroffen waren auch andere AWS-Dienste, die S3 nutzen, darunter Elastic Block Store, Lambda und Funktionen der Elastic Compute Cloud-Infrastruktur. Zahlreiche Websites von AWS-Kunden waren in der Folge für mehrere Stunden lahmgelegt, darunter die von Snapchat, Expedia und Netflix. Auch das Amazon Service Health Dashboard, auf der normalerweise Störungen angezeigt werden, fiel zeitweise aus.
Gestern entschuldigte sich AWS auf seiner Website für den Ausfall und kündigte eine Reihe von Maßnahmen an, um künftig Störungen zu verhindern. Den Angaben zufolge war ein Tippfehler eines Angestellten die Ursache für den Ausfall. Er habe eine kleinere Zahl von Servern für den S3-Dienst vom Netz nehmen wollen, die für die Abrechnungsprozesse der Cloud-Services genutzt werden. Diese hätten langsamer als gewöhnlich gearbeitet. Dabei habe der Mitarbeiter einen Parameter falsch eingegeben und damit eine ganze Reihe von Servern heruntergefahren, die kritische S3-Prozesse unterstützen. Das Rebooting der betroffenen Server habe anschließend länger als erwartet gedauert.
Als Reaktion auf den Ausfall werde man mehrere Änderungen an den internen Tools und Prozessen vornehmen, kündigte AWS an. Das Software-Tool etwa, mit dem Server heruntergefahren werden können, sei bereits dergestalt modifiziert worden, dass Rechner langsamer abgeschaltet und bestimmte Operationen automatisch blockiert werden, die die Rechenkapazität unter ein definiertes Sicherheitsniveau fallen lassen.
Ähnliche Maßnahmen prüfe man auch für andere eingesetzte Tools. Darüber hinaus arbeiteten AWS-Experten an Änderungen des S3 Index-Subsystems, um das Rebooting zu beschleunigen und die Auswirkungen künftiger Probleme einzudämmen. Bereits angepasst hat AWS eigenen Angaben zufolge die Administrations-Konsole seines Service Health Dashboard. Ausgerechnet die Webseite, auf der Störungen für Kunden angezeigt werden, konnten AWS-Mitarbeiter nach dem Ausfall eine Zeit lang nicht aktualisieren.