Cloud-Speicherdienst S3

Tippfehler zwingt die Amazon-Cloud in die Knie

03.03.2017 von Wolfgang Herrmann

Ein Tippfehler eines Mitarbeiters führte offenbar dazu, dass Amazons Cloud-Speicherdienst S3 in einer kompletten US-Region für mehrere Stunden ausfiel. Betroffen davon waren auch prominente AWS-Kunden wie Snapchat, Expedia, Adobe und Netflix. Amazon entschuldigte sich für den Ausfall.

Rund 11 Stunden fiel der Simple Storage Service (S3) von Amazon Web Services in der Region Northern Virginia am Dienstag dieser Woche aus. Betroffen waren auch andere AWS-Dienste, die S3 nutzen, darunter Elastic Block Store, Lambda und Funktionen der Elastic Compute Cloud-Infrastruktur. Zahlreiche Websites von AWS-Kunden waren in der Folge für mehrere Stunden lahmgelegt, darunter die von Snapchat, Expedia und Netflix. Auch das Amazon Service Health Dashboard, auf der normalerweise Störungen angezeigt werden, fiel zeitweise aus.

Wie sicher ist die Amazon-Cloud, wenn schon ein Tippfehler zu massiven Ausfällen führen kann? Das dürften sich so manche AWS-Kunden fragen.
Foto: Jonathan Weiss - shutterstock.com

Gestern entschuldigte sich AWS auf seiner Website für den Ausfall und kündigte eine Reihe von Maßnahmen an, um künftig Störungen zu verhindern. Den Angaben zufolge war ein Tippfehler eines Angestellten die Ursache für den Ausfall. Er habe eine kleinere Zahl von Servern für den S3-Dienst vom Netz nehmen wollen, die für die Abrechnungsprozesse der Cloud-Services genutzt werden. Diese hätten langsamer als gewöhnlich gearbeitet. Dabei habe der Mitarbeiter einen Parameter falsch eingegeben und damit eine ganze Reihe von Servern heruntergefahren, die kritische S3-Prozesse unterstützen. Das Rebooting der betroffenen Server habe anschließend länger als erwartet gedauert.

Als Reaktion auf den Ausfall werde man mehrere Änderungen an den internen Tools und Prozessen vornehmen, kündigte AWS an. Das Software-Tool etwa, mit dem Server heruntergefahren werden können, sei bereits dergestalt modifiziert worden, dass Rechner langsamer abgeschaltet und bestimmte Operationen automatisch blockiert werden, die die Rechenkapazität unter ein definiertes Sicherheitsniveau fallen lassen.

Ähnliche Maßnahmen prüfe man auch für andere eingesetzte Tools. Darüber hinaus arbeiteten AWS-Experten an Änderungen des S3 Index-Subsystems, um das Rebooting zu beschleunigen und die Auswirkungen künftiger Probleme einzudämmen. Bereits angepasst hat AWS eigenen Angaben zufolge die Administrations-Konsole seines Service Health Dashboard. Ausgerechnet die Webseite, auf der Störungen für Kunden angezeigt werden, konnten AWS-Mitarbeiter nach dem Ausfall eine Zeit lang nicht aktualisieren.