Lehren für Anwender und Anbieter

Die 10 schlimmsten Cloud-Ausfälle

11.07.2011 von Werner Kurzlechner

Amazon, Googlemail, Hotmail: Das sind zwar klangvolle Namen, aber auch sie sind in der Liste der Ausfälle bei Cloud-Anbietern vertreten.

Vier Tage lang lief im April nichts bei Amazon Web Services. Schuld waren Turbulenzen im Rechenzentrum in Virginia.
Foto: Amazon

Cloud Computing kann mit vielen Vorzügen aufwarten. Aber auch die Wolke ist kein IT-Paradies. „Die Cloud wurde als magisches Ding verkauft, das einfach funktioniert und total zuverlässig ist“, sagt dazu Lew Moorman, CSO beim Cloud-Provider Rackspace.

Aber in Wahrheit sei auch Cloud Computing nur eine Möglichkeit, Computerleistung einzukaufen. Und diese sei immer anfällig für Störungen. „Wer sicherstellen will, dass solche Störungen keinen Schaden anrichten, braucht dafür einen Plan“, mahnt Moorman. In der Tat gab es in der kurzen Historie des Cloud Computing schon einige schlimme Ausfälle. Unsere amerikanische Schwesterpublikation InfoWorld hat die zehn heftigsten Fälle zusammengestellt und verrät, was Anwender daraus lernen können.

1. Amazon Web Service: Im vergangenen April kam es im Amazon-Rechenzentrum im US-Bundesstaat Virginia zu einer Panne. Der Fehler begann mit einem schief gelaufenen Netzwerk-Upgrade, in dessen Folge sich Datenträger von Amazons Elastic Block Store (EBS) quasi verselbstständigten und nach Backup-Platz für sich selbst suchten. Hört sich lustig an, war es aus Sicht der Kunden von Amazon Web Services (AWS) aber überhaupt nicht. Vier Tage lang lief nichts mehr. Zumindest für die Mehrzahl der Kunden.

InfoWorld nennt als positive Ausnahme das Unternehmen Netflix, das auf seine Reise in die Wolke von vorne herein einen Rettungsring für derartige Turbulenzen an Bord hatte: ein System-Design nämlich, in dem die Möglichkeit solcher Pannen von Anfang an berücksichtigt ist. „Unsere Architektur verhindert, dass EBS als unser Hauptservice für Data Storage genutzt wird“, berichtet Netflix. Genauso greife man nämlich auf die Services von SimpleDB, S3 und Cassandra zurück. Darüber hinaus werden die Daten laufend querbeet durch die Availability-Zonen kopiert, was einen Kollaps während des AWS-Ausfalls verhinderte. Auch beim IT-Dienstleister Twilio gab es keinen nennenswerten Schaden, obwohl das Unternehmen seine Infrastruktur bei Amazon EC2 gehostet hat. „Wir haben unsere Infrastruktur gemäß der Annahme aufgebaut, dass ein Host Pannen haben kann und wird“, sagt Twilio-CTO Evan Cooke. „Deshalb verlassen wir uns in unserer Kernarchitektur nicht auf eine einzelne Maschine oder Komponente.“

2. Sidekick: Es geschah im Herbst 2009. Ein Betriebsausfall bei der Microsoft-Tochter Sidekick sorgte dafür, dass die Nutzer fast eine Woche lang keinen Zugang zu E-Mails, Kalendernotizen und anderen persönlichen Daten hatten. Dann erst folgte das Ende mit Schrecken. Microsoft musste zugeben, die in der Cloud gespeicherten Bits komplett verloren zu haben. Keine Restore-Chance also, denn es waren keine Backups angelegt worden. Auch wenn sich die Technologie seither weiterentwickelt hat, warnt InfoWorld vor blauäugiger Abgabe der Verantwortung für Daten an irgendeinen Provider. Also: Niemals glauben, dass ein Dritter automatisch die eigenen geschäftskritischen Daten schützt. Am besten selbst für Backups sorgen, mindestens aber das Disaster Recovery-Setup des Cloud-Providers genau unter die Lupe nehmen.

3. Googlemail: Gerade für Geschäftskunden ist Googlemail eine attraktive Alternative zur Lizenzsoftware von Microsoft. Die wartungsintensiven Exchange-Server durch einen günstigen E-Mail-Dienst ersetzen, warum nicht? Aber auch Googlemail hatte bereits seine Ausfälle. Unlängst fanden 150.000 Anwender statt E-Mails und Ordner nur gähnende Leere in ihren Postfächern vor: das schiere Nichts. Immerhin hatte Google mit Updates vorgesorgt, nach wenigen Tagen war das Problem behoben. Die Erklärung für den Vorfall: Manchmal greife ein Software-Bug eben auch auf kopierte Datensätze über. Die Lektion für Anwender: Sorgfältig auf die Sicherungsmechanismen der eigenen Daten achten und eventuell prophylaktisch eine Backup- oder Offline-Zugangs-Lösung einsetzen.

Wolkenkuckucksheim Perfektion

4. Hotmail: Auch einige Anwender von Microsofts Hotmail kennen den Ärger mit leeren Postfächern. Ende vergangenen Jahres waren 17.000 User betroffen. Die Erklärung von Microsoft: Schuld war ein Script, das eigentlich nur Dummy-Accounts für automatische Tests löschen sollte. Das Problem dauerte drei Tage, für eine kleine Minderheit der Anwender sogar sechs Tage. Die Lektion aus dem Vorfall? Die gleiche wie im Googlemail-Abschnitt.

5. Intuit: Im Juni vergangenen Jahres kollabierten die Cloud-basierten Dienste von Intuit, darunter viel genutzte Plattformen wie TurboTax, Quicken oder QuickBooks. Und das gleich zweimal kurz hintereinander. In beiden Fällen hatte ein Stromausfall die Systeme inklusive Backups komplett lahm gelegt – einmal für geschlagene 36 Stunden. „Tatsächlich gibt es bessere Lösungen als eine Single Cloud, wenn absolute Erreichbarkeit benötigt wird“, kommentiert Chris Whitener, Chefstratege des Secure Advantage-Programms von HP. „Es ist gar nicht einmal nötig, alles zu duplizieren“, so Whitener weiter. „Denn allein ein eingebauter Extraschritt kann den Unterschied machen – zum Beispiel ein eigenes Backup kritischer Daten.“

6. Microsoft BPOS: Erst vor einigen Wochen traf es Firmenkunden, die die Business Productivity Online Standard-Suite von Microsoft nutzen. Im Mai verzögerte sich das Eintreffen von Mail plötzlich um bis zu neun Stunden. Zwei Tage später, als alles wieder in Ordnung schien, trat das Problem erneut auf. Zeitgleich gelang es manchen Anwendern nicht mehr, sich ins Outlook-Fach einzuloggen. Microsoft bedauert den Vorfall zutiefst.

7. Salesforce.com: Es handelte sich nur um eine vermeintlich kurze Stunde im Januar, in der das Rechenzentrum von Salesforce.com komplett versagte. Der Ärger war dennoch lautstark, schließlich lassen zehntausende Firmen ihren Kundendienst über den Cloud-Anbieter laufen. Verständliche Wut? Nein, meint Tim Crawford, CIO der Konica-Minolta-Tochter All Covered. Realistischerweise komme es vor, dass die Rechenzentren von Cloud-Dienstleistern hin und wieder zusammenbrechen. „Das war immer so und wird immer so sein“, sagt Crawford. Unternehmen müssten deshalb lernen zu entscheiden: Ist es verkraftbar, wenn Geschäftsdaten manchmal temporär nicht abrufbar sind? Dann können sie guten Gewissens in die Wolke. Ist das nicht der Fall, dann bedürfen sie eben einer speziellen Konfiguration.

8. Terremark: Der Cloud-Anbieter Terremark, der gerade für einige Milliarden US-Dollar an Verizon geht, machte Anfang 2010 Schlagzeilen wegen eines Ausfalls. Am 17. März kollabierte für sieben Stunden der vCloud Express-Service, weil es eine Störung im Rechenzentrum Miami gab. Wer seine Daten dort gespeichert hatte, konnte nun nicht mehr darauf zugreifen. Nach InfoWorld-Einschätzung zeigt dieser Fall den Wert von Redundanz: Es kann sinnvoll sein, wichtige Daten auf mehreren Servern in verschiedenen Rechenzentren zu platzieren – und zwar am besten in unterschiedlichen Regionen. Noch sicherer ist, die Dienste mehrerer Provider in Anspruch zu nehmen.

Die verkaufslose Stunde bei PayPal

9. PayPal: Ein Ausfall bei Zahlungsdienstler PayPal hätte wohl dramatische wirtschaftliche Folgen. Hypothetisch? Keineswegs, denn im Sommer 2009 fiel der Service schon einmal eine Stunde lang aus. Keine schöne Erfahrung für Händler, die ihre Waren online verkaufen. Nach Angaben von PayPal waren Hardware-Probleme für den Ausfall verantwortlich. Kommt vor. Wegen der Verkaufsausfälle findet PayPal dennoch Platz in InfoWorlds „Hall of Shame“.

10. Rackspace: Rackspace betreut die Webpräsenz von Größen wie Justin Timberlake und TechCrunch. Da fällt dann eben auf, wenn mehrmals hintereinander die Technik streikt. Ende 2009 geschah das viermal am Stück, die Websites der Kunden waren jedes Mal offline. Für einen Vorfall musste der Cloud-Anbieter 3 Millionen Dollar an seine Kunden zurückzahlen. Schmerzhaft sei diese Erfahrung gewesen, heißt es aus dem Unternehmen. Aber man habe daraus gelernt. Heute achtet Rackspace nicht nur darauf, derartige Vorfälle zu vermeiden. Der Anbieter bereitet seine Kunden auch darauf vor, dass Ausfälle manchmal unvermeidlich sind. „Die Cloud birgt keine inhärenten Schwächen in sich, die es zuvor beim In-House-Betrieb nicht auch schon gegeben hat“, schlussfolgert CSO Moorman. Absolute Sicherheit gibt es eben nicht. Wer sich dessen bewusst ist, tritt die Reise in die Wolke besser gerüstet an als andere.