IT-Ausfall in der TK
Was CIOs aus dem Optus-Desaster lernen können
Der Rücktritt von Optus-CEO Kelly Bayer Rosmarin nach dem massiven Ausfall des australischen Telekommunikationsunternehmens macht deutlich, was auf dem Spiel steht, wenn es um das Business Continuity Management (BCM) von Unternehmen geht. Anfang November waren die Hälfte aller Einwohner Australiens und 400.000 Unternehmen bis zu zwölf Stunden ohne Telefon und Internet. Bei einer Senatsuntersuchung berichtete Lambo Kanagaratnam, Manager des Providers für den Bereich NetzwerkeNetzwerke, dass Optus "keinen Plan für einen Ausfall dieses Ausmaßes" hatte. Alles zu Netzwerke auf CIO.de
Derartige Probleme sind bei weitem keine Einzelfälle, sie kommen in vielen Unternehmen mit unterschiedlichem Schweregrad vor. Analysen zufolge steigen die Kosten solcher Ausfälle, wie der "Annual Outage Report 2023" des Uptime Institute zeigt. Ex-CEO Rosmarin selbst räumte ein, dass sie eine Ersatz-SIM-Karte des Konkurrenten Vodafone dabeihatte - und dass sie seit dem Vorfall nun eine zweite Ersatz-SIM-Karte des Konkurrenten Telstra bei sich trägt. Während des Ausfalls konnte Optus 228 Notrufe nicht verbinden.
Das Ereignis sollten nicht nur IT-Entscheider zum Anlass nehmen, ihre Pläne zu überdenken und Investitionen zu tätigen, mit denen sich die Risiken und Auswirkungen eines solchen Ausfalls reduzieren lassen. Vor allem CIOs können aus dem Fall Optus einige Lektionen ableiten.
Führen Sie ein Test-Protokoll für Updates ein
In ersten Berichten von Optus wurde der Ausfall mit "Änderungen der Routing-Informationen eines internationalen Peering-Netzwerks" in Folge eines "routinemäßigen Software-Upgrades" in Verbindung gebracht. Die Muttergesellschaft SingTel hat diese Erklärung inzwischen dementiert und darauf verwiesen, dass die Sicherheitssysteme in den Routern von Optus fehlerhaft waren und nicht die Softwareaktualisierung.
Wie dem auch sei - der Ausfall unterstreicht einen wichtigen Punkt: Vor der Einführung von unternehmens- oder netzwerkweiten Aktualisierungen sei es ratsam, diese auf einem internen System zu testen, bevor sie in das Netzwerk hochgeladen werden, sagt Telekommunikations-Analyst Paul Budde. "Wenn es einen Fehler gibt, muss das Netzwerk ihn erkennen und herausfiltern, sonst kann es zu einem Kaskadeneffekt im gesamten System kommen", so Budde. "Und wenn das gesamte Netzwerk ausfällt, haben die Techniker Probleme, den Zugriff zu erlangen. Dann stellt sich die Frage: Wie sieht es mit der Redundanz aus?"
Schwachstellen aufzeigen und beheben
Gabby Fredkin, Leiter der Abteilung Daten und Analysen beim IT-Forschungs- und Beratungsunternehmen Adapt, hält es für unerlässlich, die Infrastruktur eines Unternehmens zu kartieren, die Dienste zu segmentieren, Schwachstellen zu identifizieren und mit Stresstests etwaige Unzulänglichkeiten im System zu verstehen. "Das ist aber leichter gesagt als getan", räumt er ein.
Netzwerke sind nur so robust wie ihre schwächsten Punkte, und wenn es einen Single Point of Failure gibt, kann dieser das gesamte System lähmen. Zumindest müssen CIOs wissen, wo ihre Schwachstellen liegen, um Redundanz zu gewährleisten und fundierte Entscheidungen über Prioritäten und Budgets zu treffen. "Es ist vielleicht nicht möglich, redundante Pfade im gesamten Netzwerk einzurichten; das ist einfach zu teuer. Aber größere Ausfälle sind eine Gelegenheit, Risiken gegen Kosten abzuwägen", sagt Matt Tett, Geschäftsführer von Enex Test Lab. "Es lohnt sich, das Budget zu überprüfen und zu überlegen, ob es nicht sinnvoll ist, Teile des Netzwerks doppelt auszulegen." So könne man sich in Zukunft ein paar Sorgen ersparen.
Planung für unvermeidliche Ausfälle
Auch wenn sie keine riesigen Netzwerke wie das von Optus steuern, müssen IT-Leiter und ihre Management-Kollegen für den Worst Case planen - sowohl im eigenen Haus als auch bei Dienstleistern und Lieferanten. "Unternehmen sollten Ihre Business-Continuity-Pläne überprüfen und sicherstellen, dass sie über ein Backup verfügen, um den Betrieb wie gewohnt fortzusetzen", fordert Tett. Der Business-Continuity-Plan könnte verschiedene Perspektiven beinhalten: etwa Prozesse für die Rückkehr zu papierbasierten Systemen, die Umstellung auf Mobilfunk-Internet oder Dual-SIM-Telefone für wichtige Mitarbeitende. "Es ist wie ein Flughandbuch, mit dem man beim Ausfall eines wichtigen Geräts sicherstellen kann, dass es Möglichkeiten gibt, offline weiterzuarbeiten."
Diskussionen über den Wiederanlauf anregen
CIOs können die Optus-Schlagzeilen auch nutzen, um Gespräche mit ihren Infrastruktur-Verantwortlichen zu führen und deren Notfallpläne zu überprüfen. "Warten Sie nicht darauf, dass ihnen etwas passiert. Es sollte einen fortlaufenden, systematischen Austausch geben, um herauszufinden, wo die Schwachstellen liegen", fordert Fredkin. Er verweist auf den "Chaos Monkey" von Netflix, der zufällige Ausfälle in der Produktionsumgebung verursacht. Dieser sei eine Schlüsselkomponente zur Verbesserung der Widerstandsfähigkeit komplexer Systeme. "Indem sie ihr System ins Chaos stürzen, decken sie Schwachstellen auf und sehen, wie sich die Dinge entwickeln könnten. So trainieren Sie für Ernstfälle." An den Gesprächen über den Wiederanlauf müssen Fredkin zufolge der CFO und der CEO beteiligt werden, um Risiken eines Ausfalls und die Kosten für die Eindämmung zu ermitteln.
Verstehen Sie die Risiken Dritter
Laut dem Uptime Institute sind digitale Infrastruktur-Services einschließlich Cloud, Colocation, Telekommunikation und Hosting heute für einen wachsenden Anteil der Ausfälle verantwortlich. Daher müssten IT-Leiter die Risiken von Drittanbietern kennen und wissen, wie sie damit umgehen, fordert Budde: "Dies gilt insbesondere in einer technischen Landschaft, in der Kostensenkungsmaßnahmen und OutsourcingOutsourcing an der Tagesordnung sind." Alles zu Outsourcing auf CIO.de
Für Software- oder Hardware-Updates sei es wichtig, eine Liste der kritischen Anbieter sowie den Zeitpunkt und die Art der Updates zu kennen. CIOs sollten prüfen, ob es machbar ist, Updates nur für einige Kunden und nicht für andere oder nur für Teile der Infrastruktur bereitzustellen, ergänzt Fredkin. "Außerdem müssen sie einen Weg finden, wie sie Tests durchführen, ohne dass sich dies auf die gesamte Produktionsumgebung auswirkt", fügt er hinzu. Gute Beziehungen zu den Anbietern von Hardware und Software seien ebenfalls von entscheidender Bedeutung. "Es kann sehr vorteilhaft sein, wenn man im Voraus weiß, wann ein Update kommt und wann es in die Organisation eingespeist wird."
Argumente für die IT-Modernisierung nutzen
Ausfälle, die für Schlagzeilen sorgen, bieten IT-Führungskräften oft die Gelegenheit, ihre eigenen Argumente für eine IT-Modernisierung vorzubringen. Auch wenn dies bei Optus nicht der Fall war, stehen Systemausfälle oft im Zusammenhang mit veralteten Technologien. Die Vorfälle könnten dazu beitragen, dass sich die Führungsebene und der Vorstand für eine Aktualisierung der Systeme entscheiden, um zu gewährleisten, dass sie sicher und widerstandsfähig sind, berichtet Fredkin. "Wenn CIOs einen Modernisierungsantrag stellen, müssen sie die Zustimmung der Stakeholder erhalten, damit das Unternehmen den Weg mitgeht."
Betrachten Sie das Gesamtbild
Unabhängig davon, ob Ausfälle von eigenen Systemen ausgehen oder durch verbundene Netzwerke verursacht werden, können sie eine Vielzahl von Unternehmen gleichzeitig betreffen. "Daher sollten IT-Verantwortliche über die Grenzen ihrer Organisation hinaus denken", fordert Budde. "Ein maßgeschneiderter Katastrophen- und Ausfallsicherheitsplan berücksichtigt Industriestandards sowie die regelmäßige Überprüfung von IT-Systemen und -Protokollen. Nur so lässt sich Robustheit gewährleisten." Derartige Bemühungen müssten laut Budde bisweilen über das eigene Unternehmen hinausgehen: "Möglicherweise sollten wir über den Tellerrand hinausblicken und nach landesweiten oder branchenweiten Lösungen suchen, wie sich Unternehmen in solchen Situationen gegenseitig unterstützen können."
Du sollst nicht nicht kommunizieren
Nicht zuletzt brauchen Unternehmen ein umfassendes Kommunikationskonzept für Ausfälle oder Störungen - unabhängig davon, ob diese von ihnen selbst verursacht wurden oder nicht. "Es ist entscheidend, dass eine klare und präzise Kommunikation über Ausfälle oder Probleme erfolgt", sagt Tett von Enex Test Labs. Diese Kommunikation sollte sowohl nach oben zum CEO als auch nach außen zu Kunden und Medien erfolgen, um so viel Klarheit wie möglich über die Situation zu schaffen.
"Höchste Priorität hat die Kommunikation mit Kunden, auch wenn man selbst nicht Verursacher der Störung ist. Zweitens sollte man eine Medienstrategie entwickeln für den Fall, dass man aufgrund von Netzwerkausfällen nicht direkt mit Kunden kommunizieren kann", so Tett. Diese sollte einen gewissen Zeitrahmen umfassen, um die potenzielle Ausfallzeit und die Wiederherstellung des normalen Geschäftsbetriebs zu berücksichtigen. "Aber ob es sich nun um ein paar Minuten oder um 48 Stunden handelt - seien Sie möglichst offen und transparent."
Dieser Artikel basiert auf einem Beitrag unserer Schwesterpublikation cio.com