Nach Crowdstrike-Panne

CIOs überdenken ihre Cloud-Strategien

25.07.2024 von Gyana Swain
IT-Chefinnen und -Chefs auf der ganzen Welt wollen nach dem Crowdstrike-Fiasko Abhängigkeiten und Single points of failure vermeiden.
Ein fehlerhaftes Update von Security-Anbieter Crowdstrike sorgte bei vielen Nutzern auf der ganzen Welt dafür, dass ihre Rechner den berüchtigten "Blue screen of death" zeigten.
Foto: Below the Sky - shutterstock.com

Die jüngste Crowdstrike-Softwarepanne, die zu einem weltweiten Ausfall von Windows-Systemen führte, hat die IT-Community aufgerüttelt. Vielen CIOs wurden einmal mehr die Risiken deutlich vor Augen geführt, von einem einzigen Anbieter abhängig zu sein, insbesondere in der Cloud.

Der Vorfall, bei dem IT-Systeme infolge eines fehlerhaften Updates abstürzten und den berüchtigten "blue screen of death" (BSOD) anzeigten, verdeutlichte die Schwachstellen von stark Cloud-abhängigen Infrastrukturen.

Für mehr spannende News, Hintergründe und Deep Dives aus der CIO-Community, abonnieren Sie unsere IT-Newsletter.

Auch wenn das Problem inzwischen behoben ist, hat es doch schmerzhaft demonstriert, welche katastrophalen Folgen der Ausfall einer wichtigen Sicherheitskomponente haben kann. Dies hat CIOs dazu veranlasst, die Widerstandsfähigkeit ihrer Cloud-Umgebungen zu hinterfragen und alternative Strategien auszuloten.

Cloud-Abhängigkeiten neu bewerten

"Wenn ein Problem von solchem Ausmaß auftritt und eine so große Störung verursacht, ist es wichtig und notwendig, die bestehenden Überzeugungen, Entscheidungen und Kompromisse zu überdenken, die zur aktuellen Architektur geführt haben", sagte Abhishek Gupta, CIO bei DishTV, einem indischen Kabel-TV-Anbieter. "Das Ergebnis der Überprüfung kann immer noch die gleiche Entscheidung sein, aber eine Überprüfung ist notwendig", stellte Gupta fest und fügte hinzu, dass DishTV seine Cloud-Strategie nach dem Crowdstrike-Vorfall bereits schrittweise neu bewertet habe.

Shashank Jain, CIO des Finanzdienstleisters Shree Financials, schlug einen Strategiewechsel vor. "Unternehmen und CISOs müssen ihre Cloud-Strategien überdenken und von der automatischen Aktualisierung von Patches Abstand nehmen. Alle Patches sollten zunächst auf einem Testserver erprobt werden", forderte er. Der Vorfall habe trotz des guten Rufs von Crowdstrike das Vertrauen in den Anbieter erschüttert, da ungeprüfte Patches einen Kaskadeneffekt verursacht hätten.

Saurabh Gugnani, Direktor und Leiter des Bereichs CyberDefence, IAM und Anwendungssicherheit bei der in den Niederlanden ansässigen TMF Group, ergänzte, dass ein diversifizierter Ansatz für Cloud-Strategien solche Risiken mindern könne. "Ja, sie [Unternehmen] sollten ihre Cloud-Strategien überdenken. Es muss ein Mix aus allen verfügbaren Lösungen sein."

Ein paar Unternehmen haben bereits Lehren aus dem Vorfall gezogen und erste Maßnahmen eingeleitet. "Als Reaktion auf die jüngsten Unterbrechungen unserer kritischen Abläufe haben wir unseren Business Continuity Plan proaktiv aktualisiert, um unerwartete Ausfallzeiten besser zu bewältigen und die Auswirkungen auf Produktivität und Servicebereitstellung zu minimieren", so Shivkumar Borade, Gründer und CMD von Mytek Innovations, einem Opfer des BSOD-Effekts.

Der überarbeitete Plan umfasse künftig ein besseres Kommunikationsmanagement mit mehreren Ebenen, um sicherzustellen, dass alle Mitarbeitenden schnell und transparent über mögliche Probleme und deren Lösung informiert würden. Im Zuge der Crowdstrike-Panne sei die interne Kommunikation des Unternehmens erheblich gestört worden, da das gesamte Netzwerk, einschließlich Outlook, Teams und SharePoint, auf Microsoft 365 gehostet wird.

Die intern entwickelten Anwendungen seien jedoch nicht betroffen gewesen, da das Unternehmen seine eigene Hosting-Infrastruktur nutze erläuterte Borade. "Wir hatten jedoch Probleme mit einigen API-Integrationen, die mit der Azure-Plattform verbunden waren und den ganzen Tag nicht funktionierten. Diese Störung führte zu unterbrochenen Services für unsere Kunden und Nutzer."

Ein Weckruf für CIOs

Eine der Hauptsorgen für CIOs ist der Vendor-Lock-in. Die Abhängigkeit von einem einzigen Cloud-Anbieter schafft einen Single point of failure, wie der Crowdstrike-Vorfall gezeigt hat. Wenn ein kritischer Service dieses Anbieters unterbrochen wird, kann dies weitreichende Folgen für ein Unternehmen haben. Um dieses Risiko zu mindern, werden CIOs in Zukunft wahrscheinlich verstärkt Multi- oder Hybrid-Cloud-Architekturen in Betracht ziehen, bei denen Arbeitslasten auf mehrere Plattformen verteilt werden.

Allie Mellen, Principal Analyst bei Forrester, betonte, wie wichtig funktionierende Tools und Services angesichts von Cyber-Bedrohungen sind. "Die Zuverlässigkeit der Tools und Dienste, die Cybersecurity-Teams nutzen, ist angesichts von Cyberangriffen von entscheidender Bedeutung", konstatierte die Expertin. Ein Vorfall wie dieser stelle jedoch in Frage, wie zuverlässig sie tatsächlich sind. Der Vorfall werde die Diskussionen unter Führungskräften anheizen, wie in Zukunft die Zuverlässigkeit von Business-kritischen Systemen sichergestellt werden könne, insbesondere bei Technologien, die so sehr in den täglichen Betrieb integriert seien wie Cybersecurity-Software.

Der Vorfall machte deutlich, wie anfällig Cloud-abhängige Systeme sind, bei denen ein Sinlge point of failure sich kaskadenartig auf das gesamte Unternehmen auswirken kann. Sunil Varkey, Senior Security Professional und Berater bei Beagle Security, stellte fest: "Das Vertrauen zwischen Cloud- und Sicherheitsanbietern ist jetzt in Frage gestellt. Dieser Vertrauensbruch wird wahrscheinlich dazu führen, dass agentenlose Lösungen stärker in den Vordergrund rücken, die mehr Sicherheit bieten, ohne die mit traditionellen Agenten verbundenen Schwachstellen."

In Anbetracht des Ausmaßes der Auswirkungen soll es sich um einen der schlimmsten Vorfälle im Bereich der Cybersicherheit handeln. Der Crowdstrike-Vorfall betraf Computer mit Microsoft Windows in allen Branchen. Besonders betroffen war der Reisesektor: Fluggesellschaften und Flughäfen in Deutschland, Frankreich, den Niederlanden, Großbritannien, den USA, Australien, China, Japan, Indien, Singapur und Taiwan hatten erhebliche Probleme mit Check-in- und Ticketingsystemen. Das führte zu Flugausfällen, massiven Verspätungen und Chaos auf den Flughäfen.

Laut Microsoft waren rund 8,5 Millionen Windows-Computer betroffen. Die Auswirkungen waren so groß, dass die Elon Musk gehörenden Unternehmen SpaceX und Tesla Crowdstrike aus allen ihren Systemen löschen mussten.

Verbessertes Risikomanagement

Der Vorfall machte deutlich, dass es ein verbessertes Risikomanagement braucht. Eine strengere Sorgfaltspflicht und engmaschigere Tests von Updates sowie Patches schrittweise einzuführen, seien jetzt wichtiger denn je, verlangten Experten weltweit.

"Dieser Vorfall ist ein Weckruf, der die Notwendigkeit einer kontinuierlichen Anpassung und Verbesserung der Cybersicherheitspraktiken in der gesamten Branche unterstreicht", so Gaurav Ranade, CTO bei RAH Infotech.

D.R. Goyal, Senior Architect bei Rakuten Symphony, sprach sich für einen Prozess aus, mit dem Aktualisierungen vor einer vollständigen Freigabe mit ausgewählten Benutzern getestet werden können: "Es sollte einen Mechanismus geben, um mit bestimmten Organisationen und einer Reihe von Nutzern zu testen, bevor die Freigabe für die gesamte Community und Nutzerbasis erfolgt, um so potenziell negative Auswirkungen zu reduzieren."

Angesichts der rasanten Veränderungen digitaler Landschaften sei es von größter Bedeutung, stärker auf die Ausfallsicherheit von Cloud-basierten Systemen zu achten. Ashis Guha, Gründer von An Idea Global Innovations, wies auf die Tragweite der Folgen hin: "Der Vorfall hat weitreichende Auswirkungen auf die Weltwirtschaft; längere Ausfall- und Wiederherstellungszeiten werden sich auf die Produktivität und die Wirtschaft auswirken."

Branchenexperten empfehlen verschiedene Strategien, um sich besser auf künftige Vorfälle vorzubereiten. Dazu zählen unter anderem, Patsches schrittweise einzuführen, umfassende Tests und robuste Backup-Systeme.

Siddharth Ugrankar, Mitgründer des Blockchain-Unternehmens Qila, ist der Meinung, dass Maßnahmen wie die Updates schrittweise einzuführen und gründlich zu testen die Auswirkungen hätten mildern können: "Hätte Crowdstrike das Update schrittweise ausgerollt, wären die Folgen weitaus geringer gewesen."

Unternehmen, die ähnliche Incidents vermeiden wollen, sollten ihr Update-Management verbessern. Es gelte, die Testprotokolle für verschiedene Umgebungen zu verbessern, strenge Risikobewertungen durchzuführen und die Abläufe für das Change-Management mit robusten Governance-Frameworks verstärken, riet Moyukh Goswami, CTO bei Nuvepro, den Anwenderunternehmen.

"Überwachungsfunktionen zu stärken, Reaktionspläne auf Vorfälle zu verfeinern, die auf Update-Fehler zugeschnitten sind, sowie die Pflege proaktiver Anbieterbeziehungen sind von entscheidender Bedeutung", fügte er hinzu.

Fazit

Die Crowdstrike-Panne unterstreicht, wie wichtig es für CIOs ist, ihre Cloud-Strategien zu überdenken und robuster zu gestalten. Mit solideren Risikomanagementverfahren, besseren Sicherheitsmaßnahmen und der Diversifizierung von Cloud-Lösungen können sich Unternehmen besser gegen künftige Störungen schützen. (jd)