Disaster Recovery

So kommt Ihre IT wieder auf die Beine

20.07.2020 von Sabine Frömling IDG ExpertenNetzwerk

Disaster Recovery hilft, die IT im Katastrophen- oder Störungsfall schnell wieder zum Laufen zu bringen. Lesen Sie, worauf Unternehmen achten müssen.

Mit einem Disaster-Recovery-Plan lassen sich die Ausfallkosten in Bezug auf Zeit und Umsatzverluste minimieren.
Foto: Arjuna Kodisinghe - shutterstock.com

Der Begriff Disaster Recovery (Notfallwiederherstellung) bezeichnet Maßnahmen, die nach einem Ausfall einzelner Bereiche oder der kompletten IT strukturiert eingeleitet werden, falls normale Verfügbarkeitslösungen ausfallen sollten.

Die Umsetzung des Business Continuity Managements (BCM) auf Basis des internationalen Standards ISO 22301:2019 gewährleistet die Sicherstellung der Anforderungen an die Geschäftskontinuität mit dem Ziel der Planung und Durchführung von vorbeugenden Maßnahmen, um im Katastrophenfall die Services in der für das Überleben des Unternehmens erforderlichen Zeit wiederherzustellen.

Weshalb sind Disaster Recovery und Business Continuity Management für Unternehmen wichtig?

Die Nachfrage nach einem 24x7-Betrieb ist größer denn je. Viele Faktoren wie Hardware-Ausfälle, Umweltprobleme und menschliches Versagen wirken sich auf die Verfügbarkeit von Infrastruktur aus. Verfügbarkeit oder deren Fehlen hat einen dramatischen Einfluss auf die Reputation, Kundenzufriedenheit (/-vertrauen), Wettbewerbsvorteile (falls die Konkurrenz ebenfalls betroffen ist), Kreditwürdigkeit (Beeinflussung des Ratings), Erfüllung gestzlicher oder regulatorischer Vorgaben und Meldepflicht bei Verstößen/Nichteinhaltung oder niedrigere Versicherungsprämien, da ein geringeres Risiko besteht.

90% der Unternehmen ohne Disaster Recovery, die eine größere Datenkatastrophe erleiden, müssen innerhalb eines Jahres ihre Geschäftstätigkeit einstellen.
Im Durchschnitt verlieren Unternehmen aufgrund von Ausfallzeiten und Wiederherstellungskosten über 100.000 Dollar pro Lösegeldvorfall (Ransomware).
90-95% der Unternehmen mit einem vertrauenswürdigen Backup- und Disaster-Recovery-Plan sind in der Lage, Lösegeldangriffe zu überleben.
90% der Unternehmen haben mehr als eine aktive Wiederherstellungsmaßnahme im Einsatz
80% aller Unternehmen beklagten in den letzten 2 Jahren einen großen Systemausfall
Mehr als 50 % der Unternehmen erlebten in den vergangenen fünf Jahren ein Ausfallereignis, das länger als einen ganzen Arbeitstag dauerte.
Menschliches Versagen ist die Hauptursache für Sicherheits- und Datenverletzungen und für rund 50% der Vorfälle verantwortlich.

Wenn es in einem Unternehmen zu Ausfallzeiten kommt, sind mit diesem Ereignis Kosten verbunden. Dieser Betrag lässt sich nur schwer bestimmen, da darin direkte Kosten wie Wiederherstellungsarbeiten und Ersatz der Ausrüstung enthalten sind. Aber auch indirekte Kosten wie entgangene Geschäftsmöglichkeiten sind darin enthalten.

Die gute Nachricht ist, dass Sie mit einer adäquaten Planung die Kosten in Bezug auf Zeit und Umsatzverluste minimieren können, die mit der Wiederherstellung im Katastrophenfall verbunden sind. Das Sichern der Daten und Systeme und die Aufrechterhaltung des Geschäftsbetriebs im Falle einer Katastrophe ist kein Luxus mehr, sondern eine Notwendigkeit. Es ist wichtig, einen Disaster-Recovery-Plan zu implementieren.

Implementierung Disaster Recovery und Business-Continuity-Prozesse

Die Aktivitäten rund um Incident Response sollten um die Bereiche Disastery Recovery und Business Continuity erweitert werden. Dabei sollten unnötige Überschneidungen oder gar Behinderungen durch unklare Rollen und Verantwortlichkeiten vermieden werden.

Die entscheidendsten Kriterien sind unter anderem:

Die Erstellung einer Business-Impact-Analyse, in der Prioritäten von Prozess und weiteren Ressourcen festgelegt werden.
Die Entwicklung eines detaillierten Disaster-Recovery-Plans und eines Business-Continuity-Plans.
Die Schulung der Mitarbeiter im Umgang mit diesen Plänen sowie regelmäßiges Verproben.
Die wiederkehrende Anpassung der Pläne an veränderte Situationen und ...
... das regelmäßige Überprüfen (Audit) der Pläne.

Recovery Time Objective (RTO)

Die Wiederanlaufzeit (Recovery Time Objective, RTO) ist der wichtigste KPI im Disaster Recovery. RTO legt fest, innerhalb welcher Zeitspanne ein IT-System oder ein Geschäftsprozess nach einem IT-Notfall wieder zur Verfügung stehen muss.

Disaster Recovery Plan

Um die Leistung der geplanten Wiederanlaufzeit (recovery time objective, RTO) zu beurteilen und zu verbessern, sollte ein dokumentierter und erprobter Business-Continuity-Plan (Notfallplan) erstellt werden. Ziel ist es, auf einen geschäftsunterbrechenden Vorfall zu reagieren, kritische Aktivitäten möglichst reibungslos fortzuführen oder schnell wiederherzustellen.

Das dokumentierte BCM-Notfallkonzept muss gewährleisten, dass im Falle Geschäftsunterbrechung innerhalb eines definierten Zeitraums (Wiederanlaufzeit / RTO) BCM-Ausfallstrategien für Gebäude, Personal, IT/Infrastruktur und Dienstleister zur Verfügung stehen, die einen möglichen unterbrechungsfreien Betrieb auf vordefinierten akzeptablen Niveau sowie einen planmäßigen Wiederanlauf der zeitkritischen Aktivitäten und Prozesse ermöglicht.

Disaster-Recovery-Test

Die Wiederanlaufzeiten sollten durch regelmäßige Tests und Übungen der Abläufe im Business Continuity Management überprüft und mit den Business-Continuity-Zielen abgeglichen werden. Dabei empfiehlt es sich, mindestens einmal im Jahr die Recovery- und Restoration-Pläne für einen Failover im Rahmen einer Ernstfallübung inkl. Alarmierungs- und Eskalationswegen, organisatorischen Strukturen sowie Abläufen zwischen unterschiedlichen involvierten Teams zu testen. Die Auswertung des Tests sollten in Test- bzw. Übungsprotokoll dokumentiert werden, um Maßnahmen zur Beseitigung etwaiger festgestellter Mängel festzulegen und zu kontrollieren oder sich mit Mängeln, die Auswirkungen, auf das abgestimmte BCM-Notfallkonzept haben, zu beschäftigen.

Die Aufgaben des operativen Business Continuity Managements

Beim Eintritt einer Katastrophe wird vom Verantwortlichen, meist der CEO oder die Geschäftsleitungsebene, der Katastrophenfall ausgerufen. Es erfolgt die sofortige Umschaltung von Normal- auf Krisenbetrieb. Für diesen Betrieb müssen alle Vorsorgemaßnahmen (inklusive Drehbücher) vorbereitet sein.

Die Ziele des BCM ist die Risikominimierung und Vorsorge für die rasche Wiederherstellung von IT-Services nach einer Katastrophe und die Planung von Vorsorgemaßnahmen und Maßnahmen im Zusammenhang mit einer möglichen Katastrophe.

Risikobewusstsein schaffen: Mitarbeiter sensibilisieren
Beurteilung und Begutachtung: Audits zur Überprüfung der Aktualität & der Bekanntheit der verwendeten Verfahren & Prozesse
Regelmäßige Durchführung von Notfalltests, vor allem nach Changes
Change Management: Die Business Continuity-Pläne müssen immer auf dem neusten Stand sein.
Absicherung: Prüfen, ob die Qualität des Prozesses den Business-Anforderungen entspricht
Reporting: Auswertung des Notfalltests und Identifikation von Verbesserungspotentialen, Aufsetzen von Maßnahmen, etc.

Maßnahmen zur Wiederherstellung

Folgende Optionen der Notfallmaßnahmenplanung sind denkbar:

• Nichts tun: Vorhandenes Risiko ignorieren

• Manueller Backup: Das Geschäft wird vorübergehend manuell weitergeführt. Die benötigt entsprechende vorbereitende Maßnahmen (z.B. Ausdrucken von Daten). Meist fehlen dazu das Personal und die Kenntnisse über die komplexen Zusammenhänge.

• Gegenseitige Vereinbarungen: Zwei Unternehmen mit ähnlichen IT-Anforderungen vereinbaren, sich im Notfall gegenseitig abzusichern: Welche Services sind wie lange aufrecht zu erhalten und wie können beide Unternehmen kompatibel gehalten werden? Dabei dürfen nicht beide Unternehmen gleichzeitig vom Katastrophenfall betroffen sein.

• Die Festung: Ein Versuch sich gegen alle Katastrophen abzusichern

• Allmähliche Wiederherstellung mittels Kaltstart (Wiederherstellungszeit > 72h): Ungenutzte IT-Systeme, die im Katastrophenfall in Betrieb genommen werden um Applikationen und Daten aufzusetzen bzw. ein speziell eingerichtetes fahrbares Rechenzentrum mit Strom und Telekommunikationseinrichtungen

• Zügige Wiederherstellung mittels Warmstart (Wiederherstellungszeit zwischen 24h und 72h): Kompatible, vollständig eingerichtete und vorbereitete IT-Systeme (z.B. weiteres Rechenzentrum mit ausreichend Kapazität im Unternehmen oder ein Mobiler Warmstart mittels IT-Systemen in einem Lastwagen für sehr schnelle Reaktionszeiten)

• Sofortige Wiederherstellung (Wiederherstellungszeit < 24h): Gespiegelte IT Systeme, auf die sofort umgeschaltet werden kann

BCM Reifegrad Assessment

Das Reifegrad-Assessment ist ein nützliches Tool. Es schafft die Voraussetzung zur Einführung eines koordinierten und harmonisierten Business-Continuity-Management-Systems. Es bietet die Grundlage für einen Einblick in Notfallmaßnahmen. Mit den erhobenen Informationen soll eine erhöhte Transparenz von anerkannten möglichen Stärken und Schwächen erreicht werden. Auf dieser Basis entsteht ein Maßnahmenkatalog zur Mitigation. Die Auswertung zeigt auf, wo das Unternehmen gegenwärtig steht – gemessen zum Beispiel am internationalen Standard ISO 22301:2019 oder am BSI-Standard 100-4: Notfallmanagement als Ergänzung zum IT-Grundschutz.

Das Reifegrad Assessment ist ein Fragenkatalog. Aus den Antworten wird ein Netzdiagramm erstellt, welches den Grad der BCM-Umsetzung darstellt (Reifegrad). Die fünf Reifegrade reichen von Level 0 (Ad hoc) - wobei Maßnahmen aus unabhängigen Handlungen mehrerer Einzelpersonen bestehen und eher zufälliger Natur sind - bis Level 4 (optimiert), wobei BCM und ein internes Kontrollsystem bereits vollständig umgesetzt wurden.

Verfügbarkeitsmanagement und Notfallmanagement

Wenn Eindämmungspläne scheitern, müssen Notfallpläne in Anspruch genommen werden. Verfügbarkeitsmanagement und ein Service Continuity Management sind in dieser Hinsicht eng miteinander verbunden, da beide Prozesse darauf abzielen, Risiken für die Verfügbarkeit von IT-Diensten zu eliminieren. Das Hauptaugenmerk des Verfügbarkeitsmanagements liegt auf dem Umgang mit den routinemäßigen Verfügbarkeitsrisiken, mit deren Eintreten im Alltag vernünftigerweise gerechnet werden kann.

Wenn keine einfachen Gegenmaßnahmen zur Verfügung stehen oder wenn die Gegenmaßnahme unerschwinglich teuer ist oder den Rahmen eines einzelnen IT Service sprengt, um für sich genommen gerechtfertigt zu sein, werden diese Verfügbarkeitsrisiken an das Service Continuity Management zur Behandlung weitergeleitet.