Disaster Recovery

So kommt Ihre IT wieder auf die Beine

20.07.2020 von Sabine Frömling  IDG ExpertenNetzwerk
Disaster Recovery hilft, die IT im Katastrophen- oder Störungsfall schnell wieder zum Laufen zu bringen. Lesen Sie, worauf Unternehmen achten müssen.
Mit einem Disaster-Recovery-Plan lassen sich die Ausfallkosten in Bezug auf Zeit und Umsatzverluste minimieren.
Foto: Arjuna Kodisinghe - shutterstock.com

Der Begriff Disaster Recovery (Notfallwiederherstellung) bezeichnet Maßnahmen, die nach einem Ausfall einzelner Bereiche oder der kompletten IT strukturiert eingeleitet werden, falls normale Verfügbarkeitslösungen ausfallen sollten.

Die Umsetzung des Business Continuity Managements (BCM) auf Basis des internationalen Standards ISO 22301:2019 gewährleistet die Sicherstellung der Anforderungen an die Geschäftskontinuität mit dem Ziel der Planung und Durchführung von vorbeugenden Maßnahmen, um im Katastrophenfall die Services in der für das Überleben des Unternehmens erforderlichen Zeit wiederherzustellen.

Weshalb sind Disaster Recovery und Business Continuity Management für Unternehmen wichtig?

Die Nachfrage nach einem 24x7-Betrieb ist größer denn je. Viele Faktoren wie Hardware-Ausfälle, Umweltprobleme und menschliches Versagen wirken sich auf die Verfügbarkeit von Infrastruktur aus. Verfügbarkeit oder deren Fehlen hat einen dramatischen Einfluss auf die Reputation, Kundenzufriedenheit (/-vertrauen), Wettbewerbsvorteile (falls die Konkurrenz ebenfalls betroffen ist), Kreditwürdigkeit (Beeinflussung des Ratings), Erfüllung gestzlicher oder regulatorischer Vorgaben und Meldepflicht bei Verstößen/Nichteinhaltung oder niedrigere Versicherungsprämien, da ein geringeres Risiko besteht.

Wenn es in einem Unternehmen zu Ausfallzeiten kommt, sind mit diesem Ereignis Kosten verbunden. Dieser Betrag lässt sich nur schwer bestimmen, da darin direkte Kosten wie Wiederherstellungsarbeiten und Ersatz der Ausrüstung enthalten sind. Aber auch indirekte Kosten wie entgangene Geschäftsmöglichkeiten sind darin enthalten.

Die gute Nachricht ist, dass Sie mit einer adäquaten Planung die Kosten in Bezug auf Zeit und Umsatzverluste minimieren können, die mit der Wiederherstellung im Katastrophenfall verbunden sind. Das Sichern der Daten und Systeme und die Aufrechterhaltung des Geschäftsbetriebs im Falle einer Katastrophe ist kein Luxus mehr, sondern eine Notwendigkeit. Es ist wichtig, einen Disaster-Recovery-Plan zu implementieren.

Implementierung Disaster Recovery und Business-Continuity-Prozesse

Die Aktivitäten rund um Incident Response sollten um die Bereiche Disastery Recovery und Business Continuity erweitert werden. Dabei sollten unnötige Überschneidungen oder gar Behinderungen durch unklare Rollen und Verantwortlichkeiten vermieden werden.

Die entscheidendsten Kriterien sind unter anderem:

Recovery Time Objective (RTO)

Die Wiederanlaufzeit (Recovery Time Objective, RTO) ist der wichtigste KPI im Disaster Recovery. RTO legt fest, innerhalb welcher Zeitspanne ein IT-System oder ein Geschäftsprozess nach einem IT-Notfall wieder zur Verfügung stehen muss.

Disaster Recovery Plan

Um die Leistung der geplanten Wiederanlaufzeit (recovery time objective, RTO) zu beurteilen und zu verbessern, sollte ein dokumentierter und erprobter Business-Continuity-Plan (Notfallplan) erstellt werden. Ziel ist es, auf einen geschäftsunterbrechenden Vorfall zu reagieren, kritische Aktivitäten möglichst reibungslos fortzuführen oder schnell wiederherzustellen.

Das dokumentierte BCM-Notfallkonzept muss gewährleisten, dass im Falle Geschäftsunterbrechung innerhalb eines definierten Zeitraums (Wiederanlaufzeit / RTO) BCM-Ausfallstrategien für Gebäude, Personal, IT/Infrastruktur und Dienstleister zur Verfügung stehen, die einen möglichen unterbrechungsfreien Betrieb auf vordefinierten akzeptablen Niveau sowie einen planmäßigen Wiederanlauf der zeitkritischen Aktivitäten und Prozesse ermöglicht.

Disaster-Recovery-Test

Die Wiederanlaufzeiten sollten durch regelmäßige Tests und Übungen der Abläufe im Business Continuity Management überprüft und mit den Business-Continuity-Zielen abgeglichen werden. Dabei empfiehlt es sich, mindestens einmal im Jahr die Recovery- und Restoration-Pläne für einen Failover im Rahmen einer Ernstfallübung inkl. Alarmierungs- und Eskalationswegen, organisatorischen Strukturen sowie Abläufen zwischen unterschiedlichen involvierten Teams zu testen. Die Auswertung des Tests sollten in Test- bzw. Übungsprotokoll dokumentiert werden, um Maßnahmen zur Beseitigung etwaiger festgestellter Mängel festzulegen und zu kontrollieren oder sich mit Mängeln, die Auswirkungen, auf das abgestimmte BCM-Notfallkonzept haben, zu beschäftigen.

Die Aufgaben des operativen Business Continuity Managements

Beim Eintritt einer Katastrophe wird vom Verantwortlichen, meist der CEO oder die Geschäftsleitungsebene, der Katastrophenfall ausgerufen. Es erfolgt die sofortige Umschaltung von Normal- auf Krisenbetrieb. Für diesen Betrieb müssen alle Vorsorgemaßnahmen (inklusive Drehbücher) vorbereitet sein.

Die Ziele des BCM ist die Risikominimierung und Vorsorge für die rasche Wiederherstellung von IT-Services nach einer Katastrophe und die Planung von Vorsorgemaßnahmen und Maßnahmen im Zusammenhang mit einer möglichen Katastrophe.

Maßnahmen zur Wiederherstellung

Folgende Optionen der Notfallmaßnahmenplanung sind denkbar:

Nichts tun: Vorhandenes Risiko ignorieren

Manueller Backup: Das Geschäft wird vorübergehend manuell weitergeführt. Die benötigt entsprechende vorbereitende Maßnahmen (z.B. Ausdrucken von Daten). Meist fehlen dazu das Personal und die Kenntnisse über die komplexen Zusammenhänge.

Gegenseitige Vereinbarungen: Zwei Unternehmen mit ähnlichen IT-Anforderungen vereinbaren, sich im Notfall gegenseitig abzusichern: Welche Services sind wie lange aufrecht zu erhalten und wie können beide Unternehmen kompatibel gehalten werden? Dabei dürfen nicht beide Unternehmen gleichzeitig vom Katastrophenfall betroffen sein.

Die Festung: Ein Versuch sich gegen alle Katastrophen abzusichern

Allmähliche Wiederherstellung mittels Kaltstart (Wiederherstellungszeit > 72h): Ungenutzte IT-Systeme, die im Katastrophenfall in Betrieb genommen werden um Applikationen und Daten aufzusetzen bzw. ein speziell eingerichtetes fahrbares Rechenzentrum mit Strom und Telekommunikationseinrichtungen

Zügige Wiederherstellung mittels Warmstart (Wiederherstellungszeit zwischen 24h und 72h): Kompatible, vollständig eingerichtete und vorbereitete IT-Systeme (z.B. weiteres Rechenzentrum mit ausreichend Kapazität im Unternehmen oder ein Mobiler Warmstart mittels IT-Systemen in einem Lastwagen für sehr schnelle Reaktionszeiten)

Sofortige Wiederherstellung (Wiederherstellungszeit < 24h): Gespiegelte IT Systeme, auf die sofort umgeschaltet werden kann

BCM Reifegrad Assessment

Das Reifegrad-Assessment ist ein nützliches Tool. Es schafft die Voraussetzung zur Einführung eines koordinierten und harmonisierten Business-Continuity-Management-Systems. Es bietet die Grundlage für einen Einblick in Notfallmaßnahmen. Mit den erhobenen Informationen soll eine erhöhte Transparenz von anerkannten möglichen Stärken und Schwächen erreicht werden. Auf dieser Basis entsteht ein Maßnahmenkatalog zur Mitigation. Die Auswertung zeigt auf, wo das Unternehmen gegenwärtig steht – gemessen zum Beispiel am internationalen Standard ISO 22301:2019 oder am BSI-Standard 100-4: Notfallmanagement als Ergänzung zum IT-Grundschutz.

Das Reifegrad Assessment ist ein Fragenkatalog. Aus den Antworten wird ein Netzdiagramm erstellt, welches den Grad der BCM-Umsetzung darstellt (Reifegrad). Die fünf Reifegrade reichen von Level 0 (Ad hoc) - wobei Maßnahmen aus unabhängigen Handlungen mehrerer Einzelpersonen bestehen und eher zufälliger Natur sind - bis Level 4 (optimiert), wobei BCM und ein internes Kontrollsystem bereits vollständig umgesetzt wurden.

Verfügbarkeitsmanagement und Notfallmanagement

Wenn Eindämmungspläne scheitern, müssen Notfallpläne in Anspruch genommen werden. Verfügbarkeitsmanagement und ein Service Continuity Management sind in dieser Hinsicht eng miteinander verbunden, da beide Prozesse darauf abzielen, Risiken für die Verfügbarkeit von IT-Diensten zu eliminieren. Das Hauptaugenmerk des Verfügbarkeitsmanagements liegt auf dem Umgang mit den routinemäßigen Verfügbarkeitsrisiken, mit deren Eintreten im Alltag vernünftigerweise gerechnet werden kann.

Wenn keine einfachen Gegenmaßnahmen zur Verfügung stehen oder wenn die Gegenmaßnahme unerschwinglich teuer ist oder den Rahmen eines einzelnen IT Service sprengt, um für sich genommen gerechtfertigt zu sein, werden diese Verfügbarkeitsrisiken an das Service Continuity Management zur Behandlung weitergeleitet.