Schon wenige Stunden Ausfall der Informations- und Kommunikationstechnik können je nach Branche und Unternehmen gravierende oder gar existenzbedrohende Schäden für den Geschäftsbetrieb mit sich bringen. Die IT-Notfallplanung beschäftigt sich - als Teilbereich des Business Continuity Management - konkret mit dem Prozessmanagement im Falle einer Störung oder eines Komplettausfalles der IT. Sie unterstützt Unternehmen bei der Prävention von Krisen oder Notfällen aus Störereignissen und sorgt im Ernstfall für eine strukturierte und schnelle Wiederherstellung der Systeme nach festgelegten Prioritäten, um betriebswirtschaftliche Schäden abzuwenden.
2010 waren bei dem weltweit größten Online-Versandhändler Amazon aufgrund eines Hardware-Fehlers mehrere europäische Websites zeitweise ausgefallen, wodurch mitten in der Weihnachtszeit signifikante Umsatzeinbußen entstanden. Das ist nur ein Beispiel von vielen - früher oder später machen die meisten Unternehmen unliebsame Erfahrungen mit Datenverlusten, Störungen von Kern- oder Subsystemen und ähnlichen IT-Notfall-Szenarien - ob direkt oder indirekt. Denn die komplexen Strukturen der globalen Kollaborationsnetzwerke, Lieferketten und ineinandergreifenden Produktionsprozesse (Stichwort "Just-in-Time") machen Unternehmen in hohem Maße abhängig von einem kontinuierlichen und störungsfreien Geschäftsbetrieb zwischen allen Prozessbeteiligten.
Die Betriebsbereitschaft der IT zu sichern und ein Konzept für Desaster Recovery zu etablieren, ist heute wichtiger denn je. Dazu gehört auch, Risiken frühzeitig zu identifizieren, ungeplante Ausfallzeiten durch vorkehrende Maßnahmen zu minimieren, die Mitarbeiter auf den Ernstfall vorzubereiten und ein zuverlässiges Informations- und Notfallmanagement einzurichten.
Verantwortlichkeiten nicht klar geregelt
"Im Schnitt hat jedes zweite Unternehmen in Deutschland für Störfälle in der IT keine adäquate Notfallplanung parat, um negative Auswirkungen auf den laufenden Geschäftsbetrieb zu vermeiden oder zu minimieren", berichtet Jochen Möller, Geschäftsführer der Hamburger mIT solutions GmbH, aus seinem Beratungsalltag. Ein Grund liege darin, dass die Verantwortlichkeiten zwischen IT, Geschäftsführung oder Produktion nicht immer klar geregelt seien, um eine IT-Notfallplanung initiieren zu können. "Leider wird dieses Thema daher häufig erst dann mit dem notwendigen Engagement vorangetrieben, wenn das Kind schon in den Brunnen gefallen ist", so Möller. Im Ernstfall fehle es dann an dem methodischen Know-how, so dass oftmals keine strukturierte Herangehensweise mehr möglich seien - mit unproduktiven Mehrarbeitszeiten und Umsatzeinbußen als Folge.
Workflow-gestützte Dokumentation
Um auf einen IT-Notfall angemessen zu reagieren, benötigen Unternehmen eine strukturierte IT-Notfallkonzeption, die verschiedene Eventualitäten bereits im Vorfeld beleuchtet. Tritt in der IT-Umgebung eine Notfallsituation ein, beschreibt sie die Vorgehensweise, wie in einer angemessenen Zeit zum einen der Notfallbetrieb und zum anderen die vollständige Verfügbarkeit der IT und der Daten sichergestellt werden kann. Eine Orientierung gibt der IT Service Continuity Management (ITSCM)-Standard nach ITIL 2011, der als vierstufiger Leitfaden zur Behebung von "Major Incidents" und zur Realisierung einer gezielten Wiederherstellungsplanung von IT-Services verfasst wurde.
Um Unternehmen bei der zuverlässigen IT-Notfallplanung zu unterstützen und die ITSCM-Maßnahmen unter Berücksichtigung individueller Strukturen erfolgreich umzusetzen, hat sich heute auf Basis dieses Leitfadens ein ganzheitliches Best-Practice-Modell etabliert. Das umfasst sowohl die Identifikation relevanter IT-Services und Konzeptionierung der Notfallprozess-Planung als auch die Einrichtung eines Notfall-Desks und Informationsbereitstellung für den Wirtschaftsprüfer. Am Ende erhält das Unternehmen eine vollständige, Software- und Workflow-gestützte Dokumentation mit allen relevanten Informationen an die Hand, so dass die notwendigen Schritte zur Wiederherstellung der IT wie eine Checkliste abzuarbeiten sind.
Entwicklung des Notfallplans
Ein Notfall entsteht zumeist durch eine Verkettung von einzelnen Störungen, die jeweils für sich genommen nicht kritisch gewesen wären. Die Notfallplanung erfüllt daher nicht nur den Zweck, eine systematische Wiederherstellung des Betriebes und der Daten zu gewährleisten, sondern auch Risiken präventiv zu managen und zu verhindern, dass Notfälle überhaupt entstehen können. Am Anfang des Planungsprozesses steht daher eine Risiko- (Business-Impact-) Betrachtung. Deren Basis ist es, mögliche Risiken zu identifizieren, zu analysieren, zu bewerten und zu dokumentieren. Daraus lassen sich sowohl die kritischen Ausfallzeiten, quasi die "Überlebensdauer" des Unternehmens im Hinblick auf bestehende Verträge und SLAs, als auch Schwachstellen auf Prozessebene, IT-Risiken und geeignete Gegenmaßnahmen ermitteln.
In dieser Analysephase wird ebenfalls definiert, welche Systeme für die Leistungserbringung des Unternehmens als kritisch einzustufen sind, wie diese zusammenspielen und welche Bedingungen gegeben sein müssen, um bestimmte Workflows anzustoßen. Auf dieser Grundlage wird schließlich festgelegt, wann eine Störung zu einem Notfall bzw. wann ein Notfall zu einer Krise wird sowie welche Kommunikationswege und Abläufe zur Wiederherstellung zu initiieren sind. Im Anschluss wird genau geplant, wie Notfallprozesse und Wiederanläufe auszusehen haben, um die Störung zu beheben.
Anhand einer "Notfall-Checkliste" kann der verantwortliche Mitarbeiter die Einhaltung sämtlicher Prozessschritte von A bis Z überwachen.
Der Faktor Mensch
Störfälle treten im Unternehmensalltag immer wieder zutage. Wichtig ist, dass aus den Störfällen keine Krisen entstehen. Beim Umgang mit kritischen Situationen sind daher auch psychologische Komponenten auf Mitarbeiterebene und der "Faktor Mensch" zu beachten. Der arbeitsorganisatorischen Vorbereitung und Übung von Notfall-Szenarien kommt daher eine große Bedeutung zu. Es geht darum, alle Beteiligten mit den jeweiligen Aufgaben im Krisenfall vertraut zu machen und das Zusammenspiel aller Akteure und Prozesse zu trainieren. Mit Hilfe von Reviews können Schwachstellen identifiziert und die Testkonzepte bzw. Ablaufpläne in einem iterativen Prozess stetig verbessert werden.
Krisen-, Prozess- und IT-Service-Management integriert abwickeln
In einer Notfallsituation müssen alle Rädchen ineinandergreifen und alle Beteiligten schnell reagieren. Wer übernimmt welche Aufgaben? Wer ist zu benachrichtigen und wer hat welche Entscheidungsbefugnisse? Welche Dokumentationen sind vorhanden und wo sind diese hinterlegt? Welche Systeme müssen zuerst wiederhergestellt werden? Welche Fristen sind unbedingt einzuhalten? Wie erreiche ich verantwortliche Systemspezialisten? Welche Vertreterregelungen gibt es?
"Die Mitarbeiter müssen diese anfallenden Fragen nicht nur ad hoc beantworten können, sondern müssen durch diesen Prozess effektiv geleitet werden, da Menschen in Extremsituationen anders ‚funktionieren‘", unterstreicht Möller. Unternehmen könnten bisweilen dafür auch auf ITSM-Software zurückgreifen, die häufig bereits in ihrer IT-Infrastruktur vorhanden seien.