Ungeplante und teure Ausfallzeiten sind in Rechenzentren auf dem Vormarsch. Und neue Entwicklungen wie Mobile Computing, Virtualisierung oder die Datenspeicherung in der Cloud machen die Situation nicht gerade einfacher. Untersuchungen zeigen, dass dadurch in Rechenzentren für die Wirtschaft erhebliche Kosten entstehen.
Die amerikanische Beratungsgesellschaft Aberdeen Group hat ermittelt, dass die Kosten, die durch den Ausfall von Rechenzentrumsdiensten, im Schnitt bei mehr als 1,5 Millionen US-Dollar liegen. Bei Datacentern, die über eine unzureichende Notfallplanung verfügen, sind es fast 2,9 Millionen US-Dollar. Dagegen müssen Unternehmen, die gut gerüstet sind, nur 72.000 US-Dollar aufwenden, um die Ursachen und Folgen einer Störung zu beheben. Das bedeutet für die Unternehmen beträchtliche wirtschaftliche Einbußen, einen gewaltigen Imageschaden und den Verlust von Millionen zukünftiger Geschäftschancen.
Andererseits wäre der Betrieb eines Rechenzentrums gänzlich ohne Ausfallzeiten gar nicht möglich. So müssen wichtige Teile ersetzt, angepasst oder regelmäßig gewartet werden. Die Kunst liegt darin, dies so geschickt zu planen und dabei die richtigen Technologien einzusetzen, dass die Ausfallzeiten minimal bleiben.
Vorausschauende Monitoring-Tools nutzen
Eine Ursache für ungeplante Ausfälle sind Betriebsstörungen, deren Ursachen überall im Rechenzentrum zu finden sein können. Jeder Teil der IT kann irgendwann einmal ausfallen: Geräte, Bauteile oder die elektrische Ausrüstung. Das ist unvermeidlich. Der Schlüssel liegt darin, das Rechenzentrum mit entsprechend intelligenten Monitoring-Tools zu rüsten, die von sich aus das Wartungspersonal informieren, bevor überhaupt Probleme auftreten.
Intelligente Powerleisten als wichtiger Bestandteil
In diesem Zusammenhang wird die Bedeutung der Power Distribution Unit (PDU) oft unterschätzt. Im Normalfall sitzt sie im Server-Rack. Dort misst und überwacht sie dessen Stromversorgung. Intelligente PDUs (iPDUs) können aber noch mehr. Sie halten ständig Ausschau nach möglichen Gefahren und informieren die Manager des Rechenzentrums über drohende Überlastungen oder andere Veränderungen, die sich negativ auf den Betrieb des Rechenzentrums auswirken könnten. Dazu gehören Leckagen oder Temperaturschwankungen.
Hot-Swapping - Austausch im laufenden Betrieb
Um ungeplante Ausfälle zu vermeiden und planbare auf ein Minimum zu reduzieren, muss vorausschauend und zukunftssichernd gedacht werden. Dazu gehört auch der Einkauf der richtigen Technologie, damit nicht der Ausfall eines einfachen Bauteils gleich den kompletten Betrieb lahm legt. PDU-Bestandteile, die auch im laufenden Betrieb auswechselt werden können, ermöglichen notwendige Wartungsarbeiten, ohne dass die Server heruntergefahren werden müssen.
Risikofaktor Mensch
Bei der Betrachtung von Ausfallzeiten darf auch menschliches Versagen nicht vernachlässigt werden. Umfassende regelmäßige Weiterbildung des Personals sowie durch klar formulierte und sorgfältig ausgearbeitete Arbeitsabläufe sollten daher Standard sein. Das Arbeiten in engen Räumen zwischen zahlreichen Leitungen und Kabeln stellt die Techniker vor die Herausforderung, unbeabsichtigte Kurzschlüsse am Sicherungsautomaten zu vermeiden.
So liegen beim Entfernen eines Servers zu Reparaturzwecken zahlreiche Kabel oft kreuz und quer übereinander. Leicht können Leitungen falsch abgesteckt oder vergessen werden; mit dem Ergebnis, dass ein anderer Server plötzlich nicht mehr am Stromnetz ist. Auch hier kann Technologie helfen, diese Fehler zu vermeiden, in dem man Produkte mit arretierbaren Stromkabeln wählt.
Nur wer die Fakten kennt, kann richtig reagieren
Unternehmen können ihr Strom-Monitoring über PDUs verbessern und so Einblicke in die komplette Stromverteilung im Rechenzentrum gewinnen. Mit intelligenten PDUs kann das Management des Rechenzentrums Trends erkennen und Serverausfälle vermeiden. Ohne die in den PDUs eingebaute Intelligenz könnten die Server zu heiß laufen oder umgekehrt die Temperatur in der Umgebung der Server zu kalt werden - bis hin zum Absturz der Geräte.
Die Messung und Überprüfung des Stromverbrauchs im Rechenzentrum ist entscheidend für die Reduzierung von Betriebsstörungen. So hat McKinsey & Company in einer Studie festgestellt, dass nur sechs bis zwölf Prozent der Energie für den Betrieb der tatsächlich arbeitenden Server verwendet wurde, während die Server im Leerlaufbetrieb ohne Monitoring rund 90 Prozent der gesamten Energie verbrauchten.
Zu viel Kälte kann schädlich sein
Indem Unternehmen zu wenig über die Ursachen der Ausfälle in ihren Rechenzentren wissen, setzen sie ihre IT unnötigen Risiken aus. So herrschen in vielen Rechenzentren zu geringe Temperaturen. Im Irrglauben, die Geräte würden keine Temperaturen über 25 Grad Celsius vertragen, kühlen viele Betreiber ihre Rechenzentren zu stark herunter. Dabei zeigt eine Studie von Dell genau das Gegenteil. Die Systeme fallen demnach öfter aus, wenn die Umgebungstemperatur unter 16 Grad fällt, als wenn sie auf 25 Grad gehalten ist.
Dabei birgt die Anhebung der Temperatur um nur ein Grad Celsius ein enormes Einsparungspotenzial bei den Energiekosten, ohne damit das Ausfallrisiko zu erhöhen. Tatsächlich hat die ASHRAE (American Society of Heating, Refrigerating and Air-conditioning Engineers) in der aktuellen dritten Ausgabe ihrer "Thermal Guidelines for Data Processing Environments" vorgeschlagen, dass die Betreiber von Rechenzentren die empfohlenen Grenzwerte für ihre IT-Ausrüstung nach oben anpassen sollten. Damit wären drastische Kosteneinsparungen möglich.
Natürlich geht das nur, wenn auch die Technologie dafür ausgelegt ist. So sind die meisten herkömmlichen PDUs nur für eine Betriebstemperatur bis zu 45 Grad Celsius geeignet. Einige führende Industrieunternehmen haben bereits die Temperatur in ihren Rechenzentren heraufgesetzt. Aber während die Server-Hersteller inzwischen ihre Produkte auf höhere Temperaturen auslegen, haben viele PDU-Hersteller diese wichtige Entwicklung oftmals noch nicht erkannt.
Natürlich wird ein Server auch dann ausfallen, wenn die PDU zu heiß wird und ihren Dienst versagt. Neue, intelligente PDUs vertragen daher bereits Temperaturen bis zu 55 Grad.
Fit für die Zukunft
Jeder technologische Fortschritt bedeutet Veränderung. Neue Produkte für die Infrastruktur im Rechenzentrum sind nicht nur mit Ausgaben, sondern mit Wachstumspotenzial verbunden. Viele Betreiber übersehen die Notwendigkeit, im Rahmen einer Generalüberholung des gesamten Rechenzentrums auch die kleinsten Bestandteile der bestehenden Infrastruktur wie PDUs auf den Prüfstand zu stellen. Alle Beteiligten müssen bei diesen Entscheidungen mit einbezogen werden. So können sich zum Beispiel die Leiter der IT- und Facility-Management-Abteilungen besser verstehen, wenn sie bei der Erhöhung der Betriebszeiten und der Kapazitätsplanung zusammenarbeiten müssen.
Betreiber von Rechenzentren können durch proaktives Handeln das Ausfallrisiko minimieren, auch wenn die Möglichkeit dazu gering erscheinen mag. Ist aber das Personal in der Lage, die Geräte im Rechenzentrum richtig handzuhaben und liegen genaue Angaben zum Stromverbrauch vor, müssen sich die Mitarbeiter seltener um ungeplante Ausfälle kümmern.
Natürlich werden sich die genannten Risiken nie ganz ausschließen lassen. Aber das Budget für die Behebung von Ausfällen kann durch den Einsatz intelligenter Technologien reduziert werden. Die so eingesparte Summe steht stattdessen für das eigentliche Kerngeschäft zur Verfügung. (Tecchannel)