Hochverfügbare Data Center

Ausfallzeiten im Rechenzentrum vermeiden

06.06.2013 von Mike Jansma
Systemfehler, menschliches Versagen oder auch Naturkatastrophen führen zu ungeplanten Ausfällen in Rechenzentren. Verschärft wird diese Situation durch komplexe Technologien wie Virtualisierung und Cloud-Computing. Doch mit den richtigen Maßnahmen lassen sich solche Katastrophen kontrollieren.

Ungeplante und teure Ausfallzeiten sind in Rechenzentren auf dem Vormarsch. Und neue Entwicklungen wie Mobile Computing, Virtualisierung oder die Datenspeicherung in der Cloud machen die Situation nicht gerade einfacher. Untersuchungen zeigen, dass dadurch in Rechenzentren für die Wirtschaft erhebliche Kosten entstehen.

Die amerikanische Beratungsgesellschaft Aberdeen Group hat ermittelt, dass die Kosten, die durch den Ausfall von Rechenzentrumsdiensten, im Schnitt bei mehr als 1,5 Millionen US-Dollar liegen. Bei Datacentern, die über eine unzureichende Notfallplanung verfügen, sind es fast 2,9 Millionen US-Dollar. Dagegen müssen Unternehmen, die gut gerüstet sind, nur 72.000 US-Dollar aufwenden, um die Ursachen und Folgen einer Störung zu beheben. Das bedeutet für die Unternehmen beträchtliche wirtschaftliche Einbußen, einen gewaltigen Imageschaden und den Verlust von Millionen zukünftiger Geschäftschancen.

Andererseits wäre der Betrieb eines Rechenzentrums gänzlich ohne Ausfallzeiten gar nicht möglich. So müssen wichtige Teile ersetzt, angepasst oder regelmäßig gewartet werden. Die Kunst liegt darin, dies so geschickt zu planen und dabei die richtigen Technologien einzusetzen, dass die Ausfallzeiten minimal bleiben.

Bestandsaufnahme mit Asset-Management
Schritt 1: Die RZ-Betreiber müssen alle Geräte und Systeme, Hard- wie Software lückenlos erfassen und dokumentieren.
Outsourcing prüfen
Schritt 2: Als Alternative zum Eigenbetrieb sollte auch ein Komplett- oder Teil-Outsourcing in Betracht gezogen werden.
Standardisierung als Ziel
Schritt 3: RZ-Betreiber sollten auf eine standardisierte IT-Landschaft mit einheitlichen Lizenzen und einheitlichen Versionen hinarbeiten.
Kosten im Blick behalten
Schritt 4: Grundsätzlich sollten die Einkäufer darauf achten, möglichst schlank dimensionierte und verbrauchsarme Geräte einzukaufen.
Bessere Auslastung mit Virtualisierung
Schritt 5: Um Hardware zu optimieren, muss man sie reduzieren. Das funktioniert mit mehreren virtuellen Servern auf einem physikalischen Gerät.
Das passende Kühlkonzept
Schritt 6: Durch eine effizientere Auslastung der Rechner, lässt sich die Menge aller Stromabnehmer deutlich reduzieren.
Stromverbrauch planen
Schritt 7: RZ-Betreiber müssen die Richtwerte für den Stromverbrauch pro Quadratmeter RZ-Fläche realistisch planen.
Die richtige Dimension
Schritt 8: Ein Raumkonzept hilft, die vorhandenen Räumlichkeiten, Klimatisierung sowie Systeme und Geräte aufeinander abzustimmen.
Monitoring
Schritt 9: Ein umfassendes Monitoring sollte den Rechner-Pool, Stromversorgung, Kühlsysteme und die USV-Anlagen beinhalten.

Vorausschauende Monitoring-Tools nutzen

Eine Ursache für ungeplante Ausfälle sind Betriebsstörungen, deren Ursachen überall im Rechenzentrum zu finden sein können. Jeder Teil der IT kann irgendwann einmal ausfallen: Geräte, Bauteile oder die elektrische Ausrüstung. Das ist unvermeidlich. Der Schlüssel liegt darin, das Rechenzentrum mit entsprechend intelligenten Monitoring-Tools zu rüsten, die von sich aus das Wartungspersonal informieren, bevor überhaupt Probleme auftreten.

Intelligente Powerleisten als wichtiger Bestandteil

In diesem Zusammenhang wird die Bedeutung der Power Distribution Unit (PDU) oft unterschätzt. Im Normalfall sitzt sie im Server-Rack. Dort misst und überwacht sie dessen Stromversorgung. Intelligente PDUs (iPDUs) können aber noch mehr. Sie halten ständig Ausschau nach möglichen Gefahren und informieren die Manager des Rechenzentrums über drohende Überlastungen oder andere Veränderungen, die sich negativ auf den Betrieb des Rechenzentrums auswirken könnten. Dazu gehören Leckagen oder Temperaturschwankungen.

Hot-Swapping - Austausch im laufenden Betrieb

Um ungeplante Ausfälle zu vermeiden und planbare auf ein Minimum zu reduzieren, muss vorausschauend und zukunftssichernd gedacht werden. Dazu gehört auch der Einkauf der richtigen Technologie, damit nicht der Ausfall eines einfachen Bauteils gleich den kompletten Betrieb lahm legt. PDU-Bestandteile, die auch im laufenden Betrieb auswechselt werden können, ermöglichen notwendige Wartungsarbeiten, ohne dass die Server heruntergefahren werden müssen.

Risikofaktor Mensch

Bei der Betrachtung von Ausfallzeiten darf auch menschliches Versagen nicht vernachlässigt werden. Umfassende regelmäßige Weiterbildung des Personals sowie durch klar formulierte und sorgfältig ausgearbeitete Arbeitsabläufe sollten daher Standard sein. Das Arbeiten in engen Räumen zwischen zahlreichen Leitungen und Kabeln stellt die Techniker vor die Herausforderung, unbeabsichtigte Kurzschlüsse am Sicherungsautomaten zu vermeiden.

So liegen beim Entfernen eines Servers zu Reparaturzwecken zahlreiche Kabel oft kreuz und quer übereinander. Leicht können Leitungen falsch abgesteckt oder vergessen werden; mit dem Ergebnis, dass ein anderer Server plötzlich nicht mehr am Stromnetz ist. Auch hier kann Technologie helfen, diese Fehler zu vermeiden, in dem man Produkte mit arretierbaren Stromkabeln wählt.

Nur wer die Fakten kennt, kann richtig reagieren

Unternehmen können ihr Strom-Monitoring über PDUs verbessern und so Einblicke in die komplette Stromverteilung im Rechenzentrum gewinnen. Mit intelligenten PDUs kann das Management des Rechenzentrums Trends erkennen und Serverausfälle vermeiden. Ohne die in den PDUs eingebaute Intelligenz könnten die Server zu heiß laufen oder umgekehrt die Temperatur in der Umgebung der Server zu kalt werden - bis hin zum Absturz der Geräte.

Die Messung und Überprüfung des Stromverbrauchs im Rechenzentrum ist entscheidend für die Reduzierung von Betriebsstörungen. So hat McKinsey & Company in einer Studie festgestellt, dass nur sechs bis zwölf Prozent der Energie für den Betrieb der tatsächlich arbeitenden Server verwendet wurde, während die Server im Leerlaufbetrieb ohne Monitoring rund 90 Prozent der gesamten Energie verbrauchten.

Zu viel Kälte kann schädlich sein

Indem Unternehmen zu wenig über die Ursachen der Ausfälle in ihren Rechenzentren wissen, setzen sie ihre IT unnötigen Risiken aus. So herrschen in vielen Rechenzentren zu geringe Temperaturen. Im Irrglauben, die Geräte würden keine Temperaturen über 25 Grad Celsius vertragen, kühlen viele Betreiber ihre Rechenzentren zu stark herunter. Dabei zeigt eine Studie von Dell genau das Gegenteil. Die Systeme fallen demnach öfter aus, wenn die Umgebungstemperatur unter 16 Grad fällt, als wenn sie auf 25 Grad gehalten ist.

Dabei birgt die Anhebung der Temperatur um nur ein Grad Celsius ein enormes Einsparungspotenzial bei den Energiekosten, ohne damit das Ausfallrisiko zu erhöhen. Tatsächlich hat die ASHRAE (American Society of Heating, Refrigerating and Air-conditioning Engineers) in der aktuellen dritten Ausgabe ihrer "Thermal Guidelines for Data Processing Environments" vorgeschlagen, dass die Betreiber von Rechenzentren die empfohlenen Grenzwerte für ihre IT-Ausrüstung nach oben anpassen sollten. Damit wären drastische Kosteneinsparungen möglich.


Hetzner Online verwendet für seine Rechenzentren ein standardisiertes Design mit Luftkühlung, um Aufwand und Kosten zu sparen.

Wärmetauschertüren als Kühlelement sorgen im Demo-Rechenzentrum von eCube an der Frankfurter Goethe-Universität für die richtige Rechnertemperatur.

Wegen des Einsatzes eines magnetgelagerten Turboverdichters zur Verdampfung des Wärmetransportmediums Wasser bei niedrigen Temperaturen kann Coolblue von Stulz – hier ein Prototyp – trotz ausgezeichneter Effizienz auf ein Kühlmittel verzichten und arbeitet ausschließlich mit Wasser.

Der neue Seitenkühler Loopus von Schäfer IT-Systeme arbeitet je nach Situation abwechselnd mit reinem Wasser oder mit Kältemittel.

Mit einem neuen, standardisierten Moduldesign, bei dem die Kühleinrichtungen unter den Rechnerschränken untergebracht sind, wendet sich Rital an Betreiber von Rechenzentren jeder Größenordnung.

Mit Eis gefüllter unterirdischer Speicher: Im Sommer schmilzt das Eis, die Kälte kühlt das RZ

Der Eisspeicher wird mit einer Wärmepumpe und anderen Elementen zu einer ganzjährig tauglichen heiz- und Kühllösung fürs RZ kombiniert

Für dauerhafte 45 Grad Eingangstemperatur sind Dells Hyperscale-Server nach Angaben des Herstellers ausgelegt – da reicht freie Kühlung meistens aus

Mit dreidimensional skalierten Miniaturbauelementen, die on-board gekühlt werden, schrumpfen Chips für gigantische Rechenleistungen gewaltig zusammen.

Natürlich geht das nur, wenn auch die Technologie dafür ausgelegt ist. So sind die meisten herkömmlichen PDUs nur für eine Betriebstemperatur bis zu 45 Grad Celsius geeignet. Einige führende Industrieunternehmen haben bereits die Temperatur in ihren Rechenzentren heraufgesetzt. Aber während die Server-Hersteller inzwischen ihre Produkte auf höhere Temperaturen auslegen, haben viele PDU-Hersteller diese wichtige Entwicklung oftmals noch nicht erkannt.

Natürlich wird ein Server auch dann ausfallen, wenn die PDU zu heiß wird und ihren Dienst versagt. Neue, intelligente PDUs vertragen daher bereits Temperaturen bis zu 55 Grad.

Fit für die Zukunft

Jeder technologische Fortschritt bedeutet Veränderung. Neue Produkte für die Infrastruktur im Rechenzentrum sind nicht nur mit Ausgaben, sondern mit Wachstumspotenzial verbunden. Viele Betreiber übersehen die Notwendigkeit, im Rahmen einer Generalüberholung des gesamten Rechenzentrums auch die kleinsten Bestandteile der bestehenden Infrastruktur wie PDUs auf den Prüfstand zu stellen. Alle Beteiligten müssen bei diesen Entscheidungen mit einbezogen werden. So können sich zum Beispiel die Leiter der IT- und Facility-Management-Abteilungen besser verstehen, wenn sie bei der Erhöhung der Betriebszeiten und der Kapazitätsplanung zusammenarbeiten müssen.

Betreiber von Rechenzentren können durch proaktives Handeln das Ausfallrisiko minimieren, auch wenn die Möglichkeit dazu gering erscheinen mag. Ist aber das Personal in der Lage, die Geräte im Rechenzentrum richtig handzuhaben und liegen genaue Angaben zum Stromverbrauch vor, müssen sich die Mitarbeiter seltener um ungeplante Ausfälle kümmern.

Natürlich werden sich die genannten Risiken nie ganz ausschließen lassen. Aber das Budget für die Behebung von Ausfällen kann durch den Einsatz intelligenter Technologien reduziert werden. Die so eingesparte Summe steht stattdessen für das eigentliche Kerngeschäft zur Verfügung. (Tecchannel)