Umstrittene Speicher-Methode

7 Ratschläge zur Deduplizierung

14.09.2010 von Werner Kurzlechner

Doppelte Backup-Geschwindigkeit, weniger Bedarf an Speicherbändern – Deduplizierung bringt messbare Vorteile. Sieben Hinweise, was beim Einsatz zu beachten ist.

Steve Mackey von Quantum: Wer nicht weiter weiß, sollte ruhig beim Backup-Anbieter seines Vertrauens nachfragen.

Deduplizierung als Methode der Datenverdichtung gilt seit drei Jahren als heißes Eisen im Storage-Köcher. Von Anbieterseite wird heftig über Sinn und Unsinn des Verfahrens debattiert, regelrechte Marketing-Schlachten waren zu bestaunen. Weithin unklar ist, inwieweit Deduplizierung in mittelgroßen Rechenzentren mit wenig Personal und kaum Backup-Spezialisten anwendbar ist. Steve Mackey, Nordeuropachef des Storage-Anbieters Quantum, versucht, sieben drängende Fragen zu beantworten.

1. Ist Daten-Deduplizierung mittlerweile eine Mainstream-Technologie? Klares Ja, sagt Mackey. Nach Einschätzung von Analysten setze etwa jede dritte IT-Abteilung die Methode zumindest für einen Teil der Daten ein. Auf der Anbieterseite seien inzwischen Produkte einer neuen Generation auf dem Markt, die eine vereinfachte und fortlaufende Anwendung erlauben. Mackey warnt aber auch, dass die Anbieter immer noch mitten im Lernprozess seien. Anwender tun also gut daran, sich über Erfahrungen, Referenzen und Support genau zu informieren.

2. Was genau passiert bei der Methode? Allgemein ist Deduplizierung ein Verfahren, um überflüssige Daten auf Sub-File-Level zu finden und Verweise auf die Dubletten zu ersetzen. So können die Datenträger entschlackt und die zur Übertragung nötige Bandbreite reduziert werden. Das geht auf unterschiedliche Weise vonstatten. Typisch ist die Block-Level-Deduplizierung, manche Produkte deduplizieren aber auch differenziert auf verschiedenen File-Niveaus. Die verschiedenen Ansätze wirken sich auf die Performance, den benötigten Arbeitsspeicher, die Unterstützung verschiedener Software-Anwendungen und die Möglichkeiten der Replikation aus. „Der spezifische Ansatz ist aber weniger wichtig als die erzielten Resultate“, meint Mackey.

3. Welche Probleme werden durch Deduplizierung gelöst? Am gebräuchlichsten ist die Anwendung für Backup-Daten. Nachvollziehbar, denn diese weisen mehr Redundanzen auf als andere Datensätze und werden länger aufbewahrt. Laut Mackey ergeben sich für die am meisten verbreiteten Office-Daten – darunter auch E-Mail und Flat Files – hohe Deduplizierungsraten. In einer Anwenderbefragung fand Quantum heraus, dass die Kunden im Durchschnitt eine um 125 Prozent beschleunigte Backup-Geschwindigkeit erzielten. Die fehlgeschlagenen Backups reduzierten sich um 87 Prozent. Zugleichen sanken die Kosten: die Ausgaben für austauschbare Medien um die Hälfte, jene für die Datenabfrage via Tape um 97 Prozent. Die eingesparte Zeit für die Backup-Steuerung beziffert der Anbieter auf 63 Prozent. Anwender, die die Technologie für Disaster Recovery (DR) einsetzten, profitierten von der Automatisierung des Prozesses und der Eliminierung von Bändern in kleineren Büros.

4. Spielt es eine Rolle, welche Backup-Software im Einsatz ist? Die meisten Anbieter hätten ihre Systeme mit verschiedenen Applikationen getestet und gute Ergebnisse erzielt, berichtet Mackey. Es lohne sich, bei den Herstellern nach optimierten Lösungen für bestimmte Software zu fragen. Außerdem sollte ausgelotet werden, ob es Support für spezifische Backup-Interfaces gibt. Symantec beispielsweise habe eine OpenStorage-Schnittstelle entwickelt, die eine verbesserte Performance ermögliche. Mackey rät weiter, sich bei den Deduplizierungs-Anbietern nach strategischen Partnerschaften mit Backup-Spezialisten zu erkundigen.

Tapes werden nicht überflüssig

5. Was ist der einfachste Implementierungsweg? Grundsätzlich haben IT-Abteilungen die Wahl zwischen eigenen Deduplizierungs-Anwendungen und der Durchführung von Deduplizierung mit Hilfe der Backup-Software. Was einfacher geht, lasse sich pauschal nicht sagen, so Mackey. Der vorherrschende Ansatz mit speziellen Anwendungen erlaube den Anwendern, entlang bestehender Backup-Targets zu deduplizieren und an der Backup-Methode nichts zu verändern. Dadurch komme es nie zu einer höheren Belastung der Backup-Clients oder Media-Server. Weil diese Methode die reifste ist, ist eine schnellere Implementierung möglich, und es werden weniger Services benötigt.

Beim Software-Ansatz erfolgt die Deduplizierung der Backup-Daten schon, bevor sie an ihr Ziel geschickt werden. Dadurch werden weniger Daten im Netzwerk verschickt – ein Kompressions-Effekt. Andererseits besteht das Risiko verlangsamter Operationen, was zusätzliche Server oder mehr Speicherplatz erfordern kann. Welcher Weg zielführend sei, hänge von den Umständen im Unternehmen ab, so Mackey. Die IT müsse sich vorab folgende Fragen stellen: Wo bestehen aktuell Engpässe? Sind die Media-Server derzeit unausgelastet? Welches Integrationsniveau wird angestrebt?

6. Soll auf Bänder komplett verzichtet werden? Nein, denn ganz überflüssig sind die Tapes nicht – auch wenn ihre Zahl deutlich reduziert werden kann. Laut Mackey macht Deduplizierung die Tapes beim täglichen Backup und Restore ebenso überflüssig wie beim kurzfristigen DR-Schutz. Für die langfristige Aufbewahrung von Daten sind Tapes hingegen nach wie vor das beste Medium. Sie verbrauchen wenig Strom, Platz und Kühlung, Sicherheit und Zuverlässigkeit verbessern sich stetig.

7. Wo gibt es unabhängige Beratung? Idealerweise bei unabhängigen Analysten. Wer sich deren Rat nicht leisten kann oder will, findet nach Einschätzung Mackey möglicherweise Unterstützung bei erfahrenen Gebrauchthändlern. Diese hätten ein starkes Interesse an zufriedenen Kunden und könnten anhand der Track-Records bei der Auswahl der richtigen Lösung hilfreich sein. Auch ein Gespräch mit dem vertrauten Backup-Anbieter könne die verschiedenen Optionen zur Deduplizierung verdeutlichen, so der Quantum-Manager.

Lesen Sie mehr zum Thema Storage:

In sieben Schritten zur Storage-Konsolidierung

In zehn Schritten zum effizienteren Storage-Management

Dieser Artikel bsiert auf einem Beitrag der CW-Schwesterpublikation CIO.