Große Speichermengen im Griff

Big Data intelligent managen und nutzen

26.11.2012
Von Steven Totman

Basisansätze für eine effiziente Datenintegration

Damit die täglich anfallenden Datenströme effizient verarbeitet werden können, sollten Unternehmen ihre Datenintegrationsstrategie überdenken. Ein wichtiger Grundsatz dafür lautet: Nicht alle Daten sind wichtige Daten. Der Versuch, alle Daten in den Verarbeitungs- und Analyseprozess einzubeziehen, ist oft sinnlos und kostet zu viel Zeit. Für Big-Data-Umgebungen gelten daher die folgenden drei Schritte für eine sinnvolle Filterung:

  • Definieren Sie eine klare Strategie, die alle genauen Datenanforderungen definiert (Warum brauche ich diese Daten? Wie helfen mir diese Daten, meine Geschäftsziele zu erreichen?).

  • Bauen Sie ein Datenmanagementmodell entsprechend Ihren Geschäftsbedürfnissen.

  • Implementieren Sie die richtigen Datenintegrations-Tools für die einzelnen Aufgaben.

Zurück zur ETL-Ebene

Datenanalyseverfahren können nur so gut sein wie die Datenbasis, die ihnen zugrunde liegt. Daher ist es wichtig, für diese starke Datenbasis zu sorgen. Erreicht werden kann das zum Beispiel, indem alle Datentransformationen in eine leistungsstarke In-Memory ETL Engine eingespeist werden. Damit werden vier Ziele erreicht:

  • Eine hohe Performance und Skalierbarkeit bei der Datenintegration;

  • eine effizientere Datenintegrationsarchitektur und bessere Ausnutzung der Hardware;

  • laufende Prozessoptimierung auf Basis integrierter Optionen;

  • Kosteneinsparungen durch geringeren Bedarf an Hardwareinfrastruktur sowie Entlastung des IT-Personals.

Die richtigen Datenintegrations-Tools können zudem das Volumen mittels Datenkompressionstechniken wie De-Duplizierung bereits auf ETL-Ebene reduzieren und die angeschlossenen Speichersysteme entlasten. Das britische Unternehmen comScore, ein globaler Anbieter von Internetdienstleistungen, konnte beispielsweise 100 Byte an Daten mittels Sortierung auf lediglich 12 Byte verkleinern, während bei unsortierten Daten gerade einmal 30 oder 40 Byte möglich sind. Hochgerechnet auf den Terabytebereich ergibt das eine enorme Einsparung an Speicherkapazität. Um eine entsprechende Performance zu gewährleisten und die Data Warehouses zu entlasten, ist es daher notwendig, alle Transformationsprozesse vom Datenintegrations-Tool durchführen zu lassen und nicht auf die Speicherebene zu verschieben, wie etwa beim ELT-Ansatz (Extract - Load - Transform).

Zur Startseite