Projektmanagement


Beispiele und Technologien

Wie man Big-Data-Projekte plant

26.03.2014
Von Holger  Kisker
Welche Technologie ist und welches Einsatzszenario passt? Sollte man Bottom-Up oder Top-Down planen? über die betriebswirtschaftlichen Anwendungen? Forrester-Analyst Holger Kisker gibt Antworten in seiner Kolumne.
Holger Kisker ist Analyst bei Forrester Research.
Holger Kisker ist Analyst bei Forrester Research.

Alle Welt redet von Big DataBig Data. Doch häufig reden die Beteiligten aneinander vorbei. Wie bei der Einführung von Cloud ComputingCloud Computing vor einigen Jahren herrscht heute bei dem Thema Big Data eine gewisse Verwirrung und Unsicherheit auf dem Markt. Was ist Big Data und was ist es nicht, und wichtiger noch: Wie relevant ist Big Data für das eigene Unternehmen und wie sollte das Thema richtig angegangen werden? Alles zu Big Data auf CIO.de Alles zu Cloud Computing auf CIO.de

Während sich die Definition von den ersten Schritten über die wohlbekannten ‚V-Wörter‘ (Volume, Variety & Velocity) hin zu einem holistischen Verständnis von Big Data entwickelt hat, stehen viele Unternehmen heute vor der Frage, wie sie mit Big Data am besten beginnen sollen. Verkompliziert wird die Frage dadurch, dass es bei Big Data weder um eine bestimmte Technologie noch um ein bestimmtes, typisches Einsatzgebiet in Unternehmen geht.

Vielmehr gibt es ein sehr weites Spektrum von höchst unterschiedlichen Big-Data-Szenarien (zum Beispiel in Vertrieb, Marketing, Finanzwesen oder Logistik) die jeweils, abhängig von den benutzten Daten und Datenanalysetechniken, sehr unterschiedliche Technologien zur Realisierung benötigen.

Welche Technologie ist also für das eigene Unternehmen wichtig und mit welchem Einsatzszenario sollte man beginnen? Sollte man Big Data Bottom-Up von den Technologien her planen oder Top-Down über die betriebswirtschaftlichen Anwendungen?

Big Data hat viele Einsatzfelder

Abbildung 1: Bei der Umfrage im Rahmen von Forrester’s Forrsights Software Survey, Q4, 2013 wurden Entscheidungsträger aus Business und IT zu verschiedenen Aspekten ihrer Software-Unternehmensstrategie befragt. Hierbei kamen etwa 20 Prozent der Befragten aus dem Business und 80 Prozent aus dem IT-Bereich, was bei der Beurteilung der Ergebnisse, insbesondere des großen Anteils an 'IT Analytics'-relevanten Big Data Projekten natürlich eine Rolle spielen kann.
Abbildung 1: Bei der Umfrage im Rahmen von Forrester’s Forrsights Software Survey, Q4, 2013 wurden Entscheidungsträger aus Business und IT zu verschiedenen Aspekten ihrer Software-Unternehmensstrategie befragt. Hierbei kamen etwa 20 Prozent der Befragten aus dem Business und 80 Prozent aus dem IT-Bereich, was bei der Beurteilung der Ergebnisse, insbesondere des großen Anteils an 'IT Analytics'-relevanten Big Data Projekten natürlich eine Rolle spielen kann.
Foto: Forrester

Eine Umfrage von Forrester Research Ende letzten Jahres unter rund 1800 Unternehmen zeigt, dass 36 Prozent der befragten Unternehmen Big Data entweder bereits nutzen oder 2014 ein konkretes Projekt planen. Die weitergehende Analyse aus derselben Umfrage zeigt ein weites Spektrum von Einsatzgebieten bei der Nutzung von Big Data (siehe Abbildung 1).

Die Ergebnisse zeigen, dass es eben nicht ein bestimmtes, typisches Einsatzgebiet von Big Data gibt, sondern dass Big Data in allen Bereichen eines Unternehmens einen betriebswirtschaftlichen Nutzen beisteuern kann.

Big Data benutzt viele verschiedene Technologien

Entsprechend der vielseitigen Einsatzmöglichkeiten von Big Data gibt es auch nicht die eine, typische Technologie, die bei allen unterschiedlichen Szenarien zum Einsatz kommt. Vielmehr benötigt jedes Szenario, abhängig von den verwendeten Rohdaten bestimmte Technologien zur Sammlung, Speicherung und Aufbereitung der Daten sowie je nach Fragestellung unterschiedliche Datenanalyse Technologien.

Von Big Data sprechen wir in der Regel nur, wenn ein traditionelles Datawarehouse mit Standard ReportingReporting für den Anwendungszweck nicht ausreicht. Alles darüber hinaus führt uns in die weite Welt des Big Data. Alles zu Reporting auf CIO.de

Abbildung 2: Bei der Bestimmung der passenden Datamanagement-Technologie kommen einem die bereits vorab genannten Begriffe Volume, Variety und Velocity zur Hilfe.
Abbildung 2: Bei der Bestimmung der passenden Datamanagement-Technologie kommen einem die bereits vorab genannten Begriffe Volume, Variety und Velocity zur Hilfe.
Foto: Forrester

Derzeit nutzen Unternehmen im Schnitt nur etwa 12 Prozent ihrer Daten für betriebswirtschaftlich relevante Analysen (so das Ergebnis des Forrester BI/Big Data Spotlight Survey Q3, 2012), ganz zu schweigen von den gewaltigen Mengen an Daten, die außerhalb eines Unternehmens (z.B. im Internet) zur Verfügung stehen.

Bei der Bestimmung der passenden Datamanagement-Technologie kommen einem die bereits vorab genannten Begriffe Volume, Variety und Velocity zur Hilfe. Natürlich können auch bereits 'kleine' Datenvolumen für Big Data Szenarien und Technologien relevant sein. Doch da Skalierbarkeit und Volumen in der Regel immer eine wichtige Rolle spielen, kann man das Problem der richtigen Technologie-Auswahl in der Regel auf zwei Dimensionen einschränken: Variety, d.h. die Vielfalt der verschiedenen Datenformate und Velocity, die Geschwindigkeit mit der Daten gesammelt und/oder verarbeitet werden müssen (was genau genommen zwei verschiedene Dinge sind) (siehe Abbildung 2).

4 Technologien für Big Data

  • Standard SQL Appliances verarbeiten Daten schnell und kosteneffizient. Falls die Herausforderungen weder in Richtung Velocity noch Variety übermäßig stark ausgeprägt sind, wenn es sich also 'nur' um strukturierte Daten (z.B. aus transaktionalen Systemen) von bis zu einigen Terabyte handelt und eine Beschleunigung der Datenverarbeitung/Analyse um einen Faktor 10-100 gegenüber traditionellen System völlig ausreicht, gibt es im Markt eine ganze Reihe ausgezeichneter, und bezüglich Preis/Leistung kosteneffizienter Standard-SQL basierter Analytics Appliance Lösungen.

  • In-Memory ist der Turbo für die Datenverarbeitung. Reicht die Geschwindigkeit einer Standard Appliances nicht aus und man braucht für sein Einsatzszenario einen Beschleunigungsfaktor von 100-1000 oder mehr, sollte man eine In-Memory basierte Lösung in Betracht ziehen.

  • Hadoop trumpft mit kostengünstiger Skalierbarkeit für alle Daten. Falls die Herausforderung eher in der Vielfalt und Skalierbarkeit der Datenformate und Volumen liegt, ist wahrscheinlich Hadoop die am besten geeignete Technologie. Allerdings ist Hadoop jedoch vergleichsweise langsam im Datenzugriff.

  • Streaming verarbeitet Daten in Echtzeit. Will man Daten in allen möglichen Formaten und in Echtzeit verarbeiten, kommt wahrscheinlich eine Streaming-Lösung zum Einsatz.

Abbildung 3: Zwei verschiedene Vorgehensweisen Szenarien und Technologien zu beginnen.
Abbildung 3: Zwei verschiedene Vorgehensweisen Szenarien und Technologien zu beginnen.
Foto: Forrester

Natürlich ist diese Segmentierung eine starke Vereinfachung der Realität und die Grenzen zwischen den verschiedenen Szenarien zur Auswahl der richtigen Technologie sind keinesfalls scharf gezeichnet. Aber sie gibt eine simple Hilfestellung und zeigt, dass es nicht ‚die eine‘ passende Technologie für alle Fälle gibt und das insbesondere Hadoop oder auch In-Memory nicht gleich Big Data bedeuten, wie es uns bestimmte Hersteller vormachen wollen.

Hinzu kommt, dass für viele Szenarien letztendlich eine Kombination mehrerer dieser Technologien sinnvoll ist, z.B. die Nutzung eines Hadoop-Cluster mit einem In-Memory-Layer 'On-Top' zur Beschleunigung.

Big Data will strategisch geplant sein

Anbetracht der vielen verschiedenen Big Data Einsatzszenarien und Technologien – wie sollte ein Unternehmen nun seine Big Data Strategie planen und mit welche Szenarien und Technologien sollte begonnen werden? Grundsätzlich kann man hierzu zwei verschiedene Vorgehensweisen unterscheiden (siehe Abbildung 3).

  • Bottom-Up Planung vermittelt notwendiges Big Data Knowhow. Eine Bottom-Up Planung ist eher von der Technologie-Seite und somit vom CIO getrieben. Hierbei betrachtet man in der Regel welche Daten derzeit nicht optimal genutzt werden und wandelt diese in betriebswirtschaftlichen Nutzen um. Während man so neue Daten mit neuen Herausforderungen an Datenmanagement und Analyse hinzuzieht, kann man im Unternehmen parallel und kontrolliert die notwendigen Technologien und dazugehörigen Kompetenzen einführen und ausbauen. Bei dieser Vorgehensweise findet sich durchaus der ein- oder andere ‚Golden Nugget‘ der zu neuen Geschäftsmodellen führen kann, so z.B. zur Monetisierung eigener Daten am Markt.

  • Top-Down Planung stellt den betriebswirtschaftlichen Nutzen in den Mittelpunkt. Bei der Top-Down Planung identifiziert man einen Geschäftsprozess der mit neuen, innovativen Informationen und Einsichten verbessert werden soll (z.B. Effizienz von Marketing Kampagnen durch Echtzeit Performance-Analyse, Preisoptimierung durch Markt-Analyse und Vorhersagen usw.). Hieraus ergibt sich der Reihe nach welche Analysetools die entsprechenden Einsichten liefern können, und erst zuletzt welche Daten von innerhalb und außerhalb des Unternehmens hierfür heran gezogen werden müssen und welche Datenmanagement Technologie man für diese Daten braucht.

Zwar erscheint zunächst die Top-Down Planung als die 'einzig richtige' Vorgehensweise, denn schließlich sollte der betriebswirtschaftliche Nutzen immer im Vordergrund stehen, jedoch hat auch die Bottom-Up Planung durchaus ihre Berechtigung. Insbesondere zu Beginn einer Unternehmens-Roadmap für Big Data vermitteln Bottom-Up betriebene Pilotprojekte die notwendigen Kompetenzen um nachfolgende Business Szenarien erfolgreich umsetzen zu können.

Letztendlich geht es darum Big Data strategisch und langfristig zu planen um nicht in einem Szenario mit vielen separaten Big Data Silo-Lösungen in Unternehmen zu enden.

Über kurz oder lang werden Unternehmen eine flexible Big Data Plattform benötigen, die alle der angeführten Datamanagement-Technologien beinhaltet und somit langfristig alle Big Data Szenarien eines Unternehmens unterstützen kann.

Holger Kisker ist Analyst bei Forrester Research.

Zur Startseite