Großrechner, Desktop-Clients, Smartphones, Selbstbedienungsautomaten und eingebettete Systeme in Kraftfahrzeugen oder Flugzeugen - all diese Systeme erzeugen enorme Datenmengen, die wertvolle Informationen über Geschäftsprozesse, Produkte und Kunden enthalten. Obwohl günstige Infrastrukturen die Verarbeitung dieser Datenmengen ermöglichen, nutzen Unternehmen diese Informationen noch nicht systematisch, um sich Wettbewerbsvorteile zu verschaffen.
Einer der Hauptgründe: Die Datenverarbeitungsprinzipien haben sich nur wenig an die geänderten Rahmenbedingungen angepasst. Die heute in Unternehmen eingesetzten relationalen Datenbanken beruhen auf einem Modell, das bei Schreib- und Lesezugriffen absolut zuverlässig ist. Doch dieses Modell ist für große Datenmengen im Tera- oder sogar Petabyte-Bereich nicht ausgelegt. Derartige Systeme lassen sich nur durch die Erweiterung der Komponenten des Datenbankservers skalieren ("scale up"), wodurch sie in ihrer Größe begrenzt sind.
Big Data geht neue Wege
Big Data bricht mit dieser Tradition und etabliert ein neues Datenverarbeitungsprinzip, das voraussetzt, dass die vorhandene Datenbasis nur gelesen und nicht verändert wird. Die Verarbeitung wird dabei so aufgeteilt, dass die Infrastruktur flexibel an die Problemgröße angepasst werden kann ("scale out"). Google hat diesen Ansatz als Kern seiner Produktionsinfrastruktur unter dem Namen "MapReduce" entwickelt. Daraus entstand das populäre Open-Source-Projekt "Hadoop" - heute der Standard für die Big-Data-Technologie.
Die Vorteile dieser Technologie liegen auf der Hand: die Möglichkeit, große Datenvolumina (Petabyte-Bereich) zu verarbeiten, und die Flexibilität bei der Auswahl der Basis-Infrastruktur. Von der einfachen, kostengünstigen Commodity-Hardware bis hin zu einer Cloud-basierten Infrastruktur sind hier keine Grenzen gesetzt. So bieten zum Beispiel "Amazon Web Services" und in Kürze auch "Microsoft Azure" vorkonfigurierte Hadoop-Umgebungen an.
Auch China Mobile, der größte chinesische Mobilfunkprovider, hat eine Hadoop-basierte Lösung entwickelt, um etwa die Verbindungsdaten hinsichtlich des Nutzungsverhaltens und der Abwanderungswahrscheinlichkeit seiner Kunden zu analysieren. Diese Auswertungen unterstützen das Marketing und tragen zur Verbesserung der Netze und der Servicequalität bei. Denn die zuvor eingesetzte "scale up"-Lösung ermöglichte es dem Unternehmen, die Daten von nur etwa zehn Prozent der Kunden auszuwerten.
Dank der Hadoop-basierten Lösung wurden zwei Ziele erreicht: Alle Verbindungsdaten konnten ausgewertet werden und zeitgleich konnte die Firma die Kosten senken. Durch den Einsatz der Commodity-Hardware kostete die neue Lösung etwa ein Fünftel der bisherigen Lösung - und das bei einer deutlich besseren Leistung.
Geringe Zahl an Fallstudien erschwert Big-Data-Vermarktung
Trotz technologischer Vorteile haben sich Big-Data-Ansätze noch nicht im Markt durchsetzen können. So geht das IT-Marktforschungsunternehmen Gartner davon aus, dass sich lediglich 20 Prozent der aktuellen Big-Data-Initiativen im Implementierungsstadium befinden. Und im Jahr 2015 werden sich erst circa 15 Prozent der Unternehmen auf die Verarbeitung großer Datenmengen eingestellt haben.
Eine der großen Hürden beim Markterfolg von Big Data sind die mangelnden Fallbeispiele aus verschiedenen Bereichen - Big Data ist für die meisten nicht greifbar genug. Es fehlen konkrete Anwendungsbeispiele, die den Mehrwert dieser Technologie tatsächlich belegen. Dennoch haben einige Unternehmen und Institutionen bereits angekündigt, verstärkt auf Big Data setzen zu wollen:
-
Das New York Presbyterian Hospital hat durch die systematische Auswertung von Patientengeschichten die Anzahl tödlicher Thrombosefälle um 25 Prozent gesenkt (Quelle: Hortonworks).
-
Das Los Angeles Police Department hat in einem Pilotprojekt eine "Predictive Policing"-Lösung eingesetzt. Dadurch konnte die Polizei Verbrechensschauplätze und -zeitpunkt im Vorfeld genauer identifizieren (Quelle: Cloudera).
-
Das Speditionsunternehmen US Xpress spart durch die Auswertung von Sensor- und Geodaten seiner LKW-Flotte jährlich mehrere Millionen Dollar. Geringere Leerlaufzeiten und der reduzierte Treibstoffverbrauch tragen zu diesen Einsparungen bei (Quelle: Informatica).
Mit Hadoop Betrugsfälle erkennen
-
Der Finanzdienstleister JP Morgan Chase setzt Hadoop seit rund drei Jahren für Betrugserkennung und für IT-Risikomanagement ein (Quelle: JP Morgan Chase).
-
Der Einzelhändler Sears kann durch Hadoop die Preiselastizität seiner Produkte wöchentlich analysieren. Dabei werden etwa Produktverfügbarkeit und Konkurrenzpreise unter die Lupe genommen. Zuvor konnte das Unternehmen nur zehn Prozent der verfügbaren Daten dafür nutzen; die Berechnungen dauerten circa acht Wochen (Quelle: Wall Street Journal).
Eine weitere Hürde auf dem Weg zum Big-Data-Erfolg stellt die aktuelle Marktlage für entsprechende IT-Lösungen dar. Mehrere Dienstleister bieten momentan Lösungen auf Hadoop-Basis. Dazu gehören Firmen wie Cloudera, Hortonworks, Datameer und HStreaming, aber auch große Namen wie IBM und EMC.
Doch die Anbieter stoßen alle an eine wichtige Grenze: Keiner besitzt standardisierte Industrielösungen, die sich schnell an die Kundenbedürfnisse anpassen lassen. Oft müssen diese Lösungen erst in gemeinsamen Kundenprojekten entwickelt werden, da sich die Anbieter auf die Anpassung der Basis-Technologien rund um Hadoop spezialisiert haben.
IT und Fachbereiche noch nicht auf Big Data ausgerichtet
Um einen Big Data-Ansatz umzusetzen, müssen auf Anwenderseite die IT-Experten des Unternehmens andere Fähigkeiten besitzen als für Systeme, die eine Datenverarbeitung nach heutigen Standards unterstützen. Dabei sind drei Aspekte besonders relevant: die Datenanalyse, die Datenvisualisierung und die technischen Fähigkeiten.
Eine Datenverarbeitungsaufgabe umfasst normalerweise eine Analyse in Form einer Standardabfrage in ausgereiften und nutzerfreundlichen BI-Programmen und eines anschließenden Standardberichts. Für eine Big- Data-Anwendung muss der Analyst zunächst die Datenquellen bestimmen und so aufbereiten, dass sie automatisiert weiterverarbeitet werden können. Der Analyst muss daher Säuberungsregeln, Datenformate und die wichtigsten Kenngrößen unter den vielen Datenquellen im Vorfeld festlegen. Dieser explorative Ansatz unterscheidet sich von dem heute üblichen, standardisierten Vorgehen.
Visualisierung statt standardisierter Berichte
Die Visualisierung spielt hierbei eine besondere Rolle: Berichte helfen heute, Analyseergebnisse in einheitlicher Form an die Entscheider zu kommunizieren. Bei der Entwicklung einer Big-Data-Anwendung greift aber der Analyst nicht auf standardisierte Berichte zurück, sondern nutzt die Visualisierung als Hilfsmittel, um statistische Muster und Verläufe schnell erkennen zu können. Erst im nächsten Schritt kann er dem Kunden durch Standardberichte Fakten präsentieren, die aus verschiedenen Datenquellen zusammengesetzt sind.
Für einen Hadoop-basierten Analyseansatz benötigen die Experten aber gute Kenntnisse des Frameworks selbst sowie angrenzender Technologien (HDFS, HBase, Hive, Mahout). Diese Fähigkeiten sind jedoch nicht nur für die Analyse erforderlich, sondern auch schon im Vorfeld, um die Big-Data-Ansätze zu bewerten. Unternehmen können heute intern nicht auf die entsprechenden Ressourcen zurückgreifen. Denn die notwendigen Technologien wurden nicht von den führenden Datenbankherstellern entwickelt; Unternehmensmitarbeiter kennen sich folglich nicht damit aus. CIOs sollten daher Innovationsimpulse sowohl in ihren IT-Bereich als auch in die Fachbereiche geben.
Schritt für Schritt zur Big-Data-Strategie
Unabhängig von der heutigen Verfügbarkeit von Out-of-the-Box-Lösungen müssen Unternehmen frühzeitig eine Strategie entwickeln, um ihre Daten sinnvoll zu nutzen. Eine "Data Due Diligence" hilft dabei, die wesentlichen strategischen Fragen zu beantworten.
Eine Checkliste:
|
Entsprechend lassen sich dann die wichtigsten Eckpunkte einer Infrastrukturstrategie definieren. Diese umfasst mehrere Aspekte:
-
Daten-Infrastruktur/-Architektur: Das Unternehmen muss festlegen, welche Systeme für die jeweiligen Datensätze in Zukunft führend sein werden, wenn dies aktuell noch nicht definiert ist.
Infrastruktur: eine klassische "Make or Buy"-Entscheidung
-
Software-Infrastruktur: Unternehmen müssen die Mittel für die Datenanalysen festlegen. Normalerweise geht es dabei um etablierte BI-Werkzeuge, die Standard-Reports aus den vorhandenen Daten erstellen können. Im Falle eines Big-Data-Ansatzes besteht diese Software-Infrastruktur aus einer Big-Data-Plattform wie Hadoop, Konnektoren zu den relevanten Datenquellen in der Daten-Architektur sowie Analyse-Tools wie "Hive" für Data Warehousing, "Mahout" für Machine Learning oder "Pig" als interaktive Shell.
-
Technische Infrastruktur: Hier geht es um die technische Infrastruktur für die Umsetzung des Big-Data-Ansatzes. Für das Unternehmen heißt es: eine klassische "Make or Buy"-Entscheidung. Wenn Analysen nur einmalig erfolgen beziehungsweise große Schwankungen im Datenvolumen oder in der Analysenachfrage bestehen, dann lohnt sich eher, auf Cloud-basierte Infrastrukturen zurückzugreifen als in eine eigene Hardware zu investieren. Aufschluss darüber liefert der in der "Data Due Diligence" entwickelte Business Case.
Unternehmen sollten daher zuerst eine umfassende Bestandsaufnahme im Rahmen einer "Data Due Diligence" erstellen. Dabei können sie wirtschaftlich sinnvolle Ansätze identifizieren, die Technologiefrage klären und dann erste Schritte für eine Pilotumsetzung in die Wege leiten.
Andreas Dietze ist Partner und Curt Cramer Projektleiter im Competence Center InfoCom bei Roland Berger Strategy Consultants.