Ratschläge von Roland Berger

Experimentieren Sie mit Big Data

10.07.2013
Von Curt Cramer und Alexander Türk

Volume, Velocity und Variety sind nicht die Kernprobleme

Alexander Türk ist IT-Experte bei Roland Berger Strategy Consultants.
Alexander Türk ist IT-Experte bei Roland Berger Strategy Consultants.
Foto: Roland Berger

Wir bezweifeln, dass "Volume" (große Datenmengen), "Velocity" (dauernd einströmende Daten) und "Variety" (Mischung aus strukturierten und unstrukturierten [Text-]Daten) die drei aktuellen Kernprobleme bei der Umsetzung von Big-Data-Projekten sind, wie häufig behauptet wird.

Beispiel Volumen: Laut einer aktuellen Umfrage des Data-Mining-Portals KDnuggets ist die von Unternehmen durchschnittlich bearbeitete Datenmenge eher bei zehn Gigabyte als im Terabyte-Bereich anzusiedeln - gemessen an heutigen Standards eine wenig problematische Größenordnung. Den Engpass sehen wir vielmehr bei den mathematischen Modellierungsverfahren, auf denen jede Datenanalyse fußt. Diese Verfahren verlieren an Qualität, je mehr Variablen im Spiel sind.

Rechnungen mit Kundendatensätzen etwa, die aus mehreren hundert Variablen bestehen, zum Beispiel zu Wohnort, Einkommen, Alter, bisherigem Kaufverhalten, der Haushaltsgröße und vielen anderen Parametern, verlieren mitunter stark an Anwendbarkeit. Bereits seit 1961 ist dieses Prinzip unter dem Begriff "Curse of Dimensionality" bekannt (Richard Bellman).

Demnach werden Fehlermetriken, die einer möglichst genauen Anpassung des Modells an die Eingabedaten dienen, mit zunehmender Datenmenge weniger aussagekräftig. Gleichzeitig aber benötigen sie für eine valide Modellierung eine deutlich größere Datenmenge, als Unternehmen auf Basis ihrer operativen Daten liefern können.

Deswegen stellt dieser Bellmansche "Fluch" zumindest in der heutigen Unternehmens-IT die größte Herausforderung bei der Umsetzung einer Big-Data-Strategie dar.

Zur Startseite