Stellt man drei Personen die Frage nach einer Definition von "Big Data", erhält man - so komisch das auch klingen mag - mindestens vier Antworten. Allerdings ist das auch kein Wunder zu einer Zeit, in der Big-Data-Themen und -Projekte noch nicht Allgemeingut geworden sind.
IT-Hersteller und -Dienstleister versuchen derzeit Big Data ihre Definition aufzudrücken, um sich so im Big-Data-Licht besser in Szene zu setzen. Einige definieren Big Data als alles, was einfach große Datenmengen betrifft, weil sie diese gut speichern können und allein schon die ausufernden Datenmengen in klassischen Data Warehouses eine Herausforderung an sich sind.
Andere betrachten Big Data als eine Ansammlung sich schnell verändernder Daten, die von alles möglichen Internet-Devices stammen - Stichwort: Smart Metering und Internet der Dinge oder auch VoIP-Datenströme. Wieder andere erkennen Big Data in hohen Übertragungsraten auf Glasfaserleitungen, um auch ein exotisches Beispiel zu nennen.
IDC betrachtet Big Data als Daten, die den vier "Vs" unterliegen: Velocity, Variety, Volume, und Value; also Daten, die sich durch die schiere Menge, eine hohe Update-Geschwindigkeit sowie durch eine Mischung aus strukturierten als auch weniger strukturierten Daten zusammensetzen und die gleichzeitig einen zusätzlichen Wert für ein Unternehmen darstellen.
Der letztgenannte Aspekt ist von entscheidender Bedeutung, um Big-Data-Projekte in Unternehmen zu rechtfertigen. Denn ansonsten sind es nur "normale" Projekte, bei denen versucht wird, die stetig wachsenden Datenmengen in den Unternehmen zu speichern. Damit ist aber nichts gewonnen bis auf die Tatsache, dass noch mehr Daten großenteils nutzlos im Unternehmen "herumliegen". Es geht also mit Nichten nur um das noch größere Data Warehouse, das umfangreichere Archiv, noch mehr POS-Daten oder einfach um noch größere Plattenspeicher.
Wie ein Big-Data-Projekt gelingt
Wie aber gelingt nun ein Big-Data-Projekt? Dazu ist erst einmal erforderlich zu erkennen, dass es keine unstrukturierten Daten gibt. Denn wenn die Daten unstrukturiert wären, könnte man auch keinen zusätzlichen Wert daraus erzeugen. Die von vielen fälschlicherweise als sogenannten unstrukturierten Daten bezeichneten Daten bestehen vielfach aus klassischen Office-Dokumenten, also Textdateien, Präsentationen und Tabellenkalkulationen, sowie Bildern, Sound- und Video-Dateien usw.
Es gilt also, die auf einer höheren Abstraktionsebene vorhandene Struktur in diesen Daten zu erkennen, untereinander und mit klassischen strukturierten Daten zu verknüpfen. Aus diesen automatisch erzeugten Zusatzinformationen müssen sich dann zusätzliche Erkenntnisse und ein Mehrwert für die Unternehmen ergeben.
Das ist durchaus nicht trivial, da semantische Informationen verarbeitet werden müssen und der Begriff der klassischen Datenqualität nur noch eine geringere Gültigkeit hat. Denn halbstrukturierte Daten können widersprüchlich, lückenhaft oder auch einfach falsch sein.
Aus diesem Grunde lässt sich ein weiteres "V" ergänzen: Validity. Es kann als ein Maß für die Widerspruchsfreiheit eine Datenmenge angesehen werden. Man sieht also, dass sich die herkömmlichen Maßstäbe für große Datenmengen, zum Beispiel im Data Warehouse, aus Big Data nicht übertragen lassen.
Ein Big-Data-Projekt, das Erfolg für ein Unternehmen, also einen Mehrwert oder RoI generieren soll, startet mit der Mehrwertbetrachtung. Der Mehrwert sollte wie bei jedem guten Projekt aus den Geschäftszielen des Unternehmens abgeleitet werden. Typischerweise handelt es sich um ein kundenorientiertes Projekt, das Daten einbezieht, die bisher einer eingehenden Analyse verschlossen geblieben sind (z.B. Social-Media-Daten, Streaming-Daten aus Image-Analysen, Mitbewerberbeobachtungen, usw.).
Die Grenzen relationaler Datenbanken werden gesprengt
Andere Bereiche umfassen Qualitätsverbesserungsprojekte, die z.B. Transkriptionsdaten aus Call-Centern, Kundendienstprotokolle in Textform, oder auch Röntgenbilder oder Video-Auswertungen einbeziehen. Das Feld ist also weit offen und der Kreativität sind kaum Grenzen gesetzt.
Letztlich geht es um die Digitalisierung der belebten Welt und um eine Anwendung von Auswerte- und Analysefunktionen, die bisher nur für strukturierte Daten in klassischen relationalen Datenbanken sinnvoll einsetzbar waren. Diese Grenzen werden aber gerade durch immer höhere Rechengeschwindigkeiten, Parallelverarbeitung, höhere und immer billigere Speichermedien, bessere Sensoren und Übertragungskapazitäten gesprengt.
Letztlich geht es um eine digitale Neuvermessung unserer Welt. Nichts wird sich einer Analyse entziehen können: keine Bilder, keine E-Mails, keine Chats, keine Telefonate, keine Verträge, keine Eindrücke, keine Gefühle. Alles wird erfasst werden, um es mit Big-Data-Technologien auszuwerten. Das Potenzial ist riesig und in seiner Tiefe und Reichweite kaum abschätzbar.
Wir sollten allerdings rechtzeitig dafür sorgen, dass Privatsphären von Personen erhalten bleiben und jeder sein "Analysiert-werden" in Grenzen halten kann. Den potenziellen Segen erkennt man zum Beispiel in IBMs Watson-Projekt, das im medizinischen Bereich eingesetzt werden soll, um einer Vielzahl Patienten eine bessere Diagnose und damit höhere Heilungschancen angedeihen zu lassen.
Bedenkliche Ansätze bei Suchmaschinen wie Google oder Bing
Erste bedenkliche Ansätze erkennt man heute schon bei Suchmaschinen wie Google oder Bing, die eine Unmenge strukturierter und halbstrukturierter Daten über einzelne Personen zusammenführen und so über die Zeit unkontrolliert immer präzisere Personenprofile erstellen. Hier sind klare, eindeutige, und international nachvollziehbare Datenschutzregelungen unerlässlich. "Big Data" brauchen "Big Security"!
Rüdiger Spies ist Independent Vice President Enterprise Applications bei IDC Central Europe.