Wer glaubt, dass mit Hadoop, schnelleren Rechnern, neuen Analyse-Tools sowie einem differenzierten Storage-Konzept die Big-Data-Probleme vom Tisch sind, irrt sich gewaltig. Die Datenmengen steigen weiterhin explosionsartig an und die Management-Tools stagnieren. Viele Experten glauben inzwischen, dass man umdenken muss. Deren neue Vorgabe lautet: Mut zum Löschen.
"Big Data war eine harmlose Epoche, die echten Daten-Herausforderungen kommen erst jetzt in Form von Huge Data", warnte der Technologie-Stratege Kevin Coleman jüngst auf einer IT-Veranstaltung der UN. Damit meint er, dass der Begriff und die Diskussion um Big Data zu einer Zeit aufkamen, als Kameras und Handys immer mehr hochauflösende Bilder und Videos produzierten und die unstrukturierten Daten auf den Social-Media-Seiten das Interesse der Marketing-Manager weckten.
In einer IDC-Studie aus dem Jahr 2007 steht, dass "70 Prozent des zukünftigen Datenvolumens auf Enduser-Geräten generiert werden wird, doch dass 85 Prozent dieser Daten auf professionellen Systemen gespeichert und bearbeitet werden wird". Letzteres bezieht sich auf Cloud-Dienste, Social-Media, Webhostings sowie die Anlagen bei E-Mails oder Chats. Damals prognostizierte IDC, dass sich das gesamte digitale Universum von 173 Milliarden Gigabyte im Jahr 2006 bis 2011 auf 1.773 Milliarden Gigabyte (1,773 Zettabyte) verzehnfachen wird. Im vorigen Jahr waren es dann laut IDC bereits sechs Zettabytes, und bis 2020 soll das Volumen auf 44 Zettabyte anschwellen.
Cisco spricht inzwischen vom Zettabyte-Zeitalter. Über 100 Milliarden Emails wurden 2014 verschickt - das Fünfzigfache gegenüber 2006. Das interessante an diesen Zahlen ist, dass laut den Marktforschern von Aureus Analytics rund 90 Prozent aller weltweit gespeicherten Daten erst in den letzten zwei Jahren generiert wurde.
Neue Anwendungen treiben das Datenvolumen
Damit wird klar, dass der weiterhin rasante Zuwachs nur noch teilweise auf Bilder, Videos und Social-Media zurückzuführen ist. Die größten Datenzuwächse entstammen heute den neuen industriellen Sensoren und den Internet-fähigen Wearables - Markt-Segmente also, die es vor wenigen Jahren zum größten Teil noch gar nicht gab. "Die Business-Erwartungen an die neuen IT-Bereiche, wie Internet of Things (IoT), vernetzte Consumer-Gadgets und neue Analytics sind immens", schildert Aureus-Analyst Ketan Pandit. Hinzu kommen neue datenintensive Anwendungen, wie Machine-Learning, Deep-Learning, intelligente Roboter, semi-autonome Autos sowie eine intensive Cloud-Nutzung, bei der komplette ERP-Anwendungen inklusive Daten weltweit hin-und-her geschoben werden.
Datenflut durch Wearables
Bei den Wearables zeichnen sich neue immense Datenberge ab. Beispielsweise werden GPS-Geräte und Sensoren in die Trikots der Fußballspieler eingenäht. Darüber lassen sich dann die Bewegungen, die Beschleunigung und die körperliche Belastung sekundengenau übers Internet abrufen. In der allgemeinen Gesundheitsvorsorge bekommt die kontinuierliche Fernüberwachung ebenfalls eine immer größere Bedeutung - alles Huge-Data-Anwendungen also.
Mehr Daten bedeutet weniger Mathematik
Der zunehmende Einsatz von Predictive Maintenance basiert zum großen Teil auf der Extrapolation von Ereignisabläufen aus der Vergangenheit. Das heißt, je mehr Daten zur Verfügung stehen, umso mehr und umso besser sind die Prognosen. Viele Datenwissenschaftler vertreten inzwischen sogar die These, dass die Komplexität der Datenmodelle abnimmt, wenn mehr Daten zur Verfügung stehen. Hierbei berufen sie sich meist auf die Arbeit des Computer-Wissenschaftlers Peter Norvig, der in seiner Veröffentlichung "The Unreasonable Effectivness of Data" praktisch zu dem Schluss kommt: "Je mehr Daten - umso weniger Mathematik".
Zu viel Daten-Schrott
Doch nicht alles, was gespeichert wird, muss aufgehoben werden, ist meistens auch nicht wichtig oder zumindest noch hilfreich. "Der größte Teil aller gespeicherten Daten ist Schrott und vergeudet nur die Zeit von teuer bezahlten Daten-Wissenschaftlern, die im Daten-Heustober herumstochern", kritisiert Jake Frazier, Analyst bei FTI Consulting.
Um das Datenwachstum in Zukunft etwas abzuschwächen, werden bereits verschiedene Daten-Management- und gesetzliche Regeln diskutiert. Bill Franks, Chief Analytics Officer bei Teradata, meint, dass in Zukunft alle produzierten Daten bereits einen "Verfallsdatums-Stempel" bekommen müssen. Als Beispiel verweist er auf die Datenmenge die in einem Auto beim automatischen Einparken anfallen. "Sobald das Auto sicher in der Parklücke steht, können die Daten gelöscht werden. Nur im Fall einer Schramme müssen sie noch für die Ursachen-Analyse aufgehoben werden", begründet er seine Meinung.
Niemals etwas löschen
Damit weist Franks bereits auf das größte Problem der Datenspeicherung hin: Rechtsauflagen, beziehungsweise die Angst vor Strafen wegen gelöschter Daten. "CIOs haben eine Datenspeicher-Mentalität, die sich am besten mit ‚create once - delete never‘ beschreiben lässt. Hierbei bekommen sie Unterstützung von den Fachbereichen, die auch alle meinen ‚je mehr - je besser‘", meint Frazier.
Rechtsunterschiede
Ein weiteres Problem bei der strikten Datenlöschung sind die unterschiedlichen rechtlichen Vorgaben beim Cloud-Computing. Jedes Land hat andere Vorschriften über die Datenbehandlung. In den USA gibt es sogar Unterschiede von Bundesstaat zu Bundesstaat. Diesen Punkt verschweigen die Cloud-Provider gerne, wenn sie vom schnellen Verschieben der Daten von einem globalen Rechenzentrum ins andere reden. Doch selbst wenn die jeweils lokalen Gesetze beachtet werden, kann das eventuell nicht ausreichen. Das wird besonders deutlich an dem Prozess, den Microsoft mit den US-Ermittlungsbehörden ausficht. Das Justizministerium will nämlich an Daten ran, die Microsoft in Irland speichert - und Microsoft verweigert die Herausgabe und beruft sich dabei auf irisches und europäisches Recht. Und so wie es derzeit aussieht, wird der Prozess wohl vor dem Supreme Court landen.