CW: Im Markt kursieren immer noch unterschiedliche Definitionen von Big Data. Auch über die Tragweite und Relevanz des Themas für die Anwender gibt es mehr als zwei Meinungen. Können Sie für Aufklärung sorgen?
Bange: Die Unsicherheit im Markt rührt meines Erachtens daher, dass das Thema sehr schnell von den Marketiers vieler IT-Anbieter besetzt und für das jeweils eigene Produktportfolio interpretiert wurde. BARC versteht unter Big Data Methoden und Technologien für die hochskalierbare Erfassung, Speicherung und Analyse polystrukturierter Daten.
Das klingt auf den ersten Blick einfach, hat aber doch einige sehr unterschiedliche Dimensionen. Das Entscheidende dürfte zunächst die Eigenschaft "hochskalierbar" sein. Hier reden wir nicht nur über große Datenmengen, sondern auch über große Anwenderzahlen sowie hochkomplexe Anfragen beziehungsweise immer anspruchsvollere Analysen. Hinzu kommt die immer schnellere Aktualisierung von Daten, also die schnelle Verfügbarkeit sowie nur noch das reine Monitoring oder Streaming von Daten in Fällen, wo man Informationen gar nicht mehr länger speichern möchte oder kann. Grundsätzlich empfehlen wir im Zusammenhang mit Big Data auch die klare Unterscheidung zwischen den einzelnen Ebenen einer analytischen Architektur. Big Data Analytics denkt von der Anwendung her, Big-Data-Management sorgt für die Datengrundlage, diese Analysen vornehmen zu können.
Polystruktur der Daten als neue Dimension von Big Data
CW: Wo ist die Trennlinie zu den klassischen Business-Intelligence-Lösungen und Data Warehouses, die ja zumindest zum Teil die von Ihnen genannten Disziplinen auch abdecken?
Bange: Da kommt eine weitere Dimension von Big Data ins Spiel, nämlich die vorhin erwähnte Polystruktur der Daten. Immer häufiger verlangt das Business, große Mengen von semi- oder unstrukturierten Daten - etwa aus dem eigenen Web-Auftritt, aus Facebook, Twitter, Blogs und Foren sowie Bildern auf Websites und Videoclips - mit strukturierten Daten aus operativen Transaktionssystemen wie ERP und CRM zu kombinieren und daraus Informationen abzuleiten, die einen Wettbewerbsvorteil liefern. Diese Auswertung soll teilweise auch in Echtzeit geschehen. Der Nutzen von Big Data liegt also vor allem in der Analytik neu zugänglicher Datenmengen - dort, wo die auf strukturierte Kennzahlen und Modelle ausgelegten Technologien einer herkömmlichen BI-Architektur an ihre Grenzen stoßen.
CW: Was bedeutet das für die Anwender? Müssen die klassischen BI-Lösungen durch völlig neue Systeme abgelöst werden?
Jetzt mitmachen beim Big-Data-Award
Big Data `12 von COMPUTERWOCHE
26./27. September 2012
Sehen Sie sich als innovativer Lösungsanbieter im Umfeld von Big Data? Unterstützen Ihre Tools Anwender beim Handling von immer größeren Datenmengen? Haben Sie interessante Referenzprojekte in den Bereichen Erfassung, Speicherung, Analyse und Auswertung polystrukturierter Daten - also genau dort, wo klassische analytische Informationssysteme heute an ihre Grenzen stoßen? Möchten Sie sich als Anwender schlaumachen, wie Ihre Kollegen in anderen Unternehmen konkrete Ansätze verfolgen, Daten zum Beispiel aus Social Networks zu analysieren und mit Informationen in klassischen Data Warehouses zu kombinieren?
Wenn ja, besuchen Sie den Big-Data-Kongress der COMPUTERWOCHE. Oder bewerben Sie sich zusammen mit Ihrem Referenzkunden für den Big-Data-Award und wahren Sie damit Ihre Chance, am 26. September 2012 im Rahmen der exklusiven Big-Data-Award-Verleihung als einer der Top-3-Gewinner ausgezeichnet zu werden.
Weitere Informationen sowie Anmeldung zur Konferenz und zum Award unter:
Bange: Einige Marktteilnehmer behaupten das. Ich sehe es nicht zwingend so und gehe davon aus, dass es in Zukunft vielfältigere Architekturen geben wird. Einerseits integrieren immer mehr Anbieter den Zugriff auf Big-Data-Systeme, zum Beispiel durch Unterstützung von Hive durch BI-Werkzeuge oder Map-Reduce durch Daten-Management-Werkzeuge. Andererseits werden für unterschiedliche Aufgaben spezialisierte Technologien eingesetzt, die die etablierten relationalen Datenbanken für Data Warehouses ergänzen, nicht aber komplett ersetzen.
CW: Woran denken Sie da konkret?
Bange: In erster Linie geht es hier um dedizierte analytische Datenbanken, die im Bereich der strukturierten Daten schnellere und komplexere Abfragen ermöglichen, es geht um No-SQL-Datenbanken zur Analyse großer Mengen Rohdaten in bestimmten Strukturen, und es geht vor allen Dingen um das gesamte Hadoop-Framework.
"Storage ist eine wichtige Basistechnik für Big Data"
CW: Was ist mit dem Thema "Intelligent Storage", von dem im Zusammenhang mit Big Data auch häufig die Rede ist?
Bange: Storage ist eine wichtige Basistechnik für Big Data - als Architekturebene, die zwischen der Datenintegration und Analyse angesiedelt ist. Man muss kein Prophet sein, um vorhersagen zu können, dass diese Architekturebene noch wichtiger wird. Schließlich gilt es, immer größere Datenmengen so vorzuhalten, dass immer schnellere und/oder komplexere Analyseverfahren möglich sind. Bei aller Euphorie um Big Data sollte man aber berücksichtigen, dass es bei den Anwenderunternehmen auch in Zukunft nicht nur Echtzeitauswertungen oder die Analyse von Event- oder Streaming-Daten, sondern nach wie vor auch klassische Data-Warehouse-Abfragen geben wird. Insofern ist der Begriff "Intelligent Storage" sicher angebracht.
CW: Gerät das Enterprise-Content-Management auch in den Einfluss der Big-Data-Technologien?
Bange: Enterprise-Content-Management hat zunächst eine andere Zielsetzung als Big Data, denn hier steht die Verarbeitung von Dokumenten beziehungsweise unstrukturierten Daten im Vordergrund. Big Data hingegen ist auf die Analyse von Daten fokussiert und damit verbunden auf die Frage: Wie komme ich an die Inhalte und Informationen? Hier kann ECM als Lieferant für Big Data dienen, indem es zum Beispiel durch Klassifikationstechnologien Dokumente und Texte ergänzt sowie strukturiert und damit besser analysierbar macht.
Big Data formt die Klammer zur Zusammenführung und Verarbeitung ganz unterschiedlicher Daten, zu denen eben auch aufbereitete Dokumente aller Art (inklusive Web-Quellen sowie Social Media) gehören. Zudem bietet Big Data die technischen Möglichkeiten der Verarbeitung der Datenmengen sowie die übergreifende analytische Sicht. Umgekehrt kann ECM auch ein Abnehmer der Ergebnisse von Big-Data-Analysen sein. Mit diesen lassen sich Prozesse anstoßen, Personen informieren sowie Dokumente und Reports schreiben und verteilen. Das spielt in den klassischen ECM-Bereich der Verwaltung und Bereitstellung von Inhalten ebenso hinein wie in die Themen Business-Process-Management und Collaboration.
Big Data ist mehr als ein Hype
CW: Kommen wir noch einmal zurück auf die Situation bei den Anwendern. Häufig wird der Verdacht geäußert, Big Data sei ein von der IT-Industrie gepflegter Hype, der die Anwender in Wirklichkeit nicht bewege.
Bange: Big Data als Hype abzuqualifizieren ist nicht angebracht. In vielen Unternehmen beschäftigt man sich ganz intensiv mit den von mir eingangs geschilderten Aufgabenstellungen. Wahrscheinlich ist es mit dem Begriff Big Data jetzt aber gelungen, den vielen Initiativen und Projekten, die es ohnehin schon gab, einen einprägsamen Namen zu geben. Egal wo Sie hinsehen, ob in der Automobilindustrie, bei den Energieversorgern, in der Konsumgüterbranche oder Chemiesparte: Überall findet man konkrete Ansätze, um etwa Maschinen- und Sensordaten sowie Informationen aus den Social Networks zu analysieren und daraus Business-relevante Entscheidungen ableiten zu können. In nicht wenigen Fällen wurden und werden dazu dedizierte Big-Data-Teams gebildet.
Wichtig an der Stelle ist mir noch einmal: Es geht nicht darum, überall die klassischen BI-Suites und Data Warehouses durch neue Big-Data-Tools abzulösen, sondern um die Integration der neuen Technologien, die bisher ja eher Insellösungen oder noch gar nicht vorhanden sind, mit der bis dato klassischen BI-Welt. Dazu ist aber eine neue Architektur notwendig, die diese heterogenen Anforderungen abdeckt. Insofern sind dies natürlich nur bedingt gute Nachrichten für Anwender, die in den vergangenen Jahren ihre Data Warehouses konsolidiert haben, da die Heterogenität wieder steigt. Dafür lassen sich aber neue Daten einbeziehen und nutzbringende neue Analysemöglichkeiten schaffen - und das häufig zu günstigeren Kosten, als dies in einem klassischen Data Warehouse der Fall ist.
Das Interview ist ein Beitrag unserer Schwesterpublikation Computerwoche.