Datenanalyse immer leistungsfähiger

Big, bigger, Big Data

11.11.2014 von Christoph Lixenfeld
Bei den aktuellen Datenanalyse-Techniken blickt kaum noch jemand durch. CIO dokumentiert die acht wichtigsten Trends - frisch aus den USA.

Kein ­IT-Bereich entwickelt und verändert sich im Augenblich so schnell wie Big Data und Data Analytics. Und kein zweiter birgt so große Chancen. Deshalb ist es für immer mehr Unternehmen lebenswichtig, die Big Data-Trends im Auge zu behalten. Auf welche Entwicklungen aber kommt es dabei an? Die CIO-Schwesterpublikation Computerworld hat dazu in den USA - also dort, wo IT-Trends als erstes sichtbar werden - Führungskräfte, Analysten und Berater befragt. Ihre Antworten lassen sich zu acht zentralen Big Data-Trends verdichten. Hier sind sie.

1. Datenanalyse: besser in der Cloud

Hadoop, jenes Framework für skalierbare, verteilt arbeitende Software, war ursprünglich für den Betrieb auf lokalen, physischen Maschinen gedacht. Hier spielt sich gerade ein deutlicher Wandel ab. "Cloudbasierte Big Data-Anwendungen nehmen gerade in rasantem Tempo zu", sagt Forrester-Analyst Brian Hopkins. Hierzu zählten Amazons BI-Lösung Redshift ebenso wie IBMs Cloud-Plattform Bluemix oder Googles Datenanalyse-Service BigQuery. Nach Ansicht von Brian Hopkins werden all diese On-Premise-Lösungen nicht vollständig verdrängen, sondern die Zukunft liege tendenziell in Hybrid-Anwendungen, die beide Welten miteinander verbinden.

2. Hadoop: Betriebssystem für Analytics

Nicht zuletzt durch den verwendeten MapReduce-Algorithmus von Google besitzt Hadoop die Fähigkeit, unterschiedlichste Arten von Abfragen und Analysen schnell und parallel durchführen zu können. Das Framework wird mehr und mehr zu einer preiswerten Standardplattform für solche Prozesse. Hilfreich ist dabei auch die beinahe grenzenlose konfigurierbarkeit von auf Hadoop basierenden Systemen.

Klein, aber leistungsstark: Ein gelber Elefant ist das Symboltier des in Java programmierten Hadoop-Frameworks.
Foto: Apache Software Foundation

3. Big Data-Seen

Ursprünglich war Voraussetzung jeder Datenanalyse, dass die verwendeten Daten vereinheitlicht werden, bevor man sie in die Datenbank schüttet. Sogenannte Datenseen stellen dieses Prinzip jetzt auf den Kopf, sagt Chris Curran, Chief Technologist in der US-Beratungssparte von PricewaterhouseCoopers. "Datenseen anzulegen bedeutet, Informationen wie sie sind in ein großes Hadoop-Framework kippen, ohne sie vorher zu vereinheitlichen oder irgendwie anzupassen." Stattdessen werden den Nutzern Werkzeuge zur Analyse dieser Daten zur Verfügung gestellt, zusammen mit einer differenzierten Beschreibung der Daten. Auf diese Weise lassen sich schnell großen Datenbestände aufbauen. Das ist der Vorteil. Der Nachteil: Die Nutzer müssen sich sehr gut auskennen beziehungsweise sehr gut ausgebildet sein.

4. Qualität der Analysen wird immer besser

Big Data bedeutet nicht nur, dass Unternehmensstrategen viel mehr Informationen zur Verfügung haben als früher, sie haben auch deutlich mehr Rechenleistung, um daraus nützliche Schlüsse ziehen zu können. Das führt dazu, dass erstens mehr Analysen und zweitens Analysen mit viel mehr Attributen als früher möglich sind. Die Aussagekraft und Verlässlichkeit der Ergebnisse wird dadurch deutlich größer.

Nach Ansicht von Forrester-Analyst Brian Hopkins verändern sich zudem die Ausgangsfragestellungen einer Datenanalyse, wenn Rechenleistung und Rechenzeit keine oder fast keine Rolle mehr spielen.

Im Mittelpunkt (fast) aller Big Data-Strategien stehen der Mensch und seine Wünsche.
Foto: alphaspirit, Fotolia.com

5. SQL öffnet Hadoop fürs Business

Fähige Programmierer und Mathematiker können mit Hilfe von Hadoop so ziemlich alles analysieren. "Das ist ein großes Versprechen. Und zugleich ein Problem", sagt Gartner-Analyst Mark Beyer. Denn solche Analysen bedienen sich dann nicht unbedingt einer Sprache, die andere Business-User verstehen. "An dieser Stelle kommt SQL für Hadoop ins Spiel", so Beyer. Es öffne das Framework für Businessanwendungen weil es Anwendern erlaube, Anfragen an das System in einer Form zu stellen, die ihnen vertraut ist.

6. Noch besser als SQL ist nur NoSQL

Das Einzige, das in diesem Zusammenhang noch praktischer ist, ist NoSQL. Dieses Kürzel steht keineswegs für "kein SQL", sondern für "Not Only SQL"-Datenbanken, ein Segment, das rapide wächst. Chris Curran von PwC schätzt, dass es 15-20 solcher Open-Source-Datenbanken gibt, jede von ihnen mit einer eigenen Spezifikation. Gemeinsam ist ihnen, dass sie die unterschiedlichsten Abfragen in komplexen Datenbeständen zulassen. Ein Kunde von PwC bespielweise nutzt diese Technologie, um mit Hilfe von Sensoren an Verkaufsregalen ein differenziertes Bild von Kundenwünschen zu zeichnen: Wie lange nehmen potentielle Käufer ein Produkt in die Hand? Wie lange bleiben sie vor welchem Regal stehen? Chris Curran: "Die Sensoren produzieren einen Datenstrom, der exponentiell wächst. NoSQL-Datenbanken eigenen sich wegen ihrer Leistungsfähigkeit sehr gut dazu, diese Massen an Informationen weiterzuverarbeiten.

Fragen statt Antworten: Die vielen, ständig neuen Big Data-Ideen und technischen Möglichkeiten sind nur noch schwer zu durchblicken.
Foto: Sergey Nivens - Fotolia.com

7. Die Zukunft gehört dem "Deep Learning"

Als Deep Learning bezeichnet man mehrere Techniken, durch die Computer bestimmte Fähigkeiten erwerben. Zum Beispiel die, aus großen, unstrukturierten Datenmengen über lange Zeiträume hinweg Analysen zu generieren, ohne dass man sie zuvor mit bestimmten Modellen oder gezielten Programmierung instruieren muss. Einfaches Beispiel: Ein Deep Learning-Algorithmus, der Daten aus Wikipedia analysiert, hat nach einiger Zeit begriffen, dass Kalifornien und Texas beides Bundesstaaten der USA sind. Das heißt die Maschine hat ohne weiteres Zutun von Menschen das Konzept von Nationalstaat und von Bundesstaaten begriffen. Solche Fähigkeiten sind vergleichsweise neu.

"Big Data ist immer besser in der Lage, aus völlig unterschiedlichen, unstrukturierten Texten komplexe Schlüsse zu ziehen", so Forrster-Analyst Brian Hopkins.

8. In-memory-Analysen

Der Einsatz von In-memory-Datenbanken, um die Geschwindigkeit von Auswertungen zu steigern, wird immer populärer. Allerdings bedeutet dieser Trend andererseits auch, wieder einen Schritt zurück zu machen. Denn schließlich finden dabei meist sämtliche Analysen in einer einzigen Datenbank statt, während heute alle bestrebt sind, mehrere Datenpools in Auswertungen einzubeziehen. Ob ein Unternehmen diesen Weg gehen will, sollte also sorgfältig abgewogen werden.

Resümee

In Anbetracht der vielen unterschiedlichen Big Data-Trends müssen IT-Verantwortliche ihrer Organisation die Möglichkeit verschaffen, zu experimentieren. Es geht darum, Tools in ihrem Nutzen für das Business zu bewerten, auszuprobieren und dann zum Teil in die eigenen Prozesse zu integrieren.

"Es macht keinen Sinn, mangelnde Ausgereiftheit einiger Systeme als Rechtfertigung dafür zu nutzen, dass man sich nicht dem Thema beschäftigt", sagt Mark Beyer von Gartner.