SAP Hana, In Memory, Hadoop & Co.
Big Data im Praxistest
Aber genau diesen Eindruck erzeugen zurzeit die Marketing-Kampagnen von EMC und anderen Vertretern der IT-Branche. Dabei arbeiten sie mit einem kleinen Trick: Die alten Methoden seien unzureichend, so argumentiert zum Beispiel Greenplum, die Big-Data-Division von EMC, da rückwärtsgerichtet. Data Warehouse, BI & Co. würden immer nur die Daten von gestern betrachten, die noch dazu mit großem Zeitaufwand in ein Repository (Data Warehouse) geladen werden müssten. Und auf die Ergebnisse müsse man Stunden oder Tage warten.
Unterscheiden zwischen Social Networks und Internet der Dinge
Anders bei "Big Data". Hier gehe alles sehr schnell, "realtime", und die Executives hätten immer die alleraktuellsten Auswertungen auf dem Tisch. Ein weiterer Pluspunkt der neuen Technologie: Mit "Predictive Analytics" sollen fundierte Prognosen über die künftige Geschäftsentwicklung möglich sein.
Laut Thomas Hörig-Braun, Vorstand beim auf Speicher spezialisierten Beratungshaus EDI, ist es sinnvoll, zwischen "Social Networks" und dem "Internet der Dinge" zu trennen: "Big Data Analytics hat meist einen vertrieblichen Hintergrund. Es geht darum, Zielgruppen zu durchleuchten, Produkte zu platzieren, und ganz allgemein um Umsatzsteigerung."
Und beim "Internet der Dinge" gehe es vornehmlich um die Auswertung von Logdateien, die heute von Milliarden Sensoren produziert werden. Dazu gehören etwa Handynetze, Stauprognosen, Feinstaubmessungen, Wetterstationen oder Bordcomputer von Autos, die fortwährend Daten an den Hersteller senden.
Hadoop ist noch eine junge Technologie
"Big Data" wird häufig mit "Hadoop" identifiziert. Hadoop steht für eine sehr junge Technologie, die unter dem Dach der Apache Software Foundation entstand und von einer großen Gemeinde von Software-Entwicklern gepflegt wird: Mit ihr lassen sich große Mengen von Daten in einer skalierbaren Umgebung von Cluster-Systemen verschieben, wobei jeweils ein direkt angeschlossenes Speichergerät (DAS, Direct Attached StorageStorage) als Repository dient. Die Cluster-Struktur kann von einigen wenigen bis zu Tausenden von Nodes reichen, die jeweils aus einem Rechner plus Storage-Array bestehen und für eine parallele Datenverarbeitung sorgen. Alles zu Storage auf CIO.de