In fast jedem Unternehmen fallen heute neben zahlreichen strukturierten Daten auch zahllose unstrukturierte Informationen aus sozialen Medien, Videos, Präsentationen, Texten, Sensoren an Maschinen, Barcodes, RFID-Chips oder Geo-Daten an. Diese Datenmengen steigen stetig - Big Data eben. 2012 soll die weltweite Datenproduktion laut einer Studie des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme (IAIS) 1,8 Zettabyte betragen haben.
Aus Daten verborgene Zusammenhänge lesen
Big Data ist aber nicht nur mit einer großen Menge fragmentierter Daten gleichzusetzen, es schließt auch die hohe Geschwindigkeit ein mit der die Daten entstehen, wie etwa beim elektronischen Ablesen von Stromzählermessdaten im Viertelstundentakt. Auch durch die Nutzung sozialer Medien werden täglich große Datenmengen produziert - allein bei Twitter sind es mehr als 8 Terabyte (TB). "Unternehmen, die geschäftlichen Mehrwert aus Big Data ziehen wollen, müssen in der Lage sein, große und fragmentierte Datenmengen zu sammeln, sinnvoll zu verwalten, und die Daten so miteinander verknüpfen und in Beziehung setzen, dass sich daraus neue Einsichten gewinnen oder verborgene Zusammenhänge erkennen lassen", sagt Holm Landrock, Senior Advisor bei der Research- und Beratungsfirma Experton Group.
Das ist zum Beispiel der Fall, wenn Handelsunternehmen Daten aus Interaktionen von Kunden auf den verschiedenen Kontaktkanälen mit Kundenäußerungen auf sozialen Netzwerken wie Facebook oder Twitter verknüpfen, explorieren und auswerten. Die gewonnenen Erkenntnisse lassen sich nutzen, um die Kundensegmentierung feinmaschiger zu gestalten, Marketing-Kampagnen präziser zu planen und auszuführen, sowie die Preisfindung und Bestandsverwaltung zielgerichteter zu gestalten. Damit aus der unübersichtlichen Datenmasse geschäftlich relevantes Wissen erschlossen und zugleich sehr zeitnah, das heißt nahezu in Echtzeit, analysiert werden kann, sind neue Ansätze und Technologien für die Datenspeicherung und Business Analytics nötig.
Big-Data-Ansätze von SAP und Oracle variieren
Alle namhaften Softwarehersteller feilen daher an Big-Data-Angeboten, weil sie hier neues Umsatzpotenzial wittern. Neben IBM, Hewlett-Packard, Dell oder SAS zählen dazu natürlich auch die Dauerrivalen Oracle und SAP. Beide Unternehmen verfolgen bei ihren Angeboten zur Verwaltung und Analyse von Big Data jedoch unterschiedliche Ansätze.
"Oracle geht das Thema von der Datenbankebene aus an, SAP kommt von der Anwendungsebene und fokussiert sich bei Big Data auf seine In-Memory-Technik", erklärt Alexander Linden, Research Director für Advanced Analytics und Data Science beim Research- und Beratungshaus Gartner.
IBM und SAS haben die Nase vorn
Einig sind sich Experton-Berater Landrock und Gartner-Analyst Linden, dass Oracle und SAP im Big-Data-Markt derzeit nicht die erste Geige spielen, sondern deutlich hinter IBM oder SAS rangieren. Das zeigen auch die Ergebnisse des von Experton durchgeführten "Big Data Vendor Benchmark 2013". Ebenso werden in der aktuellen "Managing-Big-Data-Studie" des Data Warehousing Institute (TDWI) weder Oracle noch SAP als "Leader" bezeichnet. Dennoch lohnt sich ein Blick auf die Angebote der Erzrivalen.
Engineered-System-Prinzip von Oracle
Oracle bietet eine Big-Data-Appliance an, die aus verschiedenen Softwarekomponenten und vorkonfigurierter Hardware besteht. "Grundgedanke in der Big-Data-Strategie von Oracle ist, das Datenwachstum der kommenden Jahre durch ein Engineered System zu bewältigen", verdeutlicht Landrock. Das heißt: Big Data wird in eine bestehende IT-Architektur einbezogen, die laufend weiterentwickelt wird. Hardwareseitig ist die Oracle-Appliance zurzeit standardmäßig als Rack mit 18 Sun-Servern konfiguriert und hat eine Gesamtspeicherkapazität von 648 TB.
Softwareseitig setzt der US-Konzern auf seine NoSQL-Datenbank in der "Community Edition" und die "Cloudera Distribution for Hadoop" (CDH4) als Tool-Sammlung zur Installation von Hadoop-Komponenten sowie den "Cloudera Manager" zur Verwaltung und Kontrolle der Hadoop-Cluster. Auch die freie Programmiersprache "R" für statistische Analysen ist integrierter Bestandteil der Appliance. Als Betriebssystem dient der Oracle-Linux-Server in Verbindung mit der Java Virtual Machine des Herstellers.
Konnektoren für Exadata und Hadoop
Hinzu kommen spezielle Konnektoren, etwa für den Datentransfer in Oracles Exadata-Datenbankplattform, um dort Big-Data-Analysen mit dem hauseigenen Exalytics-Business-Intelligence-(BI-)-System betreiben zu können. Über weitere Konnektoren soll es möglich sein, Daten aus einem Hadoop-Cluster in die Oracle-Datenbank zu laden und in dieser zu analysieren oder mit "R" statistische Problemstellungen direkt im Hadoop-Cluster per MapReduce zu beantworten.
"Oracle bringt viel Know-how im Bereich Business Analytics und Data Mining mit, betrachtet Big Data jedoch zu stark aus der Datenbankperspektive. Die Datenbank wird damit aber zum Flaschenhals, da alle für Big-Data-Analysen notwendigen Daten in sie übertragen und gespeichert werden müssen", moniert Gartner-Analyst Linden. Das sei jedoch ein schwieriges Unterfangen, weil dann unter anderem auch Informationen aus sogenannten Makroaktionen in die Datenbank zu bringen seien. Unter Makroaktionen versteht Linden Ereignisse in einem Unternehmen, wie zum Beispiel die Änderung einer Hotline-Nummer.
SAP: Big Data mit HANA, Sybase, Data Services & Co.
SAP habe hingegen die Chance, die Datenbankproblematik zu umgehen, da das Unternehmen das Thema Big Data von der Applikationsebene her angeht, meint Linden. Der Walldorfer Softwarehersteller sei allerdings erst spät in den Big-Data-Markt eingestiegen und laufe nun der Entwicklung hinterher. SAP selbst bezeichnet seine eigene Big-Data-Plattform als "Realtime-Data-Platform". Im Zentrum der Big-Data-Strategie steht die In-Memory-Lösung SAP HANA. Sie kann bei Bedarf mit Sybase-Produkten wie dem Analyse-Server Sybase IQ, dem Datenbanksystem Sybase ASE oder mit Hadoop verknüpft werden. Große Datenströme lassen sich in der Big-Data-Architektur von SAP mit dem Sybase Event Stream Processor (ESP) prozessieren und auswerten, um nahezu in Echtzeit auf veränderte Ereignisse reagieren zu können.
Einen weiteren zentralen Baustein im Big-Data-Angebot bilden die Data Services von SAP. Damit können beliebige Daten aus unterschiedlichen Datenspeichern extrahiert, transformiert und dann für Analysezwecke in HANA oder Sybase IQ geladen werden. Mit HANA lassen sich strukturierte Daten, etwa Absatzzahlen, sowie unstrukturierte Informationen wie Twitter-Feeds gleichzeitig analysieren, mit dem Ziel, verborgene Korrelationen aufzudecken. Die In-Memory-Lösung enthält zudem eine Predictive Analysis Library (PAL), die vordefinierte Algorithmen für die Bereiche Clustering, Klassifikation, Assoziation, Zeitreihen, Datenvorverarbeitung (Preprocessing), Social-Network-Analysen und Verschiedenes (ABC-Klassifikation, gewichtete Bewertungstabellen) bereitstellt. Die Einbindung von "R" erweitert die analytischen Fähigkeiten von HANA zusätzlich.
Unterschiede zwischen SAP und Oracle
"Im Unterschied zu Oracle, das ein organisch gewachsenes und relativ stringentes Big-Data-Portfolio hat, setzt SAP bei seinem Big-Data-Angebot auf Zukäufe und Kooperationen", beurteilt Gartner-Analyst Linden die Portfolios. Er verweist dabei auf die Übernahmen des BI-Spezialisten BusinessObjects und des Datenbankherstellers Sybase durch SAP sowie die kürzlich angekündigte Akquise der US-Firma Kxen, die auf Tools für Data Mining und prädiktive Analysen in großen Datenmengen spezialisiert ist. Experton-Berater Landrock sieht SAP durch die Akquise von Sybase und der Kombination von HANA, Sybase-Produkten sowie Hadoop mitsamt den dahinter liegenden analytischen Verfahren bei Big Data durchaus auf dem richtigen Weg.
Um HANA besser mit dem Hadoop-Framework integrieren zu können, unterhält SAP Big-Data-Partnerschaften mit Cloudera, Intel oder Hortonworks, die jeweils eigene Hadoop-Distributionen anbieten. Zudem gab der Walldorfer IT-Konzern auf seiner Entwicklerkonferenz Teched 2013 in Las Vegas eine strategische Allianz mit SAS bekannt. Demnach sollen die HANA-Plattform und SAS-Analytics-Werkzeuge künftig miteinander kombiniert werden, dazu seien auch eine gemeinsame Technologie und ein Produktfahrplan geplant.
Big Data: Wie es mit Oracle und SAP weitergeht
"Es gibt an den Big-Data-Produkten von Oracle und SAP zwar einige Kritikpunkte, doch die Angebote sind insgesamt technisch ausgereift. Oracle überzeugt durch das Gesamtpaket aus Hardware und Software, während SAP seine Stärken im In-Memory-Bereich ausspielt", fasst Experton Analyst Landrock zusammen. Allerdings ist Oracle bei In-Memory SAP auf den Fersen. So hatte Oracle-Chef Larry Ellison auf der Hausmesse Openworld 2013 in San Francisco angekündigt, dass die Oracle-Datenbank in der aktuellen Version 12c künftig um eine In-Memory-Option ergänzt werden soll. Bei SAP soll in Zukunft dagegen die In-Memory-basierte Speicher- und Datenbanktechnik von HANA die Grundlage aller SAP-Applikationen bilden, wie SAP-Technikvorstand Vishal Sikka auf der Teched 2013 mitteilte.