Das Datenwachstum ist unbestritten, vor allem bei unstrukturierten Informationen wie E-Mails, SMS, Videos, Musik usw. Im Rechenzentrum müssen sie teils wegen gesetzlicher oder unternehmensinterner Vorschriften oder Regeln archiviert werden, teils werden sie innerhalb kürzerer Fristen für diverse Auswertungen herangezogen. Solche Analysen beziehen sich zunehmend auf zeitnahe Datensammlungen, die zum Beispiel im Bereich Social Media anfallen: Die meisten Mitglieder solcher Communities hinterlassen ganz freiwillig ihre Spuren im Internet. Das lässt die Werbe-Abteilungen ganzer Industrien nicht ruhen, die ihre Anzeigen lieber auf der Basis messbarer, quantifizierbarer Aussagen im Web platzieren als auf ungefähren Annahmen darüber, ob und wie lange Zeitungs- und Zeitschriftenleser bei ihren Botschaften verweilen.
Ob Schnelligkeit das entscheidende Kriterium bei der Auswertung solcher Informationen ist, hängt von dem jeweiligen Anwendungsfall ab. Anbieter von Big-Data-Lösungen heben dies besonders hervor, weil sie sich erst noch gegen die schon länger am Markt befindlichen Data-Warehouse- und Business-Intelligence-Produkte durchsetzen müssen. Der unabhängige Analyst Josh Krischer von Krischer & Associates verweist dagegen darauf, dass man bei Big Data oder Analytics genau unterscheiden müsse.
Krischer geht von vier Datenkategorien aus, die nur zum Teil eine sofortige Auswertung und neue Methoden erfordern:
1 Analytics (Velocity and Volume): Sehr große Datenmengen, die nur in einigen Fällen wie Face Recognition an Flughäfen oder bei der Prüfung von Kreditkarten in Real-Time-Geschwindigkeit ausgewertet werden müssen. In der Retail-Branche kommt es dagegen nicht auf ein paar Stunden oder Tage an, um über aktuelle Verkaufszahlen Bescheid zu wissen.
2 Bandwidth (Volume and Velocity): Netz- und Zugriffsdaten, zum Beispiel bei sozialen Netzwerken. Unmittelbare Auswertung und Verwendung sind in der Regel nicht erforderlich.
3 Content (Volume and Variety): Da es sich meistens um langfristig abgelegte oder archivierte Daten handelt, kann man auf zeitnahe Analytics verzichten.
4 Machine and Sensoring (Volume and Velocity): Oft handelt es sich um sensible Daten, die zum Beispiel bei Wetter- oder Erdbeben-Meldungen eine schnelle Auswertung erfordern, um Katastrophen zu verhindern.
Big Data, HANA & Performance
Für Krischer hängt das gegenwärtige Trendthema Big Data vor allem mit den Entscheidungen von SAP in Sachen HANA-/In-Memory-Technologie zusammen. SAP sei wegen der großen installierten Basis seiner Anwendungen mit dem weiteren Absatz an eine Barriere gestoßen, die man jetzt mit einem technologischen Entwicklungsschub aufbrechen möchte: Um alle Neuerungen der SAP-Programme sinnvoll und vor allem performant nutzen zu können, bräuchten die Kunden laut Hersteller zusätzlich noch HANA-Appliances, ausgestattet mit In-Memory-Bausteinen und einer Datenbank.
Auch der Analyst und SAP-Spezialist Helmuth Gümbel spricht von den Geschäftszwängen, die SAP dazu bewogen haben, sich auf das Hardware-Feld zu bewegen. Dabei handele es sich nicht nur um einen reinen Verkaufstrick, sondern die Kunden hätten durchaus die Möglichkeit, die Leistung ihrer etablierten SAP-Software-Landschaft ein Stückchen nach oben zu treiben. Dafür müssten sie allerdings etwas zusätzliches Geld – so wie von SAP beabsichtigt – in die Hand nehmen.
SAP hat mit einer Reihe von Hardware-Herstellern Abkommen getroffen, um geeignete Appliances anzufertigen – anders als Konkurrent Oracle hat man keinen Hardware-Produzenten hinzugekauft. Die "richtige“ Hardware für SAP-Programme ist derzeit erhältlich von Cisco, Dell, Fujitsu, HP, Hitachi, Huawei, IBM, NEC und VCE. Entwickler und Kunden haben nach SAP-Angaben außerdem die Möglichkeit, über Hosting-, Anwendungsmanagement- und Outsourcing-Dienste HANA-Technologie als Service zu beziehen.
Der Hamburger SAP-Partner Info AG zum Beispiel, der drei eigene Rechenzentren in Deutschland betreibt, ist bereits aktiv in dieses Geschäftsfeld eingetreten. Auf seiner Webseite heißt es: "HANA steht für „High Performance Analytic Appliance“. Die Appliance ist ein Paket aus Hardware und In-Memory-Software und stellt große Mengen operativer Daten Ihrer SAP-Anwendungen direkt im Hauptspeicher für die Auswertung oder zusätzliche Anwendungsfunktionen zur Verfügung.“ Mit SAP HANA könne man „die gesamte IT-Infrastruktur effizienter gestalten und dabei auch noch die Betriebskosten senken“. Besonders zwei Aspekte hebt Info AG hervor: "Der Plattenspeicher wird durch den Hauptspeicher ersetzt – das reduziert die Betriebskosten.“ Es bestehe ferner eine "konstante Datensicherheit, auch bei Stromausfall“.
Auf der Kundenveranstaltung SAPPHIRE in Orlando Mitte Mai 2013 kündigte SAP den Cloud-Einsatz von HANA an. Diese Technologie stehe nun in verschiedenen Bereitstellungsoptionen zur Verfügung: On Premise, in der Cloud oder über andere Geschäftsmodelle wie über Hosting oder Outsourcing. Die Option "SAP HANA Enterprise Cloud“ solle es Unternehmen ermöglichen, das In-Memory-Potenzial „als Service auf vollkommen neue Weise auszuschöpfen“. Zu den ersten Partnern auf diesem Sektor gehören Accenture, Deloitte, IBM, itelligence, Savvis and Virtustream. Außerdem gibt es den von Amazon Web Services betriebenen "SAP HANA One Database Service“: Er ist über den AWS Marketplace zugänglich und umfasst eine kleinere Version von HANA für produktive und kommerzielle Zwecke.
Neben und um HANA herum gibt es weitere Appliance-Angebote für Big Data/Analytics. So bietet IBM "PureData for Analytics” an, basierend auf der vor zwei Jahren für 1,78 Milliarden Dollar eingekauften Netezza-Technology. Unbestätigten Berichten zufolge soll IBM in den letzten Jahren allein für die Akquisition von Analyse-Technologien 16 Milliarden Dollar ausgegeben haben. Laut IBM ist die PureData-Appliance eine „einfache Lösung für ernsthafte Analytics-Aufgaben“. Sie soll die Performance für Datenauswertungen deutlich verbessern, indem komplexe Algorithmen innerhalb von Minuten und nicht wie bisher innerhalb von Stunden abgearbeitet werden können.
Big Data - mal so, mal so
Netezza-Technologie benutzt für das Management von Datenbanken-Workloads "Field Programmable Gate Arrays” (FPGA). Die Daten können an ihrem Ursprungsort analysiert werden, der umständliche und teure Transport über Datennetze entfällt. Unter anderem unterstützt Netezza auch die „Predictive Model Markup Language (PMML) 4.0“, die Berechnungen und Vorhersagen innerhalb der vorhandenen Datenbanken erlaubt.
IBM hat inzwischen speziell für den deutschen Markt ein „HANA Innovation Center“ in Chemitz eröffnet. Hier sollen "zukunftsweisende In-Memory-Anwendungen“ für diverse Branchen entwickelt werden. Für Tests und Machbarkeitsstudien stellt IBM eine auf In-Memory-Anwendungen ausgerichtete Infrastruktur bereit. Eines der ersten Projekte befasst sich mit einer Retail-Lösung zur Filialbestandsoptimierung im Fashion-Bereich. Nach Angaben von IBM stehen "vor allem Händler mit saisonabhängigem Warenbestand wie beispielsweise Mode-Anbieter zum Saisonende vor der Herausforderung, ihre Bestände möglichst vollständig zu verkaufen, um so wenig wie möglich abschreiben zu müssen. Mit der Lösung können die Anbieter die Bestände ihrer Filialen durch Advanced-Analytics-Methoden in Echtzeit abgleichen und bei Bedarf den Warenbestand verlagern“.
Dell hat sich neben den HANA-Appliances für einen eigenen Ansatz entschieden: Eine selbst entwickelte Appliance, wie sie andere Hersteller im Programm haben, will man explizit nicht anbieten. Dell verfolgt demgegenüber einen "offenen Ansatz“, der auf einer Referenz-Architektur und einem automatischen Installer für den Kunden beruht (Dell-Cloudera Solution Reference Architecture v2.1.2). Der Vorteil nach Angaben von Dell: "So kann der Kunde den offenen Ansatz von Opensource Hadoop weiter nutzen, bekommt aber die Sicherheit einer getesteten, zertifizierten und unterstützten Umgebung mit schneller und einfacher Implementierung.“
Auch Big Data Appliances folgen der generellen Logik von All-in-One-Systemen. Wie der Gartner-Analyst Merv Adrian anmerkt, handelt es sich in allen Fällen von Appliances um den besonderen Service, über einen vorkonfigurierten, getesteten und integrierten Hardware- und Software-Stack verfügen zu können. Fast "auf Knopfdruck“ soll sich die jeweilige Anwendung starten lassen. Und Support und Schulung kommen aus der gleichen Quelle – man hat einen Ansprechpartner für alles.
Wie Forrester in einer Studie ermittelt hat ("The Future of Customer Data Management“, März 2013), beklagen 54 Prozent der Analytics-Spezialisten in den Unternehmen, dass die diversen Datenquellen nur schwer zu integrieren seien. Und 38 Prozent sehen Probleme bei der Interpretation der Big-Data-Resultate. Der Bedarf nach Hilfsmitteln wie Analyse-Tools oder gleich multifunktionalen Big Data Appliances ist also durchaus vorhanden.
Über Big Data Appliances hinaus
Viele Hersteller gehen aber in ihren Entwicklungen schon über die gegenwärtige Appliance-Stufe hinaus. So arbeiten HP und SAP seit zwei Jahren an dem "Project Kraken“, das laut Bill Veghte, Chief Operating Officer bei HP, "In Memory Computing revolutioniert“. Man will die eigene "Converged Infrastructure“ – integrierte Racks aus Server, Storage und Netzwerk – mit SAPs HANA-Technologie kombinieren, um "Online-Transaktionen und Analytics-Prozesse an einem Ort zu konsolidieren“.
Ein jetzt vorgestellter Prototyp verfügt über 16 Intel-CPUs (Ivy Bridge-EX) und zwölf Terabyte Speicher und soll für datenintensive Arbeitslasten taugen. HP nennt als Beispiele Systeme und Anwendungen für Lieferketten, Customer Relationship Management (CRM), Enterprise Resource Planning (ERP) und Datenanalyse. Die Plattform soll speziell Behörden und Unternehmen in die Lage versetzen, große Datenmengen "fast in Echtzeit“ zu analysieren, "Muster schnell zu erkennen und die entsprechenden Erkenntnisse für die Entscheidungsfindung zu nutzen“.
Wobei HP mit dem Autonomy-Disaster ein Stück Glaubwürdigkeit in Sachen Analytics verloren hat. Die im Herbst 2012 vorgenommene Abschreibung von 8,8 Milliarden Dollar belastet auf Jahre das Budget des etwas ins Straucheln geratenen Herstellers. Teile der Analytics-Software von Autonomy sollen jedoch in Appliance-, Security- und Netzwerk-Lösungen weiterverwendet werden.
Im Unterschied zu Krischer sieht Gartner-Mann Adrian in allen Branchen Anwendungsfälle für Big Data/Analytics – von Banken über Retail, Marketing, Industrieproduktion und Logistics bis hin zum öffentlichen Sektor. Überall erscheint es für ihn sinnvoll, bisher unerschlossene Datenquellen in Untersuchungen zu integrieren. Dies bedeute nicht, dass traditionell benutzte Werkzeuge wie Data Warehouses, CRM oder Business Intelligence ihre Rolle verlieren.
Adrian geht davon aus, dass alle großen IT-Player gegenwärtig an neuen Big-Data-Appliances arbeiten, viele von ihnen gleich an mehreren parallel. Er unterscheidet vier Gruppen solcher Systeme:
Typen von Big Data Appliances
- Datenbank-Appliances (wie Oracle Database Appliance) mit einem eher allgemeinen Analytics-Ansatz;
- Data Warehouse Appliances (wie Teradata Aster Big Analytics Appliance), die Datenbank-Analytics mit speziellen Funktionen mit einem Hadoop Stack für unstrukturierte Daten in einem gemeinsamen Rack integrieren;
- Hadoop-orientierte Appliances (wie NetApp Open Solution for Hadoop; auch von Cisco ausgeliefert);
- Appliances für Transactional Workload (wie IBM PureData System).
Für Anwender wird die Welt durch die Flut neuer Analytics Appliances nicht unbedingt einfacher. Gartner-Analyst Adrian resümiert: "Das größte Problem für die Anwender besteht heute darin, dass sich viele Appliances weder von ihrem Design noch von ihrer integrierten Software aus integrieren lassen. Mit ihnen ein gemeinsames Netz von Analytic Services zu erbauen, erscheint schwierig. Um dennoch Daten zwischen ihnen auszutauschen, zu synchronisieren, eine gemeinsame Semantik aufzubauen oder eine optimierte Performance im Rechenzentrum zu erreichen, sind fast ausschließlich die Anwender gefragt." Das bedeutet in vielen Fällen: Selbsthilfe statt Hilfe durch Appliances.