Unter Big Data versteht man im Allgemeinen die Analyse großer Mengen von Daten, die häufig nur teilweise oder gar nicht strukturiert vorliegen. Oft werden dabei öffentlich zugängliche Massendaten wie Verkehrsströme oder Wetterprognosen mit unternehmenseigenen Informationen wie Verkaufszahlen oder Produktionswerten verknüpft. Der Aufbau eines eigenen Big-Data-Analysesystems erfordert sehr viel Know-how. Zwar steht mit Apache Hadoop eine leistungsfähige, ausgereifte Open-Source-Lösung zur Verfügung; die Implementierung eines Hadoop-Clusters wie auch die richtige Definition von Abfragen und die Interpretation der Ergebnisse ist ohne den Einsatz von Experten, sogenannten Data Scientists, aber kaum möglich.
Die Nachfrage nach diesen Datenwissenschaftlern ist groß, das Angebot klein. Entsprechend hoch sind die Ansprüche und die Gehaltsvorstellungen der Kandidaten. Für viele kleine und mittelständische Unternehmen (KMU) sind sie unbezahlbar. Sie schrecken deshalb davor zurück, überhaupt in die Big-Data-Analyse einzusteigen. Laut einer Umfrage des Branchenverbandes Bitkom aus dem Jahr 2014 nutzen nur sieben Prozent der Mittelständler mit 50 bis 499 Mitarbeitern Big-Data-Lösungen, in größeren Unternehmen mit 500 und mehr Mitarbeitern waren es bereits 27 Prozent.
Big-Data-Tools aus der Cloud können den Einstieg erleichtern. Sie erfordern keine Vorabinvestitionen im fünf- oder sechsstelligen Bereich und besitzen teilweise grafische Benutzeroberflächen, die es auch dem weniger versierten Anwender ermöglichen, Analyseprozeduren zu erstellen, die zu aussagefähigen Ergebnissen führen. Cloud-Services sind jedoch nicht nur zum Einstieg in die Big-Data-Welt geeignet. Sie spielen auch dann ihre Vorteile aus, wenn Analysesysteme schnell und unkompliziert erstellt werden sollen, etwa in Forschung und Entwicklung.
Auch wenn die zu verarbeitenden Daten bereits online vorliegen, wie es etwa bei Social-Media-Feeds oder den Kundendaten eines Online-Shops der Fall ist, lohnt es sich, auch die Analyse direkt im Netz zu starten. Das gilt besonders dann, wenn diese auch noch in Echtzeit stattfinden soll. Wir stellen im Folgenden fünf wichtige Big-Data-Tools vor, die Sie als Service aus der Cloud nutzen können.
Amazon Web Services (AWS)
Mit Elastic MapReduce (EMR) bietet Amazon Web Services einen umfangreichen Big-Data-Service auf der hauseigenen Cloud-Plattform. Die dort verfügbaren AMIs (Amazon Machine Image) enthalten bereits ein bootfähiges Linux-Betriebssystem, Hadoop und weitere Software, die zum Betrieb des Clusters notwendig ist. Die Version 4.2.0 unterstützt neben Hadoop auch Ganglia, Hive, Hue, Pig, Mahout und Spark. Als Datenbanken stehen neben der NoSQL-Lösung DynamoDB und der relationalen Datenbank RDS auch das Big-Data-Warehouse Redshift zur Verfügung, das auf PostgreSQL basiert.
Mit Kinesis bietet der Hersteller zudem einen Service zur Echtzeitanalyse großer Mengen von Streaming-Daten; über AWS IoT (Beta) lassen sich Sensoren, Aktoren, Embedded Devices oder Wearables mit der Cloud-Plattform verbinden. Ergänzt wird das Angebot durch mehr als 300 Applikationen von Drittanbietern, die über den AWS Marketplace abgerufen werden können.
Eine Hadoop-Instanz lässt sich auch manuell auf Knoten der Elastic Compute Cloud (EC2) einrichten. Zur Speicherung der Initialdaten nutzt man sinnvoller Weise Amazon S3, da der Datentransfer zwischen S3 und EC2 kostenlos ist. Dort legt man auch die Ergebnisse ab, bevor der Cluster heruntergefahren wird. Temporäre Daten hält man dagegen besser im Hadoop Distributed File System (HDFS) vor.
Amazon bietet eine 12-monatige Testphase, in der ein Kunde unter anderem 750 Stunden pro Monat eine EC2-Instanz (t2.micro-Instance) und 5 GB Standard-S3-Speicher nutzen kann. Auch einige Big-Data-Anwendungen wie DynamoDB, AWS IoT und Redshift lassen sich kostenlos testen, nicht aber EMR.
Amazon Web Services - Leistungsumfang Big-Data-Analyse
Amazon Elastic MapReduce (EMR): Hadoop und zahlreiche Big-Data-Frameworks als Service (Hive, Hue, Pig, Hbase, Impala, Mahout, Spark)
Amazon Kinesis: Echtzeitanalyse von Streaming-Daten
Amazon Machine Learning: Erstellung von Vorhersagemodellen
Amazon Elasticsearch Service: Suche, Protokollanalyse und Datenvisualisierung
AWS IoT (Beta): Kommunikation mit Smart Devices
diverse Datenbanken / Warehouses (DynamoDB, RDS, Redshift)
Amazon Web Services - Fazit
Pro
+ kostenloser Datentransfer zwischen Speicher (S3) und Computing-Plattform (EC2)
+ wichtigste Systeme vorinstalliert
+ Hadoop-Cluster können bedarfsorientiert auf- und auch wieder abgebaut werden
Contra
- manuelle Hadoop-Installation aufwendig
- wenn Daten in S3 statt in HDFS gespeichert werden, ist die Latenz recht hoch
- EMR nicht im kostenlosen AWS-Kontingent enthalten
Google Cloud Platform
Das Google-Angebot an Big-Data-Services ist sehr umfangreich. Neben Open-Source-Lösungen wie Hadoop gehören dazu auch von Google selbst entwickelte Produkte wie BigQuery oder Dataflow. Für Hadoop bietet Google einen "Cloud Launcher", mit dem sich nach Angaben des Providers in wenigen Minuten ein Cluster zur verteilten Big-Data-Analyse aufbauen lässt. Es besteht aus drei virtuellen Maschinen (n1-standard-4) inklusive 10 GB Boot Disk sowie drei Standardspeicherplatten mit 500 GB Kapazität. Die installierte Hadoop-Version 2.4.1 ist allerdings nicht ganz auf der Höhe der Zeit. Die neueste stabile Version von Hadoop hat die Versionsnummer 2.7.1.
Weitere Big-Data-Lösungen lassen sich ebenfalls mit wenigen Klicks per Launcher installieren, darunter hoch skalierbare Datenbanken wie Cassandra, MongoDB und Redis sowie Elasticsearch, ein Open-Source-Tool zur Echtzeitanalyse. Elasticsearch ist aber nicht die einzige Möglichkeit für die Echtzeitanalyse auf der Google-Plattform: Eine weitere ist die Kombination aus dem Cluster-Manager Kubernetes, der In-Memory-Datenbank Redis und dem Abfragesystem BigQuery. In der zweiten Variante können Anwender Kubernetes und BigQuery mit Pub/Sub verknüpfen, einem Real-Time-Messaging-System. Für Logging-Zwecke lässt sich BigQuery schließlich auch noch mit dem Open-Source-Datensammler Fluentd kombinieren.
Im Jahr 2014 hat Google außerdem den Big-Data-Service "Cloud Dataflow" gestartet. Google Cloud Dataflow erlaubt die Analyse großer Datenmengen sowohl im Batch- als auch im Streaming-Modus nahezu in Echtzeit. Der Code ist für beide Methoden gleich, die Entscheidung trifft der Entwickler durch die Wahl der Datenquelle. Die Programmierung ist sehr einfach. Für die Analyse muss ein Entwickler die logischen Schritte nur in eine Sequenz simpler Befehle übersetzen. Um zum Beispiel ein Zeitfenster für eine Streaming-Analyse zu definieren, genügt eine Zeile Code. Google verspricht außerdem eine Skalierbarkeit bis in den Exabyte-Bereich und eine nahtlose Integration in andere Systeme.
Die Google Cloud-Services lassen sich 60 Tage lang testen. Der Anbieter stellt dafür ein Guthaben von 300 Dollar zur Verfügung.
Google Cloud Platform - Leistungsumfang Big-Data-Analyse
Cloud Launcher (Click to Deploy) unter anderem für Hadoop, Cassandra, MongoDB
Echtzeitanalyse mit Elasticsearch oder mit BigQuery in Kombination mit Kubernetes, Redis / Pub/Sub beziehungsweise Fluentd.
Cloud Dataflow: Managed Service für Batch- und Streaming-Analysen
Google Cloud Platform - Fazit
Pro
+ Einfache Installation von Hadoop-Clustern und anderen Big-Data-Lösungen
+ Cloud Dataflow erlaubt auch weniger erfahrenen Anwendern den Einstieg in die Big-Data-Analyse
Contra
- Im Cloud Launcher sind nicht immer die aktuellsten Versionen verfügbar
Microsoft Azure
Auch Microsoft verspricht auf seiner Public Cloud Azure eine Hadoop-Installation in wenigen Minuten. Zuständig dafür ist der "Data-Lake"-Dienst "HDInsight", der darüber hinaus auch zur Verwaltung von MapReduce-, Pig-, Hive-, HBase-, Storm- oder Spark-Projekten verwendet werden kann. Laut Anbieter lassen sich Analysen bis in den Petabyte-Bereich skalieren. Der Anwender kann sowohl per Linux als auch per Windows auf das Cluster zugreifen, Hadoop-Daten in Excel visualisieren oder lokale Hadoop-Cluster mit der Cloud-Instanz verknüpfen. Vorsicht ist allerdings geboten, wenn mehrere HDInsight-Cluster mit demselben Blob Storage verknüpft werden. Laut Microsoft kann es zu Fehlern und Systemabstürzen kommen. Der Hersteller empfiehlt, einen zusätzlichen Storage-Account anzulegen, falls mehrere HDInisght-Cluster auf dieselben Daten zugreifen sollen.
Ein weiterer Big-Data-Analyse-Service von Microsoft ist "Data Lake Analytics". Er basiert auf YARN und soll dank der Abfragesprache "U-SQL" einfach zu bedienen sein. U-SQL kombiniert SQL mit C#-Ausdrücken und ist so für die meisten Entwickler leicht erlernbar. Mit "Machine Learning" lassen sich auf Azure erfahrungsbasierte Analysealgorithmen über einen Webservice definieren und ausführen, wie sie zum Beispiel zur Entwicklung von Vorhersagemodellen bei Predictive Analytics verwendet werden.
Echtzeitanalysen kann der Anwender mit "Stream Analytics" durchführen und zur Datenerfassung mit "Event Hubs" kombinieren, einer Plattform, die Log-Daten schnell in großen Mengen aufzeichnen kann, wie sie etwa auf Webseiten, mobilen Endgeräten oder Industrieanlagen anfallen. Microsoft bietet die Möglichkeit, die Services 30 Tage mit einem Guthaben von 170 Euro zu testen.
Mit der "Cortana Analytics Suite" bietet Microsoft außerdem ähnlich wie Google mit Cloud Dataflow einen einfacheren Einstieg in die Big-Data-Analyse. Sie verbindet die bestehenden Big-Data-Cloud-Angebote mit einer "Perceptive Intelligence" genannten Auswahl an Werkzeugen zur intelligenten Erfassung und Verarbeitung von Daten. Dazu zählen Microsofts "Siri"-Alternative "Cortana" sowie Tools zur Sprach- und Gesichtserkennung und zur Analyse von Texten oder Bildern.
Microsoft Azure - Leistungsumfang
HDInsight: Bereitstellung verwalteter Hadoop-Cluster
Data Lake Analytics: Verteilter Dienst zur Big-Data-Analyse
Machine Learning: Erfahrungsbasierte Erstellung von Vorhersagemodellen
Stream Analytics: Echtzeitanalyse von Datenströmen
Cortana Analytics Suite: Gemanagter Big-Data-Service für den einfachen Einstieg
Microsoft Azure - Fazit
Pro
+ großes Angebot an Analysetools
+ Integration anderer Microsoft-Produkte (Windows, Excel)
+ Cortana Analytics Suite bietet umfassendes Angebot für Prognosen, Entscheidungsfindung und Automatisierung
Contra
- Probleme, wenn mehrere HDInsight-Cluster auf den denselben Blob Storage zugreifen
IBM Analytics
IBM bietet Hadoop as a Service auf der Softlayer-Infrastruktur Bluemix über die IBM-eigene Hadoop-Distribution "Infosphere BigInsights" als "BigInsights for Apache Hadoop" an. Sie enthält unter anderem die Komponenten Ambari, YARN, Spark, Knox, HBase und Hive. Ein verschlüsseltes HDFS (Hadoop Distributed File System) erhöht die Datensicherheit. Beim Aufsetzen der Hadoop-Umgebung kann der Anwender zwischen drei Hardware-Größen pro Knoten (Small, Medium, Large) wählen.
Zudem stehen drei Softwarepakete zur Verfügung. Neben dem Standard "IOP" - IBMs Hadoop-Distribution - gibt es ein "Analyst"- und ein "Scientist"-Package. Beide enthalten die SQL-on-Hadoop-Engine "Big SQL" und das Spreadsheet-Analyse-Tool "Big Sheets". Die Data-Scientist-Variante bringt noch zusätzlich nativen Support für die Programmiersprache R ("Big R") mit sowie Algorithmen für Machine Learning und die Text Analyse.
Weitere Big-Data-Services auf Bluemix sind Apache Spark, diverse Datenbanken wie Cloudant, dashDB, MongoDB, PostgreSQL und Redis sowie Geospatial Analytics, Elasticsearch, Twitter- und Wetteranalysen. Das Angebot unterteilt sich zudem in "Self-Service" und "Full-Service"-Module. Bei ersteren muss der Kunde selbst für Skalierbarkeit, Elastizität, Hochverfügbarkeit und Disaster Recovery sorgen, in letzteren liefert die Plattform diese Features gleich mit.
Auch Bluemix kann man kostenfrei ausprobieren. Die 30-Tage-Testversion umfasst 2 GB Laufzeit- und Container-Speicher sowie unbegrenzten Zugriff auf Services und APIs.
IBM Analytics - Leistungsumfang
BigInsights for Apache Hadoop as a Service inklusive Ambari, YARN, Spark, Knox, HBase und Hive
zahlreiche SQL- und NoSQL-Datenbanken
Streaming-Analysen
Raumbezogene Analysen
IBM Analytics - Fazit
Pro
+ umfangreiches Statistik-Paket für Hadoop ("Data Scientist Package")
+ Module für direkte Analyse von Twitter- und Wetterdaten
Contra
- teilweise muss der Kunde selbst für Skalierbarkeit, Elastizität, Hochverfügbarkeit und Disaster Recovery sorgen
SAP HANA Cloud Platform
SAP bietet seine In-Memory-Datenbank HANA auch als Platform as a Service (PaaS) an. Mithilfe der Query Engine Vora, die das Datenverarbeitungs-Framework Apache Spark nutzt, lassen sich interaktive Analysen in Hadoop auf HANA durchführen. Die Lösung ermöglicht OLAP-ähnliche Analysen (Online Analytical Processing), bei denen auch die Geschäftssemantik von Daten aus dem Hadoop-Umfeld berücksichtigt wird. Auch die auf der Cloud-Plattform verfügbare App "LubeInsights" des Anbieters Saggezza erlaubt eine Hadoop-Anbindung. Sie nutzt Hadoop als Data Warehouse und transferiert nur die Daten in HANA, die für aktuelle Analysen notwendig sind.
ubeInsights ist nur eine von vielen Drittanbieteranwendungen im App Center der HANA Cloud Platform, das sich derzeit allerdings noch im Beta-Statium befindet. Von den aktuell zirka 940 gelisteten Lösungen sind etwas über 100 Big-Data-Anwendungen. Darunter finden sich Anaylsetools wie Operational Analytics (OPAL) oder Lumira, Big Data Warehouses wie PHEMI Central und verschiedene Datenbanken mit demografischen Informationen. Der App Store ist allerdings recht unübersichtlich. Oft geht aus den Beschreibungen nicht hervor, welchem Zweck welche App dient.
Auch die SAP HANA Cloud Platform lässt sich kostenlos testen. Die Gratislizenz ist zeitlich unbefristet und umfasst unter anderem 1 GB HANA-Speicher. (wh)
SAP HANA Cloud Platform - Leistungsumfang
In-Memory-Datenbank SAP HANA als Platform as a Service (PaaS)
HANA Vora als In-Memory Query Engine zur interaktiven Analyse auf Hadoop-Clustern
Rund 100 Apps von Drittanbietern zur Big-Data-Analyse (Beta)
SAP HANA Cloud Platform - Fazit
Pro
+ Großer App Store mit vorgefertigten Applikation
Contra
- Beschreibung der Apps zum Teil wenig aussagekräftig