Datenanalyse als Service
Die wichtigsten Big-Data-Tools aus der Cloud
Dr. Thomas Hafen ist freier Journalist in München. Er verfügt über langjährige Erfahrung als Redakteur in verschiedenen IT-Fachmedien, darunter NetworkWorld Germany und ChannelPartner. Seine fachlichen Schwerpunkte liegen in den Bereichen Data Center, Telekommunikation und Cloud Computing.
IBM Analytics
IBM bietet Hadoop as a Service auf der Softlayer-Infrastruktur Bluemix über die IBM-eigene Hadoop-Distribution "Infosphere BigInsights" als "BigInsights for Apache Hadoop" an. Sie enthält unter anderem die Komponenten Ambari, YARN, Spark, Knox, HBase und Hive. Ein verschlüsseltes HDFS (Hadoop Distributed File System) erhöht die Datensicherheit. Beim Aufsetzen der Hadoop-Umgebung kann der Anwender zwischen drei Hardware-Größen pro Knoten (Small, Medium, Large) wählen.
Zudem stehen drei Softwarepakete zur Verfügung. Neben dem Standard "IOP" - IBMs Hadoop-Distribution - gibt es ein "Analyst"- und ein "Scientist"-Package. Beide enthalten die SQL-on-Hadoop-Engine "Big SQL" und das Spreadsheet-Analyse-Tool "Big Sheets". Die Data-Scientist-Variante bringt noch zusätzlich nativen Support für die Programmiersprache R ("Big R") mit sowie Algorithmen für Machine Learning und die Text Analyse.
Weitere Big-Data-Services auf Bluemix sind Apache Spark, diverse Datenbanken wie Cloudant, dashDB, MongoDB, PostgreSQL und Redis sowie Geospatial Analytics, Elasticsearch, Twitter- und Wetteranalysen. Das Angebot unterteilt sich zudem in "Self-Service" und "Full-Service"-Module. Bei ersteren muss der Kunde selbst für Skalierbarkeit, Elastizität, Hochverfügbarkeit und Disaster Recovery sorgen, in letzteren liefert die Plattform diese Features gleich mit.
Auch Bluemix kann man kostenfrei ausprobieren. Die 30-Tage-Testversion umfasst 2 GB Laufzeit- und Container-Speicher sowie unbegrenzten Zugriff auf Services und APIs.
IBM Analytics - Leistungsumfang
BigInsights for Apache Hadoop as a Service inklusive Ambari, YARN, Spark, Knox, HBase und Hive
zahlreiche SQL- und NoSQL-Datenbanken
Streaming-Analysen
Raumbezogene Analysen
IBM Analytics - Fazit
Pro
+ umfangreiches Statistik-Paket für Hadoop ("Data Scientist Package")
+ Module für direkte Analyse von Twitter- und Wetterdaten
Contra
- teilweise muss der Kunde selbst für Skalierbarkeit, Elastizität, Hochverfügbarkeit und Disaster Recovery sorgen