Amazon, Cloudera, Hortonworks, MapR & Co.
Hadoop-Distributionen im Kurzprofil
Pivotal HD
Als Hadoop-Distribution, die im Gegensatz zur Standardversion der Software auch SQL-Datenbanken als Datenquellen nutzen kann, positioniert sich "Pivotal HD". Die Distribution basiert auf Hadoop 2.0 und verbindet EMCs Greenplum-Datenbank mit der Open-Source-Software. Die engen Bande zu EMC kommen nicht von ungefähr, weil Pivotal eine Ausgründung des Storage-Spezialisten ist.
Neben der Anbindung von SQL-Datenbanken zählen die "Hadoop Virtualization Extensions" (HVE) von VMware zu den Besonderheiten der Enterprise-Version von Pivotal HD. Damit lassen sich virtualisierte Cluster aufbauen. Die Kernkomponente von Pivotal HD ist jedoch "HAWQ", eine massiv-parallele Hadoop-SQL-Engine. Sie erlaubt schnelle SQL-Abfragen, und dies, obwohl als Dateisystem HDFS verwendet wird. HDFS wird laut einer Studie von IDC von vielen Hadoop-Anwendern als Bremsklotz betrachtet und häufig durch herstellerspezifische Dateisysteme ersetzt.
Derzeit konzentriert sich Pivotal auf kleine bis mittelgroße Hadoop-Installationen. Das soll sich nach den Plänen des Unternehmens jedoch ändern. Im Visier sind Großkunden, die derzeit vorzugsweise zu den Lösungen von Cloudera, MapR oder Hortonworks greifen - oder zu Big-Data-Komponenten, die nicht auf Hadoop basieren. Zu den Stärken des Anbieters zählt, dass er sich auf versierte Fachleute (von EMC) verlassen kann, die Kunden im Rahmen von Hadoop-Projekten unterstützen. Das gilt nicht nur für die Implementierung der Software, sondern auch für die Auswahl der entsprechenden Hardwarekomponenten. (pg)