Amazon, Cloudera, Hortonworks, MapR & Co.
Hadoop-Distributionen im Kurzprofil
Microsoft HDInsight
Mit "HDInsight Hadoop" stellt Microsoft eine Apache-Hadoop-Distribution über seine Cloud-Plattform Azure bereit. Auf der Entwicklerkonferenz "Build" gab Microsoft Anfang April 2014 in San Francisco bekannt, dass der Hadoop-Cloud-Service HDInsight Hadoop auf die aktuelle Version 2.2 upgedatet wurde. Zudem steht den Nutzern nun auch "Hadoop YARN" (Yet Another Resource Negotiator) zur Verfügung. Damit lassen sich auch Streaming-Daten verarbeiten.
Standardmäßig sind mit HDInsight Cluster bis zu 40 Datenknoten konfigurierbar. Ein Cluster aufzusetzen dauert nach Angaben von Microsoft etwa 15 Minuten. Wer mehr Knoten benötigt, muss den Support von Microsoft kontaktieren. Im Unterschied zur Original-Hadoop-Version empfiehlt Microsoft "dringend die Aufbewahrung Ihrer Daten in einem Azure-BLOB-Speicher [Binary Large Object, d. Red.] statt in HDFS". Microsoft führt folgende Gründe für die Abkehr vom Standard-Dateisystem an:
• Niedrigere Kosten: Bei Speicherung der Daten in einem Azure-BLOB-Speicher könne der User HDInsight-Knoten nach Bedarf erstellen und löschen. Da sich die Daten in einem BLOB befinden, muss das HDInsight-Cluster nicht die gesamte Zeit laufen. Nur bei Nutzung der Server fallen Kosten an.
• Elastische Datenskalierung: Der Azure-BLOB-Speicher bietet einen elastischen Datenspeicher. Das Speichern der Daten in einem Azure-BLOB ermöglicht eine Skalierung der Speicheranforderungen, ohne dass ein überdimensionierter Server-Cluster aufgebaut werden muss.
Microsoft fordert für einen Hauptknoten rund 355 Euro im Monat. Für einen Server-Knoten fallen 0,24 Euro in der Stunde beziehungsweise 178 Euro im Monat an. Hinzu kommen die Kosten für die Storage-Ressourcen und den Datentransfer.