Amazon, Cloudera, Hortonworks, MapR & Co.
Hadoop-Distributionen im Kurzprofil
Amazon Elastic MapReduce (EMR)
Amazons Cloud-basierter Service "Elastic MapReduce" (EMR) nutzt Hadoop für die Verteilung der Daten und die Verarbeitung auf einem skalierbaren Cluster. Dieses Cluster besteht aus Server-Instanzen, die Amazon EC2 (Elastic Compute Cloud) bereitstellt, sowie aus Speicherkapazitäten von Amazon S3. Ein Vorteil ist, dass der User ein EMR-Cluster in wenigen Minuten einrichten kann. Er muss sich weder um die Bereitstellung von Knoten noch um das Konfigurieren von Clustern und Hadoop kümmern.
Amazon plant, sein Hadoop-Angebot sukzessive zu erweitern. Ein Beispiel dafür ist die Integration von "Amazon Kinesis" für die Verarbeitung von Daten-Streams, ein weiteres die Anbindung der Data-Warehouse-Lösung "Amazon Redshift" und von anderen Datenquellen wie NoSQL-Datenbanken. Für EMR spricht zudem, dass Amazon mit Hilfe von Partnern Business-Intelligence-Tools in sein Hadoop-Angebot integrieren wird. Dasselbe gilt für Entwicklungs-Tools und Werkzeuge für das Cluster-Management.
Das Ziel: Hadoop as a Service soll auch Unternehmen ansprechen, die den Aufwand scheuen, eine eigene Hadoop-Umgebung im Unternehmensnetz einzurichten. Nach Berechnungen der Beratungsgesellschaft Accenture könnte dies aufgehen. Demnach weist eine Cloud-basierte Hadoop-Version ein besseres Preis-Leistungsverhältnis auf als eine Bare-Metal-Implementierung auf unternehmenseigenen Servern.
Für ein Hadoop-Cluster mit zehn Knoten stellt Amazon ab 0,15 Dollar pro Stunde in Rechnung.