Amazon, Cloudera, Hortonworks, MapR & Co.
Hadoop-Distributionen im Kurzprofil
IBM mit InfoSphere BigInsights
IBMs Distribution "InfoSphere-BigInsights" wird von Forrester Research in einer Studie zu Hadoop-Distributionen von Anfang 2014 gut bewertet. Das überrascht ein wenig, weil das Unternehmen nicht unbedingt als Open-Source-Spezialist bekannt ist. Allerdings verfügt IBM über alle Tools und Kenntnisse, die für Big Data vonnöten sind: Datenbanken, Analysewerkzeuge, Erfahrung im Bereich Cluster und High-Performance-Computing, Datenmodellierungs-Tools etc.
InfoSphere BigInsights ist eine Hadoop-Distribution, die IBM im Vergleich zum Original in folgenden Punkten erweitert beziehungsweise optimiert hat: Textanalyse, Performance, ein Workload-Management, Visualisierung der Analyseresultate und Sicherheit. Als Ergänzung steht InfoSphere Streams zur Verfügung. Damit lassen sich Streaming-Daten analysieren.
Version 2.1.2 von BigInsights unterstützt HDFS 2.2. Erweitert hat IBM unter anderem die Backup- und Replizierungsfunktionen von HBase. Zudem unterstützt die Distribution sowohl das Hadoop Distributed File System (HDFS) als auch das General Parallel File System (GPFS) - File Placement Optimizer (FPO). GPFS ermöglicht neben dem Replizieren von Daten eine hierarchische Speicherverwaltung und stellt Hochverfügbarkeitsfunktionen bereit. Zudem sollen Anwendungen, die nicht auf Hadoop zugeschnitten sind, eine höhere Performance aufweisen. Dies wird laut IBM durch ein verbessertes Caching und Bearbeiten von Metadaten erreicht. Zudem werden parallele Read-/Write-Aktionen von mehreren Programmen unterstützt.