Unstrukturierte Daten wachsen noch schneller als die strukturierten. Dies liegt vor allem an der Verbreitung neuer Geräte wie Smartphones und Tablet-Computern wie dem iPad, mit denen sehr viele Daten erzeugt und versandt werden. Mit Technologien, die sich wie RFID im Handel oder wie digitale Bilderfassung in der Medizin durchsetzen, entstehen ebenfalls riesige Datenmengen.
Hinzu kommen noch die Unzahl gespeicherter Telefonanrufe, Bilder und Videos, sei es zu privaten Zwecken oder durch öffentlich platzierte Überwachungskameras erstellt. Gleich mehrere Server-Anbieter bringen inzwischen neue Bundles aus Server-Clustern und spezialisierter Software auf den Markt, um diese Datenberge effizienter zu erfassen, zu speichern und möglichst schnell zu analysieren.
Auf dem Markt ist jetzt eine Kombination von Dell, die aus Servern des Typs PowerEdge C2100, C6100 oder C6105 und gleich mehreren Software-Layern besteht. Die C-Serie ist speziell vorbereitet für den Einsatz der Cloudera Distribution of Hadoop (CDH), der Cloudera Enterprise Suite aus Management-Tools und Dells eigener Software-Variante von Crowbar. Angepeilt ist ferner der Einsatz in Cloud-Umgebungen auf der Basis von OpenStack.
Von Google entwickelter Such-Algorithmus
Im Zentrum des Software-Pakets steht Hadoop, ein ursprünglich von Google entwickelter Such-Algorithmus, der in den letzten Jahren vor allem von einer Open-Source-Community rund um Apache ausgebaut wurde. Hadoop kann sich der Datenmengen von unstrukturierten Informationen wie Texten, Sprache oder Bildern annehmen und diese nach bestimmten Kriterien durchforsten und auswerten.
Diese Aufgabe wurde bisher von klassischen Applikationen von Data Warehousing und Business Intelligence durchgeführt, die allerdings nur mit strukturierten Daten aus Datenbanken zurecht kommen und überdies als teuer und kompliziert in der Handhabung gelten. Mit dem Aufkommen von "Big Data" – der Begriff bezeichnet Menge und Art der unstrukturierten Informationen – verändert sich gerade diese Analyse-Landschaft. Wie Joseph George, Director Cloud Marketing bei Dell, berichtet, hätten bereits viele Kunden nach Einsatzmöglichkeiten für Hadoop-Anwendungen gefragt.
Auch IBM und EMC haben erste Hadoop-Angebote
Neben Dell gibt es momentan ähnliche Angebote von IBM (InfoSphere BigInsights und InfoSphere Streams) und EMC (Greenplum/Isilon), mit denen die Analyse von Daten bereits während ihrer Entstehung "on the Fly" möglich sein soll. Langfristig könnten solche Ansätze auch die Analyse strukturierter Daten einschließen und so eventuell herkömmliche Werkzeuge wie Business Intelligence ablösen.
Dell hatte sich bereits zu einem der Protagonisten erklärt, die die Kunden sicher in die „virtuelle Ära" begleiten wollen. In diesem neuen Zeitalter sei die Zeit der reinen Server-Virtualisierung schon wieder vorbei, bei der es nur um Reduzierung der IT-Kosten ging. Nun kommt es laut Dell darauf an, die Unternehmen bei der nächsten Phase zu unterstützen – der Integration von Virtualisierung in die breitere Palette der Automatisierung und Datenanalyse im Rechenzentrum und dem Aufbau von Cloud-Services.
Cloudera ab etwa 120.000 Dollar pro Jahr
Eine Einstiegskonfiguration aus sechs Servern des Typs PowerEdge C2100, Switches und einem Support von einem Jahr für Cloudera soll ab etwa 120.000 Dollar zu erhalten sein, je nach weiteren Service-Optionen. Wie CEO Michael Dell jüngst erklärte, will man vor allem mehr integrierte Gesamtpakete oder "Lösungen" ("solutions") herausbringen. Dafür wurde eigens eine neue Division namens "Next Generation Compute Solutions Group" gegründet.