Wir haben im Folgenden einige Aspekte zusammengefasst, die Verantwortliche berücksichtigen sollten, wenn das Thema Big Data im Unternehmen angegangen werden soll.
Tipps für Big Data-Projekte
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen.
Sehr wichtig, vor allem bei der Verarbeitung von Daten aus sozialen Netzwerken, ist der Datenschutz. Hier sollten Entwickler und Verantwortliche sehr sensibel vorgehen, aber nicht gleich ganze Datensammlungen ausklammern. Gesammelt und verarbeitet sollten aber nur Daten werden, die den Zielen des Big-Data-Projektes entsprechen.
Die Hardware und die Big-Data-Lösung sollten nicht nur erste Daten zuverlässig verarbeiten können, sondern als skalierbare Lösung mit den Daten mitwachsen können. Am besten geeignet sind dazu sicher Cloud-Lösungen bekannter Hersteller wie Microsoft, Amazon oder Google.
Benutzer-Schnittstelle berücksichtigen: Wichtig ist, dass die Anwender im Unternehmen etwas mit den Daten anfangen und diese selbständig auslesen und analysieren können. Die Daten sollten von überall zugreifbar sein, durchaus auch mobil.
Big-Data-Leitfaden
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann. Unternehmen sollten sich den Leitfaden ansehen, bevor sie sich entschließen ein erstes Big- Data-Projekt in Angriff zu nehmen.
Big Data mit Microsoft Azure
Um Big Data im Unternehmen einzusetzen, können Sie mit HDInsight einen Hadoop-Cluster in Microsoft Azure erstellen. Auf diesen Cluster können Sie mit herkömmlichen Microsoft-Mitteln wie C#, PowerShell oder Visual Studio zugreifen. Auch mit der PowerShell können Sie den Dienst steuern und sogar MapReduce-Abfragen durchführen.
Mit dem Azure SDK und den Azure Tools können Sie HDInsight-Cluster mit HDInsight Tools für Visual Studio steuern und Abfragen erstellen. Damit verwalten Sie nicht nur den Speicher, sondern erstellen auch Hive-Abfragen und überwachen Hive-Jobs.
Hadoop-Cloud-Lösung offline testen
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung. Mit dieser Umgebung bauen Sie schnell und einfach eine Offline-Umgebung auf, können für Big Data entwickeln und die Daten anschließend in die Cloud hochladen.
NoSQL-Datenbanken nutzen
Um Big Data-Lösungen zu nutzen, benötigen Sie in den meistens eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken. Diese NoSQL-Datenbanken dienen als Speicherpunkt und zur Verwaltung der Big Data-Infrastruktur. Viele NoSQL-Datenbanken stehen kostenlos als Open Source zur Verfügung. Beispiele dafür sind MongoDB, Cassandra und HBase. HBase steht als Datenbank auch in Microsoft Azure für HDInsight zur Verfügung.
Apache Giraph nutzen
Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit zusätzlichen Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Open-Source-Produkten zur Verfügung, zum Beispiel Apache Giraph. Giraph verbessert das Analysieren verbundener Strukturen und sozialer Graphen und bietet daher eine ideale Ergänzung, wenn in der Big Data-Lösung auch Daten sozialer Netze analysiert werden müssen.
MapReduce-Aufträge einfacher erstellen
Um Daten in Big Data-Lösungen wie Hadoop zu verarbeiten, benötigen Entwickler MapReduce-Aufträge. Diese lassen sich mit verschiedenen Werkzeugen übertragen, auch mit Windows Azure HDInsight über die PowerShell . Zusätzlich stellt Microsoft noch das kostenlose ebook "Introducing Microsoft Azure HDInsight" zur Verfügung. Dieses bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.
Apache HBase und Storm gemeinsam nutzen
HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern. Storm gehört ebenfalls zu diesem Projekt und unter das Apache-Dach. Storm ist ein Echtzeitverarbeitungs-System, dass neben der Analyse von Daten auch die Ausgabe erlaubt, während die Berechnung im Hintergrund weiter läuft.
Die besten Erweiterungen für Big Data - Mehr Daten schneller verarbeiten
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Es lohnt sich daher durchaus einen Blick auf Apache-Projekte zu nehmen und sich verschiedene Tools anzusehen. Bekannte sind zum Beispiel:
• Apache Ambari - Verwaltungslösung für Hadoop
• Apache Sqoop - Lösung für das Transportieren von Daten zwischen Hadoop und anderen Datenspeichern.
• Apache Pig - Plattform um parallele Abfragen durchführen zu können, während die Verarbeitung der Daten noch läuft.
• Apache ZooKeeper - Tool zum Synchronisieren und Verwalten von Hadoop-Clustern
• Apache Mahout - Bessere Verwaltung der Daten in Hadoop.
• Apache Lucene /Apache Solr - Tools für das Indexieren von Text in Big Data-Lösungen
• Apache Avro - Data Serialization System für Big Data-Lösungen
• Oozie - Workflows in Big Data-Umgebungen erstellen.
• GIS Tools - Tools für die bessere Verwaltung von geographischen Daten in Big Data.
• Apache Flume - Logfiles in Hadoop verwalten, aggregieren und verarbeiten. Auch die Sammlung ist möglich.
• Apache Spark - Daten schneller verarbeiten.
Die Kosten bei Big Data-Clustern in Cloud beachten
Cloud-Lösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen. Bereits bei der Entwicklung können auf diesem Weg sehr hohe Kosten entstehen.
Der Autor dieses Artikels hat zum Beispiel nur aus Testzwecken bei Amazon Web Services einen Hadoop-Cluster erstellt, ohne Daten und großartige Berechnungen. Fällig waren dafür recht schnell 400 Euro. Das zeigt, dass bei Big Data-Projekten auch sehr schnell große Kosten entstehen können, die Unternehmen nicht außer Acht lassen und Entwickler berücksichtigen müssen. Aus diesem Grund macht auch die Offline-Entwicklung von Big Data-Lösungen Sinn und erst bei Inbetriebnahme die Übertragung in die Cloud.