Viele Firmen beschäftigt derzeit die Frage, wie sie auf die stetig wachsenden Datenmengen und die immer komplexer werdenden Daten in ihren Unternehmen angemessen reagieren können. Schließlich geht es im Zuge von Big Data vor allem darum, aus diesen Daten einen Nutzen für das eigene Business zu ziehen. Das funktioniert allerdings nur, wenn es gelingt, die richtigen Informationen aus Big Data zu gewinnen, um auf dieser Basis die richtigen Entscheidungen zu treffen.
Big Data entwickelt sich damit also zunehmend zu einer zentralen Herausforderung in Sachen Analytics. Um dieser Herausforderung Herr zu werden, müssen die Unternehmen ihre Systeme entsprechend auf Big Data vorbereiten und ausrichten.
Umstellung nicht unterschätzen
Die Umstellung auf ein Big-Data-System ist in der Praxis jedoch nicht zu unterschätzen, da sich die Big-Data-Infrastruktur grundsätzlich von der Infrastruktur eines konventionellen IT-Systems unterscheidet.Während beispielsweise bei herkömmlichen Systemen großer Wert auf die Ausfallsicherheit einzelner Bauelemente gelegt wird, sorgt bei Big Data das gesamte System dafür, dass ausgefallene Knoten automatisch kompensiert werden.
Dies funktioniert dadurch, dass unerledigte Tasks auf frei verfügbare Knoten im System aufgeteilt werden. Diese Herangehensweise ermöglicht den Einsatz handelsüblicher Standardsysteme und macht die ausfallsichere Spezialhardware überflüssig, was sich durchaus auch in den Anschaffungskosten widerspiegelt, da diese Elemente bei Big Data nicht mehr redundant ausgelegt werden müssen. Allerdings haben die Unternehmen im Vorfeld zu prüfen, inwieweit sich handelsübliche Hardware in dem zur Verfügung stehenden Rechenzentrum betreiben lässt.
Bandbreite im Netz muss passen
Weitere Anforderungen stellt Big Data an die Netzwerkinfrastruktur, denn die Netzwerkkomponenten müssen nicht nur ausfallsicher sein, sondern auch hohe Bandbreiten zur Verfügung stellen. Da die Daten während der Verarbeitung mehrfach über das Netzwerk hin- und hergeschickt werden, ist insbesondere eine hohe Bandbreite zwischen den einzelnen Zonen, den Racks, von großer Bedeutung. Die Knoten innerhalb eines Rack tauschen in der Regel noch mehr Daten untereinander aus, so dass hier eine höhere Bandbreite für alle beteiligten Knoten zur Verfügung stehen muss.
Auch in der Ablage der Daten unterscheidet sich ein Big-Data-System stark von üblichen Infrastrukturen: Mit Big Data werden die Daten ohne Bezüge untereinander in einer semistrukturierten Form im System abgelegt. Im Falle von unstrukturierten Quelldaten macht das keinen Unterschied, bei Quelldaten aus relationalen Datenbanken ist dieser Punkt insofern wichtig, als die Struktur für die Ablage aufgelöst werden muss. Sollte eine nachgelagerte Auswertung der Daten mit Zusatzinformationen gefordert sein, so sind dafür Struktur und Bezug wiederherzustellen.
Nicht für Big Data ausgelegt
In vielen Unternehmen sind Beschaffung, Inbetriebnahme und Betrieb von IT-Komponenten nicht zwingend auf die Besonderheiten von Big Data ausgelegt. Der Aufbau einer solch innovativen Infrastruktur benötigt nicht nur Know-how bei der Inbetriebnahme und im Betrieb, sondern auch bei den Anwendern dieses Systems. Dabei ist nicht nur das technische Know-how für die Anwendung von Bedeutung, sondern auch die Kenntnis darüber, wie man aus den neuen Möglichkeiten und Daten Informationen und anschließend Wissen schafft.
Alles in allem stellt Big Data oft eine große Herausforderung dar und ist mit vielen Fragen verknüpft: Ist der Schritt zu Big Data bei großen Datenmengen wirklich immer automatisch der richtige Weg? Ab wann braucht man zwingend ein Big-Data-System? Wo liegen die Grenzen zwischen Big Data und herkömmlichen IT-Systemen? Wie definiert sich Big Data? "Aus IT-Perspektive markiert Big Data die aufkommenden Herausforderungen sowie die neuen technologischen Möglichkeiten für Speicherung, Analyse und Processing schnell wachsender Datenmengen", sagen die Experten des Branchenverbands Bitkom und verweisen auf die vier zentralen Begriffe Datenmenge (Volume), Datenvielfalt (Variety), Geschwindigkeit (Velocity) und Analytics, die Big Data ausmachen.
Auch die Analysten von Gartner verwenden die drei Vs (Volume, Variety, Velocity) in ihrer Definition: Big Data sind viele, in verschiedener Form und hoher Geschwindigkeit anfallende Daten, die eine effiziente und innovative Form der Verarbeitung erfordern, um bessere Einsichten zu erhalten und Entscheidungen zu unterstützen.
Damit umreißen die Definitionen zwar, worum es bei Big Data geht. Konkrete Anhaltspunkte, wie eine dafür ausgelegte Infrastruktur dimensioniert sein sollte, bleiben sie indes schuldig. Die Grenze, bis wann ein herkömmliches System ausreichend ist und ab wann nur ein Big-Data-System eine stabile Lösung schafft, ist wohl fließend. Vielfach lassen sich erhöhte Anforderungen aber noch mit herkömmlichen Maßnahmen lösen, und erst ein darüber hinausgehender, anspruchsvollerer Teil benötigt neue, alternative Herangehensweisen.
Die Big-Data-Formel: 3 mal V
Der gemeinsame Nenner der Definitionen sind die drei Vs (Volume, Variety and Velocity). Doch in welcher Abhängigkeit stehen diese? Handelt es sich bereits um ein Big-Data-Problem, wenn die aktuelle Situation im Unternehmen ein oder zwei Vs erfüllt und damit das eigene System lahmlegt? Die fließenden Übergänge sowie die Abhängigkeiten zwischen den Begriffen verdeutlicht die Abbildung auf Seite 18. So können zwar unstrukturierte Daten mit herkömmlichen Lösungen verarbeitet werden, sobald jedoch zeitgleich die Datenmenge zunimmt, bewältigt ein Big-Data-System solch eine Anforderung effizienter.
Eindeutig ist der Fall, bei dem Ergebnisse aus vielfältigen Daten gewonnen werden müssen, die noch dazu in großer Menge auftreten und außerdem in kurzer Zeit angefordert werden. Hier handelt es sich um Big Data im klassischen Sinne. Da es aber durchaus Abstufungen gibt, lohnt sich eine nähere Betrachtung der einzelnen Vs im Zusammenhang mit bewährten Lösungsansätzen.
Vielfalt (Variety)
Bei dem sehr breit gefächerten Begriff der Datenvielfalt ist hinsichtlich Big Data nur eine Ausprägung relevant. Die Auswertung von vielfältigen Datenquellen ist eine gängige Praxis, die in Unternehmen mit einem Data Warehouse bereits seit einiger Zeit realisiert wird. In einem klassischen DW ist die Vielfältigkeit der Daten auf unterschiedliche Systeme sowie unterschiedliche Daten- und Dateiformate limitiert. Dabei ist diesen Daten eines gemein: Sie sind in der Regel strukturiert. Der Umgang mit strukturierten Daten ist demnach keine neue Herausforderung und erfordert damit auch nicht zwingend einen Big-Data-Ansatz. Wohl aber der Umgang mit semistrukturierten oder gar unstrukturierten Daten.
Semi- beziehungsweise unstrukturierte Daten finden sich meist im Bereich von Social Media, Dokumenten, Webseiten oder E-Mails. Folglich entspricht die Analyse solcher Daten für Unternehmen, die sich bis dato nicht mit der Auswertung von Textquellen beschäftigt haben, einem Novum. Die Verarbeitung dieser Datentypen ist in der Regel mit einer hohen Rechenleistung verbunden, die mithilfe eines Big-Data-Systems beherrschbar wird. Dementsprechend lässt sich der Begriff der Datenvielfalt in puncto Big Data auf den Strukturierungsgrad der Daten eingrenzen.
Menge (Volume)
Die Datenmenge ist ein eindeutiger Begriff, allerdings fehlt es an einer festen Größe für die klare Zuordnung zu Big Data. Die Datenmenge wirkt sich insbesondere bei der Speicherung und der Auswertung von Daten aus. Verhalten sich die aktuellen Systeme während des Speicherns oder der Auswertung von Daten auf Grund der hohen Datenmenge grenzwertig, so kann der Umstieg auf ein Big-Data-System die beste Lösung sein. Doch vorher empfiehlt es sich, noch einige Stellschrauben zu prüfen, mit deren Hilfe sich die Grenzen der bestehenden Systeme erweitern lassen.
Der erste Blick gilt der Datenspeicherung: Können Daten in ein Archiv verschoben werden, ohne die Funktionalität des Systems zu beinträchtigen? Im zweiten Schritt ergeben sich mehrere Möglichkeiten für die Archivierung selbst:
-
Die Daten werden im gleichen System separat abgelegt, falls eine Analyse der Daten noch bevorsteht.
-
Die Daten werden ganz aus dem System entnommen und auf einem kostengüns-tigen Speicher offline abgelegt.
Bei der anschließenden Auswertung lässt sich die Datenmenge mithilfe einer intelligenten Aufteilung reduzieren. So können beispielsweise die Datamarts in einer DW/BI-Umgebung dem Anwender losgelöst von den eigentlichen konsolidierten Daten zur Verfügung gestellt werden. Bei gleich bleibender Gesamtmenge reduziert sich so die Datenmenge pro System, was zur Folge hat, dass sich die Kapazität des Gesamtsystems erhöht und dieses künftig höhere Datenmengen verarbeiten kann.
Ein weiterer Ansatz ist die Komprimierung der Daten. Hier bieten Datenbankhersteller unterschiedliche Modelle. Die Komprimierung strukturierter Daten erfolgt in Echtzeit bei der Datenablage, die Dekomprimierung findet ebenfalls in Echtzeit statt und ist für den Endanwender transparent.
Geschwindigkeit (Velocity)
In Abhängigkeit von anfallenden Datenmengen, verwendeten Algorithmen, vorhandener Hardware und eingesetzten Techniken kann die Verarbeitungszeit der Daten (Transformation, Ablage, Analyse) ein Ausschlusskriterium darstellen. Bestehende Systeme mit langer Historie scheitern in der Tat oft an einem entscheidenden Problem: der Effizienz der verwendeten Algorithmen. Ändern sich die Anforderungen an das System während der Laufzeit, so werden dafür nur selten neue Implementierungen aufgesetzt. Stattdessen werden die bestehenden Implementierungen erweitert. Das führt dazu, dass ähnliche Aufgaben redundant implementiert werden und dadurch wertvolle Verarbeitungszeit verbrauchen.
Im Hinblick auf die Performance bewirkt eine Umstrukturierung der Algorithmen oft einen riesigen Sprung und schafft so neuen Spielraum. Auch die jüngsten Innovationen im Hardwarebereich schaffen neue Freiräume. Wenn beispielsweise die Prozessorleistung den kritischen Faktor bildet, kann dieser über mehrkernige Grafikprozessoren oder kostengünstige Blades optimiert werden.
Der Clou: Das bestehende System lässt sich erweitern, ohne dass ein Umzug notwendig wird. Bei Zugriff und Ablage der Daten bieten die neu entwickelten Flash-Speicher mehr Flexibilität und höhere Performance. Ebenso kann der Einsatz von Datenbanktechniken, angefangen bei der Partitionierung der Tabellen über spaltenorientierte Ablage der Daten bis hin zu den neuen "In Memory"-Ansätzen die Geschwindigkeit der Verarbeitung und damit die Akzeptanz des Systems erhöhen.
Fazit
Lösen die beschriebenen Maßnahmen die bevorstehenden Herausforderungen nicht, so führt kein Weg an einem alternativen Ansatz der Datenverarbeitung, -speicherung und -analyse vorbei. Der Big-Data-Ansatz bietet in dem Fall neue, erweiterte Möglichkeiten für den Umgang mit großen Datenmengen. Doch sollten Unternehmen zunächst prüfen, ob der Aufwand für das neue System den Mehrwert nicht übersteigt.
Eine pauschale Lösung gibt es bei Herausforderungen mit großer Datenmenge und komplexen Zusammenhängen nicht – wann sich ein Big-Data-System lohnt, lässt sich aber schon mit ein wenig analytischem Verständnis gut bewerten: Eine individuelle Analyse der Anforderungen und der vorhandenen Infrastruktur gibt eine klare Antwort darauf, ob das neue System die richtige Herangehensweise ist oder nicht.