Große Speichermengen im Griff
Big Data intelligent managen und nutzen
Einer der wesentlichen Faktoren ist hier die schnelle und effektive Datenintegration, da sie die Basis für sinnvolle und erfolgreiche Datenanalysen in Echtzeit bildet. Mit der konsequenten Umsetzung einer ETL-Strategie (Extract - Transform - Load) und vor allem der Datentransformation selbst bei großen und hochgradig unstrukturierten Datenmengen stehen Unternehmen alle Möglichkeiten für eine intelligente Verwendung der generierten Daten offen.
Datenvolumen, Datengeschwindigkeit und Datenvielfalt
Es sind hauptsächlich drei große Herausforderungen, die Unternehmen heutzutage bei der Datenverarbeitung bewältigen müssen. Die erste ist das steigende Datenvolumen. Mehr und mehr Anwendungen des Geschäftsalltags sind digitalisiert und liefern ständig neue Daten. IDC geht von einem Wachstum der Menge an digitalen Daten von bis zu 35 Zettabyte bis zum Jahre 2020 aus (IDC Digital Universe Study 2011). Hinzu kommt die enorme Geschwindigkeit, mit der Daten integriert werden sollen, um für Analysen bereitzustehen. Gleichzeitig fragen immer mehr Unternehmensabteilungen immer mehr unterschiedliche Daten für Analysen ab, stets mit der Forderung nach höchster Aktualität. Im Idealfall sollen Echtzeitanalysen laufen, damit zum Beispiel das Marketing oder der Einkauf schnellstmöglich auf neue Marktbedingungen reagieren kann. Zu einer rascheren Datenaktualisierung kommt somit eine erhöhte Abfragekomplexität, derer die IT-Abteilungen Herr werden müssen.
Strukturierte, teilstrukturierte und unstrukturierte Daten
Waren es früher größtenteils strukturierte Daten, beispielsweise aus SAPSAP oder dem ERP-System, müssen nun zunehmend teilstrukturierte Daten wie XML oder HTML und vor allem unstrukturierte Daten verarbeitet werden. Zu Letzteren zählen neben Textdokumenten, E-Mails oder Präsentationen nun auch vielfältige neue Datenformate, die in den vergangenen Jahren für eine enorme Zunahme des Volumens gesorgt haben. Zum Beispiel Daten, die aus M-to-M-Anwendungen gewonnen werden und damit von Sensoren oder aus On-Board-Systemen stammen. Oder auch von diversen Social-Media-Plattformen, Weblogs sowie Internetforen. Die Vielzahl dieser unstrukturierten Daten erfordert neue Lösungen, da sie mit bisherigen Business-Ingelligence-Lösungen und Data Warehouses wie zum Beispiel SQL-Datenbanken nicht mehr zu bewältigen sind. Alles zu SAP auf CIO.de
Ineffiziente Versuche einer Problembewältigung
Aufgrund der gestiegenen Datenkomplexität reichen bestehende Datenintegrationslösungen häufig nicht mehr aus. Mit der über die Jahre gewachsenen Menge an Data Warehouses und Data Marts wurde die Situation noch komplexer. Abhilfe sollten meist eigene, über Wochen entwickelte und getestete Programme schaffen. Scheiterten diese, wurden weitere Lösungen für bestimmte Anwendungen angeschafft, die oft nicht kompatibel waren. Mit steigendem Datenvolumen gingen viele Unternehmen dann einfach dazu über, die anfallende Flut aus unstrukturierten Daten nur noch verschiedenen Speicherorten zuzuweisen, ohne sie vorher wirklich zu verarbeiten und zu transformieren. Das Ergebnis sind heterogene Datenverarbeitungs- und Speicherstrukturen in vielen Unternehmen, die weder wirtschaftlich im Sinne einer niedrigen TCOTCO (Total Cost of Ownership) noch zielführend für potenzielle Datenanalysen sind. Alles zu TCO auf CIO.de