Ein Trend und seine Appliances
Big Data aus kleinen Kisten
Das Datenwachstum ist unbestritten, vor allem bei unstrukturierten Informationen wie E-Mails, SMS, Videos, Musik usw. Im RechenzentrumRechenzentrum müssen sie teils wegen gesetzlicher oder unternehmensinterner Vorschriften oder Regeln archiviert werden, teils werden sie innerhalb kürzerer Fristen für diverse Auswertungen herangezogen. Solche Analysen beziehen sich zunehmend auf zeitnahe Datensammlungen, die zum Beispiel im Bereich Social Media anfallen: Die meisten Mitglieder solcher Communities hinterlassen ganz freiwillig ihre Spuren im Internet. Das lässt die Werbe-Abteilungen ganzer Industrien nicht ruhen, die ihre Anzeigen lieber auf der Basis messbarer, quantifizierbarer Aussagen im Web platzieren als auf ungefähren Annahmen darüber, ob und wie lange Zeitungs- und Zeitschriftenleser bei ihren Botschaften verweilen. Alles zu Rechenzentrum auf CIO.de
Ob Schnelligkeit das entscheidende Kriterium bei der Auswertung solcher Informationen ist, hängt von dem jeweiligen Anwendungsfall ab. Anbieter von Big-Data-Lösungen heben dies besonders hervor, weil sie sich erst noch gegen die schon länger am Markt befindlichen Data-Warehouse- und Business-Intelligence-Produkte durchsetzen müssen. Der unabhängige Analyst Josh Krischer von Krischer & Associates verweist dagegen darauf, dass man bei Big Data oder Analytics genau unterscheiden müsse.
Krischer geht von vier Datenkategorien aus, die nur zum Teil eine sofortige Auswertung und neue Methoden erfordern:
1 Analytics (Velocity and Volume): Sehr große Datenmengen, die nur in einigen Fällen wie Face Recognition an Flughäfen oder bei der Prüfung von Kreditkarten in Real-Time-Geschwindigkeit ausgewertet werden müssen. In der Retail-Branche kommt es dagegen nicht auf ein paar Stunden oder Tage an, um über aktuelle Verkaufszahlen Bescheid zu wissen.
2 Bandwidth (Volume and Velocity): Netz- und Zugriffsdaten, zum Beispiel bei sozialen Netzwerken. Unmittelbare Auswertung und Verwendung sind in der Regel nicht erforderlich.
3 Content (Volume and Variety): Da es sich meistens um langfristig abgelegte oder archivierte Daten handelt, kann man auf zeitnahe Analytics verzichten.
4 Machine and Sensoring (Volume and Velocity): Oft handelt es sich um sensible Daten, die zum Beispiel bei Wetter- oder Erdbeben-Meldungen eine schnelle Auswertung erfordern, um Katastrophen zu verhindern.