Das große an Big Data sind nicht nur die enormen Datenmengen. Obwohl auch die schon nicht ohne sind: Das Volumen an Daten verdoppelt sich schätzungsweise alle zwei Jahre und hat im vergangenen Jahr bereits die Zettabyte-Grenze passiert (1021 Byte). Die Herausforderung heute ist es eher, die großen Mengen unstrukturierter, nicht nach vorgegebenen Kriterien in Datenbanken erfasster Daten zu analysieren, und das möglichst schnell, am besten nahezu in Echtzeit.
Wo solche Datenmengen überhaupt anfallen und wofür man solche Echtzeitanalysen nutzt, beantwortet jüngst der Softwarehersteller SAS im Auftrag der Vereinten Nationen: Global Pulse ist eine Initiative des UN-Generalsekretärs Ban Ki-moon, die Innovationen im Bereich des Datenmanagements und der Echtzeitanalysen für die Vereinten Nationen erschließen soll. Mithilfe von Social Media Analytics hat SAS eigenen Angaben zufolge im Rahmen dieses Projekts schon vor dem Eintreten wirtschaftlicher Krisen "konkrete Erkenntnisse über die Lebensrealität Betroffener" gewinnen können.
Diskussionen im Web 2.0 geben vorab Hinweis auf Anstieg der Arbeitslosigkeit
Für diese Erkenntnisse hat SAS im Auftrag der Vereinten Nationen zwei Jahre lang "offene soziale Medien" in den USA und Irland mit Blick auf Arbeitsmarktthemen analysiert. "Die Diskussionen und Stimmungen im Web 2.0 gaben bereits im Vorfeld Hinweise auf einen Anstieg der Arbeitslosigkeit, der sich in den offiziellen Statistiken noch nicht widerspiegelte", heißt es in einer Pressemitteilung des Unternehmens. Zudem liefere die Analyse "Informationen zu den konkreten Themen, die die Betroffenen bewegen".
Ob die daraus abgeleitete Perspektive für Politik und Wirtschaft tatsächlich von Relevanz ist, sei dahingestellt, denn schon mit handfesten Fakten gelingen valide Vorhersagen nur mäßig: "Erkenntnisse dieser Art", hofft SAS dennoch, "können politische Entscheidungsträger künftig bei der Krisenprävention und -bewältigung unterstützen".
Für die Analyse hat SAS über einen Zeitraum von rund zwei Jahren etwa eine halbe Million öffentlicher Blogs, Foren und Websites beobachtet. Mithilfe der Analysewerkzeuge von SAS verglich Global Pulse Stimmungsindikatoren und den Umfang von Diskussionen in sozialen Netzwerken mit offiziellen Arbeitslosenstatistiken, um Korrelationen zwischen diesen Indikatoren erkennen zu können.
Tonalität und Stimmungen als Indikatoren für Vorhersagen
Ein besonderes Augenmerk richtete SAS eigenen Angaben zufolge "auf die Tonalität der Kommentare und die Stimmungslage in den öffentlichen virtuellen Debatten". Zusätzlich seien Cluster zu verschiedenen Themen angelegt worden, darunter Wohnen, Transport und Finanzierung, "um einen direkten Bezug der Web-2.0-Diskussionen zur Lebensrealität der Kommunikatoren zu schaffen".
Was eher wissenschaftlich klingt, ist praktisch relativ leicht nachvollziehbar: So ergab die Analyse etwa, dass "intensivere Diskussionen beispielsweise um Sparmaßnahmen beim Lebensmitteleinkauf oder bei der Pkw-Nutzung auf einen zukünftigen Anstieg der Arbeitslosigkeit" hindeuteten. Wer bei Facebook, Twitter & Co. zudem über "stornierte Urlaubsreisen, reduzierte Gesundheitsausgaben oder gar Zwangsräumungen" debattiere, liefere Hinweise auf "kritische soziale und wirtschaftliche Trends".
Die Diskussionen über "Wirtschafts- und Alltagsthemen mit negativer Tendenz", fanden die SAS-Mitarbeiter im Auftrag der UN heraus, hätten sich in den beiden Ländern USA und Irland immer bereits "einige Monate" vor einem offiziell festgestellten Anstieg der Arbeitslosigkeit ereignet. Damit, so SAS, gäben Analysen solcher Art politischen Entscheidungsträgern wertvolles Material an die Hand, mit denen sie bereits im Vorfeld von Krisen effizient gegensteuern könnten.
"Die Echtzeit-Analyse öffentlich zugängiger Social-Media-Inhalte kann sehr frühzeitig wichtige Informationen für politische Entscheidungsträger liefern", heißt es dazu bei SAS. "Unternehmen der Privatwirtschaft analysieren bereits Daten aus den sozialen Medien, um in Echtzeit wichtige Erkenntnisse zu ihren Kunden zu gewinnen", sagte denn auch Ban Ki-moon bei der UN-Vollversammlung im November 2011. "Viele dieser Daten sind auch höchst relevant in Bezug auf politische und wirtschaftliche Entwicklungen - deshalb müssen auch wir diese Informationen nutzen", so der UN-Generalsekretär.
Wolf Lichtenstein, bei SAS als Vice President für die Region DACH zuständig, ergänzt: "Diskussionen, Meinungs- und Stimmungsäußerungen auf diesen Plattformen sind Indikatoren für wesentliche politische, soziale und wirtschaftliche Trends." Die Politik und der öffentliche Sektor müssten solche Informationen nutzen, um ein Feedback zu politischen Strategien und Maßnahmen zu erhalten, so Lichtenstein. Dafür seien Technologien erforderlich, mit denen unstrukturierte Texte kategorisiert und enorme Datenmengen zukunftsorientiert analysiert werden können.
In Abu Dhabi wird Grippe mit Twitter bekämpft
Beispiele für sinnvolle Anwendungen von Big Data gibt es mittlerweile immer häufiger. So zitierte Spiegel Online vor kurzem einen Bericht der Ärzte-Zeitung über ein Grippe-Früherkennungsprogramm in Abu Dhabi. Um die Ausbreitung von Influenza-Epidemien bereits frühzeitig bekämpfen zu können, setzt das Emirat im Persischen Golf auf Twitter und das von Google entwickelte Analysetool Flu Trends. Damit erhoffen sich die Mediziner am Golf rund 14 Tage früher als bisher valide Daten über ausbrechende Grippe-Epidemien und wirksamere Frühmaßnahmen gegen die Grippe.
Im Blog der Business-Analytics-Spezialisten von Eodata zitiert Katharina Groß eine Liste aus den USA mit spannenden Einzelbeispielen für Big Data: So habe etwa ein Doktorand der New York University große Mengen von Wikileaks-Daten ausgewertet "und so Muster in den Aktivitäten der amerikanischen Truppen in Afghanistan erkennbar gemacht". Bestimmte Annahmen hätten mit seinen Ergebnissen bestätigt werden können, "zum Beispiel, dass die Kämpfe saisonalen Schwankungen unterliegen".
Und die Non-Profit-Organisation Benetech habe im Auftrag von Amnesty International und Human Rights Watch Geheimakten der guatemaltekischen Nationalpolizei ausgewertet. Die Analysen brachten einen Genozid während des Bürgerkriegs zwischen 1960 und 1996 ans Tageslicht, dessen Nachweis bisher nicht gelungen war.
Auch die US-Regierung hat bereits mit Big Data gearbeitet: Während der Verseuchung des Golfs von Mexiko durch das Leck der BP-Ölplattform Deepwater Horizon im Jahr 2010 nutzte die Administration das Statistikprogramm R. Damit konnte die Frequenz ziemlich exakt bestimmt werden, mit der das Öl ausströmte, und die Gegenmaßnahmen ließen sich gezielt auf den Ölfluss abstimmen.