Datenanalyse

Warum PRISM wenig mit Big Data zu tun hat



Christoph Lixenfeld, seit 25 Jahren Journalist und Autor, vorher hat er Publizistik, Romanistik, Politikwissenschaft und Geschichte studiert.

1994 gründete er mit drei Kollegen das Journalistenbüro druckreif in Hamburg, schrieb seitdem für die Süddeutsche Zeitung, den Spiegel, Focus, den Tagesspiegel, das Handelsblatt, die Wirtschaftswoche und viele andere.

Außerdem macht er Hörfunk, vor allem für DeutschlandRadio, und produziert TV-Beiträge, zum Beispiel für die ARD-Magazine Panorama und PlusMinus.

Inhaltlich geht es in seiner Arbeit häufig um die Themen Wirtschaft und IT, aber nicht nur. So beschäftigt er sich seit mehr als 15 Jahren auch mit unseren Sozialsystemen. 2008 erschien im Econ-Verlag sein Buch "Niemand muss ins Heim".

Christoph Lixenfeld schreibt aber nicht nur, sondern er setzt auch journalistische Produkte ganzheitlich um. Im Rahmen einer Kooperation zwischen Süddeutscher Zeitung und Computerwoche produzierte er so komplette Zeitungsbeilagen zu den Themen Internet und Web Economy inklusive Konzept, Themenplan, Autorenbriefing und Redaktion.
Vieles von dem, was Geheimdienste über uns sammeln, lässt sich mit Big-Data-Methoden gar nicht auswerten. Oder jedenfalls nicht mit sinnvollen Ergebnissen.
In unseren Kopf zu blicken, ist schwieriger, als viele in diesen Tagen glauben.
In unseren Kopf zu blicken, ist schwieriger, als viele in diesen Tagen glauben.
Foto: Jürgen Fälchle, Fotolia.de

Es is einiges zusammengerührt worden, seit PRISM, Tempora, und weitere Überwachungsprogramme ans Licht kamen. Die Begriffe Big Data und Cloud ComputingCloud Computing werden im selben Satz genannt, der Eindruck geschürt, die Spione verfügten über eine Wundermaschine. Die nimmt erst wie ein Staubsauger jedwede Art von Datenmaterial in sich auf und präsentiert anschließend - im Stile einer riesigen Sortieranlage - sinnvoll verwendbare, sauber separierte Ergebnisse. Vollautomatisch und valide. Mit der Realität hat das wenig zu tun. Alles zu Cloud Computing auf CIO.de

Big Data ist seit kurzem in aller Munde, weil die notwendige Hardware bezahlbar geworden ist. Privatunternehmen können sich heute Rechenungetüme in den eigenen Keller stellen, die sich vor fünf Jahren nur Verteidigungsministerien oder amerikanische Eliteuniversitäten leisten konnten. Der Big-Data-Rechner des dänischen Windkraftanlagen-Herstellers Vestas, über den noch zu sprechen sein wird, kann 161 Billionen Berechnungen durchführen. Pro Sekunde. Die 24 Tonnen schwere Maschine ist schnell, aber sie ist nicht allwissend. Und auch sie gehorcht einem wichtigen Grundsatz jeder Datenverarbeitung: Bullshit in, Bullshit out. Will sagen, sie kann nur sinnvolle Ergebnisse liefern, wenn sie mit wirklich auswertbaren Daten gefüttert wird.

Twitter soll Vorhersagen stützen

Wie geradezu grotesk schief es gehen kann, wenn man schlecht strukturierte Daten einer strukturellen Analyse unterzieht, berichtete Harvard-Professor Gary King unlängst auf dem "Text and Social Analytics Summit 2013" in Cambridge. In dem von King, Direktor des Instituts für Quantitative Sozialwissenschaften in Harvard, zitierten Fall hatten US-Wissenschaftler versucht, mit Hilfe von Twitter die amerikanische Arbeitslosenrate vorherzusagen. Die Forscher definierten eine Reihe von Schlüsselbegriffen wie 'jobs', 'unemployment' oder 'classified'. Sie zählten Tweets und Posts aus anderen sozialen MedienMedien, in denen diese Begriffe vorkamen. Dann suchten sie Korrelationen zwischen der Häufigkeit der Verwendung dieser Keywords in Tweets pro Monat und der Entwicklung der Arbeitslosenrate. Gary King betonte, diese Methode sei absolut üblich. Top-Firmen der Branche Medien

Das Projekt schritt voran, Geld für seinen Weiterbetrieb wurde gesammelt. Bis plötzlich die Anzahl der Tweets, die die definierten Keywords enthielten, dramatisch anstieg. Wie würde sich die Arbeitlosenrate in den nächsten Wochen entwickeln? Die Forscher wähnten sich auf dem richtigen Weg, noch mehr Dollars flossen in das Projekt.

Zur Startseite