Viele Unternehmen sammeln Datenberge, ohne große Vorteile daraus zu ziehen. Sinnvoller wäre, Naheliegendes und seit Jahren Vorhandenes gezielter auszuwerten.
Dass diese ganze Big-Data-Geschichte noch nicht so reibungslos läuft, wie es die Theorie und die gut an dem Hype verdienenden Anbieter versprechen, wurde Anfang Februar mal wieder durch eine ebenso schlichte wie intelligente Frage deutlich.
Gestellt wurde sie von Helmut Krcmar auf den Hamburger IT-Strategietagen. Der Professor für Wirtschaftsinformatik an der TU München moderiert die Veranstaltung gemeinsam mit CIO-Chefredakteur Horst Ellermann. Die Frage lautete: "Warum wird mir im Internet noch wochenlang nach dem Kauf eines Rollkoffers Rollkofferwerbung angezeigt?"
Vermutlich hatten sich fast alle Zuhörer im Saal diese Frage schon mal gestellt. Entsprechend gespannt waren sie auf die Antwort.
Die dann wenig befriedigend ausfiel: "Die Technologien werden immer besser, aber wir sind hier noch in den Anfängen", sagte Daniel Keller, Ex-CIO des Axel Springer-Verlags.
Vieles ist auch ohne Big Data möglich
Big Data Glossar
Die Begriffe rund um Big Data Big Data - was ist das eigentlich? Jeder spricht drüber, jeder versteht etwas anderes darunter. Klicken Sie sich durch unser Glossar mit den wichtigsten und meistgenutzten Begriffen (manche sagen auch "Buzzwords") und verstehen Sie, was damit genau gemeint ist. <br /><br /> <em>zusammengestellt von <a href="http://www.kommunikation-in-sendling.com/" target="_blank">Kriemhilde Klippstätter</a>, freie Autorin und Coach (SE) in München</em>
Ad Targeting Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch "passgenaue" Werbung.
Algorithmus Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.
Analytics Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.
Automatic Identification and Capture (AIDC) Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.
Behavioral Analytics Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.
Business Intelligence (BI) Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.
Call Detail Record (CDR) Analyse Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.
Cassandra Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).
Clickstream Analytics Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.
Competitive Monitoring Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.
Complex Event Processing (CEP) Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.
Data Aggregation Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.
Data Analytics Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.
Data Architecture and Design Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.
Data Exhaust Die Daten, die eine Person bei ihrer Internet-Aktivität "nebenbei" erzeugt.
Data Virtualization Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.
Distributed Object Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.
De-Identification Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.
Distributed Processing Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.
Drill Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.
Hadoop Ein freies, in Java geschriebenes Framework der Apache Foundation für skalierbare, verteilt arbeitende Software in einem Cluster. Es basiert auf dem bekannten MapReduce-Algorithmus der Google Inc. sowie auf Vorschlägen des Google-Dateisystems.
HANA SAPs Software-und Hardware-Plattform mit In-Memory-Computing für Echtzeitanalysen und große Transaktionsvolumen.
In-Database Analytics In-Database Analytics bezeichnet die Integration der Analysemethoden in die Datenbank. Der Vorteil ist, dass die Daten für die Auswertung nicht bewegt werden müssen.
In-Memory Database Jedes Datenbanksystem, das den Hauptspeicher für die Datenspeicherung benutzt.
In-Memory Data Grid (IMDG) Die verteilte Datenspeicherung im Hauptspeicher vieler Server für schnellen Zugriff und bessere Skalierbarkeit.
Machine-generated Data Alle Daten, die automatisch von einem Rechenprozess, einer Applikation oder einer nicht-menschlichen Quelle erzeugt werden.
Map/reduce Ein Verfahren, bei dem ein großes Problem in kleinere aufgeteilt und an verschiedene Rechner im Netz oder Cluster oder an ein Grid aus unterschiedlichen Computern an verschiedenen Standorten ("map") zur Bearbeitung verteilt wird. Die Ergebnisse werden dann gesammelt und in einem (reduzierten) Report dargestellt. Google hat sein Verfahren unter der Marke "MapReduce" schützen lassen.
Mashup Dabei werden unterschiedliche Datensätze innerhalb einer Applikation so kombiniert, dass das Ergebnis verbessert wird.
NoSQL Datenbanken, die nicht relational aufgebaut sind und mit denen sich große Datenvolumina handhaben lassen. Sie benötigen keine festgelegten Tabellenschemata und skalieren horizontal. Beispielsweise ist Apache Cassandra eine NoSQL.
Operational Data Store (ODS) Darin werden Daten aus unterschiedlichen Quellen gesammelt damit noch weitere Operationen ausgeführt werden können, bevor die Daten in ein Data Warehouse exportiert werden.
Pattern Recognition Die Klassifizierung von automatisch erkannten Mustern.
Predictive Analytics Diese Form der Analytics nutzt statistische Funktionen in einem oder mehreren Datensätzen, um Trends oder zukünftige Ereignisse vorherzusagen.
Recommendation Engine Per Algorithmus werden die Kundenbestellungen einer Website analysiert und sofort passende Zusatzprodukte ausgesucht und angeboten.
Risk Analysis Die Anwendung statistischer Methoden auf einen oder mehrere Datensätze, um das Risiko eines Projekts, einer Handlung oder Entscheidung abschätzen zu können.
Sentiment Analysis Dabei werden Einträge von Leuten in sozialen Netzwerken über ein Produkt oder ein Unternehmen statisch ausgewertet.
Variable Pricing Dabei folgt der Kaufpreis eines Produkts dem Angebot und der Nachfrage. Das erfordert die Echtzeit-Überwachung von Konsum und Lagerbestand.
Parallel Data Analysis Ein analytisches Problem wird in Teilaufgaben aufgebrochen und die Algorithmen werden auf jede Problemkomponente zeitgleich und parallel angewendet.
Query Anal In diesem Prozess wird eine Suchanfrage optimiert, um das bestmögliche Ergebnis zu erhalten.
Reference Data Daten, die ein physikalisch oder virtuell vorhandenes Objekt und seine Eigenschaften beschreiben.
Targeting, das Aufzeichnen, Speichern und Sortieren jener Spuren, die Millionen von Kunden und potentiellen Kunden bei ihrer Reise durch das Internet hinterlassen, ist eine klassische Big Data-Anwendung. Wobei das Prinzip an sich älter ist als der Begriff.
"Noch in den Anfängen zu sein" bedeutet deshalb weniger, dass die Macher erst in der vergangenen Woche angefangen haben. Sondern es heißt, dass auch nach jahrelangen Bemühungen datengetriebene Businessmodelle nicht so einfach funktionieren wie ein Zigarettenautomat, in den wir oben passendes Geld einwerfen und unten kommt genau das gewünschte Ergebnis - sprich die richtige Packung - heraus.
Die Sache mit dem Rollkoffer liegt vermutlich an der unter Maschinen weit verbreiteten "Algorithmusschwäche", also aus der Unfähigkeit, aus vielen gesammelten Informationen die richtigen Schlüsse zu ziehen.
Davon abgesehen sind es vor allem zwei Gründe, die dazu führen, dass Unternehmen nicht oder nicht genug von Big Data profitieren. Der erste: Sie kommen mit Hilfe von Datenanalyse zu Ergebnissen, die sie auch mit nicht ganz so big Data hätten haben können.
Vieles nicht in der Praxis umsetzbar
Die Harvard Business Review berichtet in diesem Zusammenhang von einem Finanzdienstleister, der mit Hilfe großer Datenmengen Modelle entwickelt hatte, mit denen sich der beste Platz für das Aufstellen von Geldautomaten ermitteln lässt. Nachdem sie damit fertig waren, stellten die Verantwortlichen durch einen Hinweis fest, dass es solche Modelle bereits seit Jahren gibt…
Der zweite: Big Data produziert Ergebnisse und Ideen, die sich aus was für Gründen auch immer in der Praxis nicht umsetzen lassen. So hatte ein großer US-Einzelhändler bei einem Modellversuch festgestellt, dass die Verkäufe ansteigen, wenn man ein Sonderangebotsprodukt schon eine Weile vor seiner Verbilligung in die Regale räumt und auch noch dort lässt, wenn der Angebotspreis nicht mehr gilt.
Um diesen Grundsatz aber in sämtlichen Filialen zu verwirklichen, hätte das Unternehmen seine gesamte Lieferkette umkrempeln müssen. Das wollte beziehungsweise konnte man nicht. Also war am Ende die Datenanalyse an dieser Stelle nutzlos.
Big Data Analytics im Fußball
Scouting mit Scout7 Bei der Talentsuche überlassen Fußballvereine nichts mehr dem Zufall: Spezialisierte Datenanalysewerkzeuge wie Scout7 erfassen und bewerten jeden Monat rund 3000 Spiele.
Spielerprofil Zu jedem Spieler gibt es im System eine Profilseite mit umfangreichen Statistiken.
Videoclips Entscheidende Spielzüge können per Videoclip aufgerufen werden.
Leistungsdaten Die Bewegung jedes Spielers wird bei jeder Partie exakt erfasst.
Vereinsmanagement SAP bietet eine umfassende Management-Lösung für Sportvereine, basierend auf seiner Hana-Plattform.
Trainingseinheiten im Film Beim Training und bei Spielen werden mit Kameras Daten auf Basis von hochaufgelösten Videos erfasst.
Rundum-Lösung Das Sportgeschäft ist heute eine komplexe Beziehung zwischen Fan, Club und Spielern. Durch Echtzeitanalyse von Daten können die Vereine fundierte Entscheidungen in vielen Bereichen treffen.
Auch in der NBA Auch in anderen kommerziellen Sportarten wie in der amerikanischen NBA (Basketball) und NHL (Eishockey) kommen die Big-Data-Systeme der SAP schon zum Einsatz.
Es geht nicht darum, möglichst aufwändig und umfangreich Daten auszuwerten und sich anschließend zu überlegen, was man damit machen will. Sondern darum, vorhandenes Wissen statt Bauchgefühl zur Grundlage von Entscheidungen zu machen.
Für Wäsche, Süßkartoffeln und Erdnüsse
"Big" muss dieses Wissen, müssen die Daten dabei nicht unbedingt sein. Im Gegenteil. David Meer, Partner bei strategy& (ehemals Booz & Company), findet dass "auch Little Data wichtig ist."
Und er nennt ein verblüffendes Beispiel: Der chinesische Haushaltsgeräte-Hersteller Haier nutzt den Input seiner Servicetechniker zur Innovation. Die hatten berichtet, dass einige Kunden in ländlichen Gegenden Gemüse in den Haier-Waschmaschinen wuschen, wodurch das Sieb sehr schnell verstopfte.
Anstatt davor zu warnen, entwickelte Haier eine neue Maschine, die mit dem Gemüse klarkam, und schrieb auf das Typenschild: "Geeignet für das Waschen von Wäsche, Süßkartoffeln und Erdnüssen."
Little und Big Data kombinieren
Little Data eben. Oder eine intelligente Kombination aus Little und Big Data, wie sie sich ein großer US-Getränkehersteller zunutze machte. Um den Umsatz in Bars und Restaurants zu erhöhen, teilte er diese Kunden mit Hilfe eines datengestützten Algorithmus in unterschiedliche Kategorien ein. Anschließend fragten sie zu den einzelnen Kategorien gezielte, klassifizierte Informationen bei ihren Außendienstlern ab.
Beides zusammen ergab ein recht genaues Bild davon, wo es sich in Zukunft am meisten lohnte, mit Hilfe von Promotion-Maßnahmen den Umsatz zu pushen. Und dieses Ziel erreichte das Unternehmen am Ende auch.
Big Data ist vor allem Big Business
Was auch niemand, der sich mit dem Thema beschäftigt, vergessen sollte: Big Data bedeutet vor allem Big Business. Anbieter haben einen Produktnamen erfunden, der sich nach Big Deal, Big Bang, Big Brother, auf jeden Fall nach was Großem, Mächtigen und noch nie Dagewesenen anhört.
Accenture über Big Data
Ein Faktor von Wichtigkeit Für 60 Prozent der Firmen ist Big Data mittlerweile "extrem wichtig". Das gilt umso stärker, je größer das betroffene Unternehmen.
Die Quellen von Big Data Die meisten Anwender zählen insbesondere große Data Files mit 20 Terabytes und mehr zu Big Data. Social Media-Daten spielen vergleichsweise eine untergeordnete Rolle.
Die Herausforderung Big Data Neben der Suche nach Fachleuten sowohl für die Implementierung als auch für den Betrieb bereiten den Firmen vor allem Security- und Budgetfragen Sorgen. Ein Viertel sagt, dass ihr Haus schlicht noch nicht bereit für Big Data sei.
Die Revolution Big Data Die Hälfte der Befragten ist stark davon überzeugt, dass Big Data eine ebenso umwälzende Wirkung zeitigen wird wie einst das Internet.
Der Kampf um die Talente Im Ringen um Big Data-Skills sind es wiederum vor allem große Firmen, die schnell und viel in den Ausbau ihrer personellen Ressourcen investieren wollen.
Gerade das zuletzt genannte Attribut stimmt nicht: Fast alles, was heute unter Big Data verkauft wird, ist viel älter als der Name. Ein gutes Beispiel bietet das Duisburger Unternehmen Union Technik, ein Full Service- Anbieter für technisches Gebäudemanagement mit dem Schwerpunkt auf Tankstellen.
Um Geld zu sparen und mehr Kunden bedienen zu können, stattete Union Technik alle Fahrzeuge mit GPS-Empfängern aus. Seitdem wusste die Zentrale bis auf 30 Meter genau, wo sich ein bestimmter Mitarbeiter (beziehungsweise sein Auto) gerade befand. Dadurch konnte sie immer denjenigen zu einem Kunden schicken, der den kürzesten Anfahrtsweg hatte. Ein enormer Effizienzgewinn.
Der nächste Schritt bestand darin, die Außendienstler vor jedem Auftrag mit möglichst detaillierten Informationen über das zu versorgen, was repariert werden soll. Es entstand eine internetbasierte Datenbank, in der alle Gerätebestandsdaten und ihre Attribute verzeichnet sind. Dadurch wusste der Mitarbeiter am Telefon bei jeder gemeldeten Störung sofort, um welches Gerät es sich handelt und was vermutlich kaputt ist.
Das Verfahren ermöglichte eine erheblich genauere Planung der Ersatzteilversorgung, die Lagerhaltungskosten sanken deutlich.
Und nicht nur die Planung, auch die Organisation der Service-Einsätze automatisierte man vollständig. Alle Informationen über einen Auftrag wie Adresse des Kunden oder die Art der Störung wurden vom System an den "Mobilen Techniker" gesandt.
Big Data schon vor 13 Jahren
Mit Hilfe dieser Mischung aus PDA und Tablet-PC organisierte jeder Mitarbeiter seine Arbeit. In jedem der mobilen Computer waren die wichtigsten Gerätedaten hinterlegt. Zusätzlich konnten sich die Mitarbeiter von Unterwegs auch direkt in die zentrale Datenbank einloggen.
Ein ziemlich schlaue Big Data-Anwendung, finden Sie? Stimmt. Deshalb gewann das Unternehmen damit auch den Deutschen Internetpreis. Und zwar im Jahre 2002. Zu einer Zeit also, als der Name Big Data noch nicht mal in der US-Öffentlichkeit verwendet wurde - von Deutschland gar nicht zu reden.
Und heute? Heute sind die Big Data-Macher natürlich viel weiter. Sie sind nicht nur in der Lage, jedem Rollkofferkäufer im Internet wochenlang weitere Rollkoffer anzubieten. Nein, sie können inzwischen auch demjenigen, der gerade einen Flug von Hamburg nach Düsseldorf und zurück gebucht hat, sofort ein passendes Hotel in Hamburg zu offerieren. Obwohl er durch seine Adressangabe gerade mitgeteilt hat, dass er dort wohnt.