Big-Data-Trends im Überblick

Was ist was bei Predictive Analytics?

31.01.2018 von Jürgen Mauerer
Predictive Analytics ist derzeit einer der wichtigsten Big-Data-Trends. Doch worin unterscheidet sich Predictive Analytics von Business Intelligence oder Business Analytics? Ist Data Mining mit Predictive Analytics identisch? Wir beantworten diese Fragen und klären die Begriffe.
Kommt mit Predictive Policing als eine Form der Predictive Analytics die Vorhersage von Straftaten?

Der Science Fiction-Thriller "Minority Report" zeigt eine Methode, mit der auch die deutsche Polizei künftig auf Verbrecherjagd gehen will: Predictive Policing, die Vorhersage von Straftaten. Software berechnet anhand von Tatmustern der vergangenen Jahre (Ort, Tatzeit, Art und Weise) beispielsweise die Wahrscheinlichkeit, mit der in einer bestimmten Region ein Einbruch geschehen wird. Die Polizei könnte dann Streifenwagen in der als gefährdet eingestuften Gegend konzentrieren.

Predictive Policing ist eine Form von Predictive Analytics. Es geht darum, auf Basis von Datenmodellen Voraussagen darüber zu treffen, wie sich eine Situation in Zukunft entwickeln wird oder kann. Auch Unternehmen wollen komplexe wirtschaftliche Zusammenhänge vorhersagen können, um bessere Entscheidungen zu treffen und sich einen Wettbewerbsvorteil zu verschaffen.

Doch was bedeutet Predictive Analytics konkret? Der Begriff fällt häufig im Kontext von Business Intelligence, Business Analytics und Data Mining. Weitere Schlagwörter wie Descriptive oder Prescriptive Analytics stiften zusätzliche Verwirrung.

Übergeordnet: Business Intelligence und Business Analytics

Predictive Analytics ist eine Teilmenge von Business Intelligence (BI) und Business Analytics (BA). BI und BA werden oft synonym verwendet, obwohl es Unterschiede bei Fragestellung und Methodik gibt. Im Prinzip stellt Business Analytics eine fortschrittlichere Evolutionsstufe von BI dar. Business Intelligence wird aber oft als Oberbegriff für alle Formen der Datenanalyse im Unternehmen verwendet.

Die Begriffe rund um Big Data
Big Data - was ist das eigentlich? Jeder spricht drüber, jeder versteht etwas anderes darunter. Klicken Sie sich durch unser Glossar mit den wichtigsten und meistgenutzten Begriffen (manche sagen auch "Buzzwords") und verstehen Sie, was damit genau gemeint ist. <br /><br /> <em>zusammengestellt von <a href="http://www.kommunikation-in-sendling.com/" target="_blank">Kriemhilde Klippstätter</a>, freie Autorin und Coach (SE) in München</em>
Ad Targeting
Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch "passgenaue" Werbung.
Algorithmus
Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.
Analytics
Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.
Automatic Identification and Capture (AIDC)
Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.
Behavioral Analytics
Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.
Business Intelligence (BI)
Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.
Call Detail Record (CDR) Analyse
Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.
Cassandra
Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).
Clickstream Analytics
Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.
Competitive Monitoring
Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.
Complex Event Processing (CEP)
Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.
Data Aggregation
Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.
Data Analytics
Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.
Data Architecture and Design
Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.
Data Exhaust
Die Daten, die eine Person bei ihrer Internet-Aktivität "nebenbei" erzeugt.
Data Virtualization
Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.
Distributed Object
Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.
De-Identification
Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.
Distributed Processing
Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.
Drill
Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.
Hadoop
Ein freies, in Java geschriebenes Framework der Apache Foundation für skalierbare, verteilt arbeitende Software in einem Cluster. Es basiert auf dem bekannten MapReduce-Algorithmus der Google Inc. sowie auf Vorschlägen des Google-Dateisystems.
HANA
SAPs Software-und Hardware-Plattform mit In-Memory-Computing für Echtzeitanalysen und große Transaktionsvolumen.
In-Database Analytics
In-Database Analytics bezeichnet die Integration der Analysemethoden in die Datenbank. Der Vorteil ist, dass die Daten für die Auswertung nicht bewegt werden müssen.
In-Memory Database
Jedes Datenbanksystem, das den Hauptspeicher für die Datenspeicherung benutzt.
In-Memory Data Grid (IMDG)
Die verteilte Datenspeicherung im Hauptspeicher vieler Server für schnellen Zugriff und bessere Skalierbarkeit.
Machine-generated Data
Alle Daten, die automatisch von einem Rechenprozess, einer Applikation oder einer nicht-menschlichen Quelle erzeugt werden.
Map/reduce
Ein Verfahren, bei dem ein großes Problem in kleinere aufgeteilt und an verschiedene Rechner im Netz oder Cluster oder an ein Grid aus unterschiedlichen Computern an verschiedenen Standorten ("map") zur Bearbeitung verteilt wird. Die Ergebnisse werden dann gesammelt und in einem (reduzierten) Report dargestellt. Google hat sein Verfahren unter der Marke "MapReduce" schützen lassen.
Mashup
Dabei werden unterschiedliche Datensätze innerhalb einer Applikation so kombiniert, dass das Ergebnis verbessert wird.
NoSQL
Datenbanken, die nicht relational aufgebaut sind und mit denen sich große Datenvolumina handhaben lassen. Sie benötigen keine festgelegten Tabellenschemata und skalieren horizontal. Beispielsweise ist Apache Cassandra eine NoSQL.
Operational Data Store (ODS)
Darin werden Daten aus unterschiedlichen Quellen gesammelt damit noch weitere Operationen ausgeführt werden können, bevor die Daten in ein Data Warehouse exportiert werden.
Pattern Recognition
Die Klassifizierung von automatisch erkannten Mustern.
Predictive Analytics
Diese Form der Analytics nutzt statistische Funktionen in einem oder mehreren Datensätzen, um Trends oder zukünftige Ereignisse vorherzusagen.
Recommendation Engine
Per Algorithmus werden die Kundenbestellungen einer Website analysiert und sofort passende Zusatzprodukte ausgesucht und angeboten.
Risk Analysis
Die Anwendung statistischer Methoden auf einen oder mehrere Datensätze, um das Risiko eines Projekts, einer Handlung oder Entscheidung abschätzen zu können.
Sentiment Analysis
Dabei werden Einträge von Leuten in sozialen Netzwerken über ein Produkt oder ein Unternehmen statisch ausgewertet.
Variable Pricing
Dabei folgt der Kaufpreis eines Produkts dem Angebot und der Nachfrage. Das erfordert die Echtzeit-Überwachung von Konsum und Lagerbestand.
Parallel Data Analysis
Ein analytisches Problem wird in Teilaufgaben aufgebrochen und die Algorithmen werden auf jede Problemkomponente zeitgleich und parallel angewendet.
Query Anal
In diesem Prozess wird eine Suchanfrage optimiert, um das bestmögliche Ergebnis zu erhalten.
Reference Data
Daten, die ein physikalisch oder virtuell vorhandenes Objekt und seine Eigenschaften beschreiben.

Mit Business Intelligence (BI) sind Unternehmen in der Lage, Fragen zur aktuellen wirtschaftlichen Situation zu beantworten, indem sie Unternehmensdaten systematisch sammeln, auswerten und darstellen. Kennzahlen und Auswertungen zum Monats- oder Quartalsende unterstützen in Kombination mit Soll-Ist-Vergleichen das Management dabei, bessere operative oder strategische Entscheidungen zu treffen.

BI befasst sich überwiegend mit den Geschehnissen in der Vergangenheit und deren Auswirkungen auf die Gegenwart. Es beantwortet Fragen zum Geschehen (Was ist wann passiert?), zur Menge, Häufigkeit oder den Ursachen eines Ereignisses. Werkzeuge dafür sind beispielsweise Reporting (KPIs, Metriken), automatisiertes Monitoring (Alarm bei Über-/Unterschreiten von Schwellenwerten), Dashboards, Ad-hoc-Anfragen oder OLAP (Online Analytical Processing). OLAP beispielsweise arbeitet deduktiv, stellt also Hypothesen auf und fragt gezielt Informationen ab, um die Vorannahme zu bestätigen oder zu verwerfen.

Predictive Analytics als Teil-Disziplin von Business Analytics

Predictive Analytics bildet eine Teildisziplin von Business Analytics. Sie setzt da an, wo OLAP oder Reporting aufhören.
Foto: vetkit - shutterstock.com

Business Analytics erweitert BI um den Blick in die Zukunft und setzt vor allem auf statistische Analysen von Unternehmensdaten. Business Analytics gibt Antworten auf die Fragen nach den Gründen, Auswirkungen, Wechselwirkungen oder Folgen von Ereignissen. Zudem ist es möglich, Szenarien durchzuspielen und Handlungsalternativen aufzuzeigen: Was geschieht, wenn wir an dieser oder jener Stellschraube drehen?

Um den Planungsprozess im Unternehmen zu verbessern, nutzt Business Analytics diverse Analyse-Tools. Hier die wichtigsten Anwendungen von Business Analytics inklusive Methode:

• A/B-Tests oder multivariates Testen mit mehreren Variablen, um Entscheidungen zu überprüfen.

• Statistische oder quantitative Analyse, um zu erklären, warum ein bestimmtes Ergebnis eingetreten ist.

• Entdeckung von neuen Mustern und Zusammenhängen in Daten (Data Mining). Im Gegensatz etwa zu OLAP ist diese Analysetechnik induktiv, das heißt sie sucht in den Datensätzen ohne eine Vorannahme nach Auffälligkeiten oder Mustern, interpretiert diese und stellt eigene Hypothesen auf.

• Vorhersage künftiger Ergebnisse, sprich Predictive Analytics.

Predictive Analytics bildet damit eine Teildisziplin von Business Analytics. Sie setzt da an, wo OLAP oder Reporting aufhören. Statt nur die bestehende Situation zu analysieren, versucht Predictive Analytics mit Hilfe von Datenmodellen Vorhersagen über mögliche Ereignisse in der Zukunft zu treffen. Dabei besteht eine enge Verbindung mit Data Mining.

Data Mining: Enge Verbindung mit Predictive Analytics

Häufig werden Data Mining und Predictive Analytics sogar synonym gebraucht. In der Tat spielen Methoden und Werkzeuge des Data Mining eine wesentliche Rolle in Predictive-Analytics-Lösungen; Predictive Analytics geht aber noch über Data Mining hinaus und nutzt weitere Methoden wie maschinelles Lernen, Elemente der Spieltheorie oder Simulationsverfahren. Predictive Analytics nutzt zudem Text-Mining, auf Algorithmen basierende Analyseverfahren, um aus nichtstrukturierten Textdaten (Artikel, Blogs, Tweets, Facebook-Inhalte etc.) Strukturen herauszufinden.

Was ist Data Mining? Data Mining (deutsch "Daten schürfen") versucht, mit Hilfe anspruchsvoller statistischer und mathematischer Verfahren beziehungsweise Algorithmen verborgene Muster, Trends und Zusammenhänge in großen Datenmengen zu erkennen. Zu den klassischen Data-Mining-Methoden gehören beispielsweise

• Clustering: Hier geht es darum, Daten zu segmentieren und verschiedene Gruppen zu bilden (etwa Kunden nach Einkommensstufen)

Klassifizierung: Hier sind die Gruppen/Klassen bereits vorgegeben. Daten-Elemente werden automatisch den verschiedenen Klassen zugeordnet (beispielsweise umsatzstarke und umsatzschwache Filialen). Zur Klassifikation gehört auch die Entscheidungsbaumanalyse.

• Regressionsanalyse: Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen werden identifiziert (zum Beispiel: Produktabsatz hängt von Produktpreis und Einkommen der Kunden ab).

• Assoziations-Analyse: Suche nach Mustern, bei denen ein Ereignis mit einem anderen Ereignis verbunden ist; die Abhängigkeiten zwischen den Datensätzen werden über Wenn-dann-Regeln beschrieben (etwa, wenn ein Kunde Cola kauft, kauft er auch Salzstangen).

Data Mining nutzt auch neuronale Netze, die der Arbeitsweise des menschlichen Gehirns ähneln und über viele Datendurchläufe bestehende Strukturen oder Muster lernen. Daher ist Data Mining eng verwandt mit maschinellem Lernen, sprich Anwendungen und Methoden, in denen Computerprogramme selbstständig neues Wissen erwerben. Während aber beim Data Mining der Fokus auf dem Finden neuer Muster liegt, die bereits in den bestehenden Daten vorliegen, geht es beim maschinellen Lernen darum, neue Berechnungsfunktionen aus vorhandenen Daten abzuleiten. Hier werden die Algorithmen so trainiert, dass sie aus den vorliegenden Daten lernen, selbstständig ein Datenmodell erzeugen und dieses für Prognosen oder Entscheidungen einsetzen. Beispiel: Eine Versicherung erzeugt mit Hilfe von historischen Kündigungsdaten ein Modell, das Kunden vorhersagt, die künftig ebenfalls kündigen könnten.

Wie unterscheiden sich Predictive und Prescriptive Analytics?

Gartner definiert vier Analytics-Spielarten
Foto: Gartner

Einen weiteren Orientierungspunkt für die Einordnung von Predictive Analytics bietet das Analytics-Reifegradmodell von Gartner. Gartner unterscheidet hier vier Stufen:

Descriptive Analytics: Was ist passiert? Descriptive Analytics beschäftigt sich mit der Vergangenheit und versucht, Auswirkungen auf die Gegenwart zu verstehen (siehe Business Intelligence).

Diagnostic Analytics: Warum ist etwas passiert? Diagnostic Analytics gibt Antworten auf die Fragen nach den Gründen, Auswirkungen, Wechselwirkungen oder Folgen von Ereignissen. Hier würde der Begriff Business Analytics gut passen (Siehe oben).

Predictive Analytics: Was wird passieren? Predictive Analytics blickt in die Zukunft und liefert auf Basis von Data Mining, maschinellem Lernen und anderen statistischen Methoden Vorhersagen über die Wahrscheinlichkeit von zukünftigen Ereignissen.

Prescriptive Analytics: Wie müssen wir handeln, damit ein zukünftiges Ereignis (nicht) eintritt? Prescriptive Analytics geht noch einen Schritt weiter als Predictive Analytics. Es liefert zusätzlich Handlungsempfehlungen, wie man einen bestimmten Trend in eine gewünschte Richtung beeinflussen, ein vorhergesagtes Ereignis verhindern oder auf ein zukünftiges Ereignis reagieren kann. Basis sind anspruchsvolle analytische Modelle und Monte-Carlo-Simulationen, die mit bekannten und zufälligen Variablen ausgeführt werden, um die nächsten Aktionen zu empfehlen, Wenn/Dann-Szenarien anzuzeigen oder die Bandbreite möglicher Ergebnisse besser verstehen zu können.

Welche Anwendungsszenarien für Predictive Analytics gibt es?

Predictive Analytics wird mittlerweile in vielen Branchen mit großem Erfolg eingesetzt, nicht nur im Sicherheits-Bereich (siehe Predictive Policing). Das intelligente Stromnetz (Smart Grid) der Zukunft beispielsweise stellt Lastprognosen und sagt den Strombedarf voraus, um den Stromverbrauch und die fluktuierende Stromerzeugung (Solar- und Windkraftwerke) in Einklang zu bringen. Banken schätzen beim Kredit-Scoring die Wahrscheinlichkeit oder das Risiko ab, mit der/dem ein Kunde die zukünftigen Ratenzahlungen eines gewährten Kredits nicht leisten könnte.

Ein Beispiel aus der Industrie ist Predictive Maintenance, sprich vorausschauende Wartung. Sensoren übermitteln dabei Daten zum Status etwa einer Anlage wie Leistung, Temperatur, Umdrehungen und Auslastung an eine Cloud-Plattform. Die Lösung analysiert Kenndaten bezüglich Nutzung, Verschleiß und Zustand aus verschiedenen Quellen und erkennt so Fehlermuster und qualitativ minderwertige Komponenten. Der Service kann rechtzeitig reagieren und einen kostspieligen Ausfall der Maschine proaktiv verhindern, indem er beispielsweise ein neues Ersatzteil einbaut oder die Wartungsarbeiten vorzieht. Webshops analysieren das bisherige Kaufverhalten eines Kunden und schlagen ihm weitere Produkte vor.

Es gibt unzählige Beispiele für Predictive Analytics. Grundsätzlich gilt: Predictive Analytics ist ein kontinuierlicher, iterativer Prozess. Da sich die eingesetzten Modelle durch den fortschreitenden Einsatz immer weiter verbessern und anpassen, werden auch die Vorhersagen immer präziser.