Prognosen via Datenanalyse

Darauf ist bei Predictive Analytics zu achten

03.09.2015 von Jürgen Mauerer
Predictive Analytics wirft auf Basis von komplexen Datenanalysen einen Blick in die Zukunft. Doch wie aussagekräftig sind die Prognosen? Bei der Implementierung einer Predictive Analytics-Lösung drohen viele Fallstricke – von der Auswahl der Daten über die Methodik bis hin zur unzureichenden Analyse der Geschäftsprozesse.

Absatzprognosen für ein bestimmtes Produkt in verschiedenen Regionen, dynamische Preisgestaltung oder Vorhersage des Stromverbrauchs - es gibt mittlerweile viele Beispiele für Predictive Analytics. Ziel ist es, auf Basis von Data Mining, maschinellem Lernen und anderen statistischen Methoden Vorhersagen über die Wahrscheinlichkeit von zukünftigen Ereignissen zu treffen.

Das wirft einige Fragen auf: Wie stichhaltig sind diese Prognosen? Worauf müssen Unternehmen bei der Implementierung einer Predictive Analytics-Lösung achten? Welche Vorgehensweise (Strategie, Auswahl der Daten, Methodik) ist zu empfehlen? Wie lassen sich die gewonnenen Erkenntnisse erfolgreich in die Geschäftspraxis übertragen?

Anders als hier dargestellt, ist der Weg zu Predictive Analytics nicht unbedingt geradlinig.
Foto: Ben Chams - Fotolia.com

Mehrwert aufzeigen nach Analyse des Geschäftsmodells

Dirk Böckmann, Vorstand und Partner bei der Avantum Consult AG, einer Tochter des SAP-Dienstleisters All for One Steeb AG, sieht grundsätzlich bei Unternehmen noch Aufklärungsbedarf. "Unsere Kunden beschäftigen sich erst nach und nach mit dem Potenzial ihrer Daten für Predictive Analytics. Wo solche Projekte jedoch bereits durchgeführt wurden, ist die Kundenzufriedenheit fast ausnahmslos am höchsten."

Vor jedem Pilotprojekt steht erst eine ausführliche Analyse der Situation des Kunden. Welche Einflussfaktoren treiben das Geschäftsmodell? Wann sind die Umsätze niedrig, wann hoch? Wann steigt der Gewinn? Welche Ziele hat der Kunde? Um welche externen Informationen müssen die internen Daten angereichert werden, damit Ursache und Wirkung richtig zueinander passen?

"Auf Basis der ausgewählten Daten bauen wir ein Modell, das aufzeigt, welchen Mehrwert unser Kunde mit besser abgesicherten Prognosen für sein Business konkret erzielen kann. So kommen wir zum Business Case", sagt Böckmann. Anhand individueller Kennzahlen werde darin ein konkretes Ziel festgelegt, das der Kunde über Predictive Analytics erreichen will.

„Wir kombinieren verschiedene Modelle und verfeinern die Datenanalyse Schritt für Schritt, um die Vorhersagegenauigkeit zu verbessern.“ Dirk Böckmann, Avantum
Foto: Avantum Consult AG

Ein Beispiel: Avantum unterstützte einen Pharmagroßhändler mit einer Predictive-Lösung bei der Optimierung der Absatzplanung. Kern-Kennzahl war hier die so genannte Fehlmenge, die anzeigt, dass ein Produkt wegen zu hoher Nachfrage ausverkauft ist, beispielsweise Schnupfensprays bei Erkältungswellen. Kann ein Pharmagroßhändler in diesem Fall nicht liefern, bestellen die Apotheken bei der Konkurrenz. Die Fehlmenge hatte hier zu Umsatzeinbußen von bis zu drei Prozent geführt. Ziel war es daher, diese Fehlmenge mit besseren Absatzprognosen zu reduzieren.

Auswahl der Datensätze

Nach der Analyse der Geschäftsprozesse und dem Festlegen der Ziele folgt die Auswahl der Daten, die für die konkrete Analyse relevant sind. "Ausgangspunkt ist immer die konkrete Fragestellung. Sie können nicht die komplette Datenbasis verwenden, erläutert Dr. Michael Milnik, Team Lead Customer Analysis bei der Blue Yonder GmbH, einem Anbieter von Predictive-Analytics-Lösungen. Dabei sei es meist wirtschaftlich sinnvoller, die Daten zuzuschneiden, die später über Algorithmen und Vorhersagemodelle ausgewertet werden.

"Es ist äußerst wichtig, gemeinsam mit Experten die Projekte schrittweise zu erarbeiten und auch die Datenquellen sukzessive zu erweitern." Michael Milnik, Blue Yonder
Foto: Blue Yonder

Im obigen Beispiel bildeten alle internen Daten rund um die Produkt-/Waren-Gruppe Schnupfenspray die Basis für die Analyse. "Stehen bei der Prognose einzelne Kunden oder Kundengruppen im Fokus, sind vor allem die Kundendaten relevant, weniger die Produktdaten. Die Auswahl der Datensätze hängt also immer von der Fragestellung ab, lässt sich aber Schritt für Schritt erweitern", so Milnik weiter. Interne Daten werden meist um externe Informationen wie Wetterdaten oder Ferien- und Feiertags-Termine ergänzt, um aussagekräftige Prognosen zu erhalten.

Voraussetzung: Leistungsstarke Datenbank-Infrastruktur

Grundlegende Voraussetzung für die effiziente Datenanalyse ist ein leistungsfähiges Data Warehouse, beziehungsweise eine geeignete Big Data-Infrastruktur, die auch große Datenmengen schnell auswertet. Blue Yonder setzt beispielsweise das analytische In-Memory Datenbanksystem von Exasol ein. Das System kommt mit verschiedenen Formen von Daten zurecht, vereinheitlicht und verbindet diese. Im Rahmen von Predictive Analytics ist es unerlässlich, Daten aus unterschiedlichsten Quellen zu aggregieren und zu analysieren. Sämtliche Datenquellen (Maschinen, Prozesse, Produkte, Wetterdaten etc.) und Systeme (ERP, CRM, BI etc.) müssen miteinander integriert werden.

Eine weitere Herausforderung ist es, die große Vielfalt von Datentypen und Formaten sowie die Qualität der einzelnen Daten umfassend zu verstehen und daraus entsprechende Einsichten zu gewinnen. Die Daten sollten natürlich alle Kriterien für hohe Qualität erfüllen wie Korrektheit, Konsistenz, Vollständigkeit, Aktualität oder Einheitlichkeit. Insbesondere für Predictive Analytics müssen genügend historische Daten vorhanden sein, damit sich diese mit geeigneten Prognosetechniken aussagekräftig in die Zukunft fortschreiben lassen.

Die Begriffe rund um Big Data
Big Data - was ist das eigentlich? Jeder spricht drüber, jeder versteht etwas anderes darunter. Klicken Sie sich durch unser Glossar mit den wichtigsten und meistgenutzten Begriffen (manche sagen auch "Buzzwords") und verstehen Sie, was damit genau gemeint ist. <br /><br /> <em>zusammengestellt von <a href="http://www.kommunikation-in-sendling.com/" target="_blank">Kriemhilde Klippstätter</a>, freie Autorin und Coach (SE) in München</em>
Ad Targeting
Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch "passgenaue" Werbung.
Algorithmus
Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.
Analytics
Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.
Automatic Identification and Capture (AIDC)
Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.
Behavioral Analytics
Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.
Business Intelligence (BI)
Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.
Call Detail Record (CDR) Analyse
Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.
Cassandra
Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).
Clickstream Analytics
Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.
Competitive Monitoring
Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.
Complex Event Processing (CEP)
Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.
Data Aggregation
Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.
Data Analytics
Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.
Data Architecture and Design
Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.
Data Exhaust
Die Daten, die eine Person bei ihrer Internet-Aktivität "nebenbei" erzeugt.
Data Virtualization
Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.
Distributed Object
Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.
De-Identification
Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.
Distributed Processing
Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.
Drill
Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.
Hadoop
Ein freies, in Java geschriebenes Framework der Apache Foundation für skalierbare, verteilt arbeitende Software in einem Cluster. Es basiert auf dem bekannten MapReduce-Algorithmus der Google Inc. sowie auf Vorschlägen des Google-Dateisystems.
HANA
SAPs Software-und Hardware-Plattform mit In-Memory-Computing für Echtzeitanalysen und große Transaktionsvolumen.
In-Database Analytics
In-Database Analytics bezeichnet die Integration der Analysemethoden in die Datenbank. Der Vorteil ist, dass die Daten für die Auswertung nicht bewegt werden müssen.
In-Memory Database
Jedes Datenbanksystem, das den Hauptspeicher für die Datenspeicherung benutzt.
In-Memory Data Grid (IMDG)
Die verteilte Datenspeicherung im Hauptspeicher vieler Server für schnellen Zugriff und bessere Skalierbarkeit.
Machine-generated Data
Alle Daten, die automatisch von einem Rechenprozess, einer Applikation oder einer nicht-menschlichen Quelle erzeugt werden.
Map/reduce
Ein Verfahren, bei dem ein großes Problem in kleinere aufgeteilt und an verschiedene Rechner im Netz oder Cluster oder an ein Grid aus unterschiedlichen Computern an verschiedenen Standorten ("map") zur Bearbeitung verteilt wird. Die Ergebnisse werden dann gesammelt und in einem (reduzierten) Report dargestellt. Google hat sein Verfahren unter der Marke "MapReduce" schützen lassen.
Mashup
Dabei werden unterschiedliche Datensätze innerhalb einer Applikation so kombiniert, dass das Ergebnis verbessert wird.
NoSQL
Datenbanken, die nicht relational aufgebaut sind und mit denen sich große Datenvolumina handhaben lassen. Sie benötigen keine festgelegten Tabellenschemata und skalieren horizontal. Beispielsweise ist Apache Cassandra eine NoSQL.
Operational Data Store (ODS)
Darin werden Daten aus unterschiedlichen Quellen gesammelt damit noch weitere Operationen ausgeführt werden können, bevor die Daten in ein Data Warehouse exportiert werden.
Pattern Recognition
Die Klassifizierung von automatisch erkannten Mustern.
Predictive Analytics
Diese Form der Analytics nutzt statistische Funktionen in einem oder mehreren Datensätzen, um Trends oder zukünftige Ereignisse vorherzusagen.
Recommendation Engine
Per Algorithmus werden die Kundenbestellungen einer Website analysiert und sofort passende Zusatzprodukte ausgesucht und angeboten.
Risk Analysis
Die Anwendung statistischer Methoden auf einen oder mehrere Datensätze, um das Risiko eines Projekts, einer Handlung oder Entscheidung abschätzen zu können.
Sentiment Analysis
Dabei werden Einträge von Leuten in sozialen Netzwerken über ein Produkt oder ein Unternehmen statisch ausgewertet.
Variable Pricing
Dabei folgt der Kaufpreis eines Produkts dem Angebot und der Nachfrage. Das erfordert die Echtzeit-Überwachung von Konsum und Lagerbestand.
Parallel Data Analysis
Ein analytisches Problem wird in Teilaufgaben aufgebrochen und die Algorithmen werden auf jede Problemkomponente zeitgleich und parallel angewendet.
Query Anal
In diesem Prozess wird eine Suchanfrage optimiert, um das bestmögliche Ergebnis zu erhalten.
Reference Data
Daten, die ein physikalisch oder virtuell vorhandenes Objekt und seine Eigenschaften beschreiben.

Iterativer Prozess mit passendem Methoden-Mix

Es gibt viele unterschiedliche Methoden und Vorhersagemodelle, um aus Daten Prognosen abzuleiten. Sie reichen von klassischen Data-Mining-Methoden wie Clustering oder Regressionsanalyse über Elemente der Spieltheorie bis hin zum maschinellen Lernen. Bei letzterem werden die Algorithmen so trainiert, dass sie aus den vorliegenden Daten lernen, selbstständig ein Datenmodell erzeugen und dieses für Prognosen oder Entscheidungen einsetzen.

"Ziel ist es, den besten Ansatz für den Kunden zu finden. Wir füttern die verschiedenen Vorhersagemodelle mit den ausgewählten Daten, kombinieren verschiedene Modelle und verfeinern die Datenanalyse dadurch Schritt für Schritt, um die Vorhersagegenauigkeit zu verbessern", erläutert Avantum-Manager Böckmann. Blue Yonder setzt eine eigene Methodik ein, die auf maschinellem Lernen mit neuronalen Netzen beruht." "Wir passen unseren Algorithmus aber speziell auf die Situation beim Kunden an und entwickeln ihn kontinuierlich weiter. Es ist unser Ziel, auf der Basis von ähnlichen Fällen ein Standardmodell für bestimmte Branchen zu erstellen", sagt Milnik von Blue Yonder.

Angesichts der Komplexität der Predictive Analytics-Projekte mit vielen Variablen und Einflussfaktoren raten beide Experten den Unternehmen, schrittweise vorzugehen und mit einem kleinen Pilotprojekt zu starten, das in einem laufenden Prozess ständig weiterentwickelt wird. Dazu Milnik: "Es besteht immer das Risiko, dass die Vorhersagemodelle nicht das erwartete Ergebnis bringen. Das kann unterschiedlichste Ursachen haben. Beispielsweise kann es an der Datenqualität mangeln. Daher ist es äußerst wichtig, gemeinsam mit Experten bei unseren Kunden die Projekte schrittweise zu erarbeiten und auch die Datenquellen sukzessive zu erweitern."


5. Integration der neuen analytischen Methoden in die bestehenden Systeme.

4. Pilotprojekt/Prototyp: Auswertung der Daten in entsprechenden Vorhersagemodellen; Modelle und Analyse-Methoden werden ständig verfeinert, kombiniert und evaluiert, um die Qualität der Prognose zu verbessern.

3. Auswahl/Zuschneiden der Datensätze und Kombination mit externen Daten.

2. Business Case festlegen: Definition eines konkreten Ziels mit Kennzahlen (z.B. Umsatz um Summe x steigern, Fehlmenge reduzieren etc.), das mit Hilfe der Prognosen erreicht werden soll.

1. Analyse des Geschäftsmodells, der Geschäftsprozesse und der vorhandenen Daten.

Gute Prognose, schlechte Prognose

Ob sich der ganze Aufwand für das entsprechende Vorhersagemodell gelohnt hat, zeigt ein Vergleich der Prognose mit der Realität. Eine weitere Kenngröße für die Qualität einer Prognose wäre der Vergleich mit bislang im Unternehmen eingesetzten Methoden (zum Beispiel Regressionsanalyse in Verbindung mit dem Bauchgefühl des Managers) oder Konkurrenz-Algorithmen. "Die statistische Auswertung der Prognosen und die korrekte Maßzahl für die Prognosegüte ist ein wichtiger Bestandteil eines Projektes. Zum Beispiel sollten prognostizierte Absatzzahlen nicht über quadratische Abweichungen evaluiert werden, da Abweichungen von +/-10 wirtschaftlich aussagekräftiger sind", erklärt Milnik.

Nah dran: Die Qualität der Absatz-Prognose zeigt sich im Vergleich mit der Realität.
Foto: Blue Yonder

Erweist sich die Prognose als stichhaltig, gilt es, die Ergebnisse so in die Geschäftspraxis zu übertragen, dass sie einen Mehrwert ergeben. Nehmen wir das Beispiel Schnupfenspray: Hier konnte der Pharmagroßhändler dank der besseren Absatzvorhersage seine Lager rechtzeitig auffüllen, die Fehlmenge für Schnupfenspray auf 0,5 Prozent senken und seine Umsätze erhöhen. "Natürlich sagt der gesunde Menschenverstand, dass die Absatzzahlen von Schnupfenspray bei Kälte und schlechtem Wetter steigen. Predictive Analytics lässt aber durch die Kombination historischer Daten mit den Wetterprognosedaten viel granularere Einsichten zu, die letztendlich zu deutlich besseren Geschäftsergebnissen führen", sagt Böckmann.

Fazit

Es gibt nicht die eine richtige Predictive-Analytics-Methode für alle Unternehmen. Welche Methode und welcher Algorithmus am besten funktionieren, hängt vom individuellen Ziel und der Fragestellung ab. Predictive Analytics ist zudem als immerwährender Prozess zu sehen mit dem Test und der Kombination verschiedener Datensätze und Vorhersagemodelle. Da sich die Modelle im Laufe der Zeit immer weiter verbessern, werden auch die Vorhersagen immer präziser. Unternehmen sollten daher mit einem kleineren Projekt starten und die Lösung dann Schritt für Schritt erweitern.