Big-Data-Trends im Überblick
Was ist was bei Predictive Analytics?
Data Mining: Enge Verbindung mit Predictive Analytics
Häufig werden Data Mining und Predictive Analytics sogar synonym gebraucht. In der Tat spielen Methoden und Werkzeuge des Data Mining eine wesentliche Rolle in Predictive-Analytics-Lösungen; Predictive Analytics geht aber noch über Data Mining hinaus und nutzt weitere Methoden wie maschinelles Lernen, Elemente der Spieltheorie oder Simulationsverfahren. Predictive Analytics nutzt zudem Text-Mining, auf Algorithmen basierende Analyseverfahren, um aus nichtstrukturierten Textdaten (Artikel, Blogs, Tweets, Facebook-Inhalte etc.) Strukturen herauszufinden.
Was ist Data Mining? Data Mining (deutsch "Daten schürfen") versucht, mit Hilfe anspruchsvoller statistischer und mathematischer Verfahren beziehungsweise Algorithmen verborgene Muster, Trends und Zusammenhänge in großen Datenmengen zu erkennen. Zu den klassischen Data-Mining-Methoden gehören beispielsweise
• Clustering: Hier geht es darum, Daten zu segmentieren und verschiedene Gruppen zu bilden (etwa Kunden nach Einkommensstufen)
• Klassifizierung: Hier sind die Gruppen/Klassen bereits vorgegeben. Daten-Elemente werden automatisch den verschiedenen Klassen zugeordnet (beispielsweise umsatzstarke und umsatzschwache Filialen). Zur Klassifikation gehört auch die Entscheidungsbaumanalyse.
• Regressionsanalyse: Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen werden identifiziert (zum Beispiel: Produktabsatz hängt von Produktpreis und Einkommen der Kunden ab).
• Assoziations-Analyse: Suche nach Mustern, bei denen ein Ereignis mit einem anderen Ereignis verbunden ist; die Abhängigkeiten zwischen den Datensätzen werden über Wenn-dann-Regeln beschrieben (etwa, wenn ein Kunde Cola kauft, kauft er auch Salzstangen).
Data Mining nutzt auch neuronale Netze, die der Arbeitsweise des menschlichen Gehirns ähneln und über viele Datendurchläufe bestehende Strukturen oder Muster lernen. Daher ist Data Mining eng verwandt mit maschinellem Lernen, sprich Anwendungen und Methoden, in denen Computerprogramme selbstständig neues Wissen erwerben. Während aber beim Data Mining der Fokus auf dem Finden neuer Muster liegt, die bereits in den bestehenden Daten vorliegen, geht es beim maschinellen Lernen darum, neue Berechnungsfunktionen aus vorhandenen Daten abzuleiten. Hier werden die Algorithmen so trainiert, dass sie aus den vorliegenden Daten lernen, selbstständig ein Datenmodell erzeugen und dieses für Prognosen oder Entscheidungen einsetzen. Beispiel: Eine Versicherung erzeugt mit Hilfe von historischen Kündigungsdaten ein Modell, das Kunden vorhersagt, die künftig ebenfalls kündigen könnten.