Daten werden für Unternehmen immer wertvoller. Für "data driven" reicht es allerdings nicht, einfach nur Informationsberge anzuhäufen. Um Mehrwert aus Daten zu generieren, gilt es, Korrelationen, Muster und Trends aus den Informationsströmen herauszufiltern. An dieser Stelle kommt Data Mining ins Spiel.
Data Mining - Definition
Data Mining - manchmal auch "Knowledge Discovery" genannt - bezeichnet den Prozess, große Datenmengen auf Korrelationen, Muster und Trends zu untersuchen. Data Mining ist ein Teilbereich der Datenwissenschaft, neudeutsch Data Science, die statistische und mathematische Methoden mit Machine Learning und Datenbanksystemen kombiniert.
Die Special Interest Group on Knowledge Discovery and Data Mining (SigKDD) der Association for Computing Machinery definiert Data Mining als "die Wissenschaft der Extraktion nützlichen Wissens mit Hilfe von Computertechnologien aus umfassenden, digitalen Datenbeständen". Das Konzept des Data Mining entstand in den 1980er und 1990er Jahren - mit dem Aufkommen von Datenbankmanagement und ML-Techniken zur Ergänzung manueller Prozesse.
Die Begriffe Data Analytics und Data Mining werden oft durcheinandergebracht. Die Datenanalyse kann allerdings als Unterkategorie von Data Mining verstanden werden. Wie Datenvisualiserungsspezialist Tableau weiß, konzentriert sich Data Mining darauf:
Rohdaten zu bereinigen,
Muster auszumachen,
Modelle zu erstellen und
diese anschließend zu testen.
Die Datenanalyse hingegen ist der Teil des Data Mining, der sich darauf konzentriert, Erkenntnisse aus den Daten zu gewinnen. Ihr Ziel ist es, statistische Analysen und Technologien auf Daten anzuwenden, um Trends zu erkennen und Probleme zu lösen.
Data Mining - Beispiele
Unternehmen aus einer Vielzahl von Branchen setzen Data Mining ein, um Einblicke in ihre Daten zu gewinnen und auf dieser Grundlage bessere Geschäftsentscheidungen zu treffen. Drei konkrete Beispiele für Data-Mining-Anwendungsfälle sind etwa:
Die Hilfsorganisation Catholic Relief Services hat mit Measurement Indicators for Resilience Analysis (MIRA) ein Protokoll zur hochfrequenten Datenerfassung entwickelt, das Informationen über wetterbedingte "Schocks" in ländlichen Gemeinden im Südosten Afrikas sammelt. Machine-Learning-Algorithmen ermitteln, welche Haushalte aufgrund der Schocks von Nahrungsmittelknappheit bedroht sind.
Die Bank of America hat das KI-System "Predictive Intelligence Analytics Machine" entwickelt, um Geschäftsabschlüsse vorherzusagen. Das System nutzt ein Netzwerk von (supervised) Machine-Learning-Algorithmen, um Beziehungen zwischen Equity Capital Markets, Bankern und Investoren zu verstehen.
Der US-Finanzdienstleister Ellie Mae nutzt Data Mining, um Anzeichen für bevorstehende Ransomware-Angriffe zu identifizieren. Die Daten werden mit Bedrohungsinformationen, Predictive Analytics und KI kombiniert, um das Projekt "Autonomous Threat Hunting for Advanced Persistent Threats" zu unterstützen.
Darüber hinaus gibt es zahlreiche weitere Use Cases für Data Mining. Die Technologie kann zum Beispiel:
Medien- und Telekommunikationsunternehmen dabei helfen, das Verhalten ihrer Kunden besser zu verstehen.
Versicherungsunternehmen dabei unterstützen, ihre Preise effektiver zu gestalten und neue Produkte zu entwickeln.
Pädagogen in die Lage versetzen, Muster in den Leistungen von Schülern zu erkennen und Problembereiche zu identifizieren, die besondere Aufmerksamkeit erfordern.
Einzelhändlern dabei helfen, gezielte Kampagnen zu entwickeln, die zu den Bedürfnissen der Kunden passen.
Data Mining - Methoden
Beim Data Mining kommt eine Reihe von Methoden zum Einsatz. Laut dem Datenintegrations-Spezialisten Talend gehören folgende zu den gängigsten:
Bevor Daten analysiert und verarbeitet werden können, müssen im Rahmen der Datenbereinigung und -aufbereitung Fehler identifiziert und entfernt, sowie fehlende Daten ermittelt werden.
Data Mining nutzt für Aufgaben im Zusammenhang mit Planung, Lernen, Schlussfolgerungen und Problemlösung häufig Künstliche Intelligenz.
Warenkorbanalyse-Tools suchen nach Beziehungen zwischen Variablen in einem Datensatz. Einzelhändler könnten so festzustellen, welche Produkte typischerweise zusammen gekauft werden.
Um einen Datensatz in sinnvolle Klassen zu unterteilen und die Struktur der Daten zu verstehen, kommt Clustering zum Einsatz.
Im Rahmen der Datenklassifizierung werden Objekte innerhalb des Datensets mit Zielkategorien oder -klassen verknüpft. Das Ziel ist dabei, diese möglichst exakt vorherzusagen.
Data Analytics gewinnt Erkenntnisse aus Daten.
Data Warehousing ist die Grundlage für die meisten Data-Mining-Verfahren. Ein Data Warehouse ist eine Sammlung von Geschäftsdaten.
Mit Hilfe von Machine Learning wird die Suche nach Mustern in den Daten automatisiert.
Die Regressionsanalyse wird auf einen bestimmten Datensatz angewendet, um bestimmte Variablen (etwa Verkaufszahlen, Temperatur oder Aktienkurse) vorherzusagen.
Data Mining - Prozess
Das sechsstufige Prozessmodell "Cross Industry Standard Process for Data Mining" (CRISP-DM) wurde im Jahr 1999 veröffentlicht. Das Ziel: Data-Mining-Prozesse branchenübergreifend zu standardisieren. Die sechs Phasen des CRISP-DM sind:
Geschäftliches Verständnis: In dieser Phase geht es darum, Ziele, Anforderungen und Umfang des Projekts zu verstehen. Sie gliedert sich in vier verschiedene Aufgaben: die Geschäftsziele zu bestimmen, indem die Motivation der Stakeholder verstanden wird; die Situation bewerten, um die Verfügbarkeit von Ressourcen, den Projektbedarf, die Risiken und Eventualitäten zu bestimmen; Erfolg aus technischer Sicht definieren; detaillierte Pläne hinsichtlich Technologien und Tools erarbeiten;
Datenverständnis: In der nächsten Phase geht es darum, die zur Erreichung der Projektziele erforderlichen Datensätze zu ermitteln, zu sammeln und zu analysieren. Auch diese Phase umfasst vier Tasks: die Ausgangsdaten zu sammeln; die Daten zu beschreiben; die Daten zu untersuchen; und die Datenqualität zu überprüfen;
Datenvorbereitung: Die dritte und häufig längste Phase eines Projekts besteht aus fünf Aufgaben: Datensätze auswählen und Gründe für In- bzw. Exklusion dokumentieren; Daten bereinigen; Ableitung neuer Attribute aus vorhandenen Daten, um neue Daten zu konstruieren; Daten aus verschiedenen Quellen integrieren und formatieren;
Modellierung: Die Erstellung von Datenmodellen umfasst vier Aufgaben: Modellierungstechniken auswählen; Testdesigns erstellen; Modelle erstellen; Modelle bewerten;
Evaluierung: Während die Modellierungsphase die technische Modellbewertung umfasst, geht es in dieser Phase darum, zu bestimmen, welches Modell den Geschäftsanforderungen am besten entspricht. Sie umfasst drei Aufgaben: Ergebnisse bewerten; Prozess überprüfen; nächste Schritte festlegen;
Deployment: In der letzten Phase geht es darum, das Modell in der Praxis umzusetzen. Hier sind vier Aufgaben vorgesehen: Einsatzplan für das Modell entwickeln und dokumentieren; Überwachungs- und Wartungsplan erstellen; Abschlussbericht erstellen und Projekt abschließend prüfen;
Mit Analytics Solutions Unified Method for Data Mining (ASUM-DM) hat IBM im Jahr 2015 eine Erweiterung veröffentlicht, die auf CRISP-DM aufbaut. Das Modell von Big Blue ergänzt die Deployment-Phase um die Bereiche Collaboration, Versionskontrolle, Security und Compliance.
Data Mining - Tools
Um ihre Data-Mining-Bemühungen zu unterstützen, stehen Unternehmen zahlreiche Software Tools zur Verfügung. Zu den beliebtesten Tools im Bereich Data Mining zählen unter anderem:
H2O: Diese Open-Source-Plattform für maschinelles Lernen kann über eine API integriert werden und nutzt verteiltes In-Memory-Computing für die Analyse großer Datensätze.
IBM SPSS Modeler: Die visuelle Lösung für Data Science und maschinelles Lernen kann für die Datenvorbereitung und -erkennung, prädiktive Analysen, Modellmanagement und Deployment zum Einsatz kommen.
Knime: Die Open-Source-Plattform ist auf Datenanalyse, Reporting und Integration ausgerichtet.
Oracle Data Mining (ODM): ODM ist Teil der Oracle Database Enterprise Edition und bietet Data-Mining- und Datenanalyse-Algorithmen für Klassifizierung, Vorhersage, Regression, Assoziationen, Merkmalsauswahl, Erkennung von Anomalien, Merkmalsextraktion und spezielle Analysen.
Orange Data Mining: Orange ist ein Open-Source-Toolkit für Datenvisualisierung, maschinelles Lernen und Data Mining.
R: Diese Open-Source-Programmiersprache und freie Softwareumgebung wird häufig von Data Minern verwendet. R wurde von Revolution Analytics gegründet und bietet auch kommerzielle Unterstützung und Erweiterungen. Im Jahr 2015 hat Microsoft Revolution Analytics gekauft und R in seine SQL-Server-Angebote Power BI, Azure SQL Managed Instance, Azure Cortana Intelligence, Microsoft ML Server und Visual Studio 2017 integriert. Auch Oracle, IBM und Tibco unterstützen R.
RapidMiner: Die für Teams konzipierte Data-Science-Plattform unterstützt Datenvorbereitung, maschinelles Lernen und die Bereitstellung von Vorhersagemodellen.
SAS Enterprise Miner: Dieses Tool fokussiert darauf, Vorhersage- und Beschreibungsmodelle für große Datenmengen auf Grundlage verschiedener Datenquellen im Unternehmen zu erstellen.
Sisense BI: Der Business-Intelligence-Stack des Unternehmens deckt von der Datenbank über ETL und Analytics bis hin zur Visualisierung alles ab, was Firmen in Sachen Data Mining brauchen.
Data Mining - Jobs
Data Mining gehört im Regelfall zum Arbeitsalltag von Datenwissenschaftlern und Datenanalysten. Im Folgenden haben wir einige Jobprofile (und ihre durchschnittlichen Gehaltsspannen laut dem Karriereportal Stepstone) zusammengestellt, die mit Data Mining in Zusammenhang stehen können:
Business-Intelligence-Spezialist (46.900 Euro bis 65.300 Euro)
Business Intelligence Manager (59.700 bis 80.400 Euro)
Business-Intelligence-Entwickler (49.300 bis 68.000 Euro)
Datenanalyst (44.200 Euro bis 60.700 Euro)
Data Engineer (47.700 Euro bis 66.300 Euro)
Data Scientist (49.200 bis 68.100 Euro)
Statistiker (44.800 Euro bis 63.100 Euro)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com. (fm)