Hintergrund Data-Mining-Rezept
Sechs Stufen für eine effiziente Analyse
Gründe für das Scheitern von Data-Mining-Projekten gibt es viele: Mangelhafte Datenqualität, fehlendes Wissen oder explodierende Kosten etwa oder das Fehlen einer BI-Strategie, von Problemdefinitionen oder konkreten Zielvorgaben für die Analyse. Wichtig für das Gelingen ist, dass alle betroffenen Fachabteilungen in den Data-Mining-Prozess integriert werden und die technischen mit den betriebswirtschaftlichen Kompetenzen verschmelzen. Essenziell ist auch, dass BI-Projekte klar definiert werden, ein Anfang und ein Ende haben. Bei der Umsetzung helfen kann CRISP-DM.
CRISP-DM (Cross Industry Standard Process For Data Mining) ist ein Industriestandard, der aus einem Förderprojekt der Europäischen Union von der Daimler AG, SPSS, Teradata und OHRA entwickelt wurde und den Fokus auf die betriebswirtschaftliche Fragestellung richtet. Er ist so etwas wie eine branchenneutrale Bauanleitung für Data-Mining-Projekte, die flexibel genug ist, um individuellen Unterschieden gerecht zu werden und ihren zyklischen Charakter in den Vordergrund rückt. Data Mining ist nämlich ein nicht linearer Prozess, bei dem oft Rücksprünge in die vorherige Phase nötig sind. Die ersten drei Phasen - Projektdefinition, Datensichtung und -aufbereitung - sind dabei oft die aufwändigsten. Sie nehmen bis zu 80 Prozent der gesamten Zeit in Anspruch.
1. Business Understanding
Am Anfang des Prozesses wird ein Problem definiert oder ein Unternehmensziel festgelegt. Dann werden Kriterien für dessen Erreichen bestimmt. Zum Beispiel kann ein Ziel sein, ein neues Buch im Online-Shop an fünf Prozent der registrierten Kunden zu verkaufen. Daraus leitet sich dann die Frage nach dem Profil der Kunden ab, für die das neue Produkt interessant ist. Für die Problem- oder Zieldefinition ist meistens ein intensiver Austausch zwischen den Fachabteilungen nötig. Eine klare Definition und ein genauer Projektplan helfen dabei, Frustrationen zu vermeiden und später das Projekt zu evaluieren.
2. Data Understanding
In einem zweiten Schritt werden die Datenquellen ermittelt, die für die Analyse zur Verfügung stehen. Die Datensätze müssen gesichtet und auf ihre Qualität hin beurteilt werden. Das ist ein wichtiger Schritt, denn unvollständige oder fehlerhafte Daten können die Analyse verfälschen.