Hintergrund Data-Mining-Rezept
Sechs Stufen für eine effiziente Analyse
3. Data Preparation
Anschließend muss man die relevanten Daten für die Analyse vor- und aufbereiten, also selektieren, bereinigen, integrieren oder formatieren. Wenn nötig werden sie in Abhängigkeit von dem einzusetzenden Algorithmus transformiert, etwa Kunden in Alterskohorten zusammengefasst oder neue Merkmale wie der Gesamtumsatz abgeleitet.
4. Modelling
In der vierten Prozessphase findet das eigentliche Data Mining statt, nämlich die Bildung eines oder mehrerer geeigneter Modelle. Hierfür muss zunächst die Modelliermethode ausgewählt werden (z.B. künstliche neuronale Netze, Entscheidungsbäume, Clusterverfahren, Regression oder Regelinduktion). Anschließend wir ein Test-Design erstellt und damit Trainings- und Testdaten generiert. Schließlich wird das Modell gebaut und mit den richtigen Parametern justiert.
5. Evaluation
In der Evaluationsphase werden die Ergebnisse der Datenanalyse bewertet. Dafür vergleicht man Data-Mining-Resultate mit den eingangs definierten Erfolgskriterien. Es werden die Modelle ermittelt, die der definierten Problemstellung gerecht werden und akzeptable Daten liefern. In einer Prozessrückschau nimmt man den gesamten DM-Prozess kritisch unter die Lupe. Eventuell muss in einer früheren Phase des Prozesses nachgebessert werden. Zum Schluss werden die nächsten Schritte festgelegt.
6. Deployment
In der Deployment-Phase wird das Modell auf die aktuellen Daten angewendet. Ein Plan für eine sinnvolle Anwendung der Ergebnisse und die Instandhaltung der Modelle wird erstellt. Dieser Plan muss überwacht und gepflegt werden. Ein Abschlussbereicht oder eine Abschlusspräsentation rundet das Data-Mining-Projekt ab und setzt es für andere, nicht involvierte Personen und Abteilungen in Szene.