Neues Analyse-Paradigma
Best Practices bei der Datenanalyse
Hat man eine konkrete Vorstellung davon, welche Fragestellung durch eine Datenanalyse beantwortet werden soll, ist die konfirmative die richtige Wahl. Diese Art der Analyse ist die "Spitzhacke im Datenbergbau". Sie liefert nur dann gute Ergebnisse, wenn der Anwender genau weiß, wo er nach interessanten Informationen suchen muss, um beim Verglich zu bleiben, auf Gold-Nuggets zu stoßen. Der Suchraum dabei ist stark begrenzt, außerdem müssen solche Analysen manuell durchgeführt werden. Die heute üblichen Datenmengen sind so nicht zu stemmen.
Abhilfe verspricht eine explorative Datenanalyse, sprich Data Mining. Damit können große Datenmengen nahezu autonom nach neuen Zusammenhängen und Mustern durchsucht werden. Wegen seiner Charakteristik eignet es sich laut Mayoto besonders gut als vorgeschaltetes Verfahren, beispielsweise vor OLAP oder einer statistischen Analyse. Problem ist aber die hohe Ineffizienz: Der Prozess der Datenanalyse kostet Zeit, erfordert langjährige Erfahrung und erschwert es enorm, Projektlaufzeiten und erzielbare Ergebnisse vorherzusagen.
Bisher fehlte eine Lösung, die die aufwändigsten Schritte automatisiert, den Analyseprozess vereinfacht und so auch kleinere und mittlere Analyseprojekte rentabel werden lässt. Seit Kurzem gibt es aber ein neues Paradigma, das an den alten Schwachstellen ansetzt, um die Effizienz und die Anwendbarkeit von Data Mining zu erhöhen: die hoch automatisierten Verfahren des Self-Acting Data Mining. Dabei spielen die dort eingesetzten Algorithmen eine entscheidende Rolle.
Das Grundprinzip ist folgendes: Das Abbild der in den Daten gefundenen Muster ist ein Kompromiss zwischen der Gültigkeit der Ergebnisse im aktuellen Analysefall (interne Validität) und der Übertragbarkeit der Ergebnisse auf neue, unbekannte Daten (externe Validität). Beim traditionellen Data Mining muss die Balance zwischen diesen beiden Extremen für jeden Analysefall durch Feinjustierung der Parameter-Einstellungen immer wieder neu gefunden werden. Das zieht zahlreiche Wiederholungsschleifen nach sich und das wiederum kostet viel Geld.
Beim Self-Acting Data Mining erfolgt die Bildung von Mustern komplett automatisiert, indem sie in ein mathematisches Optimierungsproblem umgewandelt wird. Die Fehler der beiden Größen externe und interne Validität werden mehrdimensional gemessen und beide gleichzeitig minimiert. Vor allem durch die Reduzierung der Daten-Modifikation von 75 Prozent auf fünf Prozent kommt eine spürbare Zeitersparnis zustande.