Automatisierung
Der Data Scientist muss Aufgaben abgeben
Vor dem Hintergrund, dass selbstlernende Algorithmen immer besser darin werden, Daten zu verwerten, stellt sich die Frage, ob Data Scientists heute und in Zukunft überhaupt noch gebraucht werden. Lassen sich Datensätze nicht auch automatisiert für Machine-Learning-Modelle aufbereiten? Das beschäftigt nicht nur Fachfremde, die gerne eine Machine-Learning-Lösung einsetzen wollen und überlegen, ob sie ihre Daten nicht einfach direkt in bereits existierende Algorithmen gießen. Auch Data Scientists selbst und Experten in angrenzenden Disziplinen wie Data AnalyticsAnalytics, diskutieren, was Automated Machine LearningMachine Learning (AutoML) für ihre Zukunft eigentlich bedeutet. Wo sind die Grenzen und Möglichkeiten der Automatisierung? Alles zu Analytics auf CIO.de Alles zu Machine Learning auf CIO.de
Data Scientists selbst setzen AutoML zumindest in Proof-of-Concept-(PoC)-Phasen gerne ein, das bedeutet aber nicht, dass Algorithmen ihren Job bedrohen. Er wird sich in den kommenden Jahren höchstwahrscheinlich nur ein wenig verändern. Um ein klareres Bild davon zu bekommen, inwieweit der Data Science bereits Disruption durch AutoML-Algorithmen droht, lohnt sich der Blick auf die einzelnen Aufgaben eines Data Scientists, die dieser in einem Projekt typischerweise durchläuft.
Anwender verstehen und auf sie eingehen
Der erste Schritt in jedem Data-Science-Projekt besteht darin, mit dem künftigen Anwender zu sprechen und zu verstehen, wo der Schuh drückt. Das gilt selbst für ML-Anwendungen, die ohne Anpassung implementiert und eingesetzt werden können. Bevor der Data Scientist verstanden hat, was das Problem ist oder welcher Prozess optimiert werden soll, lässt sich keine vernünftige Lösung anbieten. Auch gilt es, dem Anwender später die entstandenen Lösungen und Erkenntnisse verständlich zu vermitteln. Hierfür gilt es diese Fragen zu beantworten:
War der PoC erfolgreich?
Welche Änderungen sind zu empfehlen, damit die Vorhersage präziser wird?
Wo sind die größten Engpässe in den Prozessen?
Es ist die Aufgabe des Data Scientists, die betroffenen Unternehmensprozesse zu analysieren und zu verstehen, inklusive etwaiger Implikationen (beispielsweise Auswirkungen auf andere Abteilungen). Diese kognitive Aufgabe ist in absehbarer Zeit Unmöglich zu automatisieren.
Daten konsolidieren
Bevor es mit den spannenden Data-Science-Aufgaben richtig losgeht, müssen zunächst die Daten in einen brauchbaren Zustand versetzt werden. Auch das bedeutet, mit dem Anwender oder Kunden in den Dialog zu treten. Es gilt, eine Form des Datenzugriffs zu vereinbaren, sich mit den unterschiedlichen Quellsystemen zu verbinden, die Daten zu verknüpfen und vor allem intensiv zu filtern. Diese Schritte sind immerhin zum Teil automatisierbar. Insbesondere das Laden aus vielen unterschiedlichen Datenquellen ist in den vergangenen Jahren deutlich unkomplizierter geworden. Manueller Aufwand fällt dennoch an, weil es menschliches Verständnis braucht, um zu erfassen, welche Daten wo gespeichert sind und was sie bedeuten. Das Gleiche gilt für die Verknüpfung der Daten.
Unmöglich zu automatisieren hingegen ist das Filtern der Daten, beziehungsweise die sogenannte Plausibilitätsprüfung. Für den Erfolg eines Projektes ist es elementar wichtig, die Daten dahingehend zu prüfen, ob sie den erwarteten Spezifikationen entsprechen. Aus Erfahrung wissen Data Scientists: Das tun sie nie. Sensoren funktionieren nicht immer zuverlässig, Stempelzeiten haben nahezu immer Qualitätsprobleme, echte Bestellungen werden mit Aufträgen auf der verlängerten Werkbank vermischt oder Endkunden tragen das Kennzeichen "Zweite Mahnung", obwohl sie nie eine Rechnung erhalten oder sogar einen kostenlosen Dienst in Anspruch genommen haben.
Die meisten dieser Datenfehler können nicht automatisch erkannt werden, da einem Algorithmus der Kontext für diese Bewertung fehlt. Dass ein Kunde nicht abgemahnt werden kann, wenn er gar nicht erst bezahlen muss, versteht jeder Mensch auf den ersten Blick. Einem Algorithmus müsste jemand diese Regel zuerst beibringen.
Feature-Engineering
Beim sogenannten Feature Engineering geht es darum, die rohen Daten so zu bearbeiten, dass der ML-Algorithmus sie möglichst gut verstehen kann. Es soll für ihn so einfach wie möglich sein, alle Informationen zu extrahieren, die sich im Datensatz verbergen. Angenommen jemand möchte vorhersagen, wie erfolgreich ein Film sein wird. Die Namen beziehungsweis IDs der einzelnen Schauspieler jedes Films sind bekannt. Mit diesen IDs kann der ML-Algorithmus aber nur wenig anfangen. Er würde sich maximal die IDs einiger weniger Top-Performer merken, bei deren Teilnahme jeder Film ein Erfolg wird. Durch Feature Engineering ist ein Data Scientist in der Lage, die Informationen über die Schauspieler deutlich anzureichern.
Welches Geschlecht und welches Alter haben die Schauspieler? Wie erfolgreich waren die letzten Filme, in denen sie mitgespielt haben, sowohl monetär als auch in Bezug auf Kritiken? Diese und viele weitere Faktoren ermöglichen es dem Algorithmus zu verstehen, ob er einen echten Blockbuster bearbeitet, ein Arthouse-Projekt oder ein ganz anderes Genre.
Einige einfachere Aufgaben des Feature Engineerings sind bereits ziemlich gut automatisiert (One Hot Encoding, Imputation, etc.). Dies sind aber nicht die Schritte, mit denen sich die Güte der Modelle signifikant verbessern lässt. Viel wichtiger ist es, die Prozesse hinter den Daten zu verstehen und dieses Wissen in das Feature Engineering einfließen zu lassen. Diese Datenanreicherung, in Kombination mit der Datenkonsolidierung, ist das, womit Data Scientists circa 80 Prozent ihrer Zeit verbringen und wodurch sie den größten Mehrwert generieren können. Die Prozesse des Anwenders und die Qualität der Daten zu verstehen und dieses Wissen algorithmisch brauchbar zu machen ist nur zu einem sehr geringen Anteil automatisierbar.