Ob Hersteller, Einzelhändler oder Bundesregierung: nahezu jeder hat Künstliche Intelligenz (KI) mittlerweile als Thema für sich entdeckt. Die meisten Unternehmen möchten ihren Teil zur disruptiven Technologie beitragen oder zumindest von ihrem Einsatz profitieren. Allerdings weiß man auch, dass der Markt für KI-Experten leergefegt ist und sie oftmals gut dotierte Stellen bei führenden Digitalunternehmen wie Google oder Amazon besitzen.
Etliche Studien belegen inzwischen, dass der Mangel an Experten im Bereich Machine-Learning (ML) die größte Herausforderung bei der Entwicklung von KI-Lösungen ist. Dies ist besonders für Unternehmen, die keine Startups oder Technologieunternehmen sind, eine Herausforderung. Es gibt allerdings Hoffnung, und zwar in Form automatisierten Machine Learnings (AutoML), das die Vorteile von KI auch für die breite Masse nutzbar macht.
Von SAS zu AutoML: Die Demokratisierung des Machine-Learning
Schaut man auf die erste Generation an Werkzeugen, waren diese zweifelsfrei Experten vorbehalten. Data-Mining-Tools wie etwa SAS und SPSS waren komplex und nicht besonders anwendungsfreundlich. Sie erforderten weitreichende Kenntnisse und mitunter auch starke Nerven. Die zweite Generation von Data-Science-Tools rund um KXEN und RapidMiner traten mit dem Anspruch an, nutzerfreundlich zu sein und sich darüber hinaus auch ein Stück weit für die Fachbereiche zu öffnen. Den entscheidenden Schritt vollzieht aber die dritte Generation durch das Konzept des automatisierten Machine Learning (AutoML).
Denn hiermit lassen sich repetitive Aufgaben aus zahlreichen Schritten innerhalb des ML-Prozesses verlagern – vom Experten zum Werkzeug selbst. Für gängige ML-Anwendungsfälle wie zum Beispiel Vision oder Translation haben Anbieter zudem spezifische AutoML-Produkte im Portfolio, hier gibt es mittlerweile eine große Auswahl an Anbietern sowohl in der Cloud als auch für On-premise-Systeme. Damit arbeiten KI-Experten nicht nur deutlich schneller und erhöhen ihren Output um ein Vielfaches, sondern es lassen sich auch aufgestaute KI-Anwendungsfälle abarbeiten.
KI-Architektur aufbauen
Beim heute typischen Vorgehen ohne AutoML arbeiten Machine-Learning-Experten mit dem KI-Werkzeugkasten eines Anbieters. In dieser Umgebung haben sie Notebooks, etwa Jupyter, zur Erstellung der KI-Pipeline. Codiert wird in Python oder anderen Sprachen. Dabei werden Algorithmen und Funktionen aus KI-Frameworks und -Bibliotheken wie Tensorflow, Keras, SparkML, R, Scikit oder Caffe eingesetzt.
Einige Produktanbieter haben für gängige Aufgabenbereiche bereits zugeschnittene KI-Dienste mit vorgefertigten prädiktiven Modellen im Portfolio, die dann vom ML-Experten auf den unternehmensspezifischen Anwendungsfall trainiert werden. Abgedeckt werden dabei meist die Bereiche Vision, Speech, Natural Language, Translate, Knowledge sowie Search. Flankierende Management Services umfassen unter anderem das Deployment, Monitoring und die Versionierung.
Das oben beschrieben Vorgehen, lässt sich durch automatisiertes Machine Learning an verschiedenen Stellen vereinfachen beziehungsweise ohne Experten durchführen. Es unterstützt dabei sowohl standarisierte KI-Services als auch KI-Tools, die eher bei individuellen Anforderungen zum Einsatz kommen:
AutoML für KI-Services, zum Beispiel AutoML Vision, ermöglicht es Fachanwendern ohne Machine-Learning-Expertise, ihren KI-Anwendungsfall weitgehend eigenständig umzusetzen.
AutoML für KI-Toolsets beschleunigt die Arbeit des Data Scientist.
Die meisten AutoML-Produkte unterstützen auch die Aufgaben Deployment und Inference. Dies hilft dem Anwendungsentwickler, KI-Funktionen über den Aufruf einer Schnittstelle (API) in einfacher Weise in seine Anwendung einzubetten.
Prozessschritte beim Machine-Learning
Allerdings ist es mit den oben genannten Schritten noch nicht getan, da eine umfassende KI-Lösung mehr Schritte umfasst, als das von AutoML adressierbare Machine Learning im engeren Sinn. Prinzipiell wird dieser Prozess in der Realität sehr iterativ abgearbeitet und lässt sich wie folgt unterteilen:
Im Schritt "Business Understanding" werden fachliche Fragestellungen und Ziele vom Fachbereich an das ML-Team gegeben.
Im Schritt "Data Retrieval" sucht der Data Engineer nach relevanten Daten, exploriert diese und lädt sie.
Im Schritt "Data Preparation" werden die Daten bereinigt, fehlerhafte Daten gegebenenfalls ausgeblendet. Zudem werden Daten standardisiert, was insbesondere bei verschiedenen Datenquellen zentral ist. Die Daten werden anschließend ins Zielformat transformiert.
Im Schritt "Feature Engineering” werden aus den Eingangsdaten die für die Modellerstellung relevanten Attribute (Features) ermittelt. Diese werden je nach Domäne (numerisch, textuell, Bild usw.) unterschiedlich aufbereitet.
Nun werden passende ML-Algorithmen ausgewählt und das Modell trainiert.
Anschließend werden die Modelle getestet und die besten ausgewählt.
Schließlich werden die Ergebnisse visualisiert und dem Fachbereich präsentiert.
Wurde ein Modell ausgewählt, wird der Anwendungsentwickler das Modell bereitstellen und gegebenenfalls über eine API in eine Anwendung einbinden.
Das Modell wird in der produktiven Umgebung zur Vorhersage angewendet, durchaus auch in operativen Prozessen sowie Echtzeit.
Das Modell wird fortlaufend überwacht (Monitor) und im Fall einer Verschlechterung zum so genannten Re-Training gebracht.
Automatisiertes Machine-Learning übernimmt Prozessschritte
Im beschriebenen Prozess lässt sich AutoML an verschiedenen Stellen unterstützend einsetzen, so dass die Automatisierung vorangetrieben wird und Experten ihre Arbeit deutlich beschleunigen können:
Das Feature Engineering ist eine recht aufwendige Aufgabe, da Alternativen durchgespielt und bewertet werden müssen. Automatisierte Deep-Learning-Ansätze sowie Best Practices dienen hier zur Automatisierung und beschleunigen diesen Schritt erheblich.
Für jede Fragestellung sind verschiedene Algorithmen denkbar. Es gibt zunehmend mehr ML-Frameworks, die dieselben Algorithmen verschieden gut implementiert haben. Welcher Data Scientist hat darüber noch den vollen Überblick? Und letztlich wollen auch die mitunter zahlreichen Hyperparameter der Algorithmen noch optimiert werden. Dies birgt viel repetitive Arbeit, die eine AutoML Engine einfach viel schneller und stark parallelisiert ausführen kann.
Beim Deployment des Modells unterstützt AutoML Entwickler ebenfalls vielseitig, indem beispielsweise APIs generiert oder auch die entsprechende Runtime-Umgebung für das Modell bereitgestellt wird.
Bei all der Leistungsfähigkeit von AutoML sollte berücksichtigt werden, dass Schritte zur fachlichen Abklärung der Zielstellung und Ergebnisse sowie die Beschaffung und Aufbereitung der Daten nicht abgedeckt werden. Hier müssen Bibliotheken von KI-Anwendungsfällen und moderne Data-Preparation-Tools unterstützen, um diese Aufgaben zu beschleunigen.
Fazit: AutoML ist reif für den Einsatz
Es gibt inzwischen viele Beispiele von erfolgreich mit AutoML umgesetzten Lösungen bei unterschiedlichen Unternehmen. Die Implementierungszeiten sind kurz und liegen im Bereich von Wochen. Noch mehr als auf Geschwindigkeit kommt es letztlich auf Qualität an und hier ist die erzielte Modellpräzision in aller Regel so gut wie bei klassisch erstellten ML-Modellen, in einigen Fällen sogar besser.
AutoML ersetzt nicht nur den ML-Experten, sondern wird auch von diesen selbst eingesetzt: Sie berichten von einer bis zu zehnfachen Beschleunigung ihrer Arbeit. AutoML ist ein wichtiger Beitrag, um KI auch in der Breite nutzbar zu machen und den Einsatz zu forcieren. Der Zug ist bereist losgerollt und es ist eine gute Zeit, um aufzuspringen statt ihn durch ein ausbleibendes KI-Deployment zu verpassen.