Maschinelles Lernen erweist sich als ziemlich nützlich. Deswegen ist die Versuchung groß, anzunehmen, dass Machine Learning (ML) im Stande ist, einfach jede Problemstellung zufriedenstellend zu lösen. Wie das bei technologischen Werkzeugen nun mal so ist, ist aber auch maschinelles Lernen nur in bestimmten Aufgabengebieten zur Lösungsfindung geeignet. Im Regelfall sind das genau die Probleme, die schon ewig bestehen, für die Sie aber nie genug Leute einstellen konnten. Oder solche, die zwar eine klare Zielsetzung aufweisen, bis jetzt aber einen Lösungsweg vermissen lassen.
Dennoch ist es wahrscheinlich, dass so gute wie jedes Unternehmen in Zukunft Vorteile aus dem Einsatz von Machine Learning ziehen will: In einer Umfrage von Accenture zeigten sich 42 Prozent der befragten IT-Entscheider davon überzeugt, dass bis zum Jahr 2021 jede ihrer Innovationen KI-getrieben sein wird.
Wenn auch Sie den Einsatz von maschinellem Lernen planen, sollten Sie über den Hype-Tellerrand hinausblicken und gängige Mythen meiden. Nur wenn Sie darüber Bescheid wissen, was Machine Learning kann und was nicht, können Sie bezüglich Ihrer ML-Bemühungen auch mit Erfolg rechnen.
"Machine Learning gleich Künstliche Intelligenz"
Machine Learning und Künstliche Intelligenz (KI) werden inzwischen quasi durchgängig synonym gebraucht. Allerdings bezeichnet ML die KI-Technik, die bislang am erfolgreichsten den Weg aus den Forschungslaboren in die echte Welt gefunden hat. Künstliche Intelligenz hingegen umfasst neben maschinellem Lernen auch noch ganz andere Forschungsgebiete wie Robotik, Computer Vision und Natural Language Procession.
Hüten Sie sich vor Buzzwords und seien Sie präzise: Bei Machine Learning geht es um Mustererkennung und Vorhersagen für große Datensets. Die Ergebnisse sehen vielleicht "intelligent" aus, haben aber nichts mit KI zu tun. Stattdessen geht es im Grunde darum, Statistiken in bisher nicht dagewesener Schnelligkeit und Skalierung anzuwenden.
"Alle Daten sind verwertbar"
Für maschinelles Lernen brauchen Sie Daten. Aber nicht alle Daten sind für Machine Learning auch brauchbar. Um Ihr ML-System "trainieren" zu können, brauchen Sie repräsentative Daten, die die Muster und Ergebnisse abbilden, mit denen es Ihr System zu tun bekommt. Die zur Verfügung stehenden Daten müssen also frei von irrelevanten Mustern sein, weil das System anderenfalls diese spezifischen Muster auch auf den Rest der Daten anwendet und diese dahingehend durchforstet.
Alle Daten, die Sie zum Trainieren eines Machine-Learning-Systems verwenden, müssen zudem ausreichend gekennzeichnet werden - und zwar mit den Features, die zu den Fragen passen, die Sie dem System anschließend stellen wollen. Das klingt nicht nur nach einer Menge Arbeit, sondern ist es auch. Dennoch sollten Sie nicht den Fehler begehen, davon auszugehen, dass Ihre Daten sauber, strukturiert, repräsentativ oder einfach zu kennzeichnen sind.
"Man braucht immer jede Menge Daten"
Díe kürzlich bei der Bild-, Text- und Kontexterkennung erzielten Fortschritte sind in erster Linie der Existenz neuer, besserer Tools und Hardware zu verdanken. Diese machen es nun möglich, riesige Datenmengen (parallel) zu verarbeiten.
Dank einer trickreichen Methode namens "transfer learning" brauchen Sie aber nicht immer notwendigerweise ein großes Datenset, um in einem speziellen Bereich gute Machine-Learning-Ergebnisse zu erzielen. Sattdessen bringen Sie Ihrem ML-System einmal bei, ein solches Datenset zu benutzen und transferieren diese Lernleistung anschließend auf ihr eigenes, kleineres Daten-Trainings-Set. So funktionieren auch die "custom vision"-APIs von Salesforce und Microsoft Azure: Diese Systeme brauchen nur zwischen 30 und 50 Bildern, um zu lernen was klassifiziert werden soll.
"Transfer learning" versetzt Sie also in die Lage, ein (trainiertes) System zum maschinellen Lernen auf Ihre ganz eigene Problemstellung auszurichten - mit einer vergleichsweise geringen Menge an Daten.
"Jeder kann ein ML-System bauen"
Eine ganze Reihe von Open-Source-Werkzeugen und Frameworks steht zu Machine-Learning-Zwecken zur Verfügung - und zahllose Online-Kurse und -Tutorials zeigen en detail, wie man diese anwendet. Nichtsdestotrotz handelt es sich bei maschinellem Lernen um ein Spezialgebiet und Sie müssen wissen, wie Sie Ihre Daten vorbereiten und partitionieren, um in Training und Testing einsteigen zu können. Sie sollten außerdem wissen, welcher Algorithmus für Ihre Zwecke am besten geeignet ist und welche Anwendungsmethoden dafür geeignet sind. Last but not least sollten Sie auch noch wissen, wie Sie das alles in ein zuverlässiges Produktionssystem verwandeln können. Sind diese Fragen beantwortet, muss das System natürlich auch überwacht werden, damit sichergestellt ist, dass die Ergebnisse fortwährend relevant sind.
Kurzum: Wer Machine Learning richtig machen will, braucht vor allem Erfahrung. Wenn Sie gerade erst einsteigen, sollten Sie sich nach entsprechender Data-Science- und Machine-Learning-Expertise umsehen, um Ihr eigenes ML-System bauen zu können.
"Alle Datenmuster sind nützlich"
Asthma- und Herz-Patienten sowie alte Menschen haben eine wesentlich bessere Chance, eine Lungenentzündung zu überleben, als Sie es erwarten würden. Diese Chance ist sogar so hoch, dass ein Machine-Learning-System, das die Krankenhausaufnahme automatisiert, diese Menschen möglicherweise abweisen und nach Hause schicken würde (ein regelbasiertes System hat exakt das getan). Unglücklicherweise liegt der Grund für die großen Überlebenschancen aber darin, dass genannte Personengruppen bei einer Lungenentzündung besonders gefährdet sind und deswegen im Regelfall sofort behandelt werden.
Das System erkennt also ein valides Muster in den Daten - allerdings ist dieses Muster unbrauchbar, um zu bestimmen, wer im Krankenhaus aufgenommen wird (auf der anderen Seite wäre es für Krankenversicherer geeignet, um die zu erwartenden Folgekosten abzuschätzen). Gefährlich könnte es in diesem speziellen Fall auch werden: Schließlich wissen Sie nur dann von der Existenz dieser unbrauchbaren Muster in Ihren Daten, wenn Sie sie bereits entdeckt haben.
In anderen Fällen können Machine-Learning-Systeme zwar stichhaltige Muster erkennen, die aber dennoch nicht verwertbar sind weil sie nicht erklärbar sind. Das wäre zum Beispiel bei einem Gesichtserkennungssystem der Fall, das auf der Grundlage von Selfie-Aufnahmen die sexuelle Orientierung des abgebildeten Menschen ausgibt. Schließlich gibt das Bild an sich eher über Mimik und Gestik Aufschluss, denn über die angeborene sexuelle Orientierung.
Black-Box-Modelle sind zwar effizient, geben aber keinerlei Auskunft darüber, welche Muster sie erkannt, beziehungsweise gelrnt haben. Transparente, intelligente Algorithmen wie GAMs geben klare Auskunft darüber, was das Machine-Learning-System gelernt hat. Auf dieser Grundlage können Sie besser entscheiden, ob sich eine Ausrollung lohnt.
"Reinforcement Learning geht immer"
So gut wie alle Systeme für maschinelles Lernen die heute im Einsatz sind, setzen auf "supervised learning". Im Regelfall werden diese Systeme mit klar strukturierten und gelabelten Datensets trainiert, bei deren Vorbereitung Menschen involviert waren. Diese Datensätze zu kuratieren braucht nicht nur Zeit, sondern auch Hingabe.
Das führt zu einem gesteigerten Interesse an Formen des "unsupervised learning", insbesondere "reinforcement learning" (RL) steht hoch im Kurs. Hierbei lernt ein System im Trial-and-Error-Verfahren von der Interaktion mit seiner Umwelt und durchBelohnungen für korrektes Verhalten. Beim DeepMind-AlphaGo-System etwa kamen neben "supervised learning" auch RL-Techniken zum Einsatz. Das Machine-Learning-System schaffte es durch einen Sieg gegen den menschlichen Go!-Guru in die Schlagzeilen.
Außerhalb des wissenschaftlichen Kosmos ist RL allerdings alles andere als gängig: Google nutzt DeepMind, um seine Data Center effizienter kühlen und so Strom sparen zu können und Microsoft bringt spezielle RL-Techniken namens "contextual bandits" zum Einsatz, um Schlagzeilen für die User von msn.com zu personalisieren.
Das Problem an der Sache: Die wenigsten Umgebungen in der echten Welt sind mit leicht zu entdeckenden Belohnungen und direkten Feedback-Möglichkeiten ausgestattet. Besonders diffizil wird es aber dann, wenn sich Belohnungen nicht einwandfrei zuweisen lassen, weil das System zuvor viele verschiedene Aktionen ausgeführt hat.
"Machine Learning ist unbefangen"
Weil Machine-Learning-Systeme von Daten lernen, werden sie auch die hier eventuell vorhandenen Vorurteile replizieren. Wer nach Fotos von CEOs sucht, wird wahrscheinlich vor allem weiße, männliche Menschen zu sehen bekommen, weil deren Anteil unter den CEOs besonders hoch ist.
Maschinelles Lernen ist sogar in der Lage, Vorurteile und Befangenheit zu verstärken: Das COCO-Datenset kommt oft beim Training von Bilderkennungssystemen zum Einsatz. Das Datenset enthält Bilder von Männern und Frauen - wobei die Frauen öfter zusammen mit Küchenutensilien abgebildet sind und Männer mit Computer Hardware oder Sportgeräten. Wenn Sie damit Ihr ML-System trainieren, wird dieses Männer eher mit Computern und Sport in Verbindung bringen, als es die Statistiken der Originalfotos tun.
Es ist auch möglich, dass ein Machine-Learning-System ein anderes mit Befangenheit "impft". Wenn Sie Ihr System zum maschinellen Lernen mit einem populären Framework trainieren, das Wörter als Vektoren darstellt, um die Beziehungen zwischen diesen zu visualisieren, wird das System Stereotypen lernen wie "Mann verhält sich zu Frau wie Doktor zu Krankenschwester und Chef zu Sekretärin". Wenn Sie dieses System nun mit einem anderen kombinieren, das zwischen Sprachen mit und ohne gender-neutralen Pronomen hin- und her übersetzt, wird aus dem Englischen "they are a doctor" am Ende "he is a doctor" und aus "they are a nurse" wird "she is a nurse".
Empfehlungen auf der Grundlage vergangener Seitenaufrufe machen im Fall eines Onlineshops durchaus Sinn - problematisch wird das Ganze, sobald es sich um "sensible Bereiche" dreht und eine Feedback-Schleife entstehen kann. Wenn Sie einer Facebook-Gruppe beitreten, die sich gegen Schutzimpfungen ausspricht, wird Ihnen die Empfehlungs-Engine von Facebook weitere Gruppen mit "Verschwörungstheorie-Ausrichtung" vorschlagen.
Es ist wichtig, sich in Sachen Machine Learning der Probleme mit der Befangenheit bewusst zu sein. Wenn Sie Ihr Trainings-Datenset nicht von Befangenheit befreit bekommen, empfehlen sich Techniken um etwa die Geschlechtsbeziehungen zwischen bestimmten Wortpaaren abzuschwächen oder Dinge ohne direkten Bezug in die Empfehlungen aufzunehmen, um Filterblasen zu vermeiden.
"Maschinelles Lernen dient nur dem Guten"
Machine Learning treibt auch Antivirus Tools an und analysiert in diesem Bereich zum Beispiel neue Bedrohungsmuster. Kriminelle Hacker auf der anderen Seite haben maschinelles Lernen ebenfalls längst für sich entdeckt und nutzen entsprechende Tools, um die Verteidigungslinien ihrerseits durchbrechen zu können.
Ein weiteres, kriminelles Einsatzgebiet von Machine Learning: Gezielte und großangelegte Phishing-Attacken, deren Erfolgschancen zuvor auf Grundlage von Datenanalysen errechnet werden.
"Machine Learning wird Menschen ersetzen"
Die Angst vor der Verdrängung durch Künstliche Intelligenz ist allgegenwärtig. Und mit Sicherheit wird die Technologie dafür sorgen, dass sich unsere Arbeitswelt und die Art, wie wir arbeiten, verändern. Machine-Learning-Systeme können Effizienz und Compliance zuträglich sein und Kosten reduzieren. Auf lange Sicht werden einige Tätigkeiten wegfallen, dafür werden neue entstehen.
Fakt ist aber auch, dass Systeme für maschinelles Lernen vor allem solche Aufgaben automatisieren, die vorher einfach nicht erfüllbar waren - entweder aus Komplexitäts- oder aus Skalierungsgründen. Was Machine Learning bereits "geschafft" hat: Es hat für die Entstehung neuer Geschäftsmodelle und -Möglichkeiten gesorgt, beispielsweise wenn es darum geht, die Customer Experience mit Hilfe von Predictive Maintenance zu pushen oder datengetriebene Business-Entscheidungen zu treffen.
Kurzum: Wie die früheren Automatisierungs-Instanzen befähigt auch Machine Learning in erster Linie die Mitarbeiter von Unternehmen, ihre Expertise und Kreativität zu entfalten.
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation cio.com.