Datenanalyse im Unternehmen
Data-Analytics-Erfolgsstories
Florian Maier beschäftigt sich mit diversen Themen rund um Technologie und Management.
Mit Machine Learning auf zu neuen Ufern
Das US-Verlagshaus RRD (vormals RR Donnelley) gründete vor einigen Jahren eine Logistik-Abteilung, um seine Printerzeugnisse an Kunden und Unternehmen auszuliefern. Um das Business zu unterstützen, übernahm der Konzern das Management selbst und verschickte im Namen seiner Partner auch Fremdprodukte aller Art - von der Waschmaschine bis hin zum Hundefutter. So entwickelte sich RRD zu einem milliardenschweren Konzern. Die Herausforderung dabei? Die optimalen Frachtsätze zu finden, in einer Welt in der FedEx und UPS die unangefochtenen Könige sind.
Variablen wie Wetter, geografische Begebenheiten und politische Verhältnisse verursachten Kosten für das Business. Mit steigendem Druck, die Frachtsätze vorab bestimmen zu müssen, wandte sich RRD schließlich Machine Learning und Analytics zu, wie CIO Ken O’Brien erzählt. RRD verpflichtete neues Personal und arbeitete mit Universitäten zusammen, um die Algorithmen zu schreiben, die nötig waren, um tausende von Szenarien für über 700 Frachtrouten zu analysieren. Das Ergebnis: Der Konzern kann die Frachtsätze inzwischen sieben Tage im Voraus bestimmen - in Echtzeit und mit einer Treffgenauigkeit von 99 Prozent.
"Die Kosten für das Projekt hatten sich nach weniger als einem Jahr amortisiert und wir sehen immer noch Wachstum in den Geschäftsbereichen, die mit der Fracht zusammenhängen", so O’Brien. Für das Jahr 2017 rechnet RRD damit, dass sein LKW-Fracht-Business von vier Millionen Dollar auf 16 Millionen Dollar Volumen anwächst.
Lessons learned: Commitment ist ein wesentlicher Punkt für den Erfolg solcher Projekte. Wie CIO O’Brien zugibt, wollten einige seiner Mitstreiter zu verschiedenen Zeitpunkten das Handtuch werfen, weil das Management der Technologie bei Prozessen, die traditionell durch Gefühl und persönliche Einschätzung getrieben werden, nicht getraut habe. "Sie werden straucheln und sich vielen Herausforderungen stellen müssen, aber es lohnt sich geduldig durchzuhalten", empfiehlt der RRD CIO.
- Apache Spark MLlib
Früher als Teil des Hadoop-Universums bekannt, ist Apache Spark mittlerweile ein bekanntes Machine-Learning-Framework. Sein umfangreiches Angebot an Algorithmen wird ständig überarbeitet und erweitert. - Apache Singa
Singa, seit kurzem Teil des Apache Incubator, ist ein Open-Source-Framework, das Deep-Learning-Mechanismen auf große Datenvolumen hin „trainieren“ soll. Singa stellt ein simples Programmierungsmodell für Deep-Learning-Netzwerke bereit und unterstützt dabei diverse Entwicklungsroutinen. - Caffe
Caffe umfasst ein ganzes Set von frei verfügbaren Referenzmodellen für gängige Klassifizierungsroutinen; die gewachsene Caffe-Community steuert weitere Modelle bei. Caffe unterstützt die Nvidia-Programmiertechnik CUDA, mit der Programmteile wahlweise auch durch den Grafikprozessor (GPU) abgearbeitet werden können. - Microsoft Azure ML Studio
Weil die Cloud also die ideale Umgebung für ML-Anwendungen darstellt, hat Microsoft seine Azure-Cloud mit einem eigenen ML-Service auf der Basis von „pay as you go“ ausgestattet: Mit Azure ML Studio können Nutzer KI-Modelle entwickeln und trainieren und anschließend in APIs umwandeln, um diese wiederum Anderen zur Verfügung zur stellen. - Amazon Machine Learning
Amazon Machine Learning arbeitet mit Daten, die in einer Amazon-Cloud wie S3, Redshift oder RDS liegen und kann mithilfe binärer Klassifizierungen und Multiklassen-Kategorisierung von vorgegebenen Daten neue KI-Modelle bauen. - Microsoft DMTK
Das DMTK (Distributed Machine Learning Toolkit) von Microsoft soll ML-Anwendungen über mehrere Maschinen hinweg skalieren. Es ist eher als "Out of the Box"-Lösung gedacht und weniger als Framework - entsprechend gering ist die Anzahl der unterstützten Algorithmen. - Google TensorFlow
TensorFlow basiert auf sogenannten Data-Flow-Graphen, in denen Bündel von Daten („Tensors“) durch eine Reihe von Algorithmen verarbeitet werden, die durch einen Graph beschrieben sind. Die Bewegungsmuster der Daten innerhalb des Systems heißen „Flows“. Die Graphen lassen sich mittels C++ und Python zusammenbauen und via CPU oder GPU verarbeiten. - Microsoft CNTK
Das Microsoft Computational Network Toolkit funktioniert ähnlich wie Google TensorFlow: Neuronale Netze lassen sich durch gerichtete Graphen erzeugen. Microsofts eigener Beschreibung zufolge lässt sich CNTK außerdem mit Projekten wie Caffe, Theano und Torch vergleichen – sei aber schneller und könne im Gegensatz zu den genannten gar parallel auf Prozessor- und Grafikprozessorleistung zugreifen. - Samsung Veles
Das Samsung-Framework ist dazu gedacht, Datensätze zu analysieren und automatisch zu normalisieren, bevor sie in den Produktivbetrieb übergehen – was wiederum durch eine eigene API namens REST sofort möglich ist – vorausgesetzt, die eingesetzte Hardware hat genügend Power. Der Python-Einsatz in Veles umfasst auch ein eigenes Analyse- und Visualisierungstool namens Jupyter (früher IPython) für die Darstellung einzelner Anwendungs-Cluster. - Brainstorm
Brainstorm setzt auf Python, um zwei Data-Management-APIs („Handers“ genannt) bereitzustellen – eine für CPU-Prozessing durch die Bibliothek „Numpy“ und eine für GPU-Verarbeitung via CUDA. Eine benutzerfreundliche GUI ist in Arbeit. - mlpack 2
Die neue Version der in C++ geschriebenen Machine-Learning-Bibliothek mlpack, die erstmals im Jahr 2011 erschien, bringt eine Menge Neuerungen mit – darunter neue Algorithmen und überarbeitete alte. - Marvin
Der Quellcode von Marvin ist sehr übersichtlich - die enthaltenen vortrainierten Modelle (siehe Bild) ermöglichen aber bereits eine umfangreiche Weiterentwicklung. - Neon
Neon von NervanaSystems ist ein Open-Source-Framework, das auf ein- und abschaltbaren Modulen basiert und KI-Prozesse via CPU, GPU oder Nervanas eigener Hardware ermöglicht.
Monsanto und der Ackerbau-Algorithmus
Eine Sache bereitet Bauern seit jeher Kopfzerbrechen: Welche Saat pflanzt man in welcher Menge zu welcher Zeit an welchem Ort? Der Agrarkonzern Monsanto ist der Antwort auf diese Frage bereits auf der Spur - mit Hilfe von Data Science. Mathematische und statistische Modelle sollen künftig Auskunft darüber geben, wann und wo männliche und weibliche Pflanzen gesetzt werden.
Das Ziel: Maximaler Ertrag und optimale Flächennutzung. Der Machine-Learning-Algorithmus von Monsanto "durchpflügt" dazu täglich mehr als 90 Milliarden Datenpunkte. Ein Vorgang der zuvor Wochen oder Monate in Anspruch genommen hätte, wie Adrian Cartier, Director of Global IT Analytics bei Monsanto, weiß. Die Benefits für das Business? Im Jahr 2016 sparte Monsanto sechs Millionen Dollar ein und konnte den ökologischen Fußabdruck seiner Supply Chain um vier Prozent reduzieren. "Eine Reduktion der Landnutzung in Nordamerika um vier Prozent heißt große ungenutzte Flächen und sehr viel Geld im Sparstrumpf", verdeutlicht Cartier.
Lessons learned: Für Monsanto war das oberste Ziel, eine durchgängige Kollaborationdurchgängige Kollaboration zwischen IT und Lieferkette herzustellen. "Die Kombination aus deren Supply Chain Know-how und agrarwirtschaftlicher Expertise mit unserem Wissen in Sachen Mathematik und Statistik hat diesen Mehrwert erst ermöglicht", ist sich Cartier sicher. Alles zu Collaboration auf CIO.de
Predictive Analytics gegen den "Amazon Impact"
Die Logistik-Branche sieht sich laut Scott Sullivan, CIO beim US-Transportunternehmen Pitt Ohio, zunehmend mit dem "Amazon Impact" konfrontiert. Das bezeichnet die heutige Erwartung der Kunden, die Ware nicht erst am nächsten Tag zu erhalten, sondern am selben (Same Day Delivery). Gleichzeitig erwarten die Kunden aber auch mehr Informationen über ihre Sendungen.
Mit Hilfe von bereits bestehenden Daten, Predictive Analytics und Algorithmen, die das Gewicht jedes Frachtstücks, die Entfernung zum Bestimmungsort und andere Faktoren in Echtzeit errechnen, kann Pitt Ohio inzwischen die Ankunftszeit ihrer Fahrer mit einer Wahrscheinlichkeit von 99 Prozent vorhersagen. Das Unternehmen schätzt den so erzielten Gewinn auf circa 50.000 Dollar pro Jahr. Auch die Kosten für beschädigte oder verlorene Sendungen will das Unternehmen um 60.000 Dollar gesenkt haben.
Lessons learned: Laut Sullivan war das Projekt ein abteilungsübergreifendes: Research, Sales und IT haben hierbei zusammengearbeitet und durch gegenseitige Checks ihre Zielerreichung sichergestellt. "Auch in Ihren vier Wänden gibt es jede Menge Daten - seien Sie innovativ und finden Sie neue Herausforderungen, um diese zu nutzen", appelliert CIO Sullivan.
Dieser Artikel basiert auf einem Beitrag unserer US-Schwesterpublikation CIO.com.
5. Integration der neuen analytischen Methoden in die bestehenden Systeme.
4. Pilotprojekt/Prototyp: Auswertung der Daten in entsprechenden Vorhersagemodellen; Modelle und Analyse-Methoden werden ständig verfeinert, kombiniert und evaluiert, um die Qualität der Prognose zu verbessern.
3. Auswahl/Zuschneiden der Datensätze und Kombination mit externen Daten.
2. Business Case festlegen: Definition eines konkreten Ziels mit Kennzahlen (z.B. Umsatz um Summe x steigern, Fehlmenge reduzieren etc.), das mit Hilfe der Prognosen erreicht werden soll.
1. Analyse des Geschäftsmodells, der Geschäftsprozesse und der vorhandenen Daten.