Methoden und Orga
Wie die Data Scientists der Otto Group arbeiten
Christoph Lixenfeld, seit 25 Jahren Journalist und Autor, vorher hat er Publizistik, Romanistik, Politikwissenschaft und Geschichte studiert.
1994 gründete er mit drei Kollegen das Journalistenbüro druckreif in Hamburg, schrieb seitdem für die Süddeutsche Zeitung, den Spiegel, Focus, den Tagesspiegel, das Handelsblatt, die Wirtschaftswoche und viele andere.
Außerdem macht er Hörfunk, vor allem für DeutschlandRadio, und produziert TV-Beiträge, zum Beispiel für die ARD-Magazine Panorama und PlusMinus.
Inhaltlich geht es in seiner Arbeit häufig um die Themen Wirtschaft und IT, aber nicht nur. So beschäftigt er sich seit mehr als 15 Jahren auch mit unseren Sozialsystemen. 2008 erschien im Econ-Verlag sein Buch "Niemand muss ins Heim".
Christoph Lixenfeld schreibt aber nicht nur, sondern er setzt auch journalistische Produkte ganzheitlich um. Im Rahmen einer Kooperation zwischen Süddeutscher Zeitung und Computerwoche produzierte er so komplette Zeitungsbeilagen zu den Themen Internet und Web Economy inklusive Konzept, Themenplan, Autorenbriefing und Redaktion.
- Die klassische Trennung zwischen Modellierung und Umsetzung gibt es nicht mehr
- Das Team setzt auf Methoden wie Design Thinking, agile Verfahren sowie Pair Programming und DevOps
- Die Data Scientists arbeiten sehr eng mit der Open-Source-Community zusammen
- Vielleicht braucht die Otto Group in fünf Jahren kein zentrales Data-Scientist-Team mehr
Der Tag nach dem Interview wird für Timo Duchrow beginnen wie der vieler anderer IT-Manager: Morgens finden kurze Workshops statt, bei denen es um die Abstimmung der nächsten Schritte in zwei Projekten geht.
Also um Kommunikation, das wichtigste Element in seinem Job, wie Duchrow betont. Was nicht so selbstverständlich ist, wie es klingt. Denn darüber hinaus muss der "Head of Data Science bei Otto GroupOtto Group BI", der Business-IntelligenceBusiness-Intelligence-Sparte der Otto Group, auch noch fit sein in Mathematik, Statistik und Machine Learning, also im Auswerten und Nutzen großer Datenmengen. Und er muss Software entwickeln können - sogar wenn das nur dazu dient, die entsprechende Arbeit seines Teams zu beurteilen und zu steuern. Top-500-Firmenprofil für Otto Group Alles zu Business Intelligence auf CIO.de
Data Scientists sind also keine Wissenschaftler, sondern datengetriebene Projektmanager, die sowohl koordinieren als auch entwickeln.
Timo Duchrow leitet in Hamburg ein Team von fünf Data Scientists und einem Site Reliability Engineer, das 2013 unter der Führung des studierten Bioinformatikers entstand.
Framework-Projekt mit Hermes
Vier aus seinem Team haben im vergangenen Jahr gemeinsam mit der Otto Group-Konzerngesellschaft Hermes ein neues Verfahren zur Paketankündigung entwickelt.
Ziel war es, dem Empfänger auf eine Stunde genau mitteilen zu können, wann seine Sendung ankommt, Grundlage der Berechnung sind umfangreiche Prozessdaten und die Erfahrung der Hermes-Zusteller.
Genutzt wird die Technik mittlerweile nicht nur bei Hermes, sondern es entstand ein Framework, mit dessen Hilfe sich solche prediktiven Modelle auch in anderen Bereichen schnell ausrollen lassen.
"Wir haben das entwickelte Framework geopensourced und benutzen es auch intern für andere Anwendungsfälle", so Timo Duchrow, für dessen Arbeit es ganz typisch ist, aus Modellen Produkte zu formen, das heißt rolloutfähige Lösungen für den ganzen Konzern bereitzustellen.
Die früher klassische Trennung zwischen Modellierung und Umsetzung gibt es dabei nicht mehr, betont Duchrow: "Wir entwickeln immer schon von Beginn an der Praxis entlang."
Sein Team habe "einen eigenen Weg, wie wir Lösungen entwickeln, und diesen Weg wollen wir weiter ausbauen." Methodisch gehören vor allem Design Thinking und agile Verfahren wie z.B. Scrum dazu, also das Entwickeln eng an Kundenbedürfnissen in gemischten Teams, die Orientierung an Zielen statt an Pflichtenheften und das Verwenden von inkrementellen Verfahren.
- Die Aufgaben des Business Developer
Business Developer blicken tief in die Geschäftsprozesse und können Unternehmensziele mit Datenanalysen in Verbindung bringen. Sie entwickeln eine erste Fragestellung oder decken ein Problem auf, das anhand der erhobenen Daten gelöst werden soll. Als Schnittstelle zwischen Geschäftswelt und Technik kann er den Nutzen der Analyseergebnisse am besten einschätzen und arbeitet daher eng mit dem Data Analyst zusammen. - Die Aufgaben des Data Analyst
Der Data Analyst besitzt profunde Kenntnis über datengetriebene analytische Methoden, Data Mining-Verfahren und Techniken der Datenvisualisierung. Mit ihnen können Datensätze automatisch klassifiziert oder hinsichtlich ihrer Ähnlichkeit gruppiert werden. So kann der Data Analyst die Aussagekraft der Daten bewerten und relevante Muster und Auffälligkeiten in den Datenströmen erkennen. - Die Aufgaben des Data Manager
Der Data Manager sorgt dafür, dass die Qualität der Daten optimiert wird und sie durch Metadaten ausreichend beschrieben werden. Dazu zählt, dass sich der Data Manager einen Überblick über die Nutzungsrechte verschafft und bei sensiblen Daten weiß, wofür diese verwendet werden dürfen. - Die Aufgaben des Application Developer
Der Application Developer setzt die Plattform auf, auf der die Daten integriert und die Anwendungen entwickelt und installiert werden. Er beherrscht verschiedene Werkzeuge zur Parallelisierung und Echtzeitverarbeitung, so dass die statistischen Modelle des Data Analysten auch auf großen Datenmengen genutzt werden können. - Die Aufgaben des Security Manager
Der Security Manager sorgt dafür, dass die Zusammenführung, Anreicherung und Analyse von Daten keine Rückschlüsse auf Einzelpersonen zulässt und damit die Persönlichkeitsrechte verletzen könnte. Der Security Manager muss also den Datenschutz organisatorisch und technisch umsetzen. - Die 5 Typen von Data Scientists im Überblick
Das Schaubild zeigt noch einmal alle 5 Typen von Data Scientists und ihre Aufgaben im Überblick.
Data Scientists schaffen auch Produkte
Genutzt wird auch Pair Programming, das Entwickeln in Zweierteams, eine Arbeitsweise, für die eine sorgfältige Dokumentation von zentraler Bedeutung ist.
Damit er und sein Team sich dabei auf den konkreten Anwendungsfall konzentrieren können ohne sich auf die Bereitstellung der benötigten Daten kümmern zu müssen, liegt das Datenmanagement in anderen Händen.
Die Rolle der Site Reliability Engineers
Wichtiger Teil des Prozesses sind 'Site Reliability Engineers', Softwareentwickler, die sicherstellen, dass neue Dienste intern zuverlässig funktionieren. Dabei bedient sich Otto eines DevOps-(Development und Operations) Ansatzes, will sagen Data Scientists sind in der Lage und auch dafür zuständig, entwickelte Lösungen selbst produktiv zu schalten.
Auch diese Idee dient dem Grundsatz, möglichst konsequent Best Practices zu etablieren. Hilfreich sind dabei Netzwerke, auf denen Wissen geteilt wird. Zu diesem Zweck gibt es auch konzerninterne Veranstaltungen sowie seit Neuestem ein internes Service Portal.
Mit Kaggle und der Open-Source-Community
Genutzt wird von Timo Duchrow und seinem Team auch Kaggle. Laut Selbstbeschreibung handelt es sich dabei um "die weltweit größte Community von Data Scientist…Die besten von ihnen werden dazu eingeladen, an den spannendsten Lösungen einiger der weltweit größten Unternehmen mitzuarbeiten."
Eines davon ist die Otto Group. Duchrow und sein Team hatten auf Kaggle zum Beispiel einen Wettbewerb gestartet, bei dem es darum ging, ein Verfahren zu entwickeln, mit dem man Produktdaten automatisiert neun verschiedenen Produktgruppen zuordnen kann.
Timo Duchrow: "Mit 3.500 Teams auf der ganzen Welt war unser Wettbewerb gemessen an der Teilnehmerzahl der bisher größte auf Kaggle."
Neben dieser eleganten Form, sich externen Know-hows zu bedienen, braucht das Data Science-Team fortlaufend neue eigene Leute. Dabei setzen sie stark auf die Open-Source-Community, und "auch durch diese Offenheit bekommen wir gute Leute", so Timo Duchrow.
Darüber hinaus, sagt Timo Duchrow, "muss man gute Leute auch gezielt ansprechen." Und zwar nicht nur Informatiker. In seinem Team finden sich auch Betriebswirte, Mathematiker, Biologen und andere Naturwissenschaftler.
Einsteiger müssen keineswegs alles, was ein Data Scientist irgendwann können muss, von Beginn an mitbringen. Vieles lernen sie On the Job, für anderes gibt es "hervorragende Online-Kurse", sagt Timo Duchrow, die von den unterschiedlichsten Institutionen angeboten werden, zum Beispiel der Stanford University.
Der Hype um Data Scientists geht vorbei
Wie werden sich sein Job und die Arbeit von Data Scientists insgesamt weiterentwickeln? "Das Feld wird reifen, die Hype-Phase ist vorbei", glaubt Timo Duchrow. "Einerseits gibt es immer mehr Best Practices, andererseits geschieht gerade im Moment methodisch unheimlich viel."
Außerdem werde in der Szene aktuell darüber diskutiert, wie man trotz der Unterschiedlichkeit der Aufgaben gemeinsame Definitionen dessen finden kann, was Data Scientists wollen und können.
Möglicherweise wird sich auch die Art, wie er und seine Leute arbeiten, deutlich verändern: "Im Moment sind wir ein zentrales Team, andere haben das nicht, sondern sie siedeln Data Scientist gezielt in den Fachbereichen an."
Duchrow gefällt dieser Ansatz gut, glaubt, dass der Trend in jedem Fall zu mehr Durchlässigkeit zwischen Abteilungen geht. "Vielleicht gibt es in fünf Jahren keine zentralen Teams mehr. Und wenn wir es schaffen, aus dem Job ein richtig gutes Handwerk zu machen, dann brauchen wir sie auch nicht mehr."
- Big Data: Neue Berufsbilder
In den teilweise euphorischen Einschätzungen von Markforschern und IT-Unternehmen ist immer wieder die Rede von neuen Berufsbildern, die Big Data mit sich bringen soll. Dazu zählen unter anderem folgende Tätigkeiten: - Data Scientist
Er legt fest, welche Analyseformen sich am besten dazu eignen, um die gewünschten Erkenntnisse zu erzielen und welche Rohdaten dafür erforderlich sind. Solche Fachleute benötigen solide Kenntnisse in Bereichen wie Statistik und Mathematik. Hinzu kommen Fachkenntnisse über die Branche, in der ein Unternehmen beziehungsweise tätig ist und über IT-Technologien wie Datenbanken, Netzwerktechniken, Programmierung und Business Intelligence-Applikationen. Ebenso gefordert sind Verhandlungsgeschick und emotionale Kompetenz, wenn es um die Zusammenarbeit mit anderen Abteilungen geht. - Data Artist oder Data Visualizer
Sie sind die "Künstler" unter den Big-Data-Experten. Ihre Hauptaufgabe besteht darin, die Auswertungen so zu präsentieren, dass sie für Business-Verantwortliche verständlich sind. Die Fachleute setzen zu diesem Zweck Daten in Grafiken und Diagramme um. - Data Architect
Sie erstellen Datenmodelle und legen fest, wann welche Analyse-Tools Verwendung finden und welche Datenquellen genutzt werden sollen. Auch sie benötigen ein umfassendes Know-how auf Gebieten wie Datenbanken, Datenanalyse und Business Intelligence. - Daten-Ingenieur
Diese Aufgabe ist stark auf die IT-Infrastruktur ausgerichtet. Der Dateningenieur ist das Big-Data-Analysesystem zuständig, also die Hard- und Software sowie Netzwerkkomponenten, die für das Sammeln und Auswerten von Daten benötigt werden. Eine vergleichbare Funktion haben System- und Netzwerkverwalter im IT-Bereich. - Information Broker
Er kann mehrere Rollen spielen, etwa die eines Datenhändlers, der Kunden Informationen zur Verfügung stellt, oder die eines Inhouse-Experten, der Datenbestände von unterschiedlichen Quellen innerhalb und außerhalb des Unternehmens beschafft. Außerdem soll er Ideen entwickeln, wie sich diese Daten nutzbringend verwenden lassen. - Data Change Agents
Diese Fachleute haben eine eher "politische" Funktion. Sie sollen bestehende Prozesse im Unternehmen analysieren und anpassen, sodass sie mit Big-Data-Initiativen kompatibel sind. Nur dann lässt sich aus solchen Projekten der größtmögliche Nutzen ziehen. Wichtig sind daher ausgeprägte Kommunikationsfähigkeiten, Verständnis für Unternehmensprozesse sowie Kenntnisse im Bereich Qualitätssicherung und Qualitätsmanagement (Six Sigma, ISO 9000).