Der Tag nach dem Interview wird für Timo Duchrow beginnen wie der vieler anderer IT-Manager: Morgens finden kurze Workshops statt, bei denen es um die Abstimmung der nächsten Schritte in zwei Projekten geht.
Also um Kommunikation, das wichtigste Element in seinem Job, wie Duchrow betont. Was nicht so selbstverständlich ist, wie es klingt. Denn darüber hinaus muss der "Head of Data Science bei Otto Group BI", der Business-Intelligence-Sparte der Otto Group, auch noch fit sein in Mathematik, Statistik und Machine Learning, also im Auswerten und Nutzen großer Datenmengen. Und er muss Software entwickeln können - sogar wenn das nur dazu dient, die entsprechende Arbeit seines Teams zu beurteilen und zu steuern.
Data Scientists sind also keine Wissenschaftler, sondern datengetriebene Projektmanager, die sowohl koordinieren als auch entwickeln.
Timo Duchrow leitet in Hamburg ein Team von fünf Data Scientists und einem Site Reliability Engineer, das 2013 unter der Führung des studierten Bioinformatikers entstand.
Framework-Projekt mit Hermes
Vier aus seinem Team haben im vergangenen Jahr gemeinsam mit der Otto Group-Konzerngesellschaft Hermes ein neues Verfahren zur Paketankündigung entwickelt.
Ziel war es, dem Empfänger auf eine Stunde genau mitteilen zu können, wann seine Sendung ankommt, Grundlage der Berechnung sind umfangreiche Prozessdaten und die Erfahrung der Hermes-Zusteller.
Genutzt wird die Technik mittlerweile nicht nur bei Hermes, sondern es entstand ein Framework, mit dessen Hilfe sich solche prediktiven Modelle auch in anderen Bereichen schnell ausrollen lassen.
"Wir haben das entwickelte Framework geopensourced und benutzen es auch intern für andere Anwendungsfälle", so Timo Duchrow, für dessen Arbeit es ganz typisch ist, aus Modellen Produkte zu formen, das heißt rolloutfähige Lösungen für den ganzen Konzern bereitzustellen.
Die früher klassische Trennung zwischen Modellierung und Umsetzung gibt es dabei nicht mehr, betont Duchrow: "Wir entwickeln immer schon von Beginn an der Praxis entlang."
Sein Team habe "einen eigenen Weg, wie wir Lösungen entwickeln, und diesen Weg wollen wir weiter ausbauen." Methodisch gehören vor allem Design Thinking und agile Verfahren wie z.B. Scrum dazu, also das Entwickeln eng an Kundenbedürfnissen in gemischten Teams, die Orientierung an Zielen statt an Pflichtenheften und das Verwenden von inkrementellen Verfahren.
Data Scientists schaffen auch Produkte
Genutzt wird auch Pair Programming, das Entwickeln in Zweierteams, eine Arbeitsweise, für die eine sorgfältige Dokumentation von zentraler Bedeutung ist.
Damit er und sein Team sich dabei auf den konkreten Anwendungsfall konzentrieren können ohne sich auf die Bereitstellung der benötigten Daten kümmern zu müssen, liegt das Datenmanagement in anderen Händen.
Die Rolle der Site Reliability Engineers
Wichtiger Teil des Prozesses sind 'Site Reliability Engineers', Softwareentwickler, die sicherstellen, dass neue Dienste intern zuverlässig funktionieren. Dabei bedient sich Otto eines DevOps-(Development und Operations) Ansatzes, will sagen Data Scientists sind in der Lage und auch dafür zuständig, entwickelte Lösungen selbst produktiv zu schalten.
Auch diese Idee dient dem Grundsatz, möglichst konsequent Best Practices zu etablieren. Hilfreich sind dabei Netzwerke, auf denen Wissen geteilt wird. Zu diesem Zweck gibt es auch konzerninterne Veranstaltungen sowie seit Neuestem ein internes Service Portal.
Mit Kaggle und der Open-Source-Community
Genutzt wird von Timo Duchrow und seinem Team auch Kaggle. Laut Selbstbeschreibung handelt es sich dabei um "die weltweit größte Community von Data Scientist…Die besten von ihnen werden dazu eingeladen, an den spannendsten Lösungen einiger der weltweit größten Unternehmen mitzuarbeiten."
Eines davon ist die Otto Group. Duchrow und sein Team hatten auf Kaggle zum Beispiel einen Wettbewerb gestartet, bei dem es darum ging, ein Verfahren zu entwickeln, mit dem man Produktdaten automatisiert neun verschiedenen Produktgruppen zuordnen kann.
Timo Duchrow: "Mit 3.500 Teams auf der ganzen Welt war unser Wettbewerb gemessen an der Teilnehmerzahl der bisher größte auf Kaggle."
Neben dieser eleganten Form, sich externen Know-hows zu bedienen, braucht das Data Science-Team fortlaufend neue eigene Leute. Dabei setzen sie stark auf die Open-Source-Community, und "auch durch diese Offenheit bekommen wir gute Leute", so Timo Duchrow.
Darüber hinaus, sagt Timo Duchrow, "muss man gute Leute auch gezielt ansprechen." Und zwar nicht nur Informatiker. In seinem Team finden sich auch Betriebswirte, Mathematiker, Biologen und andere Naturwissenschaftler.
Einsteiger müssen keineswegs alles, was ein Data Scientist irgendwann können muss, von Beginn an mitbringen. Vieles lernen sie On the Job, für anderes gibt es "hervorragende Online-Kurse", sagt Timo Duchrow, die von den unterschiedlichsten Institutionen angeboten werden, zum Beispiel der Stanford University.
Der Hype um Data Scientists geht vorbei
Wie werden sich sein Job und die Arbeit von Data Scientists insgesamt weiterentwickeln? "Das Feld wird reifen, die Hype-Phase ist vorbei", glaubt Timo Duchrow. "Einerseits gibt es immer mehr Best Practices, andererseits geschieht gerade im Moment methodisch unheimlich viel."
Außerdem werde in der Szene aktuell darüber diskutiert, wie man trotz der Unterschiedlichkeit der Aufgaben gemeinsame Definitionen dessen finden kann, was Data Scientists wollen und können.
Möglicherweise wird sich auch die Art, wie er und seine Leute arbeiten, deutlich verändern: "Im Moment sind wir ein zentrales Team, andere haben das nicht, sondern sie siedeln Data Scientist gezielt in den Fachbereichen an."
Duchrow gefällt dieser Ansatz gut, glaubt, dass der Trend in jedem Fall zu mehr Durchlässigkeit zwischen Abteilungen geht. "Vielleicht gibt es in fünf Jahren keine zentralen Teams mehr. Und wenn wir es schaffen, aus dem Job ein richtig gutes Handwerk zu machen, dann brauchen wir sie auch nicht mehr."