Interview
Warum Data Scientists für Arbeitgeber so wichtig sind
Datenwissenschaftler laufen zur Hochform auf, wenn sie die Kernprozesse ihres Arbeitgebers selbst erlebt und bearbeitet haben, zeigen sich Manager Holger Clever und sein Data Scientist Achim Strunk im COMPUTERWOCHE-Interview überzeugt.
Welche Fähigkeiten zeichnen einen Data Scientist aus?
Holger Clever: "Zunächst denkt man unwillkürlich an Programmierkenntnisse, fundiertes Know-how aus Statistik und Mathematik sowie Fachexpertise. Uns ist in der Praxis allerdings ein weiteres Element wichtig: die kommunikative Komponente. Diese zielt darauf ab, dass ein Data Scientist in der Regel Modelle entwickelt, die bei entsprechender Eignung ganze Geschäftsprozesse entwickeln, verändern oder gar ersetzen können.
Nur ist es utopisch zu glauben, dass dies allein im stillen Kämmerchen passiert. Das funktioniert nur, wenn der Data Scientist im ständigen Austausch mit seinen beruflichen Mitstreitern ist und ihnen klar machen kann, was er an Erkenntnissen gefunden und warum es einen Einfluss auf die Geschäftsabläufe hat. Wir haben bei uns beste Erfahrungen gemacht, wenn die Analysten den Kernprozess selbst erleben und bearbeiten: den Energiehandel.
Die Frage, was man besser, effizienter oder automatisierter machen kann, kann nur derjenige beantworten, der selbst am Steuer gesessen hat und die möglichen Defizite kennt. Ein in sich gekehrter, kommunikationsschwacher Analyst wird sich schwertun, Fortschritte und Anerkennung zu erzielen. Die Fähigkeit, die Ergebnisse auf einer Ebene zu abstrahieren, die Entscheidungen ermöglicht, ist aus unserer Sicht eine der wichtigsten Fähigkeiten des Data Scientist, die ihn vom Data Engineer unterscheidet."
Wie sieht der Alltag eines Datenwissenschaftlers aus?
Achim Strunk: "Der Alltag eines Data Scientist mag auf den ersten Blick trocken aussehen, da große Teile der Erforschung geeigneter Methoden zur Beantwortung einer spezifischen Frage aus umfassender Datenaufbereitung, der Entwicklung von Programmcode und der Auswertung der Ergebnisse besteht. Auf den ersten Blick unterscheidet sich die Arbeit also nicht zu sehr von einem Software-Entwickler. Im optimalen Fall hat der Data Scientist aber einen umfassenden Blick auf die strategischen und operativen Prozesse des Unternehmens und hat Einblick in die Produktentwicklung oder sogar maßgeblichen Einfluss darauf. Somit ist seine Teilnahme an der Projektsteuerung ebenfalls Teil seines Alltags."
Welches Know-how braucht er im Alltag?
Strunk: "Der Data Scientist sollte ein umfassendes Fachverständnis ("Domain-Know-how") aufbauen. Um die daraus entstehenden Produkt- und Lösungsideen in entsprechende Methoden und Modelle zu gießen, bedarf es weiterer Fähigkeiten aus der Softwareentwicklung oder zumindest der Bedienung entsprechender Tools, sowie der Möglichkeit, statistische Methoden zu beurteilen und ihre Ergebnisse evaluieren und beurteilen zu können.
Durch die Vielzahl der Möglichkeiten, Daten mit Methoden des maschinellen Lernens zu verknüpfen, ist ein guter Überblick über die bestehende Tool-Landschaft und das Beherrschen von Programmiersprachen Voraussetzung. Eine kontinuierliche Fortbildung diesbezüglich und Freiheiten, Dinge einfach mal auszuprobieren, bergen unserer Meinung nach mehr Chancen für das Unternehmen als Risiken. Das setzt aber natürlich bei den Unternehmen auch die Bereitschaft voraus, Fehlentwicklungen zuzulassen und sie nicht als Versagen, sondern als Lernprozess zu verbuchen."
Welche Fähigkeiten muss der Data Scientist für seine Position im Unternehmen mitbringen? Welche lernt er im Job?
Strunk: "Eine robuste Ausbildung in Statistik ist sicher die wichtigste Grundlage für eine erfolgreiche Nutzbarmachung von Daten. Gegenüber der Situation von vor zehn Jahren kann sich ein Data Scientist hinsichtlich der Codeentwicklung beinahe in ein gemachtes Nest legen, da es inzwischen eine große Bandbreite an etablierten Tools gibt. Selbstverständlich ist ein Talent zur Programmierung wichtig. Die in den Unternehmen eingesetzten Programmiersprachen oder Arbeitsumgebungen unterscheiden sich allerdings stark, so dass dies sicher ein Aspekt ist, bei dem man als Unternehmen in einen Data Scientist investieren muss.
Dies gilt natürlich in ähnlicher Weise für das fachspezifische Know-how. Letzteres wird umso bedeutender, je mehr die Intuition für den geeigneten Lösungsweg bei der Modellentwicklung gefordert ist. Dies ist bei näherer Betrachtung dann auch eine der Kernaufgaben eines Data Scientist: das Pareto-Optimum des Lösungswegs zu finden. Dies stellt in Zeiten der Vielfalt der Methoden des Maschinellen Lernens von linearer Regression bis zu Deep Learning eine große Herausforderung dar. Schließlich sind die komplexen, nicht-linearen Schlachtschiffe wie neuronale Netze zwar dazu in der Lage, bei entsprechender Datenlage fast jedes Problem zu verkleinern; aber auf der anderen Seite liefern sie nur Black-Box-Methoden, das heißt die gelernten Zusammenhänge sind schwer bis gar nicht zu extrahieren.
Dies wiederum macht es schwieriger, neues "Domain Know-how" zu generieren, auf dessen Basis einfachere und leichter zu implementierende Algorithmen für Folgeprobleme entwickelt werden können. Ein guter Data Scientist muss es daher schaffen, auf Basis seiner Erfahrung die richtige Methodik für das zu lösende Problem auszuwählen: so komplex wie nötig, so transparent und robust wie möglich."
In welchen Bereichen, bei welchen Themen und an welcher Stelle innerhalb der Organisationsstruktur wird der Data Scientist eingesetzt?
Clever: "Wir sind aufgrund unserer Größe weit davon entfernt, dies für große Konzerne beantworten zu können. Aufgrund der großen inhaltlichen Bandbreite des Data Scientist zwischen Data Engineer auf der einen und Produkt Manager auf der anderen Seite, wird der Data Scientist sicher häufig als Projektleiter eingesetzt. Dies gilt insbesondere für Bereiche des Business Intelligence."
Wie sieht die Zusammenarbeit mit der IT-Abteilung aus?
Strunk: "Ohne eine enge Vernetzung mit der IT-Abteilung kann die Arbeit der Dateningenieure und -forscher nicht gelingen. Dies beginnt bei der Bereitstellung der Arbeitsmaterialien und -umgebungen einschließlich Rechnerkapazität und Betriebssystem, die häufig anders aussehen, als die des 'gewöhnlichen' Mitarbeiters eines Unternehmens.
Da sich unserer Erfahrung nach innerhalb eines Projektes häufig neue Anforderungen ergeben, ist eine unkomplizierte und unbürokratische Unterstützung von Seiten der Administration hinsichtlich Ressourcen, verwendeter Software und verfügbarer Tools unerlässlich. Bei der geeigneten Implementierung beziehungsweise dem Deployment von neuen Datenmodellen, gerade bei automatisierten Lösungen, ist darüber hinaus die Unterstützung von erfahrenen Software DeveloperDeveloper gefordert, die sich häufig in den IT-Abteilungen befinden. Auch hier ist ein enger Austausch zwischen IT und Data Scientist gefordert, da die Rahmenbedingungen der IT immer auch Einfluss auf das oben angesprochene Pareto-Optimum haben." Alles zu Developer auf CIO.de
Welche Schlüsse zieht die Geschäftsführung aus der Arbeit des Datenwissenschaftlers?
Strunk: "Eine Lösung, die sich aus der neuen Nutzung von Datenmodellen ergibt, muss sich in der Regel zunächst historisch bewahrheiten und ihr Potenzial aufzeigen. Bei den meisten gängigen Anwendungen ist ein solcher Backtest möglich, wenn ausreichend Daten zur Verfügung stehen. Dies dient dazu, eine generelle Repräsentativität der häufig aus vergangenen Daten gelernten Zusammenhänge für die Zukunft zu bewerten.
Stellt sich ein Algorithmus in der Vergangenheit als dauerhaft nützlich heraus, fällt die Entscheidung des Managements für das Ausrollen natürlich leichter. Der Data Scientist hat gerade bei prognostischen Modellen die entscheidende Aufgabe, das Management bei der Bewertung der Gültigkeit der Hypothese 'Vergangenheit = Zukunft' zu unterstützen. Im besten Fall lassen sich die Modelle auch live im 'Kleinen' testen, bevor dann eine echte Migration stattfindet."
Clever: "Welche Schlüsse die Geschäftsführung aus den Ergebnissen des Data Scientist zieht, hängt natürlich vom jeweiligen Projekt ab und der sich aus den Daten ergebenden Zusammenhänge. Gerade bei einfachen Algorithmen des maschinellen Lernens, die einen fachlichen Erkenntnisgewinn mit sich bringen, fallen die entsprechenden Schlussfolgerungen der Geschäftsleitung natürlich leichter. Ist hingegen die Kernbotschaft "es funktioniert super, wir wissen aber auch nicht genau, warum", verbleibt immer eine gewisse Skepsis gegenüber der präsentierten Lösung.
Die ehrliche Kommunikation der Stärken und Schwächen einer Lösung und der damit verbundenen Chancen und Risiken für das Unternehmen stellen eine der Kernherausforderungen dar. Ein auf Basis dieser Kommunikation und Präsentation aufgebautes Vertrauen in die Methoden und Algorithmen fördert im besten Sinne die Bereitschaft, Altes durch Neues zu ersetzen."