Data-Science-Projekte

So scheitert Datenwissenschaft

13.12.2021

Bob Violino arbeitet als freier IT-Journalist für InfoWorld und Network World in den USA.

1. Miese Datenqualität

Schlechte Daten sorgen für schlechte Data Science. Es ist deshalb entscheidend, ausreichend Zeit zu investieren, um sicherzustellen, dass die Daten von hoher Qualität sind. Das gilt für jedes analytische Vorhaben - so auch, wenn es um Datenwissenschaft geht.

"Schlechte oder verunreinigte Daten machen Data-Science-Initiativen unmöglich", weiß Neal Riley, CIO beim Beratungsunternehmen Adaptavist: "Sie müssen sicherstellen, dass Ihre Daten für Analysen geeignet sind. Sind sie das nicht, ist es reine Zeitverschwendung." Kämen schlechte Daten für Data-Science-Projekte zum Einsatz, führe das zu Modellen, "die seltsame Ergebnisse liefern und an der Realität vorbeigehen", so Riley.

Die Datenqualität kann auch aufgrund von Verzerrungen oder Diskrepanzen in den Datasets leiden. "Bei einigen Unternehmen gibt es mehrere Systeme, die für den Betrieb des Unternehmens genutzt werden", weiß Brandon Jones, CIO beim Versicherer WAEPA. "Bei alteingesessenen Unternehmen gibt es vielleicht sogar Altsysteme, auf die immer noch aus Referenz- oder Validierungsgründen zugegriffen wird. In vielen Fällen hat sich das Geschäft mit jedem System verändert, was zu unterschiedlichen Prozessen und Zählungsarten von Metriken innerhalb des Unternehmens führt."

Dies könne eine der Hauptursachen für das Scheitern von Data Science sein, meint der CIO. Die Ergebnisse könnten aufgrund von Doppelzählungen, die auf einem modifizierten Geschäftsprozess basieren, aufgebläht werden. "Um dieses Problem zu lösen, müssen Unternehmen ihr Data-Analytics-Programm auf ein bestimmtes Niveau bringen. Das bedeutet, dass ein bestimmtes Datum festgelegt werden muss, an dem die Daten validiert werden und alle Beteiligten sich dem gemeinsamen Standard verpflichten."

2. Problemdefinition nicht existent

Wie kann eine Data-Science-Initiative erfolgreich sein, wenn das Team das Problem, das es lösen soll, nicht versteht? Trotzdem werden Data-Science-Teams in Projekten damit konfrontiert: "Die Definition eines Problems wird oft den Datenwissenschaftlern überlassen, obwohl diese eigentlich Business Cases umfasst, die sowohl den Umfang der Arbeit als auch den potenziellen Return on Investment definieren", erklärt Michael Roytman, Chief Data Scientist beim Cybersicherheitsunternehmen Kenna Security.

Business-Anwender, die Data Science nutzen wollen, müssten bohrende Fragen zum Problem stellen, das sie zu lösen versuchen, meint Marc Johnson, Senior Advisor bei der Beratungsfirma Impact Advisors: "Wie bei jedem Projekt sollten Sie sich die Zeit nehmen, den Umfang des Problems einzugrenzen, um die richtigen Quellen für die Daten zu identifizieren." Der Berater berichtet von einem Projekt, das sich zwei Jahre lang ohne eine klare Richtung hinzog, "weil das Problem, das wir zu lösen versuchten, unscharf definiert war".

3. Relevante Daten Mangelware

Ein weiterer Weg zum Data-Science-Fail führt darüber, nicht die richtigen Daten bereitzustellen, die zur Lösung eines bestimmten Problems benötigt werden. Es hilft dabei nicht, eine enorme Datenmenge auf ein Problem zu werfen.

"Vielerorts besteht die Annahme, dass große Datenmengen zu Erkenntnissen führen, was eigentlich selten der Fall ist", sagt Roytman. "Intelligente, maßgeschneiderte und oft kleinere Datensätze sind es viel eher, die robuste und wiederverwendbare Modelle liefern."

Um einen Nutzen aus Data Science zu ziehen, sollten Daten idealerweise nur aus relevanten Quellen stammen, empfiehlt Johnson. Müssten Daten aus verschiedenen Quellen gesammelt oder zugekauft werden, sollten die Teams sicherstellen, dass Änderungen an den Daten die Ergebnisse nicht verfälschen und die Qualität des gesamten Datensatzes beeinträchtigen. Dabei müssten sie auch sicherstellen, dass es keine datenschutzrechtlichen, rechtlichen oder ethischen Probleme mit dem Datensatz gibt.

4. Unzureichende Datentransparenz

Die Teams müssen die Daten, die sie zur Erstellung eines bestimmten Modells verwendet haben, transparent darstellen. "Data-Science-Projekte scheitern, wenn das Modell nicht vertrauenswürdig oder die Lösung unverständlich ist", meint Jack McCarthy, CIO der Justiz des US-Bundesstaates New Jersey: "Um das zu verhindern, müssen Sie in der Lage sein, den Stakeholdern, die möglicherweise nicht über die technischen oder statistischen Kenntnisse verfügen, ein Bild davon zu vermitteln."

Datenwissenschaftler müssten erklären, woher die Daten stammen, was sie zur Berechnung von Modellen beigetragen haben und auch Zugang zu allen relevanten Daten gewähren: "Transparenz kann der Schlüssel zu einem erfolgreichen Projekt sein", so der CIO.

5. Unsicherheiten inakzeptabel

Manchmal ist der Fachbereich, der Insights fordert, oder auch das Data-Science-Team selbst, einfach nicht bereit, Ergebnisse als unsicher, unklar oder nicht aussagekräftig genug für eine Business-Anwendung zu betrachten. "Es ist eine ebenso akzeptable und wertvolle Antwort, zu sagen: 'Das Modell ist nicht gut genug, um einen ROI für das Unternehmen zu generieren'", sagt Roytman.

Das Data-Science-Team bei Kenna Security verbrachte zwei Monate damit, ein Modell zur Klassifizierung von Schwachstellen zu entwickeln, erzählt Roytman. "Das Modell funktionierte und war eine solide Antwort auf ein Problem. Aber es funktionierte nicht gut genug, um für unsere Kunden wertvoll zu sein. Die Genauigkeit ließ zu wünschen übrig. Also haben wir das Projekt eingestellt, obwohl wir Zeit investiert und ein Ergebnis erzielt hatten."

6. Kein Executive Champion

Data-Science-Bemühungen brauchen einen Champion in der C-Suite, damit die Projekte ausreichend Ressourcen und Unterstützung erhalten.

"Es hilft, wenn es der CIO ist", sagt Riley. "Selbst wenn CIOs nicht die internen Champions für Data Science sind, sollten sie für die Sicherheit aller beteiligten Daten verantwortlich sein. Aber das Engagement sollte weitergehen: Die Aufgabe eines modernen CIOs würde ich darin sehen, das Beste aus den erfassten Informationen herauszuholen. All diese Daten lassen sich intelligent nutzen, um zu lernen. So können CIOs ihre Organisationen funktionsübergreifend unterstützen."

7. Mitarbeitermangel

Ein Skill Gap plagt viele Aspekte der IT, dabei macht Data Science keine Ausnahme. Viele Unternehmen verfügen nicht über die entsprechenden Fachkräfte, um Projekte im Bereich der Datenwissenschaft aufrechtzuerhalten oder den maximalen Nutzen aus ihnen zu ziehen. "Echte Datenwissenschaftler sind sehr gefragt, schwer zu bekommen und teuer", weiß Tracy Huitika, CIO of Engineering and Data beim Automatisierungsanbieter Beanworks. "Die Position erfordert normalerweise einen Doktortitel in Physik oder Naturwissenschaften sowie die Fähigkeit, Code in R und Python zu schreiben."

Einer der Hauptgründe für das Scheitern von Data-Science-Projekten sei der Mangel an operativem Talent, so Johnson. "Einen brillanten Datenwissenschaftler zu nutzen, um das Modell zu erstellen, ohne dabei einen Plan für den Betrieb der kontinuierlichen Verbesserung mit Anpassungen an Markt- und Datenveränderungen zu haben, ist, als würde man ein Auto konstruieren und die Schlüssel einem Zehnjährigen geben."

Unternehmen müssten sich die richtigen Fähigkeiten aneignen, um das Modell zu pflegen, nachdem es in Produktion gegangen ist, entweder durch die Einstellung von Fachkräften oder indem sie externe Experten heranziehen, meint der Berater.

8. Data Science ist nicht die Lösung

Es sollte wohlüberlegt sein, ob und wenn ja welche Data-Science-Methoden, -Prozesse und -Tools eingesetzt werden, um sicherzustellen, dass die Lösung zum Problem passt. "Vielleicht brauchen Sie gar kein Machine-Learning-, sondern nur ein einfaches Regressionsmodell," merkt Riley an. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com.

Platz 1: Security-Experten
Experten in der IT-Security können mit einem Jahresgehalt von 74.300 Euro rechnen.
Platz 2: KI-Architekten
KI-Architekten verdienen durchschnittlich 69.500 Euro im Jahr.
Platz 3: DevOps Engineers
DevOps Engineers nehmen den dritten Platz im Gehaltsranking ein: 66.200 Euro im Jahr.
Platz 4: Data Scientists
Der beliebte Job des Data Scientist kann 65.500 Euro im Jahr versprechen.
Platz 5: Data Engineers
Data Engineers richten Datenbanken ein und bekommen dafür ein Jahressalär von 59.300 Euro.
Platz 6: Backend- und Frontend-Entwickler Fullstack
Entwickler im Back- und Frontend können mit 57.000 Euro im Jahr rechnen.
Platz 7: Web Developer
Web Developer entwickeln interne Netzwerke und können dafür bis zu 48.700 Euro verdienen.
Platz 8: Fachinformatiker für Daten und Prozessanalyse
Fachinformatiker und -informatikerinnen für Daten und Prozessanalyse verdienen im Schnitt 47.400 Euro.
Platz 9: Kaufleute für Digitalisierungsmanagement
Die neue Berufsbezeichnung "Kaufleute für Digitalisierungsmanagement" meint das Jobprofil des Informatikkaufmanns- beziehungsweise der -kauffrau und schneitet mit 45.750 Euro am schlechtesten im Ranking der beliebtesten IT-Berufe ab.

Projektmanagement

Data-Science-Projekte

So scheitert Datenwissenschaft

1. Miese Datenqualität

2. Problemdefinition nicht existent

3. Relevante Daten Mangelware

4. Unzureichende Datentransparenz

5. Unsicherheiten inakzeptabel

6. Kein Executive Champion

7. Mitarbeitermangel

8. Data Science ist nicht die Lösung

CIO Magazin

Projektmanagement

1. Miese Datenqualität

2. Problemdefinition nicht existent

3. Relevante Daten Mangelware

4. Unzureichende Datentransparenz

5. Unsicherheiten inakzeptabel

6. Kein Executive Champion

7. Mitarbeitermangel

8. Data Science ist nicht die Lösung

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor