Datenqualität messen

3 Metriken, auf die es bei DataOps ankommt

07.11.2022 von Isaac Sacolick

Auf die Datenqualität kommt es an: Datengetriebene Entscheidungen brauchen Daten, die vertrauenswürdig, verfügbar und aktuell sind.

Geht es darum, die Datenqualität zu messen, stellt sich die Frage: Wo fängt man an und welche Verbesserungen und Messgrößen sollen priorisiert werden?
Foto: Underawesternsky - shutterstock.com

Um - jegliche Art von - Qualität messen zu können, müssen Messgrößen oder KPIs für subjektive Eigenschaften in quantifizierbare Attribute gewandelt werden. Qualitätsmessungen sollten ein Mittel sein, um Optimierungen in Zusammenhang mit Operations und Delivery voranzutreiben. Das ist jedoch mit Kosten verbunden und erfordert je nach Anzahl der Messgrößen den Einsatz von Ressourcen.

Die Kunst besteht dabei darin, die Metriken auszuwählen, die die signifikantesten Auswirkungen auf das Business haben. Schlechte Qualität zu erkennen, ist in der Regel kein Problem - gute Qualität zu definieren aber höchst subjektiv. Gut definierte Qualitätsmetriken unterstützen dabei, schlechte Qualität zu definieren und festzustellen, um wie viel besser etwas sein muss, um von guter zu besserer und letztendlich zu Spitzenqualität zu kommen.

Die Datenqualität zu managen, ist mit denselben Herausforderungen verbunden. Wenn Experten eine Datenvisualisierung betrachten oder die Ergebnisse eines Machine-Learning-Modells untersuchen, erkennen sie dabei oft Probleme mit der Datenqualität, die die Resultate untergraben. Zu den häufigsten Problemen im Bereich der Datenqualität gehören:

fehlende Daten (etwa Adressen ohne Postleitzahlen) und
Data-Normalization-Probleme (beispielsweise Abkürzungen).

Datenqualität verbessern: Der Shift-Left-Ansatz

Ein Ansatz, um die Datenqualität zu optimieren besteht darin, die Schritte, die nötig sind, um Verbesserungen zu messen und zu automatisieren als DataOps-Praxis "nach links zu verschieben". DataOps fokussiert darauf, Daten zu integrieren, umzuwandeln, zu verknüpfen und für die Nutzung bereitzustellen. Deshalb bietet es sich an, an dieser Stelle auch Probleme in Sachen Datenqualität zu messen und zu beheben. Das gewährleistet, dass alle nachgelagerten Analysen, Visualisierungen und ML-Anwendungsfälle auf konsistenten und qualitativ hochwertigen Datenquellen aufsetzen.

Der Blick auf aktuelle Forschungsergebnisse und Beiträge zum Thema fördert viele Metriken zu Tage, die Sie in Sachen Datenqualität berücksichtigen sollten. Die sechs am häufigsten verwendeten Kategorien von Datenqualitätsmetriken sind:

Genauigkeit
Vollständigkeit
Konsistenz
Aktualität
Einzigartigkeit
Validität

Bei der Messung der Datenqualität in Data Warehouses und Datenbanken sind intrinsische Datenqualitätsdimensionen wie die Konsistenz unabhängig von den Anwendungsfällen. Extrinsische Dimensionen wie die Zuverlässigkeit können hingegen von der Analyse abhängen. Im Vergleich zu absoluten Messgrößen stellt eine Messung der Datenqualität im Verhältnis (etwa das Verhältnis von Daten zu Fehlern) einen besseren Mechanismus dar, um Qualitätsverbesserungen zu tracken. Die schwierige Frage dabei: Wo fängt man an und welche Verbesserungen und Messgrößen sollen priorisiert werden? Wir haben mit Experten auf diesem Gebiet gesprochen, um Antworten zu finden.

Datenqualität: Vertrauen aufbauen

"60 Prozent der Führungskräfte vertrauen den Daten, mit denen sie arbeiten, nicht durchgängig - ein höchst problematisches Anliegen für Unternehmen, die stärker auf datengestützte Entscheidungsfindung setzen möchten", meint Simon Swan, Head of Field Solutions Strategy beim Datenspezialisten Talend.

Der Experte schlägt DataOps-Teams vor, zunächst den Datenqualitätsmetriken Genauigkeit, Vollständigkeit und Usability zu priorisieren. So ließe sich sicherstellen, dass die Benutzer verifizierbare Erkenntnisse erlangen, die das Unternehmen voranbringen.

Diese Data-Health-Praktiken können DataOps-Teams auf verschiedene Art und Weise instrumentalisieren:

Die Genauigkeit lässt sich verbessern, indem referenzierbare Datenquellen integriert und Konflikte durch automatisierte Regel-und-Ausnahme-Workflows aufgelöst werden.
Vollständigkeit ist ein wichtiger Qualitätsmaßstab für Entitätsdaten wie Personen und Produkte. Master Data Managemet und Customer Data Platforms können dabei unterstützen, Goldstandards unter Verwendung mehrerer Datenquellen zu zentralisieren und zu vervollständigen.
Die Usability wird durch die Vereinfachung von Datenstrukturen, die Zentralisierung des Zugriffs und die Dokumentation von Datenwörterbüchern in einem Datenkatalog verbessert.

"Data Trust verleiht DataOps-Teams ein gewisses Maß an operativer Belastbarkeit und Agilität, die Business-Anwendern faktenbasierte Einblicke ermöglicht, um Business Outcomes zu optimieren", fügt Swan hinzu.

Fokus auf Daten- und Systemverfügbarkeit

Die gute Nachricht: Je mehr Führungskräfte ihren Daten vertrauen, desto eher werden sie diese für Entscheidungen, Analysen und Prognosen nutzen. Damit einher geht die Erwartungshaltung, dass Daten, Netzwerk und Systeme für den Zugriff auf wichtige Datenquellen verfügbar sind und zuverlässig funktionieren.

"Die wichtigste Kennzahl für die Datenqualität, der DataOps-Teams Priorität einräumen sollten, ist die Verfügbarkeit", meint Ian Funnell, Manager of Developer Relations beim Datenunternehmen Matillion, und fügt hinzu: "Die Datenqualität beginnt bei den Quelldaten. Sie sind es, die heute die Geschäftsabläufe steuern." Laut Funnell müssten DataOps-Teams auch beweisen, dass sie Daten- und Systemverbesserungen vorantreiben können: "DataOps befasst sich damit, den Lebenszyklus der Datenverarbeitung zu automatisieren und die Datenintegration voranzutreiben. Idealerweise ermöglicht sie es, die Datenverarbeitung schnell und zuverlässig zu verändern."

Barr Moses, CEO und Mitbegründer von Monte Carlo Data, teilt diese Einschätzung: "Ich habe im Laufe der Jahre mit Hunderten von Datenteams darüber gesprochen, wie sie die Auswirkungen der Datenqualität messen. Dabei habe ich festgestellt, dass vor allem zwei Schlüsselmetriken eine gute Grundlage darstellen: die Zeit bis zur Erkennung von Datenausfällen und die Zeit bis zu deren Behebung." Moses weiß auch, wie DataOps-Teams Ausfallzeiten messen können: "Datenausfallzeiten beziehen sich auf jeden Zeitraum, der durch defekte, fehlerhafte oder anderweitig ungenaue Daten gekennzeichnet ist. Sie können gemessen werden, indem man die Zeit bis zur Erkennung (Time to Detect, TTD) und die Zeit bis zur Behebung (Time to Resolve, TTR) addiert und mit der für die Lösung des Problems aufgewendeten, technischen Zeit multipliziert."

Ausfallzeiten zu messen, ist ein Ansatz, um einen an die finanzielle Performance gekoppelten Leistungsindikator für DataOps zu schaffen. "Inspiriert von bewährten DevOps-Messungen erleichtern TTD, TTR und Datenausfallzeiten die Quantifizierung der finanziellen Auswirkungen einer schlechten Datenqualität auf das Endergebnis eines Unternehmens", resümiert Moses.

Differenzierung durch Realtime-DataOps

Laut Kunal Agarwal, Mitbegründer und CEO von Unravel Data, müssten DataOps-Teams über den Tellerrand der grundlegenden Datenqualitäts- und Verfügbarkeits-Metriken hinausblicken und verstärkt Echtzeitfunktionen anstreben: "Während sich die meisten Datenqualitätsmetriken auf Genauigkeit, Vollständigkeit, Konsistenz und Integrität konzentrieren, ist die Aktualität der Daten eine weitere Kennzahl, die jedes Dataops-Team priorisieren sollte."

Die Aktualität erfasse den durchgängigen Datenfluss von der Erfassung über die Verarbeitung bis hin zur Verfügbarkeit, einschließlich Verzögerungen bei Lieferanten und Stapelverarbeitung, erklärt Agarwal: "Zuverlässige Aktualitätsmetriken erleichtern es, SLAs zu bewerten und durchzusetzen und bieten letztlich eine direkte Verbindung zu verbesserten und beschleunigten Datenanalysen."

Auch Talend-Mann Swan hält es für wichtig, die Aktualität der Daten zu optimieren: "DataOps sollten sich auch darauf konzentrieren, Geschwindigkeit und Aktualität zu garantieren, damit die Benutzer in jeder Umgebung auf aktuelle Daten zugreifen können. Die Daten sind nur so gut wie ihre Fähigkeit, nahezu in Echtzeit mit den geschäftlichen Anforderungen Schritt zu halten." (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.