5 wichtige Schritte

So gelingt Big Data Governance in der Praxis

13.12.2016 von Rüdiger Eberlein
Datenschutz, Registrierung und Nachverfolgung sensibler Daten: Der Weg zu einer stringenten Governance ist steinig. Lesen Sie hier Schritt für Schritt, wie Unternehmen diese Herausforderung meistern können.
  • Juristen sollten für alle Beteiligten einen Rahmen zur legalen Verwendung von Daten im Unternehmen definieren.
  • Aufbau und Befüllung eines Datenkatalogs sind wichtige Voraussetzungen, um Daten wiederfinden zu können.
  • Datenlieferanten wollen und sollen Daten heute 1:1 in den Data Lake laden können und zwar ohne aufwendige Verarbeitung durch IT-Anwendungen
  • Weil jede Person das Recht hat, ihre personenbezogenen Daten einzusehen und löschen zu lassen, muss der Datenfluss innerhalb des Data Lake und der Folgeverarbeitung, etwa in Analytical Sandboxes, nachvollzogen werden können.

Nach welchen Regeln spielen die Verantwortlichen im Umgang mit Daten? Diese Frage rückt bei vielen Unternehmen immer mehr in den Mittelpunkt und zieht zahlreiche Detailfragen nach sich. Fünf Aspekte sind für die Verantwortlichen in Unternehmen besonders wichtig, um Wildwuchs zu vermeiden.

Dazu gehören:

  1. vertragliche Aspekte (Contract)

  2. die Registrierung (Register)

  3. der Schutz (Protect) von Daten

  4. die Vorbereitung derSaten (Prepare)

  5. und die Nachverfolgung der Daten (Trace)

Insgesamt gewinnen damit vor allem Fragen an Bedeutung, die nichts mit Technologie zu tun haben. Auch dies illustriert den Unterschied zwischen den alten Business-Intelligence- und den heutigen Big-Data-Analytics-Zeiten deutlich – mehr dazu in Teil 1 dieser Artikelserie. Die folgende Analyse erklärt, wie Unternehmen eine strukturierte Big Data Governance aufbauen können.

In der Praxis bedeutet „Governance“ zahlreiche Stationen zu durchlaufen: Unternehmen müssen ihre Daten kontinuierlich schützen, katalogisieren, bereinigen, anreichern und nachverfolgen.
Foto: Capgemini

1. Verträge: Die Rechtsabteilung gibt den Startschuss

Je wichtiger externe Daten im Kontext von Big Data Analytics werden, desto komplexer sind auch die damit verbundenen rechtlichen Aspekte. Daher sollten Juristen für alle Beteiligten einen Rahmen zur legalen Verwendung von Daten im Unternehmen definieren. Datenlizenzverträge schränken die Verwendungszwecke oder den Zeitraum der Datennutzung ein oder führen spezielle Auflagen zur Datensicherheit, -weiterverbreitung und -modifikation an. So fordert beispielsweise Twitter, dass Tweets auf Wunsch der Twitter-Nutzer binnen kurzer Zeit in allen Folgeverarbeitungen gelöscht werden müssen.

Ganz allgemein ist die Löschbarkeit personenbezogener Daten eine häufige Anforderung, die in der Datenschutzgrundverordnung der Europäischen Union (DSGVO) als sogenanntes "Recht auf Löschung" verankert ist. Löschbarkeit setzt allerdings voraus, dass sich der Datenfluss nachvollziehen lässt. Und auch technisch stellt die Löschung von Daten in NoSQL-Datenbanken häufig eine große Herausforderung für die Unternehmen dar.

2. Registrierung: So finden Unternehmen ihre Daten wieder

Im Zusammenhang mit Big Data Analytics verfolgen Unternehmen häufig den Architekturansatz des Data Lake. Ein Zweck des Data-Lake-Ansatzes ist die umfassende Sammlung interner und externer Daten. Dabei gilt das Paradigma des Teilens von Daten – mit der Community der Data Scientists und Business Analysts.

Aber selbst wenn der Data Lake umfassend gefüllt ist und die Daten geteilt sind, muss der Data Scientist erst einmal die Daten finden können, die für seine aktuelle fachliche Fragestellung relevant sind. Bei einem prall gefüllten Date Lake ist das einfacher gesagt als getan. Wie funktioniert das in der Praxis?

Zunächst müssen die Datenlieferanten die Daten initial registrieren, sobald sie in den Data Lake geladen sind. Der Aufbau und die Befüllung eines Datenkatalogs sind wichtige Voraussetzungen, um Daten wiederfinden zu können. Dem Datenkatalog zugrunde liegt erfahrungsgemäß die geschäftliche Taxonomie des Unternehmens beziehungsweise der Marktsegmente, in denen das Unternehmen agiert.

Typische Kategorien hierfür sind Geschäftsprozesse, die Customer Journey, Geschäftsfelder, Produkte, Services, die Unternehmensorganisation mit Regionen beziehungsweise Landesgesellschaften sowie die Zeit. Die Taxonomie sollte überschaubar groß und verständlich sein. Typischerweise ähnelt die Taxonomie einer Baumstruktur. Die Verschlagwortung der Dokumente übernehmen Datenlieferanten, Data Stewards oder auch Data Scientists. Sie erfolgt nicht streng nach Schubladen. Passender ist hier der Tagging-Ansatz. Das heißt: Ein Dokument kann beliebig vielen Elementen der Taxonomie zugeordnet sein. So kann beispielsweise eine Datenquelle Informationen zu mehreren Produkten aus mehreren Regionen beinhalten.

Daten richtig registrieren und damit auch wiederfinden - auch das gehört zu einer guten Governance in Sachen Big Data.
Foto: Africa Studio - shutterstock.com

Der Datenkatalog ist aber kein Selbstzweck. Vielmehr wird auf ihn eine Suchmaschine aufgesetzt, die die Informationen des Datenkatalogs indiziert. Über eine intuitive grafische Benutzerschnittstelle können Data Scientists und Business Analysts dann nach Data Assets zu bestimmten Stichworten, Facetten und weiteren Kriterien suchen. Dafür bieten sich auch leistungsfähige Werkzeuge an, deren User Experience und Treffergenauigkeit vergleichbar mit der Website des Amazon Shops ist.

Neben der Kategorisierung ist es ebenso wichtig, dass die Verantwortlichen die fachliche Bedeutung sowie die Information zum Kontext der Daten festhalten. Nur so können sie Fehlinterpretationen ausschließen und für eine effiziente Verwendung der Daten sorgen.

Unverzichtbar für Data Scientists sind Datenprofile: Sie enthalten zusätzliche Angaben zur Verteilung der Daten, Wertelisten, Typisierung, Grad der Befüllung und andere Informationen, anhand derer der Data Scientist die Verwendbarkeit der Daten schnell herausfinden kann. Einige Datenkatalogwerkzeuge können die Datenprofile automatisch aus den Daten erstellen. Weitere Angaben zur Qualität der Daten sind eher durch die Datenlieferanten oder Data Stewards anzugeben wie zum Beispiel die Korrektheit, Aktualität und Vollständigkeit.

All die oben genannten Angaben zu Datenobjekten für die Registrierung zu sammeln, wäre sehr aufwendig. Daher können Unternehmen alternativ zum klassischen Metadaten-Management neue Ansätze nutzen, um die Erfassung der Meta-Informationen weitgehend zu automatisieren. Moderne Datenkatalogwerkzeuge lernen aus den manuell getroffenen Registrierungen und können – unter anderem basierend auf Machine Learning auf den Dateninhalten für neu geladene Data Assets – selbst Vorschläge für die Kategorisierung beziehungsweise das Tagging der Daten treffen. Diese automatisch erstellten Vorschläge sind als solche erkennbar und mit Wahrscheinlichkeiten versehen. Datenlieferanten, Data Stewards oder andere Berechtigte können sie in der Folge annehmen oder verwerfen.

In jedem Fall sind die vorgeschlagenen Informationen bereits indiziert. Das bedeutet: Die Data Scientists können neu geladene Daten mit ganz kurzem Zeitversatz im Data Lake finden. Und niemand muss warten, bis Data Stewards Zeit finden, um Daten mühsam zu verschlagworten. Neben der Registrierung ist das Thema Datenschutz ein heißes Eisen: Welche Tipps die Verantwortlichen beherzigen sollten, lesen Sie im folgenden Abschnitt.

3. Datenschutz: Pseudonymisierung oder Anonymisierung sind Mittel der Wahl

Die Datenlieferanten wollen und sollen Daten heute 1:1 in den Data Lake laden können und zwar ohne aufwendige Verarbeitung durch IT-Anwendungen. Dann können Data Scientists und Business Analysts in granularer und roher Form auf die Daten zugreifen. Zu diesem Grundprinzip des Data Lake gibt es eine wichtige Ausnahme: Sensible Daten müssen geschützt werden, ehe sie in irgendeiner Weise verteilt werden.

Sensible Daten sind einerseits das geistige Eigentum des Unternehmens. Alle Beteiligten müssen diese Daten vor Industriespionage schützen. Andererseits sind alle personenbezogenen Daten sensibel. Elementar sind in diesem Zusammenhang die Vorgaben der Datenschutzgrundverordnung der Europäischen Union (DSGVO). Die EU hat diese 2016 angepasst, die neuen Regelungen treten Mitte 2018 in Kraft, ohne dass die Regierungen dieser Regelung separat zustimmen müssen. Wollen Unternehmen diese Regelung korrekt, aber dennoch aus Analytics-Sicht günstig auslegen, brauchen sie das Know-how von Rechtsabteilung und Datenschutzbeauftragtem.

Aktuell sind die bewährtesten Verfahren beim Datenschutz die Pseudonymisierung oder die Verschlüsselung personenbezogener Daten.
Foto: Wilm Ihlenfeld - shutterstock.com

Unternehmen müssen dabei folgende drei Eckpfeiler beachten:

Die DSGVO (im Englischen GDPR genannt) schlägt mit Blick auf die skizzierten Herausforderungen die Pseudonymisierung oder die Verschlüsselung personenbezogener Daten vor. Und zwar auch für alle Folgeverarbeitungen. Dies hat sich inzwischen als erprobter Lösungsansatz herauskristallisiert.

Bei der Pseudonymisierung ersetzt die IT die personenbezogenen Datenfelder wie etwa den Namen durch einen Code. Dadurch lassen sich die Daten nun nicht mehr der betreffenden Person zuordnen – außer man verfügt über den Schlüssel zur Dekodierung. Der Vorteil dieses Verfahrens ist klar: Die Unternehmen können die betreffenden Daten nach der Verarbeitung und Analyse wieder auf die reale Person zurückschlüsseln.

Das ist wiederum eine Voraussetzung, um beispielsweise Kunden gezielt anzusprechen. Der Nachteil dieses Verfahrens liegt darin, dass der Schlüssel zur Dekodierung auch Unbefugten in die Hände fallen kann. Deswegen ist auch die Anonymisierung personenbezogener Daten eine Option. Sie schließt die Rückverschlüsselung aus.

4. Vorbereitung der Daten: Der Startpunkt für die prädiktive Modellerstellung muss stimmen

"Garbage in – Garbage out": Dieses Prinzip gilt auch in der Big-Data-Analytics-Welt. Deswegen beschäftigen sich aktuell viele Unternehmen mit dem Management von Datenqualität, Stamm- und Referenzdaten sowie der Datenanreicherung. Insbesondere die Datenqualität ist für den Erfolg analytischer Anwendungsfälle wesentlich.

Einer der ersten Schritte bei der Durchführung von analytischen Anwendungsfällen ist die Datenexploration, oft auch Data Discovery genannt. Hier stöbern die Data Engineers oder Data Scientists nach Daten, die sich für den Fall eignen könnten. Dabei bewerten sie auch die Qualität der Daten. Häufig setzt beim Data-Science-Team an dieser Stelle Ernüchterung ein. Das Team verwirft einige Datenquellen wegen mangelnder Datenqualität und sucht nach alternativen Quellen. Gerade bei externen Daten muss die Datenqualität an dieser Stelle geprüft werden, denn die Qualität von Daten ist nicht pauschal gut oder schlecht.

Vielmehr hängt die Verwendbarkeit vom betreffenden Anwendungsfall ab. Um das Sentiment der Kunden zu einem Produkt zu ermitteln, können die verantwortlichen Produktmanager ein paar Prozent Fehler problemlos verkraften. Will der Vertrieb einen Kunden auf ein neues Produkt aufmerksam machen, sollte das Kundenprofil dagegen fehlerfrei sein. Diese Unterscheidung ist für Unternehmen essenziell.

Im nächsten Schritt kümmern sich die Data Engineers um die Datenvorbereitung (Data Preparation). Sie bearbeiten die Daten, indem sie fehlerhafte Daten bereinigen und Lücken auffüllen, die andernfalls die Statistik verzerren würden. Die Daten werden mit Stammdaten kombiniert (Lookup) und über die Stammdaten oder Identity-Resolution-Ansätze erfolgt dann die Verknüpfung mit weiteren Datenobjekten verschiedener Herkunft. Diesen Prozess nennen Experten Data Blending. Abschließend reichern Data Engineers und Scientists die Daten durch externe Daten wie etwa den Ort oder soziodemografische Daten an.

Bei all diesen Aufgaben funktioniert das Prinzip der Selbstbedienung am besten: Data-Science-Teams können mithilfe von modernen Self- Service-Data-Exploration- und Self-Service-Data-Preparation-Werkzeugen hier eigenständig und ohne die IT Hand anlegen. Mit Blick auf Markteinführungszeiten und die Agilität ist das der richtige Weg. Aber auch hier gilt: Die verantwortlichen Data Engineers und Scientists sollen einmal erstellte Artefakte mit nachhaltigem Wert für das Unternehmen in den Data Lake zurückspielen. Damit ermöglichen sie allen Beteiligten die Wiederverwendung. Das können zum Beispiel bereinigte Daten oder die zugrundeliegenden Regeln sein. So schaffen Data Engineers und Scientists Wert für Ihre Organisation. Allerdings brauchen Unternehmen zur Durchsetzung dieses Anliegens die Rolle des Data Stewards, manchmal auch Data Curator genannt.

5. Nachverfolgung: Den Fluss der Daten im Blick behalten

Jede Person hat – wie oben ausgeführt – nach der Datenschutzgrundverordnung das Recht, ihre personenbezogenen Daten einzusehen oder auch löschen zu lassen. Deswegen muss auch der Datenfluss innerhalb des Data Lake und der Folgeverarbeitung, etwa in Analytical Sandboxes, nachvollzogen werden können. Zu diesem Zweck empfiehlt es sich, die sogenannte Data Lineage zu erheben.

Das bedeutet, dass der gesamte Datenfluss in einem sogenannten Data Dictionary protokolliert wird. Dazu gehören die ursprüngliche Quelle der Daten, alle Transfer-Aktivitäten und auch die Modifikation der Daten bis hin zur Analyse. Idealerweise erledigen das die verwendeten Tools automatisch.

Entwickler, Data Stewards oder Datenschutzbeauftragte können später die Data Lineage Information abfragen oder über grafische Benutzeroberflächen visualisieren. Grundsätzlich bieten die Hersteller von Datenplattformen (speziell Hadoop), Werkzeugen für Datenintegration, Datenvorbereitung und anderer Werkzeugkategorien dieses Feature an. Die IT muss allerdings die verschiedenen Werkzeuge hinsichtlich der Data Lineage orchestrieren und das führt in der Praxis nicht selten zu Problemen.

Fazit

Damit sich die Magie der Data Science entfalten kann, ist Einiges zu tun. Unternehmen müssen ihre Daten schützen, katalogisieren, bereinigen, anreichern und nachverfolgen. Und ehe die Arbeit beginnt, müssen Unternehmen auch die Rechtslage zur Verwendung der Daten abklären. Warum sich diese Arbeit lohnt und ohne eine durchgängige Big Data Governance oftmals das Chaos droht, lesen Sie in Teil 1 dieser Artikelserie.