5 wichtige Schritte

So gelingt Big Data Governance in der Praxis



Rüdiger Eberlein ist Berater und Architekt bei Capgemini.
Datenschutz, Registrierung und Nachverfolgung sensibler Daten: Der Weg zu einer stringenten Governance ist steinig. Lesen Sie hier Schritt für Schritt, wie Unternehmen diese Herausforderung meistern können.
  • Juristen sollten für alle Beteiligten einen Rahmen zur legalen Verwendung von Daten im Unternehmen definieren.
  • Aufbau und Befüllung eines Datenkatalogs sind wichtige Voraussetzungen, um Daten wiederfinden zu können.
  • Datenlieferanten wollen und sollen Daten heute 1:1 in den Data Lake laden können und zwar ohne aufwendige Verarbeitung durch IT-Anwendungen
  • Weil jede Person das Recht hat, ihre personenbezogenen Daten einzusehen und löschen zu lassen, muss der Datenfluss innerhalb des Data Lake und der Folgeverarbeitung, etwa in Analytical Sandboxes, nachvollzogen werden können.

Nach welchen Regeln spielen die Verantwortlichen im Umgang mit Daten? Diese Frage rückt bei vielen Unternehmen immer mehr in den Mittelpunkt und zieht zahlreiche Detailfragen nach sich. Fünf Aspekte sind für die Verantwortlichen in Unternehmen besonders wichtig, um Wildwuchs zu vermeiden.

Dazu gehören:

  1. vertragliche Aspekte (Contract)

  2. die Registrierung (Register)

  3. der Schutz (Protect) von Daten

  4. die Vorbereitung derSaten (Prepare)

  5. und die Nachverfolgung der Daten (Trace)

Insgesamt gewinnen damit vor allem Fragen an Bedeutung, die nichts mit Technologie zu tun haben. Auch dies illustriert den Unterschied zwischen den alten Business-Intelligence- und den heutigen Big-Data-Analytics-Zeiten deutlich – mehr dazu in Teil 1 dieser Artikelserie. Die folgende Analyse erklärt, wie Unternehmen eine strukturierte Big DataBig Data Governance aufbauen können. Alles zu Big Data auf CIO.de

In der Praxis bedeutet „Governance“ zahlreiche Stationen zu durchlaufen: Unternehmen müssen ihre Daten kontinuierlich schützen, katalogisieren, bereinigen, anreichern und nachverfolgen.
In der Praxis bedeutet „Governance“ zahlreiche Stationen zu durchlaufen: Unternehmen müssen ihre Daten kontinuierlich schützen, katalogisieren, bereinigen, anreichern und nachverfolgen.
Foto: Capgemini

1. Verträge: Die Rechtsabteilung gibt den Startschuss

Je wichtiger externe Daten im Kontext von Big Data Analytics werden, desto komplexer sind auch die damit verbundenen rechtlichen Aspekte. Daher sollten Juristen für alle Beteiligten einen Rahmen zur legalen Verwendung von Daten im Unternehmen definieren. Datenlizenzverträge schränken die Verwendungszwecke oder den Zeitraum der Datennutzung ein oder führen spezielle Auflagen zur Datensicherheit, -weiterverbreitung und -modifikation an. So fordert beispielsweise Twitter, dass Tweets auf Wunsch der Twitter-Nutzer binnen kurzer Zeit in allen Folgeverarbeitungen gelöscht werden müssen.

Ganz allgemein ist die Löschbarkeit personenbezogener Daten eine häufige Anforderung, die in der Datenschutzgrundverordnung der Europäischen Union (DSGVO) als sogenanntes "Recht auf Löschung" verankert ist. Löschbarkeit setzt allerdings voraus, dass sich der Datenfluss nachvollziehen lässt. Und auch technisch stellt die Löschung von Daten in NoSQL-Datenbanken häufig eine große Herausforderung für die Unternehmen dar.

2. Registrierung: So finden Unternehmen ihre Daten wieder

Im Zusammenhang mit Big Data Analytics verfolgen Unternehmen häufig den Architekturansatz des Data Lake. Ein Zweck des Data-Lake-Ansatzes ist die umfassende Sammlung interner und externer Daten. Dabei gilt das Paradigma des Teilens von Daten – mit der Community der Data Scientists und Business Analysts.

Aber selbst wenn der Data Lake umfassend gefüllt ist und die Daten geteilt sind, muss der Data Scientist erst einmal die Daten finden können, die für seine aktuelle fachliche Fragestellung relevant sind. Bei einem prall gefüllten Date Lake ist das einfacher gesagt als getan. Wie funktioniert das in der Praxis?

Zunächst müssen die Datenlieferanten die Daten initial registrieren, sobald sie in den Data Lake geladen sind. Der Aufbau und die Befüllung eines Datenkatalogs sind wichtige Voraussetzungen, um Daten wiederfinden zu können. Dem Datenkatalog zugrunde liegt erfahrungsgemäß die geschäftliche Taxonomie des Unternehmens beziehungsweise der Marktsegmente, in denen das Unternehmen agiert.

Typische Kategorien hierfür sind Geschäftsprozesse, die Customer Journey, Geschäftsfelder, Produkte, Services, die Unternehmensorganisation mit Regionen beziehungsweise Landesgesellschaften sowie die Zeit. Die Taxonomie sollte überschaubar groß und verständlich sein. Typischerweise ähnelt die Taxonomie einer Baumstruktur. Die Verschlagwortung der Dokumente übernehmen Datenlieferanten, Data Stewards oder auch Data Scientists. Sie erfolgt nicht streng nach Schubladen. Passender ist hier der Tagging-Ansatz. Das heißt: Ein Dokument kann beliebig vielen Elementen der Taxonomie zugeordnet sein. So kann beispielsweise eine Datenquelle Informationen zu mehreren Produkten aus mehreren Regionen beinhalten.

Daten richtig registrieren und damit auch wiederfinden - auch das gehört zu einer guten Governance in Sachen Big Data.
Daten richtig registrieren und damit auch wiederfinden - auch das gehört zu einer guten Governance in Sachen Big Data.
Foto: Africa Studio - shutterstock.com

Der Datenkatalog ist aber kein Selbstzweck. Vielmehr wird auf ihn eine Suchmaschine aufgesetzt, die die Informationen des Datenkatalogs indiziert. Über eine intuitive grafische Benutzerschnittstelle können Data Scientists und Business Analysts dann nach Data Assets zu bestimmten Stichworten, Facetten und weiteren Kriterien suchen. Dafür bieten sich auch leistungsfähige Werkzeuge an, deren User Experience und Treffergenauigkeit vergleichbar mit der Website des Amazon Shops ist.

Zur Startseite