Wildwuchs gefährdet Geschäftserfolg

Ohne Big Data Governance droht das Chaos



Rüdiger Eberlein ist Berater und Architekt bei Capgemini.

Alle Absprachen und Regelungen zwischen den Vertretern von Fachbereich, Rechtsabteilung und IT drehen sich um den Umgang mit Daten. Daher lohnt sich hier noch eine genauere Analyse: Welche Daten spielen derzeit in deutschen Unternehmen eine Rolle? Wo sind die Daten zu finden? Und wozu nutzen die einzelnen Akteure diese Daten?

Die Governance erstreckt sich auf eine große Bandbreite von Daten. Ganz besonders wichtig für Unternehmen sind externe Datenanbieter, die unter anderem folgende Kategorien an Datenquellen offerieren: Soziale Medien und Foren, Clickstream eigener Webseiten, Content von Webseiten Dritter, Mobile Apps Tracking, Umfragen, Geschäftspartnerdaten, saisonale und Ereignisdaten, Wetter-, Klima- und soziodemographische Daten, Marktdaten und Open Data. In manchen Situationen arbeiten Unternehmen auch mit sogenannten Data Brokers zusammen, die interessante Daten bereits vorgefiltert und -verarbeitet anbieten.

Was passiert nun mit den Daten? Typischerweise laden die Verantwortlichen die Daten einmalig, regelmäßig oder auch kontinuierlich (Streaming). Manche Daten sind flüchtig, aber die meisten werden doch in einer Datenbasis persistent gehalten. Das gängige Datenarchitekturkonzept hierfür ist der Data Lake, häufig in Kombination mit angeschlossenen Sandboxes. Ein elementares Grundprinzip des Data Lake ist es, die Quelldaten in roher Form – also ohne Verarbeitung – zu laden und für die Data Scientists bereitzustellen. Diesen Vorgang bezeichnet man als Data Ingestion. Er steht in Abgrenzung zum klassischen Extract-Transform-Load-Prozess und bedeutet für die IT nur minimalen Aufwand. Das wirkt sich wiederum positiv auf die geforderte Agilität aus.

Die Sandboxes dienen der Entwicklung einzelner analytischer Anwendungsfälle. Data Scientists laden dafür relevante Daten in die Sandbox, also kleine Ausschnitte des Data Lake. Um die spezifischen Anforderungen ihres Anwendungsfalls bestmöglich abbilden zu können, haben sie meist die volle Kontrolle über das Toolset der Sandbox. Und genau deshalb ist eine funktionierende Governance wichtig: Erfahrungsgemäß geraten an dieser Stelle die Daten potenziell aus der Kontrolle. Daher sollten Unternehmen einen Mechanismus und Prozess implementieren, der dafür sorgt, dass die Daten in der Sandbox am Ende des Proof-of-Concept verlässlich gelöscht werden.

Datenhaltung und -verteilung sind zentrale Bausteine der Governance

Im Gegensatz zu alten Business-Intelligence-Zeiten ist die Struktur der Daten heute vielfältig. Unternehmen betrachten nicht mehr nur hochstrukturierte Daten in tabellarischer Form, sondern auch semi- und unstrukturierte Daten. Allerdings tun sich viele von ihnen noch schwer mit diesen neuen und ungewohnten Datenformen. Hinzu kommt: Gerade die unstrukturierten Daten sind im Hinblick auf eine gut funktionierende Governance eine ganz besondere Herausforderung.

Ablegen können die Datenverantwortlichen der IT die Daten in zahlreichen Datenbanken: Neben klassischen relationalen Datenbanken kommen verschiedenartige neue Datenhaltungen – sogenannte NoSQL-Datenbanken – in Frage: Dokumentbasierte Datenbanken eignen sich besonders für semistrukturierte Daten wie etwa JSON-Dateien. Mit Graph-Datenbanken lassen sich sehr gut Daten für Netzwerkanalysen bereitstellen. Das ist vor allem dann wichtig, wenn Analysen von Missbrauch, Verbrechen und Terrorismus benötigt werden oder Manager die Meinungsführer innerhalb ihres Kundennetzwerks ermitteln wollen. Dateisysteme wie zum Beispiel Hadoop eignen sich für nahezu alle Arten von Daten, insbesondere auch für unstrukturierte Daten wie Bild und Ton.

Der Data Lake ist ein logisches Konzept zur Haltung von Big Data. Physisch besteht er in der Regel nicht aus einer einzigen Datenbank, sondern aus mehreren Datenhaltungen – auch das zählt zu den Herausforderungen, denen sich Unternehmen aktuell stellen müssen. Alle hier skizzierten Fragen rund um das komplexe Thema der Datenhaltung und -verteilung sind damit ebenfalls Gegenstand der Big Data Governance.

Governance bedeutet auch, das Rad nicht jedes Mal neu zu erfinden

Um die weniger strukturierten Daten für die Analyse zu erschließen, benötigen die Data Engineers spezielle Adaptoren und Transformatoren. Computerlinguistik (Natural Language Processing) bietet beispielsweise verschiedene Funktionen zur Verarbeitung von Sprache an. Dazu gehören sowohl elementare Funktionen wie die Tokenisierung oder die semantische Analyse von Text als auch höherwertige Funktionen wie die Sentiment-Analyse. Die Rolle der Big Data Governance kommt auch hier wieder zum Tragen: Es ist Aufgabe der Governance-Hüter, diese zusätzlichen Funktionen zur Verarbeitung der Daten zu sammeln und den Data-Science-Teams bereitzustellen. Denn nicht jeder soll und muss das Rad neu erfinden.

Fazit

Vieles spricht für die Investition und Bemühungen um eine durchgängige und agile Big Data Governance. Wie Unternehmen diesen bereichsübergreifenden Ordnungsrahmen am besten aufsetzen und damit den Grundstein für eine erfolgreiche Datenstrategie legen, lesen Sie in Teil 2 dieses Artikels, der demnächst erscheint.

Zur Startseite