Herr Ströbel, Sie sind für die Steuerung von Datenbank-Projekten zuständig. Was macht aus Ihrer Sicht ein herausragendes Datenbank-Projekt aus?
Grundsätzlich denke ich, dass allen herausragenden Datenbank-Projekten eines gemeinsam ist: Die Tatsache, dass es keine einfachen 08/15-Lösungen gibt, sondern dass die Abwicklung eines solchen Projektes eine spezielle Herangehensweise, intensive Planung und innovative Ideen erfordert.
In der Regel spielt auch nicht die Datenbank alleine eine wichtige Rolle, sondern die gesamte Infrastruktur - beginnend mit den Storage-Systemen im Backend über die eingesetzten, häufig geclusterten Rechnersysteme bis zu vorgeschalteten Middleware-Systemen oder Load Balancern und Firewalls.
Gibt es in dem Bereich spezielle Trends?
In dem Kontext werden sogenannte Appliances immer wichtiger, die eine optimal aufeinander abgestimmte Systemumgebung für spezielle Anforderungen bieten, zum Beispiel Oracle’s Exadata Database Machine oder auch schon länger auf dem Markt etablierte Systeme wie Teradata, die konkret im Kontext Data Warehouse ihren Ursprung haben.
Ein großes Thema ist derzeit Big Data. Spielen großen Datenmengen tatsächlich bei aktuellen Datenbank-Projekten eine große Rolle?
Ja, große Datenmengen beziehungsweise große Datenwachstumsraten sind in immer mehr Projekten ein wichtiger Faktor. Waren vor fünf Jahren Datenbanken im Terabyte-Bereich noch eher selten, so sind heute Datenvolumina von mehreren 10 Terabyte üblich. Richtig große Datenbanken reichen dann oft in den Peta- oder gar Exabyte-Bereich hinein. Leider ist es nicht immer so, dass die Unternehmen wissen, welchen "Datenschatz" sie eigentlich im Keller haben. Meist ist es so, dass die Unmengen an Daten gar nicht wirklich sinnvoll ausgewertet und verwendet werden können.
Bei großen Datenmengen müsste die Datenqualität noch mehr leiden als bei normalgroßen Datenmengen. Potenziert sich das Qualitätsproblem bei Big Data?
Ja. Das große Datenvolumen bringt häufig auch den Nebeneffekt mit, dass die Qualität der Daten unzureichend ist. Insbesondere bei großen Data Warehouses und den darauf aufbauenden Business Intelligence Lösungen ist das ein großes Problem, denn diese gelten oft als "Single Point of Truth" und damit als Basis für strategische Unternehmensentscheidungen. Stimmt die Qualität dieser Basis nicht, birgt das naturgemäß hohe Risiken.
Dabei ist jedoch in der Regel nicht alleine die Tatsache ausschlaggebend, dass es sich um große Datenmengen handelt, sondern vielmehr dass die Quellen ungenügende Qualität liefern. Zwischengeschaltete Datenqualitäts-Lösungen können hier auch nur einen kleinen Teil zur Verbesserung der Lage beitragen.
Trend Virtualisierung und Cloud
Kaum ein Unternehmen kann sich heute dem Trend zu Virtualisierung und Cloud Computing entziehen. Gilt dies auch für den Datenbank-Bereich?
Virtualisierung ist generell bei den meisten Unternehmen derzeit ein Thema, damit auch automatisch bei Datenbank-Projekten. Dabei muss man jedoch unterscheiden, wie kritisch und vor allem wie groß die Datenbanken sind. Datenbanken mit hohen Anwenderzahlen und großen Datenvolumina sind eher nicht Gegenstand von Überlegungen zur Virtualisierung, kleinere Systeme hingegen schon, denn die Virtualisierung bietet geeignete Mittel zur Sicherstellung eines schnellen Recoveries bei Systemausfall.
Zudem kann die eingesetzte Hardware besser genutzt werden. Man sollte jedoch immer auch andere Aspekte wie zum Beispiel die Lizenzierung oder die Sicherstellung des Supports berücksichtigen, viele Hersteller geben hier klare Rahmenbedingungen vor.
Und Cloud Computing?
Der Trend Cloud Computing geht auch an den Datenbanken nicht spurlos vorbei. Neben den klassischen Ansätzen wie Infrastructure as a Service (IaaS) oder Platform as a Service (PaaS) wird inzwischen auch von Database as a Service (DBaaS) gesprochen. Beispielsweise bietet Amazon Web Services neben MySQL auch Oracle als Service an: Amazon Relational Database Service (Amazon RDS). Inwieweit sich dieser Trend durchsetzen wird, bleibt abzuwarten, aktuell möchte ich hier noch keine Prognose wagen.
Da interne Rechenzentrumsstrukturen jedoch auch immer mehr darauf ausgelegt werden, die Vorteile und Flexibilität der Cloud zu nutzen, wird Cloud Computing zumindest im unternehmensinternen Bereich auch für Datenbanken eine Rolle spielen.
Ein Beispiel aus der Praxis
Gehen wir mal mehr in die Praxis. Könnten Sie kurz ein herausragendes Projekt aus Ihrer Praxis beschreiben und die damit verknüpften Herausforderungen?
Einer unserer Kunden hatte mehrere Datenbanken zur Speicherung von grafischen Vermessungsinformationen betrieben. Jeder Verarbeitungsschritt wurde in einem anderen System durchgeführt, die Daten wurden dabei zwischen diesen Systemen ausgetauscht. Die Übertragung erfolgte auch noch auf unterschiedliche Systeme - unter anderem auf das Filesystem auf Oracle und Sybase.
Auf diese Weise entstanden mehrfach redundante Informationen, über deren Gesamtvolumen niemand mehr ganz genau Bescheid wusste, das aber auf ca. 60 Terabyte geschätzt wurde. Ziel des Projektes war es nun, die Daten in einem System zu konsolidieren und die Redundanzen weitgehend aufzulösen. Am Ende sollte das System dann noch Basis für den Zugriff via Internet sein, musste damit also rund um die Uhr verfügbar sein.
Was war denn dabei konkret die Aufgabe Ihres Teams?
Die Aufgabe bestand zum einen in einer Integration und Konsolidierung der Daten, zum anderen im Aufbau einer entsprechend performanten und hochverfügbaren Infrastruktur. Um sicher zu gehen wurde deshalb zunächst eine Vorstufe realisiert, die mit einem reduzierten Datenvolumen von ca. 10 Terabyte aufgesetzt wurde, quasi als Proof of Concept. Später wurde dann eine Komplettlösung implementiert und auch erfolgreich in Betrieb genommen.
Wie eingangs bereits erwähnt ist in so einem Projekt eben nicht nur die Datenbank die Herausforderung. Vielmehr muss das Gesamtsystem entsprechend designed sein, weshalb vorab in einer aufwändigen Konzeptphase die gesamte Hardware-Infrastruktur festgelegt wurde.
Blick in die Zukunft
Wagen wir mal einen Blick in die nächste Zukunft. Stoßen herkömmliche Datenbanken, wie man oft liest, langsam tatsächlich an Ihre Grenzen?
Herkömmliche Datenbanken mit den althergebrachten Technologien möglicherweise, aber die Datenbanktechnologie entwickelt sich laufend weiter. Jedes Release der Datenbank-Software bietet neue Möglichkeiten, Cluster werden größer, Grids effektiver und Leistung kommt plötzlich aus den Wolken, sprich aus der Cloud.
Zudem bieten integrierte Appliances immer bessere Möglichkeiten, so dass ich derzeit aus der Praxis noch keine Datenbank kenne, die nicht mit den bekannten Technologien effektiv und effizient betrieben werden könnte. Spannend bleibt es jedoch, wenn das Datenwachstum in ungebremster Form weiter geht. Und wichtig ist, dass die Anwendungen entsprechend performant implementiert sind und funktionieren.
Welche Rolle spielen künftig in der Praxis neue Technologien wie NoSQL oder In-Memory-Lösungen?
In-Memory-Lösungen spielen begrenzt eine Rolle bei Systemen, die hochkritisch hinsichtlich Performance sind. Angesichts der bereits angesprochenen großen Datenvolumina, die heute üblich sind, stoßen diese Lösungen jedoch schnell an Grenzen. Eine Alternative ist hier die Verwendung von Flash-Storage, der ebenfalls sehr geringe Zugriffszeiten ermöglicht, allerdings im Vergleich noch sehr teuer ist.
Produktiv eingesetzte NoSQL-Implementierung in Unternehmen kenne ich bislang nicht. Für die Kernsysteme sehe ich aktuell nicht, dass dieser Trend eine gewichtige Rolle spielen wird. Eine zentrale Frage wird hier sein, wie viel Inkonsistenzen in den Daten man sich leisten kann oder möchte. Insgesamt muss man aber sagen, dass mancher Hype erstmal wieder vergessen wurde, um sich geraume Zeit später dann durchzusetzen. Es ist also nicht auszuschließen, dass auch NoSQL eines Tages ganz normal sein wird.
Einige Analysten und Datenbank-Experten sprechen schon von einer Ablösung der Welt der relationalen Datenbanken. Sehen Sie das auch so?
In der Vergangenheit gab es schon mehrfach Aussagen, relationale Datenbanken wären am Ende ihrer Leistungsfähigkeit angelangt und stünden deshalb vor einer Ablösung. In den neunziger Jahren waren beispielsweise objektorientierte Datenbanken in aller Munde. Ich denke, einige neue Trends werden in die relationale Datenbanktechnologie Einzug finden, insgesamt aber wird sich die Welt hier auf absehbare Zeit nicht revolutionieren.
Herr Ströbel, wir danken für das Gespräch.