Cloud Data Warehouses
Die 13 besten Analytics-Datenbanken
Enterprise Data Warehouses (EDWs) sind einheitliche Datenbanken für alle historischen Daten eines Unternehmens, die für AnalyticsAnalytics optimiert sind. Heutzutage spielen Unternehmen, die Data Warehouses implementieren, häufig mit dem Gedanken, das Data Warehouse in der Cloud und nicht On-Premises aufzuziehen. Viele erwägen auch die Verwendung von Data Lakes anstelle von traditionellen Data Warehouses. Dabei ist auch die Frage entscheidend, ob Sie historische Daten mit Livestream-Daten kombinieren möchten. Alles zu Analytics auf CIO.de
Data Warehouse vs. Data Mart vs. Data Lake
Ein Data Warehouse ist eine analytische, in der Regel relationale Datenbank, die aus zwei oder mehr Datenquellen erstellt wird. Das Ziel ist dabei in der Regel, historische Daten für diespätere Analyse zu speichern. Data Warehouses verfügen häufig über umfangreiche Rechen- und Speicherressourcen für die Ausführung komplizierter Abfragen und die Erstellung von Reports. Sie kommen oft als Datenquellen für Business-Intelligence- und Machine-Learning-Systeme zum Einsatz.
Die Anforderungen an den Schreibdurchsatz transaktionaler operativer Datenbanken schränkt die Anzahl und Art der Indizes ein, die Sie erstellen können (mehr Indizes bedeuten mehr Schreibvorgänge und Aktualisierungen pro hinzugefügtem Datensatz, aber auch mehr mögliche Konflikte). Das verlangsamt analytische Abfragen an die Betriebsdatenbank. Sobald Sie Ihre Daten in ein Data Warehouse exportiert haben, können Sie alles, was Sie interessiert, indizieren. So erzielen Sie eine gute Performance bei analytischen Abfragen, ohne die Schreibleistung der separaten OLTP-Datenbank (Online Transaction Processing) zu beeinträchtigen.
Data Marts enthalten Daten, die auf einen bestimmten Geschäftszweig ausgerichtet sind. Sie können vom Data Warehouse abhängig oder unabhängig sein (das heißt aus einer operativen Datenbank oder einer externen Quelle stammen) oder eine Mischung aus beidem darstellen.
Data Lakes, speichern Daten in ihrem nativen Format und sind im Wesentlichen "schema on read". Das bedeutet, dass jede Anwendung, die Daten aus dem Data Lake liest, den Daten ihre eigenen Typen und Beziehungen aufzwingen muss. Herkömmliche Data Warehouses hingegen sind "schema on write" - Datentypen, Indizes und Beziehungen werden beim Speichern im Data Warehouse auferlegt.
Die 13 besten Cloud Data Warehouses
Bei der Evaluierung eines Cloud Data Warehouse sollten Sie in erster Linie auf folgende Punkte achten:
eine einfache Verwaltung,
hohe Skalierbarkeit,
hohe Performance,
gute Integrationsfähigkeit und
angemessene Kosten.
Erkundigen Sie sich außerdem nach Kundenreferenzen, insbesondere bei großen Implementierungen, und führen Sie einen eigenen Proof-of-Concept durch. Besonderen Fokus sollten Sie auf die aktuell verfügbaren und geplanten Machine-Learning-Funktionen des Anbieters legen, da das Gros des geschäftlichen Nutzens eines Data Warehouse aus der Anwendung prädiktiver Analysen resultiert.
Die folgenden 13, alphabetisch aufgelisteten Produkte sind entweder Cloud Data Warehouses oder bieten die Funktionalität von Data Warehouses, bauen aber auf einer anderen Basisarchitektur auf - etwa einem Data Lake. Weil alle betreffenden Produkte heterogene, föderierte Abfrage-Engines hinzufügen, verschwimmt tendenziell jedoch die funktionale Unterscheidung zwischen Data Lake und Data Warehouse.
Diese Lösung verwandelt einen Data Lake auf Amazon S3 in ein Data Warehouse, ohne Daten zu verschieben. SQL-Abfragen werden schnell ausgeführt, selbst wenn mehrere heterogene Datenquellen verbunden werden. Presto ist eine quelloffene, verteilte SQL-Abfrage-Engine zur Ausführung interaktiver, analytischer Abfragen für Datenquellen jeder Größe. Daten können dort abgefragt werden, wo sie vorliegen - einschließlich Hive, Cassandra, relationale Datenbanken und proprietäre Datenspeicher. Eine einzige Presto-Abfrage kann Daten aus mehreren Quellen kombinieren. Facebook etwa verwendet Presto für interaktive Abfragen gegen mehrere interne Datenspeicher, einschließlich seines 300 PB großen Data Warehouse.
Ahana Cloud für Presto läuft auf Amazon, hat eine relativ einfache Benutzeroberfläche und bietet ein End-to-End-Cluster-Lifecycle-Management. Die Lösung läuft zudem in Kubernetes, ist hoch skalierbar und verfügt über einen integrierten Datenkatalog und eine einfache Integration mit weiteren Datenquellen, -Katalogen und Dashboarding Tools. Die Standardabfrageoberfläche von Ahana ist Apache Superset. Sie können auch Jupyter- oder Zeppelin-Notebooks verwenden, insbesondere wenn Sie maschinelles Lernen betreiben.
Mit Amazon Redshift können Sie Exabytes an strukturierten und halbstrukturierten Daten in Ihrem Data Warehouse, Ihrer operativen Datenbank und Ihrem Data Lake mit Standard-SQL-Abfragen kombinieren. Redshift speichert die Ergebnisse Ihrer Abfragen ganz einfach unter Verwendung offener Formate wie Apache Parquet in Ihrem S3 Data Lake, so dass Sie zusätzliche Analysen über andere Services wie Amazon EMR, Amazon Athena und Amazon SageMaker fahren können.
Dieser Analytics-Dienst führt Datenintegration, Data Warehousing und Big-Data-Analysen zusammen. Azure Synapse Analytics ermöglicht es Ihnen, Daten für BI- und Machine-Learning-Zwecke zu verarbeiten, zu untersuchen, aufzubereiten, zu verwalten und bereitzustellen. Darüber hinaus können Daten in großem Umfang mit Serveless- oder dedizierten Ressourcen abgefragt werden. Azure Synapse kann Abfragen mit Spark- oder SQL-Engines ausführen und verfügt über eine umfassende Integration mit Azure Machine LearningMachine Learning, Azure Cognitive Services und Power BI. Alles zu Machine Learning auf CIO.de
Dieses Open-Source-Projekt ermöglicht es, eine "Lakehouse"-Architektur auf bestehenden Speichersystemen wie Amazon S3, Microsoft Azure Data Lake StorageStorage, Google Cloud Storage und HDFS aufzubauen. Die Lösung erweitert Data Lakes um ACID-Transaktionen, Metadatenverarbeitung, Datenversionierung, Schema Enforcement und Schemaentwicklung. Databricks Lakehouse Platform nutzt Delta Lake, Spark und MLflow in einem Cloud-Service, der auf AWS, Microsoft Azure und Google Cloud läuft. So können Datenmanagement und eine Performance, die eher für Data Warehouses typisch ist, mit den kostengünstigen, flexiblen Objektspeichern von Data Lakes kombiniert werden. Alles zu Storage auf CIO.de
Diese Lösung ist ein Serverless Cloud Data Warehouse im Petabyte-Maßstab, das eigene, interne Engines für Business IntelligenceBusiness Intelligence und Machine Learning an Bord hat. Darüber hinaus integriert BigQuery mit allen Google-Cloud-Diensten, einschließlich Vertex AI und TensorFlow. Alles zu Business Intelligence auf CIO.de
BigQuery Omni erweitert BigQuery für die Analyse von Daten in verschiedenen Clouds unter Verwendung von Anthos. Data QnA erweitert BigQuery um ein Natural-Language-Frontend. Connected Sheets ermöglicht es Nutzern, Milliarden von Zeilen von BigQuery-Live-Daten in Google Sheets zu analysieren. BigQuery kann föderierte Abfragen verarbeiten, einschließlich externer Datenquellen in Objektspeichern (Google Cloud Storage) für die Dateiformate Parquet und ORC (Optimized Row Columnar), transaktionalen Datenbanken (Google Cloud Bigtable, Google Cloud SQL) oder Tabellenkalkulationen in Google Drive.
Oracle Autonomous Data Warehouse
Die Oracle-Lösung ist ein Cloud Data Warehouse Service, der die Bereitstellung, Konfiguration, Sicherung, Abstimmung, Skalierung und Sicherung des Data Warehouse automatisiert. Oracle Autonomous Data Warehouse umfasst Self-Service-Tools für Data Loading, Datentransformationen, Geschäftsmodelle, automatische Insights und integrierte, konvergente Datenbankfunktionen, die einfachere Abfragen über mehrere Datentypen und maschinelle Lernanalysen hinweg ermöglichen. Die Lösung ist sowohl in der Oracle Public Cloud als auch in den Rechenzentren der Kunden mit Oracle Cloud@Customer verfügbar.
Diese simple, offene und sichere Data-Lake-Plattform für maschinelles Lernen, Streaming und Ad-hoc-Analysen ist in den Clouds von AWS, Azure, Google und Oracle verfügbar. Qubole hilft Ihnen dabei, Datensätze aus einem Data Lake aufzunehmen, Schemata mit Hive zu erstellen, die Daten mit Hive, Presto, Quantum oder Spark abzufragen und die Ergebnisse anschließend für Data Engineering und Data Science zu verwenden. Sie können mit Qubole-Daten in Zeppelin- oder Jupyter-Notebooks und Airflow-Workflows arbeiten.
Diese operative Analysedatenbank besetzt eine Nische zwischen transaktionaler Datenbank und Data Warehouse. Rockset kann Gigabytes bis Terabytes an aktuellen Echtzeit- und Streaming-Daten analysieren und verfügt über Indizes, die die meisten Abfragen in Millisekunden ausführen. Rockset erstellt in Echtzeit einen konvergenten Index für strukturierte und halbstrukturierte Daten (aus OLTP-Datenbanken, Streams und Data Lakes) und stellt eine RESTful-SQL-Schnittstelle bereit.
Dieses dynamisch skalierbare Enterprise Data Warehouse, wurde für die Cloud entwickelt und läuft auf AWS, Azure und Google Cloud. Snowflake verfügt über Speicher-, Rechen- und globale Dienstebenen, die physisch getrennt, aber logisch integriert sind. Daten-Workloads skalieren unabhängig voneinander, was Snowflake zu einer geeigneten Plattform für Data Warehousing, Data Lakes, Data Engineering, Data Science, moderne Datenfreigabe und die Entwicklung von Datenanwendungen macht.
Die vernetzte Multi-Cloud-Datenplattform für Unternehmensanalysen verbindet Data Lakes, Data Warehouses, Analytics und neue Datenquellen und -typen miteinander. Teradata Vantage läuft in Public Clouds (wie AWS, Azure und Google Cloud), hybriden Multi-Cloud-Umgebungen, On-Premises mit Teradata IntelliFlex oder auf Standardhardware mit VMware.
Ein einheitliches Analytics Warehouse für die wichtigsten Public Clouds und lokalen Rechenzentren bietet Vertica. Die Lösung integriert Daten in Cloud Object Storage und HDFS, ohne dass Sie diese zuvor verschieben müssen. Vertica bietet zwei Bereitstellungsoptionen: Im Enterprise Mode läuft sie auf Standardservern mit eng gekoppeltem Speicher und bietet die höchste Leistung für Anwendungsfälle, die eine konsistente Rechenkapazität erfordern.
Im Eon Mode verfügt Vertica über eine Cloud-native Architektur, die die Rechenleistung vom Speicher trennt und so eine vereinfachte Verwaltung für variable Arbeitslasten ermöglicht. Dabei bleibt die Flexibilität erhalten, spezifische Rechenressourcen für unterschiedliche Geschäftsanwendungen auf gemeinsam genutzten Speicher anzuwenden. Vertica in Eon Mode ist auf Amazon Web Services und Google Cloud Platform verfügbar, aber nicht auf Public-Cloud-Bereitstellungen beschränkt.
Dieses quelloffene, spaltenorientierte OLAP-Datenbankmanagementsystem verwaltet extrem große Datenmengen (einschließlich nicht aggregierter Daten) und ermöglicht es, benutzerdefinierte Daten-Reportings online in Echtzeit zu erzeugen. Das System ist linear skalierbar und kann bis zur Speicherung und Verarbeitung von Billionen von Zeilen und Petabytes von Daten skaliert werden. ClickHouse ist so konzipiert, dass es auf normalen Festplatten arbeitet. Das bedeutet, dass die Kosten pro GB Datenspeicher niedrig sind. Sofern vorhanden können aber auch SSDs und zusätzlicher Arbeitsspeicher voll genutzt werden.
In ClickHouse lassen sich Daten auf verschiedenen Shards speichern. Jeder Shard kann eine Gruppe von Replikaten sein, die für die Fehlertoleranz verwendet werden. Die Abfrage wird auf allen Shards parallel verarbeitet. ClickHouse verwendet eine asynchrone Multi-Master-Replikation. Nachdem die Daten in ein beliebiges verfügbares Replikat geschrieben wurden, werden sie im Hintergrund an alle übrigen Replikate verteilt. ClickHouse ist als Cloud-Service von Yandex, Altinity (auf AWS), Alibaba, SberCloud und Tencent verfügbar.
Diese moderne Analytics-Datenbank verarbeitet große Datenmengen parallel und wurde unter anderem für anspruchsvolle Batch- oder Echtzeit-Workloads entwickelt. Mit Yellowbrick können Sie Data Warehouses überall dort bereitstellen, wo sie benötigt werden - in privaten Rechenzentren, mehreren Public Clouds und am Netzwerkrand. (fm)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.