BI-Tools und Suiten im Test
Business Intelligence für Geizige
ETL-Tools I - Kettle
Bekanntlich fasst man unter dem Begriff "BI" Techniken wie Data Warehousing, Datenanalyse, Datamining und Reporting zusammen. Unternehmen versuchen damit, ihre Geschäftsabläufe und Kontakte zu Kunden und zu Business-Partnern zu optimieren. Im Vordergrund steht dabei die Sammlung, Speicherung, Auswertung und Aufbereitung von Daten.
Für die Datenhaltung und das Data Warehousing auf Open Source Basis bieten sich die quelloffenen Datenbanken MySQL und PostgreSQL als Datenspeicher an. Um die aus den Datenbanken stammenden Daten zu bereinigen, in das richtige Format zu bringen und in das Data Warehouse zu befördern, kommt das ETL-Verfahren zum Einsatz.
Die besten Open-Source-Tools für den ETL-Prozess sind Kettle und Talend. Kettle ist eine quelloffene, einfach bedienbare und leistungsfähige ETL-Software, die in vielen BI-Projekten enthalten ist. Das System ist vom Funktionsumfang mit kommerziellen Systemen vergleichbar und lässt sich überall dort nutzen, wo Datenbanken eine Rolle spielen. Als alleinstehende Java-Anwendung kann man Kettle sowohl in BI-Projekten einsetzen als auch als einzelne Applikation, mit der Daten regelmäßig bearbeitet, synchronisiert oder einfach nur exportiert werden können.
ETL-Prozesse können ohne Programmierung erstellt werden. Unter einer grafischen Oberfläche lassen sich Transformationen und Datenimportprozesse oder -exportprozesse entwerfen und realisieren. Auch komplexe Datenflüsse können einfach gestaltet werden. Übersichtlich ist auch die Darstellung der Daten und Datenflüsse.
Kettle kann mit verschiedenen Datenquellen arbeiten. Neben Datenbanken wie MySQL, SQLServer, Oracle, Sybase und PostgreSQL können das auch Excel- oder XML-Dateien sein. Seit Mitte 2006 ist Kettle unter dem Namen Pentaho Data Integration Teil der Pentahos BI-Suite, die am Schluss des Artikels vorgestellt wird.