Traditionell ist Business Intelligence (BI) die Domäne kommerzieller Hersteller wie SAS, Cognos oder Oracle. Deren BI-Systeme lassen kaum Wünsche offen. Sie verfügen über einen enormen Funktionsumfang und können problemlos an spezielle Firmenbedürfnisse angepasst werden.
Die BI-Suiten der kommerziellen Anbieter sind über Jahre und Jahrzehnte gewachsen und dementsprechend kostspielig. In erster Linie profitieren große Konzerne von den etablierten BI-Lösungen. Sie werden von der Funktionsvielfalt der Systeme gut bedient. Und sie können sich die Spezialisten leisten, die notwendig sind, um die BI-Lösungen zu betreiben und an unternehmensspezifische Belange anzupassen.
Für kleinere und mittelständische Unternehmen sind die Anschaffungs- und Folgekosten kommerzieller Systeme hingegen oft nicht zu stemmen. Vor allem wird in kleineren Unternehmen meist nicht der volle Funktionsumfang einer kompletten BI-Suite benötigt, sondern nur ein ausgewählter Teilbereich - etwa für das Reporting oder die Datenanalyse.
In diese Lücke können Open Source BI-Lösungen stoßen. Der große Vorteil: Sie sind lizenzfrei und damit kostengünstig. Und sie sind oft auf spezielle, betriebliche Anforderungen ausgerichtet. Die Auswahl ist inzwischen ganz beachtlich: Der Markt bietet immer mehr und immer ausgefeiltere Open-Source-Tools, die kaum mehr Lücken offen lassen.
Das Open Source Angebot umfasst aber nicht nur BI-Lösungen für Einzelanwendungen, sondern auch komplette BI-Suiten. Meist handelt es sich um eine Zusammenstellung bereits existierender, isolierter Applikationen, die aufeinander abgestimmt wurden.
Open-Source-Einsatz - Vorüberlegungen
Zweifellos ist für die meisten Anwender der Preis der wichtigste Faktor für die Entscheidung zugunsten von Open Source. Statt eine kostspielige kommerzielle BI-Lösung zu kaufen, hoffen viele mittelständische Firmen, dass sie mit einer Open-Source-Variante billiger wegkommen. Doch das kann ins Auge gehen.
Zu bedenken ist, dass eine Open-Source BI-Lösung zwar beträchtlich bei den Anschaffungskosten spart. Im Vergleich zu kommerziellen Systemen werden schließlich keine Lizenzkosten fällig. Doch die Anschaffungskosten sind nur ein kleiner Teil des großen Kuchens Gesamtkosten.
Vergessen sollte nicht werden, im Budged Geld für Anpassung, Support oder Erweiterungen vorzusehen. Beispielsweise braucht es für die Anpassung Java-Experten, denn zum effektiven Einsatz der BI-Komponenten ist ein solides Verständnis der oft in Java geschriebenen Tools notwendig.
Vor dem Einsatz quelloffener BI-Programme sollten zudem einige grundsätzliche Fragen beantwortet werden: Kann Open Source auch für betriebskritische Aufgaben zuverlässig und sicher eingesetzt werden? Wie sieht es mit Supportleistungen aus? Sind die Anwendungen für Massendaten tauglich und was ist mit der Bedienbarkeit? Hier muss individuell auf die Anforderungen des Unternehmens geachtet werden, um eine passende Lösung für die speziellen Bedürfnisse einer Organisation zu bekommen.
ETL-Tools I - Kettle
Bekanntlich fasst man unter dem Begriff "BI" Techniken wie Data Warehousing, Datenanalyse, Datamining und Reporting zusammen. Unternehmen versuchen damit, ihre Geschäftsabläufe und Kontakte zu Kunden und zu Business-Partnern zu optimieren. Im Vordergrund steht dabei die Sammlung, Speicherung, Auswertung und Aufbereitung von Daten.
Für die Datenhaltung und das Data Warehousing auf Open Source Basis bieten sich die quelloffenen Datenbanken MySQL und PostgreSQL als Datenspeicher an. Um die aus den Datenbanken stammenden Daten zu bereinigen, in das richtige Format zu bringen und in das Data Warehouse zu befördern, kommt das ETL-Verfahren zum Einsatz.
Die besten Open-Source-Tools für den ETL-Prozess sind Kettle und Talend. Kettle ist eine quelloffene, einfach bedienbare und leistungsfähige ETL-Software, die in vielen BI-Projekten enthalten ist. Das System ist vom Funktionsumfang mit kommerziellen Systemen vergleichbar und lässt sich überall dort nutzen, wo Datenbanken eine Rolle spielen. Als alleinstehende Java-Anwendung kann man Kettle sowohl in BI-Projekten einsetzen als auch als einzelne Applikation, mit der Daten regelmäßig bearbeitet, synchronisiert oder einfach nur exportiert werden können.
ETL-Prozesse können ohne Programmierung erstellt werden. Unter einer grafischen Oberfläche lassen sich Transformationen und Datenimportprozesse oder -exportprozesse entwerfen und realisieren. Auch komplexe Datenflüsse können einfach gestaltet werden. Übersichtlich ist auch die Darstellung der Daten und Datenflüsse.
Kettle kann mit verschiedenen Datenquellen arbeiten. Neben Datenbanken wie MySQL, SQLServer, Oracle, Sybase und PostgreSQL können das auch Excel- oder XML-Dateien sein. Seit Mitte 2006 ist Kettle unter dem Namen Pentaho Data Integration Teil der Pentahos BI-Suite, die am Schluss des Artikels vorgestellt wird.
ETL-Tools II – Talend Open Studio
Talend Open Studio (TOS) ist ein vollständiges ETL-Tools, das wie Kettle überall dort eingesetzt werden kann, wo es um das Bearbeiten, Laden und Transferieren von Daten geht. Eine der Besonderheiten von Talend Open Studio ist seine doppelte Funktionsweise: Anders als die meisten Daten-Tools lässt sich TOS nicht nur für das Zusammenführen von Informationen aus verschiedenen Quellen einsetzen, also den eigentlichen ETL-Prozess, sondern auch, wenn es um das umfangreiche Update eines gesamten Data Warehouses geht.
Gut geeignet ist TOS für Business-Anwender, die keine tiefergehenden IT-Kenntnisse haben und ein möglichst einfach bedienbares System suchen. Anders als Kettle gehört Talend zur Kategorie der Code-Generatoren. Bei diesen Software-Lösungen werden die BI-Prozesse zur Datentransformation zunächst grafisch modelliert. Der ausführbare Code wird dann im Anschluss in Java oder Perl generiert. Die so erzeugten Programme können mit Talend Open Studio oder auf dem Server ausgeführt werden.
TOS wurde von der französischen Open Source Firma Talend entwickelt und wird unter der GPL vertrieben. Außerhalb von Talend wird TOS als ETL-Tool innerhalb der – am Ende des Artikels vorgestellten - BI-Plattform JasperSoft unter dem Namen JasperETL angeboten.
OLAP-Tools I- Mondrian
Stehen die Firmendaten in Data Warehouses aufbereitet und in einem einheitlichen Format zur Verfügung, erfolgt im nächsten Schritt die Analyse der Daten. Im Rahmen der professionellen Datenanalyse werden im Business Intelligence vor allem zwei Verfahren eingesetzt: OLAP und Data Mining.
Bei OLAP werden Daten multidimensional analysiert. Betriebswirtschaftliche Kennzahlen wie Umsatz oder Kosten können anhand von Dimensionen wie Kunden, Regionen oder Zeit untersucht werden. Die Informationen aus den Datenquellen werden dabei zu einem multidimensionalem Würfel („Cube“) zusammengefasst. Auf diese Weise können die Daten aus unterschiedlichen Perspektiven und in diversen Detaillierungsstufen betrachtet werden.
Mondrian ist ein Java-basierter OLAP-Server, der unter der Common Public Licence erhältlich ist. Bei dem relationalen OLAP-System handelt es sich um einen ROLAP-Server. ROLAP-Systeme beruhen auf standardisierten, relationalen Datenbanken wie Oracle und IBM DB2 und greifen direkt auf die Daten aus der Datenbank zu.
Die Datenbasis in Mondrian bildet - wie generell in relationalen OLAP-Systemen - eine relationale Datenbank mit Tabellen, die in Star- oder Snowflake-Schemata organisiert sind. Der Zugriff auf die Datenbanken erfolgt bei Mondrian über MDX. MDX beschreibt die Inhalte und Struktur einer Kreuztabelle und ist der Microsoft-Standard für die Beschreibung von Abfragen in OLAP-Systemen.
Neben MDX kann Mondrian aber auch mit XMLA und OLAP4J arbeiten. Letztere ist eine Java-Standardschnittstelle für OLAP, die von verschiedenen Open Source Projekten entwickelt wurde. Damit soll auch die Anbindung von MOLAP-Servern wie dem unten vorgestellten Palo möglich werden.
Mondrian wurde ursprünglich 2001 als eigenständiges Open-Source-Projekt veröffentlicht. Seit 2006 ist Mondrian Teil des Pentaho-Projekts. Mondrian wird aber auch in anderen Open-Source-BI-Projekten wie JasperSoft als OLAP-Engine eingesetzt.
OLAP-Tools II - Palo
Ein in Deutschland von der Freiburger Jedox AG entwickelter Open Source OLAP-Server ist Palo. Anders als Mondrian gehört Palo zur Kategorie der In-Memory OLAP-Server (MOLAP). MOLAP-Systeme nutzen herstellerspezifische, multidimensionale Datenbanken und sind speziell optimiert für eine hohe Performance in multidimensionalen Datenstrukturen.
Für einen möglichst schnellen Datenzugriff hält Palo alle Daten komplett im Arbeitsspeicher. Die große Stärke von Palo ist aber das Frontend: Palo besitzt standardmäßig ein Add-In für Microsoft Excel, das ebenfalls kostenfrei verfügbar ist. Damit lassen sich Daten direkt in Excel bearbeiten und große Mengen von Daten auf wenigen Excel-Arbeitsblättern verwalten. Selbst Datenmengen, die sonst nicht mehr übersichtlich darstellbar wären, kann man so leicht handhaben.
Palo ist aber nicht nur auf den Einsatz mit Excel beschränkt, sondern kann über APIs in Java, PHP, C oder .NET in andere Software-Umgebungen integriert werden. Zudem existiert eine Open Source Integration in OpenOffice.org unter dem Namen PalOOCa (Palo for OpenOffice.org Calc).
Neben der multidimensionalen Abfrage lassen sich Daten auch zurückschreiben und in Echtzeit konsolidieren. Ein vollständiges BI-System von Jedox mit ETL-Server und Reporting-Werkzeugen unterstützt zudem die Generierung von Berichten und Analysen. Dabei können einfache Listenberichte oder mehrdimensionale Reports erstellt werden.
Data Mining - Weka
Data-Mining-Verfahren sind darauf spezialisiert, Muster, Auffälligkeiten und Zusammenhänge in größeren Datensammlungen zu finden. Auf Grundlage der entdeckten Muster lassen sich Vorhersagen für die Entwicklung von Umsatz- oder Kundenzahlen treffen. Data Mining Methoden sind beispielsweise Clustering, Regressions- und Faktorenanalyse, Entscheidungsbäume oder neuronale Netze.
Weka wurde als „Waikato Environment for Knowledge Analysis“ von der Neuseeländer Universität Waikato entwickelt. Entsprechend akademisch ausgerichtet ist das Tool. Die Data-Mining-Verfahren sind beeindruckend vielfältig.
So enthält Weka Funktionen für die Datenaufbereitung, Regressionsanalyse, Klassifikationsverfahren, Clusteranalyse und Visualisierung. Daneben können auch neue Methoden für Maschinelles Lernen erstellt werden. Es gibt kaum ein Data-Mining-Verfahren, das nicht in Weka implementiert worden ist.
Dafür ist das Programm allerdings nicht ganz einfach zu bedienen. Unbedarfte Anwender werden von der Funktionsvielfalt eher abgeschreckt, der Lernaufwand für die Software ist erheblich.
Zwar verfügt Weka über ein Webinterface und eine grafische Benutzeroberfläche. Darauf lassen sich die Algorithmen als Workflows zusammenfügen, so dass diese in Datenanalysen regelmäßig ausgeführt werden können. Doch bei der Verarbeitung von Daten sind proprietäre Produkte in der Handhabung viel mächtiger und transparenter zu bedienen.
Weka wurde wie Kettle und Mondrian 2006 von Pentaho aufgekauft. Seitdem wird das Tool von Pentaho vermarktet und bildet unter der Bezeichnung Pentaho Data Mining den Data Mining Part in deren BI-Plattform. Das Projekt besteht jedoch unter der GNU General Public Licence als eigenständige Anwendung weiter, so dass es auch als alleinstehende Lösung eingesetzt werden kann.
Reporting-Tools – Birt und JasperReport
Ergebnisse von BI-Analysen sollen auch berichtet und allgemein verständlich bestimmten Mitarbeitern zur Verfügung gestellt werden. Berichtssysteme verbessern die Qualität und Aktualität der Reportingprozesse, beispielsweise in Form von aktuellen Tages-, Monats- oder Jahresberichten.
Die Aufbereitung der Ergebnisse zu aussagekräftigen Berichten übernehmen im Open Source-Bereich Reporting-Engines wie Birt und JasperReport. Birt (Business Intelligence and Reporting Tools) ist eine auf Eclipse basierende, vollwertige Open-Source-Lösung zur Erstellung kleinerer und größerer Reports. Briefe, Dokumente, aber auch komplexe mehrdimensionale Berichte wie die Auflistung von Umsätzen nach Regionen und Produkten können damit erstellt werden. Die relativ große, hinter Birt stehende Entwicklergemeinde hat BIRT mittlerweile mit einer umfangreichen Anzahl an verschiedenen Diagrammarten und Kreuztabellen sowie der Möglichkeit der Erstellung von Cubes ausgestattet.
Als Datenquelle nutzt Birt unter anderen XML und JDBC. Weitere tabellarische Datenquellen können durch selbsterstellte Funktionen in Birt ebenfalls eingelesen werden. Dank zahlreicher Funktionen und der AJAX-basierten grafischen Oberfläche ist Birt auch für nicht-technisch versierte Nutzer einfach zu bedienen. Die große Community und kontinuierliche Weiterentwicklung macht das Tool zu einer zukunftssicheren und leistungsfähigen Reporting-Lösung.
Ein anderes, im Open Source Bereich verbreitetes Berichtstool ist JasperReports von JasperSoft. Berichte können in JasperReports mit einer XML-Datei oder über die mitgelieferten grafischen Tools iReport, JasperAssistent und JasperPal erstellt werden. Die Reports lassen sich in einer Vielzahl von Formaten ausgeben: XML, XSL, PDF, HTML, CSV, ODF, TXT, RTF.
Obwohl die Anwendung einen Teil der JasperSoft-Plattform bildet, ist sie plattformunabhängig und kann auch mit anderen BI-Suiten eingesetzt werden. Unter der LGPL vertrieben, kann JasperReports in jede Java-Anwendung eingebunden werden. Im Gegensatz zu Birt ist die Benutzeroberfläche von JasperReports nicht ganz so bedienerfreundlich, so dass es sich eher um ein Tool für Entwickler handelt.
Open Source BI-Suiten I - Pentaho
Wie bereits angedeutet, sind viele der vorgestellten Tools Komponenten kompletter BI-Suiten. Die allgemein zugänglichen Open Source Teillösungen werden dabei – oft kombiniert mit Eigenentwicklungen - in ein BI-Gesamtpaket integriert. „Marktführer“ bei BI-Suiten im Open Source Bereich sind insbesondere Pentaho und JasperSoft.
Der US-Hersteller Pentaho war einer der ersten Anbieter, der verschiedene Open Source-Lösungen mit eigenen Entwicklungen kombiniert und daraus eine integrierte Business-Suite zusammengestellt hat. Auf Sourceforge.net ist Pentaho mit über zwei Millionen Downloads die Nummer eins unter den Open Source Lösungen für Business Intelligence.
Pentaho basiert auf Java und bringt die wichtigsten BI-Anwendungen unter einen Hut – Applikationen für Datenintegration, Reporting, Analyse, Cockpits und Data Mining. So greift Pentaho für die Datenanalyse auf den OLAP-Server Mondrian zurück. Data-Mining-Funktionen stehen über die Integration von Weka zur Verfügung. Hinzu kommen weitere der oben vorgestellten Tools wie Kettle und das Reporting-Werkzeug Birt. Zudem umfasst die Suite noch Eigenentwicklungen wie ein Dashboard und ein Portal, über das alle Anwendungen zentral zur Verfügung gestellt werden können.
Der Funktionsumfang ist immens und die Integration in bestehende IT-Architekturen problemlos möglich. Mit LDAP-Anbindung und Java Single Sign-On lässt sich die Pentaho-Lösung in bestehende IT-Landschaften einbinden. Wer den kompletten Funktionsumfang der Suite nutzen will, braucht einen J2EE-Anwendungsserver. ETL, Reporting und viele andere Funktionen können jedoch eigenständig in Standalone-Applikationen betrieben werden.
Open Source BI-Suiten II - JasperSoft
Auch die BI-Suite von JasperSoft deckt mit ihren Funktionen für Datenintegration, Dashboards, Analysen und Berichten alle Anforderungen im BI-Bereich ab. Im Gegensatz zu Pentaho besteht der Grossteil der JasperSoft BI-Suite aber aus Eigenentwicklungen. Nur im Bereich ETL und OLAP wurden Drittprodukte integriert.
Die Suite basiert auf dem oben vorgestellten JasperReports, dem grafischen Berichtsdesigner iReport sowie einer Vielzahl weiterer BI-Produkte. Sie umfasst einen interaktiven Reporting-Server, GUIs zum grafischen und Ad-hoc-Berichtsentwurf, OLAP-Analysen, sowie eine skalierbare Java-Reporting-Bibliothek für Unternehmen unterschiedlicher Größen.
Talend Open Studio bietet als JasperETL Funktionen für die Datenintegration. JasperAnalysis ermöglicht ausgefeilte OLAP-Analysen. JasperServer ist ein interaktiver Berichtsserver, der auf JasperReports basiert.
Durch die Unterstützung von intuitiven Ad-hoc-Abfragen, Berichterstellung und Dashboards mittels aktueller Web 2.0-Technologien wie Ajax und DHTML ermöglicht JasperServer seinen Benutzern, benötigte BI-Funktionen eigenständig zu gestalten.
Sämtliche BI-Anwendungen können sowohl eigenständig eingesetzt als auch im Rahmen der Suite mit gemeinsamen Metadaten und gemeinsam genutzten Diensten.
Vergleich Pentaho versus JasperSoft
Beide Suiten, sowohl die von Pentaho als auch von JasperSoft, bieten umfangreiche BI-Funktionalitäten mit ähnlichem Umfang. Einzelne Komponenten beider Suites lassen sich auch gut miteinander verbinden. So ist es beispielsweise möglich, das ETL-Tool von JasperSoft und das Reporting-Werkzeug von Pentaho zu verknüpfen.
Unterschiede gibt es hingegen in der Firmenphilosophie. So ist der Community-Anteil bei JasperSoft deutlich höher. Die JasperSoft BI-Suite verfügt über eine sehr aktive Community und ist für ein Open Source Projekt bereits lange am Markt. Die Weiterentwicklung des Projekts erscheint daher derzeit als sehr gut gesichert. Geld verdient JasperSoft mit Support und dem Verkauf von Handbüchern. Diese sind notwendig, wenn man neben der Unterstützung durch die Community weitere Dokumente braucht.
Pentaho hat einen deutlich größeren Fokus auf Produktstrategie, Produktentwicklung und professioneller Steuerung der Entwicklergemeinde. So bietet Pentaho seine BI-Suite in einer vollständigen, kostenlosen Community Edition an. Geld verdient wird mit der Enterprise Edition, einer optimierten Version mit zusätzlichen Management-Funktionen und professionellem Support.
In Deutschland unterstützt das Nürnberger Softwarehaus Ancud IT beide Systeme. Im Rahmen von Kooperationen hat Ancud IT sowohl die BI-Suite von JasperSoft als auch die von Pentaho in seine Dienstleistungen integriert.
Fazit
Von ETL bis Reporting – Open Source Lösungen existieren inzwischen in allen Business-Intelligence-Bereichen. Hauptadressaten sind mittelständische Unternehmen, die BI-Teillösungen für speziell ausgewählte Problemstellungen nutzen können. Mit den BI-Suiten von Pentaho und JasperSoft gibt es aber auch zwei ausgereifte, bereichsübergreifende Lösungen, die den ganzen BI-Prozess abdecken und unternehmensweit eingesetzt werden können.
Für weitergehende Informationen und Tests von Open-Source BI-Systemen finden Sie eine ganze Reihe von Anlaufstellen im Web. So bietet das IT-Beratungsunternehmen Ancud eine kostenlose Marktübersicht an, bei der die wichtigsten BI-Tools vorgestellt und evaluiert werden.
Eine aktuelle Evaluation des Open Source BI-Marktes gibt die kostenpflichtige Studie Open Source Business Intelligence von Barc. Der Bericht stellt die wichtigsten Open Source Tools für Reporting, OLAP und Data Mining vor. Eine kostenlose, recht umfangreiche Übersicht von freien, Java-basierten ETL-Tools findet sich im Manageability-Weblog.
Dieser Artikel erschien bei unserer Schwesterpublikation tecCHANNEL.