Konzeption und Implementierung eines Data Warehouse Prototyps Zusammenfassung der Diplomarbeit am Fachbereich Informatik und Mathematik im Studiengang Allgemeine Informatik eingereicht im Januar 2007 Benedikt Hollnberger Betreuer Dipl.-Informatiker (FH) Gerhard Völkl RBO Regionalbus Ostbayern GmbH Abteilung IE Von-Donle-Str. 7 93055 Regensburg Betreuer Professor Dr. Frank Herrmann Zweitgutachter Professor Dr. Alexander Söder Das Projekt „iBus“ umfaßt die Entwicklung eines Data Warehouse Systems für die Regionalbus Ostbayern GmbH (RBO) zusammen mit den Schwesterunternehmen Omnibusverkehr Franken GmbH (OVF), Regionalverkehr Oberbayern GmbH (RVO) und ihrem Tochterunternehmen Regionalverkehr Allgäu GmbH (RVA) als zusätzliche Mandanten, die gemeinsam einen Großteil des Regionalen Öffentlichen Personennahverkehrs (ÖPNV) in Bayern abdecken. Die Aufgabenstellung dieser Diplomarbeit ist die Umsetzung der ersten Phasen dieses Data Warehouse Projekts mit Software- und Technologieauswahl sowie parallel durchgeführter Anforderungsanalyse bei den beteiligten Unternehmen. Anschließend ist als Ziel ein Prototyp zu entwickeln. Hierzu ist vor allem eine Analyse der Quellsysteme, Modellierung und Integration der Daten sowie eine erste Implementierung von ETL und Client mit Reporting durchzuführen. Ausgehend von diesem Prototyp kann eine Aufwands- und Kostenabschätzung des Data Warehouse Systems gemacht werden. Ferner sind in einem konzeptionellen Teil die Modellierung und Umsetzung des multidimensionalen Datenmodells auszuarbeiten. In der Phase Anforderungsanalyse wurden Interviews mit den Stakeholdern der beteiligten Unternehmen durchgeführt: Geschäftsleitung, Management/Controlling sowie Datenbeauftragter. Daraus wurden die Anforderungen an das Data Warehouse System hinsichtlich Datenquellen, BI Anwendungen, usw. abgeleitet. Bei der Softwareauswahl wurde eine Marktevaluation im Bereich Business Intelligence durchgeführt und die infrage kommenden Produkte verschiedener Hersteller anhand der eigenen Anforderungen genauer geprüft. Schließlich wurde primär die BI-Plattform von Microsoft ausgewählt. Die Grundlage bildet der SQL Server 2005 mit den Integration Services als ETL-Tool sowie den Analysis Services als OLAP-Server. Als Abfragewerkzeuge stehen die Reporting Services und Excel von Microsoft sowie die OLAP-Services von Dundas zur Verfügung. Eine mit ASP.NET 2.0 entwickelte Webanwendung dient als Portal für die Anwender. Der erste Schritt der Entwicklung ist die Datenmodellierung. Diese führt von der konzeptuellen Modellierung (multidimensionales Datenmodell in mUML-Notation) über die logische Modellierung (relationale Abbildung und OLAP-Cubes) zur physischen Modellierung (relationale und multidimensionale Speicherstrukturen). Ziel ist es, aus den Anforderungen die benötigten Datenstrukturen für das Data Warehouse abzuleiten. Die Modellierung und Entwicklung des ETL-Prozesses nimmt beim Aufbau von Data Warehouse Systemen die meiste Zeit in Anspruch. Ausgehend von einer Analyse der Quellsysteme wird für jede Datenquelle ein Plan zur Integration ausgearbeitet. Ferner wird ein Design des Gesamtsystems und Konzepte zur Qualitätssicherung erstellt. Ziel ist es, in einem mehrstufigen Prozeß die Daten aufzubereiten und in die gewünschte Form zu bringen, um sie für Analysen und Weiterverarbeitung zur Verfügung zu stellen. Die Spezifikationen für die BI Anwendungen werden aus den Ergebnissen der Anforderungsanalyse abgeleitet. Dazu wurden folgende Anwenderrollen festgelegt: Zum einen der „Information Consumer“, der primär vordefinierte Auswertungen benutzt, die sich über eine möglichst freie Parameterauswahl konfigurieren lassen. Zum anderen der „Information Worker“, der mit den Daten arbeitet. Die Grundlage dafür schaffen sowohl vordefinierte Auswertungen als auch Ad-hoc-Abfragen von OLAP-Daten und eigene Excel-Berichte. Schließlich noch der Administrator, der Auswertungen erstellt und den ETL-Prozeß überwacht und steuert. Die Standardauswertungen, interaktive OLAP-Abfragen sowie Stammdatenpflege werden über das Webportal zugänglich gemacht. Als Lizenzkosten für die gewählte Lösung des Prototypen fallen hauptsächlich die des SQL Servers 2005 an. Die benötigten Komponenten Integration Services, Analysis Services und Reporting Services sind bereits inbegriffen. Hinzu kommen geringe Kosten für die zusätzlichen ASP.NETKomponenten von Dundas und DeveloperExpress. Für die weitere Entwicklung des iBus-Systems ausgehend von diesem Prototypen bis zu einer ersten Auslieferung wird ca. ein halbes Mannjahr veranschlagt.