Konzeption und Implementierung eines Data

Werbung
Konzeption und Implementierung eines
Data Warehouse Prototyps
Zusammenfassung der Diplomarbeit
am Fachbereich Informatik und Mathematik
im Studiengang Allgemeine Informatik
eingereicht
im Januar 2007
Benedikt Hollnberger
Betreuer
Dipl.-Informatiker (FH) Gerhard Völkl
RBO Regionalbus Ostbayern GmbH
Abteilung IE
Von-Donle-Str. 7
93055 Regensburg
Betreuer
Professor Dr. Frank Herrmann
Zweitgutachter
Professor Dr. Alexander Söder
Das Projekt „iBus“ umfaßt die Entwicklung eines Data Warehouse Systems für die Regionalbus
Ostbayern GmbH (RBO) zusammen mit den Schwesterunternehmen Omnibusverkehr Franken
GmbH (OVF), Regionalverkehr Oberbayern GmbH (RVO) und ihrem Tochterunternehmen
Regionalverkehr Allgäu GmbH (RVA) als zusätzliche Mandanten, die gemeinsam einen Großteil
des Regionalen Öffentlichen Personennahverkehrs (ÖPNV) in Bayern abdecken.
Die Aufgabenstellung dieser Diplomarbeit ist die Umsetzung der ersten Phasen dieses Data
Warehouse Projekts mit Software- und Technologieauswahl sowie parallel durchgeführter
Anforderungsanalyse bei den beteiligten Unternehmen. Anschließend ist als Ziel ein Prototyp zu
entwickeln. Hierzu ist vor allem eine Analyse der Quellsysteme, Modellierung und Integration der
Daten sowie eine erste Implementierung von ETL und Client mit Reporting durchzuführen.
Ausgehend von diesem Prototyp kann eine Aufwands- und Kostenabschätzung des Data
Warehouse Systems gemacht werden. Ferner sind in einem konzeptionellen Teil die Modellierung
und Umsetzung des multidimensionalen Datenmodells auszuarbeiten.
In der Phase Anforderungsanalyse wurden Interviews mit den Stakeholdern der beteiligten
Unternehmen durchgeführt: Geschäftsleitung, Management/Controlling sowie Datenbeauftragter.
Daraus wurden die Anforderungen an das Data Warehouse System hinsichtlich Datenquellen, BI
Anwendungen, usw. abgeleitet.
Bei der Softwareauswahl wurde eine Marktevaluation im Bereich Business Intelligence
durchgeführt und die infrage kommenden Produkte verschiedener Hersteller anhand der eigenen
Anforderungen genauer geprüft. Schließlich wurde primär die BI-Plattform von Microsoft
ausgewählt. Die Grundlage bildet der SQL Server 2005 mit den Integration Services als ETL-Tool
sowie den Analysis Services als OLAP-Server. Als Abfragewerkzeuge stehen die Reporting
Services und Excel von Microsoft sowie die OLAP-Services von Dundas zur Verfügung. Eine mit
ASP.NET 2.0 entwickelte Webanwendung dient als Portal für die Anwender.
Der erste Schritt der Entwicklung ist die Datenmodellierung. Diese führt von der konzeptuellen
Modellierung (multidimensionales Datenmodell in mUML-Notation) über die logische
Modellierung (relationale Abbildung und OLAP-Cubes) zur physischen Modellierung (relationale
und multidimensionale Speicherstrukturen). Ziel ist es, aus den Anforderungen die benötigten
Datenstrukturen für das Data Warehouse abzuleiten.
Die Modellierung und Entwicklung des ETL-Prozesses nimmt beim Aufbau von Data Warehouse
Systemen die meiste Zeit in Anspruch. Ausgehend von einer Analyse der Quellsysteme wird für
jede Datenquelle ein Plan zur Integration ausgearbeitet. Ferner wird ein Design des Gesamtsystems
und Konzepte zur Qualitätssicherung erstellt. Ziel ist es, in einem mehrstufigen Prozeß die Daten
aufzubereiten und in die gewünschte Form zu bringen, um sie für Analysen und Weiterverarbeitung
zur Verfügung zu stellen.
Die
Spezifikationen
für
die
BI
Anwendungen
werden
aus
den
Ergebnissen
der
Anforderungsanalyse abgeleitet. Dazu wurden folgende Anwenderrollen festgelegt: Zum einen der
„Information Consumer“, der primär vordefinierte Auswertungen benutzt, die sich über eine
möglichst freie Parameterauswahl konfigurieren lassen. Zum anderen der „Information Worker“,
der mit den Daten arbeitet. Die Grundlage dafür schaffen sowohl vordefinierte Auswertungen als
auch Ad-hoc-Abfragen von OLAP-Daten und eigene Excel-Berichte. Schließlich noch der
Administrator, der Auswertungen erstellt und den ETL-Prozeß überwacht und steuert.
Die Standardauswertungen, interaktive OLAP-Abfragen sowie Stammdatenpflege werden über das
Webportal zugänglich gemacht.
Als Lizenzkosten für die gewählte Lösung des Prototypen fallen hauptsächlich die des SQL Servers
2005 an. Die benötigten Komponenten Integration Services, Analysis Services und Reporting
Services sind bereits inbegriffen. Hinzu kommen geringe Kosten für die zusätzlichen ASP.NETKomponenten von Dundas und DeveloperExpress.
Für die weitere Entwicklung des iBus-Systems ausgehend von diesem Prototypen bis zu einer
ersten Auslieferung wird ca. ein halbes Mannjahr veranschlagt.
Herunterladen