Integration von Unternehmungsdaten über Data Warehouses

Institut für Wirtschaftsinformatik
Prof. Dr. Michael Breitner
Wirtschaftswissenschaftliche Fakultät
Universität Hannover
Integration von Unternehmungsdaten
über Data Warehouses
(Konzept, Architektur, Realisierung)
Autor:
Betreuer:
Rahmenthema:
Semester:
Thorben Sandner
Dipl.-Ök. Christian Schubert
„Standard- und Individualsoftware: Einsatzmöglichkeiten, Vor- und
Nachteile“
Wintersemester 2003/2004
-I-
Inhaltsverzeichnis
Seite
Abbildungsverzeichnis ............................................................................................................ II
Abkürzungsverzeichnis......................................................................................................... III
1
Einleitung .......................................................................................................................... 1
2
Konzept eines Data Warehouses..................................................................................... 1
2.1
Begriff ........................................................................................................................ 1
2.2
Charakteristiken ......................................................................................................... 2
3
Architektur eines Data Warehouses............................................................................... 4
3.1
Komponenten eines Data Warehouses ....................................................................... 5
3.2
Datenmodellierung eines Data Warehouses............................................................... 8
3.2.1
Elemente multidimensionaler Datenstrukturen.................................................. 8
3.2.2
Semantische Modellierung............................................................................... 10
3.2.3
Logische Modellierung .................................................................................... 11
4
Einführung eines Data Warehouses ............................................................................. 13
4.1
Vorgehensmodell ..................................................................................................... 13
4.2
Aspekte der Realisierung ......................................................................................... 15
5
Ausblick........................................................................................................................... 16
Literaturverzeichnis............................................................................................................... 17
- II -
Abbildungsverzeichnis
Seite
Abbildung 1: Idealtypische Data Warehouse-Architektur aus Mucksch, Behme [2000, S. 14] ............ 4
Abbildung 2: Verdichtungsebenen der Dimension Zeit aus Totok [2000, S. 113] ................................. 5
Abbildung 3: Drei-Schichten-Modell der Transformationskomponente aus Müller [2000, S. 153]....... 7
Abbildung 4: Dreidimensionale Matrix aus Holthuis [1998, S. 42]........................................................ 9
Abbildung 5: Rotation einer zweidimensionalen Matrix aus Holthuis [1999, S. 46].............................. 9
Abbildung 6: Unterschiedliche Sichtweisen des OLAP-Würfels aus Totok [2000, S. 63]................... 10
Abbildung 7: Star-Schema aus Holthuis [1999, S. 197] ....................................................................... 12
Abbildung 8: Snowflake Schema aus Holthuis [1999, S. 203] ............................................................. 13
Abbildung 9: Das phasenorientierte Vorgehensmodell aus Mucksch, Behme [1998, S. 319]............. 14
- III -
Abkürzungsverzeichnis
ADAPT
CORBA
CWM
DV
DWH
EDV
ER
IBM
i. e. S.
MER
ODBC
ODS
OLAP
OMT
PPS
SQL
WWW
WWS
Application Design for Analytical Processing Technologies
Common Object Request Broker Architecture
Common Warehouse Metamodel
Datenverarbeitung
Data Warehouse
Elektronische Datenverarbeitung
Entity Relationship
International Business Machines Corporation
im engeren Sinne
Multidimensionales Entity-Relationship
Open DataBase Connectivity
Operational Data Store
On-Line Analytical Processing
Object Modeling Technique
Produktionsplanungssystem
Structured Query Language
World Wide Web
Warenwirtschaftssystem
-1-
1 Einleitung
Seit mehreren Jahren ist ein Trend zur Globalisierung und Dynamisierung der Märkte zu beobachten. Veranlasst durch diesen härter werdenden Wettbewerb versuchen viele Unternehmen
Informationsvorsprünge und somit Wettbewerbsvorteile zu erlangen. Dadurch werden Informationen zur unternehmerischen Ressource und sind als Wettbewerbs- und Produktionsfaktoren von strategischer Bedeutung. Eine funktionierende Informationsversorgung ist dabei die
Voraussetzung, um unternehmerische Entscheidungsprozesse qualitativ verbessern zu können.
In der Vergangenheit gab es viele Ansätze, um die Management- und Entscheidungsprozesse
durch computerunterstützte Informationssysteme1 zu verbessern. Allerdings erfolgte die Datenübernahme aus der vorhandenen DV-Infrastruktur meist nur mit manuell aufbereiteten Daten, wodurch Qualität und Aktualität stark beeinflusst und die erzielten Ergebnisse nicht zufriedenstellend waren. Folglich ist eine betriebliche Datenintegration2 erforderlich, welche auf
horizontaler und vertikaler Ebene angestrebt wird. Die zu erwartende Heterogenität der Daten
und die Anzahl der zu integrierenden Systeme, die sich oft über das ganze Unternehmen verteilen, führten zu dem Ziel, eine einheitliche, eigenständige und unternehmensweite Basis für
Planungs- und Entscheidungsdaten zu schaffen. Dieses Ziel soll mit dem Data Warehouse
Konzept verwirklicht werden.
Im Folgenden wird in Kapitel 2 dieses Konzept erläutert, bevor einzelne Komponenten und
die Datenmodellierung eines Data Warehouses in Kapitel 3 vertiefend dargestellt werden. In
Kapitel 4 wird anschließend ein beispielhaftes Vorgehensmodell und die zu beachtenden Aspekte bei einer Realisierung beschrieben.
2 Konzept eines Data Warehouses
2.1 Begriff
Der Begriff Data Warehouse wurde erstmals 1988 von IBM im Zusammenhang mit der Entwicklung eines European Business Information System (EBIS) verwendet. Durchgesetzt hat
sich der Begriff jedoch erst 1993 mit der Veröffentlichung „Building the Data Warehouse“
durch William Inmon. Die deutsche Übersetzung des Wortes „Warehouse“ ist zwar „Lagerhaus“, allerdings ist die oft verwendete begriffliche Prägung eines Warenhauses auch inhaltlich zutreffender.3
Das Data Warehouse Konzept wird „[…] als neue Möglichkeit einer durchgängigen, konsistenten und endbenutzerorientierten Informationsbereitstellung für computergestützte Managementunterstützungssysteme auf allen Hierarchienebenen angesehen [...]“4. Um dem Thema
dieser Arbeit besser gerecht zu werden, ist die folgende Beschreibung des Data Warehouse
Konzepts passender: Es stellt eine Integrationsstrategie „ […] für Managementinformationen
dar und soll die Qualität, die Integrität und die Konsistenz des zugrundeliegenden Datenmaterials sicherstellen.“5 Damit wird der Schwerpunkt der Betrachtung auf die Integration von
Unternehmungsdaten über Data Warehouses gelegt. Als Integration wird die
1
z. B. Management Information System (MIS); Decision Support System (DSS).
Vgl. Mertens u. a. [2001, S. 57] mit dem Thema: Ziele und Voraussetzungen der Datenintegration.
3
Vgl. Mucksch, Behme [2000, S. 5ff.].
4
Mucksch, Behme [2000, S. 5].
5
Mucksch, Behme [2000, S. 6].
2
-2ternehmungsdaten über Data Warehouses gelegt. Als Integration wird die „Wiederherstellung
eines Ganzen“ oder speziell in der Wirtschaftsinformatik die „Verknüpfung von Menschen,
Aufgaben und Technik zu einem einheitlichen Ganzen“ verstanden.6 In dieser Arbeit werden
Unternehmungsdaten, die man für einen Entscheidungs- und Planungsprozess benötigt als betriebswirtschaftliche Kennzahlen interpretiert. Kennzahlen „[…] dienen dazu, betriebliche
Sachverhalte in konzentrierter Form wiederzugeben“.7
Das Data Warehouse Konzept wurde von vielen Soft- und Hardwareherstellern Anfang der
90er Jahre als Dienstleistungspaket vermarktet. In den einzelnen Bereichen eines Data Warehouses wie z. B. Extraktion- und Transformation, Datenmodellierung, Datenzugriff und Metadatenverwaltung werden meist Standardsoftwarekomponenten eingesetzt.8 Jedoch geht der
manuelle Aufbau von multidimensionalen Datenstrukturen und die oft sehr spezielle Berücksichtigung von betrieblichen Besonderheiten häufig weit über das normale Customizing von
Standardsoftware hinaus.9 Unter einem Data Warehouse Konzept ist also keine umfassende
Standardsoftware zu verstehen.10
„Mit dem Begriff Data Warehouse i.e.S. wird generell eine von den operationalen DVSystemen isolierte Datenbank umschrieben, die als unternehmensweite Datenbasis für alle
Ausprägungen managementunterstützender Systeme dient und durch eine strikte Trennung
von operationalen und entscheidungsunterstützenden Daten und Systemen gekennzeichnet
ist“11. Damit wird das Data Warehouse zur vertikalen Integrationsbasis und ordnet sich als
Middleware zwischen den Administrations- und Dispositionssystemen (untere Ebene) und
den Controllinginformationssystemen (obere Ebene) ein.12
Von der Verbesserung der Informationsversorgung durch ein Data Warehouse profitieren
nicht nur die Managementunterstützungssysteme, sondern auch weitere Verfahren. So setzen
z. B. die Ansätze „Data Mining“ und „On-Line Analytical Processing“ (OLAP) auf der Data
Warehouse Datenbasis auf. Steht beim „Data Mining“ „die Suche nach noch nicht entdeckten
Zusammenhängen im Vordergrund, so dominiert bei OLAP-Anwendungen die aktive und
zielgerichtete Nutzung der Analysewerkzeuge durch den Anwender“13. Vor dem Data Warehouse Konzept wurden diese Ansätze schon intensiv diskutiert, bekamen aber erst durch die
Data Warehouse Datenbasis ihr Anwendungsfeld in der unternehmerischen Praxis.
Auf beide Ansätze wird in dieser Arbeit nicht weiter eingegangen. Da diese Ansätze nicht der
Integration von Daten dienen, sondern eher nachgeschaltete Nutznießer des Data Warehouse
Konzeptes sind.14
2.2 Charakteristiken
Trotz verschiedenster Umsetzungsmöglichkeiten in der Praxis wird die Datenbasis eines Data
Warehouses durch vier Kernbegriffe charakterisiert. Eine häufig zitierte Anforderungsdefinition ist die von Inmon: „A data warehouse is a subject oriented, integrated, non-volatile, and
6
Vgl. Mertens u. a. [2001, S. 82].
Totok [2000, S. 32].
8
Bei der Komponente ’Transformationsprogramme’ herrscht oft Uneinigkeit über Machen oder Kaufen.
9
Vgl. Totok [2000, S. 241].
10
Vgl. Holthuis [1999, S. 71f.].
11
Mucksch, Behme [2000, S. 6].
12
Vgl. Totok [2000, S. 39f.].
13
Schelp [2000, S. 129].
14
Vgl. Schelp [2000, S. 128ff.].
7
-3time variant collection of data [...]“.15 Da die sprachliche Übersetzung und ihre inhaltliche
Definition nicht einheitlich erfolgt orientiert sich der folgende Abschnitt an Mucksch, Behme
[2000, S. 9ff.].16
1) Orientierung an den unternehmensbestimmenden Sachverhalten (subject oriented):
In operativen DV-Systemen ist das Datenmodell nach Geschäftsprozessen bzw. Anwendungsbereichen wie z. B. Produktion und Vertrieb ausgerichtet. Für die Entwicklung des Data
Warehouses hingegen sind die innerbetrieblichen Prozesse des Unternehmens von geringem
Interesse. Die Daten werden zweckneutral nach übergeordneten Gesichtspunkten, z. B. Kundenstruktur, Produktstruktur und Zeitstruktur, abgelegt. Aus dieser Themenorientierung kann
der Informationsbedarf für oft strategische Abfragen und Analysen zur Unterstützung von
Entscheidungen abgeleitet werden.
2) Struktur- und Formatvereinheitlichung (integrated):
Bei der Charakterisierung des Data Warehouses wird der Integration eine besondere Wichtigkeit zugewiesen17. Um eine einheitliche und konsistente Datenbasis aus den oft heterogenen
und historisch gewachsenen operativen DV-Systemen zu bekommen, müssen Struktur- und
Formatvereinheitlichungen vorgenommen werden. Die Strukturvereinheitlichung verhindert,
dass im Meta-Informationssystem die Datenfelder mit identischem Inhalt unterschiedlich benannt werden (Synonyme) oder Datenfelder mit unterschiedlichem Inhalt den gleichen Namen (Homonyme) bekommen. Die operativen DV-Systeme speichern oft dasselbe Attribut in
verschiedenen Ausprägungen ab z. B. das Merkmal Geschlecht (“m“, “w“; “0“, “1“). Die
Formatvereinheitlichung passt diese Datenfelder für die Übernahme in das Data Warehouse
auf einen Standard an. Bei Feldern mit unterschiedlichen Werteinheiten (cm; inches) wird dafür eine Basismaßeinheit (cm) als Standard festgelegt. Im Meta-Informationssystem werden
daneben noch Umrechnungsfaktoren (100m Draht = 20 kg) und Umsetzungstabellen (verschiedene Währungen) geführt. „Der Zweck derartiger Definitionen liegt in einer exakten Interpretierbarkeit der hinterlegten Dateninhalte durch den Endanwender, um semantischen
Missverständnissen bei der freien Navigation zuvorzukommen, die aus der homonymen Verwendung einzelner Geschäftsbegriffe erwachsen können“18.
3) Nicht-Volatilität (nonvolatile):
Der Änderungsgrad von Daten in einem bestimmten Zeitraum wird durch die Volatilität beschrieben. In operativen DV-Systemen ist dieser Grad sehr hoch, da die Aktualität des Datenbestandes absolut gehalten werden soll.19 In das Data Warehouse übernommene Daten werden nur geändert, wenn bei der Datenübernahme aus dem Liefersystem Fehler entstanden
sind. Dadurch können alle Zugriffe auf das Data Warehouse lesend erfolgen, was die NichtVolatilität gewährleistet. Aufgrund dieser Eigenschaft können auf dieser Datenbasis aufsetzende Berichte und Analysen jederzeit reproduziert und nachvollzogen werden. Unterstützend
wirkt, dass die Daten nicht aus dem Data Warehouse gelöscht werden, sondern im Zeitverlauf
ihrer Priorität entsprechend ausgelagert werden. Ein weiterer Vorteil besteht in der Senkung
der Systembelastung, da das Datenbanksystem durch den nur lesenden Zugriff auf Sperrmechanismen verzichten kann und somit entlastet wird.
15
Inmon [1996, S. 33].
Vgl. Mucksch, Behme [2000, S. 9], Schelp [2000, S. 113], Totok [2000, S. 43 (insbesondere Fußnote 346)].
17
Vgl. Inmon [1996, S. 33].
18
Müller [2000, S. 124].
19
Vgl. Totok [2000, S. 42].
16
-44) Zeitraumbezug (time variant):
Für die Analyse von Entwicklungen und Trends ist ein Zeithorizont von fünf bis zehn Jahren
sinnvoll. Dazu werden die zeitpunktgenauen Daten des operativen DV-Systems, mit seinem
eingeschränkten Zeithorizont von meist 60-90 Tagen, in eine zeitraumbezogene Betrachtungsweise transformiert. So findet eine Verdichtung der Daten nach verschiedenen Altersstufen statt (s. Kapitel 3.1). Um einen Zeitraumbezug herzustellen, wird der Schlüssel der importierten Datensätze um Zeitmarken erweitert gespeichert. Bei späteren Importen werden so
keine Daten überschrieben und es ist z. B. möglich, die Zahlungsmoral eines Kunden über einen längeren Zeitraum hinweg zu analysieren.20
3 Architektur eines Data Warehouses
Auswertungstools
OLAP-Front End
Abfrage- und
Berichtssysteme
Anwendungs Server
Data Mining
Data Mart
OLAP Server
Zentrale DWH-Datenbank
ODS
Archivierungssysteme
Meta-Datenbank
Extraktions- und Transformationsprogramme
PPS
…
WWS
Administrations- und Dispositionssysteme
Externe Daten
Abbildung 1: Idealtypische Data Warehouse-Architektur aus Mucksch, Behme [2000, S. 14].
Eine mögliche Umsetzung eines Data Warehouse Konzeptes wird durch Abbildung 1 skizziert. Dabei handelt es sich um eine idealtypische Architektur, da alle möglichen Komponenten implementiert worden sind. Nachfolgend wird kurz die Funktionalität zweier Komponenten erläutert, die im Zusammenhang mit dem Data Warehouse Konzept oft genannt werden,
aber für ein weiteres Verständnis dieser Arbeit nicht relevant sind.
20
Vgl. Totok [2000, S. 43].
-5Data Marts werden vorrangig bei sehr großen Datenmengen eingesetzt und enthalten redundante Teilmengen eines Data Warehouses. Diese Teilmengen sind auf die Bedürfnisse der
Nutzer zugeschnitten. Das führt dazu, dass mit einer relativ kleinen Datenmenge eine Großzahl der Anfragen bearbeitet werden kann.21
Das Operational Data Store (ODS) wird zum Speichern von operativen Daten zwischen zwei
Datenübernahmen oder zur Lieferung von zeitpunktaktuellen Daten direkt an die Auswertungswerkzeuge (s. Kapitel 5) implementiert.22
3.1 Komponenten eines Data Warehouses
Die drei folgenden Komponenten sind Grundlage für die Integration von Daten und sind somit Bestandteil jedes Data Warehouses.
Datenbasis
Der Aufbau und die Gestaltung der unabhängigen Datenbasis richtet sich nach den im Kapitel
2.2 genannten vier Anforderungsdefinitionen. Die Datenbasis stellt damit den eigentlichen
Kern des Data Warehouse Konzeptes dar. Die Unabhängigkeit von den meist zuliefernden
operativen DV-Systemen begründet sich durch die unterschiedliche Ausrichtung der operativen- und der Data Warehouse Systeme. Die operativen DV-Systeme orientieren sich an den
Unternehmensprozessen und zeichnen sich durch eine hohe Anzahl ähnlich gearteter Zugriffe
auf meist wenige Datensätze aus. Das Data Warehousesystem hingegen orientiert sich an unternehmensbestimmenden Sachverhalten und ist die Basis für eine flexible Verarbeitung von
großen Datenmengen.23
niedrig
grob/hoch
Detaillierungsgrad
Quartal
Granularität/
Verdichtungsgrad
Monat
Tag
hoch
Konsolidierungspfad
Jahr
fein/
niedrig
Abbildung 2: Verdichtungsebenen der Dimension Zeit aus Totok [2000, S. 113].
Ein wesentlicher Gestaltungsfaktor des Data Warehouses wird durch das Charakteristikum
des Zeitraumbezuges (s. Kapitel 2.2) eingebracht. Geprägt durch die zeitraumbezogene Sicht,
wird bei der Datenspeicherung die Dimension Zeit als Verdichtungskriterium herangezogen
(Abbildung 2). Der Verdichtungsgrad der Daten wird als Granularität bezeichnet und erhöht
sich mit zunehmendem Alter der Daten. Diese Verringerung der Datenmenge steigert die Ef-
21
Vgl. Anahory, Murray [1997, S. 69f.].
Vgl. Mucksch, Behme [2000, S. 21f.].
23
Vgl. Holthuis [1999, S. 80ff.].
22
-6fizienz des Data Warehouses. Sie kann allerdings auch dazu führen, dass nicht mehr alle Abfragemöglichkeiten zur Verfügung stehen.24
Die Effizienz, im Zusammenhang mit der Granularität, wird erheblich durch die Partitionierung beeinflusst. „Bei Durchführung der Partitionierung wird der gesamte Datenbestand des
Data Warehouses in mehrere kleine, physisch selbstständige Partitionen mit redundanzfreien
Datenbeständen aufgeteilt.“25 Die Aufteilung in kleinere Datenbestände erweitert die Möglichkeiten der Datenbankverwaltung. So können z. B. leichter Indexe gesetzt, Reorganisationen durchgeführt oder sequenzielle Suchen getätigt werden. Partitionierungen können horizontal oder vertikal durchgeführt werden. Die horizontale Partitionierung richtet sich nach betriebswirtschaftlichen Dimensionen. So könnte eine Partitionierung nach Monaten große Geschwindigkeitsvorteile bringen, wenn die Endbenutzer häufig Umsatzzahlen auf Monatsebene
vergleichen müssen. Die vertikale Partitionierung erfolgt nach unternehmensbestimmenden
Sachverhalten oder Unternehmensbereichen.26
Ein weiteres geschwindigkeitsförderndes Gestaltungsmerkmal ist die Denormalisierung. Dabei werden Normalformen zurückgenommen oder nicht umgesetzt. Durch die Zusammenfassung von Tabellen auf logischer Ebene, wird die Anzahl der nötigen Datenbankzugriffe gesenkt. Die gestiegene Geschwindigkeit geht zulasten eines erhöhten Speicherbedarfs, der
durch die nun auftretenden Redundanzen entsteht. Die Darstellung denormalisierter Daten in
mehrdimensionaler Form ist z. B. durch das in Kapitel 3.2.3 angesprochene Star Schema
möglich.
Das zugrunde liegende Datenbanksystem eines Data Warehouse ist nicht auf eine bestimmte
Technologieform wie relational, multidimensional oder objektorientiert festgelegt. Auswahlkriterien für ein Datenbanksystem können die später zuverarbeitenden Datenmengen, Kompatibilität mit zugreifenden Anwendungen und das fachliche Wissen der Systembetreuer sein.27
Transformationsprogramme
Nach Inmon wird das Design und die Entwicklung der im Idealfall einzigen Schnittstelle,
zwischen den operativen DV-Systemen und dem Data Warehouse, meist zeitlich unterschätzt.
Der zum Aufbau benötigte Aufwand kann oft bis zu 80 Prozent des gesamten Data Warehouse Entwicklungsaufwandes einnehmen.28 Die Schnittstelle setzt sich aus mehreren Extraktions- und Transformationsprogrammen zusammen und importiert Daten aus verschiedensten
unternehmensinternen und -externen Datenquellen. Unternehmensinterne Daten können trotz
ihrer Heterogenität meist ohne Medienbruch (manuelle Eingabe) aus den operativen DVSystemen gewonnen werden.29 Dies kann automatisiert über genormte Schnittstellen wie z. B.
ODBC oder CORBA im Computernetzwerk erfolgen.30 Im Gegensatz dazu müssen unternehmensexterne Daten, die oft in unstrukturierter Form (Grafiken, Texte, Videosequenzen)
vorliegen, gesondert für das Data Warehouse digitalisiert oder in ihrer ursprünglichen Form
archiviert werden. Der Aufwand bei der Gewinnung von unternehmensexternen Daten lässt
sich dadurch rechtfertigen, dass Berichte und Auswertungen, die auf unternehmensinternen
24
Vgl. Inmon [1996, S. 45ff.].
Mucksch, Behme [2000, S. 45].
26
Vgl. Totok [2000, S. 44].
27
Vgl. Mucksch, Behme [2000, S. 42ff.].
28
Vgl. Inmon [1996, S. 281].
29
Vgl. Holthuis [1999, S. 89].
30
Vgl. Totok [2000, S. 115].
25
-7Daten beruhen, ihre Aussagekraft oft erst dadurch erlangen, wenn sie mit externen Daten verglichen werden.31
Zentrale Data Warehouse Datenbank
Datenbeschaffung
Integration
Transformation i. e. S.
Extraktion
Extraktion
Operative
Vorsysteme
Externe
Daten
Abbildung 3: Drei-Schichten-Modell der Transformationskomponente aus Müller [2000, S. 153].
Die weitere Beschreibung der Transformationskomponente orientiert sich an Müller [2000,
S.152 ff.]. Der Aufbau dieser Komponente kann in einem dreistufigen Schichtenmodell (Abbildung 3) dargestellt werden. In der Exportschicht sind zwei Vorgehensweisen bei der Extrahierung der Daten aus den operativen DV-Systemen möglich. Bei dem ersten Verfahren wird
eine vollständige Kopie aller relevanten Daten aus den operativen DV-Systemen durchgeführt. Dies geschieht z. B. bei der initialen Bestückung des Data Warehouses, mit der ein
grundlegender Datenbestand erzeugt werden soll, oder bei einem hohen Volatilitätsgrad der
operativen Datenbasis. Für das zweite Verfahren sind hingegen nur aktualisierte oder neue
Daten (Delta) aus dem operativen DV-System relevant, was zu einer inkrementellen Aktualisierung des Data Warehouses führt.
Die Wahl des Übernahmeverfahrens ist von der jeweiligen Struktur des operativen Systems,
den betriebswirtschaftlichen Bedürfnissen und der DV-technischen Leistungsfähigkeit im Unternehmen abhängig. Die zweite Schicht mit der Transformation im engeren Sinne erfüllt somit die Aufgabe der, von Inmon als Charakteristikum geforderten, Struktur- und Formatvereinheitlichung. In der dritten Schicht erfolgt die eigentliche Datenübernahme der transformierten Daten in die Datenbank des Data Warehouses.
Die aus Transformationsprozessen resultierende Datenqualität im Data Warehouse beeinflusst
den später zu erreichenden Nutzen der Endanwender, z. B. sind durch die Vermeidung von
Redundanzen im Kundenstamm bei späteren Kundenmailings Kosteneinsparungen möglich.32
Metadatenbank
„Metadaten sind Daten über Daten“.33 In der operativen Umgebung werden sie, wenn überhaupt vorhanden, oft nur unzureichend gepflegt.34 Im Data Warehouse Konzept hingegen sind
diese Informationen, gerade für die oft in EDV-Dingen unerfahrenen Endanwender, erste An-
31
Vgl. Holthuis [1999, S. 90f.]; Inmon [1996, S. 261ff.].
Vgl. Mucksch, Behme [2000, S. 33ff.]; Devlin [1997, S. 214].
33
Poe [1997, S. 190].
34
Vgl. Holthuis [1999, S. 98].
32
-8laufstelle zur Identifizierung der relevanten Daten für ihre Aufgabenstellung.35 Die Metadaten
sind Basis für die Schnittstelle zwischen den operativen DV-Systemen und der Data Warehouse Umgebung.36 Poe unterscheidet zwei Gruppen von Metadaten. Die erste Gruppe enthält
Informationen über die operativen Quelldatensysteme wie z. B. Datenstrukturen, Informationen über den Transformationsprozess und die anschließende Zieldatenquelle. Die zweite
Gruppe bildet eine Abstraktionsschicht zwischen dem Data Warehouse Datenmodell und dem
in Dimensionen angelegten Geschäftsprozessmodell. Diese Abstraktionsschicht ist vorteilhaft
bei Datenstrukturänderungen im Data Warehouse. Nach einmaliger Aktualisierung der Metadaten stehen die Neuerungen allen zugreifenden Anwendungen zur Verfügung, ohne dass
Auswertungen (z. B. Berichte und Analysen) durch Änderungen zum Absturz gebracht werden können. Dies bezieht sich nicht nur auf die Veränderung einzelner Datenbankfelder oder
–tabellen, sondern auch auf strukturelle Änderungen. So würde sich eine zugreifende Anwendung „automatisch“ über die Metadaten an neue Unternehmenshierarchien anpassen, wenn z.
B. bei einer Umstrukturierung eine Verwaltungsebene wegfallen würde. 37
3.2 Datenmodellierung eines Data Warehouses
3.2.1 Elemente multidimensionaler Datenstrukturen
Als Grundlage der managementunterstützenden Systeme soll das Data Warehouse bei entscheidungs- und führungsrelevanten Fragestellungen behilflich sein. Diese betriebswirtschaftlichen Fragestellungen38 werden oft unter Berücksichtigung mehrerer Einflussfaktoren untersucht. Diese Sichtweise gliedert Kennzahlen nach verschiedenen Betrachtungsrichtungen
(Dimensionen). Mehrdimensionale Datenstrukturen können im Gegensatz zu relationalen Datenstrukturen die Matrizensichtweise optimal umsetzen. Durch die nun mögliche Abbildung
von Kennzahlen kann eine Datenstruktur aufgebaut werden, die sich dem Endanwender intuitiv erschließt und seinen Bedürfnissen bei Analysen entgegen kommt.39
Die Darstellung der multidimensionalen Daten erfolgt meist in Form einer Matrix. Ihr Aussehen wird durch die Anzahl der Dimensionen bestimmt. Der Inhalt der einzelnen Zellen besteht aus quantitativen Werten (s. Kapitel 3.2.3 Faktdaten). In Abbildung 4 sind Produkt, Zeitraum und Verkaufsregion die bestimmenden Dimensionen. Die Zellen enthalten die einzelnen
Verkaufsumsatzzahlen.40
Spätere Analysen werden durch den erreichten hohen Organisationsgrad der Daten erleichtert,
z. B. lässt sich die Gesamtverkaufszahl von Sekt im Monat Januar durch eine einfache Aufsummierung der Spalte ermitteln. In einem relationalen Datenbanksystem müssen dagegen
erst alle Tupel mit der Bedingung „Sekt und Verkaufdatum Januar“ identifiziert werden, bevor eine Aufsummierung erfolgen kann. Dies führt je nach Umfang zu längeren Antwortzeiten.41
35
Vgl. Inmon [1996, S. 185f.].
Vgl. Inmon [1996, S. 186].
37
Vgl. Poe [1997, S. 190ff.].
38
z. B. Wie hat sich der Umsatz eines Produktes in einem Verkaufsgebiet innerhalb eines Zeitraums entwickelt?
39
Vgl. Schelp [2000, S. 146f.].
40
Vgl. Holthuis [1999, S. 42].
41
Vgl. Holthuis [1999, S. 42f.].
36
-9Verkaufsumsätze
Rotwein
on
Ve
rk
au
März
Februar
Januar
re
gi
Br
an
He de
nb
s
s
ur
Ni
g
ed en
er
sa
ch
se
n
Sekt
fs
Produkt
Weißwein
Zeitraum
Abbildung 4: Dreidimensionale Matrix aus Holthuis [1998, S. 42].
Weitere Geschwindigkeitsvorteile gegenüber einem relationalen Datenbanksystem ergeben
sich aus der einfachen Anpassungsmöglichkeit der multidimensionalen Matrix an einen neuen
Blickwinkel. So würde eine Abfrage nach „Verkaufsumsatzzahlen nach Produkt und nach
Region“ in einem normalisierten, relationalen Datenmodell komplexe Abfragen und Sortierungen mit sich bringen (Abbildung 5).42
Weißwein
3
5
5
4
3
2
Niedersachsen
Brandenburg
Sekt
Brandenburg
Hessen
Niedersachsen
6
3
4
5
5
3
5
5
2
Sekt
5
Weißwein
5
Rotwein
6
Region
Rotwein
Hessen
Produkt
Verkaufsumsätze
Produkt
Region
Rotation 90°
Abbildung 5: Rotation einer zweidimensionalen Matrix aus Holthuis [1999, S. 46].
Bei einem multidimensionalen Datenmodell ergibt sich durch eine 90-Grad-Drehung der multidimensionalen Matrix das gewünschte Ergebnis. Diese Rotation wird Data Slicing genannt,
da jede Rotation zu einer neuen Sichtweise führt. Die Anzahl der möglichen Blickwinkel
steigt exponentiell mit der Anzahl der Dimensionen. Die hier verwendete dreidimensionale
Matrix besitzt sechs Betrachtungswinkel, denn jede Dimension ergibt mit den beiden anderen
Dimensionen wieder eine mögliche Betrachtungsrichtung.43
42
43
Vgl. Holthuis [1999, S. 46].
Vgl. Holthuis [1999, S. 45f.].
- 10 Durch so genanntes Data Dicing lassen sich einzelne Dimensionen auswählen, um so Teilmengen einer Matrix zu betrachten. Diese Art des schnellen Zugriffs nutzen z. B. die auf dem
Data Warehouse aufsetzenden OLAP-Anwendungen (s. Kapitel 2.1). Von multidimensionalen Datensystem unterstützt können einige Anwendungen so die unterschiedlichen Sichtweisen von betrieblichen Entscheidungsträgern problemlos abbilden (Abbildung 6). Die Sicht auf
die Absatzergebnisse wird bei der Geschäftsleitung durch Dicing, die der Anderen durch Slicing erreicht.44
Controlling
Produktmanager
Geschäftsleitung
Vertriebsleiter
Absatzergebnis
Abbildung 6: Unterschiedliche Sichtweisen des OLAP-Würfels aus Totok [2000, S. 63].
Trotz der hier genannten Vorteile der multidimensionalen Datenstrukturen erfolgten bisher
die meisten Data Warehouse Implementierungen auf Basis von relationalen Datenbanksystemen. Die multidimensionalen Datenbanksysteme verfügen zwar über ein hohes Maß an systemspezifischer Funktionalität, jedoch fehlen allgemein anerkannte Standards. Aufgrund der
noch fehlenden mathematische Basis für eine multidimensionale Algebra ist auch noch keine
Standardabfragesprache wie bei den relationalen Systemen mit SQL realisiert worden.
Die in Kapitel 3.2.3 beschriebenen Ansätze zur Speicherung von multidimensionalen Datenstrukturen finden oft in relationalen Datenbanken Anwendung.
3.2.2 Semantische Modellierung
Aus Sicht der Endanwender werden auf dieser Ebene die Datenobjekte und ihre semantischen
(inhaltlichen) Zusammenhänge in einem Datenmodell erfasst. „Die Semantik befaßt sich mit
den Beziehungen der Daten zu den Phänomenen der Realität und ermöglicht so deren Interpretierbarkeit“.45 Dies geschieht vor der Implementierung und ist unabhängig von der verwendeten Zieldatenbanktechnologie. Dieser Zwischenschritt vor der eigentlichen Datenmodellierung stellt sicher, dass Sichtweise und Verständnis von Endanwender und Entwickler
identisch sind.46
44
Vgl. Totok [2000, S. 62f.].
Holthuis [1999, S. 143].
46
Vgl. Schelp [2000, S. 153].
45
- 11 Es gibt eine Vielzahl von Modellierungsansätzen, die grob in drei Kategorien aufgeteilt werden können. Dabei handelt es sich um Entity-Relationship basierte Methoden (MER), speziell
für die multidimensionale Modellierung entwickelten Methoden (ADAPT) und objektorientierte Methoden (OMT). Bisher hat sich noch kein (Industrie-) Standard etablieren können.47
Bei einer fast ausschließlichen Nutzung von relationalen Datenbanken für Data Warehouse
Implementierungen findet die auf der Entity-Relationship basierende Methode breite Anwendung in der Praxis.48 Die einfach zu verwendende Notation und die häufig direkte Überführbarkeit in relationale Datenbanksysteme tragen als wesentliche Gründe dazu bei. Allerdings
erfordern die multidimensionalen Strukturen einige Erweiterungen am ER-Grundmodell. Die
bisher für statische Datenmodellierung ausgelegte Notation muss für funktionale und dynamische Sichten um neue Notationselemente ergänzt werden.49
Alle angeführten Ansätze befinden sich noch in der Entwicklung und werden mit Ausnahme
des ADAPT Ansatzes für die Modellierung der charakteristischen Dimensionsstrukturen für
nur bedingt geeignet gehalten.50
3.2.3 Logische Modellierung
Bedingt durch die große Verbreitung von relationalen Datenbanken ist die Überführung von
multidimensionalen Konstrukten in das relationale Modell durch logische Modellierung ein
häufig auftretender Fall. Die relationalen Datenbanksysteme sind allerdings nicht für die
mehrdimensionale Datenanalyse mit verschiedenen Perspektiven und Granularitätsgraden
konzipiert worden. Durch den geringen Unterstützungsgrad reagieren die relationalen Abfragewerkzeuge bei den multidimensionalen Strukturen nur sehr langsam.51
Dieser Mangel wird durch die Erweiterung der relationalen Systeme um multidimensionale
Funktionalität behoben. Dazu werden die Daten denormalisiert und multidimensionale Funktionen werden über relationale Standardoperatoren abgebildet. Die dabei zu erreichenden Geschwindigkeitsvorteile52 sollen durch Einhaltung bestimmter Strukturen z. B. Star oder
Snowflake Schema sichergestellt werden.53
Star Schema
Das Star Schema54 basiert auf zwei Arten von Tabellen. Es handelt sich dabei um eine Fakttabelle und mehrere Dimensionstabellen. Zur besseren Visualisierung werden diese Sternförmig
angeordnet (Abbildung 7).
Die Fakttabelle enthält quantitative Daten, wie z. B. Kennzahlen (Verkaufsumsatz), die auch
später im Zentrum der Datenanalyse stehen. Die Dimensionstabellen bestehen aus Attributen
(Produkt, Region, Zeitraum, Geschmack) der Faktdaten und beinhalten die einzelnen Dimensionsausprägungen (Rotwein, Brandenburg, Januar, trocken). Für jede aufzuführende Dimension wird eine eigene Dimensionstabelle erstellt, deren Daten in denormalisierter Form vor47
Vgl. Totok [2000, S. 123].
Vgl. Totok [2000, S. 171].
49
Vgl. Schelp [2000, S. 158ff.].
50
Vgl. Totok [2000, S. 282].
51
Vgl. Totok [2000, S. 173f.].
52
Zur Auflistung von weiteren Vorteilen beim Einsatz des Star Schema: Vgl. Poe [1997, S. 140].
53
Vgl. Totok [2000, S. 173f.].
54
Vgl. Kimball [1996, S. 10]. Wird es Dimensional Model genannt.
48
- 12 liegen. Die einzelnen Dimensionstabellen sind nicht miteinander verbunden, sondern weisen
nur eine Verknüpfung zur Fakttabelle auf. Die Elemente einer multidimensionalen Matrix lassen sich im Star Schema einfach aufzeigen. Entlang der Dimensionsachse werden die einzelnen Positionen durch die Dimensionsausprägungen der Dimensionstabelle dargestellt. Die
einzelnen Zellen der Matrix werden mit den Daten aus der Fakttabelle gefüllt.55
Produkt
Region
Rotwein
Brandenburg
Weißwein
Hessen
Sekt
Niedersachsen
Produkt
Region
Geschmack
Zeitraum
Verkaufsumsatz
Geschmack
Zeitraum
trocken
Januar
halbtrocken
Februar
Fakttabelle
mild
März
Dimensionstabelle
Abbildung 7: Star Schema aus Holthuis [1999, S. 197].
Wenn die Faktdaten unterschiedliche Dimensionsausprägungen benötigen, müssen entsprechend mehr Fakttabellen angelegt werden. Dies ist bei komplexen Datenmodellen häufiger
der Fall. Das sich daraus entwickelnde Schema wird Multi-Fakttabellen-Schema genannt.56
Snowflake Schema
Das Snowflake Schema stellt eine Erweiterung des Star Schema dar und zeichnet sich durch
eine stärkere Normalisierung (dritte Normalform) der Dimensionen aus. Dieses Schema wird
gegenüber dem Star Schema bevorzugt, wenn die Dimensionsebenen ungleichmäßig besetzt
sind. Wie in Abbildung 8 zu sehen ist, enthalten einige Dimensionstabellen (Region, Zeitraum) nur noch Daten über Dimensionshierarchien. Ihnen angeschlossen sind die entsprechenden Attributstabellen, welche die beschreibenden Informationen über die Dimensionselemente enthalten.
Aufgrund dieser erhöhten strukturellen Komplexität bei der Anordnung der Tabellen lehnt
sich der Name des Schemas an der Schneeflocke an. Diese höhere Komplexität erschwert allerdings auch die Navigation in den Datenbeständen, was sich bei den Standardabfragewerkzeugen negativ bemerkbar macht. So ist das Problem der Komplexität auch gegen eventuell
zu erzielende Geschwindigkeitsvorteile und Speicherplatzeinsparungen nicht als gering anzusehen und wird nur empfohlen bei großen Dimensionstabellen mit vielen Attributen auf niedriger Ebene.57
55
Vgl. Holthuis [1999, S. 196f.].
Vgl. Holthuis [1999, S. 197].
57
Vgl. Holthuis [1999, S. 202ff.].
56
- 13 Bundesland
Brandenburg
Hessen
Niedersachsen
Produkt
Rotwein
Weißwein
Sekt
Produkt
Region
Bundesland
PLZ-Gebiet
Stadt
Region
Geschmack
Geschmack
trocken
halbtrocken
mild
Zeitraum
Verkaufsumsatz
Monat-ID
Januar
Februar
März
Zeitraum
Monat-ID
Woche-ID
Tag-ID
Tag-ID
Montag
Dienstag
Mittwoch
PLZ-Gebiet
0
1
2
3
…
Stadt
Potsdam
Wiesbaden
Hannover
Woche
KW 1
KW 2
KW 3
Abbildung 8: Snowflake Schema aus Holthuis [1999, S. 203].
Ursache für die Problematik der beiden Schemata ist die mangelhafte Unterstützung durch die
relationalen Datenbanksysteme. Wird diese Unterstützung hinsichtlich einer besseren und performanteren Zugriffsstruktur weiter ausgebaut, so wird das Star Schema als prinzipiell gut geeignet für die Haltung multidimensionaler Daten im Data Warehouse eingeschätzt.58
4 Einführung eines Data Warehouses
4.1 Vorgehensmodell
„Ein Vorgehensmodell beschreibt alle Ereignisse und notwendigen Arbeitsschritte, welche
zur Erreichung der definierten Projektziele erforderlich sind“.59 Vorgehensmodelle sind nicht
statisch, sondern können auf die jeweilige Situation angepasst oder kontinuierlich verändert
werden. Ziel ist es eine Vereinfachung und Komplexitätsreduzierung des Vorgehens vorzunehmen.60
Das Vorgehensmodell des Data Warehouse unterscheidet sich durch die Verschiedenheit der
Ziele und Datenstrukturen von dem Vorgehensmodell der klassischen Softwareentwicklung.
Die klassische Systementwicklung startet mit Anforderungen und endet mit den gewünschten
Daten (Anforderungsorientiert). Die Data Warehouse Entwicklung hingegen ist genau gegensätzlich, es wird mit Daten begonnen und endet mit Benutzeranforderungen (Datenorientiert).61
Das Data Warehouse bildet auch keine operationalen Geschäftsprozesse ab, was eine nachfolgende Prozessmodellierung unnötig macht und Entwicklungsstufen entfallen lässt.62 Die genannten Unterschiede werden in einem traditionellen Vorgehensmodell nur unzureichend berücksichtigt.
58
Vgl. Holthuis [1999, S. 210].
Kurz [1999, S. 292].
60
Vgl. Kurz [1999, S. 293].
61
Vgl. Inmon [1996, S. 24f.].
62
Vgl. Poe [1997, S. 80].
59
- 14 In der Literatur findet sich kein einheitliches Vorgehensmodell, das einen allgemeinen Rahmen für Data Warehouse Projekte liefert. Die Mehrheit der in der Literatur vorgestellten Vorgehensmodelle ähneln sich in der Reihenfolge der Schritte Analyse, Design, Implementierung
und beinhalten iterative Elemente.63 So sind viele Vorgehensmodelle der Produktanbieter, bedingt durch die hohe Bedeutung der Datenbasis des Data Warehouses, angelehnt an die klassische Datenbankentwicklung.64
Die folgende Darstellung eines möglichen Vorgehensmodells erfolgt in Anlehnung an
Mucksch, Behme [1998, S. 318ff.]. Das phasenorientierte Vorgehensmodell (Abbildung 9) ist
in die drei schon angesprochenen Phasen Analyse, Design, und Implementierung (Produktivsetzung) gegliedert. Es wird nach anwenderbezogenen Aufgaben, die über der Zeitachse liegen und systemtechnischen Aufgaben, die unter der Zeitachse liegen unterschieden. Es ist
nicht unbedingt notwendig bei der ersten Phase zu starten, wenn im Unternehmen bereits
Voraussetzungen für den Aufbau eines Data Warehouse erfüllt sind. Allerdings ermöglicht
das iterative Modell auch zu einer früheren Phase zurückzugehen, wenn nicht alle Voraussetzungen vorhanden sind.
Produktivsetzung
Design
Analyse
Anwender-
Geschäftszweck
bestimmen
Anwender
werkzeuge
schulen
auswählen
Anwender-
Datenstrukturen
Anforderungen
erheben
Start
einrichten
OK?
OK?
Datenquellen
analysieren
werkzeuge
modellieren
Ziel
System-
Administrator
architektur
ausbilden
entwerfen
Behebung von
Datendefiziten
Datenpumpe und
Datenbank
implementieren
Abbildung 9: Das phasenorientierte Vorgehensmodell aus Mucksch, Behme [1998, S. 319].
Erste Phase: Analyse des Informationsbedarfs
Auf der Anwenderebene müssen die Endanwender den Geschäftszweck des Data Warehouses
festlegen und die relevanten operativen Daten bestimmen. Auf der systemtechnischen Ebene
werden anschließend die unternehmensinternen und -externen Datenquellen zur Übernahme
der Datenlieferung definiert.
Zweite Phase: Design der Lösung
Die Auswahl von Anwendungswerkzeugen und einer Datenbank wird oftmals durch bereits
vorhandene Software eingeengt. Bestehende Software sollte auf Erweiterbarkeit oder Funkti63
64
Vgl. Müller [2000, S. 211f.].
Vgl. Holthuis [1999, S. 219].
- 15 onsübernahme geprüft werden. Neben der Datenmodellierung sind die in Kapitel 3.1 aufgeführten Data Warehouse spezifischen Elemente wie z. B. Zeitraumbezug und Granularität gesondert zu berücksichtigen.
Dritte Phase: Produktivsetzung der Lösung
Auf der anwendungsbezogenen Ebene werden die Anwenderwerkzeuge eingerichtet. Für die
Endanwender werden dabei verschiedene Berichtsarten65 bereitgestellt, an denen sie direkt
geschult werden. Mit der Produktivsetzung müssen die Administratoren nun das Leistungsverhalten beobachten. Eventuell sind Tuning-Maßnahmen durchzuführen, neue Benutzeranforderungen umzusetzen, Zugriffsrechte verwalten und datenschutzrechtliche66 Bestimmungen zu überwachen.
4.2 Aspekte der Realisierung
Bei der Implementierung eines Data Warehouse Konzeptes soll auf einige beachtenswerte
Punkte näher eingegangen werden.
Die Realisierung, der im Data Warehouse Konzept geforderten unternehmensweiten, zentralen Datenbasis, wird von einigen Autoren als schwierig bis gescheitert angesehen. Gründe dafür sind die langwierige Umsetzungsdauer, geringe Akzeptanz von Kompromisslösungen und
die schwierige Umsetzung des eigentlichen Datenmodells.67 Neben Technischen sind auch
betriebswirtschaftliche Gründe anzuführen, wie z. B. in Unternehmen mit einer Konzernstruktur verfügen die Konzerntöchter oft über unabhängige nicht aufeinander abgestimmte DVSysteme.68 So findet sich in der Praxis nur bei 33 v. H. Unternehmen ein unternehmensweites
Datenmodell als Basis für die DV-Systeme.69 Dieser Problematik wird durch den Einsatz von
individuellen Unternehmensbereichs-Data Marts entgegen gewirkt.
Als Einsatzgebiete eines Data Warehouses schlägt Poe vorwiegend Unternehmensbereiche70
vor, die die Einnahmen der Unternehmung fördern und die Wettbewerbsposition verbessern,
z. B. Verkaufsanalyse, Finanzen und Marketing. Für eine Erstimplementierung empfiehlt Poe
die Finanzabteilung, welche sich aufgrund der beschränkten Datenmenge und der Homogenität der Daten besonders eignet.71
Die Einbindung, der in das Data Warehouse zu integrierenden Daten, ist ein iterativer Prozess, weil die Anwender, nach Kenntnis der Daten, anschließend oftmals weitere Daten anfordern.72 Die Auswahl, der für einen Entscheidungsprozess relevanten Daten, gestaltet sich
hingegen komplizierter. Es müssen konkrete Anwender- und Führungskräftebefragungen
durchgeführt werden, damit ein Verständnis für die langfristigen betrieblichen Entwicklungen
entsteht. Die Komplexität der Einschätzung des betrieblichen Einsatzfeldes wird deutlich,
wenn bei einer Data Warehouse-Einführung dieser Aufwand auf mindestens 2/3 des Gesamtaufwandes geschätzt wird.73
65
Vgl. Poe [1997, S. 170f.] z. B. Vordefinierte Berichte, Parametrisierbare Berichte, Flexible Berichte.
Vgl. Mucksch, Behme [1997, S. 95ff.].
67
Vgl. Mucksch, Behme [1997, S. 124f.].
68
Vgl. Totok [2000, S. 29].
69
Vgl. Totok [2000, S. 54].
70
Vgl. Schelp [2000, S. 134] Werden als Einsatzgebiete: Controlling, Geschäftsführung, Marketing etc. genannt.
71
Vgl. Poe [1997, S. 105f.].
72
Vgl. Poe [1997, S. 119].
73
Vgl. Mucksch, Behme [1997, S. 84].
66
- 16 -
5 Ausblick
Die Implementierung eines Data Warehouses bringt zahlreiche Nutzenpotenziale mit sich.
Diese auszuschöpfen gilt es besonders für Branchen, die in einem starken Wettbewerb stehen
und eine kundenzentrierte Ausrichtung haben wie z. B. Handel, Banken, Versicherungen.
Als Grundlage dafür dient die unabhängige und im Idealfall unternehmensweite Data Warehouse Datenbasis. Sie hängt maßgeblich von der erfolgreichen Umsetzung zweier Faktoren
ab. Die Transformationskomponente und das Datenmodell haben großen Einfluss auf die Datenbasis, ihre spätere Datenqualität und somit auf die Akzeptanz des gesamten Data Warehouse Projektes.
Auf technischer Ebene verbessert das Data Warehouse Konzept die horizontale Integration im
Unternehmen. Die technische Integration wird unterstützt durch die Integration auf der semantischen Ebene. Diese unternehmensweite Standardisierung von Entscheidungs- und Planungsdaten in einer Datenbasis führt zu einer einfachen und qualitativ hochwertigen Informationsbereitstellung.
Auf dieser neuen Qualität der Informationsversorgung aufbauend wird eine sehr große Flexibilität erreicht. Da das Data Warehouse nicht explizit für eine Anforderung erstellt wird, kann
es z. B. betriebliche Fragestellungen aus unterschiedlichsten Abteilungen beantworten und ist
vermutlich in der Lage, flexibel auf zukünftige, bisher unbekannte Anforderungen zu reagieren.
Inzwischen stellen heute Data Warehouses in den Bereichen E-Business und E-Commerce eine technologische Grundlage für eine intelligente Kundenorientierung dar.74 Seit einiger Zeit
ist ein starker Trend in Richtung Echtzeitverarbeitung75 von Daten zu beobachten. Dazu werden meist bestehende Data Warehouse Projekte um die Architekturkomponente ODS (s. Kapitel 3) erweitert. Daneben gibt es Bestrebungen, einen Web-basierten Zugang zum Data Warehouse zu ermöglichen, um einheitliche und intuitive Oberflächen im Unternehmen anbieten
zu können.
Auch für die Zukunft werden dem Data Warehouse Markt große Wachstumsraten vorhergesagt. Weiterhin wären tiefer gehende Bemühungen im Bereich der Metadaten76 und der multidimensionalen Datenmodellierung zur Schaffung von umfassenden anerkannten Standards
wünschenswert. Dies würde helfen, weitere Potenziale der Data Warehouse Architektur umzusetzen.
Abschließend betrachtet lässt sich der Nutzen eines Data Warehouses für ein Unternehmen
nur schwer quantifizieren. Stattdessen sind bei der Bewertung qualitative Aspekte anzuführen.
Trotzdem sind es gerade die strategischen Entscheidungen, die oft die langfristige Überlebensfähigkeit eines Unternehmens sichern. Werden diese doch durch die verbesserte Informationsversorgung entscheidend unterstützt.
74
Vgl. Kimball, Merz [2000].
Vgl. http://www.adtmag.com/article.asp?id=8095 .
76
Vgl. http://www.omg.org/cwm/ (The Common Warehouse Metamodel).
75
- 17 -
Literaturverzeichnis
Anahory, S., Murray, D.: Planung, Implementierung und Administration. Addison-WesleyLongman, Bonn u.a. 1997.
Devlin, B.: Data Warehouse from Architecture to Implementation. Addison-WesleyLongman, Reading, Massachusetts u.a. 1997.
Holthuis, J.: Der Aufbau von Data Warehouse-Systemen. 2. Auflage, Gabler, Wiesbaden
1999.
Inmon, W.H.: Building the Data Warehouse. 2nd Edition, Wiley Computer Publishing, New
York u.a. 1996. (aktuellste Auflage: 3. Aufl. von 2002)
Kimball, R.: The Data Warehouse Toolkit. Wiley Computer Publishing, New York u.a. 1996.
(aktuellste Auflage: 2. Aufl. von 2002)
Kimball, R., Merz R.: The Data Webhouse Toolkit. Wiley Computer Publishing, New York
u.a. 2000.
Kurz, A.: Data Warehousing Enabling Technology. MITP, Bonn 1999.
Mertens, P. u. a.: Grundzüge der Wirtschaftsinformatik. 7. Auflage, Springer, Berlin u. a.
2001.
Mucksch, H., Behme, W. (Hrsg.): Das Data Warehouse-Konzept: Architektur – Datenmodelle
– Anwendungen; mit Erfahrungsberichten. 2.Auflage, Gabler, Wiesbaden 1997.
Mucksch, H., Behme, W. (Hrsg.): Das Data Warehouse-Konzept: Architektur – Datenmodelle
– Anwendungen; mit Erfahrungsberichten. 4. Auflage, Gabler, Wiesbaden 2000.
Müller, J.: Transformation operativer Daten zur Nutzung im Data Warehouse. Gabler, Wiesbaden 2000.
Poe, V., Reeves L.: Aufbau eines Data Warehouse. Prentice Hall, München u. a. 1997.
Schelp, J.: Modellierung mehrdimensionialer Datenstrukturen analyseorientierter Informationssysteme. Gabler, Wiesbaden 2000.
Totok, A.: Modellierung von OLAP- und Data-Warehouse-Systemen. Gabler, Wiesbaden
2000.