Das Data Warehouse Der ETL Prozess

Werbung
Entwicklung eines Data-Warehouse
Wirtschaftsinformatik (Master) 2013
Ziel des Projekts ist die Entwicklung einer zentralen
Datenbank zur Speicherung aller relevanten
Bootsdaten aus externen Quellen.
Ausgangssituation
-
-
Externe Anbieter stellen Schnittstellen zum Abrufen ihrer Bootsdaten
zur Verfügung. Die Datenqualität ist dabei abhängig vom jeweiligen
Anbieter.
Bootsdaten wurden manuell ausgelesen, aufbereitet und zum
Yachtico Bootsbestand hinzugefügt.
Das Content-Management-System „Drupal“ speichert und
verwaltet diesen Bootsbestand in einer nicht spezialisierten Form.
leitende Konzepte
-
Planung und Implementierung einer zentralen und auf die
Unternehmensbedürfnisse angepassten Datenbank
Entwicklung performanter und zukunftssicherer
Datenstrukturen
Sicherstellen von konstanter Datenqualität durch
automatische Einleseprozesse mit Fehlerbehandlung
Das Data Warehouse
ETL Prozess
Externe Quellen
Data Warehouse
-
- nicht ständig verfügbar
- liegen in unterschiedlichen Formaten vor
- propagieren keine Änderungen
- enthalten unter anderem gleiche Boote
-
zentraler Datenaufbewahrungsort eines
Unternehmens
Vereinigung verschiedener Quellen zu einem Ganzen
Entkopplung der eigenen Datenbasis von externen
Web-Services
Historisierung und Versionierung von
Datenänderungen durch externe Quellen
Der ETL Prozess
Sources
Staging Area
extrahieren
Bei der Extraktion werden die
externen Daten in die lokale
Staging Area 1:1 kopiert. Der
Fokus liegt hierbei auf der
Verarbeitung der verschiedenen
externen Schnittstellen.
Cleansing Area
transformieren
Bei der Transformierung werden
die Daten in die Datenformate
des DWH überführt und die
Datenqualität durch Reinigung
und Normierung erhöht.
Verarbeitungsfehler werden in
der Audittabelle vermerkt und
können nachträglich behandelt
werden.
Beispiel Prozess implementiert mit talend
DWH Core
laden
Beim Laden werden geänderte
Daten zum Core hinzugefügt.
Dabei wird auch die Versionierung
und Historisierung vorgenommen.
Dadurch bleiben Änderungen an
den Daten auch in der Zukunft
nachvollziehbar.
Die Modellierung der ETL Prozesse erfolgte mit der Open Source
Software „talend“, die als Community Edition frei im Netz
verfügbar ist. Zusammen mit der kostenlosen Version des
MySQL Servers bietet sie besonders jungen Start-Up’s die
Möglichkeit, ein preiswertes Data Warehouse zu betreiben.
von Hans Fischer, Norman Klingsporn und Thomas Ußling
Herunterladen