Entwicklung eines Data-Warehouse Wirtschaftsinformatik (Master) 2013 Ziel des Projekts ist die Entwicklung einer zentralen Datenbank zur Speicherung aller relevanten Bootsdaten aus externen Quellen. Ausgangssituation - - Externe Anbieter stellen Schnittstellen zum Abrufen ihrer Bootsdaten zur Verfügung. Die Datenqualität ist dabei abhängig vom jeweiligen Anbieter. Bootsdaten wurden manuell ausgelesen, aufbereitet und zum Yachtico Bootsbestand hinzugefügt. Das Content-Management-System „Drupal“ speichert und verwaltet diesen Bootsbestand in einer nicht spezialisierten Form. leitende Konzepte - Planung und Implementierung einer zentralen und auf die Unternehmensbedürfnisse angepassten Datenbank Entwicklung performanter und zukunftssicherer Datenstrukturen Sicherstellen von konstanter Datenqualität durch automatische Einleseprozesse mit Fehlerbehandlung Das Data Warehouse ETL Prozess Externe Quellen Data Warehouse - - nicht ständig verfügbar - liegen in unterschiedlichen Formaten vor - propagieren keine Änderungen - enthalten unter anderem gleiche Boote - zentraler Datenaufbewahrungsort eines Unternehmens Vereinigung verschiedener Quellen zu einem Ganzen Entkopplung der eigenen Datenbasis von externen Web-Services Historisierung und Versionierung von Datenänderungen durch externe Quellen Der ETL Prozess Sources Staging Area extrahieren Bei der Extraktion werden die externen Daten in die lokale Staging Area 1:1 kopiert. Der Fokus liegt hierbei auf der Verarbeitung der verschiedenen externen Schnittstellen. Cleansing Area transformieren Bei der Transformierung werden die Daten in die Datenformate des DWH überführt und die Datenqualität durch Reinigung und Normierung erhöht. Verarbeitungsfehler werden in der Audittabelle vermerkt und können nachträglich behandelt werden. Beispiel Prozess implementiert mit talend DWH Core laden Beim Laden werden geänderte Daten zum Core hinzugefügt. Dabei wird auch die Versionierung und Historisierung vorgenommen. Dadurch bleiben Änderungen an den Daten auch in der Zukunft nachvollziehbar. Die Modellierung der ETL Prozesse erfolgte mit der Open Source Software „talend“, die als Community Edition frei im Netz verfügbar ist. Zusammen mit der kostenlosen Version des MySQL Servers bietet sie besonders jungen Start-Up’s die Möglichkeit, ein preiswertes Data Warehouse zu betreiben. von Hans Fischer, Norman Klingsporn und Thomas Ußling