Data Vault orientierte BI-Architekturen in Theorie und Praxis Thomas Mattick Dresden Vorstellung Thomas Mattick Projektauszug (BI) Auftragsabwicklung/Leistungsbewertung (Luftfahrt/Logistik) Wareneingang/Warenausgang/Retouren (Logistik) Bestandsmanagement (Logistik) Auftragsmanagement (Großhandel) Flächenbewirtschaftung (Einzelhandel) Technologien Thomas Mattick Business Developer, InfoDyn AG IBM Cognos 10.1 Certified Microsoft SQL Server Oracle Informatica Powercenter Engagement Deutsche Data Vault User Group e.V. (http://www.ddvug.de) Empfehlung: Data Modeling Zone und TDWI © BBF GmbH 2 InfoDyn AG Ziel Wir ermöglichen Unternehmen, den gesamten Fluss Ihrer Informationen von den IT-Systemen bis zum Anwender zu kennen und zu verstehen Produkt Mithilfe unserer intelligenten Technologie bietet die IC Suite die Möglichkeit nahezu jedes IT-System anzubinden und zu analysieren. Es wird nur auf die Bereiche der Systeme zugegriffen, die strukturelle, prozedurale oder operationale Informationen liefern. Die eigentlichen Daten (Kunden, Verträge, Kontakthistorie etc.) bleiben unangetastet. © BBF GmbH 3 InfoDyn AG Referenzen Unternehmen aus verschiedenen Branchen arbeiten bereits mit Modulen der IC Suite und profitieren von den Vorteilen: Finanzdienstleistungen Krankenversicherungen Recycling Behörden Partner Standorte Nord Amerika Europa Firmensitz in Deutschland Vertriebsbüro in den USA ITBconsult Inc. 1660 Hamilton Avenue Suite 206 95125 San Jose www.itbconsult-inc.com BBF GmbH Erika-Mann-Str. 57 80636 München InfoDyn AG Wendelsteinstr. 16 82166 Gräfelfing InfoDyn Inc. 701 Fifth Ave, Suite 4200 Seattle, WA 98104 © BBF GmbH www.bbf-soft.de 4 Unternehmen und Mitarbeiter Das Unternehmen Unabhängiges Software-Haus mit den Schwerpunkten Datenmanagement und Business Intelligence. Einsatz von template- und modellbasierte Entwicklung und eigenentwickelten Generatoren. Das Unternehmen wurde 1996 gegründet hat den Hauptsitz in München und eine Niederlassung in Dresden. Produkt- und herstellerunabhängig und eingebunden ein enges Netzwerk mit Partnern und Herstellern. Gründer und geschäftsführende Inhaber sind Benjamin Böhm und Wolfgang Fergen. In den nationalen und internationalen Kundenprojekten jederzeit auch beim Kunden vor Ort tätig. Aktuell etwas über 30 Mitarbeiter. © BBF GmbH 5 BI:G Projektbaukasten für BI auf Basis eines Data Vaults BI:G Der Lösungsansatz ist die Kombination von methodischer Vorgehensweise und effizienter, sprich automatisierter Entwicklung. Mit BI:G schafft BBF für die Kunden die Möglichkeit, in wenigen Schritten ein traditionelles Data Warehouse in einer 3-Schichten-Architektur auf Basis eines Data Vaults zu erzeugen. Beschreibung Reporting Testing & QA Self Service BI Logging Framework Operations Instanziierte Modellierungskomponente (technisch und fachlich) Angabe von Quell- Zielzuordnungen, zentralisierter Steuerspalten, Bearbeitungsstatus, … Data Modeler ETL Framework Rollout © BBF GmbH 6 Agenda – Übersicht Einleitung – Herausforderungen an BI-Projekte Standardisierung – Standards als Basis erfolgreicher BI-Projekte Architektur – CDW zur Unterstützung änderungsorientierter BI Data Vault – Methodik als Lösungsansatz änderungsorientierter BI Praxis – Vorstellung eines Standards (BI:G) für BI-Projekte Zusammenfassung – Vorteile für die Umsetzung von BI-Projekten © BBF GmbH 7 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 8 Einleitung BI-Projekte und Ihre Anforderungen Anforderungen Ungenau Unzureichend Widersprüchlich Verändernd Unerwartet Ursachen (u.a.) Fehlende Erfahrung bei der Aufnahme BI-orientierter Anforderungen Fehlende/Falsche Kenntnisse datengebender Systeme Widersprüchliche Aussagen aufgrund verschiedener Verantwortlicher Unzureichende Vorstellungen des Möglichen Wunsch nach mehr © BBF GmbH 9 Einleitung BI-Projekte und Ihre wünschenswerten Eigenschaften Agile und anpassbare Vorgehensmodelle Möglichkeiten zur parallelen Abarbeitung von Projektthemen Skalierbare Datenintegrationsprozesse Typorientierte Datenintegrationsprozesse Wartungsfreundliche Datenintegrationsprozesse Möglichkeit zum zentralen Betrieb Zentralisierte Auswertungen und Protokolle zur Betriebsunterstützung und Datenqualitätssicherung © BBF GmbH 10 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 11 Standardisierung Prozentuale Aufwandsverschiebung hin zur Anforderungsdefinition Definierte anpassbare Vorgehensmodelle Modellierung Datenintegration Betrieb Klare Rahmenbedingungen Regelwerke Konventionen Vorlagen Feste Richtlinien Architektur Bewirtschaftung Protokollierung © BBF GmbH 12 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 13 Architektur Analysen Ad-hoc Auswertungen Cube Berichte Modell MART CORE STAGE © BBF GmbH 14 Architektur STAGE (Quellsystemorientiert) Klassische schnittstellenorientierte 1:1 Datenabzugsschicht (n-STAGEs bei Heterogenität) Konsumorientierte Persistenz CORE (DV - Ablageorientiert) Datenmittelpunkt und einzige Datenwahrheit Konsolidiert Geschäftsentitäten, verbindet diese und legt Nutzinformationen historisiert ab Eigenschaften DV ermöglichen Vorzug Datentiefe vor Datenbreite MART (Stern – Abfrageorientiert) Fachlicher "Endpunkt" (n-MARTs durch Fokussierung auf Anwender/Anwendung/Auswertung) Daten in Form konsolidierter Dimensionen und dedizierter Fakten (Aggregationen, Kumulationen, Redundanz, -alles ablagefähige-) Standardisiert vereinfachte und festgelegte BI-Architektur © BBF GmbH 15 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 16 Data Vault – Allgemeines Dan Linstedt Ziele Agil Flexibel Erweiterbar Datengranularität auf Quelldatenebene Mehrquellfähig Zeitlinie 1990 – 1999 Entwicklung 1999 – 2001 abschließende Evaluierung durch Projekte 2001 – Veröffentlichung Data Vault 1.0 2014 – Veröffentlichung Data Vault 2.0 (erweiterte Konzepte) © BBF GmbH 17 Data Vault – Methodik Modellierung Liste einfacher übersichtlicher und aufgabenorientierter Objekte Dekomposition von Schlüssels Separierung der Nutzdaten Bewirtschaftung modellierungsgetrieben Unabhängig in Bezug auf Quelldatenbindungen Konsolidierung von Entitäten unterschiedlicher Quellen Betrieb parallel © BBF GmbH 18 Modellierung Tabellentypen (Auszug) Hubs Links Satelliten Referenzen (Optional) Point-In-Times (Optional) Bridges (Optional) © BBF GmbH 19 Modellierung STAR DV 3NF © BBF GmbH 20 Bewirtschaftung Bewirtschaftungstypen (Auszug) Hubs Reine Insert Operationen Hash-Keys basierend auf BKs Links Reine Insert Operationen Hash-Keys basierend auf Hub-Hash-Keys basierend auf BKs Satelliten Insert/Update Operationen Historisierungslogik Hash-Keys Basierend auf Hub-Hash-Keys basierend auf BKs © BBF GmbH 21 Betrieb Betriebstypen (Auszug) Vollständig parallel Eine Zieltabelle darf nur durch einen Bewirtschaftungsprozess bedient werden Einsatz von Hash-Keys sind Voraussetzung Sequentiell nach Bewirtschaftungstyp (Keine Link auf Links) Schritt 1: Alle Hubs Schritt 2: Alle Links, Alle Satelliten an Hubs Schritt 3: Alle Satelliten an Links, Alle Referenzen Schritt 4: Alle Bridges, Alle Point-In-Times © BBF GmbH 22 Data Vault Weiteres Verteilung der Komplexität Einfach zu modellieren, aber viel Einfach zu bewirtschaften, aber viel Erhöhung der Anzahl von Entitäten Aufwendige Abfrage von Informationen Virtualisierte oder persistierte Sichten zu Auswertungszwecken notwendig Weiterführende Informationen Data Vault auf http://www.DDVUG.de Geschichte des Data Vault auf https://www.youtube.com/watch?v=Xx4sdjGRriw&feature=youtu.be&list=UUFNi5nthZgdR0xj3UYYqVw Tiefergehende Einblicke in Blog-Form auf http://www.datavaultmodeling.de/blog © BBF GmbH 23 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 24 BI:G – Komponenten STAGE CORE MART LOGGER CONNECTOR MODELER LOADER STAGER © BBF GmbH 25 BI:G Zentral LOGGER Zentrale Protokollierung Bestehend aus Tabellen, Prozeduren und Regelwerken Nachvollziehbarkeit von Datensatzlebenszyklen Individuell STAGER Bildung einer 1:1 Abzugsschicht Klont Datenbankschnittstellen (Tabellen, Views) Rollout inklusive Steuerspalten und Tabelleninstanzen © BBF GmbH 26 BI:G Instanziiert CONNECTOR Tabellen, Prozeduren und Regelwerke Identifikation geänderter Daten LOGGER Erhöhung/Verbesserung/Erweiterung der Selektionskriterien LOADER Tabellen und Regelwerke Definition und Konfiguration von Ladeketten Konkretisierung durch Angabe von Aktivität, Ladeposition, Parallelisierung, Quellen, … MODELER Instanziierte Modellierungskomponente (technisch und fachlich) Angabe von Quell- Zielzuordnungen, zentralisierter Steuerspalten, Bearbeitungsstatus, … Rollout © BBF GmbH 27 BI:G – Vorlagen LOGGER Stage Core Mart MASTER HUB DIM LNK SAT STA 1:X FAKT MODELER CONNECTOR STA 1:1 REF BRI LOADER © BBF GmbH 28 Schichten: STAGE Modellierung STAGER Bildung generischer STAGE-Tabellenausprägungen Reine DB-Schnittstellen (Tabellen/Views) Quelldatentyp gleich Zieldatentyp Keine Constraints Generische Erweiterung um Steuerspalten MODELER Bildung Konkreter STAGE-Tabellenausprägungen nonDB-Schnittstellen und changeDB-Schnittstellen (Bereinigung, Transformationen, …) Variabler Zieldatentyp Dedizierte Constraints Zentrale Erweiterung um Steuerspalten © BBF GmbH 29 Schichten: STAGE Bewirtschaftung Master Master-ETL LOADER Stage-ETL basierend auf STAGER Individual-ETL, basierend auf MODELER Threads Einsatz mitgelieferter Vorlagen Zeitstempelorientierte Deltalogik und Protokollierung STA TRUNCATE Atomare Abschlussoperation EXTRACT I|F Eigenschaften Komfortable Erstellung Einfache Verarbeitungslogik STA Performance INSERT M|A|F Wartbarkeit, Robustheit und Wiederanlauffähigkeit Nachvollziehbarkeit PSTA LOAD Protokollierend und Deltagebend (prozessorientiert) LOGGER | CONNECTOR © BBF GmbH 30 Schichten: STAGE Betrieb Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung LOADER Konfiguration der ETL-Strecken Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …) Einträge dienen dem Master-ETL als Grundlage Technologieorientierte Laufsteuerung Aufruf Master-ETL LOGGER Einrichtung des JOBs Überwachung über LOGGER basierte Abfragen © BBF GmbH 31 Schichten: CORE Modellierung Regelwerke für Modellierungsformen (hier nach DV) Namenskonventionen MODELER Fachliche Modellierung Tabellentyp, Tabellen und Spalten Angabe von Berechnungsvorschriften Technische Modellierung Tabellenart, Datentyp (Konsolidierung), Constraints, Schlüsselbeziehungen und -arten Quell- Zielzuordnung Zentrale Bildung Konkreter CORE-Tabellenausprägungen Zentrale Erweiterung um Steuerspalten anhand Tabellenart und -typ Einfacher Rollout © BBF GmbH 32 Schichten: CORE Bewirtschaftung Master Master-ETL LOADER | CONNECTOR | LOGGER Individual-ETL, basierend auf MODELER Threads Einsatz mitgelieferter Vorlagen Prozessorientierte Deltalogik und Protokollierung UPD_SRC|UPD TRUNCATE Abhängigkeitsparadigma EXTRACT Atomare Abschlussoperation PID UPD_SRC INSERT L|T|E LOGGER UPD INSERT H LOGGER CORE LOAD LOGGER | CONNECTOR © BBF GmbH 33 Schichten: CORE Betrieb Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung LOADER Konfiguration der ETL-Strecken Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …) Einträge dienen dem Master-ETL als Grundlage Technologieorientierte Laufsteuerung Aufruf Master-ETL LOGGER Einrichtung des JOBs Überwachung über LOGGER basierte Abfragen © BBF GmbH 34 Schichten: MART Modellierung Regelwerke für Modellierungsformen (hier nach Stern – Dimensionen und Fakten) Namenskonventionen MODELER Fachliche Modellierung Tabellentyp, Tabellen und Spalten Angabe von Berechnungsvorschriften Technische Modellierung Tabellenart, Datentyp (Konsolidierung), Constraints, Schlüsselbeziehungen und -arten Quell- Zielzuordnung Zentrale Bildung Konkreter MART-Tabellenausprägungen Zentrale Erweiterung um Steuerspalten anhand Tabellenart und -typ Einfacher Rollout © BBF GmbH 35 Schichten: MART Bewirtschaftung Master Master-ETL LOADER | CONNECTOR | LOGGER Individual-ETL, basierend auf MODELER Threads Mitgelieferte Vorlagen und Skriptdimensionen UPD_SRC|UPD Prozessbasierte entitätsorientierte Deltalogik und Protokollierung TRUNCATE EXTRACT Abhängigkeitsparadigma EPID Atomare Abschlussoperation UPD_SRC INSERT C LOGGER UPD INSERT L|T|E LOGGER MART LOAD LOGGER | CONNECTOR © BBF GmbH 36 Schichten: MART Betrieb Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung LOADER Konfiguration der ETL-Strecken Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …) Einträge dienen dem Master-ETL als Grundlage Technologieorientierte Laufsteuerung Aufruf Master-ETL LOGGER Einrichtung des JOBs Überwachung über LOGGER basierte Abfragen © BBF GmbH 37 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 38 Zusammenfassung Standards + Data Vault + Framework Kosten/Nutzen Argumentation Parallelisierung von Projektaufgaben Kurze Einarbeitungszeiten für Modellierer Kurze Einarbeitungszeiten für Entwickler Geringe Dokumentationskosten Einfacher Betrieb der ETL-Strecken Verschiebung des Aufwands zum Wesentlichen – den Anforderungen © BBF GmbH 39 Vielen Dank! BBF GmbH Kontakt: Erika-Mann-Str. 57 80636 München Thomas Mattick Senior Consultant Tel. Web eMail Tel. Mobil eMail +49 (0) 89 189099 - 0 www.bbf-soft.de [email protected] +49 (0) 351 811 954 10 +49 (0) 176 414 56 427 [email protected]