Data Vault orientierte BI-Architekturen in Theorie und Praxis Thomas Mattick Dresden Vorstellung Thomas Mattick Projektauszug (BI)  Auftragsabwicklung/Leistungsbewertung (Luftfahrt/Logistik)  Wareneingang/Warenausgang/Retouren (Logistik)  Bestandsmanagement (Logistik)  Auftragsmanagement (Großhandel)  Flächenbewirtschaftung (Einzelhandel) Technologien Thomas Mattick Business Developer, InfoDyn AG  IBM Cognos 10.1 Certified  Microsoft SQL Server  Oracle  Informatica Powercenter Engagement  Deutsche Data Vault User Group e.V. (http://www.ddvug.de)  Empfehlung: Data Modeling Zone und TDWI © BBF GmbH 2 InfoDyn AG Ziel Wir ermöglichen Unternehmen, den gesamten Fluss Ihrer Informationen von den IT-Systemen bis zum Anwender zu kennen und zu verstehen Produkt Mithilfe unserer intelligenten Technologie bietet die IC Suite die Möglichkeit nahezu jedes IT-System anzubinden und zu analysieren. Es wird nur auf die Bereiche der Systeme zugegriffen, die strukturelle, prozedurale oder operationale Informationen liefern. Die eigentlichen Daten (Kunden, Verträge, Kontakthistorie etc.) bleiben unangetastet. © BBF GmbH 3 InfoDyn AG Referenzen Unternehmen aus verschiedenen Branchen arbeiten bereits mit Modulen der IC Suite und profitieren von den Vorteilen:  Finanzdienstleistungen  Krankenversicherungen  Recycling  Behörden Partner Standorte Nord Amerika Europa Firmensitz in Deutschland Vertriebsbüro in den USA ITBconsult Inc. 1660 Hamilton Avenue Suite 206 95125 San Jose www.itbconsult-inc.com BBF GmbH Erika-Mann-Str. 57 80636 München InfoDyn AG Wendelsteinstr. 16 82166 Gräfelfing InfoDyn Inc. 701 Fifth Ave, Suite 4200 Seattle, WA 98104 © BBF GmbH www.bbf-soft.de 4 Unternehmen und Mitarbeiter Das Unternehmen  Unabhängiges Software-Haus mit den Schwerpunkten Datenmanagement und Business Intelligence.  Einsatz von template- und modellbasierte Entwicklung und eigenentwickelten Generatoren.  Das Unternehmen wurde 1996 gegründet hat den Hauptsitz in München und eine Niederlassung in Dresden.  Produkt- und herstellerunabhängig und eingebunden ein enges Netzwerk mit Partnern und Herstellern.  Gründer und geschäftsführende Inhaber sind Benjamin Böhm und Wolfgang Fergen.  In den nationalen und internationalen Kundenprojekten jederzeit auch beim Kunden vor Ort tätig.  Aktuell etwas über 30 Mitarbeiter. © BBF GmbH 5 BI:G Projektbaukasten für BI auf Basis eines Data Vaults BI:G  Der Lösungsansatz ist die Kombination von methodischer Vorgehensweise und effizienter, sprich automatisierter Entwicklung.  Mit BI:G schafft BBF für die Kunden die Möglichkeit, in wenigen Schritten ein traditionelles Data Warehouse in einer 3-Schichten-Architektur auf Basis eines Data Vaults zu erzeugen. Beschreibung Reporting Testing & QA Self Service BI Logging Framework Operations  Instanziierte Modellierungskomponente (technisch und fachlich)  Angabe von Quell- Zielzuordnungen, zentralisierter Steuerspalten, Bearbeitungsstatus, … Data Modeler ETL Framework  Rollout © BBF GmbH 6 Agenda – Übersicht Einleitung – Herausforderungen an BI-Projekte Standardisierung – Standards als Basis erfolgreicher BI-Projekte Architektur – CDW zur Unterstützung änderungsorientierter BI Data Vault – Methodik als Lösungsansatz änderungsorientierter BI Praxis – Vorstellung eines Standards (BI:G) für BI-Projekte Zusammenfassung – Vorteile für die Umsetzung von BI-Projekten © BBF GmbH 7 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 8 Einleitung BI-Projekte und Ihre Anforderungen  Anforderungen  Ungenau  Unzureichend  Widersprüchlich  Verändernd  Unerwartet  Ursachen (u.a.)  Fehlende Erfahrung bei der Aufnahme BI-orientierter Anforderungen  Fehlende/Falsche Kenntnisse datengebender Systeme  Widersprüchliche Aussagen aufgrund verschiedener Verantwortlicher  Unzureichende Vorstellungen des Möglichen  Wunsch nach mehr © BBF GmbH 9 Einleitung BI-Projekte und Ihre wünschenswerten Eigenschaften  Agile und anpassbare Vorgehensmodelle  Möglichkeiten zur parallelen Abarbeitung von Projektthemen  Skalierbare Datenintegrationsprozesse  Typorientierte Datenintegrationsprozesse  Wartungsfreundliche Datenintegrationsprozesse  Möglichkeit zum zentralen Betrieb  Zentralisierte Auswertungen und Protokolle zur Betriebsunterstützung und Datenqualitätssicherung © BBF GmbH 10 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 11 Standardisierung Prozentuale Aufwandsverschiebung hin zur Anforderungsdefinition  Definierte anpassbare Vorgehensmodelle  Modellierung  Datenintegration  Betrieb  Klare Rahmenbedingungen  Regelwerke  Konventionen  Vorlagen  Feste Richtlinien  Architektur  Bewirtschaftung  Protokollierung © BBF GmbH 12 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 13 Architektur Analysen Ad-hoc Auswertungen Cube Berichte Modell MART CORE STAGE © BBF GmbH 14 Architektur  STAGE (Quellsystemorientiert)  Klassische schnittstellenorientierte 1:1 Datenabzugsschicht (n-STAGEs bei Heterogenität)  Konsumorientierte Persistenz  CORE (DV - Ablageorientiert)  Datenmittelpunkt und einzige Datenwahrheit  Konsolidiert Geschäftsentitäten, verbindet diese und legt Nutzinformationen historisiert ab  Eigenschaften DV ermöglichen Vorzug Datentiefe vor Datenbreite  MART (Stern – Abfrageorientiert)  Fachlicher "Endpunkt" (n-MARTs durch Fokussierung auf Anwender/Anwendung/Auswertung)  Daten in Form konsolidierter Dimensionen und dedizierter Fakten (Aggregationen, Kumulationen, Redundanz, -alles ablagefähige-) Standardisiert vereinfachte und festgelegte BI-Architektur © BBF GmbH 15 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 16 Data Vault – Allgemeines  Dan Linstedt  Ziele  Agil  Flexibel  Erweiterbar  Datengranularität auf Quelldatenebene  Mehrquellfähig  Zeitlinie  1990 – 1999 Entwicklung  1999 – 2001 abschließende Evaluierung durch Projekte  2001 – Veröffentlichung Data Vault 1.0  2014 – Veröffentlichung Data Vault 2.0 (erweiterte Konzepte) © BBF GmbH 17 Data Vault – Methodik  Modellierung  Liste einfacher übersichtlicher und aufgabenorientierter Objekte  Dekomposition von Schlüssels  Separierung der Nutzdaten  Bewirtschaftung  modellierungsgetrieben  Unabhängig in Bezug auf Quelldatenbindungen  Konsolidierung von Entitäten unterschiedlicher Quellen  Betrieb  parallel © BBF GmbH 18 Modellierung Tabellentypen (Auszug)  Hubs  Links  Satelliten  Referenzen (Optional)  Point-In-Times (Optional)  Bridges (Optional) © BBF GmbH 19 Modellierung STAR DV 3NF © BBF GmbH 20 Bewirtschaftung Bewirtschaftungstypen (Auszug)  Hubs  Reine Insert Operationen  Hash-Keys basierend auf BKs  Links  Reine Insert Operationen  Hash-Keys basierend auf Hub-Hash-Keys basierend auf BKs  Satelliten  Insert/Update Operationen  Historisierungslogik  Hash-Keys Basierend auf Hub-Hash-Keys basierend auf BKs © BBF GmbH 21 Betrieb Betriebstypen (Auszug)  Vollständig parallel  Eine Zieltabelle darf nur durch einen Bewirtschaftungsprozess bedient werden  Einsatz von Hash-Keys sind Voraussetzung  Sequentiell nach Bewirtschaftungstyp (Keine Link auf Links)  Schritt 1: Alle Hubs  Schritt 2: Alle Links, Alle Satelliten an Hubs  Schritt 3: Alle Satelliten an Links, Alle Referenzen  Schritt 4: Alle Bridges, Alle Point-In-Times © BBF GmbH 22 Data Vault Weiteres  Verteilung der Komplexität  Einfach zu modellieren, aber viel  Einfach zu bewirtschaften, aber viel  Erhöhung der Anzahl von Entitäten  Aufwendige Abfrage von Informationen  Virtualisierte oder persistierte Sichten zu Auswertungszwecken notwendig Weiterführende Informationen  Data Vault auf http://www.DDVUG.de  Geschichte des Data Vault auf https://www.youtube.com/watch?v=Xx4sdjGRriw&feature=youtu.be&list=UUFNi5nthZgdR0xj3UYYqVw  Tiefergehende Einblicke in Blog-Form auf http://www.datavaultmodeling.de/blog © BBF GmbH 23 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 24 BI:G – Komponenten STAGE CORE MART LOGGER CONNECTOR MODELER LOADER STAGER © BBF GmbH 25 BI:G Zentral  LOGGER  Zentrale Protokollierung  Bestehend aus Tabellen, Prozeduren und Regelwerken  Nachvollziehbarkeit von Datensatzlebenszyklen Individuell  STAGER  Bildung einer 1:1 Abzugsschicht  Klont Datenbankschnittstellen (Tabellen, Views)  Rollout inklusive Steuerspalten und Tabelleninstanzen © BBF GmbH 26 BI:G Instanziiert  CONNECTOR  Tabellen, Prozeduren und Regelwerke  Identifikation geänderter Daten  LOGGER Erhöhung/Verbesserung/Erweiterung der Selektionskriterien  LOADER  Tabellen und Regelwerke  Definition und Konfiguration von Ladeketten  Konkretisierung durch Angabe von Aktivität, Ladeposition, Parallelisierung, Quellen, …  MODELER  Instanziierte Modellierungskomponente (technisch und fachlich)  Angabe von Quell- Zielzuordnungen, zentralisierter Steuerspalten, Bearbeitungsstatus, …  Rollout © BBF GmbH 27 BI:G – Vorlagen LOGGER Stage Core Mart MASTER HUB DIM LNK SAT STA 1:X FAKT MODELER CONNECTOR STA 1:1 REF BRI LOADER © BBF GmbH 28 Schichten: STAGE Modellierung  STAGER  Bildung generischer STAGE-Tabellenausprägungen  Reine DB-Schnittstellen (Tabellen/Views)  Quelldatentyp gleich Zieldatentyp  Keine Constraints  Generische Erweiterung um Steuerspalten  MODELER  Bildung Konkreter STAGE-Tabellenausprägungen  nonDB-Schnittstellen und changeDB-Schnittstellen (Bereinigung, Transformationen, …)  Variabler Zieldatentyp  Dedizierte Constraints  Zentrale Erweiterung um Steuerspalten © BBF GmbH 29 Schichten: STAGE Bewirtschaftung Master  Master-ETL LOADER  Stage-ETL basierend auf STAGER  Individual-ETL, basierend auf MODELER Threads  Einsatz mitgelieferter Vorlagen  Zeitstempelorientierte Deltalogik und Protokollierung STA TRUNCATE  Atomare Abschlussoperation EXTRACT I|F  Eigenschaften  Komfortable Erstellung  Einfache Verarbeitungslogik STA  Performance INSERT M|A|F  Wartbarkeit, Robustheit und Wiederanlauffähigkeit  Nachvollziehbarkeit PSTA LOAD  Protokollierend und Deltagebend (prozessorientiert) LOGGER | CONNECTOR © BBF GmbH 30 Schichten: STAGE Betrieb  Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung  LOADER  Konfiguration der ETL-Strecken  Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …)  Einträge dienen dem Master-ETL als Grundlage  Technologieorientierte Laufsteuerung  Aufruf Master-ETL  LOGGER  Einrichtung des JOBs  Überwachung über LOGGER basierte Abfragen © BBF GmbH 31 Schichten: CORE Modellierung  Regelwerke für  Modellierungsformen (hier nach DV)  Namenskonventionen  MODELER  Fachliche Modellierung  Tabellentyp, Tabellen und Spalten  Angabe von Berechnungsvorschriften  Technische Modellierung  Tabellenart, Datentyp (Konsolidierung), Constraints, Schlüsselbeziehungen und -arten  Quell- Zielzuordnung  Zentrale Bildung Konkreter CORE-Tabellenausprägungen  Zentrale Erweiterung um Steuerspalten anhand Tabellenart und -typ  Einfacher Rollout © BBF GmbH 32 Schichten: CORE Bewirtschaftung Master  Master-ETL LOADER | CONNECTOR | LOGGER  Individual-ETL, basierend auf MODELER Threads  Einsatz mitgelieferter Vorlagen  Prozessorientierte Deltalogik und Protokollierung UPD_SRC|UPD TRUNCATE  Abhängigkeitsparadigma EXTRACT  Atomare Abschlussoperation PID UPD_SRC INSERT L|T|E LOGGER UPD INSERT H LOGGER CORE LOAD LOGGER | CONNECTOR © BBF GmbH 33 Schichten: CORE Betrieb  Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung  LOADER  Konfiguration der ETL-Strecken  Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …)  Einträge dienen dem Master-ETL als Grundlage  Technologieorientierte Laufsteuerung  Aufruf Master-ETL  LOGGER  Einrichtung des JOBs  Überwachung über LOGGER basierte Abfragen © BBF GmbH 34 Schichten: MART Modellierung  Regelwerke für  Modellierungsformen (hier nach Stern – Dimensionen und Fakten)  Namenskonventionen  MODELER  Fachliche Modellierung  Tabellentyp, Tabellen und Spalten  Angabe von Berechnungsvorschriften  Technische Modellierung  Tabellenart, Datentyp (Konsolidierung), Constraints, Schlüsselbeziehungen und -arten  Quell- Zielzuordnung  Zentrale Bildung Konkreter MART-Tabellenausprägungen  Zentrale Erweiterung um Steuerspalten anhand Tabellenart und -typ  Einfacher Rollout © BBF GmbH 35 Schichten: MART Bewirtschaftung Master  Master-ETL LOADER | CONNECTOR | LOGGER  Individual-ETL, basierend auf MODELER Threads  Mitgelieferte Vorlagen und Skriptdimensionen UPD_SRC|UPD  Prozessbasierte entitätsorientierte Deltalogik und Protokollierung TRUNCATE EXTRACT  Abhängigkeitsparadigma EPID  Atomare Abschlussoperation UPD_SRC INSERT C LOGGER UPD INSERT L|T|E LOGGER MART LOAD LOGGER | CONNECTOR © BBF GmbH 36 Schichten: MART Betrieb  Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung  LOADER  Konfiguration der ETL-Strecken  Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …)  Einträge dienen dem Master-ETL als Grundlage  Technologieorientierte Laufsteuerung  Aufruf Master-ETL  LOGGER  Einrichtung des JOBs  Überwachung über LOGGER basierte Abfragen © BBF GmbH 37 Agenda Einleitung Standardisierung Architektur Data Vault Praxis Zusammenfassung © BBF GmbH 38 Zusammenfassung Standards + Data Vault + Framework  Kosten/Nutzen Argumentation  Parallelisierung von Projektaufgaben  Kurze Einarbeitungszeiten für Modellierer  Kurze Einarbeitungszeiten für Entwickler  Geringe Dokumentationskosten  Einfacher Betrieb der ETL-Strecken Verschiebung des Aufwands zum Wesentlichen – den Anforderungen © BBF GmbH 39 Vielen Dank! BBF GmbH Kontakt: Erika-Mann-Str. 57 80636 München Thomas Mattick Senior Consultant Tel. Web eMail Tel. Mobil eMail +49 (0) 89 189099 - 0 www.bbf-soft.de [email protected] +49 (0) 351 811 954 10 +49 (0) 176 414 56 427 [email protected]