Data Vault orientierte BI-Architekturen in Theorie und Praxis

Werbung
Data Vault orientierte
BI-Architekturen in Theorie und Praxis
Thomas Mattick
Dresden
Vorstellung Thomas Mattick
Projektauszug (BI)
 Auftragsabwicklung/Leistungsbewertung (Luftfahrt/Logistik)
 Wareneingang/Warenausgang/Retouren (Logistik)
 Bestandsmanagement (Logistik)
 Auftragsmanagement (Großhandel)
 Flächenbewirtschaftung (Einzelhandel)
Technologien
Thomas Mattick
Business Developer,
InfoDyn AG
 IBM Cognos 10.1 Certified
 Microsoft SQL Server
 Oracle
 Informatica Powercenter
Engagement
 Deutsche Data Vault User Group e.V. (http://www.ddvug.de)
 Empfehlung: Data Modeling Zone und TDWI
© BBF GmbH
2
InfoDyn AG
Ziel
Wir ermöglichen Unternehmen, den gesamten Fluss Ihrer Informationen
von den IT-Systemen bis zum Anwender zu kennen und zu verstehen
Produkt
Mithilfe unserer intelligenten Technologie bietet die IC Suite
die Möglichkeit nahezu jedes IT-System anzubinden und zu analysieren.
Es wird nur auf die Bereiche der Systeme zugegriffen, die strukturelle,
prozedurale oder operationale Informationen liefern. Die eigentlichen
Daten (Kunden, Verträge, Kontakthistorie etc.) bleiben unangetastet.
© BBF GmbH
3
InfoDyn AG
Referenzen
Unternehmen aus verschiedenen Branchen arbeiten bereits mit
Modulen der IC Suite und profitieren von den Vorteilen:
 Finanzdienstleistungen
 Krankenversicherungen
 Recycling
 Behörden
Partner
Standorte
Nord Amerika
Europa
Firmensitz
in Deutschland
Vertriebsbüro
in den USA
ITBconsult Inc.
1660 Hamilton Avenue
Suite 206
95125 San Jose
www.itbconsult-inc.com
BBF GmbH
Erika-Mann-Str. 57
80636 München
InfoDyn AG
Wendelsteinstr. 16
82166 Gräfelfing
InfoDyn Inc.
701 Fifth Ave,
Suite 4200
Seattle, WA 98104
© BBF GmbH
www.bbf-soft.de
4
Unternehmen und Mitarbeiter
Das Unternehmen
 Unabhängiges Software-Haus mit den
Schwerpunkten Datenmanagement und
Business Intelligence.
 Einsatz von template- und modellbasierte
Entwicklung und eigenentwickelten
Generatoren.
 Das Unternehmen wurde 1996 gegründet
hat den Hauptsitz in München und eine
Niederlassung in Dresden.
 Produkt- und herstellerunabhängig und
eingebunden ein enges Netzwerk mit
Partnern und Herstellern.
 Gründer und geschäftsführende Inhaber sind
Benjamin Böhm und Wolfgang Fergen.
 In den nationalen und internationalen
Kundenprojekten jederzeit
auch beim Kunden vor Ort tätig.
 Aktuell etwas über 30 Mitarbeiter.
© BBF GmbH
5
BI:G Projektbaukasten für BI auf Basis eines Data Vaults
BI:G
 Der Lösungsansatz ist die Kombination von
methodischer Vorgehensweise und
effizienter, sprich automatisierter Entwicklung.
 Mit BI:G schafft BBF für die Kunden die
Möglichkeit, in wenigen Schritten ein
traditionelles Data Warehouse in einer
3-Schichten-Architektur auf Basis eines
Data Vaults zu erzeugen.
Beschreibung
Reporting
Testing &
QA
Self
Service
BI
Logging
Framework
Operations
 Instanziierte Modellierungskomponente
(technisch und fachlich)
 Angabe von Quell- Zielzuordnungen,
zentralisierter Steuerspalten,
Bearbeitungsstatus, …
Data
Modeler
ETL
Framework
 Rollout
© BBF GmbH
6
Agenda – Übersicht
Einleitung – Herausforderungen an BI-Projekte
Standardisierung – Standards als Basis erfolgreicher BI-Projekte
Architektur – CDW zur Unterstützung änderungsorientierter BI
Data Vault – Methodik als Lösungsansatz änderungsorientierter BI
Praxis – Vorstellung eines Standards (BI:G) für BI-Projekte
Zusammenfassung – Vorteile für die Umsetzung von BI-Projekten
© BBF GmbH
7
Agenda
Einleitung
Standardisierung
Architektur
Data Vault
Praxis
Zusammenfassung
© BBF GmbH
8
Einleitung
BI-Projekte und Ihre Anforderungen
 Anforderungen
 Ungenau
 Unzureichend
 Widersprüchlich
 Verändernd
 Unerwartet
 Ursachen (u.a.)
 Fehlende Erfahrung bei der Aufnahme BI-orientierter Anforderungen
 Fehlende/Falsche Kenntnisse datengebender Systeme
 Widersprüchliche Aussagen aufgrund verschiedener Verantwortlicher
 Unzureichende Vorstellungen des Möglichen
 Wunsch nach mehr
© BBF GmbH
9
Einleitung
BI-Projekte und Ihre wünschenswerten Eigenschaften
 Agile und anpassbare Vorgehensmodelle
 Möglichkeiten zur parallelen Abarbeitung von Projektthemen
 Skalierbare Datenintegrationsprozesse
 Typorientierte Datenintegrationsprozesse
 Wartungsfreundliche Datenintegrationsprozesse
 Möglichkeit zum zentralen Betrieb
 Zentralisierte Auswertungen und Protokolle zur Betriebsunterstützung und
Datenqualitätssicherung
© BBF GmbH
10
Agenda
Einleitung
Standardisierung
Architektur
Data Vault
Praxis
Zusammenfassung
© BBF GmbH
11
Standardisierung
Prozentuale Aufwandsverschiebung hin zur Anforderungsdefinition
 Definierte anpassbare Vorgehensmodelle
 Modellierung
 Datenintegration
 Betrieb
 Klare Rahmenbedingungen
 Regelwerke
 Konventionen
 Vorlagen
 Feste Richtlinien
 Architektur
 Bewirtschaftung
 Protokollierung
© BBF GmbH
12
Agenda
Einleitung
Standardisierung
Architektur
Data Vault
Praxis
Zusammenfassung
© BBF GmbH
13
Architektur
Analysen
Ad-hoc Auswertungen
Cube
Berichte
Modell
MART
CORE
STAGE
© BBF GmbH
14
Architektur
 STAGE (Quellsystemorientiert)
 Klassische schnittstellenorientierte 1:1 Datenabzugsschicht (n-STAGEs bei Heterogenität)
 Konsumorientierte Persistenz
 CORE (DV - Ablageorientiert)
 Datenmittelpunkt und einzige Datenwahrheit
 Konsolidiert Geschäftsentitäten, verbindet diese und legt Nutzinformationen historisiert ab
 Eigenschaften DV ermöglichen Vorzug Datentiefe vor Datenbreite
 MART (Stern – Abfrageorientiert)
 Fachlicher "Endpunkt" (n-MARTs durch Fokussierung auf Anwender/Anwendung/Auswertung)
 Daten in Form konsolidierter Dimensionen und dedizierter Fakten
(Aggregationen, Kumulationen, Redundanz, -alles ablagefähige-)
Standardisiert vereinfachte und festgelegte BI-Architektur
© BBF GmbH
15
Agenda
Einleitung
Standardisierung
Architektur
Data Vault
Praxis
Zusammenfassung
© BBF GmbH
16
Data Vault – Allgemeines
 Dan Linstedt
 Ziele
 Agil
 Flexibel
 Erweiterbar
 Datengranularität auf Quelldatenebene
 Mehrquellfähig
 Zeitlinie
 1990 – 1999 Entwicklung
 1999 – 2001 abschließende Evaluierung durch Projekte
 2001 – Veröffentlichung Data Vault 1.0
 2014 – Veröffentlichung Data Vault 2.0 (erweiterte Konzepte)
© BBF GmbH
17
Data Vault – Methodik
 Modellierung
 Liste einfacher übersichtlicher und aufgabenorientierter Objekte
 Dekomposition von Schlüssels
 Separierung der Nutzdaten
 Bewirtschaftung
 modellierungsgetrieben
 Unabhängig in Bezug auf Quelldatenbindungen
 Konsolidierung von Entitäten unterschiedlicher Quellen
 Betrieb
 parallel
© BBF GmbH
18
Modellierung
Tabellentypen (Auszug)
 Hubs
 Links
 Satelliten
 Referenzen (Optional)
 Point-In-Times (Optional)
 Bridges (Optional)
© BBF GmbH
19
Modellierung
STAR
DV
3NF
© BBF GmbH
20
Bewirtschaftung
Bewirtschaftungstypen (Auszug)
 Hubs
 Reine Insert Operationen
 Hash-Keys basierend auf BKs
 Links
 Reine Insert Operationen
 Hash-Keys basierend auf Hub-Hash-Keys basierend auf BKs
 Satelliten
 Insert/Update Operationen
 Historisierungslogik
 Hash-Keys Basierend auf Hub-Hash-Keys basierend auf BKs
© BBF GmbH
21
Betrieb
Betriebstypen (Auszug)
 Vollständig parallel
 Eine Zieltabelle darf nur durch einen Bewirtschaftungsprozess bedient werden
 Einsatz von Hash-Keys sind Voraussetzung
 Sequentiell nach Bewirtschaftungstyp (Keine Link auf Links)
 Schritt 1: Alle Hubs
 Schritt 2: Alle Links, Alle Satelliten an Hubs
 Schritt 3: Alle Satelliten an Links, Alle Referenzen
 Schritt 4: Alle Bridges, Alle Point-In-Times
© BBF GmbH
22
Data Vault
Weiteres
 Verteilung der Komplexität
 Einfach zu modellieren, aber viel
 Einfach zu bewirtschaften, aber viel
 Erhöhung der Anzahl von Entitäten
 Aufwendige Abfrage von Informationen
 Virtualisierte oder persistierte Sichten zu Auswertungszwecken notwendig
Weiterführende Informationen
 Data Vault auf http://www.DDVUG.de
 Geschichte des Data Vault auf
https://www.youtube.com/watch?v=Xx4sdjGRriw&feature=youtu.be&list=UUFNi5nthZgdR0xj3UYYqVw
 Tiefergehende Einblicke in Blog-Form auf http://www.datavaultmodeling.de/blog
© BBF GmbH
23
Agenda
Einleitung
Standardisierung
Architektur
Data Vault
Praxis
Zusammenfassung
© BBF GmbH
24
BI:G – Komponenten
STAGE
CORE
MART
LOGGER
CONNECTOR
MODELER
LOADER
STAGER
© BBF GmbH
25
BI:G
Zentral
 LOGGER
 Zentrale Protokollierung
 Bestehend aus Tabellen, Prozeduren und Regelwerken
 Nachvollziehbarkeit von Datensatzlebenszyklen
Individuell
 STAGER
 Bildung einer 1:1 Abzugsschicht
 Klont Datenbankschnittstellen (Tabellen, Views)
 Rollout inklusive Steuerspalten und Tabelleninstanzen
© BBF GmbH
26
BI:G
Instanziiert
 CONNECTOR
 Tabellen, Prozeduren und Regelwerke
 Identifikation geänderter Daten
 LOGGER Erhöhung/Verbesserung/Erweiterung der Selektionskriterien
 LOADER
 Tabellen und Regelwerke
 Definition und Konfiguration von Ladeketten
 Konkretisierung durch Angabe von Aktivität, Ladeposition, Parallelisierung, Quellen, …
 MODELER
 Instanziierte Modellierungskomponente (technisch und fachlich)
 Angabe von Quell- Zielzuordnungen, zentralisierter Steuerspalten, Bearbeitungsstatus, …
 Rollout
© BBF GmbH
27
BI:G – Vorlagen
LOGGER
Stage
Core
Mart
MASTER
HUB
DIM
LNK
SAT
STA 1:X
FAKT
MODELER
CONNECTOR
STA 1:1
REF
BRI
LOADER
© BBF GmbH
28
Schichten: STAGE
Modellierung
 STAGER
 Bildung generischer STAGE-Tabellenausprägungen
 Reine DB-Schnittstellen (Tabellen/Views)
 Quelldatentyp gleich Zieldatentyp
 Keine Constraints
 Generische Erweiterung um Steuerspalten
 MODELER
 Bildung Konkreter STAGE-Tabellenausprägungen
 nonDB-Schnittstellen und changeDB-Schnittstellen (Bereinigung, Transformationen, …)
 Variabler Zieldatentyp
 Dedizierte Constraints
 Zentrale Erweiterung um Steuerspalten
© BBF GmbH
29
Schichten: STAGE
Bewirtschaftung
Master
 Master-ETL
LOADER
 Stage-ETL basierend auf STAGER
 Individual-ETL, basierend auf MODELER
Threads
 Einsatz mitgelieferter Vorlagen
 Zeitstempelorientierte Deltalogik
und Protokollierung
STA
TRUNCATE
 Atomare Abschlussoperation
EXTRACT
I|F
 Eigenschaften
 Komfortable Erstellung
 Einfache Verarbeitungslogik
STA
 Performance
INSERT
M|A|F
 Wartbarkeit, Robustheit und Wiederanlauffähigkeit
 Nachvollziehbarkeit
PSTA
LOAD
 Protokollierend und Deltagebend (prozessorientiert)
LOGGER | CONNECTOR
© BBF GmbH
30
Schichten: STAGE
Betrieb
 Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung
 LOADER
 Konfiguration der ETL-Strecken
 Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …)
 Einträge dienen dem Master-ETL als Grundlage
 Technologieorientierte Laufsteuerung
 Aufruf Master-ETL
 LOGGER
 Einrichtung des JOBs
 Überwachung über LOGGER basierte Abfragen
© BBF GmbH
31
Schichten: CORE
Modellierung
 Regelwerke für
 Modellierungsformen (hier nach DV)
 Namenskonventionen
 MODELER
 Fachliche Modellierung
 Tabellentyp, Tabellen und Spalten
 Angabe von Berechnungsvorschriften
 Technische Modellierung
 Tabellenart, Datentyp (Konsolidierung), Constraints, Schlüsselbeziehungen und -arten
 Quell- Zielzuordnung
 Zentrale Bildung Konkreter CORE-Tabellenausprägungen
 Zentrale Erweiterung um Steuerspalten anhand Tabellenart und -typ
 Einfacher Rollout
© BBF GmbH
32
Schichten: CORE
Bewirtschaftung
Master
 Master-ETL
LOADER | CONNECTOR | LOGGER
 Individual-ETL, basierend auf MODELER
Threads
 Einsatz mitgelieferter Vorlagen
 Prozessorientierte Deltalogik
und Protokollierung
UPD_SRC|UPD
TRUNCATE
 Abhängigkeitsparadigma
EXTRACT
 Atomare Abschlussoperation
PID
UPD_SRC
INSERT
L|T|E
LOGGER
UPD
INSERT
H
LOGGER
CORE
LOAD
LOGGER | CONNECTOR
© BBF GmbH
33
Schichten: CORE
Betrieb
 Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung
 LOADER
 Konfiguration der ETL-Strecken
 Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …)
 Einträge dienen dem Master-ETL als Grundlage
 Technologieorientierte Laufsteuerung
 Aufruf Master-ETL
 LOGGER
 Einrichtung des JOBs
 Überwachung über LOGGER basierte Abfragen
© BBF GmbH
34
Schichten: MART
Modellierung
 Regelwerke für
 Modellierungsformen (hier nach Stern – Dimensionen und Fakten)
 Namenskonventionen
 MODELER
 Fachliche Modellierung
 Tabellentyp, Tabellen und Spalten
 Angabe von Berechnungsvorschriften
 Technische Modellierung
 Tabellenart, Datentyp (Konsolidierung), Constraints, Schlüsselbeziehungen und -arten
 Quell- Zielzuordnung
 Zentrale Bildung Konkreter MART-Tabellenausprägungen
 Zentrale Erweiterung um Steuerspalten anhand Tabellenart und -typ
 Einfacher Rollout
© BBF GmbH
35
Schichten: MART
Bewirtschaftung
Master
 Master-ETL
LOADER | CONNECTOR | LOGGER
 Individual-ETL, basierend auf MODELER
Threads
 Mitgelieferte Vorlagen und
Skriptdimensionen
UPD_SRC|UPD
 Prozessbasierte entitätsorientierte
Deltalogik und Protokollierung
TRUNCATE
EXTRACT
 Abhängigkeitsparadigma
EPID
 Atomare Abschlussoperation
UPD_SRC
INSERT
C
LOGGER
UPD
INSERT
L|T|E
LOGGER
MART
LOAD
LOGGER | CONNECTOR
© BBF GmbH
36
Schichten: MART
Betrieb
 Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung
 LOADER
 Konfiguration der ETL-Strecken
 Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …)
 Einträge dienen dem Master-ETL als Grundlage
 Technologieorientierte Laufsteuerung
 Aufruf Master-ETL
 LOGGER
 Einrichtung des JOBs
 Überwachung über LOGGER basierte Abfragen
© BBF GmbH
37
Agenda
Einleitung
Standardisierung
Architektur
Data Vault
Praxis
Zusammenfassung
© BBF GmbH
38
Zusammenfassung
Standards + Data Vault + Framework  Kosten/Nutzen Argumentation
 Parallelisierung von Projektaufgaben
 Kurze Einarbeitungszeiten für Modellierer
 Kurze Einarbeitungszeiten für Entwickler
 Geringe Dokumentationskosten
 Einfacher Betrieb der ETL-Strecken
Verschiebung des Aufwands zum Wesentlichen – den Anforderungen
© BBF GmbH
39
Vielen Dank!
BBF GmbH
Kontakt:
Erika-Mann-Str. 57
80636 München
Thomas Mattick
Senior Consultant
Tel.
Web
eMail
Tel.
Mobil
eMail
+49 (0) 89 189099 - 0
www.bbf-soft.de
[email protected]
+49 (0) 351 811 954 10
+49 (0) 176 414 56 427
[email protected]
Herunterladen