DOAG-2016-DataVault in der Praxis

Werbung
 überraschend mehr
Möglichkeiten!
DataVault in der Praxis
Nur ein Werbeversprechen?
Marcel Aretz
© OPITZ CONSULTING 2016
Agenda
A
Vorgeschichte und Prioritäten
B
Wie wäre es mit DataVault?
C
Unser Leben mit DataVault
D
Lessons Learned / Fazit
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 2
Vorgeschichte und Erwartungen
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
A
Seite 3
Vorgeschichte

Gewachsenes Data-Warehouse auf OracleExadata-Basis

In 15 Jahren von x-Entwicklern weiterentwickelt

Zahlreiche Entwicklerdialekte

Wenig Konventionen

Logik über alle Schichten verteilt

Fehlersuche und Erweiterung extrem aufwändig
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 4
Erwartungshaltung an neues Data-Warehouse

Klare Konventionen

Klare Trennung der Schichten

Logik nicht überall verteilt

Inkrementell erweiterbar

Agile Projektvorgehen

Weitere Quellsysteme einfach integrierbar

Einfachere Prozesslogik

Hohe Prozesstransparenz
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 5
Wie wäre es mit DataVault?
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
B
Seite 6
Wie wäre es mit DataVault?

Klare Konventionen



LINK
SAT
HUB
Klare Trennung der Schichten




Die Regeln für Hubs / Links / Satelliten sind klar vorgegeben
Namenskonventionen
Raw-Data-Vault (RDV)
Business-Data-Vault (BDV)
Information-Mart (IM)
Logik nicht überall verteilt


harte Transformationen nur in BDV
Notfalls zwischen BDV und IM
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 7
Wie wäre es mit DataVault?

Inkrementell erweiterbar / Agiles Projektvorgehen


eine Stärke von DataVault
Erweiterung durch neue Objekte

Weitere Quellsysteme einfach integrierbar

Einfachere Prozesslogik




Alles easy – immer die gleichen Transformationen
Alles nach Schema F
klare Typisierung von Tabellen und damit
Ideal für Automatisierung / Generierung
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 8
DataVault ist gesetzt!

Oracle Exadata X6

es wird kein ETL-Tool verwendet

eigener Code-Generator
(mit APEX-Oberfläche)

Flüchtiges Staging (STG)

Persistentes Staging (PSA)

Raw-Data-Vault (RDV)

Business-Data-Vault (BDV)

Information-Mart (IM)
© OPITZ CONSULTING 2016
S
DataVault in der Praxis | Nur ein Werbeversprechen?
S
S
H
L
S
H
S
S
L
H
H
S
S
Seite 9
Unser Leben mit DataVault



Automatisierung:
Der Generator
C
Hashes:
Sinn und Unsinn
Unsere Erfahrungen:
Gute und Schlechte
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 10
Automatisierung:
Der Generator


Wird für alle Schichten bis auf den InformationMart verwendet
Hubs



ohne zusammengesetzte Schlüssel
(noch) keine Filter möglich
Links / Satelliten


Kapselung von Logik über Views
View kann als Skelett erzeugt werden
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 11
Andere Quellen
PL/SQL-Bausteine
3NF-Metadaten
APEX-Masken
JSON
Flat-Files
RDBMS
Automatisierung:
Der Generator – Schema
ExternalTable
Quellsysteme
DB-Link
Oracle SQL Developer Data
Modeller
(RDV / BDV / IM)
DDL
© OPITZ CONSULTING 2016
DWH-DB
PL/SQL-Packages
MetaDB
DataVault in der Praxis | Nur ein Werbeversprechen?
GIT
DDL
(STG/PSA/RDV)
Seite 12
Automatisierung:
Der Generator – Fazit
© OPITZ CONSULTING 2016

Funktioniert prima

Ausbaufähig

Code-Optimierungen einfach ausrollbar

„Alle Packages sehen gleich aus“

Kein fehleranfälliges Copy & Paste
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 13
Hashes:
Sinn und Unsinn






DV2.0 verwendet Hashes als Schlüssel über
Krypto-Funktionen (z.B. MD5 / SHA1)
Hash-Funktion ist nicht umkehrbar
BusinessKeys werden durch Hash-Funktionen in
künstliche Schlüssel überführt
Hoffentlich exakt 1-zu-1 Mapping
SurrogateKeys können über BusinessKeys
erraten werden…
Warum dann nicht gleich den BusinessKeys als
technischen Schlüssel?
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 14
Hashes:
Sinn und Unsinn
ARTIKEL
BK
SHA1
BK (mod)
SHA1 (mod)
1
356a192b
HARTI~^1
431f95ea
106
ac3478d6
HARTI~^106
1637e355
220
f37062d9
HARTI~^220
345297da
333
43814346
HARTI~^333
b7f1f524
KUNDEN
BK
SHA1
BK (mod)
SHA1 (mod)
1
356a192b
HKUND~^1
159a9c86
2
da4b9237
HKUND~^2
23035ee2
3
77de68da
HKUND~^3
5fe680f5
4
1b645389
HKUND~^4
f9002423
5
ac3478d6
HKUND~^5
9dbf1abd
© OPITZ CONSULTING 2016

SHA1 – 40 CHAR

Trennzeichen „~^“



Gleicher Hash für
unterschiedliche Objekte?
Modifizierter BK für
Hashing „Salting“
Ist BK(mod) nicht der
bessere künstliche
Schlüssel?
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 15
Hashes:
Sinn und Unsinn

Wenig Mehrwert

Birgt Risiko von Kollisionen

Mit 40-Char (SHA1) deutlich länger als unser
durchschnittlicher BK

Ermöglicht paralleles Laden

Wirklich BigData-Ready?
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 16
Bittere Erfahrungen:
Nicht jede Abkürzung spart Zeit

Regeln brechen rächt sich:

„Ich leg einfach eine neue Spalte an“





„das joine ich schnell auf dem Weg in den RDV“



Oder besser doch ein neuer Satellit?
Was passiert mit den alten Daten?
Satellit neu laden? Die Historie steckt ja in der PSA?
Patchen? Die Logik speziell im BDV kann sehr komplex werden
Und wie erkenne ich dann das Delta?
Vollabgleich?
Regeln brechen sollte gut überlegt sein!
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 17
Bittere Erfahrungen:
Einfacher wird‘s nicht




Die Businesslogik ist so kompliziert wie sie ist!
Ist tendenziell sogar komplizierter zu
implementieren
Abhängigkeiten im BDV lassen sich nicht
eliminieren
z.B. wiederverwendete Berechnungen
Modellierung ist nicht einfach
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 18
Gute Erfahrungen:
Erweiterbarkeit
Inkrement 2
S_KUND_ADDR_STAMMDATEN
S_ADDR_STAMMDATEN
L_KUND_ADDR
H_ADRESSEN
S_KUND_DETAILS
H_KUNDEN
S_KUND_STAMMDATEN
H_KUNDENTYPEN
S_KUTY_STAMMDATEN
H_HÄNDLER
S_HAEN_STAMMDATEN
L_KUND_KUTY
L_KUND_HÄND
Inkrement 1
DataVault in der Praxis | Nur ein Werbeversprechen?
© OPITZ CONSULTING 2016
Seite 19
Lessons Learned / Fazit


DataVault läßt sich sehr gut automatisieren
Hashes sorgen für viele Diskussionen und
wenig Nutzen

Regeln einhalten!

Es wird in Summe nicht einfacher werden


D
Modellierung wird immer wieder Fragen
aufwerfen
Die Erweiterbarkeit ist gegeben…

…wenn sich an die Regeln gehalten wird
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 20
Fragen & Antworten
© OPITZ CONSULTING 2016
DataVault in der Praxis | Nur ein Werbeversprechen?
Seite 21
 überraschend mehr
Möglichkeiten!
Seit 2006 antworte ich auf die Frage „Was machst Du eigentlich beruflich?“
folgendes:
„Ich begleite Daten jeglicher Form von dem Punkt an, an dem sie in
Maschinen und Anwendungen entstehen, bis zum Endstadium in Form einer
validen Aussage in den Köpfen der Entscheider oder Nutzer“.
Marcel Aretz
© OPITZ CONSULTING 2016
OPITZ CONSULTING Deutschland GmbH
Standort Hamburg
Landwehr 2
22087 Hamburg
WWW.OPITZ-CONSULTING.COM
[email protected]
opitzconsulting
Mobil: 0173 - 7279414
opitz-consulting-bcb8-1009116
DataVault in der Praxis | Nur ein Werbeversprechen?
@OC_WIRE
OPITZCONSULTING
Seite 22
Herunterladen