überraschend mehr Möglichkeiten! DataVault in der Praxis Nur ein Werbeversprechen? Marcel Aretz © OPITZ CONSULTING 2016 Agenda A Vorgeschichte und Prioritäten B Wie wäre es mit DataVault? C Unser Leben mit DataVault D Lessons Learned / Fazit © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 2 Vorgeschichte und Erwartungen © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? A Seite 3 Vorgeschichte Gewachsenes Data-Warehouse auf OracleExadata-Basis In 15 Jahren von x-Entwicklern weiterentwickelt Zahlreiche Entwicklerdialekte Wenig Konventionen Logik über alle Schichten verteilt Fehlersuche und Erweiterung extrem aufwändig © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 4 Erwartungshaltung an neues Data-Warehouse Klare Konventionen Klare Trennung der Schichten Logik nicht überall verteilt Inkrementell erweiterbar Agile Projektvorgehen Weitere Quellsysteme einfach integrierbar Einfachere Prozesslogik Hohe Prozesstransparenz © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 5 Wie wäre es mit DataVault? © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? B Seite 6 Wie wäre es mit DataVault? Klare Konventionen LINK SAT HUB Klare Trennung der Schichten Die Regeln für Hubs / Links / Satelliten sind klar vorgegeben Namenskonventionen Raw-Data-Vault (RDV) Business-Data-Vault (BDV) Information-Mart (IM) Logik nicht überall verteilt harte Transformationen nur in BDV Notfalls zwischen BDV und IM © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 7 Wie wäre es mit DataVault? Inkrementell erweiterbar / Agiles Projektvorgehen eine Stärke von DataVault Erweiterung durch neue Objekte Weitere Quellsysteme einfach integrierbar Einfachere Prozesslogik Alles easy – immer die gleichen Transformationen Alles nach Schema F klare Typisierung von Tabellen und damit Ideal für Automatisierung / Generierung © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 8 DataVault ist gesetzt! Oracle Exadata X6 es wird kein ETL-Tool verwendet eigener Code-Generator (mit APEX-Oberfläche) Flüchtiges Staging (STG) Persistentes Staging (PSA) Raw-Data-Vault (RDV) Business-Data-Vault (BDV) Information-Mart (IM) © OPITZ CONSULTING 2016 S DataVault in der Praxis | Nur ein Werbeversprechen? S S H L S H S S L H H S S Seite 9 Unser Leben mit DataVault Automatisierung: Der Generator C Hashes: Sinn und Unsinn Unsere Erfahrungen: Gute und Schlechte © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 10 Automatisierung: Der Generator Wird für alle Schichten bis auf den InformationMart verwendet Hubs ohne zusammengesetzte Schlüssel (noch) keine Filter möglich Links / Satelliten Kapselung von Logik über Views View kann als Skelett erzeugt werden © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 11 Andere Quellen PL/SQL-Bausteine 3NF-Metadaten APEX-Masken JSON Flat-Files RDBMS Automatisierung: Der Generator – Schema ExternalTable Quellsysteme DB-Link Oracle SQL Developer Data Modeller (RDV / BDV / IM) DDL © OPITZ CONSULTING 2016 DWH-DB PL/SQL-Packages MetaDB DataVault in der Praxis | Nur ein Werbeversprechen? GIT DDL (STG/PSA/RDV) Seite 12 Automatisierung: Der Generator – Fazit © OPITZ CONSULTING 2016 Funktioniert prima Ausbaufähig Code-Optimierungen einfach ausrollbar „Alle Packages sehen gleich aus“ Kein fehleranfälliges Copy & Paste DataVault in der Praxis | Nur ein Werbeversprechen? Seite 13 Hashes: Sinn und Unsinn DV2.0 verwendet Hashes als Schlüssel über Krypto-Funktionen (z.B. MD5 / SHA1) Hash-Funktion ist nicht umkehrbar BusinessKeys werden durch Hash-Funktionen in künstliche Schlüssel überführt Hoffentlich exakt 1-zu-1 Mapping SurrogateKeys können über BusinessKeys erraten werden… Warum dann nicht gleich den BusinessKeys als technischen Schlüssel? © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 14 Hashes: Sinn und Unsinn ARTIKEL BK SHA1 BK (mod) SHA1 (mod) 1 356a192b HARTI~^1 431f95ea 106 ac3478d6 HARTI~^106 1637e355 220 f37062d9 HARTI~^220 345297da 333 43814346 HARTI~^333 b7f1f524 KUNDEN BK SHA1 BK (mod) SHA1 (mod) 1 356a192b HKUND~^1 159a9c86 2 da4b9237 HKUND~^2 23035ee2 3 77de68da HKUND~^3 5fe680f5 4 1b645389 HKUND~^4 f9002423 5 ac3478d6 HKUND~^5 9dbf1abd © OPITZ CONSULTING 2016 SHA1 – 40 CHAR Trennzeichen „~^“ Gleicher Hash für unterschiedliche Objekte? Modifizierter BK für Hashing „Salting“ Ist BK(mod) nicht der bessere künstliche Schlüssel? DataVault in der Praxis | Nur ein Werbeversprechen? Seite 15 Hashes: Sinn und Unsinn Wenig Mehrwert Birgt Risiko von Kollisionen Mit 40-Char (SHA1) deutlich länger als unser durchschnittlicher BK Ermöglicht paralleles Laden Wirklich BigData-Ready? © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 16 Bittere Erfahrungen: Nicht jede Abkürzung spart Zeit Regeln brechen rächt sich: „Ich leg einfach eine neue Spalte an“ „das joine ich schnell auf dem Weg in den RDV“ Oder besser doch ein neuer Satellit? Was passiert mit den alten Daten? Satellit neu laden? Die Historie steckt ja in der PSA? Patchen? Die Logik speziell im BDV kann sehr komplex werden Und wie erkenne ich dann das Delta? Vollabgleich? Regeln brechen sollte gut überlegt sein! © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 17 Bittere Erfahrungen: Einfacher wird‘s nicht Die Businesslogik ist so kompliziert wie sie ist! Ist tendenziell sogar komplizierter zu implementieren Abhängigkeiten im BDV lassen sich nicht eliminieren z.B. wiederverwendete Berechnungen Modellierung ist nicht einfach © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 18 Gute Erfahrungen: Erweiterbarkeit Inkrement 2 S_KUND_ADDR_STAMMDATEN S_ADDR_STAMMDATEN L_KUND_ADDR H_ADRESSEN S_KUND_DETAILS H_KUNDEN S_KUND_STAMMDATEN H_KUNDENTYPEN S_KUTY_STAMMDATEN H_HÄNDLER S_HAEN_STAMMDATEN L_KUND_KUTY L_KUND_HÄND Inkrement 1 DataVault in der Praxis | Nur ein Werbeversprechen? © OPITZ CONSULTING 2016 Seite 19 Lessons Learned / Fazit DataVault läßt sich sehr gut automatisieren Hashes sorgen für viele Diskussionen und wenig Nutzen Regeln einhalten! Es wird in Summe nicht einfacher werden D Modellierung wird immer wieder Fragen aufwerfen Die Erweiterbarkeit ist gegeben… …wenn sich an die Regeln gehalten wird © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 20 Fragen & Antworten © OPITZ CONSULTING 2016 DataVault in der Praxis | Nur ein Werbeversprechen? Seite 21 überraschend mehr Möglichkeiten! Seit 2006 antworte ich auf die Frage „Was machst Du eigentlich beruflich?“ folgendes: „Ich begleite Daten jeglicher Form von dem Punkt an, an dem sie in Maschinen und Anwendungen entstehen, bis zum Endstadium in Form einer validen Aussage in den Köpfen der Entscheider oder Nutzer“. Marcel Aretz © OPITZ CONSULTING 2016 OPITZ CONSULTING Deutschland GmbH Standort Hamburg Landwehr 2 22087 Hamburg WWW.OPITZ-CONSULTING.COM [email protected] opitzconsulting Mobil: 0173 - 7279414 opitz-consulting-bcb8-1009116 DataVault in der Praxis | Nur ein Werbeversprechen? @OC_WIRE OPITZCONSULTING Seite 22