BITKOM Big Data Summit 2017 Wie aus dem Datensee kein Datensumpf wird Georg Niemeyer, Otto Group 1 Titel der Präsentation, Name, Abteilung, Ort, xx. Monat 2014 Otto Group: > 12 Mrd. Umsatz und Heimat vieler Online-Händlern Eine umfassende Datenbasis Deutschland Russland Nordamerika Europa Südamerika Asien Mehrheitsbeteiligungen Minderheitsbeteiligungen 2 Wie aus dem Datensee kein Datensumpf wird, Georg Niemeyer, Otto Group BI, Hanau, 16. Februar 2017 In der Group BI führen wir Shop-übergreifend anonymisierte Daten in einem kundenzentrierten, synergetischen Datenpool zusammen Nutzungsszenarien Group BI Zusammenführung der Daten… … für unterschiedliche UseCases User Recognition Device-übergreifende Wiedererkennung von Usern in einer Session Web Logs User Qualification Bereitstellung von Zusatzinformationen einzelner User im Rahmen einer Session Stammdaten Datapool Produktdaten Produktdaten 3 Wie aus dem Datensee kein Datensumpf wird, Georg Niemeyer, Otto Group BI, Hanau, 16. Februar 2017 Export von Profilmerkmalen Gesamtheitlicher Export von Profildatensätzen für datengetriebene Kampagnen Individuelle Services Zurverfügungstellung von individuellen Web Services für personalisierte Kundenerlebnisse Dem Datenpool liegt eine polyglotte Lambda-Architektur zugrunde, die vor allem auf OpenSource-Komponenten basiert Group BI Datenplattform – Technologiekomponenten Clearingstelle Clickstreams, Backenddaten & sonstiges BI-Daten- und Entwicklungsplattform Datenintegration Raw Data Store & Analyt. Platform Analytische Datenbank Datenvereinnahmung HDFS / Hadoop - Ecosystem Evolving Schema / Varietät von Datentypen Datenvorverarbeitung- und transformation Analyse auf Datenaggregaten/-sichten Stabile Schema Relationale Sicht als Basis von Analysen der Endanwender Data Services Realtime-Processing Framework (Flink) Model Stack Framework (Palladium) Workflow & Koordination Entwicklung Discovery Lab Workflow- und Abhängigkeitsmanagement Konfigurationsmanagement Monitoring Automatisches Testen Entwicklung von stat. Modellen mit Python Entwicklung mit Java Visual Analytics Reporting / Dashboarding D3, Python Versionsverwaltung – GIT Build – Jenkins/Maven/Nexus Portal/Collaboration – Confluence Ticketing – JIRA Entwicklungs- und Dokumentationsumgebung 4 Wie aus dem Datensee kein Datensumpf wird, Georg Niemeyer, Otto Group BI, Hanau, 16. Februar 2017 VEREINFACHT Schnelle, agile Entwicklungszyklen sowie die Beibehaltung einer aktuellen und umfassenden Datentransparenz sind erfolgsentscheidend für erfolgreiche Big-Data-Vorhaben Ein zentraler Datenpool bildet die Grundlage für alle Services, aber… Ein Pool – x Teams Hohe Abhängigkeiten aufgrund gemeinsamer Daten 1. Ständige Ergänzung um neue Datenquellen 2. Stetige Weiterentwicklung von Datenpool und Aggregaten mit kurze Entwicklungszyklen Service 1 3. Hohe Ansprüche an Qualitätssicherung aufgrund von potenziellen Seiteneffekten Service 2 4. Teamübergreifendes Abhängigkeitsmanagement bei Daten & Transformationslogiken 6. Transparenz über verfügbare Daten für Teams unabdingbar Datapool Service 3 Service 4 a) b) c) d) e) f) Welche Daten stehen zur Verfügung? Wie aktuell sind die Daten? Wie vollständig sind die Daten? Wer verantwortet die Daten? Aus welchem Quellsystem? ... Wie zu vereinbaren mit autonomen Entwicklungsteams? 5 Wie aus dem Datensee kein Datensumpf wird, Georg Niemeyer, Otto Group BI, Hanau, 16. Februar 2017 Änderungen im Kontext von Data Warehouses sind stets ein Risiko Hohe Testabdeckung? Continuous Deployment? Metadaten Management? Beispiel Strukturänderungen In Data Warehouses wird stets versucht, Änderungen zu vermeiden KundenDB Lokale Entwicklertests schwierig Abhängigkeiten wenig transparent Schemamigrationen sehr aufwändig 6 Wie aus dem Datensee kein Datensumpf wird, Georg Niemeyer, Otto Group BI, Hanau, 16. Februar 2017 Versionsverwaltung nur stiefmütterlich Scheduling auf atomarer Ebene komplex Umsatz= Preis * Menge - Retouren Kundenumsätze Konzernumsatz Nötige Änderungen: 1. Funktionale Änderung implementieren und testen 2. Neue Transformationslogik aktivieren 3. Daten der Tabelle mit neuer Logik beladen (Historie?) 4. Auf geänderter Tabelle basierende Tabellen identifizieren 5. Abhängige Tabellen neu beladen (zeitliche Abhängigkeiten?) 6. Dokumentation aktualisieren Schedoscope bewahrt Agilität, indem die Beladung des Datapools komplett dem Scheduler überlassen wird – inklusive der Durchführung von Datenund Schemamigration Schedoscope basiert auf der Idee von Views Beispiel Strukturänderungen Spezifikation vom Schema einer View, deren Abhängigkeiten und anzuwendende Transformationslogiken KundenDB Bedarfsgerechtes Scheduling 7 Automatische Schemamigration Typsicherheit bei Entwicklung Fehlererkennung zur Compilezeit Code-Completion Testframework für Tests in IDE Wie aus dem Datensee kein Datensumpf wird, Georg Niemeyer, Otto Group BI, Hanau, 16. Februar 2017 Umsatz= Preis * Menge - Retouren Kundenumsätze Konzernumsatz Nötige Änderungen: 1. Funktionale Änderung implementieren und testen 2. Neue Transformationslogik aktivieren 3. Daten der Tabelle mit neuer Logik beladen (Historie?) 4. Auf geänderter Tabelle basierende Tabellen identifizieren 5. Abhängige Tabellen neu beladen (zeitliche Abhängigkeiten?) 6. Dokumentation aktualisieren Metascope stellt ein UI zur einfachen Exploration der Daten, Datenstrukturen und Abhängigkeiten in einem Data-Lake bereit Metascope = Transparenz im Datenpool 8 Einfache Navigation Volle Transparenz Navigation im Datenraum durch facettierte Suche Stets aktuellste Informationen zu Implementierung und Datenstand inkl. Beispieldaten Kollaborative Dokumentation Klassifizierung entlang von Taxonomien technische und fachliche Dokumentation an einer Stelle Geschäftsobjekte, IT-Systeme Organisationseinheiten, … Wie aus dem Datensee kein Datensumpf wird, Georg Niemeyer, Otto Group BI, Hanau, 16. Februar 2017 Schedoscope ist OpenSource auf github.com/ottogroup/Schedoscope Abhängigkeitsgraph 9 Wie aus dem Datensee kein Datensumpf wird, Georg Niemeyer, Otto Group BI, Hanau, 16. Februar 2017 Vielen Dank für Ihre Aufmerksamkeit Otto (GmbH & Co KG) Georg Niemeyer Leiter Data Management & Technology Werner-Otto-Str. 1-7 22179 Hamburg [email protected] https://github.com/ottogroup/Schedoscope 10 Wie aus dem Datensee kein Datensumpf wird, Georg Niemeyer, Otto Group BI, Hanau, 16. Februar 2017