Präsentation - Bitkom Big Data Summit

Werbung
BITKOM Big Data Summit 2017
Wie aus dem Datensee kein
Datensumpf wird
Georg Niemeyer, Otto Group
1
Titel der Präsentation,
Name, Abteilung,
Ort, xx. Monat 2014
Otto Group: > 12 Mrd. Umsatz und Heimat vieler Online-Händlern
Eine umfassende Datenbasis
Deutschland
Russland
Nordamerika
Europa
Südamerika
Asien
Mehrheitsbeteiligungen
Minderheitsbeteiligungen
2
Wie aus dem Datensee kein Datensumpf wird,
Georg Niemeyer, Otto Group BI,
Hanau, 16. Februar 2017
In der Group BI führen wir Shop-übergreifend anonymisierte Daten in einem
kundenzentrierten, synergetischen Datenpool zusammen
Nutzungsszenarien Group BI
Zusammenführung der Daten…
… für unterschiedliche UseCases
User Recognition
Device-übergreifende Wiedererkennung von Usern in einer
Session
Web Logs
User Qualification
Bereitstellung von Zusatzinformationen einzelner User im
Rahmen einer Session
Stammdaten
Datapool
Produktdaten
Produktdaten
3
Wie aus dem Datensee kein Datensumpf wird,
Georg Niemeyer, Otto Group BI,
Hanau, 16. Februar 2017
Export von Profilmerkmalen
Gesamtheitlicher Export von Profildatensätzen für
datengetriebene Kampagnen
Individuelle Services
Zurverfügungstellung von individuellen Web Services für
personalisierte Kundenerlebnisse
Dem Datenpool liegt eine polyglotte Lambda-Architektur zugrunde, die vor
allem auf OpenSource-Komponenten basiert
Group BI Datenplattform – Technologiekomponenten
Clearingstelle
Clickstreams, Backenddaten &
sonstiges
BI-Daten- und Entwicklungsplattform
Datenintegration
Raw Data Store & Analyt. Platform
Analytische Datenbank
 Datenvereinnahmung
 HDFS / Hadoop - Ecosystem
 Evolving Schema / Varietät von
Datentypen
 Datenvorverarbeitung- und
transformation
 Analyse auf Datenaggregaten/-sichten
 Stabile Schema
 Relationale Sicht als Basis von Analysen
der Endanwender
Data
Services
Realtime-Processing Framework (Flink)
Model Stack Framework (Palladium)
Workflow & Koordination
Entwicklung
Discovery Lab
 Workflow- und Abhängigkeitsmanagement
 Konfigurationsmanagement
 Monitoring
 Automatisches Testen
 Entwicklung von stat. Modellen mit
Python
 Entwicklung mit Java
 Visual Analytics
 Reporting / Dashboarding
 D3, Python
Versionsverwaltung –
GIT
Build –
Jenkins/Maven/Nexus
Portal/Collaboration – Confluence
Ticketing –
JIRA
Entwicklungs- und Dokumentationsumgebung
4
Wie aus dem Datensee kein Datensumpf wird,
Georg Niemeyer, Otto Group BI,
Hanau, 16. Februar 2017
VEREINFACHT
Schnelle, agile Entwicklungszyklen sowie die Beibehaltung einer aktuellen
und umfassenden Datentransparenz sind erfolgsentscheidend für
erfolgreiche Big-Data-Vorhaben
Ein zentraler Datenpool bildet die Grundlage für alle Services, aber…
Ein Pool – x Teams
Hohe Abhängigkeiten aufgrund gemeinsamer Daten
1. Ständige Ergänzung um neue Datenquellen
2. Stetige Weiterentwicklung von Datenpool und Aggregaten mit
kurze Entwicklungszyklen
Service
1
3. Hohe Ansprüche an Qualitätssicherung aufgrund von
potenziellen Seiteneffekten
Service
2
4. Teamübergreifendes Abhängigkeitsmanagement bei Daten &
Transformationslogiken
6. Transparenz über verfügbare Daten für Teams unabdingbar
Datapool
Service
3
Service
4
a)
b)
c)
d)
e)
f)
Welche Daten stehen zur Verfügung?
Wie aktuell sind die Daten?
Wie vollständig sind die Daten?
Wer verantwortet die Daten?
Aus welchem Quellsystem?
...
 Wie zu vereinbaren mit autonomen Entwicklungsteams?
5
Wie aus dem Datensee kein Datensumpf wird,
Georg Niemeyer, Otto Group BI,
Hanau, 16. Februar 2017
Änderungen im Kontext von Data Warehouses sind stets ein Risiko
Hohe Testabdeckung? Continuous Deployment? Metadaten Management?
Beispiel Strukturänderungen
In Data Warehouses wird stets versucht,
Änderungen zu vermeiden
KundenDB
Lokale Entwicklertests
schwierig
Abhängigkeiten wenig
transparent
Schemamigrationen
sehr aufwändig
6
Wie aus dem Datensee kein Datensumpf wird,
Georg Niemeyer, Otto Group BI,
Hanau, 16. Februar 2017
Versionsverwaltung
nur stiefmütterlich
Scheduling auf
atomarer Ebene
komplex
Umsatz=
Preis * Menge
- Retouren
Kundenumsätze
Konzernumsatz
Nötige Änderungen:
1. Funktionale Änderung implementieren und testen
2. Neue Transformationslogik aktivieren
3. Daten der Tabelle mit neuer Logik beladen
(Historie?)
4. Auf geänderter Tabelle basierende Tabellen identifizieren
5. Abhängige Tabellen neu beladen
(zeitliche Abhängigkeiten?)
6. Dokumentation aktualisieren
Schedoscope bewahrt Agilität, indem die Beladung des Datapools komplett
dem Scheduler überlassen wird – inklusive der Durchführung von Datenund Schemamigration
Schedoscope basiert auf der Idee von Views
Beispiel Strukturänderungen
Spezifikation vom Schema einer View, deren
Abhängigkeiten und anzuwendende
Transformationslogiken
KundenDB
Bedarfsgerechtes
Scheduling
7
Automatische
Schemamigration
Typsicherheit bei
Entwicklung
Fehlererkennung zur
Compilezeit
Code-Completion
Testframework für
Tests in IDE
Wie aus dem Datensee kein Datensumpf wird,
Georg Niemeyer, Otto Group BI,
Hanau, 16. Februar 2017
Umsatz=
Preis * Menge
- Retouren
Kundenumsätze
Konzernumsatz
Nötige Änderungen:
1. Funktionale Änderung implementieren und testen
2. Neue Transformationslogik aktivieren
3. Daten der Tabelle mit neuer Logik beladen
(Historie?)
4. Auf geänderter Tabelle basierende Tabellen identifizieren
5. Abhängige Tabellen neu beladen
(zeitliche Abhängigkeiten?)
6. Dokumentation aktualisieren
Metascope stellt ein UI zur einfachen Exploration der Daten, Datenstrukturen
und Abhängigkeiten in einem Data-Lake bereit
Metascope = Transparenz im Datenpool
8
Einfache Navigation
Volle Transparenz
Navigation im Datenraum
durch facettierte Suche
Stets aktuellste Informationen
zu Implementierung und
Datenstand inkl. Beispieldaten
Kollaborative
Dokumentation
Klassifizierung entlang
von Taxonomien
technische und fachliche
Dokumentation an einer Stelle
Geschäftsobjekte, IT-Systeme
Organisationseinheiten, …
Wie aus dem Datensee kein Datensumpf wird,
Georg Niemeyer, Otto Group BI,
Hanau, 16. Februar 2017
Schedoscope ist OpenSource auf github.com/ottogroup/Schedoscope
Abhängigkeitsgraph
9
Wie aus dem Datensee kein Datensumpf wird,
Georg Niemeyer, Otto Group BI,
Hanau, 16. Februar 2017
Vielen Dank für Ihre Aufmerksamkeit
Otto (GmbH & Co KG)
Georg Niemeyer
Leiter Data Management & Technology
Werner-Otto-Str. 1-7
22179 Hamburg
[email protected]
https://github.com/ottogroup/Schedoscope
10
Wie aus dem Datensee kein Datensumpf wird,
Georg Niemeyer, Otto Group BI,
Hanau, 16. Februar 2017
Herunterladen