ETL in den Zeiten von Big Data

Werbung
Information Management
ETL in den Zeiten von Big Data
Dr Oliver Adamczak, IBM Analytics
1
© 2013 IBM Corporation
1
Review – ETL im Datawarehouse
2 Aktuelle Herausforderungen
3
Future of ETL
4 Zusammenfassung
2
© 2015 IBM Corporation
Information Management
ETL im Datawarehouse
Extrakt
3
Transform
Load
© 2013 IBM Corporation
ETL – Beispiel
Entfernung von
Dubletten je
KUNDE
Kontoart
Kunde
Lookup Schlüssel zu
sprechendem Text:
KONTOART
zu ID
R
J
L
A
Ziel
Inner Join über
KDNR
Konto
4
Aussteuerung von
Konten ohne
gültige ID
Aggregation der
Salden je Kunde
Error / Reject
©
© 2014
2014 IBM
IBM Corporation
Corporation
ETL – Ergebnis
5
©
© 2014
2014 IBM
IBM Corporation
Corporation
Information Management
ETL Herausforderungen im DWH
 Skalierbarkeit und Pushdown
– Mehrere konsekutive ETL Prozesse
– Beladungszeiten und Latency
 Aufwand ETL Entwicklungen
– 50% des DWH Aufwands
– Wiederverwendbarkeit
• Repository & Search
• Module
• Parametrisierung
• Generierung aus Metadaten
 Qualitative und fachliche Aufbereitung und Validierung der Daten
 Transformation eher Commodity
– Ohne geht es aber nicht (Historisierung, Hierarchiewechsel, Formate, Datenmodelle)
6
© 2013 IBM Corporation
Information Management
Realität und aktuelle Herausforderungen
 Diverse Datentöpfe für Analytics
 Typisch ein führendes DWH
– SAP BW
– Abteilungslösungen, auf Frontend Basis
– Analytics auf operative Systeme
 Challenges
– Agilität, zentrales EDW zu schwerfällig
– Beladungszeiten
 Big Data
– Ist Hadoop die Lösung für alles
– Integration neuer Technologien (Hadoop, SPARK)
– Massive Datenmengen
– Stamm- und Referenzdaten Cleansing
8
© 2013 IBM Corporation
Information Management
Umgang mit verteilten Repositories
 Konsolidierung
– Extremer fachlicher Aufwand
– Führt zu hoher Komplexität, weniger Agilität
 Federation
– Setzt fachliche Vergleichbarkeit voraus
– Stammdaten und Referenzdaten müssen übereinstimmen
 Data Lake
– Katalogisierung fachlicher Objekte und wo sie technisch liegen
– Self Service mit simplem click ETL
– Wiederum Stamm- und Referenzdaten
 ETL Tool muss Datenqualität, Stammdaten-Bereinigung, Metadaten-Management und Katalog können
 Support von Federation
9
© 2013 IBM Corporation
Information Management
Sind die Tage von ETL gezählt ?
 In Memory
– „Wir brauchen kein ETL, da virtuelle Views
auf den operativen Originaldaten“
 Hadoop
– „Schema after run“
– Flume, Sqoop
 Aber
– Historisierungen ??
– Data Cleansing ??
– Back to SQL (views) oder Python (??)
10
© 2013 IBM Corporation
Information Management
Anforderungen aus neuen Architekturen
Katalog der Business Objekte mit Link zu IT Assets
Daten Self-Service für Anwender
DQ für Business User
Integriert mit ETL
Pushdown für MapReduce
11
© 2013 IBM Corporation
Information Management
Information Server Inhalt letztes Upgrade
 Governance
 Integration mit neuen Technologien
 Data Self Service
 Cloud
12
© 2013 IBM Corporation
Information Management
Governance
 Governance Catalogue
–umfasst Hadoop / Hive Katalog
 Erweiterte Möglichkeiten für Policies
–Governance Dashboard
 Exception Stage und DQ Dashboard
13
© 2013 IBM Corporation
Information Management
Integration mit neuen Technologien
 Hadoop Stage
–Balanced Optimization für MapReduce
–Unstructured Stage
–Stream Stage
 MDM Stage
 Connectoren für Amazon, Greenplum
14
© 2013 IBM Corporation
Information Management
Data Self Service
 Aktionen aus dem Governance Catalog („Shop for Data“)
 DataClick erstellt automatisch Transfer Jobs
15
© 2013 IBM Corporation
Information Management
Cloud
 Hypervisor Version
 DataWorks
IBM DataWorks™ Data Refinery
Services
• Load data
• Cleanse addresses
• Profile data
• Classify data
16
© 2013 IBM Corporation
Information Management
Zusammenfassung
 ETL ist nach wie vor eine Core Competency für Analytics
 Das reine ETL tritt in den Hintergrund
– Metadaten-Management und Katalog
– Stamm- und Referenzdaten
– Self Service für Daten
 Neue Herausforderungen durch neue Technologien
– Hadoop
– Cloud
 „There is no free lunch“ - Bekannte Konzepte gelten auch für neue Technologien
– Datenaufbereitung ist und bleibt ein wesentlicher Aufwandstreiber
17
© 2013 IBM Corporation
Herunterladen