Information Management ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 © 2013 IBM Corporation 1 Review – ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 © 2015 IBM Corporation Information Management ETL im Datawarehouse Extrakt 3 Transform Load © 2013 IBM Corporation ETL – Beispiel Entfernung von Dubletten je KUNDE Kontoart Kunde Lookup Schlüssel zu sprechendem Text: KONTOART zu ID R J L A Ziel Inner Join über KDNR Konto 4 Aussteuerung von Konten ohne gültige ID Aggregation der Salden je Kunde Error / Reject © © 2014 2014 IBM IBM Corporation Corporation ETL – Ergebnis 5 © © 2014 2014 IBM IBM Corporation Corporation Information Management ETL Herausforderungen im DWH Skalierbarkeit und Pushdown – Mehrere konsekutive ETL Prozesse – Beladungszeiten und Latency Aufwand ETL Entwicklungen – 50% des DWH Aufwands – Wiederverwendbarkeit • Repository & Search • Module • Parametrisierung • Generierung aus Metadaten Qualitative und fachliche Aufbereitung und Validierung der Daten Transformation eher Commodity – Ohne geht es aber nicht (Historisierung, Hierarchiewechsel, Formate, Datenmodelle) 6 © 2013 IBM Corporation Information Management Realität und aktuelle Herausforderungen Diverse Datentöpfe für Analytics Typisch ein führendes DWH – SAP BW – Abteilungslösungen, auf Frontend Basis – Analytics auf operative Systeme Challenges – Agilität, zentrales EDW zu schwerfällig – Beladungszeiten Big Data – Ist Hadoop die Lösung für alles – Integration neuer Technologien (Hadoop, SPARK) – Massive Datenmengen – Stamm- und Referenzdaten Cleansing 8 © 2013 IBM Corporation Information Management Umgang mit verteilten Repositories Konsolidierung – Extremer fachlicher Aufwand – Führt zu hoher Komplexität, weniger Agilität Federation – Setzt fachliche Vergleichbarkeit voraus – Stammdaten und Referenzdaten müssen übereinstimmen Data Lake – Katalogisierung fachlicher Objekte und wo sie technisch liegen – Self Service mit simplem click ETL – Wiederum Stamm- und Referenzdaten ETL Tool muss Datenqualität, Stammdaten-Bereinigung, Metadaten-Management und Katalog können Support von Federation 9 © 2013 IBM Corporation Information Management Sind die Tage von ETL gezählt ? In Memory – „Wir brauchen kein ETL, da virtuelle Views auf den operativen Originaldaten“ Hadoop – „Schema after run“ – Flume, Sqoop Aber – Historisierungen ?? – Data Cleansing ?? – Back to SQL (views) oder Python (??) 10 © 2013 IBM Corporation Information Management Anforderungen aus neuen Architekturen Katalog der Business Objekte mit Link zu IT Assets Daten Self-Service für Anwender DQ für Business User Integriert mit ETL Pushdown für MapReduce 11 © 2013 IBM Corporation Information Management Information Server Inhalt letztes Upgrade Governance Integration mit neuen Technologien Data Self Service Cloud 12 © 2013 IBM Corporation Information Management Governance Governance Catalogue –umfasst Hadoop / Hive Katalog Erweiterte Möglichkeiten für Policies –Governance Dashboard Exception Stage und DQ Dashboard 13 © 2013 IBM Corporation Information Management Integration mit neuen Technologien Hadoop Stage –Balanced Optimization für MapReduce –Unstructured Stage –Stream Stage MDM Stage Connectoren für Amazon, Greenplum 14 © 2013 IBM Corporation Information Management Data Self Service Aktionen aus dem Governance Catalog („Shop for Data“) DataClick erstellt automatisch Transfer Jobs 15 © 2013 IBM Corporation Information Management Cloud Hypervisor Version DataWorks IBM DataWorks™ Data Refinery Services • Load data • Cleanse addresses • Profile data • Classify data 16 © 2013 IBM Corporation Information Management Zusammenfassung ETL ist nach wie vor eine Core Competency für Analytics Das reine ETL tritt in den Hintergrund – Metadaten-Management und Katalog – Stamm- und Referenzdaten – Self Service für Daten Neue Herausforderungen durch neue Technologien – Hadoop – Cloud „There is no free lunch“ - Bekannte Konzepte gelten auch für neue Technologien – Datenaufbereitung ist und bleibt ein wesentlicher Aufwandstreiber 17 © 2013 IBM Corporation