make connections • share ideas • be inspired What’s New in SAS® Data Management Der SAS® Enterprise Data Integration Server 4.3 und 4.4: die wichtigsten Neuerungen …und ein Ausblick auf 4.5 Hans-Rainer Pauli (SAS) Michael Herrmann (SAS) Copyright © 2012, SAS Institute Inc. All rights reserved. Klassisches Programmieren als Mittel der IT Limitierungen bei bewährtem Herangehen an ein Projekt Lange Einarbeitungszeit, keine „Skalierbarkeit“ Erfahrungsaufbau durch Programmierung allein Fokus „Programmiersprache“ statt „Business-Kenntnis“ Entwickler mit Prozessen „verheiratet“ end-2-end Verantwortung, Urlaubsengpässe, SLAs etc. Verwaltung von Programmen: Form des Werterhalts? Selbsterstellte Konzepte – nicht übertragbar Keine Standards, keine Compliance, kaum Planbarkeit Know-How schwer vom Arbeitsmarkt zu bekommen Werkstattfertigung Industrialisierung (Kosten!) Copyright © 2012, SAS Institute Inc. All rights reserved. Modernes Datenmanagement mit Metadaten Anforderungen der Kunden an Standardsoftware Designwerkzeuge Error Handling Desktop Web Mobil Code Management Data Mart Cube Star Schema QKB Scheduling, Batch-Betrieb Enterprise DWH Datenqualität, Dokumentation Queues Legacy Copyright © 2012, SAS Institute Inc. All rights reserved. ERP DBMS DI und DQ integriert: SAS® Data Integration Studio Modellierungswerkzeug für ETL-Prozesse in der SAS Plattform Definition von Datenquellen und neuen Tabellen Drag &Drop von Objekten Visualisierung von Prozessen Vordefinierte Transformationen Copyright © 2012, SAS Institute Inc. All rights reserved. Debugging und Laufzeitstatistik Prozessmodellierung Vordefinierte Transformationen decken die Standardaufgaben eines ETL-Entwicklers ab Eigene Generated Transforms kapseln Kundenspezifisches Copyright © 2012, SAS Institute Inc. All rights reserved. Prozessmodellierung Vordefinierte Transformationen decken die Standardaufgaben eines ETL-Entwicklers ab Eigene Generated Transforms kapseln Kundenspezifisches Copyright © 2012, SAS Institute Inc. All rights reserved. Transparenz in den Prozessen und Jobketten Compliance und Governance als „Nebenprodukt“ der Modellierung Wo kommen die Daten her (Ursachenanalyse)? Wo fließen die Daten hin (Auswirkungsanalyse)? Copyright © 2012, SAS Institute Inc. All rights reserved. SAS® Enterprise Data Integration Server 4.3 (1/2) produktiv mit SAS 9.3 (Juli 2011) Mehr Datenqualität und DM-Funktionen Data Management Studio löst dfPower Studio ab „Standardize with Definition“-Transformation Produktivsetzen und Betrieb wird eleganter Integration von Versionierungsumgebungen (CVS, Subversion und eigene per XML) automatisiertes Deployment, Job Status und Performance Reporting Neue Transformationen SCD Type 1 Loader (historienfrei aktualisieren) Compare Tables (Vergleich großer Bestände) Oracle Bulk Table Loader (nutzt SQL*loader) Copyright © 2012, SAS Institute Inc. All rights reserved. SAS® Enterprise Data Integration Server 4.3 (2/2) produktiv mit SAS 9.3 (Juli 2011) Modernisierung Source Code Analyzer 2.0 (Makros, AnalyseModus, Kollisionserkennung, Protokollierung) Erweitertes BI Lineage Reporting (SMC) Cloud und Lastverteilung Integration des Grid Managers erweitert Volltextsuche repository-weit ELT- und In-Database noch umfangreicher Datenanbindung AsterData, Greenplum, SybaseIQ Neue SQL Transformation (UNION+INTERSECT) UDFs per Wizard ins SAS importieren Copyright © 2012, SAS Institute Inc. All rights reserved. Investitionsschutz Base SAS nach Data Integration Erweiterte Unterstützung Macro Support Analyse Modus Kollisionserkennung (Library-Konflikte) Erweiterte Protokollierung Registrierung von Worktables als Tabellen Copyright © 2012, SAS Institute Inc. All rights reserved. Source Code Analyzer Nachvollziehbarkeit Metadatensuche Gezielte Suche nach Metadatenobjekten mit Filtern: Name Pfad Datum Typ Person Rolle Wiederverwendbar durch Speicherung von Suchanfragen Copyright © 2012, SAS Institute Inc. All rights reserved. Reproduzierbarkeit Versionierung und Archivierung: Anbindung 3rd party Code-Management CVS SubVersion erweiterbar durch offene API Copyright © 2012, SAS Institute Inc. All rights reserved. Automatisierung Deployment im Batch Seit SAS 9.2: Package Deployment ExportPackage: Metadatenextraktion ImportPackage: Metadatenübername Mit SAS 9.3: Source Code Deployment deploySASJobs: Source Code Generierung Copyright © 2012, SAS Institute Inc. All rights reserved. Innovation Neue Transformationen Compare Tables Vergleichen von zwei Tabellen (unterschiedliche Inhalte) PerformanceEffiziente Optimierung Ermittlung von über Hashing Änderungen in Tabellen SCD Type 1 Transformation Aktualisierung ohne Historisierung Copyright © 2012, SAS Institute Inc. All rights reserved. Effiziente Übernahme von Änderungen Performance-Optimierung Erweiterter DBMS Support Nutzung von User Defined Functions (UDFs) Importieren und Nutzung im Expression Builder Unterstützt Standard DBMS UDFs Erweiterte Enterprise Miner Unterstützung publishing Mining von DBMS Analytics UDFs Pushdown Parametererkennung SQL Union Transformation: UNION UNION ALL INTERSECT Copyright © 2012, SAS Institute Inc. All rights reserved. Erweiterte Unterstützung von SQL SAS® Enterprise Data Integration Server 4.4 Produktiv mit SAS 9.3 M1 (Februar 2012) Hadoop Proc Hadoop, SAS/Access via HiveQL+Pig (DIS Trans-forms, Enhanced Editor), Map/Reduce HDFS read/write, native API calls, SMC registered SAS/DataFlux DMP 2.2 DataFlux Web Studio (Web Monitor + Dashboard) MDM Foundation: Templates, Wizard, Quick-Start Business Data Network, Reference Data Manager ELT Fokussierung (default “SQL pass-through“) Neue SQL-Transformationen: Delete, Merge, Update (inkl. correlated), Execute (Templates) DB2 Bulk Loader: Import, Load, CLILoad (truncate) Copyright © 2012, SAS Institute Inc. All rights reserved. Hadoop und SAS Data Integration Studio 4.4 Initial als experimentelle Implementierung Server & Library Templates zum Zugriff über Access to Hadoop Libname Engine Neue File-Transformationen zum Schreiben von Flatfiles von und nach Hadoop Transformationen zum Ausführen von Map Reduce Pig (mit Pig Latin Editor) Hive (mit HiveQL-Editor) Copyright © 2012, SAS Institute Inc. All rights reserved. ELT vs. ETL – SQL Erweiterungen Push-down zur bevorzugten Verarbeitung in der Datenbank Zur Reduktion des Datentransfers zwischen SAS und den DBMS wurden neue SQL basierende Transformationen eingeführt und in der Kategorie „SQL“ mit der „Join“ und „Set Operators“ Transformation zusammengeführt: Create Table Delete Execute Extract (aktualisiert) Insert Rows Join (aktualisiert) Merge Set Operators Update Copyright © 2012, SAS Institute Inc. All rights reserved. SQL Merge Transformation Copyright © 2012, SAS Institute Inc. All rights reserved. „Data Profiling“? Abgleich der Erwartung mit den Daten Metadata Validation Prüfung der Datensätze nach verschiedenen Kriterien (z.B. Unique count, Primary Key Candidate) Pattern Analysis Ermittelt Muster (Pattern) in Feldinhalten; dabei werden z.B. Ziffeln als „9“ und Buchstaben als „A“ wiedergegeben. Statistical Analysis Ermittelt statistische Maße wie Minimum, Maximum Mittelwert, Standardabweichung… Frequency Counts Listet die Anzahl von verschiedenen Einträgen auf (Ausprägung der Domain) Rule Validation Überprüfung der Einhaltung von spezifischen Geschäftsregeln Relationship Discovery Zeigt an, ob primary/foreign key Relationen konsistent sind und wie hoch Redundanzen in der Datenhaltung ist. Copyright © 2012, SAS Institute Inc. All rights reserved. Metriken „ohne Profiling“ schon beim Öffnen einer Tabelle Verteilung, Ausreißer, Visualisierung als Boxplot Copyright © 2012, SAS Institute Inc. All rights reserved. Roadmap Data Management Achtung: Subject to Change! SAS DI Studio 4.5 (mit SAS 9.3 M2, ca. Herbst 2012) Hadoop (produktiv), HPC-Support (SAS LASR Server) Parallelisierung von DI Jobs Code per Fork-Transformation Bedingte Ausführung %IF/%THEN -Transformation SAS Business Rule Manager Erweiterung Data ValidationTransformation Mining Models Project Transformation Libname-Engine zum SAS Federation Server SAS/DataFlux Data Management Platform 2.3 Copyright © 2012, SAS Institute Inc. All rights reserved. make connections • share ideas • be inspired Copyright © 2012, SAS Institute Inc. All rights reserved.