What`s New in SAS® Data Management

Werbung
make connections • share ideas • be inspired
What’s New in
SAS® Data Management
Der SAS® Enterprise Data Integration Server 4.3 und 4.4:
die wichtigsten Neuerungen …und ein Ausblick auf 4.5
Hans-Rainer Pauli (SAS)
Michael Herrmann (SAS)
Copyright © 2012, SAS Institute Inc. All rights reserved.
Klassisches Programmieren als Mittel der IT
Limitierungen bei bewährtem Herangehen an ein Projekt
 Lange Einarbeitungszeit, keine „Skalierbarkeit“
 Erfahrungsaufbau durch Programmierung allein
 Fokus „Programmiersprache“ statt „Business-Kenntnis“
 Entwickler mit Prozessen „verheiratet“
 end-2-end Verantwortung, Urlaubsengpässe, SLAs etc.
 Verwaltung von Programmen: Form des Werterhalts?
 Selbsterstellte Konzepte – nicht übertragbar
 Keine Standards, keine Compliance, kaum Planbarkeit
 Know-How schwer vom Arbeitsmarkt zu bekommen
 Werkstattfertigung  Industrialisierung (Kosten!)
Copyright © 2012, SAS Institute Inc. All rights reserved.
Modernes Datenmanagement mit Metadaten
Anforderungen der Kunden an Standardsoftware
Designwerkzeuge
Error Handling
Desktop
Web
Mobil
Code
Management
Data Mart
Cube
Star Schema
QKB
Scheduling,
Batch-Betrieb
Enterprise DWH
Datenqualität,
Dokumentation
Queues
Legacy
Copyright © 2012, SAS Institute Inc. All rights reserved.
ERP
DBMS
DI und DQ integriert: SAS® Data Integration Studio
Modellierungswerkzeug für ETL-Prozesse in der SAS Plattform
Definition von
Datenquellen und
neuen Tabellen
Drag &Drop
von Objekten
Visualisierung
von Prozessen
Vordefinierte
Transformationen
Copyright © 2012, SAS Institute Inc. All rights reserved.
Debugging und
Laufzeitstatistik
Prozessmodellierung
 Vordefinierte Transformationen
decken die Standardaufgaben
eines ETL-Entwicklers ab
 Eigene Generated Transforms
kapseln Kundenspezifisches
Copyright © 2012, SAS Institute Inc. All rights reserved.
Prozessmodellierung
 Vordefinierte Transformationen
decken die Standardaufgaben
eines ETL-Entwicklers ab
 Eigene Generated Transforms
kapseln Kundenspezifisches
Copyright © 2012, SAS Institute Inc. All rights reserved.
Transparenz in den Prozessen und Jobketten
Compliance und Governance als „Nebenprodukt“ der Modellierung
 Wo kommen die Daten her (Ursachenanalyse)?
 Wo fließen die Daten hin (Auswirkungsanalyse)?
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® Enterprise Data Integration Server 4.3 (1/2)
produktiv mit SAS 9.3 (Juli 2011)

Mehr Datenqualität und DM-Funktionen
 Data Management Studio löst dfPower Studio ab
 „Standardize with Definition“-Transformation

Produktivsetzen und Betrieb wird eleganter
 Integration von Versionierungsumgebungen
(CVS, Subversion und eigene per XML)
 automatisiertes Deployment, Job Status und
Performance Reporting

Neue Transformationen
 SCD Type 1 Loader (historienfrei aktualisieren)
 Compare Tables (Vergleich großer Bestände)
 Oracle Bulk Table Loader (nutzt SQL*loader)
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® Enterprise Data Integration Server 4.3 (2/2)
produktiv mit SAS 9.3 (Juli 2011)

Modernisierung
 Source Code Analyzer 2.0 (Makros, AnalyseModus, Kollisionserkennung, Protokollierung)
 Erweitertes BI Lineage Reporting (SMC)

Cloud und Lastverteilung
 Integration des Grid Managers erweitert
 Volltextsuche repository-weit

ELT- und In-Database noch umfangreicher
 Datenanbindung AsterData, Greenplum, SybaseIQ
 Neue SQL Transformation (UNION+INTERSECT)
 UDFs per Wizard ins SAS importieren
Copyright © 2012, SAS Institute Inc. All rights reserved.
Investitionsschutz
Base SAS nach Data Integration
Erweiterte Unterstützung
 Macro Support
 Analyse Modus
 Kollisionserkennung
(Library-Konflikte)
 Erweiterte Protokollierung
 Registrierung von
Worktables als Tabellen
Copyright © 2012, SAS Institute Inc. All rights reserved.
Source
Code
Analyzer
Nachvollziehbarkeit
Metadatensuche
 Gezielte Suche
nach Metadatenobjekten mit Filtern:
 Name
 Pfad
 Datum
 Typ
 Person
 Rolle
 Wiederverwendbar
durch Speicherung
von Suchanfragen
Copyright © 2012, SAS Institute Inc. All rights reserved.
Reproduzierbarkeit
Versionierung und Archivierung: Anbindung 3rd party Code-Management
 CVS
 SubVersion
 erweiterbar
durch offene API
Copyright © 2012, SAS Institute Inc. All rights reserved.
Automatisierung
Deployment im Batch
 Seit SAS 9.2: Package Deployment
 ExportPackage: Metadatenextraktion
 ImportPackage: Metadatenübername
 Mit SAS 9.3: Source Code Deployment
 deploySASJobs: Source Code Generierung
Copyright © 2012, SAS Institute Inc. All rights reserved.
Innovation
Neue Transformationen
 Compare Tables
 Vergleichen von zwei Tabellen
(unterschiedliche Inhalte)
 PerformanceEffiziente
Optimierung
Ermittlung von
über Hashing
Änderungen in
Tabellen
 SCD Type 1 Transformation
 Aktualisierung
ohne
Historisierung
Copyright © 2012, SAS Institute Inc. All rights reserved.
Effiziente
Übernahme von
Änderungen
Performance-Optimierung
Erweiterter DBMS Support
 Nutzung von User Defined
Functions (UDFs)
 Importieren und Nutzung im
Expression Builder
 Unterstützt Standard DBMS
UDFs
Erweiterte
 Enterprise Miner
Unterstützung
publishing Mining
von DBMS
Analytics UDFs
Pushdown
 Parametererkennung
 SQL Union Transformation:
 UNION
 UNION ALL
 INTERSECT
Copyright © 2012, SAS Institute Inc. All rights reserved.
Erweiterte
Unterstützung
von SQL
SAS® Enterprise Data Integration Server 4.4
Produktiv mit SAS 9.3 M1 (Februar 2012)

Hadoop
 Proc Hadoop, SAS/Access via HiveQL+Pig (DIS
Trans-forms, Enhanced Editor), Map/Reduce
 HDFS read/write, native API calls, SMC registered

SAS/DataFlux DMP 2.2
 DataFlux Web Studio (Web Monitor + Dashboard)
 MDM Foundation: Templates, Wizard, Quick-Start
 Business Data Network, Reference Data Manager

ELT Fokussierung (default “SQL pass-through“)
 Neue SQL-Transformationen: Delete, Merge, Update
(inkl. correlated), Execute (Templates)
 DB2 Bulk Loader: Import, Load, CLILoad (truncate)
Copyright © 2012, SAS Institute Inc. All rights reserved.
Hadoop und SAS Data Integration Studio 4.4
Initial als experimentelle Implementierung
 Server & Library Templates
zum Zugriff über Access to
Hadoop Libname Engine
 Neue File-Transformationen
zum Schreiben von Flatfiles
von und nach Hadoop
 Transformationen zum
Ausführen von
 Map Reduce
 Pig (mit Pig Latin Editor)
 Hive (mit HiveQL-Editor)
Copyright © 2012, SAS Institute Inc. All rights reserved.
ELT vs. ETL – SQL Erweiterungen
Push-down zur bevorzugten Verarbeitung in der Datenbank
Zur Reduktion des Datentransfers zwischen SAS und den
DBMS wurden neue SQL basierende Transformationen
eingeführt und in der Kategorie „SQL“ mit der „Join“ und
„Set Operators“ Transformation zusammengeführt:









Create Table
Delete
Execute
Extract (aktualisiert)
Insert Rows
Join (aktualisiert)
Merge
Set Operators
Update
Copyright © 2012, SAS Institute Inc. All rights reserved.
SQL Merge Transformation
Copyright © 2012, SAS Institute Inc. All rights reserved.
„Data Profiling“?
Abgleich der Erwartung mit den Daten
 Metadata Validation
Prüfung der Datensätze nach verschiedenen Kriterien (z.B.
Unique count, Primary Key Candidate)
 Pattern Analysis
Ermittelt Muster (Pattern) in Feldinhalten; dabei werden z.B.
Ziffeln als „9“ und Buchstaben als „A“ wiedergegeben.
 Statistical Analysis
Ermittelt statistische Maße wie Minimum, Maximum Mittelwert,
Standardabweichung…
 Frequency Counts
Listet die Anzahl von verschiedenen Einträgen auf
(Ausprägung der Domain)
 Rule Validation
Überprüfung der Einhaltung von spezifischen Geschäftsregeln
 Relationship Discovery
Zeigt an, ob primary/foreign key Relationen konsistent sind
und wie hoch Redundanzen in der Datenhaltung ist.
Copyright © 2012, SAS Institute Inc. All rights reserved.
Metriken „ohne Profiling“ schon beim Öffnen einer Tabelle
Verteilung, Ausreißer, Visualisierung als Boxplot
Copyright © 2012, SAS Institute Inc. All rights reserved.
Roadmap Data Management
Achtung: Subject to Change!
SAS DI Studio 4.5 (mit SAS 9.3 M2, ca. Herbst 2012)
 Hadoop (produktiv), HPC-Support (SAS LASR Server)
 Parallelisierung von DI Jobs
 Code per Fork-Transformation
 Bedingte Ausführung
 %IF/%THEN -Transformation
 SAS Business Rule Manager
 Erweiterung Data ValidationTransformation
 Mining Models Project Transformation
 Libname-Engine zum SAS Federation Server
 SAS/DataFlux Data Management Platform 2.3
Copyright © 2012, SAS Institute Inc. All rights reserved.
make connections • share ideas • be inspired
Copyright © 2012, SAS Institute Inc. All rights reserved.
Herunterladen