Microsoft PowerPoint - Netezza f\374r fortgeschrittene

Werbung
Michael Sebald – IT Architect Netezza
Die IBM Netezza Architektur
für fortgeschrittene Analysen
© 2011 IBM Corporation
Information Management
Was ist das Problem aller Data Warehouse Lösungen?
I/O
Information Management
Transaktionaler und analytischer Workload
Zwei sehr unterschiedliche Anforderungen für die Speicherung und Verarbeitung
von Daten:
Kunde
Business Analyst
Geschäftstransaktion
Data Warehouse
OLTP
Datenbank
BI Reports &
Dashboards
Information Management
Data Warehouse Workload ist gekennzeichnet durch eher wenige
Abfragen und viele Datenänderungen
Verwendung eines transaktionalen Systems für BI:
Request
Request
CPU
nicht-intelligenter
Speicher
Information Management
Allerdings erfüllen transaktionale Systeme Diese Aufgabe nur
ineffizient:
Verwendung eines transaktionalen Systems für BI:
Ergebnis
Request
CPU
nicht-intelligenter
Speicher
Information Management
Im Gegensatz zu einem Asymmetrisch-Massiv-Parallelen System…
IBM Netezza
Ergebnis
Request
CPU
intelligenter
Speicher
Information Management
… das die Daten dort verarbeitet, wo sie gespeichert sind:
IBM Netezza
2% der CPU
Anforderungen
Ergebnis
1% der
Netzwerklast
Request
CPU
intelligenter
Speicher
AMPP: Asymmetric Massively Parallel Processing
Information Management
Die IBM Netezza 1000 Data Warehouse Appliance
Festplatten
Benutzerdaten
Swap und Mirror Partitionen
SMP Hosts
SQL Compiler
Query Plan
Optimizer
Admin
S-Blades™
(mit FPGA-basiertem
Datenbank Accelerator)
Prozessoren und
Data Streaming
In-Database Analytics
Information Management
Das Streaming Verfahren von Netezza
select DISTRICT,
PRODUCTGRP,
sum(NRX)
from
MTHLY_RX_TERR_DATA
where
MONTH = '20091201'
and
MARKET = 509123
and
SPECIALTY = 'GASTRO'
Slice of table
MTHLY_RX_TERR_DATA
FPGA Core
Uncompress
Project
CPU Core
Restrict,
Visibility
Complex ∑
Joins, Aggs, etc.
(compressed)
sum(NRX)
select DISTRICT,
PRODUCTGRP,
sum(NRX)
where MONTH = '20091201'
and
MARKET = 509123
and
SPECIALTY = 'GASTRO'
Information Management
Blade-Server bilden die Basis ...
Memory
CPUs
Standard IBM HS22 Blade
Information Management
... für den IBM Netezza Datenbank Accelerator
Memory
CPUs
FPGA
Information Management
S-Blade Komponenten
SAS Expander
Module
DRAM
SAS Expander
Dual-Core FPGA
Module
Intel Quad-Core
IBM HS22 Blade
Netezza DB Accelerator
Information Management
Das IBM-Netezza S-Blade
Information Management
Advanced Analytics mit
the Netezza
Traditional Way
Data
Warehouse
SAS, SPSS
Analytics
Grid
Data
BedarfsBedarfsvorhersage
vorhersage
ETL
SQL
ETL
Fraud
Fraud
Detection
Detection
SQL
R, S+
ETL
C/C++, Java, Python,
Fortran, …
SQL
Information Management
Advanced Analytics mit Netezza
Analytics
Grid
SAS, SPSS
Data
BedarfsBedarfsvorhersage
vorhersage
ETL
Fraud
Fraud
Detection
Detection
SQL
R, S+
C/C++, Java, Python,
Fortran, …
Information Management
Advanced Analytics mit Netezza
SAS, SPSS
komplexe Analysen
SAS, SPSS, R, Java, etc
implizite Parallelisierung
Skalierbarkeit
Einfachheit
SQL
BedarfsBedarfsvorhersage
vorhersage
Fraud
Fraud
Detection
Detection
R, S+
SQL
Information Management
In
-Database Analytics
In-Database
Software Development Kit
Parallel Analytic Engines
nzMatrix
nzMatrix
nzEngine
nzEngine for
for
Hadoop
Hadoop
nzEngine
nzEngine
for
for
RR
Streaming Accelerator
Netezza AMPP™ Platform
Page 17
Company Confidential
Information Management
Drei prinzipielle Varianten der Integration mit SAS
Data Extraction
Database
Connector
In-Database
Analytics
• Base SAS – DATA STEP
• Base SAS – PROC SQL
• SAS Access ODBC
Data Extraction
• Base SAS
• SAS Access for Netezza
Data Extraction
• SAS Enterprise Miner
• SAS Scoring Accelerator
for Netezza
ODBC
SAS
SAS
Access
Scoring
• SAS Access for Netezza
• Netezza Datenbank
• SAS Scoring Accelerator
for Netezza
• Netezza Analytics
• Netezza Datenbank
• Netezza Datenbank
Data Extraction
Data Extraction
Data Extraction
Data Extraction
Information Management
Fallbeispiel
Erstellung eines Entscheidungsbaums zur
Bestimmung der Kreditwürdigkeit
Ausgangsparameter:
– Kreditwürdigkeit
– Alter
– Einkommen
– Anzahl Kreditkarten
– Ausbildung
– Anzahl Autokredite
Information Management
Abbildung in R
Information Management
Was ist R?
R ist eine freie Programmiersprache für statistische
Berechnungen und grafische Darstellungen
Sie wurde 1992 an der Universität Auckland
entwickelt und ist heute Teil des GNU-Projekts
http://www.r-project.org/
Eines der am häufigsten eingesetzten Data Mining „Tools“
Es gibt eine Reihe kommerzieller Implementierungen, bspw. Revolution Analytics
Information Management
Information Management
Information Management
Information Management
Information Management
Information Management
Information Management
Abbildung in SPSS
Information Management
Information Management
Information Management
Information Management
Information Management
Information Management
Information Management
Information Management
Information Management
Ein exemplarischer Laufzeitvergleich ergab:
bei 1 Million Datensätzen:
In-Database:
1 Minute und 24 Sekunden
„konventionell“:
1 Minute und 3 Sekunden
bei 20 Millionen Datensätzen:
In-Database:
1 Minute und 47 Sekunden
„konventionell“:
21 Minuten und 19 Sekunden
Information Management
Durch die Verarbeitung der Daten an ihrem Speicherort,
also „In-Database“ …
… entfallen Datenextraktions- und –bewegungsprozesse
– Zeitersparnis für den Anwender
– Reduzierung der Netzwerklast
… können alle gespeicherten Daten analysiert werden
… werden analytische Berechnungen schneller ausgeführt
– I/O (!) ist der Bottleneck für analytische Aufgaben
… reduzieren sich die Infrastruktur-Kosten (96 CPU Cores sind ja bereits da)
… verringern sich die Betriebskosten (da weniger Umgebungen erforderlich sind)
… und dies …
Information Management
… beschleunigt somit den gesamten Analyseprozess !
Business
Value
Wettbewerbsvorteil
Model
Execution
Model
Deployment
Model
Testing
Business
Requirements
Data
Preparation
Exploration
Data
Cleansing
Data
Transformation
Model
Development
Time To Intelligence
Information Management
IBM Netezza Roadshow am
1. Dezember 2011 im KochWerk in
Frankfurt am Main.
ibm.com/software/de/data/netezza/
Michael Sebald
[email protected]
Telefon: 07034-643-2384
40
Herunterladen