Michael Sebald – IT Architect Netezza Die IBM Netezza Architektur für fortgeschrittene Analysen © 2011 IBM Corporation Information Management Was ist das Problem aller Data Warehouse Lösungen? I/O Information Management Transaktionaler und analytischer Workload Zwei sehr unterschiedliche Anforderungen für die Speicherung und Verarbeitung von Daten: Kunde Business Analyst Geschäftstransaktion Data Warehouse OLTP Datenbank BI Reports & Dashboards Information Management Data Warehouse Workload ist gekennzeichnet durch eher wenige Abfragen und viele Datenänderungen Verwendung eines transaktionalen Systems für BI: Request Request CPU nicht-intelligenter Speicher Information Management Allerdings erfüllen transaktionale Systeme Diese Aufgabe nur ineffizient: Verwendung eines transaktionalen Systems für BI: Ergebnis Request CPU nicht-intelligenter Speicher Information Management Im Gegensatz zu einem Asymmetrisch-Massiv-Parallelen System… IBM Netezza Ergebnis Request CPU intelligenter Speicher Information Management … das die Daten dort verarbeitet, wo sie gespeichert sind: IBM Netezza 2% der CPU Anforderungen Ergebnis 1% der Netzwerklast Request CPU intelligenter Speicher AMPP: Asymmetric Massively Parallel Processing Information Management Die IBM Netezza 1000 Data Warehouse Appliance Festplatten Benutzerdaten Swap und Mirror Partitionen SMP Hosts SQL Compiler Query Plan Optimizer Admin S-Blades™ (mit FPGA-basiertem Datenbank Accelerator) Prozessoren und Data Streaming In-Database Analytics Information Management Das Streaming Verfahren von Netezza select DISTRICT, PRODUCTGRP, sum(NRX) from MTHLY_RX_TERR_DATA where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO' Slice of table MTHLY_RX_TERR_DATA FPGA Core Uncompress Project CPU Core Restrict, Visibility Complex ∑ Joins, Aggs, etc. (compressed) sum(NRX) select DISTRICT, PRODUCTGRP, sum(NRX) where MONTH = '20091201' and MARKET = 509123 and SPECIALTY = 'GASTRO' Information Management Blade-Server bilden die Basis ... Memory CPUs Standard IBM HS22 Blade Information Management ... für den IBM Netezza Datenbank Accelerator Memory CPUs FPGA Information Management S-Blade Komponenten SAS Expander Module DRAM SAS Expander Dual-Core FPGA Module Intel Quad-Core IBM HS22 Blade Netezza DB Accelerator Information Management Das IBM-Netezza S-Blade Information Management Advanced Analytics mit the Netezza Traditional Way Data Warehouse SAS, SPSS Analytics Grid Data BedarfsBedarfsvorhersage vorhersage ETL SQL ETL Fraud Fraud Detection Detection SQL R, S+ ETL C/C++, Java, Python, Fortran, … SQL Information Management Advanced Analytics mit Netezza Analytics Grid SAS, SPSS Data BedarfsBedarfsvorhersage vorhersage ETL Fraud Fraud Detection Detection SQL R, S+ C/C++, Java, Python, Fortran, … Information Management Advanced Analytics mit Netezza SAS, SPSS komplexe Analysen SAS, SPSS, R, Java, etc implizite Parallelisierung Skalierbarkeit Einfachheit SQL BedarfsBedarfsvorhersage vorhersage Fraud Fraud Detection Detection R, S+ SQL Information Management In -Database Analytics In-Database Software Development Kit Parallel Analytic Engines nzMatrix nzMatrix nzEngine nzEngine for for Hadoop Hadoop nzEngine nzEngine for for RR Streaming Accelerator Netezza AMPP™ Platform Page 17 Company Confidential Information Management Drei prinzipielle Varianten der Integration mit SAS Data Extraction Database Connector In-Database Analytics • Base SAS – DATA STEP • Base SAS – PROC SQL • SAS Access ODBC Data Extraction • Base SAS • SAS Access for Netezza Data Extraction • SAS Enterprise Miner • SAS Scoring Accelerator for Netezza ODBC SAS SAS Access Scoring • SAS Access for Netezza • Netezza Datenbank • SAS Scoring Accelerator for Netezza • Netezza Analytics • Netezza Datenbank • Netezza Datenbank Data Extraction Data Extraction Data Extraction Data Extraction Information Management Fallbeispiel Erstellung eines Entscheidungsbaums zur Bestimmung der Kreditwürdigkeit Ausgangsparameter: – Kreditwürdigkeit – Alter – Einkommen – Anzahl Kreditkarten – Ausbildung – Anzahl Autokredite Information Management Abbildung in R Information Management Was ist R? R ist eine freie Programmiersprache für statistische Berechnungen und grafische Darstellungen Sie wurde 1992 an der Universität Auckland entwickelt und ist heute Teil des GNU-Projekts http://www.r-project.org/ Eines der am häufigsten eingesetzten Data Mining „Tools“ Es gibt eine Reihe kommerzieller Implementierungen, bspw. Revolution Analytics Information Management Information Management Information Management Information Management Information Management Information Management Information Management Abbildung in SPSS Information Management Information Management Information Management Information Management Information Management Information Management Information Management Information Management Information Management Ein exemplarischer Laufzeitvergleich ergab: bei 1 Million Datensätzen: In-Database: 1 Minute und 24 Sekunden „konventionell“: 1 Minute und 3 Sekunden bei 20 Millionen Datensätzen: In-Database: 1 Minute und 47 Sekunden „konventionell“: 21 Minuten und 19 Sekunden Information Management Durch die Verarbeitung der Daten an ihrem Speicherort, also „In-Database“ … … entfallen Datenextraktions- und –bewegungsprozesse – Zeitersparnis für den Anwender – Reduzierung der Netzwerklast … können alle gespeicherten Daten analysiert werden … werden analytische Berechnungen schneller ausgeführt – I/O (!) ist der Bottleneck für analytische Aufgaben … reduzieren sich die Infrastruktur-Kosten (96 CPU Cores sind ja bereits da) … verringern sich die Betriebskosten (da weniger Umgebungen erforderlich sind) … und dies … Information Management … beschleunigt somit den gesamten Analyseprozess ! Business Value Wettbewerbsvorteil Model Execution Model Deployment Model Testing Business Requirements Data Preparation Exploration Data Cleansing Data Transformation Model Development Time To Intelligence Information Management IBM Netezza Roadshow am 1. Dezember 2011 im KochWerk in Frankfurt am Main. ibm.com/software/de/data/netezza/ Michael Sebald [email protected] Telefon: 07034-643-2384 40