ADVANCED ANALYTICS MIT SYBASE IQ VOLKER SAGGAU SYSTEMS CONSULTANT 04. MAI 2011 RIVA MIT SYBASE IQ Front Office Kredit … Kunden Extraktor Extraktor Extraktor Extraktor Riva Risiko Riva Meldewesen Viele andere Module und Hersteller … Angereicherte strukturierte Ergebnisdaten mit FTDL Formatter Sybase IQ Sybase IQ Aggr/Summ: 0–0,1 TB Indizes: 0,05–0,3 TB Fertige Extraktoren vorhanden (Kondor+, Summit, Murex, …) FTDL zur strukturierten und effizienten Abbildung aller Daten Strukturierte Quelldaten mit FTDL (XML-basierte Abbildung aller Finanzinstrumente) Riva Bewertung Datenbestände werden nur in den Originalsystemen gespeichert Riva Cashflows Gekapselte Funktionen für diverse bankfachliche Anforderungen Ergebnisse werden zentral zur Verfügung gestellt (und archiviert) Wandlung der veredelten FTDLObjekte für Sybase IQ Speicherung, Historisierung, flexible hoch performante Abfragen und Analysen auf allen übertragenen Informationen Basistabelle: 0,2–0,5 TB 2 – Company Confidential – May 6, 2011 2 SYBASE IQ ARCHITEKTUR KOMBINIERT MIT RIVA ARCHITEKTUR Input Extraktor Sybase IQ Strukt. Quelldaten Lose gekoppelte Module für verschiedene betriebswirtschaftl. Modelle … Output Strukt. Ergebnisdaten Formatter Output Output Output Datenquellen 3 – Company Confidential – May 6, 2011 Datenbelieferung Spaltenbasierter Analyseserver Reporting- und Analyse-Tools Benutzer 3 ERWEITERUNG DES ANALYSEBEREICHS VON RIVA Höhere Datenvolumina: Einführung der Dimensionen Zeit und Firmen 1. Dimension: beliebig viele Datensätze in kürzester Zeit 4 – Company Confidential – May 6, 2011 2. Dimension: beliebig viele Datensätze pro Unternehmen und Sub-Divisionen Warum ist Sybase IQ besser für analytische Aufgaben geeignet als andere Produkte auf dem Markt? 5 – Company Confidential – May 6, 2011 SAP UND SYBASE: PIONIERE FÜR INMEMORY TECHNOLOGIE Heute verfügbare Technologie-Lösungen SAP und Sybase Tools, angetrieben durch die In-Memory Technologie Sybase SQL Anywhere InMemory Datenbank SAP NetWeaver Enterprise Search Sybase ASE SAP Advanced Logical Memory Planner and Manager Optimizer Sybase IQ SAP NetWeaver SAP CRM BW Accelerator Customer (BWA) Segmentation Dez 1996 Dez 1999 6 – Company Confidential – May 6, 2011 Q1 2006 2006 2007 Sybase ASE InMemory Datenbank SAP BusinessObjects Explorer, accelerated 2008 SAP HANA SAP Business ByDesign analytics 2009 Q1 2010 Q1 2011 VERSCHIEDENE SPEICHERTECHNOLOGIEN Analogie mit Paletten-Ablagesystemen 7 – Company Confidential – May 6, 2011 DIE DATENBANK KÖNNTE DAS PROBLEM SEIN Überlastung operationaler Datenbanken durch Advanced Analytics-Anforderungen • Optimiert für Transaktionen, keine tiefere Analysen • Erfordert kontinuierliche Feineinstellung und Indizierung • Zusätzliche Anwender verlangsamen die Performance • Komplexe Abfragen können das System stoppen • Durch Indizes und aggregierte Tabellen explodieren Datenvolumen • Und in der Zwischenzeit... Werden die Zeitfenster für das Laden der Daten verkleinert Appliances sind oft proprietär und teuer in der Anschaffung, Implementierung und Wartung. 8 – Company Confidential – May 6, 2011 SYBASE IQ: DIE LÖSUNG FÜR ADVANCED ANALYTICS Sybase IQ ist eine hoch optimierte Analyse-Engine, die Unternehmen weltweit für Business Intelligence, Advanced Analytics, prädiktive Modellierung, stringente regulatorische Compliance und schnelles Reporting einsetzen. • Sybase IQ setzt Advanced Analytics in der Praxis um: – Von Anfang an auf Analysen, nicht Transaktionen ausgerichtet – Unübertroffene komplexe Abfrageleistung auf beliebig großen Daten-Sets – Niedrigste Gesamtbetriebskosten (TCO) für analytische Anwendungen – Spaltenbasierte Struktur und patentierte Indizierung versetzen Sybase IQ in den Gartner Groups Magic Quadrant als „Visionär”¹ 1 Magic Quadrant for Data Warehouse Database Management Systems 2007. Gartner Group, Oktober 2007. 9 – Company Confidential – May 6, 2011 DER SYBASE IQ VORTEIL • Geschwindigkeit aus einer spaltenbasierten Architektur – Bis zu 100-mal schneller als traditionelle transaktionale Datenbanktechnologie – Hochgeschwindigkeits-Analyseleistung bewältigt Volumen an Ad-hoc-Abfragen in „Echtzeit” • Skalierbarkeit und Flexibilität durch Multiplexing – Unterstützt tausende von Benutzern und Jahre historischer und Echtzeit-Daten – Unterstützt sowohl einfache als auch komplexe Analysen für strukturierte und unstrukturierte Daten • Niedrigster TCO durch Datenkomprimierung – Komprimierungsalgorithmen reduzieren das Datenvolumen der abgelegten Daten um bis zu 70% – Niedriger Start- und Langzeit-TCO – weniger Speicher- und Wartungsressourcen – Einfach zu lernen und anzuwenden – erfordert nur minimalen Personal- und Trainingsaufwand 10 – Company Confidential – May 6, 2011 ANALYSEARCHITEKTUR-ALTERNATIVEN Datenmanagement für anspruchsvollste Analysen • Transaktionale Datenbank – Abfrageflexibilität, aber große Datenspeicher, komplexe Abfragen und hohe Benutzerzahlen beeinträchtigen die Systemleistung deutlich – Beispiele: ASE, Microsoft SQL Server, Oracle, IBM • Parallele Verarbeitung – Abfragegeschwindigkeit und -flexibilität, aber erfordert signifikante Hardware-Ausgaben für die proprietäre Plattform. Eine komplexe Abfrage von einem Anwender wird alle beeinträchtigen – Beispiele: Teradata, Netezza • OLAP – Hohe Abfragegeschwindigkeit, aber niedrige Flexibilität – das Design erfordert ein tiefgehendes Verständnis für die Anforderungen Beispiele: Hyperion, Microsoft, Cognos Sybase IQ Abfragegeschwindigkeit und -flexibilität. Niedrige Hardware-Kosten für die StandardPlattform. Lineare Skalierbarkeit für die Unterstützung hoher Benutzerzahlen. 11 – Company Confidential – May 6, 2011 Leistungsfähigkeit von/ Skalierbarkeit der Analytics IT-Infrastruktur AUSFÜLLEN DER „ANALYTISCHEN LÜCKE“ „Analytische Lücke“ Potentielle Skalierbarkeit Anforderungen an Analytics IT-Infrastruktur 12 – Company Confidential – May 6, 2011 Mögliche analytische Fähigkeiten heutiger Systeme SYBASE IQS GEHEIME KERNZUTAT: SPALTENBASIERTE ARCHITEKTUR Konventionelle Datenbank c 1 c 2 c 3 c 4 c 5 c 6 c 7 c 8 c … 9 r1 • Daten werden horizontal gespeichert & abgerufen • Abfragen ohne Indizes und Sichten ist sehr I/O-intensiv • Bau von Indizes und Sichten ist ein großer Kosten- und Ressourcen-Faktor; und die Sichten/Zusammenfassungen stellen kein komplettes Bild dar r2 r3 r4 • Datenbank-Footprint muss dramatisch erweitert werden, um die Abfrageumgebung effizient zu gestalten r5 SYBASE IQ c 1 c 2 c 3 c 4 c 5 c 6 c 7 c 8 c … 9 • Daten werden vertikal gespeichert & abgerufen r1 • Jede Spalte wird separat gespeichert – die Daten sind der Index r2 • Nur Abruf der Spalten, die in dieser Abfrage benötigt werden r3 r4 r5 13 – Company Confidential – May 6, 2011 • Dramatische Reduzierung des System-I/Os – starke Erhöhung von Abfragegeschwindigkeit und -genauigkeit NIEDRIGSTER TCO DURCH DATENKOMPRIMIERUNG Konventionelle DBMS Dieselben INPUT-Daten: Konventionelles DW ist 3x-6x größer als Sybase IQ DW In Summe aggregiert 1 – 2 TB Indizes 0.5 – 3 TB INPUT-DATEN: 1 TB Quelle: flat files, ETL, Replikation, ODS LADEN Aggr/Summ: 0 - 0.1 TB LADEN 0.25 - 0.9 TB Indizes: 0.05 - 0.3 TB Basistabelle: 0.2 - 0.5 TB 14 – Company Confidential – May 6, 2011 Basistabelle „Rohe Daten” keine Indizes 0.9 – 1.1 TB 2.4-6 TB IN-DATABASE ANALYTICS: EIN NEUES PARADIGMA • Balance zwischen großen Datenvolumina, Durchsatz und Genauigkeit war schon immer eine große Herausforderung • Der konventionelle Rat: Suchen Sie sich zwei Ziele aus (oder nur eins) • Sybase IQ bietet eine analytische Plattform, die alle drei Ziele gleichzeitig erfüllt • Traditionelle Auflagen für Datenanalyse sind eliminiert 15 – Company Confidential – May 6, 2011 Genauigkeit Verarbeitungszeit DatenVolumen SYBASE IQ 15.X IN-DATABASE ANALYTICS – EINFACH SMARTER DIE KONVENTIONELLE ART Datenbank Daten Logik/Filter angewendet in Analytic Ergebnisse Workbench Servers Visualisierung Daten in Logik = LANGSAM + UMSTÄNDLICH • Daten verlassen NIE die Datenbank, bis die Ergebnisse materialisiert sind • Analytics-Code/-Models sind GEMEINSAM NUTZBAR und ermöglichen AD-HOC Analysen • Analytics-Code/-Models können auf die AKTUELLSTEN Daten-Sets angewendet werden DIE SYBASE METHODE Logik/Filter angewendet In-Database • STANDARD-basierter Zugriff, ERWEITERBARKEIT der In-Database Logik Ergebnisse Visualisierung Logik in Daten = SCHNELL + EFFIZIENT „Select myfunction(col1,col2) from payments“ 16 – Company Confidential – May 6, 2011 • Datenschutz-Politik ist garantiert • Deutliche PERFORMANCE und SKALIERBARKEIT -Verbesserungen • Durchschnittliche SQL-Experten können In-Database Analysemodelle kodieren GROßE DEUTSCHE BANK Reduzierung der P&L-Reporting-Zeit Reduzierung der Kosten für Hardware und Speicherplatz Herausforderung: P&L Report Aktion: 10-tägiger Test Ergebnis: 9x schneller Täglich/monatlich P&L alle Asset-Klassen Test hoch performanten Sybase IQ Spaltenspeicher Lineare Performance trotz Volumenwachstum Reports in 4:51 Stunden Alle Reports laufen über Sybase IQ Reports in 30 Minuten CPUs UNIX nur 30% ausgelastet Weniger CPUs erforderlich Kürzere Wartezeit auf Disk CPUs jetzt LINUX und 100% ausgelastet Notwendigkeit der Kostenreduzierung ca. 80% weniger Speicher ca. 60% weniger CPU Senkung der CPU- & Speicherkosten um 72% 17 – Company Confidential – May 6, 2011 GUTE REISE FÜR IHRE DATENANALYSE – NICHT NUR MIT DER RIVA ANALYSE SUITE 18 – Company Confidential – May 6, 2011