Datenintegration und -analyse 9. DWH/BI Trends © Prof. Dr.-Ing. Wolfgang Lehner | > Motivation “If you are looking for a career where your services will be in high demand, you should find something where you provide a scarce, complementary service to something that is getting ubiquitous and cheap. So what's getting ubiquitous and cheap? Data. And what is complementary to data? Analysis.” Prof. Hal R. Varian, UC Berkeley, Chief Economist at Google [Jeffrey Cohen, Brian Dolan, Mark Dunlap, Joseph M. Hellerstein, Caleb Welton: MAD Skills: New Analysis Practices for Big Data. PVLDB, 2009.] © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 2 > Gliederung Motivation und Neue Anforderungen Evolution des DWHs Advanced Analytics Operational BI und Real-Time ETL Situational BI MAD Skills Magnetic Agile Deep Technische Trends und Herausforderungen Hybrid Storage Schemaflexible Datenverwaltung Integrierte Advanced Analytics Skalierbarkeit © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 3 > Motivation und Neue Anforderungen © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 4 > Motivation Evolution von DWH Anwendungen Trend 1: Advanced Analytics Trend 2: Operational BI Reporting Analysis What did happen? Why did it happen? What will happen? What happens right now? Increasing number of ad-hoc queries. Extension of the analytical model (advanced analytics). Continuous streams of ad-hoc queries and propagated updates. Create reports with pre-defined queries. Step 1 Step 2 Batch © Prof. Dr.-Ing. Wolfgang Lehner | Forecasting Step 4 Step 3 Adhoc Operational BI Analytics Updates 9 Exkurs: DWH/BI Trends | 5 > Advanced Analytics Advanced Data Analytics Analysis Scenarios How many female WWF fans under the age of 30 visited the Toyota community over the last 4 days and saw a Class A ad? How are these people similar to those that visited Nissan? 31 29 38 22 42 26 19 14 11 Traditional Data Analytics © Prof. Dr.-Ing. Wolfgang Lehner | Beispiele für Advanced Analytics Klassenbildung (Clustering) Klassifikation Zeitreihenvorhersage (Forecasting) Assoziationsregeln 9 Exkurs: DWH/BI Trends | 6 > Operational BI operativ taktisch strategisch Zeithorizont Art der Entscheidung Entscheidungsebene Datenlatenz Datenquellen • viele unterschiedliche Quellen • auch unstrukturiert • aggregiert • langfristig • Unternehmenspolitik • breit • Unternehmen • hoch, historische Daten • zeitraumbezogen • mittelfristig • Kontrolle und Umsetzung von Unternehmenszielen • relativ breit • Unternehmen, Abteilungen • eher hoch • historisch und zeitpunktbezogen • viele Quellen • strukturiert und semistrukturiert • schwach aggregiert • kurzfristig • Preisbildung • Vertragskonditionen • teilw. automatisierbar • fokussiert • einzelne Prozesse • niedrig, operative Daten • zeitpunktbezogen • wenige Quellen • hoher Detailgrad • strukturiert © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 7 > Der Begriff „Echtzeit“ Klassisches Verständnis Ergebnis innerhalb eines definierten Zeitraums garantiert (harte Echtzeit) Zeitraum darf verpasst werden (weiche Echtzeit) Begriff im Kontext von Data Warehouses zeitnahe Abbildung der Diskurswelt in das Data Warehouse schnelle Anfrageverarbeitung Alternative Begriffe: Right-Time, Near-Real-Time oder Living Data Warehouse © Prof. Dr.-Ing. Wolfgang Lehner | Datenverzögerung Anfrageverzögerung Datenintegration Anfrageverarbeitung Erkenntnis, Entscheid und Umsetzung Ereignis B Ereignis A Informationsverzögerung | 8 > Verwandte Arbeiten und Techniken Anfrageverzögerung Datenverzögerung Verwandte Arbeiten und Techniken Change Data Capture Logische und physische Optimierung von ETLProzessen Schnelles Laden unter Konsistenzerhalt Inkrementelle Wartung materialisierter Sichten Dynamische Ablaufplanung Spaltenorientierte Datenbanksysteme © Prof. Dr.-Ing. Wolfgang Lehner | Hauptspeicherdatenbanken (Kompression) BitmapIndizes Materialisierte Sichten Alternative HW (GPU, FPGA) Star-JoinOptimierungen Parallelisierung (MPP) | 9 > State-of-the-Art Ad-Hoc Queries Hohe Performance für ad-hoc OLAP-Anfragen Column-Stores In-Memory Datenbanken Parallelisierung Hohe Performance für kontinuierlichen Strom von Updates periodical merge write-optimized tmp store Zusätzlicher Temp-Store Periodischer Merge in den Column-Store read-optimized schema and storage Was ist mit Punktanfragen? Beispiele SAP BWA (Sybase IQ) MonetDB, C-Store © Prof. Dr.-Ing. Wolfgang Lehner | Updates (Trickle Feed) Ziel: System mit balancierter read/write performance 9 Exkurs: DWH/BI Trends | 10 > State-of-the-Art (2) Ziele Hohe Lese-Performance für analytische und operationale ad-hoc Anfragen Hohe Schreib-Performance für kontinuierlichen Strom von Aktualisierungen bzw. Einfügeoperationen Problem des Mix aus OLTP und OLAP Anfragen DWH optimiert für OLAP Arbeitslast mit scan-intensiven Aggregationsanfragen Problem der hohen Update-Raten Kontinuierlicher Strom von Aktualisierungen in lese-optimierten DWH Infrastrukturen OLTP Anfragen werden durch OLAP-zentrische Lese-Optimierung beeinträchtigt (State-of-the-Art ist noch nicht ausreichend) © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 11 > Überblick Trends (1) Advanced Analytics Operational BI Trends und Anforderungen der Anwendungsebene © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 12 > Situational BI Today Query: „customers from country with GDP greater $1B“ local data warehouse schema © Prof. Dr.-Ing. Wolfgang Lehner | external data sources, e.g. open data | 13 > Situational BI – Spreadmarts Spreadmarts QlikTech Qlikview , Tableau Desktop, Panoratio PANOSight, Comma Soft Infonea Cube, HumanIT InfoZoom, PivotLink, …. Microsoft PowerPivot für Excel 2010 (Projektname „Gemini“) Excel-Plugin zur Datenanalyse Großer Datenmengen, 100 Mio. Tupel und mehr Keine vordefinierte Datenmodelle und -strukturen Frei von Dimensionen, Hierarchien, Kennzahlen, Cubes, MDX,… 500 Millionen Excel-Nutzer weltweit in wenigen Jahren 500 Millionen OLAP-Entwickler (“BI for the masses”)? http://www.powerpivot.com Fachbereich Data Marts Data Warehouse Konsolidierte Basisdaten oder ??? Arbeitsbereich Quellsysteme © Prof. Dr.-Ing. Wolfgang Lehner | … … Fremdsysteme 9 Exkurs: DWH/BI Trends | 14 > Situational BI – Mashups Mashups bestehende Inhalte miteinander verbinden, neue Inhalte oder Dienste generieren Datenintegration und -analysen „on the fly“ Information Mashup Layer / Mashup Fabric Open Mashup Alliance (Konsortium aus JackBe, HP, Intel, Adobe, …) Open-source Enterprise Mashup Markup Language (EMML) Deklarative, XML-basierte Sprache Datenformate: XML, JSON, JDBC, Java-Objekt und primitive Datentypen Komplementiert durch JavaScript, Java Vorteil IT Wiederverwendbarkeit Geringere Redundanz Einfache (Re-)integration Mashups als definierte Anforderungsanalyse BI-Prosumenten Privat Dienstanbieter Unternehmen 1 BI-Mashup-Plattform 2 MashupErstellung Kollaboration Visualisierung Abrechnungsmodelle Skalierbare Datenmanagementplattform/ Cloud © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 15 > Situation BI Diskussion Ad-hoc Datenintegration Kosten Realisierung durch + - IT Fachbereich • Abschaltung von Spreadmarts • Verpflichtung zu IT-Standards • Werkzeugunterstützung, Spreadmarts • Mashups, Cloud, SOA - • Kompetenzcenter • Cooperate Memory • Agile Entwicklung (Scrum, Extreme Programming) • Mashups, SOA, Cloud Dynamik der Änderung seitens des Fachbereichs © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 16 > Überblick Trends (2) Advanced Analytics Operational BI Trends und Anforderungen der Anwendungsebene Situational BI © Prof. Dr.-Ing. Wolfgang Lehner | (Ad-hoc Advanced Analytics und Datenintegration) 9 Exkurs: DWH/BI Trends | 17 > MAD Skills [Jeffrey Cohen, Brian Dolan, Mark Dunlap, Joseph M. Hellerstein, Caleb Welton: MAD Skills: New Analysis Practices for Big Data. PVLDB 2009] © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 18 > Motivation In the days of Kings and Priests Computers and Data: Crown Jewels Executives depend on computers But cannot work with them directly The DBA “Priesthood” And their Acronymia: EDW, BI, OLAP The architected Enterprise DWH Rational behavior…for a bygone era “There is no point in bringing data … into the data warehouse environment without integrating it.” —Bill Inmon, Building the Data Warehouse, 2005 © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 19 > Motivation (2) New Realities TB disks < $100 Everything is data Rise of data-driven culture Very publicly espoused by Google, Wired, etc. Sloan Digital Sky Survey, Terraserver, etc. The quest for knowledge used to begin with grand theories. Now it begins with massive amounts of data. Welcome to the Petabyte Age. © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 20 > MAD Skills Magnetic „Attract data and practitioners“ Nutzung aller verfügbaren Datenquellen unabhängig von der Datenqualität Agile „Rapid iteration: ingest, analyze, productionalize“ Kontinuierliche und schnelle Evolution der physischen und logischen Strukturen ELT (Extraction, Loading, Transformation) Deep „Sophisticated analytics in Big Data“ Erweiterte algorithmische Laufzeitumgebung Ad-hoc Advanced Analytics und Statistik © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 21 > DWH Nutzung Zyklus der Datenanalyse Analysts trump DBAs They are data magnets They tolerate and clean dirty data They like all the data (no samples/extracts) They produce data “In sum, a healthy business should not assume an architected data warehouse, but rather an evolving structure that iterates through a continuing cycle of change” MAD Modellierung und Nutzung 1. The business performs analytics to identify areas of potential improvement. 2. The business either reacts to or ignores this analysis. 3. A reaction results in new or different business practices that typically generate new data sets. 4. Analysts incorporate new data sets into their models. 5. The business again asks itself ”How can we improve?" © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 22 > Überblick Trends (3) Advanced Analytics Operational BI Trends und Anforderungen der Anwendungsebene Anforderungen an die Datenverarbeitung © Prof. Dr.-Ing. Wolfgang Lehner | Situational BI (Ad-hoc Advanced Analytics und Datenintegration) MAD Skills (Magnetic Agile Deep on big data) 9 Exkurs: DWH/BI Trends | 23 > Technische Trends und Herausforderungen © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 24 > Hybrid Storage - Strategien Ziele Hohe Lese-Performance für analytische und operationale ad-hoc Anfragen Hohe Schreib-Performance für kontinuierlichen Strom von Aktualisierungen Magnetic Agile Deep Kombination von Storage Engines Manuelle Auswahl des Physischen Designs (Row, Column) auf Tabellengranularität Alternativ: Replikation und Auswahl durch Anfrageoptimierer Read/Write Stores [Alfons Kemper, Thomas Neumann: HyPer: A hybrid OLTP&OLAP main memory database system based on virtual memory snapshots. ICDE 2011:195-206] Column-Store (leseoptimiert) in Kombination mit Write-Store (siehe State-of-the-Art) Behebt Problem der kontinuierlichen Updates, jedoch Problem von Punktanfragen Chunks Zusätzlich zu Read/Write Stores Horizontale Fragmentierung der Columns in Chunks (Punktanfragen müssen nur noch Chunk scannen) Horizontale und Vertikale Fragmentierung / Partitionierung © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 25 > Hybrid Storage - Ausblick Beobachtung Column-Stores und Row-Stores haben Vorteile und Nachteile Magnetic Agile Deep Logische Konsequenz? Column-Store a1 a2 a3 a4 b1 b2 b3 b4 c1 c2 c3 c4 d1 d2 d3 d4 Row-Store e1 e2 e3 e4 [Martin Grund, Jens Krüger, Hasso Plattner, Alexander Zeier, Philippe CudréMauroux, Samuel Madden: HYRISE - A Main Memory Hybrid Storage Engine. PVLDB 4(2):105-116 (2010)] a1 b1 c1 d1 e1 Gibt es etwas dazwischen? a2 b2 c2 d2 e2 a3 b3 c3 d3 e3 a1 a2 a3 a4 b1 b2 b3 b4 c1 c2 c3 c4 d1 d2 d3 d4 e1 e2 e3 e4 a4 b4 c4 d4 e4 Finde die optimale vertikale (und horizontale) Fragmentierung in Bezug auf die aktuelle Arbeitslast des Systems. ein bekanntes aber ungelöstes Problem © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 26 > Schema Flexibility Beobachtungen Magnetic Agile Vielzahl von agilen Anwendungen mit fast permanenten Überarbeitung, Erweiterung Hohe Dynamik der logische Struktur der Daten Beispiele: flexible BI-Anwendungen, ELT, e-Science Ansätze Key-Stores (Key/Value-Paare) – Anwendung übernimmt die Datenverwaltung RDF-Datenbanken (semantische Ablage der Daten in allgemeinster Form) Multi-Tenancy Datenbanken Verwaltung dünnbesetzter Datenräume (effiziente Speicherung) Beispiele © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 27 > Integrated Data Analytics Deep Big Data Integration von Advanced Analytics in skalierbare Datenmanagementsysteme Statistik Systeme i.d.R. nicht skalierbar Unterstützung von „Deep Analytics“ auf Massendaten erforderlich Integration existierender Algorithmen mit Fokus auf Systemarchitektur Mehrsprachige Entwicklung SQL oder Map Reduce Sequentieller Code in unterschiedlichen Sprachen Beispiele: Perl, Python, Java, R Beispiele Sampling, Clustering (VL 11), Forecasting (VL 12), Klassifikation (VL13), Assoziationsregeln (VL 14) Ricardo: Integrating R and Hadoop (im Rahmen der „IBM eXtreme Analytics Platform (XAP)“) Zerlegung von Algorithmen und Ausführung mit R bzw. Hadoop © Prof. Dr.-Ing. Wolfgang Lehner | [Sudipto Das, Yannis Sismanis, Kevin S. Beyer, Rainer Gemulla, Peter J. Haas, John McPherson: Ricardo: integrating R and Hadoop. SIGMOD 2010] 9 Exkurs: DWH/BI Trends | 28 > Scalability Deep Big Data Virtualisierung Multi-Tenancy (N:1) Lastbalancierung (1:N, N:1) Ressourcen: Storage, CPU, Memory / Betriebssystem, DBMS Heterogene Hardwarearchitekturen (CPU vs. GPU vs. FPGA / Mem vs. Flash vs. Disk) Parallelisierung Operational Web-Scale DM (z.B. DHT) Analytical Web-Scale DM (Map Reduce, Hadoop, Dryad, HadoopDB (Hybrid)) Erweiterungen auf Basis des analytischen Verarbeitungsmodells aber Spezifikation mit Skriptsprachen: Sawzall, PigLatin, Scope Siehe „Web-Scale Data Management“ Anfrageoptimierung Parallelisierung von Anfragen (Multi-Core, Many-Core, SIMD, etc.) Shared Scans: Kontinuierlicher DB-Scan und Vergleich mit mehreren Anfragen Multi-Query Optimization (z.B: Transient Views, Recycling Intermediates, etc.) Adaptive Query Processing / Constant Time Query Processing / Robust Plans © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 29 > Überblick Trends (4) Advanced Analytics Operational BI Trends und Anforderungen der Anwendungsebene Anforderungen an die Datenverarbeitung Trends der Datenverarbeitung © Prof. Dr.-Ing. Wolfgang Lehner | Situational BI (Ad-hoc Advanced Analytics und Datenintegration) MAD Skills (Magnetic Agile Deep on big data) Hybrid Storage Schema Flexibility Scalability Integrated Advanced Analytics 9 Exkurs: DWH/BI Trends | 30 > Zusammenfassung Motivation und Neue Anforderungen Evolution des DWHs Advanced Analytics Operational BI und Real-Time ETL Situational BI MAD Skills Magnetic Agile Deep Technische Trends und Herausforderungen Hybrid Storage Schemaflexible Datenverwaltung Integrierte Advanced Analytics Skalierbarkeit © Prof. Dr.-Ing. Wolfgang Lehner | 9 Exkurs: DWH/BI Trends | 31 > LV Datenintegration- und Analyse Teil 3: Anwendung: Data Mining Überblick der Vorlesung 10 11 12 13 14 15 0 Prolog und Organisatorisches 1 Einführung und Klassifikation Einführung KDD-Prozess Clustering Forecasting Klassifikation Assoziationsregeln Zusammenfassung AP 1 Teil 1: Datenbeschaffung und -konsolidierung 2 3 4 5 Architektur Data Warehouse Multidimensionale Modellierung Relationale Abbildung Daten- und Schemaintegration © Prof. Dr.-Ing. Wolfgang Lehner | AP 2 SQL/OLAP Erweiterungen Fragmentierung/Partitionierung Materialisierte Sichten DWH Trends/Hybride Systeme DWH S1 S2 Teil 2: Datenbereitstellung und -analyse 6 7 8 9 S3 9 Exkurs: DWH/BI Trends | 32