Data Warehouse und OLAP Stephan Karczewski Hochschule Darmstadt - Fachbereich Informatik Letzte Änderung: 27.09.2012 Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–1 Organisatorisches Überblick 1 Einführung & Grundbegriffe Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation und Laden Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation und Laden 5 Anfragen an Data Warehouses Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation und Laden 5 Anfragen an Data Warehouses 6 Speicherstrukturen Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation und Laden 5 Anfragen an Data Warehouses 6 Speicherstrukturen 7 Indexstrukturen Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation und Laden 5 Anfragen an Data Warehouses 6 Speicherstrukturen 7 Indexstrukturen 8 Anfrageverarbeitung und -optimierung Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation und Laden 5 Anfragen an Data Warehouses 6 Speicherstrukturen 7 Indexstrukturen 8 Anfrageverarbeitung und -optimierung 9 Materialisierte Sichten Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation und Laden 5 Anfragen an Data Warehouses 6 Speicherstrukturen 7 Indexstrukturen 8 Anfrageverarbeitung und -optimierung 9 Materialisierte Sichten 10 Business Intelligence Anwendungen Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation und Laden 5 Anfragen an Data Warehouses 6 Speicherstrukturen 7 Indexstrukturen 8 Anfrageverarbeitung und -optimierung 9 Materialisierte Sichten 10 Business Intelligence Anwendungen 11 Aktuelle Entwicklungen: Spaltenorientierte DBMS Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–2 Organisatorisches Zeiten, Ablauf, etc. Vorlesung I I I Dozent: Stephan Karczewski Infos (Zeiten, Räume) & Folienkopien unter https://www.fbi.hda.de/organisation/personen/karczewski-stephan.html Termin: F F mittwochs, 17:45 - 19:15 Uhr, D14/1.04 1. Termin: 10.10.2012 Praktikum I I I Praktikum: Stephan Karczewski / Yener Orkunoglu Scheinkriterien: Teilnahme und Bestehen aller Praktika! Termin: F F jeweils donnerstags, 16:00 - 19:15 Uhr, D15/2.02 (Gruppen s. OBS), 1. Termin: 25.10.2012 Prüfung I Klausur (90 Minuten), Termin: s. OBS Feedback, Fragen, . . . I Sprechzeiten: mittwochs, 16:30 - 17:30 Uhr Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–3 Organisatorisches Lehrbuch zur Veranstaltung Köppen, V.; Saake, G.; Saatler, K.-U.: Data Warehouse Technologien 1. Auflage, mitp-Verlag, 2012 336 Seiten, 29,95 e Exemplare sind für die Bibliothek bestellt. Vorlesungsmaterialien zu diesem Buch wurden von den Autoren für diese Veranstaltung zur Verfügung gestellt. Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–4 Organisatorisches Weitere Literatur W. Lehner. Datenbanktechnologie für Data-Warehouse-Systeme. dpunkt.verlag, Heidelberg, 2003 W.H. Inmon. Building the Data Warehouse. 4th Edition, Wiley & Sons, New York, 2005 A. Bauer, H. Günzel. Data Warehouse Systeme – Architektur, Entwicklung, Anwendung. 3. Auflage, dpunkt.verlag, Heidelberg, 2008 Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 0–5 Teil I Einführung Einführung Einführung & Grundbegriffe 1 Motivation Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–1 Einführung Einführung & Grundbegriffe 1 Motivation 2 Anwendungen Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–1 Einführung Einführung & Grundbegriffe 1 Motivation 2 Anwendungen 3 Abgrenzung Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–1 Einführung Einführung & Grundbegriffe 1 Motivation 2 Anwendungen 3 Abgrenzung 4 Begriff Data Warehouse Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–1 Einführung Einführung & Grundbegriffe 1 Motivation 2 Anwendungen 3 Abgrenzung 4 Begriff Data Warehouse 5 Themen Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–1 Einführung Einführung & Grundbegriffe 1 Motivation 2 Anwendungen 3 Abgrenzung 4 Begriff Data Warehouse 5 Themen 6 Benchmarks Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–1 Einführung Motivation Szenario: Keramische Werkstatt Controlling Marketing Daten Geschäftsführung Produkte Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–2 Einführung Motivation DB-Schema Produkt geliefert von Lieferant (0,*) kauft (0,*) Menge Kunde Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–3 Einführung Motivation DB-Nutzung Anfragen: I I I I Wie viele Tassen wurden letzten Monat verkauft? Wie hat sich der Verkauf von Teekannen im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? Von welchem Lieferanten beziehen wir größten Mengen Ton? Probleme I I Nutzung externer Quellen (Kundendatenbank, Lieferantendatenbank, . . . ) Daten mit zeitlichem Bezug Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–4 Einführung Motivation Erweitertes Szenario Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–5 Einführung Motivation DB-Nutzung (2) Anfragen I I I Verkaufen wir in Darmstadt mehr Teekannen als in Frankfurt? Wie viele Schalen wurden im Sommer (Juli, August, September) in ganz Hessen, verteilt auf die Regierungsbezirke, verkauft? Welches ist das in Wiesbaden im Dezember am häufigsten verkaufte Produkt? Problem I I I Anfragen über mehrere Datenbanken Angefragte Datenbanken sind von unterschiedlichen Herstellern Daten in den Datenbanken wurden unterschiedlich modelliert Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–6 Einführung Motivation Lösungen für die Aufteilung und Abfrage der Daten Variante 1: „Verteilte DB“ I I Globale Anfrage über mehrere DBs → Sicht mit Union Nachteil: aufwendige verteilte Anfrageausführung Variante 2: „Zentrale DB“ I I Änderungen über einer zentralen DB Nachteil: lange Antwortzeiten im operativen Betrieb Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–7 Einführung Motivation Data Warehouse-Lösung Frankfurt Darmstadt Wiesbaden Data Warehouse Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–8 Einführung Motivation Data Warehouse-Lösung Frankfurt Wiesbaden Darmstadt Redundante Datenhaltung Asynchrone Aktualisierung Stephan Karczewski Data Warehouse Data Warehouse und OLAP Transformierte, vorberechnete Daten Letzte Änderung: 27.09.2012 1–8 Einführung Motivation Gegenstand der Vorlesung Data Warehouse: Sammlung von Daten und Technologien zur Unterstützung von Entscheidungsprozessen Herausforderung an Datenbanktechnologien I I I Datenvolumen (effiziente Speicherung und Verwaltung, Anfragebearbeitung) Datenmodellierung (Zeitbezug, mehrere Dimensionen) Integration heterogener Datenbestände Schwerpunkt I Datenbanktechniken von Data Warehouses Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–9 Einführung Motivation Überblick Monitoring & Administration MetadatenRepository OLAP-Server Analyse Externe Quellen Data Warehouse ETL Query/ Reporting Entity Data Mining Operative Datenbanken OLAP-Server Data Marts Data Warehouse System Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–10 Einführung Anwendungen Betriebswirtschaftliche Anwendungen Informationsbereitstellung I I I I Daten und Informationen als Grundlage von Entscheidungen (z.B. Kennzahlen) Einfluss auf zukünftiges Betriebsergebnis und auf Abwicklung von Geschäftsprozessen Anwender: Manager, Abteilungsleiter, Fachkräfte Formen der Bereitstellung: F F F F F Query-Ansätze: frei definierbare Anfragen und Berichte (individuelle Lösungsstrategie) Reporting: Zugriff auf vordefinierte Berichte (fixes Lösungsangebot) Redaktionell aufbereitete, personalisierte Informationen Domänenspezifische Datensichten Vorberechnete Kenngrößen (z.B. durch Data Mining Algorithmen) Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–11 Einführung Anwendungen Betriebswirtschaftliche Anwendungen (2) Analyse I I I Detaillierte Analyse der Daten zur Untersuchung von Abweichungen oder Auffälligkeiten Szenariotechniken (What-If-Analysen) Anwender: Spezialisten (z.B. Controlling, Marketing) Planung I I I Unterstützung durch explorative Datenanalyse Aggregierung von Einzelplänen Prognoseverfahren (z.B. statistische saisonale Modelle) Kampagnenmanagement I I Unterstützung strategischer Kampagnen Kundenanalyse, Portfolio- und Risikoanalyse Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–12 Einführung Anwendungen Wissenschaftliche und Technische Anwendungen Wissenschaftliche Anwendungen I I Statistical und Scientific Databases → technische Wurzeln des DW Beispiel: Projekt Earth Observing System (Klima- und Umweltforschung) F F Täglich ca. 1,9 TB meteorologischer Daten Aufbereitung und Analyse (statistisch, Data Mining) Technische Anwendungen I öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten (z.B. Wasseranalysen) Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–13 Einführung Anwendungen Einsatzbeispiel Wal-Mart (www.wal-mart.com) Marktführer im amerikanischen Einzelhandel Unternehmensweites Data Warehouse I I I I Größe: ca. 300 TB (2003), 480 TB (2004), heute: geschätzt 8 PB Täglich etwa 20.000 DW-Anfragen Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten) Basis für Warenkorbanalyse, Kundenklassifizierung, . . . Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–14 Einführung Anwendungen Fragestellungen und Aufgaben (Bsp.) Überprüfung des Warensortiments zur Erkennung von Ladenhütern oder Verkaufsschlagern Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen Untersuchung und Prognose von Marketing-Aktionen Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc. Analyse des Lagerbestandes Warenkorbanalyse mit Hilfe der Kassendaten (wirt. Transaktionen) Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–15 Einführung Anwendungen Beispiel einer Anfrage Welche Umsätze sind in den Jahren 2010 und 2011 in den Warensegmenten Gebrauchsprodukte und Dekoprodukte in den Bundesländern Hessen und Thüringen angefallen? Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–16 Einführung Anwendungen Ergebnis (Würfel) 34 Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–17 Einführung Anwendungen Ergebnis (Würfel) Gesamt Deko Gebrauch 2010 34 2011 Gesamt Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–17 Einführung Anwendungen Ergebnis (Würfel) Umsatz in Thüringen in 2010 Produkt Gesamt Deko Gebrauch 2010 34 2011 Gesamt Zeitraum Region Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–17 Einführung Anwendungen Ergebnis (Würfel) Umsatz in Thüringen in 2010 Produkt Gesamt Deko Gebrauch 2010 34 2011 Dimensionen (Produkt, Zeitraum, Region) spannen den Würfel auf. Gesamt Zeitraum Region Stephan Karczewski Data Warehouse und OLAP Fakten sind Inhalte der Würfelelemente (z.B. Umsatz in Thüringen 2010) Letzte Änderung: 27.09.2012 1–17 Einführung Anwendungen Ergebnis (2-dim. Würfeldarstellung) Umsatz 2009 Hessen Thüringen Summe 2010 Hessen Thüringen Summe Gebrauch 45 34 97 60 58 118 Deko 32 21 53 37 20 57 Summe 77 55 132 97 78 175 In der 2-dimensionalen Darstellung sind 18 Zahlenwerte vorhanden, in der dreidimensionalen 27. Welche Zahlenwerte fehlen? Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–18 Einführung Abgrenzung Aspekte von Data Warehouses Integration I I Vereinigung von Daten aus verschiedenen, meist heterogenen Quellen überwindung der Heterogenität auf verschiedenen Ebenen (System, Schema, Daten) Analyse I I Bereitstellung der Daten in einer vom Anwender gewünschten Form (bezogen auf Entscheidungsgebiet) erfordert Vorauswahl, Zeitbezug, Aggregation Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–19 Einführung Abgrenzung Kurze Transaktion (OLTP) Kunde ID 4711 42 0800 Name Saake Sattler Köppen Vorname Gunter K. Veit SELECT vorname, name FROM Kunde WHERE id = 0800 Stephan Karczewski PLZ 01234 12345 60701 Ort Irgendwo Hier Dort Straße Am Berg 3 Zufahrt 18 Weg 9A Ergebnis Vorname Veit Name Köppen Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–20 Einführung Abgrenzung Langandauernde Transaktion (OLAP) SELECT DISTINCT ROW Zeit.Dimension AS Jahr, Produkt.Dimension AS Artikel, AVG(Fact.Umsatz) AS Umsatzdurchschnitt, Ort.Dimension AS Verkaufsgebiet FROM (Produktgruppe INNER JOIN Produkt ON Produktgruppe. [Gruppen-Nr] = Produkt.[Gruppen-ID]) INNER JOIN ((((Produkt INNER JOIN [Fact.Umsatz] ON Produkt.[Artikel-Nr] = [Fact.Umsatz].[Artikel-Nr]) INNER JOIN Order ON [Fact.Umsatz].[Bestell-Nr]= Order.[Order-ID]) INNER JOIN Zeit.Dimension ON Orders.[Order-ID] = Zeit.Dimension.[Order-ID]) INNER JOIN Ort.Dimension ON Order.[Order-ID] = Ort.Dimension.[Order-ID]) ON Produktgruppe.[Gruppen-Nr] = Produkt.[Gruppen-ID] GROUP BY Produkt.Dimension.Gruppenname, Ort.Dimension.Bundesland, Zeit.Dimension.Jahr; Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–21 Einführung Abgrenzung Abgrenzung zu OLTP Klassische operative Informationssysteme → Online Transactional Processing (OLTP) I I I Erfassung und Verwaltung von Daten Verarbeitung unter Verantwortung der jeweiligen Abteilung Transaktionale Verarbeitung: kurze Lese-/ Schreibzugriffe auf wenigen Datensätzen Data Warehouse → Online Analytical Processing (OLAP) I I I Analyse im Mittelpunkt Langandauernde Lesetransaktionen auf vielen Datensätzen Integration, Konsolidierung und Aggregation der Daten Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–22 Einführung Abgrenzung Abgrenzung zu OLTP: Anfragen Fokus Transaktionsdauer und -typ Anfragestruktur Datenvolumen einer Anfrage Datenmodell Stephan Karczewski OLTP Lesen, Schreiben, Modifizieren, Löschen kurze Lese- / Schreibtransaktionen einfach strukturiert wenige Datensätze OLAP Lesen, periodisches Hinzufügen langandauernde Lesetransaktionen komplex viele Datensätze anfrageflexibel analysebezogen Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–23 Einführung Abgrenzung Abgrenzung zu OLTP: Daten Datenquellen Eigenschaften Datenvolumen Zugriffe Stephan Karczewski OLTP meist eine nicht abgeleitet, zeitaktuell, autonom, dynamisch MByte . . . GByte Einzeltupelzugriff Data Warehouse und OLAP OLAP mehrere abgeleitet / konsolidiert, historisiert, integriert, stabil GByte . . . TByte . . . PByte Tabellenzugriff (spaltenweise) Letzte Änderung: 27.09.2012 1–24 Einführung Abgrenzung Abgrenzung zu OLTP: Anwender Anwenderzahl OLTP Ein-/Ausgabe durch Angestellte oder Applikationssoftware sehr viele Antwortzeit msecs . . . secs Anwendertyp Stephan Karczewski Data Warehouse und OLAP OLAP Manager, Analyst Controller, wenige (bis hundert) secs . . . min einige Letzte Änderung: 27.09.2012 1–25 Einführung Abgrenzung Abgrenzung: DBMS-Techniken Parallele Datenbanken I Technik zur Realisierung eines DWH Verteilte Datenbanken I I I I.d.R. keine redundante Datenhaltung Verteilung als Mittel zur Lastverteilung Keine inhaltliche Integration/Verdichtung der Daten Föderierte Datenbanken I I I Höhere Autonomie und Heterogenität Kein spezifischer Analysezweck Keine Lesezugriffoptimierung Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–26 Einführung Begriff Data Warehouse Data Warehouse: Begriff A Data Warehouse is a subject-oriented, integrated, non-volatile, and time variant collection of data in support of managements decisions. (W.H. Inmon 1996) Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–27 Einführung Begriff Data Warehouse Data Warehouse: Charakteristika Fachorientierung (subject-oriented): I I Zweck ist Unterstützung bereichsübergreifender Auswertungsmöglichkeiten für unterschiedliche Domänen Zentralisierte Bereitstellung der Daten über Geschäftsobjekte (Themen) Integrierte Datenbasis (integrated): I Verarbeitung von Daten aus mehreren verschiedenen (internen und externen) Datenquellen (z.B. operationalen DB oder Web) Nicht-flüchtige Datenbasis (non-volatile): I I stabile, persistente Datenbasis Daten im DW werden i. A. nicht mehr entfernt oder geändert Zeitbezogene Daten (time-variant): I I Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) Speicherung über längeren Zeitraum Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–28 Einführung Begriff Data Warehouse Weitere Begriffe Data Warehousing I Data-Warehouse-Prozess, d.h. alle Schritte der Datenbeschaffung (Extraktion, Transformation, Laden), des Speicherns und der Analyse Data Mart I I I externe (Teil-)Sicht auf das Data Warehouse durch Kopieren anwendungsbereichsspezifisch OLAP (Online Analytical Processing) I explorative, interaktive Analyse auf Basis des konzeptuellen Datenmodells Business Intelligence I Data Warehousing + Reporting + Analyse (OLAP, Data Mining); auch automatisch erzeugte Reports in Unternehmen Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–29 Einführung Begriff Data Warehouse Trennung operativer und analytischer Systeme: Gründe Antwortzeitverhalten: Analyse auf operativen Quelldatensystemen → schlechte Performance Historisierung der Unternehmensdaten Langfristige Speicherung der Daten → Zeitreihenanalyse Zugriff auf Daten unabhängig von operativen Datenquellen (Verfügbarkeit, Integrationsproblematik) Vereinheitlichung des Datenformats im DW Gewährleistung der Datenqualität im DW Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–30 Einführung Begriff Data Warehouse Historie: Wurzeln 60er Jahre: Executive Information Systems (EIS) I I I I qualitative Informationsversorgung von Entscheidern kleine, verdichtete Extrakte der operativen Datenbestände Aufbereitung in Form statischer Berichte Mainframe 80er Jahre: Management Information Systems (MIS) I I I meist statische Berichtsgeneratoren Einführung von Hierarchieebenen für Auswertung von Kennzahlen (Roll-Up, Drill-Down) Client-Server-Architekturen, GUI (Windows, Apple) Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–31 Einführung Begriff Data Warehouse Historie 1992: Einführung des Data-Warehouse-Konzeptes durch W.H. Inmon I I Redundante Haltung von Daten, losgelöst von Quellsystemen Beschränkung der Daten auf Analysezweck 1993: Definition des Begriffs OLAP durch E.F. Codd I Dynamische, multidimensionale Analyse Weitere Einflussgebiete I I I Verbreitung geschäftsprozessorientierter Transaktionssysteme (SAP R/3) → Bereitstellung von entscheidungsrelevanten Informationen Data Mining WWW (Web-enabled Data Warehouse etc.) Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–32 Einführung Themen Vorlesung: Zielstellungen Vermittlung von Kenntnissen zu Datenbanktechniken für Aufbau und Implementierung von Data Warehouses Anwendung bekannter DB-Techniken (siehe Vorlesung „Datenbanksysteme“) I I Datenmodellierung Anfragesprachen und -verarbeitung DW-spezifische Techniken I I I I I multidimensionale Datenmodellierung spezielle Anfragetechniken Indexstrukturen materialisierte Sichten Einsatzgebiete: Business Intelligence Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–33 Einführung Themen DW-Architektur Komponenten von DW und deren Aufgaben Datenbanken I I I I Datenquellen: Herkunftsort der Daten Datenbereinigungsbereich: temporäre Datenbank für Transformation Data Warehouse: physische Datenbank für Analyse Repository: Datenbank mit Metadaten Datenwürfel Datenquellen Extraktion Datenbereinigungsbereich Laden Basisdatenbank Befüllen Analyse Transformation Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–34 Einführung Themen DW-Architektur: Komponenten Data-Warehouse-Manager: zentrale Kontrolle und Steuerung Monitore: überwachung der Quellen auf Veränderungen Extraktoren: Selektion und Transport der Daten aus Quellen in Arbeitsbereich Transformatoren: Vereinheitlichung und Bereinigung der Daten Ladekomponenten: Laden der transformierten Daten in das DW Analysekomponenten: Analyse und Präsentation der Daten Datenfluss Kontrollfluss Ereignisse Monitor Stephan Karczewski Transformation DataWarehouseManager MetadatenManager Data Warehouse und OLAP Repository Letzte Änderung: 27.09.2012 1–35 Einführung Themen Multidimensionales Datenmodell Datenmodell zur Unterstützung der Analyse I I I Fakten und Dimensionen Klassifikationsschema Würfel Operationen: Pivotierung, Roll-Up, Drill-Down, Drill-Across, Slice und Dice Notationen zur konzeptuellen Modellierung Relationale Umsetzung I Star-Schema, Snowflake-Schema Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–36 Einführung Themen ETL-Prozess Prozess von Extraktion, Transformation und Laden Extraktion von Daten aus Quellen: I I I Operative Datenbanken, Web, Dateien, etc. Laden von Daten in das DWH Aspekte der Datenqualität I I I Begriff Probleme Data Cleaning Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–37 Einführung Themen Index- und Speicherstrukturen Klassifikation Wiederholung I B-Baum und B+-Baum Mehrdimensionale Indexstrukturen I I I I R-Baum UB-Baum Bitmap-Index Vergleich Weitere Formen Multidimensionale Speicherung Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–38 Einführung Themen Anfragen an Data Warehouses Gruppierung und Aggregation Supergroups, CUBE OLAP-Funktionen aus SQL:2003 Mehrdimensionale Erweiterungen von Anfragesprachen: MDX Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–39 Einführung Themen Anfrageverarbeitung und -optimierung Berechnung von Gruppierung und Cubes Star-Joins Weitere Optimierungsaspekte Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–40 Einführung Themen Materialisierte Sichten Materialisierte Sicht (engl. materialized view): vorab berechneter Ausschnitt aus einer Faktentabelle Verwendung: Anfrageersetzung Auswahl: Bestimmung der redundant gehaltenen Daten I I statische vs. dynamische Auswahlverfahren semantisches Caching Wartung und Aktualisierung Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–41 Einführung Themen Anwendungen für Data Warehouses Reporting Datenexploration I I I Klassifikation Warenkorbanalyse Prognose Anwendungsszenarien Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–42 Einführung Benchmarks TPC-Benchmarks Vergleich der Leistungsfähigkeit von Datenbanken (www.tpc.org) I I I I TPC-C: OLTP Benchmark TPC-H: Ad-hoc Decision Support (variable Anteile) TPC-R: Reporting Decision Support (feste Anfragen) TPC-W: eCommerce Transaktionsprocessing Vorgegebene Schemata (Lieferwesen) Schema-, Query- und Datengeneratoren Unterschiedliche DB-Größen I TPC-H: 100 GB - 300 GB - 1 TB - 3 TB -10 TB Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–43 Einführung Benchmarks TPC-H: Schema REGION NATION CUSTOMER SUPPLIER ORDERS PARTSUPP LINEITEM PART Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–44 Einführung Benchmarks TPC-H: Anfragen SELECT c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice, SUM (l_quantity) FROM customer, orders, lineitem WHERE o_orderkey IN (SELECT l_orderkey FROM lineitem GROUP BY l_orderkey HAVING SUM (l_quantity) > :1) AND c_custkey = o_custkey AND o_orderkey = l_orderkey GROUP BY c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice ORDER BY o_totalprice desc, o_orderdate Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–45 Einführung Benchmarks TPC-H: Zahlen (10.000 GB) - 2011 Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–46 Einführung Benchmarks Produkte OLAP-Tools/Server I MS Analysis Services, Hyperion, Cognos DW-Erweiterungen für RDBMS I Oracle11g, IBM DB2, MS SQL Server: SQL-Erweiterungen, Indexstrukturen, mat. Sichten, Bulk-Load/Insert, . . . BI Accelerator I I lese-optimierte DBS-Lösungen: Hauptspeicher-Verarbeitung, spaltenorientierte Datenorganisation, MapReduce-Techniken, Cluster-Architekturen z.B. SAP TREX, Greenplum, Vertica, EXASOL, . . . ETL-Tools I MS Integration Services, Oracle Warehouse Builder, . . . Stephan Karczewski Data Warehouse und OLAP Letzte Änderung: 27.09.2012 1–47