1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff „Data Warehouse“ DW-Architektur Benchmarks Sattler / Saake Data-Warehouse-Technologien 1 Szenario: Getränkemarkt Umsatz, Portfolio Sattler / Saake S Saufland Werbung Data-Warehouse-Technologien 2 DB-Schema Produkt kauft liefert Lieferant Menge Kunde Sattler / Saake Data-Warehouse-Technologien 3 DB-Nutzung Anfragen: Wie viele Flaschen Cola wurden letzten Monat verkauft? Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? Von welchem Lieferanten beziehen wir die meisten Kisten? Probleme Nutzung externer Quellen (Kundendatenbank, Lieferantendatenbank, …) Daten mit historischem Bezug Sattler / Saake Data-Warehouse-Technologien 4 Erweitertes Szenario Saufland Saufland Saufland Sattler / Saake Data-Warehouse-Technologien 5 DB-Nutzung /2 Anfragen Verkaufen wir in Ilmenau mehr Bier als in Erfurt? Wie viel Cola wurde im Sommer in ganz Thüringen verkauft? Mehr als Wasser? Problem Anfragen über mehrere Datenbanken Sattler / Saake Data-Warehouse-Technologien 6 Lösungen Variante 1: „Verteilte DB“ Globale Anfrage über mehrere DBs Sicht mit Union Nachteil: aufwändige verteilte Anfrageausführung Variante 2: „Zentrale DB“ Änderungen über einer zentralen DB Nachteil: lange Antwortzeiten im operativen Betrieb Sattler / Saake Data-Warehouse-Technologien 7 Data Warehouse-Lösung S Saufland S Saufland Asynchrone Aktualisierung DB Ilmenau S Saufland DB Erfurt DB Jena Redundante Datenhaltung, Transformierte, vorberechnete Daten Data Warehouse Sattler / Saake Data-Warehouse-Technologien 8 Gegenstand der Vorlesung Data Warehouse: Sammlung von Technologien zur Unterstützung von Entscheidungsprozessen Herausforderung an Datenbanktechnologien Datenvolumen (effiziente Speicherung und Verwaltung, Anfragebearbeitung) Datenmodellierung (Zeitbezug, mehrere Dimensionen) Integration heterogener Datenbestände Schwerpunkt Datenbanktechniken von Data Warehouses Sattler / Saake Data-Warehouse-Technologien 9 Überblick Monitoring & Administration OLAP-Server MetadatenRepository Data Warehouse Externe Quellen Operative Datenbanken Analyse Query/Reporting Extraktion Transformation Laden Data Mining Werkzeuge Data Marts Sattler / Saake Data-Warehouse-Technologien 10 Betriebswirtschaftliche Anwendungen Informationsbereitstellung Daten und Informationen als Grundlage einer erfolgreichen Abwicklung von Geschäftsprozessen (z.B. Kennzahlen) Anwender: Manager, Abteilungsleiter, Fachkräfte Formen der Bereitstellung Query-Ansätze: frei definierbare Anfragen und Berichte Reporting: Zugriff auf vordefinierte Berichte Redaktionell aufbereitete, personalisierte Informationen Sattler / Saake Data-Warehouse-Technologien 11 Betriebswirtschaftliche Anwendungen Analyse Detaillierte Analyse der Daten zur Untersuchung von Abweichungen oder Auffälligkeiten Anwender: Spezialisten (z.B. Controlling, Marketing) Planung Unterstützung durch explorative Datenanalyse Aggregrierung von Einzelplänen Kampagnenmanagement Unterstützung strategischer Kampagnen Kundenanalyse, Risikoanalyse Sattler / Saake Data-Warehouse-Technologien 12 Wissenschaftliche und Technische Anwendungen Wissenschaftliche Anwendungen Statistical und Scientific Databases technische Wurzeln des DW Beispiel: Projekt Earth Observing System (Klima- und Umweltforschung) täglich ca. 1,9 TB meteorologischer Daten Aufbereitung und Analyse (statistisch, Data Mining) Technische Anwendungen Öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten (z.B. Wasseranalysen) Sattler / Saake Data-Warehouse-Technologien 13 Einsatzbeispiel Wal-Mart (www.wal-mart.com) Marktführer im amerikanischen Einzelhandel Unternehmensweites Data Warehouse Größe: ca. 300 TB (2003) Täglich bis zu 20.000 DW-Anfragen Hoher Detaillierungsgrad (tägliche Auswertung von Artikelumsätzen, Lagerbestand, Kundenverhalten) Basis für Warenkorbanalyse, Kundenklassifizierung, ... Sattler / Saake Data-Warehouse-Technologien 14 Fragestellungen und Aufgaben (Bsp.) Überprüfung des Warensortiments zur Erkennung von Ladenhütern oder Verkaufsschlagern Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen Untersuchung der Wirksamkeit von Marketing-Aktionen Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc. Analyse des Lagerbestandes Warenkorbanalyse mit Hilfe der Kassenbons Sattler / Saake Data-Warehouse-Technologien 15 Beispiel einer Anfrage Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen Kosmetik, Elektro und Haushaltswaren in den Bundesländern Sachsen-Anhalt und Thüringen angefallen ? Sattler / Saake Data-Warehouse-Technologien 16 Ergebnis (Würfel) Produkt Summe Haushalt Elektro Kosmetik 1998 1999 Kennzahl Umsatz Summe Zeitraum n e s h Sac halt An Sattler / Saake - e en m g n m ri u ü S h T Region Data-Warehouse-Technologien 17 Ergebnis (Bericht) Umsatz 1998 1999 Kosmetik Elektro Haushalt SUMME Sachsen-Anhalt 45 123 17 185 Thüringen 43 131 21 195 SUMME 88 254 38 380 Sachsen-Anhalt 47 131 19 197 Thüringen 40 136 20 196 SUMME 87 267 39 393 175 521 77 773 SUMME Sattler / Saake Data-Warehouse-Technologien 18 Marktentwicklung Marktgröße: Data Warehouse und OLAP (Quelle: OLAP Report OnLine www.olapreport.com) 3,5 3 2,5 2 Mrd. Euro 1,5 1 0,5 0 Sattler / Saake 1994 1996 1998 2000 2002 Data-Warehouse-Technologien 19 Aspekte von Data Warehouses Integration Vereinigung von Daten aus verschiedenen, meist heterogenen Quellen Überwindung der Heterogenität auf verschiedenen Ebenen (System, Schema, Daten) Analyse Bereitstellung der Daten in einer vom Anwender gewünschten Form (bezogen auf Entscheidungsgebiet) erfordert Vorauswahl, Zeitbezug, Aggregation Sattler / Saake Data-Warehouse-Technologien 20 Abgrenzung zu OLTP Klassische operative Informationssysteme Online Transactional Processing (OLTP) Erfassung und Verwaltung von Daten Verabeitung unter Verantwortung der jeweiligen Abteilung Transaktionale Verarbeitung: kurze Lese-/ Schreibzugriffe auf wenige Datensätze Data Warehouse Analyse im Mittelpunkt lange Lesetransaktionen auf vielen Datensätzen Integration, Konsolidierung und Aggregation der Daten Sattler / Saake Data-Warehouse-Technologien 21 Abgrenzung zu OLTP: Anfragen Anfrage transaktional Fokus Lesen, Schreiben, Lesen, periodisches Modifizieren, Löschen Hinzufügen Transaktionsdauer und –typ kurze Lese-/ Schreibtransaktionen lange Lesetransaktionen Anfragestruktur einfach strukturiert komplex Datenvolumen einer Anfrage wenige Datensätze viele Datensätze Datenmodell anfrageflexibel analysebezogen Sattler / Saake Data-Warehouse-Technologien analytisch 22 Abgrenzung zu OLTP: Daten Daten transaktional analytisch Datenquellen meist eine mehrere Eigenschaften nicht abgeleitet, zeitaktuell, autonom, dynamisch abgeleitet/konsolidier t, nicht zeitaktuell, integriert, stabil Datenvolumen MByte ... GByte GByte ... TByte Zugriffe Einzeltupelzugriff Tabellenzugriff Sattler / Saake Data-Warehouse-Technologien 23 Abgrenzung zu OLTP: Anwender Anwender transaktional analytisch Anwendertyp Ein-/Ausgabe durch Angestellte oder Applikationssoftware Manager, Controller Analyst Anwenderzahl sehr viele wenige (bis einige hundert) Antwortzeit ms ... sec sec ... min Sattler / Saake Data-Warehouse-Technologien 24 Abgrenzung: DBMS-Techniken Parallele Datenbanken Technik zur Realisierung eines DWH Verteilte Datenbanken I.d.R. keine redundante Datenhaltung Verteilung als Mittel zur Lastverteilung Keine inhaltliche Integration/Verdichtung der Daten Föderierte Datenbanken Höhere Autonomie und Heterogenität Kein spezifischer Analysezweck Sattler / Saake Data-Warehouse-Technologien 25 Data Warehouse: Begriff A Data Warehouse is a subjectoriented, integrated, non-volatile, and time variant collection of data in support of managements decisions. (W.H. Inmon 1996) Sattler / Saake Data-Warehouse-Technologien 26 Data Warehouse: Charakteristika Fachorientierung (subject-oriented): Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels Integrierte Datenbasis (integrated): Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und extern) Nicht-flüchtige Datenbasis (non-volatile): stabile, persistente Datenbasis Daten im DW werden nicht mehr entfernt oder geändert Historische Daten (time-variant): Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) Speicherung über längeren Zeitraum Sattler / Saake Data-Warehouse-Technologien 27 Weitere Begriffe Data Warehousing Data-Warehouse-Prozess, d.h. alle Schritte der Datenbeschaffung (Extraktion, Transformation, Laden), des Speicherns und der Analyse Data Mart externe (Teil-)Sicht auf das Data Warehouse durch Kopieren anwendungsbereichsspezifisch OLAP (Online Analytical Processing) explorative, interaktive Analyse auf Basis des konzeptuellen Datenmodells Sattler / Saake Data-Warehouse-Technologien 28 Trennung operativer und analytischer Systeme Gründe Antwortzeitverhalten: Analyse auf operativen Quelldatensystemen schlechte Performance, Langfristige Speicherung der Daten Zeitreihenanalyse Zugriff auf Daten unabhängig von operativen Datenquellen (Verfügbarkeit, Integrationsproblematik) Vereinheitlichung des Datenformats im DW Gewährleistung der Datenqualität im DW Sattler / Saake Data-Warehouse-Technologien 29 Historie Wurzeln 60er Jahre: Executive Information Systems (EIS) qualitative Informationsversorgung von Entscheidern kleine, verdichtete Extrakte der operativen Datenbestände Aufbereitung in Form statischer Berichte Mainframe 80er Jahre: Management Information Systems (MIS) meist statische Berichtsgeneratoren Einführung von Hierarchieebenen für Auswertung von Kennzahlen (Roll-Up, Drill-Down) Client-Server-Architekturen, GUI (Windows, Apple) Sattler / Saake Data-Warehouse-Technologien 30 Historie 1992: Einführung des Data-Warehouse-Konzeptes durch W.H. Inmon redundante Haltung von Daten, losgelöst von Quellsystemen Beschränkung der Daten auf Analysezweck 1993: Definition des Begriffs OLAP durch E.F. Codd Dynamische, multidimensionale Analyse Weitere Einflussgebiete Verbreitung geschäftsprozeßorientierter Transaktionssysteme (SAP R/3) Bereitstellung von entscheidungsrelevanten Informationen Data Mining WWW (Web-enabled Data Warehouse etc.) Sattler / Saake Data-Warehouse-Technologien 31 Vorlesung: Zielstellungen Vermittlung von Kenntnissen zu Datenbanktechniken für Aufbau und Implementierung von Data Warehouses Anwendung bekannter DB-Techniken (siehe Vorlesung „Datenbanken I“) Datenmodellierung, Anfragesprachen und -verarbeitung DW-spezifische Techniken multidimensionale Datenmodellierung spezielle Anfragetechniken Indexstrukturen materialisierte Sichten Sattler / Saake Data-Warehouse-Technologien 32 DW-Architektur Komponenten von DW und deren Aufgaben Datenbanken Datenquellen: Herkunftsort der Daten Arbeitsbereich: temporäre Datenbank für Transformation Data Warehouse: physische Datenbank für Analyse Repository: Datenbank mit Metadaten Sattler / Saake Data-Warehouse-Technologien 33 DW-Architektur Komponenten Data-Warehouse-Manager: zentrale Kontrolle und Steuerung Monitore: Überwachung der Quellen auf Veränderungen Extraktoren: Selektion und Transport der Daten aus Quellen in Arbeitsbereich Transformatoren: Vereinheitlichung und Bereinigung der Daten Ladekomponenten: Laden der transformierten Daten in das DW Analysekomponenten: Analyse und Präsentation der Daten Sattler / Saake Data-Warehouse-Technologien 34 Multidimensionales Datenmodell Datenmodell zur Unterstützung der Analyse Fakten und Dimensionen Klassifikationsschema Würfel Operationen: Pivotierung, Roll-Up, Drill-Down, Drill-Across, Slice und Dice Notationen zur konzeptuellen Modellierung Relationale Umsetzung Star-Schema, Snowflake-Schema Multidimensionale Speicherung Sattler / Saake Data-Warehouse-Technologien 35 Anfrageverarbeitung und -optimierung Gruppierung und Aggregation Supergroups, CUBE OLAP-Funktionen aus SQL:1999 Star-Joins Optimierungsaspekte Histogramme, Sampling Mehrdimensionale Erweiterungen von Anfragesprachen MDX Sattler / Saake Data-Warehouse-Technologien 36 Index- und Speicherungsstrukturen Klassifikation Wiederholung: B-Baum und B*-Baum Mehrdimensionale Indexstrukturen R-Baum UB-Baum Bitmap-Index Vergleich Multidimensionale Speicherung Sattler / Saake Data-Warehouse-Technologien 37 Materialisierte Sichten Materialisierte Sicht (engl. materialized view): vorab berechneter Ausschnitt aus einer Faktentabelle Verwendung: Anfrageersetzung generalized projection Auswahl: Bestimmung der redundant gehaltenen Daten statische vs. dynamische Auswahlverfahren Semantisches Caching Wartung und Aktualisierung Sattler / Saake Data-Warehouse-Technologien 38 Metadaten und Datenqualität Metadatenmanagement Metadaten-Repository Standards für Metadaten Aspekte der Datenqualität Sattler / Saake Data-Warehouse-Technologien 39 OLAP und Data Mining OLAP Anforderungen OLAP-Operationen OLAP-Werkzeuge Data-Mining-Technikem Klassifikation, Assoziationsregeln, Clustering Sattler / Saake Data-Warehouse-Technologien 40 TPC-Benchmarks Vergleich der Leistungsfähigkeit von Datenbanken (www.tpc.org) TPC-C: OLTP Benchmark TPC-H: Ad-hoc Decision Support (variable Anteile) TPC-R: Reporting Decision Support (feste Anfragen) TPC-W: eCommerce Transaktionsprocessing Vorgegebene Schemata (Lieferwesen) Schema-, Query- und Datengeneratoren Unterschiedliche DB-Größen TPC-H: 100 GB - 300 GB - 1 TB - 3 TB Sattler / Saake Data-Warehouse-Technologien 41 TPC-H: Schema REGION REGION 1 N 1 N NATION NATION 1 N 1 CUSTOMER N 1 N SUPPLIER ORDERS 1 1 N N PART Sattler / Saake 1 N PARTSUPP 1 N LINEITEM Data-Warehouse-Technologien 42 TPC-H: Anfragen SELECT c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice, SUM(l_quantity) FROM customer, orders, lineitem WHERE o_orderkey IN (SELECT l_orderkey FROM lineitem GROUP BY l_orderkey HAVING SUM(l_quantity) > :1) AND c_custkey = o_custkey AND o_orderkey = l_orderkey GROUP BY c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice ORDER BY o_totalprice desc, o_orderdate; Sattler / Saake Data-Warehouse-Technologien 43 TPC-H: Zahlen (100 GB) Sattler / Saake Data-Warehouse-Technologien 44 TPC-H: Zahlen (3.000 GB) Sattler / Saake Data-Warehouse-Technologien 45 Produkte OLAP-Tools/Server MS Analysis Services, Hyperion, Cognos DW-Erweiterungen für RDBMS Oracle9i, IBM DB2, MS SQL Server: SQLErweiterungen, Indexstrukturen, mat. Sichten, Bulk-Load/Insert, … ETL-Tools MS Data Transformation Services, … Sattler / Saake Data-Warehouse-Technologien 46 Literatur Lehner: „Datenbanktechnologie für DataWarehouse-Systeme“, dpunkt.verlag, 2003 Inmon: „Building the Data Warehouse“, John Wiley & Sons, 1996 Bauer, Günzel (Hrg.): Data Warehouse – Architektur, Entwicklung, Anwendung; dpunkt.verlag, 2000 Westerman: „Data Warehousing: Using the Wal-Mart Model“, Morgan Kaufman, 2000 Kurz: Data Warehousing: Enabling Technology; MITP, 1999 Sattler / Saake Data-Warehouse-Technologien 47