Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Themenblock: Data Warehousing (I) Praktikum: Data Warehousing und Data Mining Praktikum Data Warehousing und Mining, Sommersemester 2009 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales M ltidi i l D Datenmodell t d ll • Konzeptionelle Modellierung • Relationale Umsetzung des multidim. multidim Modells Praktikum Data Warehousing und Mining, Sommersemester 2009 2 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Eigenschaften eines Data Warehouse • Integrierte Sicht auf beliebige Daten • …aus verschiedenen Datenbanken • …Integration von Schemata und Daten aus Quellen • Analyseaspekt • …multidimensionales Datenmodell • …Online Analytical Processing (OLAP) • Stabile Datenbasis • Eingebrachte Daten werden nicht mehr modifiziert • Neue Daten können aufgenommen werden • Data-Warehouse-System • Komponenten zur Integration und Analyse + Data Warehouse Praktikum Data Warehousing und Mining, Sommersemester 2009 3 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Referenzarchitektur Praktikum Data Warehousing und Mining, Sommersemester 2009 4 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Data Warehouse Prozess Data-Warehouse-Prozess • Monitoring • Entdecken und Melden von Änderungen in den Quellen • Extraktion • Selektion und Transport von Daten aus den Quellen in den Arbeitsbereich • Transformation • Vereinheitlichung, Bereinigung, Integration, Konsolidierung, Aggregierung und Ergänzung der Daten im Arbeitsbereich • Laden • Laden der Daten aus dem Arbeitsbereich in die Basisdatenbank bzw. ins Data Warehouse • Analyse • Analyse und Präsentation der Daten im Data Warehouse Praktikum Data Warehousing und Mining, Sommersemester 2009 5 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Vereinfachte Sicht auf die Referenzarchitektur Extraktion Transformation Laden Analyse Data Warehouse Operative Datenbanken OLAP Server Praktikum Data Warehousing und Mining, Sommersemester 2009 6 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Fokus im Praktikum Unser Fokus Extraktion Transformation Laden Analyse Data Warehouse Operative Datenbanken OLAP Server Praktikum Data Warehousing und Mining, Sommersemester 2009 7 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Fokus im Praktikum - Analysephase • Unterschiedliche Ansätze: • O Online e Transactional a sact o a Processing ocess g (O (OLTP))– Themenkomplex I, Heute • Zugriff auf vorhandenen Datenbestand • Nutzung von Datenmanipulationssprachen (z.B. SQL) • „Wieviele Einheiten von Artikel X wurden in Filiale Y im Jahr Z verkauft?“ verkauft? • Online Analytical Processing (OLAP) – Themenkomplex II • Anpassung des Datenbestands an die Analyse • Suche nach neuen oder unerwarteten Beziehungen zwischen V i bl Variablen • „In welcher Stadt macht Produktgruppe X den größten Umsatz?“ • Data Mining g – bisher • Suche nach Mustern im Datenbestand • „Wie ist die Entwicklung des Absatzes der Produktgruppen im Jahresverlauf?“ Praktikum Data Warehousing und Mining, Sommersemester 2009 8 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Data Access • Tools: • Anfragesprachen (z.B. SQL) – jetzt • Lesen von Daten • Arithmetische Operationen auf Daten • Keine Präsentationsmöglichkeit • Reporting Tools (z.B. Cognos) – Themenkomplex II • Lesen der Daten • Anreicherung der Daten durch arithmetische Operationen • Präsentation der Daten in Berichten • Unterstützung von Ampelfunktionalität Praktikum Data Warehousing und Mining, Sommersemester 2009 9 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales M ltidi i l D Datenmodell t d ll • Konzeptionelle Modellierung • Relationale Umsetzung des multidim multidim. Modells Praktikum Data Warehousing und Mining, Sommersemester 2009 10 11 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm OLTP vs. OLAP (Datenbank vs. Data Warehouse) • Anfragecharakteristika transaktional analytisch Fokus Lesen, Schreiben, Modifizieren Löschen Modifizieren, Lesen, periodisches Hinzufügen Transaktionsdauer und -typ Kurze Lese- / Schreibtransaktionen Lange Lesetransaktionen A f Anfragestruktur t kt Ei f h strukturiert Einfach t kt i t k komplex l Datenvolumen einer Anfrage Wenige Datensätze Viele Datensätze nach Bauer, Günzel (Hrsg): Data Warehouse Systeme – Architektur, Entwicklung, Anwendung Praktikum Data Warehousing und Mining, Sommersemester 2009 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Relationenmodell – Kurze Wiederholung Relationenname Attribut Stadt Name CID Population … Paris FR 2153000 … Tokyo JA 8022000 … Hamburg GM 1706000 … Stockholm SW 704000 … Seoul KS 10776000 … Berlin GM 3472000 … … … … … Praktikum Data Warehousing und Mining, Sommersemester 2009 Relationenschema R l ti Relation Tupel Attributwert 12 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Integritätsbedingungen • Primärschlüssel • Menge von Attributen zur eindeutigen Identifikation eines Tupels • Nötig um eindeutig auf Tupel zugreifen zu können • Fremdschlüssel • Referenziert von einem Tupel auf ein Tupel einer anderen Relation • Nötig zur Speicherung von Abhängigkeiten Praktikum Data Warehousing und Mining, Sommersemester 2009 13 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm SQL • Eigenschaften • die Sprache für relationale Datenbanken • mengenorientiert & deklarativ • Konstrukte K t kt zur Datendefinition D t d fi iti (SQL (SQL-DDL) DDL) • CREATE, ALTER, DROP • Konstrukte Konstr kte zurr Datenmanip Datenmanipulation lation (SQL (SQL-DML) DML) • INSERT, UPDATE, DELETE • Konstrukt für Datenabfragen • SELECT Praktikum Data Warehousing und Mining, Sommersemester 2009 14 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Datentypen • Zeichenketten • CHARACTER(n), CHAR(n) • VARCHAR(n) • Zahlen Z hl • INTEGER, INT • NUMERIC(p, NUMERIC(p s) • FLOAT • Datum und Uhrzeit • DATE Praktikum Data Warehousing und Mining, Sommersemester 2009 15 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales M ltidi i l D Datenmodell t d ll • Konzeptionelle Modellierung • Relationale Umsetzung des multidim multidim. Modells Praktikum Data Warehousing und Mining, Sommersemester 2009 16 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Create • Anlegen von Relationen • Syntax CREATE TABLE <Relation> ( <Attribut><Datentyp>, … PRIMARY KEY (<Att (<Attribut>[, ib t>[ …]) ]) FOREIGN KEY <Attribut> REFERENCES <Relation>(<Attribut>) ( ) [, …] ) Praktikum Data Warehousing und Mining, Sommersemester 2009 17 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm SQL – Insert und Update • Einfügen von Tupeln in Relation • Syntax INSERT INTO <Relation> VALUES (<D t 1> <D (<Datum1>, <Datum2>, t 2> …) ) • Ändern von Tupeln • Syntax UPDATE <Relation> SET <Attribut> = <Datum> WHERE <Selektionsbedingung> Praktikum Data Warehousing und Mining, Sommersemester 2009 18 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm SQL – Delete und Drop • Löschen von Tupeln aus einer Relation • Syntax DELETE FROM <Relation> WHERE <Attribut> = <Datum> • Löschen von Relationen y • Syntax DROP TABLE <Relation> Praktikum Data Warehousing und Mining, Sommersemester 2009 19 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales M ltidi i l D Datenmodell t d ll • Konzeptionelle Modellierung • Relationale Umsetzung des multidim multidim. Modells Praktikum Data Warehousing und Mining, Sommersemester 2009 20 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Anfragen - Grundgerüst • Anfragen an den Datenbestand • Syntax SELECT <Attribut>, … FROM <Relation> WHERE <Selektionsbedingung> Praktikum Data Warehousing und Mining, Sommersemester 2009 21 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Projektion • Auswahl von Spalten einer Relation • Syntax S t SELECT <Attribut>, … FROM <Relation> Name CID Population Paris FR 2153000 Tokyo JA 8022000 Hamburg GM 1706000 Stockholm SW 704000 Seoul KS 10776000 Berlin GM 3472000 Praktikum Data Warehousing und Mining, Sommersemester 2009 22 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Selektion • Auswahl von Tupeln einer Relation • Syntax S t SELECT * FROM <Relation> WHERE <Selektionsbedingung> Name CID Population Paris FR 2153000 Tokyo JA 8022000 Hamburg GM 1706000 Stockholm SW 704000 Seoul KS 10776000 Berlin GM 3472000 Praktikum Data Warehousing und Mining, Sommersemester 2009 23 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Verbund • Kombination mehrerer Relationen • Syntax y SELECT <Attribut>, … FROM <Relation1>, <Relation2> WHERE <Relation1>.<Attribut> = <Relation2>.<Attribut> Praktikum Data Warehousing und Mining, Sommersemester 2009 24 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Aggregatfunktionen • Berechnung von Aggregaten auf Relationen • Syntax SELECT <Aggregat>(<Attribut>) AS <Name> FROM <Relation> • Wichtige Wi hti Aggregatfunktionen: A tf kti • • • • • COUNT SUM MIN MAX AVG Praktikum Data Warehousing und Mining, Sommersemester 2009 25 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Gruppierung • Gruppierung von gleichen Attributwerten • Syntax SELECT <Attribut> FROM <Relation> GROUP BY <Attribut> HAVING <Gruppenbedingung> Praktikum Data Warehousing und Mining, Sommersemester 2009 26 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Mengenoperationen • Mengenoperationen auf Anfrageergebnissen (SELECT <Attribut>, … FROM <Relation>) INTERSECT | UNION | MINUS (SELECT <Attribut>, … FROM <Relation>) Praktikum Data Warehousing und Mining, Sommersemester 2009 27 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm SELECT Syntax SELECT-Syntax • Syntaxdiagramm des SQL-SELECTSQL SELECT Befehls (vereinfacht…): Praktikum Data Warehousing und Mining, Sommersemester 2009 28 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Vorgehen bei der Definition von Anfragen FROM A Ausgangsrelationen l ti WHERE Selektion von Tupeln, die der Bedingung genügen GROUP BY Gruppierung von Tupeln gemäß gleicher Attributwerte HAVING Selektion von Gruppen, die der g gg genügen g Bedingung SELECT Projektion der gewählten Attribute Praktikum Data Warehousing und Mining, Sommersemester 2009 29 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales M ltidi i l D Datenmodell t d ll • Konzeptionelle Modellierung • Relationale Umsetzung des multidim multidim. Modells Praktikum Data Warehousing und Mining, Sommersemester 2009 30 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Anforderungen an Online Analytical Processing • Geschwindigkeit • Anfragen sollten in 5 Sek Sekunden nden beant beantwortet ortet sein • Analysemöglichkeit • Ermöglichung g g anwenderfreundlicher und intuitiver Analyse y • Sicherheit • Sicherer Mehrbenutzerbetrieb • Stabile St bil Si Sicherungsmechanismen h h i • Multidimensionalität • Multidimensionale Sicht auf die Daten • Kapazität • Hohe Skalierbarkeit der verwalteten Daten Praktikum Data Warehousing und Mining, Sommersemester 2009 31 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales M ltidi i l D Datenmodell t d ll • Konzeptionelle Modellierung • Relationale Umsetzung des multidim multidim. Modells Praktikum Data Warehousing und Mining, Sommersemester 2009 32 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Multidimensionales Datenmodell - Begriffe • • Hilfsmittel zur Veranschaulichung von Daten verschiedene Aspekte auf gleiche Weise zugreifbar Einsatz bei OLAP-Anwendungen • Kennzahlen • • Elemente eines Würfels • Kennzahl Dimensionen • Beschreiben Daten • Ermöglichen Zugriff auf Kennzahlen • Können zu Hierarchien gehören Praktikum Data Warehousing und Mining, Sommersemester 2009 Dimension 33 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Multidimensionales Datenmodell – Beispiel Jahr Produkt Quartal Monat Tag ... Umsatz Zeit Geographie Praktikum Data Warehousing und Mining, Sommersemester 2009 34 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Dimensionen • Einordnung • B Bewertung t der d Analysedaten A l d t d durch hK Kenngrößen öß (z.B. Umsatz, Kosten) • Untersuchung der Kenngrößen aus verschiedenen Perspektiven (z.B. Stadt, Bundesland, Zeitachse) • Betrachtungsperspektive heißt Dimension • Eigenschaften • Mindestens 2 Dimensionselemente • Dimensionselemente bilden Blätter eines Baums (sog. Klassifikationshierarchie) Praktikum Data Warehousing und Mining, Sommersemester 2009 35 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Dimensionen – Beispiel Zeit Jahr Quartal Monat Tag ... Klassifikationshierarchie Dimensionselement Praktikum Data Warehousing und Mining, Sommersemester 2009 36 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Arten von Klassifikationshierarchien • Einfache Hierarchien • Höh Höhere Hi Hierarchieebenen hi b enthalten th lt di die aggregierten Werte der jeweils niedrigeren Ebenen • Oberster Knoten: Gesamtknoten • Verdichtung aller Werte einer Dimension • Parallele Hierarchien • Entstehen bei unterschiedlicher Art der Gruppierung • Parallele Äste Ä ohne Beziehung • Betrachtung eines Teilaspekts der Hierarchie pro Ast Praktikum Data Warehousing und Mining, Sommersemester 2009 37 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Klassifikationshierarchie - Beispiele TOP TOP Land Jahr Region Quartal Stadt Monat Strasse Tag Einfache Hierarchie Woche Parallele Hierarchie Praktikum Data Warehousing und Mining, Sommersemester 2009 38 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Weitere Begriffe • Würfel • Kanten von Dimensionen aufgespannt • Kantenlänge entspricht Anzahl der Elemente in Dimension • Eine oder mehrere Kennzahlen pro Würfelzelle • Anzahl der Dimensionen heißt Dimensionalität • Konsolidierungspfad • Pfade im Klassifikationsschema Praktikum Data Warehousing und Mining, Sommersemester 2009 39 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales M ltidi i l D Datenmodell t d ll • Konzeptionelle Modellierung • Relationale Umsetzung des multidim multidim. Modells Praktikum Data Warehousing und Mining, Sommersemester 2009 40 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Konzeptionelle Modellierung • Einsatz von Entity/Relationship-Modell oder UML • Probleme: • Modellierung der Konsolidierungspfade nicht möglich • Entitäten besitzen keine Semantik • Hier aber: Höherer Automatisierungsgrad g g durch Verzicht auf universelle Anwendbarkeit • Unterscheidung zwischen Klassifikationsstufen, beschreibenden Attributen und Kennzahlen nicht möglich • Daher eigene Modellierungsmodelle • • • • Multidimensionales Entity/Relationship-Modell (ME/R) Multidimensionale Unified Modeling Language (mUML) A Ansatz t von Totok T t k (objektorientiert, ( bj kt i ti t notiert ti t iin UML) … • Hier: ME/R Praktikum Data Warehousing und Mining, Sommersemester 2009 41 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm ME/R Modell ME/R-Modell • Weiterentwicklung des E/R-Modells • Anforderungen Anforder ngen • Spezialisierung: Alle eingeführten Elemente sind Spezialfälle von E/RKonstrukten • Minimale Erweiterung: Leicht erlernbar für erfahrene E/R-Modellierer • Darstellung g der multidimensionalen Semantik: Klassifikationsschema, Würfelstruktur muss abbildbar sein • Eingeführte Konstrukte • Entitätenmenge „Dimension Dimension Level“ Level (Klassifikationsstufe) • n-äre Faktenbeziehung • Binäre Klassifikationsbeziehungsmenge Praktikum Data Warehousing und Mining, Sommersemester 2009 42 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Visualisierung der ME/R - Konstrukte Klassifikationsbeziehung g Klassifikationsstufe Fakt Kenngröße Quartal Monat Tag Einkauf Kosten Region Stadt Strasse Praktikum Data Warehousing und Mining, Sommersemester 2009 43 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales M ltidi i l D Datenmodell t d ll • Konzeptionelle Modellierung • Relationale Umsetzung des multidim multidim. Modells Praktikum Data Warehousing und Mining, Sommersemester 2009 44 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Relationale Umsetzung des multidim multidim. Modells • Anforderungen • Beibehaltung der Semantik • z.B. Hierarchien • Effiziente Umsetzung von Anfragen • Effiziente Verarbeitung von Anfragen • Einfache Wartung g • z.B. beim Nachladen von Daten Æ Relationales OLAP (ROLAP) Praktikum Data Warehousing und Mining, Sommersemester 2009 45 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Relationale Umsetzung: Faktentabelle • • • • Beispiel zeigt einen yp Datensatz typischen Kennzahlen, Dimensionen Ö Spalten Zellen Ö Tupel Zusätzlich existieren Hierarchien • Z Z.B.: B Artikel A tik l – Produktgruppe – Produktkategorie • Wie kann der Datacube mit Hierarchien in einem DBMS gespeichert werden? Faktentabelle ohne Hierarchien Praktikum Data Warehousing und Mining, Sommersemester 2009 46 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Relationale Umsetzung: Star Star-Schema Schema • • Eine Relation pro Dimension Nicht normalisiert • Redundanz • Gefahr von Anomalien • • Nur wenige g Joins notwendig g Nachteile werden in Warehouses oft in Kauf genommen Praktikum Data Warehousing und Mining, Sommersemester 2009 47 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Relationale Umsetzung: Snowflake Snowflake-Schema Schema • Verfeinerung des Star-Schemas • Normalisiert, keine Redundanz • Mehrere Dimension Tables pro Dimension • Relation pro Ebene einer Hierarchie • Viele Joins: • 11 Tabellen bei Gruppierung nach Kategorie Kategorie, Land und Jahr Praktikum Data Warehousing und Mining, Sommersemester 2009 48 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Relationale Umsetzung: Semantikverluste • Verluste in… • Faktentabelle • Unterscheidung von Dimensionen und Kenngrößen nicht ersichtlich • Dimensionstabelle • Unterscheidung zwischen beschreibendem Attribut und Attribut der Klassifikationsebene nicht möglich • Aufbau der Dimensionen geht verloren • Lösung: • Erweiterung des Systemkatalogs in relationalen DBMS • Multidimensionales OLAP (MOLAP) • Hybrides OLAP (HOLAP) • Aber: Für jedes DBMS anderes Vorgehen Praktikum Data Warehousing und Mining, Sommersemester 2009 49 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Überblick: OLAP-Techniken OLAP Techniken • Relationales OLAP (ROLAP): • Relationale Datenbank • Skalierbarkeit gegeben, aber oft langsam (viele Joins) • Multidimensionales OLAP (MOLAP): • M Multidimensionale ltidi i l D Datenbank t b k • Persistente Speicherung aggregierter Kennzahlen • Oft schneller, aber „curse of dimensionality“ • Hybrides OLAP (HOLAP): • Mischform, Tradeoff: Geschwindigkeit vs. Flexibilität • Desktop es top O OLAP ((DOLAP): O ) • Lokale multidimensionale Analysen z.B. für Mobile User • Memory-Based OLAP: • Datenhaltung komplett im RAM Praktikum Data Warehousing und Mining, Sommersemester 2009 50 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Quellenangaben A. Bauer, H. Günzel: „Data Warehouse Systeme – Architektur,, Entwicklung, g, Anwendung“, g , dpunkt.verlag, p g, 2004. K. Sattler, S. Conrad: Folien zur Vorlesung Data Warehouse Technologien, 2003 C von der Weth: Folien zum Datenbankpraktikum, C. Datenbankpraktikum 2005 Praktikum Data Warehousing und Mining, Sommersemester 2009 51