Universität Karlsruhe (TH) Systeme der Informationsverwaltung Themenblock: Data Warehousing (I) Praktikum: Data Warehousing und Data Mining Universität Karlsruhe (TH) Systeme der Informationsverwaltung Ergebnisse DMC Vorname Name Punkte Vorname Top-X Einzel Gruppe Name Punkte Top-X Einzel Gruppe Ahmet Göcksel 998680 (27) 0,13 6,00 6,00 Matthias Stumpp 957385 (59) 0,28 5,00 6,00 Mirko Wächter 993465 (29) 0,14 6,00 5,00 Marcel Noe 940010 (62) 0,29 5,00 5,00 Norbert Ottahal 993465 (28) 0,13 6,00 6,00 Xiang Lei 939520 (65) 0,31 5,00 6,00 Robert Jungblut 992260 (31) 0,15 6,00 5,00 Tilmann Böhme 936380 (68) 0,32 5,00 5,00 Roland Görlitz 985255 (36) 0,17 6,00 6,00 Kiril Aleksandrov 933200 (70) 0,33 5,00 4,00 Benjamin Kille 981415 (41) 0,19 6,00 6,00 Elena Blazheva 933045 (71) 0,33 5,00 4,00 Michael Knoll 980195 (42) 0,20 6,00 6,00 Martin Zang 907640 (87) 0,41 4,00 4,00 Christopher Oßner 979850 (44) 0,21 6,00 5,00 Alexander Marcus Turek 900890 (91) 0,43 4,00 6,00 Kirstina Uzunova 975865 (46) 0,22 6,00 6,00 Xiajun Feng 887285 (96) 0,45 4,00 4,00 Pierre Weber 972550 (47) 0,22 6,00 6,00 Fabian Lehn 881040 (98) 0,46 4,00 5,00 Hristina Taneva 970880 (48) 0,23 6,00 6,00 Moritz Lapp 5,00 Grigor Gyorev 969575 (51) 0,24 6,00 6,00 Mathilde Janin 5,00 Dan Dragan 957430 (57) 0,27 5,00 6,00 Aggregate DMC 2008 (Vergleichswert 2007) Mittelwert Top-X: 27% (29%) Beste Platzierung: 27 (28) Schlechteste Platzierung: 98 (148) Praktikum Data Warehousing und Mining Vorname Name Punkte Matthias Bracht 1007000 Frank Eichinger 1005535 Steffen Lang 1004910 Stephan Schosser 1002300 Matthias Huber 938785 Top-X Einzel Gruppe 2 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales Datenmodell • Konzeptionelle Modellierung • Relationale Umsetzung des multidim. Modells Praktikum Data Warehousing und Mining 3 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Eigenschaften eines Data Warehouse • Integrierte Sicht auf beliebige Daten • …aus verschieden Datenbanken • …Integration von Schemata und Daten aus Quellen • Analyseaspekt • …multidimensionales Datenmodell • …Online Analytical Processing (OLAP) • Stabile Datenbasis • Eingebrachte Daten werden nicht mehr modifiziert • Neue Daten können aufgenommen werden • Data Warehouse System • Komponenten zur Integration und Analyse + Data Warehouse Praktikum Data Warehousing und Mining 4 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Referenzarchitektur Praktikum Data Warehousing und Mining 5 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Data Warehouse Prozess • Monitoring • Entdecken und melden von Änderungen in den Quellen • Extraktion • Selektion und Transport von Daten aus den Quellen in den Arbeitsbereich • Transformation • Vereinheitlichung, Bereinigung, Integration, Konsolidierung, Aggregierung und Ergänzung der Daten im Arbeitsbereich • Laden • Laden der Daten aus dem Arbeitsbereich in die Basisdatenbank bzw. ins Data Warehouse • Analyse • Analyse und Präsentation der Daten im Data Warehouse Praktikum Data Warehousing und Mining 6 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Vereinfachte Sicht auf die Referenzarchitektur Extraktion Transformation Laden Analyse Data Warehouse Operative Datenbanken OLAP Server Praktikum Data Warehousing und Mining 7 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Fokus im Praktikum Unser Fokus Extraktion Transformation Laden Analyse Data Warehouse Operative Datenbanken OLAP Server Praktikum Data Warehousing und Mining 8 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Fokus im Praktikum - Analysephase • Unterschiedliche Ansätze: • Online Transactional Processing (OLTP)– Themenkomplex I, Heute • Zugriff auf vorhandenen Datenbestand • Nutzung von Datenmanipulationssprachen (z.B. SQL) • „Wieviele Einheiten von Artikel X wurden in Filiale Y im Jahr Z verkauft?“ • Online Analytical Processing (OLAP) – Themenkomplex II • Anpassung des Datenbestands an die Analyse • Suche nach neuen oder unerwarteten Beziehungen zwischen Variablen • „In welcher Stadt macht Produktgruppe X den größten Umsatz?“ • Data Mining – bisher • Suche nach Mustern im Datenbestand • „Wie ist die Entwicklung des Absatzes der Produktgruppen im Jahresverlauf?“ Praktikum Data Warehousing und Mining 9 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Data Access • Tools: • Anfragesprachen (z.B. SQL) – jetzt • Lesen von Daten • Arithmetische Operationen auf Daten • Keine Präsentationsmöglichkeit • Reporting Tools (z.B. Cognos) – Themenkomplex II • Lesen der Daten • Anreicherung der Daten durch arithmetische Operationen • Präsentation der Daten in Berichten • Unterstützung von Ampelfunktionalität Praktikum Data Warehousing und Mining 10 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales Datenmodell • Konzeptionelle Modellierung • Relationale Umsetzung des multidim. Modells Praktikum Data Warehousing und Mining 11 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Relationenmodell – Kurze Wiederholung Relationenname Attribut Stadt Name CID Population … Paris FR 2153000 … Tokyo JA 8022000 … Hamburg GM 1706000 … Stockholm SW 704000 … Seoul KS 10776000 … Berlin GM 3472000 … … … … … Praktikum Data Warehousing und Mining Relationenschema Relation Tupel Attributwert 12 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Integritätsbedingungen • Primärschlüssel • Menge von Attributen zur eindeutigen Identifikation eines Tupels • Nötig um eindeutig auf Tupel zugreifen zu können • Fremdschlüssel • Referenziert von einem Tupel auf ein Tupel einer anderen Relation • Nötig zur Speicherung von Abhängigkeiten Praktikum Data Warehousing und Mining 13 Universität Karlsruhe (TH) Systeme der Informationsverwaltung SQL • Eigenschaften • die Sprache für relationale Datenbanken • mengenorientiert & deklarativ • Konstrukte zur Datendefinition (SQL-DDL) • CREATE, ALTER, DROP • Konstrukte zur Datenmanipulation (SQL-DML) • INSERT, UPDATE, DELETE • Konstrukt für Datenabfragen • SELECT Praktikum Data Warehousing und Mining 14 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Datentypen • Zeichenketten • CHARACTER(n), CHAR(n) • VARCHAR(n) • Zahlen • INTEGER, INT • NUMERIC(p, s) • FLOAT • Datum und Uhrzeit • DATE Praktikum Data Warehousing und Mining 15 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales Datenmodell • Konzeptionelle Modellierung • Relationale Umsetzung des multidim. Modells Praktikum Data Warehousing und Mining 16 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Create • Anlegen von Relationen • Syntax CREATE TABLE <Relation> ( <Attribut><Datentyp>, … PRIMARY KEY (<Attribut>[, …]) FOREIGN KEY <Attribut> REFERENCES <Relation>(<Attribut>) [, …] ) Praktikum Data Warehousing und Mining 17 Universität Karlsruhe (TH) Systeme der Informationsverwaltung SQL – Insert und Update • Einfügen von Tupeln in Relation • Syntax INSERT INTO <Relation> VALUES (<Datum1>, <Datum2>, …) • Ändern von Tupeln • Syntax UPDATE <Relation> SET <Attribut> = <Datum> WHERE <Selektionsbedingung> Praktikum Data Warehousing und Mining 18 Universität Karlsruhe (TH) Systeme der Informationsverwaltung SQL – Delete und Drop • Löschen von Tupeln aus einer Relation • Syntax DELETE FROM <Relation> WHERE <Attribut> = <Datum> • Löschen von Relationen • Syntax DROP TABLE <Relation> Praktikum Data Warehousing und Mining 19 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales Datenmodell • Konzeptionelle Modellierung • Relationale Umsetzung des multidim. Modells Praktikum Data Warehousing und Mining 20 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Anfragen - Grundgerüst • Anfragen an den Datenbestand • Syntax SELECT <Attribut>, … FROM <Relation> WHERE <Selektionsbedingung> Praktikum Data Warehousing und Mining 21 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Projektion • Auswahl von Spalten einer Relation • Syntax SELECT <Attribut>, … FROM <Relation> Name CID Population Paris FR 2153000 Tokyo JA 8022000 Hamburg GM 1706000 Stockholm SW 704000 Seoul KS 10776000 Berlin GM 3472000 Praktikum Data Warehousing und Mining 22 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Selektion • Auswahl von Tupeln einer Relation • Syntax SELECT * FROM <Relation> WHERE <Selektionsbedingung> Name CID Population Paris FR 2153000 Tokyo JA 8022000 Hamburg GM 1706000 Stockholm SW 704000 Seoul KS 10776000 Berlin GM 3472000 Praktikum Data Warehousing und Mining 23 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Verbund • Kombination mehrerer Relationen • Syntax SELECT <Attribut>, … FROM <Relation1>, <Relation2> WHERE <Relation1>.<Attribut> = <Relation2>.<Attribut> Praktikum Data Warehousing und Mining 24 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Aggregatfunktionen • Berechnung von Aggregaten auf Relationen • Syntax SELECT <Aggregat>(<Attribut>) AS <Name> FROM <Relation> • Wichtige Aggregatfunktionen: • • • • • COUNT SUM MIN MAX AVG Praktikum Data Warehousing und Mining 25 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Gruppierung • Gruppierung von gleichen Attributwerten • Syntax SELECT <Attribut> FROM <Relation> GROUP BY <Attribut> HAVING <Gruppenbedingung> Praktikum Data Warehousing und Mining 26 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Mengenoperationen • Mengenoperationen auf Anfrageergebnissen (SELECT <Attribut>, … FROM <Relation>) INTERSECT | UNION | MINUS (SELECT <Attribut>, … FROM <Relation>) Praktikum Data Warehousing und Mining 27 Universität Karlsruhe (TH) Systeme der Informationsverwaltung SELECT-Syntax • Syntaxdiagramm des SQL-SELECTBefehls (vereinfacht…): • Entnommen aus [Stock und Pinger, 1997] Praktikum Data Warehousing und Mining 28 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Vorgehen bei der Definition von Anfragen FROM Ausgangsrelationen WHERE Selektion von Tupeln, die der Bedingung genügen GROUP BY Gruppierung von Tupeln gemäß gleicher Attributwerte HAVING Selektion von Gruppen, die der Bedingung genügen SELECT Projektion der gewählten Attribute Praktikum Data Warehousing und Mining 29 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales Datenmodell • Konzeptionelle Modellierung • Relationale Umsetzung des multidim. Modells Praktikum Data Warehousing und Mining 30 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Anforderungen an Online Analytical Processing • Geschwindigkeit • Anfragen sollten in 5 Sekunden beantwortet sein • Analysemöglichkeit • Ermöglichung anwenderfreundlicher und intuitiver Analyse • Sicherheit • Sicherer Mehrbenutzerbetrieb • Stabile Sicherungsmechanismen • Multidimensionalität • Multidimensionale Sicht auf die Daten • Kapazität • Hohe Skalierbarkeit der verwalteten Daten Praktikum Data Warehousing und Mining 31 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales Datenmodell • Konzeptionelle Modellierung • Relationale Umsetzung des multidim. Modells Praktikum Data Warehousing und Mining 32 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Multidimensionales Datenmodell - Begriffe • • Hilfsmittel zur Veranschaulichung von Daten verschiedene Aspekte auf gleiche Weise zugreifbar Einsatz bei OLAP Anwendungen • Kennzahlen • • Elemente eines Würfels • Kennzahl Dimensionen • Beschreiben Daten • Ermöglichen Zugriff auf Kennzahlen • Können Hierarchien sein Praktikum Data Warehousing und Mining Dimension 33 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Multidimensionales Datenmodell – Beispiel Jahr Produkt Quartal Monat Tag ... Umsatz Zeit Geographie Praktikum Data Warehousing und Mining 34 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Dimensionen • Einordnung • Bewertung der Analysedaten durch Kenngrößen (z.B. Umsatz, Kosten) • Untersuchung der Kenngrößen aus verschiedenen Perspektiven (z.B. Stadt, Bundesland, Zeitachse) • Betrachtungsperspektive heißt Dimension • Eigenschaften • Mindestens 2 Dimensionselemente • Dimensionselemente Bilden Blätter eines Baums (sog. Klassifikationshierarchie) Praktikum Data Warehousing und Mining 35 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Dimensionen – Beispiel Zeit Jahr Quartal Monat Tag ... Klassifikationshierarchie Dimensionselement Praktikum Data Warehousing und Mining 36 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Arten von Klassifikationshierarchien • Einfache Hierarchien • Höhere Hierarchieebenen enthalten die aggregierten Werte der jeweils niedrigeren Ebenen • Oberster Knoten: Gesamtknoten • Verdichtung aller Werte einer Dimension • Parallele Hierarchien • Entstehen bei unterschiedlicher Art der Gruppierung • Parallele Äste ohne Beziehung • Betrachtung eines Teilaspekts der Hierarchie pro Ast Praktikum Data Warehousing und Mining 37 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Klassifikationshierarchie Beispiele TOP TOP Land Jahr Region Quartal Stadt Monat Strasse Tag Einfache Hierarchie Praktikum Data Warehousing und Mining Woche Parallele Hierarchie 38 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Weitere Begriffe • Würfel • Kanten von Dimensionen aufgespannt • Kantenlänge entspricht Anzahl der Elemente in Dimension • Eine oder mehrere Kennzahlen pro Würfelzelle • Anzahl der Dimensionen heißt Dimensionalität • Konsolidierungspfad • Pfade im Klassifikationsschema Praktikum Data Warehousing und Mining 39 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales Datenmodell • Konzeptionelle Modellierung • Relationale Umsetzung des multidim. Modells Praktikum Data Warehousing und Mining 40 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Konzeptionelle Modellierung • Einsatz Entity Relationship Modells oder UML • Probleme: • Modellierung der Konsolidierungspfade nicht möglich • Entitäten besitzen keine Semantik • Hier aber: Höherer Automatisierungsgrad durch Verzicht auf universelle Anwendbarkeit • Unterscheidung zwischen Klassifikationsstufen, beschreibenden Attributen und Kennzahlen nicht möglich • Daher eigene Modellierungsmodelle • • • • Multidimensionales Entity/Relationship Modell (ME/R) Multidimensionale Unified Modeling Language (mUML) Ansatz von Totok … • Hier: ME/R Praktikum Data Warehousing und Mining 41 Universität Karlsruhe (TH) Systeme der Informationsverwaltung ME/R-Modell • Weiterentwicklung des E/R-Modells • Anforderungen • Spezialisierung: Alle eingeführten Elemente sind Spezialfälle von E/R Konstrukten • Minimale Erweiterung: Leicht erlernbar für erfahrene E/R-Modellierer • Darstellung der multidimensionalen Semantik: Klassifikationsschema, Würfelstruktur muss abbildbar sein • Eingeführte Konstrukte • Entitätenmenge „Dimension Level“ (Klassifikationsstufe) • n-äre Faktenbeziehung • Binäre Klassifikationsbeziehungsmenge Praktikum Data Warehousing und Mining 42 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Visualisierung der ME/R - Konstrukte Klassifikationsbeziehung Klassifikationsstufe Fakt Kenngröße Quartal Monat Tag Einkauf Kosten Region Stadt Praktikum Data Warehousing und Mining Strasse 43 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Agenda • Einführung Data Warehouses • Online Transactional Processing (OLTP) • Datenmanipulation mit SQL • Anfragen mit SQL • Online Analytical Processing (OLAP) • Multidimensionales Datenmodell • Konzeptionelle Modellierung • Relationale Umsetzung des multidim. Modells Praktikum Data Warehousing und Mining 44 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Relationale Umsetzung des multidim. Modells • Anforderungen • Beibehaltung der Semantik • z.B. Hierarchien • Effiziente Umsetzung von Anfragen • Effiziente Verarbeitung von Anfragen • Einfache Wartung • z.B. beim Nachladen von Daten Praktikum Data Warehousing und Mining 45 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Relationale Umsetzung: Faktentabelle • • • • Beispiel zeigt einen typischen Datensatz Kennzahlen, Dimensionen Ö Spalten Zellen Ö Tupel Zusätzlich existieren Hierarchien • Z.B.: Artikel – Produktgruppe – Produktkategorie • Wie kann der Datacube mit Hierarchien in einem DBMS gespeichert werden? Praktikum Data Warehousing und Mining Faktentabelle ohne Hierarchien 46 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Relationale Umsetzung: Star Schema • • Eine Relation pro Dimension Nicht normalisiert • Redundanz • Gefahr von Anomalien • • Praktikum Data Warehousing und Mining Nur wenige Joins notwendig Nachteile werden in Warehouses oft in Kauf genommen 47 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Relational Umsetzung: Snowflake Schema • Verfeinerung des Star Schemas • Normalisieret, keine Redundanz • Mehrere Dimension Tables pro Dimension • Relation pro Ebene einer Hierarchie • Viele Joins: • 11 Tabellen bei Gruppierung nach Kategorie, Land und Jahr Praktikum Data Warehousing und Mining 48 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Relationale Umsetzung: Semantikverluste • Verluste in… • Faktentabelle • Unterscheidung von Dimensionen und Kenngrößen nicht ersichtlich • Dimensionstabelle • Unterscheidung zwischen beschreibendem Attribut und Attribut der Klassifikationsebene nicht möglich • Aufbau der Dimensionen geht verloren • Lösung: • Erweiterung des Systemkatalogs in relationalen DBMS • Multidimensionales OLAP (MOLAP) • Hybrides OLAP (HOLAP) • Aber: Für jedes DBMS anderes Vorgehen Praktikum Data Warehousing und Mining 49 Universität Karlsruhe (TH) Systeme der Informationsverwaltung Quellenangaben A. Bauer, H. Günzel: „Data Warehouse Systeme – Architektur, Entwicklung, Anwendung“, dpunkt.verlag, 2004. K. Sattler, S. Conrad: Folien zur Vorlesung Data Warehouse Technologien, 2003 C. von der Weth: Folien zum Datenbankpraktikum, 2005 M. Stock und R. Pinger: Kleiner Leitfaden zur Anwendung von SQL-Anweisungen, 1997, http://www.ifis.cs.tu-bs.de/ html_d/skripte/handbuch.2.ps Praktikum Data Warehousing und Mining 50