Themenblock: Data Warehousing

Werbung
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Themenblock: Data Warehousing (I)
Praktikum:
Data Warehousing und
Data Mining
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Ergebnisse DMC
Vorname
Name
Punkte
Vorname
Top-X Einzel Gruppe
Name
Punkte
Top-X Einzel Gruppe
Ahmet
Göcksel
998680 (27)
0,13
6,00
6,00
Matthias
Stumpp
957385 (59)
0,28
5,00
6,00
Mirko
Wächter
993465 (29)
0,14
6,00
5,00
Marcel
Noe
940010 (62)
0,29
5,00
5,00
Norbert
Ottahal
993465 (28)
0,13
6,00
6,00
Xiang
Lei
939520 (65)
0,31
5,00
6,00
Robert
Jungblut
992260 (31)
0,15
6,00
5,00
Tilmann
Böhme
936380 (68)
0,32
5,00
5,00
Roland
Görlitz
985255 (36)
0,17
6,00
6,00
Kiril
Aleksandrov
933200 (70)
0,33
5,00
4,00
Benjamin
Kille
981415 (41)
0,19
6,00
6,00
Elena
Blazheva
933045 (71)
0,33
5,00
4,00
Michael
Knoll
980195 (42)
0,20
6,00
6,00
Martin
Zang
907640 (87)
0,41
4,00
4,00
Christopher
Oßner
979850 (44)
0,21
6,00
5,00
Alexander Marcus Turek
900890 (91)
0,43
4,00
6,00
Kirstina
Uzunova
975865 (46)
0,22
6,00
6,00
Xiajun
Feng
887285 (96)
0,45
4,00
4,00
Pierre
Weber
972550 (47)
0,22
6,00
6,00
Fabian
Lehn
881040 (98)
0,46
4,00
5,00
Hristina
Taneva
970880 (48)
0,23
6,00
6,00
Moritz
Lapp
5,00
Grigor
Gyorev
969575 (51)
0,24
6,00
6,00
Mathilde
Janin
5,00
Dan
Dragan
957430 (57)
0,27
5,00
6,00
Aggregate DMC 2008 (Vergleichswert 2007)
Mittelwert Top-X: 27% (29%)
Beste Platzierung: 27 (28)
Schlechteste Platzierung: 98 (148)
Praktikum Data Warehousing und Mining
Vorname
Name
Punkte
Matthias
Bracht
1007000
Frank
Eichinger
1005535
Steffen
Lang
1004910
Stephan
Schosser
1002300
Matthias
Huber
938785
Top-X Einzel Gruppe
2
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales Datenmodell
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim. Modells
Praktikum Data Warehousing und Mining
3
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Eigenschaften eines Data Warehouse
•
Integrierte Sicht auf beliebige Daten
• …aus verschieden Datenbanken
• …Integration von Schemata und Daten aus Quellen
•
Analyseaspekt
• …multidimensionales Datenmodell
• …Online Analytical Processing (OLAP)
•
Stabile Datenbasis
• Eingebrachte Daten werden nicht mehr modifiziert
• Neue Daten können aufgenommen werden
•
Data Warehouse System
• Komponenten zur Integration und Analyse + Data Warehouse
Praktikum Data Warehousing und Mining
4
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Referenzarchitektur
Praktikum Data Warehousing und Mining
5
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Data Warehouse Prozess
•
Monitoring
• Entdecken und melden von Änderungen in den Quellen
•
Extraktion
• Selektion und Transport von Daten aus den Quellen in den
Arbeitsbereich
•
Transformation
• Vereinheitlichung, Bereinigung, Integration, Konsolidierung,
Aggregierung und Ergänzung der Daten im Arbeitsbereich
•
Laden
• Laden der Daten aus dem Arbeitsbereich in die Basisdatenbank
bzw. ins Data Warehouse
•
Analyse
• Analyse und Präsentation der Daten im Data Warehouse
Praktikum Data Warehousing und Mining
6
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Vereinfachte Sicht auf die Referenzarchitektur
Extraktion
Transformation
Laden
Analyse
Data
Warehouse
Operative
Datenbanken
OLAP Server
Praktikum Data Warehousing und Mining
7
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Fokus im Praktikum
Unser Fokus
Extraktion
Transformation
Laden
Analyse
Data
Warehouse
Operative
Datenbanken
OLAP Server
Praktikum Data Warehousing und Mining
8
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Fokus im Praktikum - Analysephase
• Unterschiedliche Ansätze:
• Online Transactional Processing (OLTP)– Themenkomplex I, Heute
• Zugriff auf vorhandenen Datenbestand
• Nutzung von Datenmanipulationssprachen (z.B. SQL)
• „Wieviele Einheiten von Artikel X wurden in Filiale Y im Jahr Z
verkauft?“
• Online Analytical Processing (OLAP) – Themenkomplex II
• Anpassung des Datenbestands an die Analyse
• Suche nach neuen oder unerwarteten Beziehungen zwischen
Variablen
• „In welcher Stadt macht Produktgruppe X den größten
Umsatz?“
• Data Mining – bisher
• Suche nach Mustern im Datenbestand
• „Wie ist die Entwicklung des Absatzes der Produktgruppen im
Jahresverlauf?“
Praktikum Data Warehousing und Mining
9
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Data Access
• Tools:
• Anfragesprachen (z.B. SQL) – jetzt
• Lesen von Daten
• Arithmetische Operationen auf Daten
• Keine Präsentationsmöglichkeit
• Reporting Tools (z.B. Cognos) – Themenkomplex II
• Lesen der Daten
• Anreicherung der Daten durch arithmetische
Operationen
• Präsentation der Daten in Berichten
• Unterstützung von Ampelfunktionalität
Praktikum Data Warehousing und Mining
10
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales Datenmodell
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim. Modells
Praktikum Data Warehousing und Mining
11
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Relationenmodell – Kurze Wiederholung
Relationenname
Attribut
Stadt
Name
CID
Population
…
Paris
FR
2153000
…
Tokyo
JA
8022000
…
Hamburg
GM
1706000
…
Stockholm
SW
704000
…
Seoul
KS
10776000
…
Berlin
GM
3472000
…
…
…
…
…
Praktikum Data Warehousing und Mining
Relationenschema
Relation
Tupel
Attributwert
12
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Integritätsbedingungen
• Primärschlüssel
• Menge von Attributen zur eindeutigen
Identifikation eines Tupels
• Nötig um eindeutig auf Tupel zugreifen zu können
• Fremdschlüssel
• Referenziert von einem Tupel auf ein Tupel einer
anderen Relation
• Nötig zur Speicherung von Abhängigkeiten
Praktikum Data Warehousing und Mining
13
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
SQL
• Eigenschaften
• die Sprache für relationale Datenbanken
• mengenorientiert & deklarativ
• Konstrukte zur Datendefinition (SQL-DDL)
• CREATE, ALTER, DROP
• Konstrukte zur Datenmanipulation (SQL-DML)
• INSERT, UPDATE, DELETE
• Konstrukt für Datenabfragen
• SELECT
Praktikum Data Warehousing und Mining
14
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Datentypen
• Zeichenketten
• CHARACTER(n), CHAR(n)
• VARCHAR(n)
• Zahlen
• INTEGER, INT
• NUMERIC(p, s)
• FLOAT
• Datum und Uhrzeit
• DATE
Praktikum Data Warehousing und Mining
15
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales Datenmodell
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim. Modells
Praktikum Data Warehousing und Mining
16
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Create
• Anlegen von Relationen
• Syntax
CREATE TABLE <Relation> (
<Attribut><Datentyp>,
…
PRIMARY KEY (<Attribut>[, …])
FOREIGN KEY <Attribut>
REFERENCES <Relation>(<Attribut>)
[, …]
)
Praktikum Data Warehousing und Mining
17
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
SQL – Insert und Update
• Einfügen von Tupeln in Relation
• Syntax
INSERT INTO <Relation> VALUES
(<Datum1>, <Datum2>, …)
• Ändern von Tupeln
• Syntax
UPDATE <Relation>
SET <Attribut> = <Datum>
WHERE <Selektionsbedingung>
Praktikum Data Warehousing und Mining
18
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
SQL – Delete und Drop
• Löschen von Tupeln aus einer Relation
• Syntax
DELETE FROM <Relation>
WHERE <Attribut> = <Datum>
• Löschen von Relationen
• Syntax
DROP TABLE <Relation>
Praktikum Data Warehousing und Mining
19
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales Datenmodell
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim. Modells
Praktikum Data Warehousing und Mining
20
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Anfragen - Grundgerüst
• Anfragen an den Datenbestand
• Syntax
SELECT <Attribut>, …
FROM <Relation>
WHERE <Selektionsbedingung>
Praktikum Data Warehousing und Mining
21
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Projektion
• Auswahl von Spalten einer Relation
• Syntax
SELECT <Attribut>, …
FROM <Relation>
Name
CID
Population
Paris
FR
2153000
Tokyo
JA
8022000
Hamburg
GM
1706000
Stockholm
SW
704000
Seoul
KS
10776000
Berlin
GM
3472000
Praktikum Data Warehousing und Mining
22
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Selektion
• Auswahl von Tupeln einer Relation
• Syntax
SELECT * FROM <Relation>
WHERE <Selektionsbedingung>
Name
CID
Population
Paris
FR
2153000
Tokyo
JA
8022000
Hamburg
GM
1706000
Stockholm
SW
704000
Seoul
KS
10776000
Berlin
GM
3472000
Praktikum Data Warehousing und Mining
23
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Verbund
• Kombination mehrerer Relationen
• Syntax
SELECT <Attribut>, …
FROM <Relation1>, <Relation2>
WHERE
<Relation1>.<Attribut> =
<Relation2>.<Attribut>
Praktikum Data Warehousing und Mining
24
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Aggregatfunktionen
• Berechnung von Aggregaten auf Relationen
• Syntax
SELECT <Aggregat>(<Attribut>) AS <Name>
FROM <Relation>
• Wichtige Aggregatfunktionen:
•
•
•
•
•
COUNT
SUM
MIN
MAX
AVG
Praktikum Data Warehousing und Mining
25
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Gruppierung
• Gruppierung von gleichen Attributwerten
• Syntax
SELECT <Attribut>
FROM <Relation>
GROUP BY <Attribut>
HAVING <Gruppenbedingung>
Praktikum Data Warehousing und Mining
26
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Mengenoperationen
• Mengenoperationen auf Anfrageergebnissen
(SELECT <Attribut>, …
FROM <Relation>)
INTERSECT | UNION | MINUS
(SELECT <Attribut>, …
FROM <Relation>)
Praktikum Data Warehousing und Mining
27
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
SELECT-Syntax
• Syntaxdiagramm
des SQL-SELECTBefehls
(vereinfacht…):
• Entnommen aus
[Stock und Pinger,
1997]
Praktikum Data Warehousing und Mining
28
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Vorgehen bei der Definition von Anfragen
FROM
Ausgangsrelationen
WHERE
Selektion von Tupeln, die der
Bedingung genügen
GROUP BY
Gruppierung von Tupeln gemäß
gleicher Attributwerte
HAVING
Selektion von Gruppen, die der
Bedingung genügen
SELECT
Projektion der gewählten Attribute
Praktikum Data Warehousing und Mining
29
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales Datenmodell
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim. Modells
Praktikum Data Warehousing und Mining
30
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Anforderungen an Online Analytical Processing
• Geschwindigkeit
• Anfragen sollten in 5 Sekunden beantwortet sein
• Analysemöglichkeit
• Ermöglichung anwenderfreundlicher und intuitiver Analyse
• Sicherheit
• Sicherer Mehrbenutzerbetrieb
• Stabile Sicherungsmechanismen
• Multidimensionalität
• Multidimensionale Sicht auf die Daten
• Kapazität
• Hohe Skalierbarkeit der verwalteten Daten
Praktikum Data Warehousing und Mining
31
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales Datenmodell
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim. Modells
Praktikum Data Warehousing und Mining
32
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Multidimensionales Datenmodell - Begriffe
•
•
Hilfsmittel zur Veranschaulichung
von Daten
verschiedene Aspekte auf gleiche
Weise zugreifbar
Einsatz bei OLAP Anwendungen
•
Kennzahlen
•
• Elemente eines Würfels
•
Kennzahl
Dimensionen
• Beschreiben Daten
• Ermöglichen Zugriff auf
Kennzahlen
• Können Hierarchien sein
Praktikum Data Warehousing und Mining
Dimension
33
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Multidimensionales Datenmodell – Beispiel
Jahr
Produkt
Quartal
Monat
Tag
...
Umsatz
Zeit
Geographie
Praktikum Data Warehousing und Mining
34
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Dimensionen
• Einordnung
• Bewertung der Analysedaten durch Kenngrößen
(z.B. Umsatz, Kosten)
• Untersuchung der Kenngrößen aus verschiedenen
Perspektiven (z.B. Stadt, Bundesland, Zeitachse)
• Betrachtungsperspektive heißt Dimension
• Eigenschaften
• Mindestens 2 Dimensionselemente
• Dimensionselemente Bilden Blätter eines Baums
(sog. Klassifikationshierarchie)
Praktikum Data Warehousing und Mining
35
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Dimensionen – Beispiel Zeit
Jahr
Quartal
Monat
Tag
...
Klassifikationshierarchie
Dimensionselement
Praktikum Data Warehousing und Mining
36
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Arten von Klassifikationshierarchien
• Einfache Hierarchien
• Höhere Hierarchieebenen enthalten die
aggregierten Werte der jeweils niedrigeren
Ebenen
• Oberster Knoten: Gesamtknoten
• Verdichtung aller Werte einer Dimension
• Parallele Hierarchien
• Entstehen bei unterschiedlicher Art der
Gruppierung
• Parallele Äste ohne Beziehung
• Betrachtung eines Teilaspekts der Hierarchie pro
Ast
Praktikum Data Warehousing und Mining
37
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Klassifikationshierarchie Beispiele
TOP
TOP
Land
Jahr
Region
Quartal
Stadt
Monat
Strasse
Tag
Einfache Hierarchie
Praktikum Data Warehousing und Mining
Woche
Parallele Hierarchie
38
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Weitere Begriffe
• Würfel
• Kanten von Dimensionen aufgespannt
• Kantenlänge entspricht Anzahl der Elemente in
Dimension
• Eine oder mehrere Kennzahlen pro Würfelzelle
• Anzahl der Dimensionen heißt Dimensionalität
• Konsolidierungspfad
• Pfade im Klassifikationsschema
Praktikum Data Warehousing und Mining
39
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales Datenmodell
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim. Modells
Praktikum Data Warehousing und Mining
40
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Konzeptionelle Modellierung
• Einsatz Entity Relationship Modells oder UML
• Probleme:
• Modellierung der Konsolidierungspfade nicht möglich
• Entitäten besitzen keine Semantik
• Hier aber: Höherer Automatisierungsgrad durch Verzicht auf
universelle Anwendbarkeit
• Unterscheidung zwischen Klassifikationsstufen,
beschreibenden Attributen und Kennzahlen nicht möglich
• Daher eigene Modellierungsmodelle
•
•
•
•
Multidimensionales Entity/Relationship Modell (ME/R)
Multidimensionale Unified Modeling Language (mUML)
Ansatz von Totok
…
• Hier: ME/R
Praktikum Data Warehousing und Mining
41
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
ME/R-Modell
• Weiterentwicklung des E/R-Modells
• Anforderungen
• Spezialisierung:
Alle eingeführten Elemente sind Spezialfälle von E/R
Konstrukten
• Minimale Erweiterung:
Leicht erlernbar für erfahrene E/R-Modellierer
• Darstellung der multidimensionalen Semantik:
Klassifikationsschema, Würfelstruktur muss abbildbar sein
• Eingeführte Konstrukte
• Entitätenmenge „Dimension Level“ (Klassifikationsstufe)
• n-äre Faktenbeziehung
• Binäre Klassifikationsbeziehungsmenge
Praktikum Data Warehousing und Mining
42
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Visualisierung der ME/R - Konstrukte
Klassifikationsbeziehung
Klassifikationsstufe
Fakt
Kenngröße
Quartal
Monat
Tag
Einkauf
Kosten
Region
Stadt
Praktikum Data Warehousing und Mining
Strasse
43
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales Datenmodell
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim. Modells
Praktikum Data Warehousing und Mining
44
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Relationale Umsetzung des multidim. Modells
• Anforderungen
• Beibehaltung der Semantik
• z.B. Hierarchien
• Effiziente Umsetzung von Anfragen
• Effiziente Verarbeitung von Anfragen
• Einfache Wartung
• z.B. beim Nachladen von Daten
Praktikum Data Warehousing und Mining
45
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Relationale Umsetzung: Faktentabelle
•
•
•
•
Beispiel zeigt einen
typischen Datensatz
Kennzahlen,
Dimensionen Ö
Spalten
Zellen Ö Tupel
Zusätzlich existieren
Hierarchien
• Z.B.: Artikel –
Produktgruppe –
Produktkategorie
•
Wie kann der
Datacube mit
Hierarchien in einem
DBMS gespeichert
werden?
Praktikum Data Warehousing und Mining
Faktentabelle ohne Hierarchien
46
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Relationale Umsetzung: Star Schema
•
•
Eine Relation pro Dimension
Nicht normalisiert
• Redundanz
• Gefahr von Anomalien
•
•
Praktikum Data Warehousing und Mining
Nur wenige Joins notwendig
Nachteile werden in
Warehouses oft in Kauf
genommen
47
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Relational Umsetzung: Snowflake Schema
• Verfeinerung
des Star Schemas
• Normalisieret, keine Redundanz
• Mehrere Dimension Tables
pro Dimension
• Relation pro Ebene einer Hierarchie
• Viele Joins:
• 11 Tabellen bei Gruppierung nach Kategorie, Land und Jahr
Praktikum Data Warehousing und Mining
48
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Relationale Umsetzung: Semantikverluste
• Verluste in…
• Faktentabelle
• Unterscheidung von Dimensionen und Kenngrößen nicht
ersichtlich
• Dimensionstabelle
• Unterscheidung zwischen beschreibendem Attribut und Attribut
der Klassifikationsebene nicht möglich
• Aufbau der Dimensionen geht verloren
• Lösung:
• Erweiterung des Systemkatalogs in relationalen DBMS
• Multidimensionales OLAP (MOLAP)
• Hybrides OLAP (HOLAP)
• Aber: Für jedes DBMS anderes Vorgehen
Praktikum Data Warehousing und Mining
49
Universität Karlsruhe (TH)
Systeme der Informationsverwaltung
Quellenangaben
A. Bauer, H. Günzel: „Data Warehouse Systeme –
Architektur, Entwicklung, Anwendung“, dpunkt.verlag,
2004.
K. Sattler, S. Conrad: Folien zur Vorlesung Data
Warehouse Technologien, 2003
C. von der Weth: Folien zum Datenbankpraktikum,
2005
M. Stock und R. Pinger: Kleiner Leitfaden zur
Anwendung von SQL-Anweisungen, 1997,
http://www.ifis.cs.tu-bs.de/
html_d/skripte/handbuch.2.ps
Praktikum Data Warehousing und Mining
50
Herunterladen