Themenblock: Data Warehousing

Werbung
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Themenblock: Data Warehousing (I)
Praktikum:
Data Warehousing und
Data Mining
Praktikum Data Warehousing und Mining, Sommersemester 2009
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales
M ltidi
i
l D
Datenmodell
t
d ll
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim.
multidim Modells
Praktikum Data Warehousing und Mining, Sommersemester 2009
2
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Eigenschaften eines Data Warehouse
•
Integrierte Sicht auf beliebige Daten
• …aus verschiedenen Datenbanken
• …Integration von Schemata und Daten aus Quellen
•
Analyseaspekt
• …multidimensionales Datenmodell
• …Online Analytical Processing (OLAP)
•
Stabile Datenbasis
• Eingebrachte Daten werden nicht mehr modifiziert
• Neue Daten können aufgenommen werden
•
Data-Warehouse-System
• Komponenten zur Integration und Analyse + Data Warehouse
Praktikum Data Warehousing und Mining, Sommersemester 2009
3
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Referenzarchitektur
Praktikum Data Warehousing und Mining, Sommersemester 2009
4
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Data Warehouse Prozess
Data-Warehouse-Prozess
•
Monitoring
• Entdecken und Melden von Änderungen in den Quellen
•
Extraktion
• Selektion und Transport von Daten aus den Quellen in den
Arbeitsbereich
•
Transformation
• Vereinheitlichung, Bereinigung, Integration, Konsolidierung,
Aggregierung und Ergänzung der Daten im Arbeitsbereich
•
Laden
• Laden der Daten aus dem Arbeitsbereich in die Basisdatenbank
bzw. ins Data Warehouse
•
Analyse
• Analyse und Präsentation der Daten im Data Warehouse
Praktikum Data Warehousing und Mining, Sommersemester 2009
5
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Vereinfachte Sicht auf die Referenzarchitektur
Extraktion
Transformation
Laden
Analyse
Data
Warehouse
Operative
Datenbanken
OLAP Server
Praktikum Data Warehousing und Mining, Sommersemester 2009
6
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Fokus im Praktikum
Unser Fokus
Extraktion
Transformation
Laden
Analyse
Data
Warehouse
Operative
Datenbanken
OLAP Server
Praktikum Data Warehousing und Mining, Sommersemester 2009
7
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Fokus im Praktikum - Analysephase
• Unterschiedliche Ansätze:
• O
Online
e Transactional
a sact o a Processing
ocess g (O
(OLTP))– Themenkomplex I, Heute
• Zugriff auf vorhandenen Datenbestand
• Nutzung von Datenmanipulationssprachen (z.B. SQL)
• „Wieviele Einheiten von Artikel X wurden in Filiale Y im Jahr Z
verkauft?“
verkauft?
• Online Analytical Processing (OLAP) – Themenkomplex II
• Anpassung des Datenbestands an die Analyse
• Suche nach neuen oder unerwarteten Beziehungen zwischen
V i bl
Variablen
• „In welcher Stadt macht Produktgruppe X den größten
Umsatz?“
• Data Mining
g – bisher
• Suche nach Mustern im Datenbestand
• „Wie ist die Entwicklung des Absatzes der Produktgruppen im
Jahresverlauf?“
Praktikum Data Warehousing und Mining, Sommersemester 2009
8
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Data Access
• Tools:
• Anfragesprachen (z.B. SQL) – jetzt
• Lesen von Daten
• Arithmetische Operationen auf Daten
• Keine Präsentationsmöglichkeit
• Reporting Tools (z.B. Cognos) – Themenkomplex II
• Lesen der Daten
• Anreicherung der Daten durch arithmetische
Operationen
• Präsentation der Daten in Berichten
• Unterstützung von Ampelfunktionalität
Praktikum Data Warehousing und Mining, Sommersemester 2009
9
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales
M ltidi
i
l D
Datenmodell
t
d ll
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim
multidim. Modells
Praktikum Data Warehousing und Mining, Sommersemester 2009
10
11
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
OLTP vs. OLAP
(Datenbank vs. Data Warehouse)
• Anfragecharakteristika
transaktional
analytisch
Fokus
Lesen, Schreiben,
Modifizieren Löschen
Modifizieren,
Lesen, periodisches
Hinzufügen
Transaktionsdauer und
-typ
Kurze Lese- /
Schreibtransaktionen
Lange
Lesetransaktionen
A f
Anfragestruktur
t kt
Ei f h strukturiert
Einfach
t kt i t
k
komplex
l
Datenvolumen einer
Anfrage
Wenige Datensätze
Viele Datensätze
nach Bauer, Günzel (Hrsg):
Data Warehouse Systeme – Architektur, Entwicklung, Anwendung
Praktikum Data Warehousing und Mining, Sommersemester 2009
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Relationenmodell – Kurze Wiederholung
Relationenname
Attribut
Stadt
Name
CID
Population
…
Paris
FR
2153000
…
Tokyo
JA
8022000
…
Hamburg
GM
1706000
…
Stockholm
SW
704000
…
Seoul
KS
10776000
…
Berlin
GM
3472000
…
…
…
…
…
Praktikum Data Warehousing und Mining, Sommersemester 2009
Relationenschema
R l ti
Relation
Tupel
Attributwert
12
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Integritätsbedingungen
• Primärschlüssel
• Menge von Attributen zur eindeutigen
Identifikation eines Tupels
• Nötig um eindeutig auf Tupel zugreifen zu können
• Fremdschlüssel
• Referenziert von einem Tupel auf ein Tupel einer
anderen Relation
• Nötig zur Speicherung von Abhängigkeiten
Praktikum Data Warehousing und Mining, Sommersemester 2009
13
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
SQL
• Eigenschaften
• die Sprache für relationale Datenbanken
• mengenorientiert & deklarativ
• Konstrukte
K
t kt zur Datendefinition
D t d fi iti (SQL
(SQL-DDL)
DDL)
• CREATE, ALTER, DROP
• Konstrukte
Konstr kte zurr Datenmanip
Datenmanipulation
lation (SQL
(SQL-DML)
DML)
• INSERT, UPDATE, DELETE
• Konstrukt für Datenabfragen
• SELECT
Praktikum Data Warehousing und Mining, Sommersemester 2009
14
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Datentypen
• Zeichenketten
• CHARACTER(n), CHAR(n)
• VARCHAR(n)
• Zahlen
Z hl
• INTEGER, INT
• NUMERIC(p,
NUMERIC(p s)
• FLOAT
• Datum und Uhrzeit
• DATE
Praktikum Data Warehousing und Mining, Sommersemester 2009
15
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales
M ltidi
i
l D
Datenmodell
t
d ll
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim
multidim. Modells
Praktikum Data Warehousing und Mining, Sommersemester 2009
16
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Create
• Anlegen von Relationen
• Syntax
CREATE TABLE <Relation> (
<Attribut><Datentyp>,
…
PRIMARY KEY (<Att
(<Attribut>[,
ib t>[ …])
])
FOREIGN KEY <Attribut>
REFERENCES <Relation>(<Attribut>)
(
)
[, …]
)
Praktikum Data Warehousing und Mining, Sommersemester 2009
17
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
SQL – Insert und Update
• Einfügen von Tupeln in Relation
• Syntax
INSERT INTO <Relation> VALUES
(<D t 1> <D
(<Datum1>,
<Datum2>,
t 2> …)
)
• Ändern von Tupeln
• Syntax
UPDATE <Relation>
SET <Attribut> = <Datum>
WHERE <Selektionsbedingung>
Praktikum Data Warehousing und Mining, Sommersemester 2009
18
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
SQL – Delete und Drop
• Löschen von Tupeln aus einer Relation
• Syntax
DELETE FROM <Relation>
WHERE <Attribut> = <Datum>
• Löschen von Relationen
y
• Syntax
DROP TABLE <Relation>
Praktikum Data Warehousing und Mining, Sommersemester 2009
19
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales
M ltidi
i
l D
Datenmodell
t
d ll
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim
multidim. Modells
Praktikum Data Warehousing und Mining, Sommersemester 2009
20
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Anfragen - Grundgerüst
• Anfragen an den Datenbestand
• Syntax
SELECT <Attribut>, …
FROM <Relation>
WHERE <Selektionsbedingung>
Praktikum Data Warehousing und Mining, Sommersemester 2009
21
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Projektion
• Auswahl von Spalten einer Relation
• Syntax
S t
SELECT <Attribut>, …
FROM <Relation>
Name
CID
Population
Paris
FR
2153000
Tokyo
JA
8022000
Hamburg
GM
1706000
Stockholm
SW
704000
Seoul
KS
10776000
Berlin
GM
3472000
Praktikum Data Warehousing und Mining, Sommersemester 2009
22
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Selektion
• Auswahl von Tupeln einer Relation
• Syntax
S t
SELECT * FROM <Relation>
WHERE <Selektionsbedingung>
Name
CID
Population
Paris
FR
2153000
Tokyo
JA
8022000
Hamburg
GM
1706000
Stockholm
SW
704000
Seoul
KS
10776000
Berlin
GM
3472000
Praktikum Data Warehousing und Mining, Sommersemester 2009
23
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Verbund
• Kombination mehrerer Relationen
• Syntax
y
SELECT <Attribut>, …
FROM <Relation1>, <Relation2>
WHERE
<Relation1>.<Attribut> =
<Relation2>.<Attribut>
Praktikum Data Warehousing und Mining, Sommersemester 2009
24
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Aggregatfunktionen
• Berechnung von Aggregaten auf Relationen
• Syntax
SELECT <Aggregat>(<Attribut>) AS <Name>
FROM <Relation>
• Wichtige
Wi hti Aggregatfunktionen:
A
tf kti
•
•
•
•
•
COUNT
SUM
MIN
MAX
AVG
Praktikum Data Warehousing und Mining, Sommersemester 2009
25
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Gruppierung
• Gruppierung von gleichen Attributwerten
• Syntax
SELECT <Attribut>
FROM <Relation>
GROUP BY <Attribut>
HAVING <Gruppenbedingung>
Praktikum Data Warehousing und Mining, Sommersemester 2009
26
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Mengenoperationen
• Mengenoperationen auf Anfrageergebnissen
(SELECT <Attribut>, …
FROM <Relation>)
INTERSECT | UNION | MINUS
(SELECT <Attribut>, …
FROM <Relation>)
Praktikum Data Warehousing und Mining, Sommersemester 2009
27
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
SELECT Syntax
SELECT-Syntax
• Syntaxdiagramm
des SQL-SELECTSQL SELECT
Befehls
(vereinfacht…):
Praktikum Data Warehousing und Mining, Sommersemester 2009
28
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Vorgehen bei der Definition von Anfragen
FROM
A
Ausgangsrelationen
l ti
WHERE
Selektion von Tupeln, die der
Bedingung genügen
GROUP BY
Gruppierung von Tupeln gemäß
gleicher Attributwerte
HAVING
Selektion von Gruppen, die der
g gg
genügen
g
Bedingung
SELECT
Projektion der gewählten Attribute
Praktikum Data Warehousing und Mining, Sommersemester 2009
29
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales
M ltidi
i
l D
Datenmodell
t
d ll
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim
multidim. Modells
Praktikum Data Warehousing und Mining, Sommersemester 2009
30
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Anforderungen an Online Analytical Processing
• Geschwindigkeit
• Anfragen sollten in 5 Sek
Sekunden
nden beant
beantwortet
ortet sein
• Analysemöglichkeit
• Ermöglichung
g
g anwenderfreundlicher und intuitiver Analyse
y
• Sicherheit
• Sicherer Mehrbenutzerbetrieb
• Stabile
St bil Si
Sicherungsmechanismen
h
h i
• Multidimensionalität
• Multidimensionale Sicht auf die Daten
• Kapazität
• Hohe Skalierbarkeit der verwalteten Daten
Praktikum Data Warehousing und Mining, Sommersemester 2009
31
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales
M ltidi
i
l D
Datenmodell
t
d ll
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim
multidim. Modells
Praktikum Data Warehousing und Mining, Sommersemester 2009
32
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Multidimensionales Datenmodell - Begriffe
•
•
Hilfsmittel zur Veranschaulichung
von Daten
verschiedene Aspekte auf gleiche
Weise zugreifbar
Einsatz bei OLAP-Anwendungen
•
Kennzahlen
•
• Elemente eines Würfels
•
Kennzahl
Dimensionen
• Beschreiben Daten
• Ermöglichen Zugriff auf
Kennzahlen
• Können zu Hierarchien gehören
Praktikum Data Warehousing und Mining, Sommersemester 2009
Dimension
33
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Multidimensionales Datenmodell – Beispiel
Jahr
Produkt
Quartal
Monat
Tag
...
Umsatz
Zeit
Geographie
Praktikum Data Warehousing und Mining, Sommersemester 2009
34
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Dimensionen
• Einordnung
• B
Bewertung
t
der
d Analysedaten
A l
d t d
durch
hK
Kenngrößen
öß
(z.B. Umsatz, Kosten)
• Untersuchung der Kenngrößen aus verschiedenen
Perspektiven (z.B. Stadt, Bundesland, Zeitachse)
• Betrachtungsperspektive heißt Dimension
• Eigenschaften
• Mindestens 2 Dimensionselemente
• Dimensionselemente bilden Blätter eines Baums
(sog. Klassifikationshierarchie)
Praktikum Data Warehousing und Mining, Sommersemester 2009
35
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Dimensionen – Beispiel Zeit
Jahr
Quartal
Monat
Tag
...
Klassifikationshierarchie
Dimensionselement
Praktikum Data Warehousing und Mining, Sommersemester 2009
36
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Arten von Klassifikationshierarchien
• Einfache Hierarchien
• Höh
Höhere Hi
Hierarchieebenen
hi b
enthalten
th lt di
die
aggregierten Werte der jeweils niedrigeren
Ebenen
• Oberster Knoten: Gesamtknoten
• Verdichtung aller Werte einer Dimension
• Parallele Hierarchien
• Entstehen bei unterschiedlicher Art der
Gruppierung
• Parallele Äste
Ä
ohne Beziehung
• Betrachtung eines Teilaspekts der Hierarchie pro
Ast
Praktikum Data Warehousing und Mining, Sommersemester 2009
37
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Klassifikationshierarchie - Beispiele
TOP
TOP
Land
Jahr
Region
Quartal
Stadt
Monat
Strasse
Tag
Einfache Hierarchie
Woche
Parallele Hierarchie
Praktikum Data Warehousing und Mining, Sommersemester 2009
38
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Weitere Begriffe
• Würfel
• Kanten von Dimensionen aufgespannt
• Kantenlänge entspricht Anzahl der Elemente in
Dimension
• Eine oder mehrere Kennzahlen pro Würfelzelle
• Anzahl der Dimensionen heißt Dimensionalität
• Konsolidierungspfad
• Pfade im Klassifikationsschema
Praktikum Data Warehousing und Mining, Sommersemester 2009
39
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales
M ltidi
i
l D
Datenmodell
t
d ll
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim
multidim. Modells
Praktikum Data Warehousing und Mining, Sommersemester 2009
40
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Konzeptionelle Modellierung
• Einsatz von Entity/Relationship-Modell oder UML
• Probleme:
• Modellierung der Konsolidierungspfade nicht möglich
• Entitäten besitzen keine Semantik
• Hier aber: Höherer Automatisierungsgrad
g g
durch Verzicht auf
universelle Anwendbarkeit
• Unterscheidung zwischen Klassifikationsstufen,
beschreibenden Attributen und Kennzahlen nicht möglich
• Daher eigene Modellierungsmodelle
•
•
•
•
Multidimensionales Entity/Relationship-Modell (ME/R)
Multidimensionale Unified Modeling Language (mUML)
A
Ansatz
t von Totok
T t k (objektorientiert,
( bj kt i ti t notiert
ti t iin UML)
…
• Hier: ME/R
Praktikum Data Warehousing und Mining, Sommersemester 2009
41
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
ME/R Modell
ME/R-Modell
• Weiterentwicklung des E/R-Modells
• Anforderungen
Anforder ngen
• Spezialisierung:
Alle eingeführten Elemente sind Spezialfälle von E/RKonstrukten
• Minimale Erweiterung:
Leicht erlernbar für erfahrene E/R-Modellierer
• Darstellung
g der multidimensionalen Semantik:
Klassifikationsschema, Würfelstruktur muss abbildbar sein
• Eingeführte Konstrukte
• Entitätenmenge „Dimension
Dimension Level“
Level (Klassifikationsstufe)
• n-äre Faktenbeziehung
• Binäre Klassifikationsbeziehungsmenge
Praktikum Data Warehousing und Mining, Sommersemester 2009
42
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Visualisierung der ME/R - Konstrukte
Klassifikationsbeziehung
g
Klassifikationsstufe
Fakt
Kenngröße
Quartal
Monat
Tag
Einkauf
Kosten
Region
Stadt
Strasse
Praktikum Data Warehousing und Mining, Sommersemester 2009
43
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Agenda
• Einführung Data Warehouses
• Online Transactional Processing (OLTP)
• Datenmanipulation mit SQL
• Anfragen mit SQL
• Online Analytical Processing (OLAP)
• Multidimensionales
M ltidi
i
l D
Datenmodell
t
d ll
• Konzeptionelle Modellierung
• Relationale Umsetzung des multidim
multidim. Modells
Praktikum Data Warehousing und Mining, Sommersemester 2009
44
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Relationale Umsetzung des multidim
multidim. Modells
• Anforderungen
• Beibehaltung der Semantik
• z.B. Hierarchien
• Effiziente Umsetzung von Anfragen
• Effiziente Verarbeitung von Anfragen
• Einfache Wartung
g
• z.B. beim Nachladen von Daten
Æ Relationales OLAP (ROLAP)
Praktikum Data Warehousing und Mining, Sommersemester 2009
45
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Relationale Umsetzung: Faktentabelle
•
•
•
•
Beispiel zeigt einen
yp
Datensatz
typischen
Kennzahlen,
Dimensionen Ö
Spalten
Zellen Ö Tupel
Zusätzlich existieren
Hierarchien
• Z
Z.B.:
B Artikel
A tik l –
Produktgruppe –
Produktkategorie
•
Wie kann der
Datacube mit
Hierarchien in einem
DBMS gespeichert
werden?
Faktentabelle ohne Hierarchien
Praktikum Data Warehousing und Mining, Sommersemester 2009
46
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Relationale Umsetzung: Star
Star-Schema
Schema
•
•
Eine Relation pro Dimension
Nicht normalisiert
• Redundanz
• Gefahr von Anomalien
•
•
Nur wenige
g Joins notwendig
g
Nachteile werden in
Warehouses oft in Kauf
genommen
Praktikum Data Warehousing und Mining, Sommersemester 2009
47
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Relationale Umsetzung: Snowflake
Snowflake-Schema
Schema
• Verfeinerung
des Star-Schemas
• Normalisiert, keine Redundanz
• Mehrere Dimension Tables
pro Dimension
• Relation pro Ebene einer Hierarchie
• Viele Joins:
• 11 Tabellen bei Gruppierung nach Kategorie
Kategorie, Land und Jahr
Praktikum Data Warehousing und Mining, Sommersemester 2009
48
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Relationale Umsetzung: Semantikverluste
• Verluste in…
• Faktentabelle
• Unterscheidung von Dimensionen und Kenngrößen nicht
ersichtlich
• Dimensionstabelle
• Unterscheidung zwischen beschreibendem Attribut und Attribut
der Klassifikationsebene nicht möglich
• Aufbau der Dimensionen geht verloren
• Lösung:
• Erweiterung des Systemkatalogs in relationalen DBMS
• Multidimensionales OLAP (MOLAP)
• Hybrides OLAP (HOLAP)
• Aber: Für jedes DBMS anderes Vorgehen
Praktikum Data Warehousing und Mining, Sommersemester 2009
49
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Überblick: OLAP-Techniken
OLAP Techniken
• Relationales OLAP (ROLAP):
• Relationale Datenbank
• Skalierbarkeit gegeben, aber oft langsam (viele Joins)
• Multidimensionales OLAP (MOLAP):
• M
Multidimensionale
ltidi
i
l D
Datenbank
t b k
• Persistente Speicherung aggregierter Kennzahlen
• Oft schneller, aber „curse of dimensionality“
• Hybrides OLAP (HOLAP):
• Mischform, Tradeoff: Geschwindigkeit vs. Flexibilität
• Desktop
es top O
OLAP ((DOLAP):
O
)
• Lokale multidimensionale Analysen z.B. für Mobile User
• Memory-Based OLAP:
• Datenhaltung komplett im RAM
Praktikum Data Warehousing und Mining, Sommersemester 2009
50
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Quellenangaben
A. Bauer, H. Günzel: „Data Warehouse Systeme –
Architektur,, Entwicklung,
g, Anwendung“,
g , dpunkt.verlag,
p
g,
2004.
K. Sattler, S. Conrad: Folien zur Vorlesung Data
Warehouse Technologien, 2003
C von der Weth: Folien zum Datenbankpraktikum,
C.
Datenbankpraktikum
2005
Praktikum Data Warehousing und Mining, Sommersemester 2009
51
Herunterladen