Multidimensionales Datenmodell Motivation

Werbung
Multidimensionales Datenmodell
¡Grundbegriffe
® Fakten, Dimensionen, Würfel
¡Analyseoperationen
® Drill-Down, Roll-Up, Slice und Dice
¡Notationen zur konzeptuellen Modellierung
® ME/R, ADAPT
¡Relationale Speicherung
® Star-Schema, Snowflake-Schema
¡Multidimensionale Speicherung
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-1
Motivation
¡Datenmodell ausgerichtet auf Unterstützung der
Analyse
¡Datenanalyse im Entscheidungsprozeß
® Betriebswirtschaftliche Kennzahlen (Erlöse,
Gewinne, Verluste, etc.) stehen im Mittelpunkt
® Betrachtung der Kennzahlen aus
unterschiedlichen Perspektiven (zeitlich, regional,
produktbezogen) → Dimensionen
® Unterteilung der Auswertedimensionen möglich
(Jahr, Quartal, Monat) → Hierarchien oder
Konsolidierungsebenen
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-2
1
Kennzahlen/Fakten
¡ Kennzahlen/Fakten (engl. facts):
® (verdichtete) numerische Meßgrößen
® beschreiben betriebswirtschaftliche Sachverhalte
¡ Beispiele: Umsatz, Gewinn, Verlust, Deckungsbeitrag
¡ Typen:
® Additive Fakten: (additive) Berechnung zwischen
sämtlichen Konsolidierungsebenen der Dimensionen
möglich, z.B. Einkaufswert
® Semi-additive Fakten: (additive) Berechnung nur für
ausgewählte Menge von Hierarchieebenen, z.B.
Lagerbestand
® Nicht-additive Fakten: keine additive Berechnung möglich,
z.B. Durchschnitts- oder prozentuale Werte
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-3
Dimensionen
¡Dimension:
® beschreibt mögliche Sicht auf die assoziierte
Kennzahl
® endliche Menge von n (n ≥ 2) Dimensionselementen (Hierarchieobjekten), die eine
semantische Beziehung aufweisen
® dienen der orthogonalen Strukturierung des
Datenraums
¡Beispiele: Produkt, Geographie, Zeit
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-4
2
Hierarchien in Dimensionen
¡Dimensionselemente:
® Knoten einer Klassifikationshierarchie
® Klassifikationsstufe beschreibt Verdichtungsgrad
¡Darstellung von Dimensionen über
Klassifikationsschema (Schema von
Klassifikationshierarchien)
¡Formen:
® einfache Hierarchien
® parallele Hierarchien
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-5
Einfache Hierarchien
¡ Höhere Hierarchieebene enthält die aggregierten Werte
genau einer niedrigeren Hierachiestufe
¡ Oberster Knoten: Top → enthält Verdichtung auf einen
einzelnen Wert der Dimension
Top
Top
Produktkategorie
Land
Produktfamilie
Stadt
Produktgruppe
Filiale
Artikel
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-6
3
Parallele Hierarchien
¡ Innerhalb einer Dimension sind zwei (oder auch mehrere)
verschiedene Arten der Gruppierung möglich
¡ Keine hierarchische Beziehung in den parallelen Zweigen
¡ Parallelhierachie → Pfad im Klassifikationsschema
(Konsolidierungspfad)
Top
Jahr
Quartal
Woche
Monat
Tag
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-7
Würfel
¡ Würfel (engl. cube, eigentlich Quader): Grundlage der
multidimensionalen Analyse
¡ Kanten → Dimensionen
¡ Zellen → ein oder mehrere Kennzahlen (als Funktion der
Dimensionen)
¡ Anzahl der Dimensionen → Dimensionalität
¡ Visualisierung
® 2 Dimensionen: Tabelle
® 3 Dimensionen: Würfel
® >3 Dimensionen: Multidimensionale Domänenstruktur
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-8
4
Multidimensionaler Datenwürfel
Zeitraum
Jahr
Halbjahr
Quartal
Produkt
Kategorie
Kennzahl
Umsatz
Artikel
Filiale
Region
Kai-Uwe Sattler
Stefan Conrad
Stadt
Bundesland
VL Data Warehouses, WS 2000/2001
3-9
Operationen zur Datenanalyse
¡OLAP-Operationen auf multidimensionalen
Datenstrukturen
¡Standardoperationen
® Pivotierung
® Roll-Up, Drill-Down
® Drill-Across
® Slice, Dice
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-10
5
Pivotierung/Rotation
¡ Drehen des Würfels durch Vertauschen der
Dimensionen → Analyse der Daten aus verschiedenen
Perspektiven
Produkt
Summe
Haushalt
Elektro
Kosmetik
1998
Zeitraum
Summe
1999
1998
Produkt
Summe
1999
Haushalt
Summe
Elektro
Zeitraum
en
me
enr in g
ch s
Su m
Sa h a lt Th ü
An
Kai-Uwe Sattler
Stefan Conrad
Region
Kosmetik
nen
h se
r ing
Sa c ha lt T h ü
An
m
Su
me
Region
VL Data Warehouses, WS 2000/2001
3-11
Roll-Up, Drill-Down, Drill-Across
¡ Roll-Up:
® Erzeugen neuer Informationen durch Aggregierung der
Daten entlang des Konsolidierungspfades
® Dimensionalität bleibt erhalten
® Beispiel: Tag → Monat → Quartal → Jahr
¡ Drill-Down:
® komplementär zu Roll-Up
® Navigation von aggregierten Daten zu Detail-Daten
entlang der Klassifikationshierarchie
¡ Drill-Across:
® Wechsel von einem Würfel zu einem anderen
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-12
6
Roll-Up, Drill-Down
Produkt
Summe
Haushalt
Elektro
Kosmetik
Drill-Down
Produkt
Summe
Haushalt
Elektro
Kosmetik
1998
Roll-Up
2.Quartal
3.Quartal
1999
4.Quartal
Summe
Zeitraum
nen
hse
r ing
Sac halt Thü
An
Kai-Uwe Sattler
Stefan Conrad
1.Quartal
Su
mm
e
Region
Summe
Zeitraum
en
enr ing
ch s
Sa halt Thü
An
Su
mm
e
Region
VL Data Warehouses, WS 2000/2001
3-13
Slice und Dice
¡ Erzeugen individueller Sichten
¡ Slice:
® Herausschneiden von „Scheiben“aus dem Würfel
® Verringerung der Dimensionalität
® Beispiel: alle Werte des aktuellen Jahres
¡ Dice:
® Herausschneiden einen „Teilwürfels“
® Erhaltung der Dimensionalität, Veränderung der
Hierarchieobjekte
® Beispiel: die Werte bestimmter Produkte oder Regionen
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-14
7
Slice
Produkt
Summe
Haushalt
Elektro
Kosmetik
1998
Produkt
Summe
Haushalt
Elektro
Kosmetik
1998
1999
1999
Summe
Summe
Zeitraum
en
enr i ng
c hs
Sa ha lt T hü
An
Kai-Uwe Sattler
Stefan Conrad
Su
mm
e
Region
Zeitraum
nen
hse
rin g
S a c h al t T hü
An
Su m
me
Region
VL Data Warehouses, WS 2000/2001
3-15
Konzeptuelle Modellierung
¡Konzeptuelle Modellierung:
® formale Beschreibung des Fachproblems und der
im Anwendungsbereich benötigten
Informationsstrukturen
¡Probleme konventioneller Entwurfstechniken
(ER, UML):
® Unzureichende Semantik für multidimensionales
Datenmodell
® hier: Verzicht auf universelle Anwendbarkeit,
statt dessen Konzentration auf Analyse
® Beispiel: Klassifikationsstufe, Fakt → Entity ?
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-16
8
ME/R-Modell
¡Multidimensional Entity/Relationship [Sapia et.
al. (LNCS 1552)]
¡Erweiterung des klassischen ER-Modells
® Entity-Menge „Dimension Level“
(Klassifikationsstufe)
—keine explizite Modellierung von Dimensionen
® n-äre Beziehungsmenge „Fact“
—Kennzahlen als Attribute der Beziehung
® Binäre Beziehungsmenge „Classification“ bzw.
„Roll-Up“(Verbindung von Klassifikationsstufen)
—definiert gerichteten, azyklischen Graphen
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-17
ME/R-Modell: Notation
Faktenname
Faktenbeziehung
Kai-Uwe Sattler
Stefan Conrad
Ebene
Klassifikationsstufe
Klassifikationsbeziehung
VL Data Warehouses, WS 2000/2001
3-18
9
ME/R-Modell: Beispiel
Verkäufe
Umsatz
Produktgruppe
Verkauf
Artikel
Produktkategorie
Fililale
Tag
Stadt
Bundesland
Monat
Woche
Quartal
Jahr
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-19
ADAPT
¡Application Design for Analytical Processing
Technologies (Bulos)
¡neue Entwicklung für multidimensionale
Datenmodellierung
¡Beschreibung sämtlicher Metadaten-Objekte
¡Unterstützung von Berechnungsvorschriften
¡teilweise Werkzeugunterstützung (CASE, Visio,
etc.)
¡keine formale Grundlage
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-20
10
ADAPT: Elemente
¡Hypercube:
® multidimensionale Datenstruktur
® enthält nur eine Kennzahl
® Assoziationen zu beliebig vielen Dimensionen
¡Dimension:
® beschreibt Dimension
® bestehend aus Hierarchiestufen,
Dimensionselementen, Attributen
¡Hierarchie:
® Eindeutiger Konsolidierungspfad
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-21
ADAPT: Notation
Hypercube
ƒ()
Berechnungsformel
Dimension 1
Dimension 2
Dimension
Kai-Uwe Sattler
Stefan Conrad
Hierarchie
{ } Hierarchiestufe
VL Data Warehouses, WS 2000/2001
3-22
11
ADAPT: Beispiel
Verkäufe
Zeit
Geographie
Produkt
Zeit
Standardhierarchie
Wochenhierarchie
Geographie
Produkt
Standardhierarchie
Standardhierarchie
{ } Jahr
{ } Jahr
{ } Bundesland
{ } Produktkategorie
{ } Quartal
{ } Woche
{ } Stadt
{ } Produktgruppe
{ } Filiale
{ } Artikel
{ } Monat
{ } Tag
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-23
Zusammenfassung
¡Weitere Notationen:
® Erweiterungen von ER:
—Dimensional Fact Modeling
® Erweiterungen von UML:
—mUML (multidimensional UML)
¡Zur Zeit keine Standard verfügbar
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-24
12
Umsetzung des multidim. Datenmodells
¡ Multidimensionale Sicht
® Modellierung der Daten
® Anfrageformulierung
¡ Interne Verwaltung der Daten erfordert Umsetzung auf
® relationale Strukturen (Tabellen)
→ ROLAP (relationales OLAP)
—Verfügbarkeit, Reife der Systeme
® multidimensionale Strukturen (direkte Speicherung)
→ MOLAP (multidimensionales OLAP)
—Wegfall der Transformation
¡ Aspekte
® Speicherung
® Anfrageformulierung bzw. -ausführung
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-25
Relationale Speicherung: Anforderungen
¡ Vermeidung des Verlustes anwendungsbezogener
Semantik (aus dem multidimensionalen Modell, z.B.
Klassifikationshierarchien)
¡ effiziente Übersetzung multidimensionaler Anfragen
¡ effiziente Verarbeitung der übersetzten Anfragen
¡ Einfache Pflege der entstandenen Relationen (z.B.
Laden neuer Daten)
¡ Berücksichtigung der Anfragecharakteristik und des
Datenvolumens von Analyseanwendungen
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-26
13
Relationale Speicherung: Faktentabelle
¡ Ausgangspunkt: Umsetzung des Datenwürfels ohne
Klassifikationshierarchien
® Dimensionen, Kennzahlen → Spalten der Relation
® Zelle → Tupel
Produkt
Artikel
Immer Ultra
Kukident
Zeit
Kai-Uwe Sattler
Stefan Conrad
Erfurt
Halle
19.02.2000
18.02.2000
Filiale
Tag
Verkäufe
Immer Ultra
Halle
18.02.2000
500
Kukident
Halle
19.02.2000
289
Immer Ultra
Erfurt
18.02.2000
512
Geographie
VL Data Warehouses, WS 2000/2001
3-27
Snowflake-Schema
¡ Abbildung von Klassifikationen: eigene Tabelle für jede
Klassifikationsstufe (z.B. Artikel, Produktgruppe, etc.)
¡ Tabelle enthält
® ID für Klassifikationsknoten
® beschreibendes Attribut (z.B. Marke, Hersteller,
Bezeichnung)
® Fremdschlüssel der direkt übergeordneten
Klassifikationsstufe
¡ Faktentabelle enthält (neben Kenngrößen):
® Fremdschlüssel der jeweils niedrigsten Klassifikationsstufe
® Fremdschlüssel bilden zusammengesetzte
Primärschlüssel für Faktentabelle
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-28
14
Snowflake-Schema: Beispiel
1
Jahr
Produktkategorie
1
Jahr_ID
Jahr
Monat
Monat_ID
Bezeichnung 1
* Jahr_ID
Tag
Tag_ID
Datum
* Monat_ID
* Woche_ID
1
Verkauf
*
Artikel_ID
Tag_ID
Filial_ID
Verkäufe
Umsatz
1
*
Artikel
1
Artikel_ID
Bezeichnung
Gruppe_ID
*
Produktgruppe
Gruppe_ID
Bezeichnung
Kategorie_ID
Kategorie_ID
Bezeichnung
*
*
Filiale
1
Woche
Filial_ID
Bezeichnung
Stadt_ID
*
Stadt
Woche_ID
Bezeichnung 1
Stadt_ID
Bezeichnung
Land_ID
1
*
Bundesland
1
Kai-Uwe Sattler
Stefan Conrad
Land_ID
Bezeichnung
VL Data Warehouses, WS 2000/2001
3-29
Star-Schema
¡ Snowflake-Schema ist normalisiert:
Vermeidung von Update-Anomalien
→ aber: erfordert Join über mehrere Tabellen !
¡ Star-Schema:
® Denormalisierung der zu einer Dimension gehörenden
Tabellen
® für jede Dimension genau eine Dimensionstabelle
® Redundanzen in der Dimensionstabelle für schnellere
Anfragebearbeitung
® Beispiel: Artikel, Produkt, Produktgruppe etc. als Spalten
in einer Tabelle Produkt
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-30
15
Star-Schema
1. Dimensionstabelle
3. Dimensionstabelle
Faktentabelle
Dim1_Schlüssel
Dim3_Schlüssel
Dim1_Schlüssel
Dim2_Schlüssel
Dim3_Schlüssel
Dim4_Schlüssel
…
Dim1_Attribut
Dim3_Attribut
Fakt1
Fakt2
Fakt3
…
2. Dimensionstabelle
Dim2_Schlüssel
4. Dimensionstabelle
Dim4_Schlüssel
Dim4_Attribut
Dim2_Attribut
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-31
Star-Schema: Beispiel
Zeit
Zeit_ID
Tag
Woche
Monat
Quartal
Jahr
Verkauf
1
*
*
Produkt_ID
Zeit_ID
Geographie_ID
Verkäufe
Umsatz
1
*
Produkt
Produkt_ID
Artikel
Produktgruppe
Produktkategorie
Geographie
Geographie_ID
Filiale
Stadt
Bundesland
Kai-Uwe Sattler
Stefan Conrad
1
VL Data Warehouses, WS 2000/2001
3-32
16
Star-Schema vs. Snowflake-Schema
¡ Charakteristika von DW-Anwendungen
® typischerweise Einschränkungen in Anfragen auf höherer
Granularitätsstufe (Join-Operationen)
® geringes Datenvolumen der Dimensiontabellen im
Vergleich zu Faktentabellen
® seltene Änderungen an Klassifikationen (Gefahr von
Update-Anomalien)
¡ Vorteile des Star-Schemas
® einfache Struktur (vereinfachte Anfrageformulierung)
® einfache und flexible Darstellung von
Klassifikationshierarchien (Spalten in Dimensionstabellen)
® effiziente Anfrageverarbeitung innerhalb einer Dimension
(keine Join-Operation notwendig)
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-33
Mischformen
¡ Abbildung einzelner Dimensionen analog SnowflakeSchema oder Star-Schema
¡ Entscheidungskriterien:
® Änderungshäufigkeit der Dimensionen:
Reduzierung des Pflegeaufwandes durch
Normalisierung (Snowflake)
® Anzahl der Klassifikationsstufen einer Dimension:
mehr Klassifikationsstufen → größere Redundanz im
Star-Schema
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-34
17
Mischformen
¡ Entscheidungskriterien (fortg.):
® Anzahl der Dimensionselemente:
Einsparung durch Normalisierung bei vielen
Elementen einer Dimension auf niedrigster
Klassifikationsstufe
® Materialisierung von Aggregaten:
Performance-Verbesserung durch Normalisierung bei
materialisierten Aggregaten für eine
Klassifikationsstufe
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-35
Galaxie
¡Star-Schema
® eine Faktentabelle
® mehrere Kennzahlen nur möglich bei gleichen
Dimensionen
¡Galaxie
® mehrere Faktentabellen
® teilweise mit gleichen Dimensionstabellen
verknüpft
® auch: Multi-Faktentabellen-Schema, Multi-Cube,
Hyper-Cube
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-36
18
Fact Constellation
¡ Speicherung vorberechneter Aggregate in Faktentabelle
® Beispiel: Umsatz für Region
® Unterscheidung in Dimensionstabelle über spezielle
Attribute (Bsp.: „Stufe“)
¡ Alternative: Auslagerung in eigene Faktentabelle
→ Fact-Constellation-Schema
(Spezialfall eines Galaxie-Schemas)
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-37
Darstellung von
Klassifikationshierarchien
¡ Horizontal: Modellierung der Stufen der Klassifikationshierarchie
als Spalten der denormalisierten Dimensionstabelle
¡ Vorteil:
® Einschränkungen auf höherer Granularität ohne Join
¡ Nachteile:
® Duplikateliminierung beim Anfragen bestimmter Stufen (Bsp.:
Produktgruppe innerhalb einer Kategorie)
® Schemaänderung beim Hinzufügen neuer Stufen
Produkt_ID
Artikel
Produktgruppe
Produktkategorie
1234
Immer Ultra
Hygiene
Kosmetik
1235
Putzi
Hygiene
Kosmetik
2345
Rohrfrei
Reiniger
Haushalt
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-38
19
Darstellung von
Klassifikationshierarchien
¡ Vertikal (rekursiv): normalisierte Dimensionstabelle mit Attributen
® Dimensions_ID: Schlüssel für Faktentabelle
® Eltern_ID: Attributwert der Dimensions-ID der nächsthöheren
Stufe
¡ Vorteile:
® Einfache Änderung am
Klassifikationsschema
Dimensions_ID Eltern_ID
® Einfache Behandlung
vorberechneter Aggregate
Immer Ultra
Hygiene
¡ Nachteil:
Hygiene
Kosmetik
® Self-Join für Anfragen
einzelner Stufen (Bsp.:
Putzi
Hygiene
Produktgruppe innerhalb
einer Kategorie)
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-39
Darstellung von
Klassifikationshierarchien
¡ Kombiniert: Verbindung beider Strategien
® Repräsentation der Klassifikationsstufen als Spalten
(jedoch generische Bezeichnung)
® Speicherung der Knoten aller höheren Stufen als Tupel
® Zusätzliches Attribut „Stufe“→ Angabe der bezeichneten
Klassifikationsstufe
Dimensions_ID Stufe1_ID
Stufe2_ID
Stufe
Immer Ultra
Hygiene
Kosmetik
0
Putzi
Hygiene
Kosmetik
0
Hygiene
Kosmetik
NULL
1
Kosmetik
NULL
NULL
2
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-40
20
Vermeidung von Semantikverlusten
¡ Semantikverlust bei relationaler Abbildung:
® Unterscheidung zwischen Kennzahl und Dimension
(Attribute der Faktentabelle)
® Attribute von Dimensionstabellen (beschreibend,
Aufbau der Hierarchie)
® Aufbau der Dimensionen (Drill-Pfade)
¡ Ausweg:
® Erweiterung des Systemkatalogs um Metadaten für
multidimensionale Anwendungen
® Beispiel: CREATE DIMENSION, HIERARCHY in Oracle
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-41
Probleme der relationalen Umsetzung
¡ Transformation multidimensionaler Anfragen in
relationale Repräsentation notwendig
→ komplexe Anfragen
¡ Einsatz komplexer Anfragewerkzeuge notwendig
(OLAP-Werkzeuge)
¡ Semantikverlust
¡ daher: direkte multidimensionale Speicherung ?
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-42
21
Multidimensionale Speicherung
¡ Verwendung unterschiedlicher Datenstrukturen für
Datenwürfel und Dimension
¡ Speicherung des Würfels als Array
¡ Ordnung der Dimension für Adressierung der
Würfelzellen notwendig
¡ häufig proprietäre Strukturen (und Systeme)
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-43
Datenstrukturen
¡ Dimension:
® endliche, geordnete Liste von Dimensionswerten
® Dimensionswerte: einfache unstrukturierte
Datentypen (String, Integer, Date)
® Ordnung der Dimensionswerte (interne ganze
Ordnungszahl 2 oder 4 Byte)
→ Endlichkeit der Werteliste
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-44
22
Datenstrukturen
¡ Würfel:
® Für n Dimensionen: n-dimensionaler Raum
® m Dimensionswerte einer Dimension: Aufteilung des
Würfels in m parallele Ebenen
® durch Endlichkeit der Dimensionswerteliste: endliche,
gleichgroße Liste von Ebenen je Dimension
® Zelle eines n-dimensionalen Würfels wird eindeutig
über n-Tupel von Dimensionswerten identifiziert
® Zelle kann ein oder mehrere Kennzahlen eines zuvor
definierten Datentyps aufnehmen
® Bei mehreren Kennzahlen: Alternative → mehrere
Datenwürfel
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-45
Klassifikationshierarchien
¡ Dimensionswerte umfassen alle Ausprägungen der
Dimension: Elemente (Blätter) und Knoten der höheren
Klassifikationsstufen
¡ Knoten der höheren
Stufen bilden
weitere Ebenen
Magdeburg
Halle
Sachsen-Anhalt
Erfurt
Thüringen
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
Januar
Februar
März
1.Quartal
3-46
23
Berechnung von Aggregationen
¡ Echtzeit:
® bei Anfrage von Zellen, die Werte einer höheren,
aggregierten Klassifikationsstufe repräsentieren →
Berechnung aus Detaildaten
® hohe Aktualität, jedoch hoher Aufwand
® eventuell Caching
¡ Vorberechnung:
® nach Übernahme der Detaildaten → Berechnung und
Eintragen der Aggregationswerte in entsprechende Zellen
® Neuberechnung nach jeder Datenübernahme notwendig
® hohe Anfragegeschwindigkeit, jedoch Zunahme der
Würfelgröße und Laufzeitaufwand
¡ Ausweg: inkrementelle Vorberechnung
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-47
Weitere Datenstrukturen
¡ Attribute
® klassifizierende Merkmale einer Dimension
® Identifizierung von Untermengen von Dimensionswerten
(z.B. „Produktfarbe“)
® nicht zur Vorberechnung vorgesehen
¡ Virtueller Würfel
® umfaßt abgeleitete Daten („Gewinn“, „prozentualer
Umsatz“)
® Ableitung aus anderen Würfeln durch Anwendung von
Berechnungsfunktionen ≅ Sichten im relationalen Modell
¡ Teilwürfel
® Kombination mehrerer Ebenen eines Würfels
→ virtueller Würfel
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-48
24
Array-Speicherung
¡ Speicherung des Würfels: n-dimensionales Array
→ Linearisierung in eine eindimensionale Liste
¡ Indizes des Arrays ≅ Koordinaten der Würfelzellen
(Dimensionen Di)
¡ Indexberechnung für Zelle mit Koordinaten x1...xn
Index( z ) = x1 + ( x2 − 1) ⋅D1
+ ( x3 − 1) ⋅D1 ⋅ D2 + ...
+ ( xn − 1) ⋅D1 ⋅... ⋅Dn − 1
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-49
Linearisierungsreihenfolge
D3
D2
Kai-Uwe Sattler
Stefan Conrad
D1
VL Data Warehouses, WS 2000/2001
3-50
25
Array-Speicherung: Probleme
¡ Zahl der Plattenzugriffe bei ungünstigen
Linearisierungsreihenfolgen
® Reihenfolge der Dimensionen ist bei Definition des
Würfels zu beachten
¡ Caching zur Reduzierung notwendig
¡ Speicherung dünn besetzter Würfel
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-51
Grenzen der multidim. Speicherung
¡ Skalierbarkeitsprobleme aufgrund dünn besetzter
Datenräume
¡ teilweise einseitige Optimierung bezüglich
Leseoperationen
¡ Ordnung der Dimensionswerte notwendig (durch ArraySpeicherung)
→ erschwert Änderungen an den Dimensionen
¡ kein Standard für multidimensionale DBMS
¡ Spezialwissen notwendig
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-52
26
Hybride Speicherung
¡ HOLAP: Verbindung der Vorteile beider Welten
® Relational (Skalierbarkeit, Standard)
® Multidimensional (analytische Mächtigkeit, direkte OLAP-
Unterstützung)
¡ Speicherung:
® Relationale Datenbank: Detaildaten
® Multidimensionale Datenbank: aggregierte Daten
® Multidim. Speicherstrukturen als „intelligenter“Cache für
häufig angeforderte Datenwürfel
¡ transparenter Zugriff über multidimensionales
Anfragesystem
Kai-Uwe Sattler
Stefan Conrad
VL Data Warehouses, WS 2000/2001
3-53
27
Herunterladen