OLAP und Data Mining On-Line Analytical Processing

Werbung
OLAP und Data Mining
OLAP
Begriff
Coddsche Regeln
FASMI
Operationen und Anfragesprachen
Data Mining
Begriff und Prozeß
Verfahren
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-1
On-Line Analytical Processing
OLAP: dynamische, multidimensionale Analyse von
Daten mit dem Ziel der Aufdeckung neuer oder
unerwarteter Beziehungen zwischen Variablen
Typische Fragestellungen:
„Mit welchem Produkt wird der größte Umsatz in einer
Region gemacht ?“
„Wie verhält sich der Umsatz im Vergleich zum letzten
Jahr?“
...
Ansatz:
multidimensionale Sichtweise auf Daten → Anpassung des
Datenmodells
Präsentationsunterstützung
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-2
Coddsche Regeln
E.F. Codd (1993): Anforderungen an OLAP-Werkzeuge
1. Multidimensionale konzeptionelle Sichtweise
Betrachtung von (betriebdwirtschaftlichen) Kenngrößen
aus Sicht verschiedener Dimensionen
2. Transparenz
bzgl. Zugriff auf Daten aus unterschiedlichen Quellen
3. Zugriffsmöglichkeit
interne und externe Quellen
4. Gleichbleibende Antwortzeit bei der Berichterstellung
Antwortzeit unabhängig von der Anzahl der Dimensionen
und des Datenvolumens
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-3
1
Coddsche Regeln (2)
5. Client-Server-Architektur
Trennung von Speicherung, Verarbeitung, Präsentation
offene Schnittstelle zum OLAP-Server
6. Generische Dimensionalität
einheitliche Behandlung aller Dimensionen
aber → spezielle Zeitdimensionen
7. Dynamische Behandlung dünn besetzter Matrizen
Anpassung des physischen Schemas an die
Dimensionalität und Datenverteilung
8. Mehrbenutzer-Unterstützung
konkurrierende Zugriffe
Sicherheits- und Integritätsmechanismen, Zugriffsrechte
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-4
Coddsche Regeln (3)
9.
Uneingeschränkte kreuzdimensionale Operationen
automatische Ableitung der Berechnungen, die sich aus den
Hierarchiebeziehungen der Dimensionen ergeben
(Aggregationen)
Definition eigener Berechnungen
10. Intuitive Datenbearbeitung
ergonomische, intuitive Datenbearbeitung
Navigation über Daten, Ausrichtung von
Konsolidierungspfaden
11. Flexible Berichterstellung
Erstellung von Berichten mit beliebiger Datenanordnung
12. Unbegrenzte Anzahl von Dimensionen und Klassiffikationsebenen
keine Einschränkungen der Anzahl der unterstützten
Dimensionen (häufig jedoch max. 5-8)
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-5
Erweiterte Coddsche Regeln (1995)
1. Datenintegration
transparenter Zugriff auf darunterliegende
Quellen zusätzlich zur multidimensionalen
Struktur
2. Unterstützung verschiedener Analysemodelle
spezielle Datenmodelle zur Analyse von
Unternehmensdaten
3. Trennung der analyseorientierten von den
operativen Daten
Änderungen der Daten dürfen sich nicht auf
Quellsysteme auswirken
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-6
2
Erweiterte Coddsche Regeln (2)
4. Trennung der Speicherorte
Schreiboperationen auf OLAP-Bestand nicht in
prduktiven Datenbestand propagieren
5. Unterscheidung zwischen Null- und Fehlwerten
leere Felder vs. numerischer Inhalt
6. Behandlung von fehlenden Werten
effiziente Verwaltung leerer Felder
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-7
Analysemodelle
Zielstellung: dynamische Analyse → „Spielen“ mit Daten
Unterschiedliche Blickwinkel
„What-If“-Simulation
Generierung neuer Würfel, Vergleich mit realen Würfeln
Ableitung von Prognosen, Trends → Data Mining
Modelle
Beschreibend
Erklärend
Bedenkend
Formelbasiert
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-8
Beschreibendes Modell
engl. Categorical
Statisches Analysemodell
Analyse historischer Daten, Auswertungen nur
innerhalb eines fest vorgegebenen
Datenmodells
Einfache Anfragen, tabellarische Aufbereitung
Beispiele: Berichtsgeneratoren,
Tabellenkalkulation
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-9
3
Erklärendes Modell
engl. Exegetical
Statisches Analysemodell mit eingeschränkter
Interaktion
Einfache „Ursachenforschung“ möglich
Starrer Analyseraum (durch Datenbankschema)
Beispiele: Berichtsgeneratoren mit OLAPFunktionalität (Drill-Operationen)
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-10
Bedenkendes Modell
engl. Contemplative
Unterstützung von „What-If“-Szenarien
Erzeugung und Manipulation relevanter
Kenngrößen und Dimensionswerte
Dynamisches Analysemodell mit erhöhter
Interaktion
Beispiele: Werkzeuge mit statistischen
Prognosemodellen (Regression), z.T.
Entscheidungsbäume
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-11
Formelbasiertes Modell
engl. Formularic
Sehr dynamisches Modell mit komplexer
Interaktion
Ermittlung für vorgegebene Anfangs- und
Endzustände, welche Veränderungen für welche
Kenngröße bzgl. Welcher Dimensionen
vorzunehmen sind, um gewünschtes Ergebnis
zu erreichen
Kaum Werkzeuge verfügbar
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-12
4
FASMI
Definition von OLAP: „Fast Analysis of Shared
Multidimensional Information“
Geschwindigkeit (Fast):
Beantwortung der meisten Anwenderanfragen in 5
Sekunden, komplexere in max. 20 Sekunden
Analysemöglichkeit (Analysis):
anwenderfreundliche, intuitive Analyse
Zugriff auf Analysefunktionen ohne Programmieraufwand
Sicherheit (Shared):
Mehrbenutzerfähigkeit
Zugriffsrechte auf Zellenebene
Sperrverfahren für schreibende Zugriffe
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-13
FASMI (2)
Multidimensionalität (Multidimensional):
Multidimensionale, konzeptuelle Sicht
unabhängig vom zugrundeliegenden
Datenbanksystem
Kapazität (Information):
Keine Begrenzung des Datenvolumens bzw. der
Dimensionalität
Skalierbarkeit
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-14
OLAP-Operationen
Pivotierung: Drehen des Würfels durch Vertauschen der
Dimensionen
Roll-Up: Erzeugen neuer Informationen durch
Aggregierung der Daten entlang des
Konsolidierungspfades
Drill-Down: Navigation von aggregierten Daten zu DetailDaten entlang der Klassifikationshierarchie
Drill-Across: Wechsel von einem Würfel zu einem
anderen
Slice: Herausschneiden von „Scheiben“ aus dem Würfel,
Verringerung der Dimensionalität
Dice: Herausschneiden einen „Teilwürfels“, Erhaltung
der Dimensionalität
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-15
5
OLAP-Anfragesprachen
MDSQL (Multidimensional Query Language)
(Platinum Technologies)
„natürlichsprachige“ Anfragen
MDX (Microsoft)
SQL-Erweiterungen: Cube, Rollup, Supergroup
RISQL (Red Brick Intelligent SQL) (Informix)
Erweiterungen hinsichtlich Aggregatfunktionen
(Top10, laufende Durchschnitte und Summen, ...)
und Gruppierung
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-16
Data Mining: Begriffe
Knowledge Discovery in Databases (KDD)
„der nichttriviale Prozeß der Identifikation
gültiger, neuer, potentiell nützlicher und
verständlicher Muster in Datenbeständen“
Data Mining
Teilschritt der Suche und Bewertung von
Hypothesen
Im kommerziellen Umfeld: Synonym für KDD
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-17
KDD: Prozeß
Iterativer und interaktiver Prozeß
1. Festlegung von Problembereich und Zielen
2. Datensammlung und –bereinigung
3. Auswahl und Parametrisierung der
Analysefunktionen und –methoden
4. Data Mining/Mustererkennung
5. Bewertung und Interpretation der Ergebnisse
6. Nutzung des gefundenen Wissens
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-18
6
Data Mining: Verfahren
Erkennung von Abhängigkeiten:
Aufdeckung statistischer Abhängigkeiten
zwischen Variablen relevanter Datensätze →
Assoziationsregeln, Wahrscheinlichkeitsnetze
Bsp.: Warenkorbanalyse
Klassifikation:
Zuordnung von Objekten zu verschiedenen
vorgegebenen Klassen
Ableitung des Klassifikationsmodells aus einer
Trainingsmenge
Bsp.: Kundenklassifkation bzgl. Schadensrisiko
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-19
Data Mining: Verfahren (2)
Clustering:
Einordnung ähnlicher Objekte in neu gebildete
Gruppen
daß Ähnlichkeit innerhalb der Gruppen möglichst
groß sowie zwischen Gruppen möglichst gering
Bsp.: Segmentierung von Kunden im Marketing
Generalisierung:
Methoden zur Aggregation und
Verallgemeinerung großer Datenmengen auf
höherer Abstraktionsebene
Bsp.: interaktive Datenexploration
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-20
Data Mining: Verfahren (3)
Sequenzanalyse:
Suche nach häufig auftretenden Episoden oder
Ereignisfolgen in Datenbeständen mit (zeitlicher)
Ordnung
Bsp.: Clickstream-Analyse
Regression:
Ermittlung des Ursache-Wirkung-
Zusammenhangs zwischen einzelnen Merkmalen
Bsp.: Entwickung von Aktienkursen
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-21
7
Clustering
Ziel: Finden von Gruppen/Segmenten, die aus
ähnlichen Datensätzen bestehen
Einkommen
140000
25
50000
120000
27
55000
26
58000
40
85500
50
100000
55
130000
57
120000
Einkommen
Alter
100000
80000
60000
40000
20000
0
0
10
20
30
40
50
60
Alter
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-22
Clustering: K-Means
Geg.: mehrdimensionale Datenmenge (N = Anzahl der
Dimensionen)
Prinzip:
1.
2.
3.
Bestimme k zufällige Prototypen p aus der Datenmenge
Ordne Datenpunkte dem nächstliegenden Prototyp zu
Minimiere Distanzkriterium k N
i
∑∑ d ( p , x )
i
j
i =1 j =1
Iterativer Algorithmus
Bewege Prototypen zum Mittelwert ihrer Punktmengen
Weise Datenpunkte dem nächstliegenden Prototyp neu
zu
Abbruch: keine Änderung der Zuordnung
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-23
Klassifikation: ID3
Ziel: Vorhersage von Merkmalen
(Klassenzuordnung) anhand anderer Merkmale
Klassifikationsmodell: Entscheidungsbaum
Kunden-ID
Schulden
Einkommen
1
2
3
4
5
6
7
Hoch
Hoch
Hoch
Niedrig
Niedrig
Niedrig
Niedrig
Hoch
Hoch
Niedrig
Niedrig
Niedrig
Hoch
Hoch
Kai-Uwe Sattler
Stefan Conrad
Anstellungsverhältnis
Selbständig
Angestellt
Angestellt
Angestellt
Selbständig
Selbständig
Angestellt
Vorlesung Data-Warehouse-Technologien
Kreditwürdigkeit
Schlecht
Schlecht
Schlecht
Gut
Schlecht
Gut
Gut
9-24
8
Klassifikation: ID3
Entscheidungsbaum
All
Kreditwürdigkeit
(Gut/Schlecht): 3/4
Schulden=Niedrig
Kreditwürdigkeit: 3/1
Ang.verhältnis=
Selbständig
Kreditwürdigkeit: 0/1
Kai-Uwe Sattler
Stefan Conrad
Schulden=Hoch
Kreditwürdigkeit: 0/3
Ang.verhältnis=
Angestellt
Kreditwürdigkeit: 3/0
Vorlesung Data-Warehouse-Technologien
9-25
Klassifikation: ID3
Geg: X = { x1 ,..., xn } ⊂ {1,..., v1} × ... × {1,..., v p } × {1,..., c}
call ID3 (X, Wurzel,{1, ..., p})
ID3 (X, N, 1)
1. if ∀x ∈ X alle x(p+1) gleich then break
2. Berechne Informationsgewinn gj(X) ∀j ∈ I
3.
4.
5.
Bestimme Gewinnerkomponente i = argmax{gj(X)}
Zerlege X in vi disjunkte Teilmengen
Xki = { x ∈ X | x(i) = k }, k = 1, ..., vi
for k mit Xki ≠ {}
Generiere neuen Knoten Nk und hänge ihn an N
call ID3 (Xki, Nk , I\{i})
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-26
Assoziationsregeln
Ziel: Aufdeckung von Zusammenhängen
zwischen Variablen (Warenkorbanalyse)
Bon ID
Ware
1
Milch
1
Butter
4
{ Milch }
2
Milch
3
{ Milch }, { Butter }, {Milch, Butter }
2
Honig
2
Butter
2
3
Milch
3
Brot
{ Milch }, { Butter }, {Milch, Butter }
{ Honig }, { Brot }, { Honig, Brot },
{Honig, Milch }, {Honig, Butter },
{ Brot, Milch }, { Brot, Butter }
3
Butter
4
Milch
4
Brot
4
Honig
Kai-Uwe Sattler
Stefan Conrad
Unterstützung Warenmenge
Frequent Item sets
Transaktionstabelle
Vorlesung Data-Warehouse-Technologien
9-27
9
Assoziationsregeln
Ableitung von Regeln aus Itemsets
„Wenn ein Kunde Milch kauft, dann kauft er auch
Butter.“
Parameterisierung:
minimale Unterstützung (hier: 2)
Genauigkeit (z.B. 75 % für obige Regel)
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-28
Assoziationsregeln: Apriori
Prinzip: mehrere Durchläufe über Daten
L1 := { häufige 1-Itemsets }
for (k := 2; Lk-1 ≠ 0; k++) do {
Ck := apriori-gen (Lk-1); // neue Kandidaten
forall Transaktionen t ∈ D do {
forall Kandidaten c ∈ C enthalten in t do
c.count++;
}
Lk := { c ∈ Ck | c.count ≥ min-support }
}
Ergebnis := Lk
U
k
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-29
Assoziationsregeln: Apriori
Funktion apriori-gen
Verbund zwischen Lk-1 und Lk-1
Verbundbedingung: die lexikographisch geordneten ersten
k-2 Elemente sind gleich
Löschen aller Itemsets, die eine (k-1)-Teilmenge haben,
die nicht in Lk-1 vorkommt
Beispiel:
L3 = {{1 2 3}, {1 2 4}, {1 3 4}, {1 3 5}, {2 3 4}}
Verbund: C4 = {1 2 3 4}, {1 3 4 5}}
Löschen von { 1 3 4 5 } wegen {1 4 5}
Ergebnis C4 = {1 2 3 4}
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-30
10
Data Mining und Data Warehouse
Data Mining:
leistungsfähige Analysemethoden
Auch für DW-Daten
Aber
Sehr aufwendige Verfahren
Problem: Skalierbarkeit (meist
Hauptspeicherbasiert)
Kopplung/Integration:
Datenbanksystem ⇔ Data-Mining-Techniken
Kai-Uwe Sattler
Stefan Conrad
Vorlesung Data-Warehouse-Technologien
9-31
11
Herunterladen