OLAP und Data Mining OLAP Begriff Coddsche Regeln FASMI Operationen und Anfragesprachen Data Mining Begriff und Prozeß Verfahren Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-1 On-Line Analytical Processing OLAP: dynamische, multidimensionale Analyse von Daten mit dem Ziel der Aufdeckung neuer oder unerwarteter Beziehungen zwischen Variablen Typische Fragestellungen: „Mit welchem Produkt wird der größte Umsatz in einer Region gemacht ?“ „Wie verhält sich der Umsatz im Vergleich zum letzten Jahr?“ ... Ansatz: multidimensionale Sichtweise auf Daten → Anpassung des Datenmodells Präsentationsunterstützung Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-2 Coddsche Regeln E.F. Codd (1993): Anforderungen an OLAP-Werkzeuge 1. Multidimensionale konzeptionelle Sichtweise Betrachtung von (betriebdwirtschaftlichen) Kenngrößen aus Sicht verschiedener Dimensionen 2. Transparenz bzgl. Zugriff auf Daten aus unterschiedlichen Quellen 3. Zugriffsmöglichkeit interne und externe Quellen 4. Gleichbleibende Antwortzeit bei der Berichterstellung Antwortzeit unabhängig von der Anzahl der Dimensionen und des Datenvolumens Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-3 1 Coddsche Regeln (2) 5. Client-Server-Architektur Trennung von Speicherung, Verarbeitung, Präsentation offene Schnittstelle zum OLAP-Server 6. Generische Dimensionalität einheitliche Behandlung aller Dimensionen aber → spezielle Zeitdimensionen 7. Dynamische Behandlung dünn besetzter Matrizen Anpassung des physischen Schemas an die Dimensionalität und Datenverteilung 8. Mehrbenutzer-Unterstützung konkurrierende Zugriffe Sicherheits- und Integritätsmechanismen, Zugriffsrechte Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-4 Coddsche Regeln (3) 9. Uneingeschränkte kreuzdimensionale Operationen automatische Ableitung der Berechnungen, die sich aus den Hierarchiebeziehungen der Dimensionen ergeben (Aggregationen) Definition eigener Berechnungen 10. Intuitive Datenbearbeitung ergonomische, intuitive Datenbearbeitung Navigation über Daten, Ausrichtung von Konsolidierungspfaden 11. Flexible Berichterstellung Erstellung von Berichten mit beliebiger Datenanordnung 12. Unbegrenzte Anzahl von Dimensionen und Klassiffikationsebenen keine Einschränkungen der Anzahl der unterstützten Dimensionen (häufig jedoch max. 5-8) Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-5 Erweiterte Coddsche Regeln (1995) 1. Datenintegration transparenter Zugriff auf darunterliegende Quellen zusätzlich zur multidimensionalen Struktur 2. Unterstützung verschiedener Analysemodelle spezielle Datenmodelle zur Analyse von Unternehmensdaten 3. Trennung der analyseorientierten von den operativen Daten Änderungen der Daten dürfen sich nicht auf Quellsysteme auswirken Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-6 2 Erweiterte Coddsche Regeln (2) 4. Trennung der Speicherorte Schreiboperationen auf OLAP-Bestand nicht in prduktiven Datenbestand propagieren 5. Unterscheidung zwischen Null- und Fehlwerten leere Felder vs. numerischer Inhalt 6. Behandlung von fehlenden Werten effiziente Verwaltung leerer Felder Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-7 Analysemodelle Zielstellung: dynamische Analyse → „Spielen“ mit Daten Unterschiedliche Blickwinkel „What-If“-Simulation Generierung neuer Würfel, Vergleich mit realen Würfeln Ableitung von Prognosen, Trends → Data Mining Modelle Beschreibend Erklärend Bedenkend Formelbasiert Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-8 Beschreibendes Modell engl. Categorical Statisches Analysemodell Analyse historischer Daten, Auswertungen nur innerhalb eines fest vorgegebenen Datenmodells Einfache Anfragen, tabellarische Aufbereitung Beispiele: Berichtsgeneratoren, Tabellenkalkulation Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-9 3 Erklärendes Modell engl. Exegetical Statisches Analysemodell mit eingeschränkter Interaktion Einfache „Ursachenforschung“ möglich Starrer Analyseraum (durch Datenbankschema) Beispiele: Berichtsgeneratoren mit OLAPFunktionalität (Drill-Operationen) Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-10 Bedenkendes Modell engl. Contemplative Unterstützung von „What-If“-Szenarien Erzeugung und Manipulation relevanter Kenngrößen und Dimensionswerte Dynamisches Analysemodell mit erhöhter Interaktion Beispiele: Werkzeuge mit statistischen Prognosemodellen (Regression), z.T. Entscheidungsbäume Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-11 Formelbasiertes Modell engl. Formularic Sehr dynamisches Modell mit komplexer Interaktion Ermittlung für vorgegebene Anfangs- und Endzustände, welche Veränderungen für welche Kenngröße bzgl. Welcher Dimensionen vorzunehmen sind, um gewünschtes Ergebnis zu erreichen Kaum Werkzeuge verfügbar Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-12 4 FASMI Definition von OLAP: „Fast Analysis of Shared Multidimensional Information“ Geschwindigkeit (Fast): Beantwortung der meisten Anwenderanfragen in 5 Sekunden, komplexere in max. 20 Sekunden Analysemöglichkeit (Analysis): anwenderfreundliche, intuitive Analyse Zugriff auf Analysefunktionen ohne Programmieraufwand Sicherheit (Shared): Mehrbenutzerfähigkeit Zugriffsrechte auf Zellenebene Sperrverfahren für schreibende Zugriffe Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-13 FASMI (2) Multidimensionalität (Multidimensional): Multidimensionale, konzeptuelle Sicht unabhängig vom zugrundeliegenden Datenbanksystem Kapazität (Information): Keine Begrenzung des Datenvolumens bzw. der Dimensionalität Skalierbarkeit Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-14 OLAP-Operationen Pivotierung: Drehen des Würfels durch Vertauschen der Dimensionen Roll-Up: Erzeugen neuer Informationen durch Aggregierung der Daten entlang des Konsolidierungspfades Drill-Down: Navigation von aggregierten Daten zu DetailDaten entlang der Klassifikationshierarchie Drill-Across: Wechsel von einem Würfel zu einem anderen Slice: Herausschneiden von „Scheiben“ aus dem Würfel, Verringerung der Dimensionalität Dice: Herausschneiden einen „Teilwürfels“, Erhaltung der Dimensionalität Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-15 5 OLAP-Anfragesprachen MDSQL (Multidimensional Query Language) (Platinum Technologies) „natürlichsprachige“ Anfragen MDX (Microsoft) SQL-Erweiterungen: Cube, Rollup, Supergroup RISQL (Red Brick Intelligent SQL) (Informix) Erweiterungen hinsichtlich Aggregatfunktionen (Top10, laufende Durchschnitte und Summen, ...) und Gruppierung Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-16 Data Mining: Begriffe Knowledge Discovery in Databases (KDD) „der nichttriviale Prozeß der Identifikation gültiger, neuer, potentiell nützlicher und verständlicher Muster in Datenbeständen“ Data Mining Teilschritt der Suche und Bewertung von Hypothesen Im kommerziellen Umfeld: Synonym für KDD Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-17 KDD: Prozeß Iterativer und interaktiver Prozeß 1. Festlegung von Problembereich und Zielen 2. Datensammlung und –bereinigung 3. Auswahl und Parametrisierung der Analysefunktionen und –methoden 4. Data Mining/Mustererkennung 5. Bewertung und Interpretation der Ergebnisse 6. Nutzung des gefundenen Wissens Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-18 6 Data Mining: Verfahren Erkennung von Abhängigkeiten: Aufdeckung statistischer Abhängigkeiten zwischen Variablen relevanter Datensätze → Assoziationsregeln, Wahrscheinlichkeitsnetze Bsp.: Warenkorbanalyse Klassifikation: Zuordnung von Objekten zu verschiedenen vorgegebenen Klassen Ableitung des Klassifikationsmodells aus einer Trainingsmenge Bsp.: Kundenklassifkation bzgl. Schadensrisiko Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-19 Data Mining: Verfahren (2) Clustering: Einordnung ähnlicher Objekte in neu gebildete Gruppen daß Ähnlichkeit innerhalb der Gruppen möglichst groß sowie zwischen Gruppen möglichst gering Bsp.: Segmentierung von Kunden im Marketing Generalisierung: Methoden zur Aggregation und Verallgemeinerung großer Datenmengen auf höherer Abstraktionsebene Bsp.: interaktive Datenexploration Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-20 Data Mining: Verfahren (3) Sequenzanalyse: Suche nach häufig auftretenden Episoden oder Ereignisfolgen in Datenbeständen mit (zeitlicher) Ordnung Bsp.: Clickstream-Analyse Regression: Ermittlung des Ursache-Wirkung- Zusammenhangs zwischen einzelnen Merkmalen Bsp.: Entwickung von Aktienkursen Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-21 7 Clustering Ziel: Finden von Gruppen/Segmenten, die aus ähnlichen Datensätzen bestehen Einkommen 140000 25 50000 120000 27 55000 26 58000 40 85500 50 100000 55 130000 57 120000 Einkommen Alter 100000 80000 60000 40000 20000 0 0 10 20 30 40 50 60 Alter Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-22 Clustering: K-Means Geg.: mehrdimensionale Datenmenge (N = Anzahl der Dimensionen) Prinzip: 1. 2. 3. Bestimme k zufällige Prototypen p aus der Datenmenge Ordne Datenpunkte dem nächstliegenden Prototyp zu Minimiere Distanzkriterium k N i ∑∑ d ( p , x ) i j i =1 j =1 Iterativer Algorithmus Bewege Prototypen zum Mittelwert ihrer Punktmengen Weise Datenpunkte dem nächstliegenden Prototyp neu zu Abbruch: keine Änderung der Zuordnung Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-23 Klassifikation: ID3 Ziel: Vorhersage von Merkmalen (Klassenzuordnung) anhand anderer Merkmale Klassifikationsmodell: Entscheidungsbaum Kunden-ID Schulden Einkommen 1 2 3 4 5 6 7 Hoch Hoch Hoch Niedrig Niedrig Niedrig Niedrig Hoch Hoch Niedrig Niedrig Niedrig Hoch Hoch Kai-Uwe Sattler Stefan Conrad Anstellungsverhältnis Selbständig Angestellt Angestellt Angestellt Selbständig Selbständig Angestellt Vorlesung Data-Warehouse-Technologien Kreditwürdigkeit Schlecht Schlecht Schlecht Gut Schlecht Gut Gut 9-24 8 Klassifikation: ID3 Entscheidungsbaum All Kreditwürdigkeit (Gut/Schlecht): 3/4 Schulden=Niedrig Kreditwürdigkeit: 3/1 Ang.verhältnis= Selbständig Kreditwürdigkeit: 0/1 Kai-Uwe Sattler Stefan Conrad Schulden=Hoch Kreditwürdigkeit: 0/3 Ang.verhältnis= Angestellt Kreditwürdigkeit: 3/0 Vorlesung Data-Warehouse-Technologien 9-25 Klassifikation: ID3 Geg: X = { x1 ,..., xn } ⊂ {1,..., v1} × ... × {1,..., v p } × {1,..., c} call ID3 (X, Wurzel,{1, ..., p}) ID3 (X, N, 1) 1. if ∀x ∈ X alle x(p+1) gleich then break 2. Berechne Informationsgewinn gj(X) ∀j ∈ I 3. 4. 5. Bestimme Gewinnerkomponente i = argmax{gj(X)} Zerlege X in vi disjunkte Teilmengen Xki = { x ∈ X | x(i) = k }, k = 1, ..., vi for k mit Xki ≠ {} Generiere neuen Knoten Nk und hänge ihn an N call ID3 (Xki, Nk , I\{i}) Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-26 Assoziationsregeln Ziel: Aufdeckung von Zusammenhängen zwischen Variablen (Warenkorbanalyse) Bon ID Ware 1 Milch 1 Butter 4 { Milch } 2 Milch 3 { Milch }, { Butter }, {Milch, Butter } 2 Honig 2 Butter 2 3 Milch 3 Brot { Milch }, { Butter }, {Milch, Butter } { Honig }, { Brot }, { Honig, Brot }, {Honig, Milch }, {Honig, Butter }, { Brot, Milch }, { Brot, Butter } 3 Butter 4 Milch 4 Brot 4 Honig Kai-Uwe Sattler Stefan Conrad Unterstützung Warenmenge Frequent Item sets Transaktionstabelle Vorlesung Data-Warehouse-Technologien 9-27 9 Assoziationsregeln Ableitung von Regeln aus Itemsets „Wenn ein Kunde Milch kauft, dann kauft er auch Butter.“ Parameterisierung: minimale Unterstützung (hier: 2) Genauigkeit (z.B. 75 % für obige Regel) Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-28 Assoziationsregeln: Apriori Prinzip: mehrere Durchläufe über Daten L1 := { häufige 1-Itemsets } for (k := 2; Lk-1 ≠ 0; k++) do { Ck := apriori-gen (Lk-1); // neue Kandidaten forall Transaktionen t ∈ D do { forall Kandidaten c ∈ C enthalten in t do c.count++; } Lk := { c ∈ Ck | c.count ≥ min-support } } Ergebnis := Lk U k Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-29 Assoziationsregeln: Apriori Funktion apriori-gen Verbund zwischen Lk-1 und Lk-1 Verbundbedingung: die lexikographisch geordneten ersten k-2 Elemente sind gleich Löschen aller Itemsets, die eine (k-1)-Teilmenge haben, die nicht in Lk-1 vorkommt Beispiel: L3 = {{1 2 3}, {1 2 4}, {1 3 4}, {1 3 5}, {2 3 4}} Verbund: C4 = {1 2 3 4}, {1 3 4 5}} Löschen von { 1 3 4 5 } wegen {1 4 5} Ergebnis C4 = {1 2 3 4} Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-30 10 Data Mining und Data Warehouse Data Mining: leistungsfähige Analysemethoden Auch für DW-Daten Aber Sehr aufwendige Verfahren Problem: Skalierbarkeit (meist Hauptspeicherbasiert) Kopplung/Integration: Datenbanksystem ⇔ Data-Mining-Techniken Kai-Uwe Sattler Stefan Conrad Vorlesung Data-Warehouse-Technologien 9-31 11