Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik Data Mining und Knowledge Discovery in Databases 1 Begriffsabgrenzungen .........................................................2 2 Phasen der KDD .................................................................3 3 Datenvorverarbeitung..........................................................4 3.1 Datenproblematik.........................................................4 3.2 Möglichkeiten der Datenvorverarbeitung .....................4 4 Data Mining Ziele ................................................................5 5 Wissenschaftliche Einordnung der KDD .............................5 6 Begriffsdefinitionen..............................................................6 7 Data Mining Methoden ........................................................8 8 Beispiele für KDD-Systeme.................................................9 9 Hierarchisches Clustering .................................................10 10 Partitionierendes Clustering ..............................................14 11 Entscheidungsbäume........................................................17 12 Bayes-Klassifikation ..........................................................19 Seite 1 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 1 Begriffsabgrenzungen Definition: Knowledge Discovery in Databases (KDD) Knowledge discovery in databases is the nontrivial process of indentifying valid, novel, potentially useful, and ultimately understandable patterns in data. Definition: Data Mining Data Mining ist ein einzelner Schritt im KDD Prozess, innerhalb dessen bestimmte Data Mining Algorithmen zur Anwendung kommen, die selbständig Annahmen generieren, diese Annahmen prüfen und dem Anwender dann die relevanten Ergebnisse in verständlicher Form präsentieren. Seite 2 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 2 Phasen der KDD Analyse des Anwendungsgebietes Datenzugriff Anforderungs- und Machbarkeitsanalyse Datenvorverarbeitung Daten Umsetzung Exploration Interpretation und Bewertung Anwendung von Data Mining Methoden Einzelnen Phasen eines KDD-Prozess: • Anforderungs- und Machbarkeitsanalyse • Analyse des Anwendungsgebietes • Datenzugriff • Datenvorverarbeitung • Exploration • Anwendung von Data Mining Methoden • Interpretation und Bewertung • Umsetzung Seite 3 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 3 Datenvorverarbeitung 3.1 Datenproblematik • Unvollständigkeit und Spärlichkeit der Daten • Dynamik der Daten • Datenschmutz • Redundanz • Irrelevanten Bestände • Datenvolumen 3.2 Möglichkeiten der Datenvorverarbeitung • Datentransformation • Bearbeitung unreiner Daten • Konstruktion neuer Informationen • Datenselektion Seite 4 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 4 Data Mining Ziele • Cluster-Analyse bzw. Segmentierung • Klassifikation • Konzeptbeschreibung • Prognose • Datenbeschreibung und –zusammenfassung • Erkennung von Abweichungen • Abhängigkeitsanalyse 5 Wissenschaftliche Einordnung der KDD Datenbasen Experten Systeme MaschinenLernen KDD Visualisierung Seite 5 von 22 Statistik Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 6 Begriffsdefinitionen Definition: Datensatz bzw. Objekt Ein logischer Datensatz wird durch ein Tupel X i = ( xi ,1 ,..., xi ,m ) von m ∈ IN Attributen dargestellt. Dabei umfasst die gesamte Datenbasis n Datensätze, nämlich X1,..., X n . Die Gesamtheit aller Datensätze wird durch die Menge der Attribute A1,..., Am beschrieben, wobei für jedes Attribut A j mit j = 1,..., m ein eigener Wertebereich W ( A j ) existiert, aus dem die jeweiligen Ausprägungen der einzelnen Datensätze stammen xi , j ∈ W ( A j ) für i = 1,..., n . Für den Wertebereich aller Attribute zusammengenommen ergibt sich dann entsprechend A = W ( A1 ) × ... × W ( Am ) = Χ im=1W ( Ai ) , auch Merkmalsraum genannt. Seite 6 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik Numerische Attribute • Binäre Attribute z. B. die Werte 0 oder 1 • Diskrete Attribute z. B. die ganzen Zahlen • Kontinuierliche Attribute z. B. die reellen Zahlen Nominale Attribute • Geordnete Attribute z.B. niedrig, mittel, hoch • Ungeordnete Attribute z. B. die Produkte A, B und C Seite 7 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 7 Data Mining Methoden • Freie und überwachte Data Mining Methoden • Hierarchisches Clustering • Partitionierendes Clustering • Entscheidungsbäume • Bayes-Klassifikation Seite 8 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 8 Beispiele für KDD-Systeme • SKICAT (Sky Image Cataloging and Analysis Tool) • TASA (Telecommunication Network Alarm Sequence Analyzer) • Health-KEFIR (Key Findings Reporter) • Steuerung der Prozesstechnik in der Zellstoff- und Papierindustrie • Klassifikation von Verkehrszuständen • Bildverarbeitung – Aufbereitung von Röntgenbildern Seite 9 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 9 Hierarchisches Clustering Agglomeratives hierarchisches Clustering Divisives hierarchisches Clustering Metrik: p x − y = ∑ xi − yi i =1 n 1 p x, y ∈ IR n Single Linkage Methode C1 − C 2 = min x∈C1 , y∈C 2 x − y Complete Linkage Methode C1 − C 2 = max x∈C1 , y∈C2 x − y Average Linkage Methode C1 − C2 = 1 ∑ x− y card (C1 ) ⋅ card (C2 ) x∈C1 , y∈C 2 Seite 10 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik Algorithmus: Hierarchisches Clustering Gegeben: n Datensätze ( X 1 ,..., X n ) , ein Distanzmaß und die Cluster-Anzahl k - Starte mit n Clustern, wobei jeder aus genau einem Datensatz besteht - Berechne für alle Paar von Clustern die Distanzen zwischen ihnen und wähle dasjenige Paar von Clustern, das die geringste Distanz aufweist. Fasse diese beiden Cluster zu einem Cluster zusammen und reduziere die Anzahl der Cluster um eins. - Wiederhole Schritt 2 bis die gewünschte Cluster-Anzahl erreicht ist. Beispiel für hierarchisches Clustering: Datensatz X 1 Attribut 1 1 Attribut 2 1 Datensatz X 2 4,3 4,1 Datensatz X 3 1,9 2,1 Datensatz X 4 3,7 5,2 Datensatz X 5 0,7 2,2 Datensatz X 6 4,2 4,1 d ( X i , X j ) = di , j = ∑ (X i , k − X j , k )2 k =1 2 Seite 11 von 22 1 2 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 0 3,86 1,42 4,99 1,53 4,46 0 2,44 1,17 3,22 0,9 0 3,58 1,2 3,05 D= 0 4,24 1,21 0 3,98 0 X1 d1,3 X3 Cluster 1 d 3, 5 X5 X2 d 2,6 X6 d 2, 4 Cluster 2 X4 Schritt 1 Schritt 2 Schritt 3 Seite 12 von 22 Schritt 4 Schritt 5 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik Attribut 2 4 5 4 2 6 Cluster 2 3 2 5 3 1 1 Cluster 1 Attribut 1 1 2 Seite 13 von 22 3 4 5 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 10 Partitionierendes Clustering Minimiere n k ∑∑ i=1 j =1 Xi − v j mit den Datensätzen Xi und den Cluster-Zentren vj Algorithmus: K-means-Verfahren Gegeben: n Datensätze ( X 1,..., X n ) , ein Distanzmaß und die Cluster-Anzahl k - Wähle k verschiedene Datensätze als vorläufige Zentren der Cluster. Dies können beliebige, neue Datensätze oder aber auch k der insgesamt n ursprünglichen Datensätze sein. - Ermittle für jeden Datensatz X l der Datensätze ( X 1,..., X n ) dasjenige Zentrum v j eines Clusters C j , so dass die Distanz d ( X l , v j ) für alle Cluster-Zentren v1,..., vk minimal wird. - Berechne als neues Cluster-Zentrum v j als den Mittelwert aus dem alten Cluster-Zentrum und dem Datensatz X l . - Wiederhole die Schritte 2 und 3 bis ein entsprechendes Abbruch-Kriterium erreicht ist (z. B. die angestrebte Cluster-Anzahl). Seite 14 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik - Überprüfe für alle Datensätze ( X 1,..., X n ) , ob sie in demjenigen Cluster liegen, zu dessen sie Zentrum sie die geringste Distanz aufweisen. Andernfalls sind Austauschungen vorzunehmen. Beispiel für das K-means-Verfahren: Datensatz X 1 Attribut 1 1 Attribut 2 1 Datensatz X 2 4,3 4,1 Datensatz X 3 1,9 2,1 Datensatz X 4 3,7 5,2 Datensatz X 5 0,7 2,2 Datensatz X 6 4,2 4,1 Cluster 1 mit den Datensätzen 1, 3 und 5 sowie dem Cluster-Zentrum v1''' = (1,2 | 1,9) Cluster 2 mit den Datensätzen 2, 4 und 6 sowie dem Cluster-Zentrum v2''' = (3,9 | 4,4) Seite 15 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik Attribut 2 4 v2 5 v2''' 4 2 6 Cluster 2 3 2 ''' 5 v1 3 1 v1 1 Cluster 1 Attribut 1 1 2 3 Seite 16 von 22 4 5 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 11 Entscheidungsbäume IF Bedingung 1 (Bedingung 2 )(Bedingung 3) … THEN Entscheidung 1 (Entscheidung 2)(Entscheidung 3) Beispiel für einen Entscheidungsbaum Kunden Textilien Geschenkartikel Durchschnittspreis Katalogent (M1) (M2) (M3) scheidung X1 mittel wenig mittel T X2 wenig mittel niedrig N X3 mittel viel mittel TG X4 viel wenig hoch T X5 wenig mittel hoch G X6 viel mittel niedrig TG X7 wenig viel niedrig G X8 mittel wenig niedrig N X9 viel wenig niedrig T X 10 wenig wenig hoch N X 11 wenig viel mittel G X 12 viel viel hoch TG Seite 17 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik Datensätze 1,...,12 M2 = wenig M2 = mittel Datensätze 1,4,8,9,10 Datensätze 2,5,6 M1 = wenig M1 = mittel M1 = viel M1 = wenig 10 1,8 4,9 2,6 N M1 = mittel T M3 = M3 = niedrig mittel 8 1 N T M3 = hoch ? M3 = M3 = niedrig mittel 2 ? M2 = viel N M3 = hoch 6 ? TG Seite 18 von 22 Datensätze 3,7,11,12 M1 = viel M1 = wenig M1 = mittel M1 = viel 5 7,11 3 12 G G TG TG Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 12 Bayes-Klassifikation P(Ci ) Wahrscheinlichkeit, dass ein Objekt zur Klasse Ci gehört. P( X ) Wahrscheinlichkeit, dass ein Objekt X vorliegt. P(Ci | X ) Wahrscheinlichkeit, dass das Objekt X zur Klasse C i gehört. P( X | Ci ) Wahrscheinlichkeit, dass das Objekt X ist, unter der Bedingung, dass das Objekt zur Klasse C i gehört. Entscheidungsregel: Ein Objekt X sei neu zu klassifizieren. Das Risiko einer falschen Klassifikation soll dabei minimiert werden. Dementsprechend wird das Objekt X der Klasse C j mit j ∈ {1,..., k} zugeteilt, für die gilt: P( X | C j ) ⋅ P (C j ) > P ( X | Ci ) ⋅ P(Ci ) für alle i ≠ j bzw. P(C j | X ) > P(Ci | X ) Seite 19 von 22 für alle i ≠ j Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik Beispiel Bayes-Klassifikation: Kunden Textilien Geschenkartikel Durchschnittspreis Katalogent- (M1) (M2) (M3) scheidung X1 0 -1 0 T X2 -1 0 -1 N X3 0 1 0 TG X4 1 -1 1 T X5 -1 0 1 G X6 1 0 -1 TG X7 -1 1 -1 G X8 0 -1 -1 N X9 1 -1 -1 T X 10 -1 -1 1 N X 11 -1 1 0 G X 12 1 1 1 TG Orthogonale Basisfunktionen P * ( X | C1 ) = 1 1 3 + x1 − x2 8 4 8 P * ( X | C2 ) = 1 3 1 − x1 + x2 8 8 4 P * ( X | C3 ) = 1 1 1 + x1 + x2 8 4 4 P * ( X | C4 ) = 1 1 1 1 − x1 − x2 − x3 8 4 4 8 Seite 20 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik Endgültige Entscheidungsfunktionen: D1 ( X ) = 1 1 3 + x1 − x2 32 16 32 D2 ( X ) = 1 3 1 − x1 + x2 32 32 16 D3 ( X ) = 1 1 1 + x1 + x2 32 16 16 D4 ( X ) = 1 1 1 1 − x1 − x2 − x3 32 16 16 32 Seite 21 von 22 Prof. Dr. M.-R. Wolff BWL / Wirtschaftsinformatik 13 Literatur • Adriaans, P. ; Data Mining; Addison-Wesley, Harlow, England, 1997 • Chamoni, P. ;Analytische Informationssysteme - data warehouse, on-line analytical processing, data mining; Springer, Berlin, 1998 • Fayyad, U. M. [Hrsg.] Advances in knowledge discovery and data mining; AAAI Press , Menlo Park, California, 1996 • Lusti, M. ; Data warehousing und data mining - eine Einführung in entscheidungsunterstützende Systeme; Springer, Berlin, 1999 • Nakhaeizadeh, G. [Hrsg.] Data Mining - theoretische Aspekte und Anwendungen; Physica-Verlag, Heidelberg, 1998 • Runkler A. T. ; Information Mining - Methoden, Algorithmen und Anwendungen intelligenter Datenanalyse; Vieweg – Gabler, Braunschweig / Wiesbaden, 2000 • Wittmann, T. ; Data mining - Entwicklung und Einsatz robuster Verfahren für betriebswirtschaftliche Anwendungen; Lang, Frankfurt am Main, 2000 Seite 22 von 22