Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 – Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 169 Struktur der DVEW 1 2 3 4 5 6 7 8 Einführung und Motivation Klassische und regelbasierte Wissensrepräsentation Qualitative Unsicherheit – Default-Logiken Quantitative Unsicherheit – Wahrscheinlichkeiten & Co. Wissenserwerb und Wissensentdeckung Agenten, Aktionen und Planen Wissensrevision Wiederholung und Fragestunde G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 2 / 169 Wissenserwerb und Wissensentdeckung Kapitel 5 5. Wissenserwerb und Wissensentdeckung G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 3 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Übersicht Kapitel 5 5.1 (Kurze) Einführung G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Übersicht Kapitel 5 5.1 (Kurze) Einführung 5.2 Clustering G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Übersicht Kapitel 5 5.1 (Kurze) Einführung 5.2 Clustering 5.3 Entscheidungsbäume G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Übersicht Kapitel 5 5.1 (Kurze) Einführung 5.2 Clustering 5.3 Entscheidungsbäume 5.4 Assoziationsregeln G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Übersicht Kapitel 5 5.1 (Kurze) Einführung 5.2 Clustering 5.3 Entscheidungsbäume 5.4 Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 4 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Kapitel 5 5. Wissenserwerb und Wissensentdeckung 5.1 (Kurze) Einführung G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 5 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Maschinelles Lernen – Definitionen • Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Maschinelles Lernen – Definitionen • Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] • Lernen bedeutet die Konstruktion oder Modifikation von Repräsentationen unserer Erfahrungen [Michalski 86] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Maschinelles Lernen – Definitionen • Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] • Lernen bedeutet die Konstruktion oder Modifikation von Repräsentationen unserer Erfahrungen [Michalski 86] • Die Untersuchung und maschinelle Modellierung von Lernprozessen in ihren vielfältigen Ausprägungen stellen das Hauptthema des maschinellen Lernens dar [Carbonell, Michalski, Mitchell 83] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Maschinelles Lernen – Definitionen • Lernen bedeutet adaptive Systemveränderungen, die das System in die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter und effektiver zu erfüllen. [Simon 83] • Lernen bedeutet die Konstruktion oder Modifikation von Repräsentationen unserer Erfahrungen [Michalski 86] • Die Untersuchung und maschinelle Modellierung von Lernprozessen in ihren vielfältigen Ausprägungen stellen das Hauptthema des maschinellen Lernens dar [Carbonell, Michalski, Mitchell 83] • Forschung im Bereich des maschinellen Lernens beinhaltet die Implementation von Computer-Programmen, die in der Lage sind, durch Informationsinput neues Wissen aufzubauen oder vorhandenes Wissen zu verbessern. [Michalski, Kodratoff 90]. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 6 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Schema eines Lernmodells Environment G. Kern-Isberner (TU Dortmund) Performance Knowledge Element Base Learning Element DVEW WiSe 2016/17 7 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Lernstrategien 1/2 Lernen • durch direkte Eingabe von Wissen in die Wissensbasis G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Lernstrategien 1/2 Lernen • durch direkte Eingabe von Wissen in die Wissensbasis • durch Deduktion G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Lernstrategien 1/2 Lernen • durch direkte Eingabe von Wissen in die Wissensbasis • durch Deduktion • durch Analogieschließen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Lernstrategien 1/2 Lernen • durch direkte Eingabe von Wissen in die Wissensbasis • durch Deduktion • durch Analogieschließen • aus Beispielen (überwachtes Lernen) • von einer “Quelle”(Lehrer, Umgebung) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Lernstrategien 1/2 Lernen • durch direkte Eingabe von Wissen in die Wissensbasis • durch Deduktion • durch Analogieschließen • aus Beispielen (überwachtes Lernen) • von einer “Quelle”(Lehrer, Umgebung) • positive und/oder negative Beispiele G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Lernstrategien 1/2 Lernen • durch direkte Eingabe von Wissen in die Wissensbasis • durch Deduktion • durch Analogieschließen • aus Beispielen (überwachtes Lernen) • von einer “Quelle”(Lehrer, Umgebung) • positive und/oder negative Beispiele • inkrementell vs. alle auf einmal G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Lernstrategien 1/2 Lernen • durch direkte Eingabe von Wissen in die Wissensbasis • durch Deduktion • durch Analogieschließen • aus Beispielen (überwachtes Lernen) • von einer “Quelle”(Lehrer, Umgebung) • positive und/oder negative Beispiele • inkrementell vs. alle auf einmal • aus Beobachtungen & Experimenten (unüberwachtes Lernen) • Beobachten der Umgebung (passiv) • Ausführen von Experimenten (aktiv) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 8 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Lernstrategien 2/2 • Überwachtes vs. unüberwachtes Lernen • Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher bekannt, wird datengetrieben vorgenommen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 9 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Lernstrategien 2/2 • Überwachtes vs. unüberwachtes Lernen • Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher bekannt, wird datengetrieben vorgenommen; • Überwachte Klassifikation (Diskriminanzanalyse): Bereits klassifizierte Beispiele vorgegeben; Aufgabe ist, ein neues Beispiel zu klassifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 9 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Lernstrategien 2/2 • Überwachtes vs. unüberwachtes Lernen • Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher bekannt, wird datengetrieben vorgenommen; • Überwachte Klassifikation (Diskriminanzanalyse): Bereits klassifizierte Beispiele vorgegeben; Aufgabe ist, ein neues Beispiel zu klassifizieren. • Inkrementelles vs. nicht-inkrementelles Lernen: Hier wird danach unterschieden, ob die Beispiele/Beobachtungen alle zu Beginn zur Verfügung stehen müssen oder nach und nach verarbeitet werden können. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 9 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Typen des gelernten Wissens • Parameter in algebraischen Ausdrücken G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Typen des gelernten Wissens • Parameter in algebraischen Ausdrücken • Entscheidungsbäume G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Typen des gelernten Wissens • Parameter in algebraischen Ausdrücken • Entscheidungsbäume • formale Grammatiken G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Typen des gelernten Wissens • Parameter in algebraischen Ausdrücken • Entscheidungsbäume • formale Grammatiken • Regeln (Assoziationsregeln) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Typen des gelernten Wissens • Parameter in algebraischen Ausdrücken • Entscheidungsbäume • formale Grammatiken • Regeln (Assoziationsregeln) • Konzepte G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Typen des gelernten Wissens • Parameter in algebraischen Ausdrücken • Entscheidungsbäume • formale Grammatiken • Regeln (Assoziationsregeln) • Konzepte • Ontologien G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169 Wissenserwerb und Wissensentdeckung (Kurze) Einführung Typen des gelernten Wissens • Parameter in algebraischen Ausdrücken • Entscheidungsbäume • formale Grammatiken • Regeln (Assoziationsregeln) • Konzepte • Ontologien • Bayes-Netze • ... G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 10 / 169 Wissenserwerb und Wissensentdeckung Clustering Übersicht Kapitel 5 5.1 (Kurze) Einführung 5.2 Clustering 5.3 Entscheidungsbäume 5.4 Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 11 / 169 Wissenserwerb und Wissensentdeckung Clustering Kapitel 5 5. Wissenserwerb und Wissensentdeckung 5.2 Clustering G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 12 / 169 Wissenserwerb und Wissensentdeckung Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169 Wissenserwerb und Wissensentdeckung Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. Kriterien für die Aufteilung in Cluster: • Ähnlichkeit innerhalb eines Clusters (intra-class similarity); G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169 Wissenserwerb und Wissensentdeckung Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. Kriterien für die Aufteilung in Cluster: • Ähnlichkeit innerhalb eines Clusters (intra-class similarity); • Unähnlichkeit zwischen (verschiedenen) Clusters (inter-class dissimilarity). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169 Wissenserwerb und Wissensentdeckung Clustering Clustering als unüberwachtes Lernen Unter Clustering oder Cluster-Analyse versteht man die unüberwachte Organisation einer Sammlung von Beobachtungen (Daten) in Gruppen. Kriterien für die Aufteilung in Cluster: • Ähnlichkeit innerhalb eines Clusters (intra-class similarity); • Unähnlichkeit zwischen (verschiedenen) Clusters (inter-class dissimilarity). Beobachtungen innerhalb eines Clusters sind zueinander ähnlicher als zu Beobachtungen aus anderen Clustern. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 13 / 169 Wissenserwerb und Wissensentdeckung Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: • Repräsentation von Beobachtungen (Daten) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169 Wissenserwerb und Wissensentdeckung Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: • Repräsentation von Beobachtungen (Daten) • Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169 Wissenserwerb und Wissensentdeckung Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: • Repräsentation von Beobachtungen (Daten) • Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) • den eigentlichen Clustering-Vorgang G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169 Wissenserwerb und Wissensentdeckung Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: • Repräsentation von Beobachtungen (Daten) • Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) • den eigentlichen Clustering-Vorgang • Datenabstraktion (bei Bedarf) (→ Wissensdarstellung) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169 Wissenserwerb und Wissensentdeckung Clustering Clustering-Prozess Ein Clustering-Prozess besteht aus folgenden Schritten: • Repräsentation von Beobachtungen (Daten) • Definition eines Ähnlichkeitsmaßes für Daten (passend zum Problembereich) • den eigentlichen Clustering-Vorgang • Datenabstraktion (bei Bedarf) (→ Wissensdarstellung) • Beurteilung des Outputs (bei Bedarf) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 15 / 169 Wissenserwerb und Wissensentdeckung Clustering Unterschiedliche Clusterformen Y x x x x x x x x x x x x x xx x x x x x x x x x xx xx x xxx x x x x x x x x x X G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 20 / 169 Wissenserwerb und Wissensentdeckung Clustering Unterschiedliche Clusterformen Y Y 5 4 4 4 4 4 5 5 5 4 3 5 5 4 33 4 3 4 4 4 4 4 4 x x x x x x x x x x x x x xx x x x x x x x x x xx xx x xxx x x x x x x x x 22 22 x 1 111 1 6 6 6 6 7 7 7 7 X X G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 20 / 169 Wissenserwerb und Wissensentdeckung Clustering Quadratfehler-Kriterium Das am weitesten verbreitete globale Kriterien zur Beurteilung der Güte einer partitionierenden Clusterung ist der quadratische Fehler (squared error), der bei einer Partitionierung P (mit K Clustern) der Datenmenge B wie folgt berechnet wird: e2 (B, P) = PK Pnj j=1 i=1 (j) k xi − c j k 2 (j) wobei xi die i-te Beobachtung des j-ten Clusters und cj das Zentroid des j-ten Clusters ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 41 / 169 Wissenserwerb und Wissensentdeckung Clustering Quadratfehler-Kriterium Das am weitesten verbreitete globale Kriterien zur Beurteilung der Güte einer partitionierenden Clusterung ist der quadratische Fehler (squared error), der bei einer Partitionierung P (mit K Clustern) der Datenmenge B wie folgt berechnet wird: e2 (B, P) = PK Pnj j=1 i=1 (j) k xi − c j k 2 (j) wobei xi die i-te Beobachtung des j-ten Clusters und cj das Zentroid des j-ten Clusters ist. Der populärste Clustering-Algorithmus, der das Quadratfehler-Kriterium verwendet, ist das sog. k-means-Clustering. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 41 / 169 Wissenserwerb und Wissensentdeckung Clustering k-means-Clustering 1/2 • Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169 Wissenserwerb und Wissensentdeckung Clustering k-means-Clustering 1/2 • Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. • Ordne jede Beobachtung dem nächsten Zentroid zu. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169 Wissenserwerb und Wissensentdeckung Clustering k-means-Clustering 1/2 • Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. • Ordne jede Beobachtung dem nächsten Zentroid zu. • Berechne neue Zentroide der so entstehenden Cluster (z.B. als Mittelwerte). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169 Wissenserwerb und Wissensentdeckung Clustering k-means-Clustering 1/2 • Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. • Ordne jede Beobachtung dem nächsten Zentroid zu. • Berechne neue Zentroide der so entstehenden Cluster (z.B. als Mittelwerte). • Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium erfüllt ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169 Wissenserwerb und Wissensentdeckung Clustering k-means-Clustering 1/2 • Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. • Ordne jede Beobachtung dem nächsten Zentroid zu. • Berechne neue Zentroide der so entstehenden Cluster (z.B. als Mittelwerte). • Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium erfüllt ist. Typische Konvergenzkriterien sind: • die Partitionierung bleibt stabil; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169 Wissenserwerb und Wissensentdeckung Clustering k-means-Clustering 1/2 • Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k Clustern. • Ordne jede Beobachtung dem nächsten Zentroid zu. • Berechne neue Zentroide der so entstehenden Cluster (z.B. als Mittelwerte). • Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium erfüllt ist. Typische Konvergenzkriterien sind: • die Partitionierung bleibt stabil; • der Quadratfehler verändert sich nicht. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 42 / 169 Wissenserwerb und Wissensentdeckung Clustering k-means-Clustering 2/2 Vorteile von k-means: • leicht zu implementieren; • lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169 Wissenserwerb und Wissensentdeckung Clustering k-means-Clustering 2/2 Vorteile von k-means: • leicht zu implementieren; • lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). Nachteile von k-means: • Güte der Partitionierung hängt stark von der initialen Partitionierung ab; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169 Wissenserwerb und Wissensentdeckung Clustering k-means-Clustering 2/2 Vorteile von k-means: • leicht zu implementieren; • lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). Nachteile von k-means: • Güte der Partitionierung hängt stark von der initialen Partitionierung ab; • kann in lokales Optimum konvergieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169 Wissenserwerb und Wissensentdeckung Clustering k-means-Clustering 2/2 Vorteile von k-means: • leicht zu implementieren; • lineare Komplexität in der Zahl der Beobachtungen (bei konstanter Zahl der Cluster und der Iterationsschritte). Nachteile von k-means: • Güte der Partitionierung hängt stark von der initialen Partitionierung ab; • kann in lokales Optimum konvergieren. Deswegen werden oft mehrere Läufe mit zufälligen Start-Zentroiden durchgeführt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 43 / 169 Wissenserwerb und Wissensentdeckung Clustering Beispiel – k-means-Clustering 1/2 ' $ X2 F C B Al G DE & % X1 Wählen wir hier als initiale Zentroide die Beobachtungen A, B, C, so erhalten wir die Ellipsen-Partitionierung {A}, {B, C}, {D, E, F, G} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 44 / 169 Wissenserwerb und Wissensentdeckung Clustering Beispiel – k-means-Clustering 2/2 ' $ X2 F C B l A G DE & % X1 Das globale Minimum des Quadratfehlers (bei drei Clustern) wird jedoch bei der Rechteck-Partitionierung {A, B, C}, {D, E}, {F, G} ♣ angenommen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 45 / 169 Wissenserwerb und Wissensentdeckung Clustering Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 45 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Übersicht Kapitel 5 5.1 (Kurze) Einführung 5.2 Clustering 5.3 Entscheidungsbäume 5.4 Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 56 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kapitel 5 5. Wissenserwerb und Wissensentdeckung 5.3 Entscheidungsbäume G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 57 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Entscheidungsbäume • Wozu benutzt man Entscheidungsbäume? • Entscheidungsbäume dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Entscheidungsbäume • Wozu benutzt man Entscheidungsbäume? • Entscheidungsbäume dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; • hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Entscheidungsbäume • Wozu benutzt man Entscheidungsbäume? • Entscheidungsbäume dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; • hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) • Was sind Entscheidungsbäume? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Entscheidungsbäume • Wozu benutzt man Entscheidungsbäume? • Entscheidungsbäume dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; • hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) • Was sind Entscheidungsbäume? • Wie benutzt man Entscheidungsbäume? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Entscheidungsbäume • Wozu benutzt man Entscheidungsbäume? • Entscheidungsbäume dienen der Klassifikation von Objekten, die durch (Attribut, Wert)-Paare beschrieben sind; • hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung (kann leicht verallgemeinert werden) • Was sind Entscheidungsbäume? • Wie benutzt man Entscheidungsbäume? • Wie baut man Entscheidungsbäume auf? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 58 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Entscheidungsbäume – Struktur • Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Entscheidungsbäume – Struktur • Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. • Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen möglichen Attributwerten markiert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Entscheidungsbäume – Struktur • Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. • Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen möglichen Attributwerten markiert. • Die Blätter enthalten die Klassifikation. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Entscheidungsbäume – Struktur • Wurzel und innere Knoten des Baumes sind mit Attributen markiert und repräsentieren Abfragen, welchen Wert das betrachtete Objekt für das jeweilige Attribut hat. • Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen möglichen Attributwerten markiert. • Die Blätter enthalten die Klassifikation. Objekte werden durch vollständige Pfade durch den Baum klassifiziert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 59 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel Entscheidungssituation: “Kino – ja oder nein?” G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 60 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel Entscheidungssituation: “Kino – ja oder nein?” zu klassifizierende Objekte: Situationen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 60 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel Entscheidungssituation: “Kino – ja oder nein?” zu klassifizierende Objekte: Situationen relevante Attribute: Attribut Attraktivität Preis Loge Wetter Warten Besetzung Kategorie Reservierung Land Gruppe Werte hoch, mittel, gering normal ($) oder mit Zuschlag ($$) verfügbar (ja) oder nicht (nein) schön, mittel, schlecht Wartezeit (ja) oder nicht (nein) Cast und Regie sind top, mittel(mäßig) Action (AC), Komödie (KO), Drama (DR), SciFi (SF) besteht (ja) oder nicht (nein) nationale (N) oder internationale (I) Produktion mit Freunde(n), als Paar, oder allein G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 60 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Ein möglicher Entscheidungsbaum für das Kino-Problem Attraktivität? h hhhh hhhh hoch hhhh hh Besetzung? nein Warten? !!PPPP c top c mittel ja!!! nein PP c ! P ! P c ja Gruppe? nein Land? P lPPP %QQ PPallein l int. % Freunde Paar Qnat. PP Q % l ja ja Kategorie? Kategorie? nein XXX P PP #H c X H B X c PPP SF DR ##ACB KOHH XXXSF DRAC KO c PP XX # B H c gering nein mittel ja ja ja nein ja nein G. Kern-Isberner (TU Dortmund) DVEW Wetter? nein HHH mittel Hschlecht schön H ja WiSe 2016/17 ja 61 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Aufbau von Entscheidungsbäumen 1/2 Lernaufgabe: Erzeuge Entscheidungsbaum aus Trainingsmenge (= Menge von klassifizierten Beispielen), so dass • Beispiele der Trainingsmenge korrekt klassifiziert werden G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 62 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Aufbau von Entscheidungsbäumen 1/2 Lernaufgabe: Erzeuge Entscheidungsbaum aus Trainingsmenge (= Menge von klassifizierten Beispielen), so dass • Beispiele der Trainingsmenge korrekt klassifiziert werden und • sich der Entscheidungsbaum auch für andere Beispiele generalisieren lässt → induktives Lernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 62 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Aufbau von Entscheidungsbäumen 2/2 Beisp. Attr. X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 hoch mittel mittel gering mittel hoch mittel mittel gering mittel hoch mittel hoch mittel mittel Preis Loge Wetter Warten Bes. Kat. Land Res. Gruppe Kino? $$ $ $ $ $ $$ $ $ $ $ $ $ $$ $ $ AC KO DR SF DR SF KO AC KO KO DR AC SF DR AC ja ja nein ja ja ja ja nein ja ja ja nein ja ja ja G. Kern-Isberner (TU Dortmund) schlecht mittel mittel mittel mittel schön schlecht schlecht schön schön mittel schlecht mittel schön schlecht ja nein ja ja nein nein nein ja nein nein ja ja ja ja nein DVEW top mittel mittel mittel mittel top mittel mittel mittel mittel top mittel mittel top mittel int. int. int. int. int. int. nat. int. nat. int. int. nat. int. int. int. ja nein nein nein nein ja nein nein nein nein nein nein nein ja nein Freunde Paar Freunde allein Paar Freunde Freunde Freunde Freunde Paar Paar allein allein Freunde Paar WiSe 2016/17 ja ja nein nein ja ja ja ja nein nein ja nein nein nein ja 63 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Occam’s Razor Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden, das sich auf neue Situationen verallgemeinern lässt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 64 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Occam’s Razor Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden, das sich auf neue Situationen verallgemeinern lässt. Ziel des Lernens ist es daher, einen möglichst kompakten Entscheidungsbaum zu generieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 64 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Occam’s Razor Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden, das sich auf neue Situationen verallgemeinern lässt. Ziel des Lernens ist es daher, einen möglichst kompakten Entscheidungsbaum zu generieren. Dieser Überlegung liegt ein generelles Prinzip des induktiven Lernens zugrunde: Occam’s Razor Bevorzuge die einfachste Hypothese, die konsistent mit allen Beobachtungen ist. (William of Occam, engl. Philosoph, ca. 1285-1349) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 64 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. 2 Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die zugehörige Kante mit diesem Wert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. 2 Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die zugehörige Kante mit diesem Wert. 3 Verteile die aktuelle Trainingsmenge auf die Nachfolgeknoten, entsprechend den jeweiligen Werten von a. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 1/3 1 Wähle ein Attribut a für den nächsten Knoten. 2 Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die zugehörige Kante mit diesem Wert. 3 Verteile die aktuelle Trainingsmenge auf die Nachfolgeknoten, entsprechend den jeweiligen Werten von a. 4 wende TDIDT auf die neuen Blattknoten an (Rekursion) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 65 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 alle Beispiele haben die gleiche Klassifikation C → Blatt mit Klassifikation C G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 2 alle Beispiele haben die gleiche Klassifikation C → Blatt mit Klassifikation C Beispielmenge ist leer → Blatt mit Default-Klassifikation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 2 3 alle Beispiele haben die gleiche Klassifikation C → Blatt mit Klassifikation C Beispielmenge ist leer → Blatt mit Default-Klassifikation es gibt noch positive und negative Beispiele, aber es sind keine Attribute mehr übrig → Inkonsistenz (es gibt Beispiele mit genau denselben Attributwerten, aber unterschiedlicher Klassifikation) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 2 3 4 alle Beispiele haben die gleiche Klassifikation C → Blatt mit Klassifikation C Beispielmenge ist leer → Blatt mit Default-Klassifikation es gibt noch positive und negative Beispiele, aber es sind keine Attribute mehr übrig → Inkonsistenz (es gibt Beispiele mit genau denselben Attributwerten, aber unterschiedlicher Klassifikation) es gibt noch positive und negative Beispiele, die aktuelle Menge der Attribute ist nicht leer → nächster Rekursionsschritt G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 2/3 An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten: 1 2 3 4 alle Beispiele haben die gleiche Klassifikation C → Blatt mit Klassifikation C Beispielmenge ist leer → Blatt mit Default-Klassifikation es gibt noch positive und negative Beispiele, aber es sind keine Attribute mehr übrig → Inkonsistenz (es gibt Beispiele mit genau denselben Attributwerten, aber unterschiedlicher Klassifikation) es gibt noch positive und negative Beispiele, die aktuelle Menge der Attribute ist nicht leer → nächster Rekursionsschritt Zentrales Problem: Wie findet man das (jeweils nächste) beste Attribut, um den Entscheidungsbaum aufzubauen ? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 66 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? → Wähle dasjenige Attribut, das am wichtigsten ist G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? → Wähle dasjenige Attribut, das am wichtigsten ist, d.h. das • soviel Beispiele wie möglich klassifiziert (→ Kardinalitätskriterium); G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Top-Down Induction of Decision Trees (TDIDT) 3/3 Welches Attribut a soll als nächstes gewählt werden? → Wähle dasjenige Attribut, das am wichtigsten ist, d.h. das • soviel Beispiele wie möglich klassifiziert (→ Kardinalitätskriterium); • die meiste Information enthält (→ ID3, C4.5). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 67 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Gruppe? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Gruppe? ``` ``` ``` ``` `` G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde ``` ``` ``` ``` `` + : X1,X6,X7,X8 − : X3,X9,X14 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde ``` ``` ``` ``` Paar allein `` + : X2,X5,X11,X15 + : X1,X6,X7,X8 +: − : X3,X9,X14 − : X4,X12,X13 G. Kern-Isberner (TU Dortmund) DVEW − : X10 WiSe 2016/17 68 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde ``` ``` ``` ``` Paar allein `` + : X2,X5,X11,X15 + : X1,X6,X7,X8 +: − : X3,X9,X14 − : X4,X12,X13 − : X10 Beim Wert Gruppe = allein werden alle verfügbaren (drei) Beispiele vollständig klassifiziert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 68 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Kategorie? ``` ((( HH "` (((("" ( HH ````` ( ( ``` SF DR ((((( AC " KO HH `` " ( + : X5,X11 + : X1,X8,X15 + : X6 + : X2,X7 − : X3,X14 − : X12 G. Kern-Isberner (TU Dortmund) − : X9,X10 DVEW − : X4,X13 WiSe 2016/17 69 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Kategorie? ``` ((( HH "` (((("" ( HH ````` ( ( ``` SF DR ((((( AC " KO HH `` " ( + : X5,X11 + : X1,X8,X15 + : X6 + : X2,X7 − : X3,X14 − : X12 − : X9,X10 − : X4,X13 Das Attribut Kategorie kann kein einziges Trainingsbeispiel mit nur einem Test klassifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 69 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Kategorie? ``` ((( HH "` (((("" ( HH ````` ( ( ``` SF DR ((((( AC " KO HH `` " ( + : X5,X11 + : X1,X8,X15 + : X6 + : X2,X7 − : X3,X14 − : X12 − : X9,X10 − : X4,X13 Das Attribut Kategorie kann kein einziges Trainingsbeispiel mit nur einem Test klassifizieren. Gruppe ist also nach dem Kardinalitätskriterium als erstes Attribut des Entscheidungsbaumes besser geeignet als Kategorie. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 69 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde + : X1,X6,X7,X8 − : X3,X9,X14 ``` ``` ``` allein Paar ``` +: + : X2,X5,X11,X15 − : X10 − : X4,X12,X13 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 70 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde + : X1,X6,X7,X8 − : X3,X9,X14 ``` ``` ``` allein Paar ``` +: + : X2,X5,X11,X15 − : X10 − : X4,X12,X13 Wetter? PP PP PPschlecht schön mittel P +: + : X2,X5,X11 + : X15 − : X10 −: −: G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 70 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X1,X2,X5,X6,X7,X8,X11,X15 − : X3,X4,X9,X10,X12,X13,X14 Gruppe? Freunde + : X1,X6,X7,X8 − : X3,X9,X14 ``` ``` ``` allein Paar ``` +: + : X2,X5,X11,X15 − : X10 − : X4,X12,X13 Wetter? PP PP PPschlecht schön mittel P +: + : X2,X5,X11 + : X15 − : X10 −: −: Wetter klassifiziert alle Beispiele der Menge EGruppe=P aar vollständig. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 70 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X2,X5,X11,X15 − : X10 Kategorie? X Z , XXXX Z X , Z KO XXXX SF AC , DR X , Z + : X5,X11 + : X15 + : X2 +: −: G. Kern-Isberner (TU Dortmund) −: − : X10 DVEW −: WiSe 2016/17 71 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X2,X5,X11,X15 − : X10 Kategorie? X Z , XXXX Z X , Z KO XXXX SF AC , DR X , Z + : X5,X11 + : X15 + : X2 +: −: −: − : X10 −: Kategorie kann bei EGruppe=P aar zwei Beispiele nicht eindeutig klassifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) + : X2,X5,X11,X15 − : X10 Kategorie? X Z , XXXX Z X , Z KO XXXX SF AC , DR X , Z + : X5,X11 + : X15 + : X2 +: −: −: − : X10 −: Kategorie kann bei EGruppe=P aar zwei Beispiele nicht eindeutig klassifizieren. Folglich ist Wetter als zweites Attribut an dieser Stelle besser geeignet. ♣ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 71 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Wichtigkeit von Attributen Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff – sie hängt stark von der aktuellen Beispielmenge ab! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 72 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Wichtigkeit von Attributen Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff – sie hängt stark von der aktuellen Beispielmenge ab! Beispiel: Das Attribut Kategorie ist als erste Abfrage für die gesamte Beispielmenge {X1 , . . . , X15 } ziemlich nutzlos G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 72 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Wichtigkeit von Attributen Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff – sie hängt stark von der aktuellen Beispielmenge ab! Beispiel: Das Attribut Kategorie ist als erste Abfrage für die gesamte Beispielmenge {X1 , . . . , X15 } ziemlich nutzlos – andererseits hat gerade dieses Attribut für die Beispielmenge EGruppe=F reunde = {X1 , X3 , X6 , X7 , X8 , X9 , X14 } unter allen übrig gebliebenen Attributen die größte Wichtigkeit (es klassifiziert 5 Beispiele vollständig). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 ♣ 72 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume TDIDT-Algorithmus 1/2 function DT (E, A, default) Eingabe: E A default Ausgabe: Entscheidungsbaum G. Kern-Isberner (TU Dortmund) Menge von Beispielen Menge von Attributen Default-Klassifikation DVEW WiSe 2016/17 73 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume TDIDT-Algorithmus 2/2 if E = ∅ then return default G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume TDIDT-Algorithmus 2/2 if E = ∅ then return default else if alle Elemente in E haben die gleiche Klassifikation c ∈ {ja, nein} then return c G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume TDIDT-Algorithmus 2/2 if E = ∅ then return default else if alle Elemente in E haben die gleiche Klassifikation c ∈ {ja, nein} then return c else if A = ∅ then Fehler “gleiche Beispiele mit unterschiedlicher Klassifikation” G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume TDIDT-Algorithmus 2/2 if E = ∅ then return default else if alle Elemente in E haben die gleiche Klassifikation c ∈ {ja, nein} then return c else if A = ∅ then Fehler “gleiche Beispiele mit unterschiedlicher Klassifikation” else a := ChooseAttribute(A, E) T := neuer Entscheidungsbaum mit Wurzelmarkierung a for each Attributwert wi von a do Ei := {e ∈ E | a(e) = wi } Ti := DT (Ei , A\{a}, MajorityVal (E)) hänge an den Wurzelknoten von T eine neue Kante mit Markierung wi und Unterbaum Ti an end return T G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 74 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Kino-Beispiel (Forts.) Gruppe? Freunde allein Kategorie? AC ja DR nein KO Wetter? schön mittel ja nein Paar nein SF Wetter? schön ja nein mittel schlecht ja schlecht ja Der fertige Entscheidungsbaum G. Kern-Isberner (TU Dortmund) ja DVEW ♣ WiSe 2016/17 1 75 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume TDIDT-Systeme Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel, den Entscheidungsbaum möglichst klein zu halten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 76 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume TDIDT-Systeme Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel, den Entscheidungsbaum möglichst klein zu halten. Die etabliertesten TDIDT-Systeme sind ID3 und seine Weiterentwicklung C4.5, die beide auf Quinlan zurückgehen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 76 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume TDIDT-Systeme Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel, den Entscheidungsbaum möglichst klein zu halten. Die etabliertesten TDIDT-Systeme sind ID3 und seine Weiterentwicklung C4.5, die beide auf Quinlan zurückgehen. Zur Bestimmung des jeweils besten Attributes verwenden diese beiden Systeme grundsätzlich den Informationsgehalt eines Attributes, der durch den jeweiligen Informationsgewinn bestimmt wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 76 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 1/6 Die Menge E der Beispiele enthalte p positive und n negative Beispiele; dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel p n auszuwählen, bzw. . p+n p+n G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 77 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 1/6 Die Menge E der Beispiele enthalte p positive und n negative Beispiele; dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel p n auszuwählen, bzw. . p+n p+n Der Informationsgehalt I(E) der Antwort auf die Frage “Handelt es sich bei einem beliebigen Beispiel aus E um ein positives oder ein negatives Beispiel ? ” beträgt daher (wobei H die Entropie bezeichnet) I(E) := H G. Kern-Isberner (TU Dortmund) p n ; p+n p+n DVEW WiSe 2016/17 77 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 1/6 Die Menge E der Beispiele enthalte p positive und n negative Beispiele; dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel p n auszuwählen, bzw. . p+n p+n Der Informationsgehalt I(E) der Antwort auf die Frage “Handelt es sich bei einem beliebigen Beispiel aus E um ein positives oder ein negatives Beispiel ? ” beträgt daher (wobei H die Entropie bezeichnet) p n I(E) := H ; p+n p+n p p n n = − log2 − log2 [bit] p+n p+n p+n p+n G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 77 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 2/6 Beispiel: Bei der Trainingsmenge des Kinoproblems beträgt dieser Informationsgehalt H( p n 8 7 ; ) = H( ; ) ≈ 0.9968 bit p+n p+n 15 15 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 78 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 2/6 Beispiel: Bei der Trainingsmenge des Kinoproblems beträgt dieser Informationsgehalt H( p n 8 7 ; ) = H( ; ) ≈ 0.9968 bit p+n p+n 15 15 ♣ Bei der Attributauswahl soll nun berücksichtigt werden, welchen Informationsgewinn man erhält, wenn man den Wert eines Attributs kennt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 78 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 3/6 Informell errechnet sich also der Informationsgewinn als Differenz Informationsgewinn = Informationsgehalt vor Attributauswahl − Informationsgehalt nach Attributauswahl wobei der Informationsgehalt einer Trainingsmenge als die Entropie der zugehörigen Verteilung definiert wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 79 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 4/6 Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E1 , . . . , Ek auf, wobei jedes Ei die zum Wert wi von a gehörigen Beispiele enthält und k die Anzahl der verschiedenen Werte w1 , . . . , wk ist, die a annehmen kann. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 80 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 4/6 Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E1 , . . . , Ek auf, wobei jedes Ei die zum Wert wi von a gehörigen Beispiele enthält und k die Anzahl der verschiedenen Werte w1 , . . . , wk ist, die a annehmen kann. Jedes Ei habe pi positive und ni negative Beispiele. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 80 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 4/6 Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E1 , . . . , Ek auf, wobei jedes Ei die zum Wert wi von a gehörigen Beispiele enthält und k die Anzahl der verschiedenen Werte w1 , . . . , wk ist, die a annehmen kann. Jedes Ei habe pi positive und ni negative Beispiele. Wenn wir a = wi wissen, benötigen wir also noch I(Ei ) = H( pi ni ; ) bit p i + ni p i + ni an Information. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 80 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 5/6 Durch die Berücksichtigung aller Attributwerte a = wi ergibt sich nach dem Test des Attributes a die folgende bedingte mittlere Information: I(E | a bekannt) = G. Kern-Isberner (TU Dortmund) k X i=1 P (a = wi ) · I(Ei ) DVEW WiSe 2016/17 81 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 5/6 Durch die Berücksichtigung aller Attributwerte a = wi ergibt sich nach dem Test des Attributes a die folgende bedingte mittlere Information: I(E | a bekannt) = = k X i=1 k X pi + ni i=1 G. Kern-Isberner (TU Dortmund) P (a = wi ) · I(Ei ) p+n DVEW · H( pi ni ; ) pi + ni pi + ni WiSe 2016/17 81 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 6/6 Der Informationsgewinn des Attributes a ist nun : gain(a) = I(E) − I(E | a bekannt) (ist also nichts anderes als die gegenseitige Information zwischen dem Attribut a und der Ausprägung positiv/negativ.) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 82 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn 6/6 Der Informationsgewinn des Attributes a ist nun : gain(a) = I(E) − I(E | a bekannt) (ist also nichts anderes als die gegenseitige Information zwischen dem Attribut a und der Ausprägung positiv/negativ.) Das Lernsystem ID3 wählt als nächstes zu testendes Attribut a dasjenige aus, bei dem gain(a) maximal ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 82 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 82 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn – Beispiel Für das Kinoproblem errechnet man für die Wurzel des Entscheidungsbaumes: gain(Gruppe) G. Kern-Isberner (TU Dortmund) = I(E) − I(E bekannt) 7 | Gruppe 4 3 5 H( 45 ; 15 ) + ≈ 0.9968 − 15 H( 7 ; 7 ) + 15 ≈ 0.2964 bit DVEW 3 15 H(0; 1) WiSe 2016/17 83 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn – Beispiel Für das Kinoproblem errechnet man für die Wurzel des Entscheidungsbaumes: gain(Gruppe) = I(E) − I(E bekannt) 7 | Gruppe 4 3 5 H( 45 ; 15 ) + ≈ 0.9968 − 15 H( 7 ; 7 ) + 15 ≈ 0.2964 bit gain(Kategorie) = I(E) − I(E bekannt) 4 | Kategorie 3 1 4 1 1 ≈ 0.9968 − 15 H( ; ) + 4 4 15 H( 2 ; 2 ) + 3 + 15 I( 13 ; 23 ) ≈ 0.0634 bit 3 15 H(0; 1) 4 1 1 15 H( 2 ; 2 ) Es zeigt sich, dass gain(Gruppe) maximal ist und daher von ID3 als erstes Attribut ausgewählt würde. ♣ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 83 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn – Problem Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen führen kann. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 84 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn – Problem Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen führen kann. Beispiel: Bei einer medizinischen Diagnose werde als eines der Attribute die persönliche Identifikationsnummer (PIN) eines Patienten benutzt. Dieses Attribut hat soviele Werte (n), wie es Patienten in der Datei gibt, und partitioniert daher die Beispielmenge E in eben soviele Teilmengen mit je einem Element. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 84 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Informationsgewinn – Problem Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu unsinnigen Ergebnissen führen kann. Beispiel: Bei einer medizinischen Diagnose werde als eines der Attribute die persönliche Identifikationsnummer (PIN) eines Patienten benutzt. Dieses Attribut hat soviele Werte (n), wie es Patienten in der Datei gibt, und partitioniert daher die Beispielmenge E in eben soviele Teilmengen mit je einem Element. In diesem Fall ist die bedingte mittlere Information n X 1 I(E | PIN bekannt) = H(0; 1) = 0 bit n i=1 der Informationsgewinn also maximal. Für die Diagnose selbst jedoch ist das Attribut PIN nutzlos. ♣ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 84 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Normierter Informationsgewinn 1/2 Das System C4.5 benutzt statt des absoluten Informationsgewinns einen normierten Informationsgewinn gain ratio(a) = G. Kern-Isberner (TU Dortmund) DVEW gain (a) split info (a) WiSe 2016/17 85 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Normierter Informationsgewinn 1/2 Das System C4.5 benutzt statt des absoluten Informationsgewinns einen normierten Informationsgewinn gain ratio(a) = gain (a) split info (a) wobei split info(a) die Entropie des Attributes a ist: split info(a) = H(a) = − G. Kern-Isberner (TU Dortmund) k X P (a = wi ) log2 P (a = wi ) i=1 DVEW WiSe 2016/17 85 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Normierter Informationsgewinn 2/2 Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine Gleichverteilung (k = n und P (PIN = wi ) = n1 ), also ist der Normierungsfaktor H(PIN ) = log2 n und damit maximal. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 86 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Normierter Informationsgewinn 2/2 Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine Gleichverteilung (k = n und P (PIN = wi ) = n1 ), also ist der Normierungsfaktor H(PIN ) = log2 n und damit maximal. Damit ist gain ratio(PIN ) = I(E) , log2 n der Informationsgewinn durch PIN ist also minimal (bei konstantem Zähler). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 ♣ 86 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Normierter Informationsgewinn 2/2 Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine Gleichverteilung (k = n und P (PIN = wi ) = n1 ), also ist der Normierungsfaktor H(PIN ) = log2 n und damit maximal. Damit ist gain ratio(PIN ) = I(E) , log2 n der Informationsgewinn durch PIN ist also minimal (bei konstantem Zähler). ♣ Das System C4.5 wählt als nächstes Attribut dasjenige mit dem maximalen gain ratio-Wert aus (gain ratio-Kriterium). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 86 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Erzeugung von Regeln aus Entscheidungsbäumen Aus Entscheidungsbäumen kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-Regel. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Erzeugung von Regeln aus Entscheidungsbäumen Aus Entscheidungsbäumen kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-Regel. Beispiel [Kino]: Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.B. die folgenden Regeln gewinnen: if Gruppe = Paar and Wetter = schlecht then Kinobesuch = ja G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Erzeugung von Regeln aus Entscheidungsbäumen Aus Entscheidungsbäumen kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-Regel. Beispiel [Kino]: Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.B. die folgenden Regeln gewinnen: if Gruppe = Paar and Wetter = schlecht then Kinobesuch = ja if Gruppe = Freunde and Kategorie = SF then Kinobesuch = ja G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 87 / 169 Wissenserwerb und Wissensentdeckung Entscheidungsbäume Erzeugung von Regeln aus Entscheidungsbäumen Aus Entscheidungsbäumen kann man direkt Regeln ableiten: Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer if-then-Regel. Beispiel [Kino]: Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.B. die folgenden Regeln gewinnen: if Gruppe = Paar and Wetter = schlecht then Kinobesuch = ja if Gruppe = Freunde and Kategorie = SF then Kinobesuch = ja if Gruppe = Freunde and Kategorie = Komödie and Wetter = schön then Kinobesuch = nein G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 ♣ 87 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Übersicht Kapitel 5 5.1 (Kurze) Einführung 5.2 Clustering 5.3 Entscheidungsbäume 5.4 Data Mining und Assoziationsregeln 5.5 Konzeptlernen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 88 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Kapitel 5 5. Wissenserwerb und Wissensentdeckung 5.6 Data Mining und Assoziationsregeln G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 89 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln KDD & DM Durch die fortschreitende Automatisierung fallen immense Mengen an Daten an . . . G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 90 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln KDD & DM Durch die fortschreitende Automatisierung fallen immense Mengen an Daten an . . . Knowledge Discovery in Databases (KDD) . . . . . . bezeichnet den Prozess, neues, nützliches und interessantes Wissen aus Daten herauszufiltern und in verständlicher Form zu präsentieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 90 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln KDD & DM Durch die fortschreitende Automatisierung fallen immense Mengen an Daten an . . . Knowledge Discovery in Databases (KDD) . . . . . . bezeichnet den Prozess, neues, nützliches und interessantes Wissen aus Daten herauszufiltern und in verständlicher Form zu präsentieren. Data Mining (DM) . . . bezeichnet die konkrete Anwendung von Algorithmen zur Wissensfindung in Daten. [Fayyad & Uthurusamy, ACM Communications 1996] G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 90 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Der KDD-Prozess 1/2 . . . umfasst die folgenden Schritte: • Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Der KDD-Prozess 1/2 . . . umfasst die folgenden Schritte: • Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. • Datenauswahl: Festlegung der zu untersuchenden Datenmenge. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Der KDD-Prozess 1/2 . . . umfasst die folgenden Schritte: • Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. • Datenauswahl: Festlegung der zu untersuchenden Datenmenge. • Datenbereinigung: Herausfiltern von Ausreißern und Rauscheffekten, Behandlung fehlender Daten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Der KDD-Prozess 1/2 . . . umfasst die folgenden Schritte: • Hintergrundwissen und Zielsetzung: Bereitstellung von bereichsspezifischem Wissen und Definition der Ziele des durchzuführenden KDD-Prozesses. • Datenauswahl: Festlegung der zu untersuchenden Datenmenge. • Datenbereinigung: Herausfiltern von Ausreißern und Rauscheffekten, Behandlung fehlender Daten. • Datenreduktion und -projektion: Komprimierung der Datenmenge durch Reduktion und/oder Transformation der Variablen (→ feature selection, feature extraction). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 91 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Der KDD-Prozess 2/2 • Modellfunktionalität: Welchem Zweck dient das Data Mining? – Klassifikation, Clustering, Regressionsanalyse etc. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Der KDD-Prozess 2/2 • Modellfunktionalität: Welchem Zweck dient das Data Mining? – Klassifikation, Clustering, Regressionsanalyse etc. • Verfahrenswahl: Bestimmung des Data Mining-Verfahrens. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Der KDD-Prozess 2/2 • Modellfunktionalität: Welchem Zweck dient das Data Mining? – Klassifikation, Clustering, Regressionsanalyse etc. • Verfahrenswahl: Bestimmung des Data Mining-Verfahrens. • Data Mining: der eigentliche Data Mining-Prozess. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Der KDD-Prozess 2/2 • Modellfunktionalität: Welchem Zweck dient das Data Mining? – Klassifikation, Clustering, Regressionsanalyse etc. • Verfahrenswahl: Bestimmung des Data Mining-Verfahrens. • Data Mining: der eigentliche Data Mining-Prozess. • Interpretation: Aufbereitung der gefundenen Information. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Eine spezielle KDD/DM-Aufgabe • verständliche Form −→ Assoziationsregeln r : A1 . . . An → B1 . . . Bm G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 93 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Eine spezielle KDD/DM-Aufgabe • verständliche Form −→ Assoziationsregeln r : A1 . . . An → B1 . . . Bm Beispiel: “80 % der Kunden, die Bier und Sekt kaufen, kaufen auch Kartoffelchips” ♣ G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 93 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Eine spezielle KDD/DM-Aufgabe • verständliche Form −→ Assoziationsregeln r : A1 . . . An → B1 . . . Bm Beispiel: “80 % der Kunden, die Bier und Sekt kaufen, kaufen auch Kartoffelchips” • nützlich und interessant −→ Wahrscheinlichkeiten nahe 1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 ♣ 93 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Eine spezielle KDD/DM-Aufgabe • verständliche Form −→ Assoziationsregeln r : A1 . . . An → B1 . . . Bm Beispiel: “80 % der Kunden, die Bier und Sekt kaufen, kaufen auch Kartoffelchips” • nützlich und interessant −→ Wahrscheinlichkeiten nahe 1 • Support support(r) = Prob(A1 . . . An , B1 . . . Bm ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 ♣ 93 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Eine spezielle KDD/DM-Aufgabe • verständliche Form −→ Assoziationsregeln r : A1 . . . An → B1 . . . Bm Beispiel: “80 % der Kunden, die Bier und Sekt kaufen, kaufen auch Kartoffelchips” • nützlich und interessant −→ Wahrscheinlichkeiten nahe 1 • Support support(r) = Prob(A1 . . . An , B1 . . . Bm ) • Konfidenz confidence(r) = Prob(B1 . . . Bm |A1 . . . An ) ♣ Finde Assoziationsregeln mit hohem Support und hoher Konfidenz! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 93 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Itemmengen und Transaktionen • Item = Artikel, Ding, Gegenstand; I Menge aller betrachteten Items G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 94 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Itemmengen und Transaktionen • Item = Artikel, Ding, Gegenstand; I Menge aller betrachteten Items • X ⊆ I Itemmenge; |X| = k: k-Itemmenge G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 94 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Itemmengen und Transaktionen • Item = Artikel, Ding, Gegenstand; I Menge aller betrachteten Items • X ⊆ I Itemmenge; |X| = k: k-Itemmenge • Transaktion t ⊆ I Itemmenge; Datenbasis D = {t1 , t2 , . . .} Menge von Transaktionen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 94 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Itemmengen und Transaktionen • Item = Artikel, Ding, Gegenstand; I Menge aller betrachteten Items • X ⊆ I Itemmenge; |X| = k: k-Itemmenge • Transaktion t ⊆ I Itemmenge; Datenbasis D = {t1 , t2 , . . .} Menge von Transaktionen • Support einer Itemmenge support(X) = G. Kern-Isberner (TU Dortmund) | {t ∈ D | X ⊆ t} | |D| DVEW WiSe 2016/17 94 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Itemmengen und Transaktionen – Beispiel Anwendungsbereich: Verkaufsdatenanalyse eines Supermarktes G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Itemmengen und Transaktionen – Beispiel Anwendungsbereich: Verkaufsdatenanalyse eines Supermarktes Items: Artikel des Marktsortimentes G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Itemmengen und Transaktionen – Beispiel Anwendungsbereich: Verkaufsdatenanalyse eines Supermarktes Items: Artikel des Marktsortimentes Transaktionen: Kundeneinkäufe G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Itemmengen und Transaktionen – Beispiel Anwendungsbereich: Verkaufsdatenanalyse eines Supermarktes Items: Artikel des Marktsortimentes Transaktionen: Kundeneinkäufe Datenbasis D: alle Verkaufstransaktionen eines bestimmten Zeitraums G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Itemmengen und Transaktionen – Beispiel Anwendungsbereich: Verkaufsdatenanalyse eines Supermarktes Items: Artikel des Marktsortimentes Transaktionen: Kundeneinkäufe Datenbasis D: alle Verkaufstransaktionen eines bestimmten Zeitraums Support der Itemmenge {M ilch}: Prozentsatz der Kunden, die bei ihrem Einkauf auch Milch einkauften. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Assoziationsregeln Eine Assoziationsregel hat die Form X→Y wobei X und Y disjunkte Itemmengen sind. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 96 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Assoziationsregeln Eine Assoziationsregel hat die Form X→Y wobei X und Y disjunkte Itemmengen sind. Der Support einer Assoziationsregel ist definiert als der Support von Prämisse + Konklusion: support(X → Y ) = support(X ∪ Y ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 96 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln Assoziationsregeln Eine Assoziationsregel hat die Form X→Y wobei X und Y disjunkte Itemmengen sind. Der Support einer Assoziationsregel ist definiert als der Support von Prämisse + Konklusion: support(X → Y ) = support(X ∪ Y ) Die Konfidenz einer Assoziationsregel X → Y ist der (relative) Anteil derjenigen der X enthaltenden Transaktionen, die auch Y enthalten: confidence(X → Y ) = G. Kern-Isberner (TU Dortmund) DVEW support(X → Y ) support(X) WiSe 2016/17 96 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln KDD-Suche nach Assoziationsregeln Finde alle Assoziationsregeln, die in der betrachteten Datenbasis mit einem Support von mindestens minsupp und einer Konfidenz von mindestens minconf gelten, wobei minsupp und minconf benutzerdefinierte Werte sind. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 97 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln KDD-Suche nach Assoziationsregeln Finde alle Assoziationsregeln, die in der betrachteten Datenbasis mit einem Support von mindestens minsupp und einer Konfidenz von mindestens minconf gelten, wobei minsupp und minconf benutzerdefinierte Werte sind. • Finde alle Itemmengen, deren Support über der minsupp-Schwelle liegt; diese Itemmengen werden häufige Itemmengen (frequent itemsets) genannt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 97 / 169 Wissenserwerb und Wissensentdeckung Data Mining und Assoziationsregeln KDD-Suche nach Assoziationsregeln Finde alle Assoziationsregeln, die in der betrachteten Datenbasis mit einem Support von mindestens minsupp und einer Konfidenz von mindestens minconf gelten, wobei minsupp und minconf benutzerdefinierte Werte sind. • Finde alle Itemmengen, deren Support über der minsupp-Schwelle liegt; diese Itemmengen werden häufige Itemmengen (frequent itemsets) genannt. • Finde in jeder häufigen Itemmenge I alle Assoziationsregeln I 0 → (I − I 0 ) mit I 0 ⊂ I, deren Konfidenz mindestens minconf beträgt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 97 / 169