Darstellung, Verarbeitung und Erwerb von Wissen - LS1

Werbung
Darstellung, Verarbeitung und Erwerb von Wissen
Gabriele Kern-Isberner
LS 1 – Information Engineering
TU Dortmund
WiSe 2016/17
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
1 / 169
Struktur der DVEW
1
2
3
4
5
6
7
8
Einführung und Motivation
Klassische und regelbasierte Wissensrepräsentation
Qualitative Unsicherheit – Default-Logiken
Quantitative Unsicherheit – Wahrscheinlichkeiten & Co.
Wissenserwerb und Wissensentdeckung
Agenten, Aktionen und Planen
Wissensrevision
Wiederholung und Fragestunde
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
2 / 169
Wissenserwerb und Wissensentdeckung
Kapitel 5
5. Wissenserwerb und
Wissensentdeckung
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
3 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Übersicht Kapitel 5
5.1 (Kurze) Einführung
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
4 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Übersicht Kapitel 5
5.1 (Kurze) Einführung
5.2 Clustering
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
4 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Übersicht Kapitel 5
5.1 (Kurze) Einführung
5.2 Clustering
5.3 Entscheidungsbäume
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
4 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Übersicht Kapitel 5
5.1 (Kurze) Einführung
5.2 Clustering
5.3 Entscheidungsbäume
5.4 Assoziationsregeln
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
4 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Übersicht Kapitel 5
5.1 (Kurze) Einführung
5.2 Clustering
5.3 Entscheidungsbäume
5.4 Assoziationsregeln
5.5 Konzeptlernen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
4 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Kapitel 5
5. Wissenserwerb und
Wissensentdeckung
5.1 (Kurze) Einführung
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
5 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Maschinelles Lernen – Definitionen
• Lernen bedeutet adaptive Systemveränderungen, die das System in
die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter
und effektiver zu erfüllen. [Simon 83]
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
6 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Maschinelles Lernen – Definitionen
• Lernen bedeutet adaptive Systemveränderungen, die das System in
die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter
und effektiver zu erfüllen. [Simon 83]
• Lernen bedeutet die Konstruktion oder Modifikation von
Repräsentationen unserer Erfahrungen [Michalski 86]
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
6 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Maschinelles Lernen – Definitionen
• Lernen bedeutet adaptive Systemveränderungen, die das System in
die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter
und effektiver zu erfüllen. [Simon 83]
• Lernen bedeutet die Konstruktion oder Modifikation von
Repräsentationen unserer Erfahrungen [Michalski 86]
• Die Untersuchung und maschinelle Modellierung von Lernprozessen in
ihren vielfältigen Ausprägungen stellen das Hauptthema des
maschinellen Lernens dar [Carbonell, Michalski, Mitchell 83]
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
6 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Maschinelles Lernen – Definitionen
• Lernen bedeutet adaptive Systemveränderungen, die das System in
die Lage versetzen, dieselbe Aufgabe beim nächsten Mal effizienter
und effektiver zu erfüllen. [Simon 83]
• Lernen bedeutet die Konstruktion oder Modifikation von
Repräsentationen unserer Erfahrungen [Michalski 86]
• Die Untersuchung und maschinelle Modellierung von Lernprozessen in
ihren vielfältigen Ausprägungen stellen das Hauptthema des
maschinellen Lernens dar [Carbonell, Michalski, Mitchell 83]
• Forschung im Bereich des maschinellen Lernens beinhaltet die
Implementation von Computer-Programmen, die in der Lage sind,
durch Informationsinput neues Wissen aufzubauen oder vorhandenes
Wissen zu verbessern. [Michalski, Kodratoff 90].
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
6 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Schema eines Lernmodells
Environment
G. Kern-Isberner (TU Dortmund)
Performance
Knowledge
Element
Base
Learning
Element
DVEW
WiSe 2016/17
7 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Lernstrategien 1/2
Lernen
• durch direkte Eingabe von Wissen in die Wissensbasis
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
8 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Lernstrategien 1/2
Lernen
• durch direkte Eingabe von Wissen in die Wissensbasis
• durch Deduktion
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
8 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Lernstrategien 1/2
Lernen
• durch direkte Eingabe von Wissen in die Wissensbasis
• durch Deduktion
• durch Analogieschließen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
8 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Lernstrategien 1/2
Lernen
• durch direkte Eingabe von Wissen in die Wissensbasis
• durch Deduktion
• durch Analogieschließen
• aus Beispielen (überwachtes Lernen)
• von einer “Quelle”(Lehrer, Umgebung)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
8 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Lernstrategien 1/2
Lernen
• durch direkte Eingabe von Wissen in die Wissensbasis
• durch Deduktion
• durch Analogieschließen
• aus Beispielen (überwachtes Lernen)
• von einer “Quelle”(Lehrer, Umgebung)
• positive und/oder negative Beispiele
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
8 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Lernstrategien 1/2
Lernen
• durch direkte Eingabe von Wissen in die Wissensbasis
• durch Deduktion
• durch Analogieschließen
• aus Beispielen (überwachtes Lernen)
• von einer “Quelle”(Lehrer, Umgebung)
• positive und/oder negative Beispiele
• inkrementell vs. alle auf einmal
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
8 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Lernstrategien 1/2
Lernen
• durch direkte Eingabe von Wissen in die Wissensbasis
• durch Deduktion
• durch Analogieschließen
• aus Beispielen (überwachtes Lernen)
• von einer “Quelle”(Lehrer, Umgebung)
• positive und/oder negative Beispiele
• inkrementell vs. alle auf einmal
• aus Beobachtungen & Experimenten (unüberwachtes Lernen)
• Beobachten der Umgebung (passiv)
• Ausführen von Experimenten (aktiv)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
8 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Lernstrategien 2/2
• Überwachtes vs. unüberwachtes Lernen
• Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher
bekannt, wird datengetrieben vorgenommen;
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
9 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Lernstrategien 2/2
• Überwachtes vs. unüberwachtes Lernen
• Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher
bekannt, wird datengetrieben vorgenommen;
• Überwachte Klassifikation (Diskriminanzanalyse): Bereits klassifizierte
Beispiele vorgegeben; Aufgabe ist, ein neues Beispiel zu klassifizieren.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
9 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Lernstrategien 2/2
• Überwachtes vs. unüberwachtes Lernen
• Unüberwachte Klassifikation (Clustering): keine Klassifikation vorher
bekannt, wird datengetrieben vorgenommen;
• Überwachte Klassifikation (Diskriminanzanalyse): Bereits klassifizierte
Beispiele vorgegeben; Aufgabe ist, ein neues Beispiel zu klassifizieren.
• Inkrementelles vs. nicht-inkrementelles Lernen:
Hier wird danach unterschieden, ob die Beispiele/Beobachtungen alle
zu Beginn zur Verfügung stehen müssen oder nach und nach
verarbeitet werden können.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
9 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Typen des gelernten Wissens
• Parameter in algebraischen Ausdrücken
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
10 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Typen des gelernten Wissens
• Parameter in algebraischen Ausdrücken
• Entscheidungsbäume
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
10 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Typen des gelernten Wissens
• Parameter in algebraischen Ausdrücken
• Entscheidungsbäume
• formale Grammatiken
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
10 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Typen des gelernten Wissens
• Parameter in algebraischen Ausdrücken
• Entscheidungsbäume
• formale Grammatiken
• Regeln (Assoziationsregeln)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
10 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Typen des gelernten Wissens
• Parameter in algebraischen Ausdrücken
• Entscheidungsbäume
• formale Grammatiken
• Regeln (Assoziationsregeln)
• Konzepte
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
10 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Typen des gelernten Wissens
• Parameter in algebraischen Ausdrücken
• Entscheidungsbäume
• formale Grammatiken
• Regeln (Assoziationsregeln)
• Konzepte
• Ontologien
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
10 / 169
Wissenserwerb und Wissensentdeckung
(Kurze) Einführung
Typen des gelernten Wissens
• Parameter in algebraischen Ausdrücken
• Entscheidungsbäume
• formale Grammatiken
• Regeln (Assoziationsregeln)
• Konzepte
• Ontologien
• Bayes-Netze
• ...
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
10 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Übersicht Kapitel 5
5.1 (Kurze) Einführung
5.2 Clustering
5.3 Entscheidungsbäume
5.4 Assoziationsregeln
5.5 Konzeptlernen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
11 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Kapitel 5
5. Wissenserwerb und
Wissensentdeckung
5.2 Clustering
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
12 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Clustering als unüberwachtes Lernen
Unter Clustering oder Cluster-Analyse versteht man die
unüberwachte Organisation einer Sammlung von Beobachtungen
(Daten) in Gruppen.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
13 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Clustering als unüberwachtes Lernen
Unter Clustering oder Cluster-Analyse versteht man die
unüberwachte Organisation einer Sammlung von Beobachtungen
(Daten) in Gruppen.
Kriterien für die Aufteilung in Cluster:
• Ähnlichkeit innerhalb eines Clusters (intra-class similarity);
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
13 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Clustering als unüberwachtes Lernen
Unter Clustering oder Cluster-Analyse versteht man die
unüberwachte Organisation einer Sammlung von Beobachtungen
(Daten) in Gruppen.
Kriterien für die Aufteilung in Cluster:
• Ähnlichkeit innerhalb eines Clusters (intra-class similarity);
• Unähnlichkeit zwischen (verschiedenen) Clusters (inter-class
dissimilarity).
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
13 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Clustering als unüberwachtes Lernen
Unter Clustering oder Cluster-Analyse versteht man die
unüberwachte Organisation einer Sammlung von Beobachtungen
(Daten) in Gruppen.
Kriterien für die Aufteilung in Cluster:
• Ähnlichkeit innerhalb eines Clusters (intra-class similarity);
• Unähnlichkeit zwischen (verschiedenen) Clusters (inter-class
dissimilarity).
Beobachtungen innerhalb eines Clusters sind zueinander ähnlicher als zu
Beobachtungen aus anderen Clustern.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
13 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Clustering-Prozess
Ein Clustering-Prozess besteht aus folgenden Schritten:
• Repräsentation von Beobachtungen (Daten)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
15 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Clustering-Prozess
Ein Clustering-Prozess besteht aus folgenden Schritten:
• Repräsentation von Beobachtungen (Daten)
• Definition eines Ähnlichkeitsmaßes für Daten (passend zum
Problembereich)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
15 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Clustering-Prozess
Ein Clustering-Prozess besteht aus folgenden Schritten:
• Repräsentation von Beobachtungen (Daten)
• Definition eines Ähnlichkeitsmaßes für Daten (passend zum
Problembereich)
• den eigentlichen Clustering-Vorgang
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
15 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Clustering-Prozess
Ein Clustering-Prozess besteht aus folgenden Schritten:
• Repräsentation von Beobachtungen (Daten)
• Definition eines Ähnlichkeitsmaßes für Daten (passend zum
Problembereich)
• den eigentlichen Clustering-Vorgang
• Datenabstraktion (bei Bedarf) (→ Wissensdarstellung)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
15 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Clustering-Prozess
Ein Clustering-Prozess besteht aus folgenden Schritten:
• Repräsentation von Beobachtungen (Daten)
• Definition eines Ähnlichkeitsmaßes für Daten (passend zum
Problembereich)
• den eigentlichen Clustering-Vorgang
• Datenabstraktion (bei Bedarf) (→ Wissensdarstellung)
• Beurteilung des Outputs (bei Bedarf)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
15 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Unterschiedliche Clusterformen
Y
x
x x x
x x x x x
x
x x
x xx x
x
x
x
x
x
x x
x
xx
xx
x
xxx
x
x
x
x
x
x
x
x
x
X
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
20 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Unterschiedliche Clusterformen
Y
Y
5
4 4 4
4 4 5 5 5
4
3
5 5
4 33 4
3
4
4
4
4
4 4
x
x x x
x x x x x
x
x x
x xx x
x
x
x
x
x
x x
x
xx
xx
x
xxx
x
x
x
x
x
x
x
x
22
22
x
1
111
1
6
6
6
6
7
7
7
7
X
X
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
20 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Quadratfehler-Kriterium
Das am weitesten verbreitete globale Kriterien zur Beurteilung der Güte
einer partitionierenden Clusterung ist der quadratische Fehler (squared
error), der bei einer Partitionierung P (mit K Clustern) der Datenmenge
B wie folgt berechnet wird:
e2 (B, P) =
PK Pnj
j=1
i=1
(j)
k xi − c j k 2
(j)
wobei xi die i-te Beobachtung des j-ten Clusters und cj das Zentroid
des j-ten Clusters ist.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
41 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Quadratfehler-Kriterium
Das am weitesten verbreitete globale Kriterien zur Beurteilung der Güte
einer partitionierenden Clusterung ist der quadratische Fehler (squared
error), der bei einer Partitionierung P (mit K Clustern) der Datenmenge
B wie folgt berechnet wird:
e2 (B, P) =
PK Pnj
j=1
i=1
(j)
k xi − c j k 2
(j)
wobei xi die i-te Beobachtung des j-ten Clusters und cj das Zentroid
des j-ten Clusters ist.
Der populärste Clustering-Algorithmus, der das Quadratfehler-Kriterium
verwendet, ist das sog. k-means-Clustering.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
41 / 169
Wissenserwerb und Wissensentdeckung
Clustering
k-means-Clustering 1/2
• Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k
Clustern.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
42 / 169
Wissenserwerb und Wissensentdeckung
Clustering
k-means-Clustering 1/2
• Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k
Clustern.
• Ordne jede Beobachtung dem nächsten Zentroid zu.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
42 / 169
Wissenserwerb und Wissensentdeckung
Clustering
k-means-Clustering 1/2
• Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k
Clustern.
• Ordne jede Beobachtung dem nächsten Zentroid zu.
• Berechne neue Zentroide der so entstehenden Cluster (z.B. als
Mittelwerte).
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
42 / 169
Wissenserwerb und Wissensentdeckung
Clustering
k-means-Clustering 1/2
• Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k
Clustern.
• Ordne jede Beobachtung dem nächsten Zentroid zu.
• Berechne neue Zentroide der so entstehenden Cluster (z.B. als
Mittelwerte).
• Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium
erfüllt ist.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
42 / 169
Wissenserwerb und Wissensentdeckung
Clustering
k-means-Clustering 1/2
• Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k
Clustern.
• Ordne jede Beobachtung dem nächsten Zentroid zu.
• Berechne neue Zentroide der so entstehenden Cluster (z.B. als
Mittelwerte).
• Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium
erfüllt ist.
Typische Konvergenzkriterien sind:
• die Partitionierung bleibt stabil;
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
42 / 169
Wissenserwerb und Wissensentdeckung
Clustering
k-means-Clustering 1/2
• Wähle k beliebige Beobachtungen (oder Punkte) als Zentroiden von k
Clustern.
• Ordne jede Beobachtung dem nächsten Zentroid zu.
• Berechne neue Zentroide der so entstehenden Cluster (z.B. als
Mittelwerte).
• Wiederhole Schritt 2 und 3 so lange, bis ein Konvergenzkriterium
erfüllt ist.
Typische Konvergenzkriterien sind:
• die Partitionierung bleibt stabil;
• der Quadratfehler verändert sich nicht.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
42 / 169
Wissenserwerb und Wissensentdeckung
Clustering
k-means-Clustering 2/2
Vorteile von k-means:
• leicht zu implementieren;
• lineare Komplexität in der Zahl der Beobachtungen (bei konstanter
Zahl der Cluster und der Iterationsschritte).
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
43 / 169
Wissenserwerb und Wissensentdeckung
Clustering
k-means-Clustering 2/2
Vorteile von k-means:
• leicht zu implementieren;
• lineare Komplexität in der Zahl der Beobachtungen (bei konstanter
Zahl der Cluster und der Iterationsschritte).
Nachteile von k-means:
• Güte der Partitionierung hängt stark von der initialen Partitionierung
ab;
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
43 / 169
Wissenserwerb und Wissensentdeckung
Clustering
k-means-Clustering 2/2
Vorteile von k-means:
• leicht zu implementieren;
• lineare Komplexität in der Zahl der Beobachtungen (bei konstanter
Zahl der Cluster und der Iterationsschritte).
Nachteile von k-means:
• Güte der Partitionierung hängt stark von der initialen Partitionierung
ab;
• kann in lokales Optimum konvergieren.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
43 / 169
Wissenserwerb und Wissensentdeckung
Clustering
k-means-Clustering 2/2
Vorteile von k-means:
• leicht zu implementieren;
• lineare Komplexität in der Zahl der Beobachtungen (bei konstanter
Zahl der Cluster und der Iterationsschritte).
Nachteile von k-means:
• Güte der Partitionierung hängt stark von der initialen Partitionierung
ab;
• kann in lokales Optimum konvergieren.
Deswegen werden oft mehrere Läufe mit zufälligen Start-Zentroiden
durchgeführt.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
43 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Beispiel – k-means-Clustering 1/2
' $
X2
F
C
B
Al G
DE
& %
X1
Wählen wir hier als initiale Zentroide die Beobachtungen A, B, C, so
erhalten wir die Ellipsen-Partitionierung
{A}, {B, C}, {D, E, F, G}
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
44 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Beispiel – k-means-Clustering 2/2
' $
X2
F
C
B
l
A
G
DE
& %
X1
Das globale Minimum des Quadratfehlers (bei drei Clustern) wird jedoch
bei der Rechteck-Partitionierung
{A, B, C}, {D, E}, {F, G}
♣
angenommen.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
45 / 169
Wissenserwerb und Wissensentdeckung
Clustering
Notizen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
45 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Übersicht Kapitel 5
5.1 (Kurze) Einführung
5.2 Clustering
5.3 Entscheidungsbäume
5.4 Assoziationsregeln
5.5 Konzeptlernen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
56 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kapitel 5
5. Wissenserwerb und
Wissensentdeckung
5.3 Entscheidungsbäume
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
57 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Entscheidungsbäume
• Wozu benutzt man Entscheidungsbäume?
• Entscheidungsbäume dienen der Klassifikation von Objekten, die durch
(Attribut, Wert)-Paare beschrieben sind;
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
58 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Entscheidungsbäume
• Wozu benutzt man Entscheidungsbäume?
• Entscheidungsbäume dienen der Klassifikation von Objekten, die durch
(Attribut, Wert)-Paare beschrieben sind;
• hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung
(kann leicht verallgemeinert werden)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
58 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Entscheidungsbäume
• Wozu benutzt man Entscheidungsbäume?
• Entscheidungsbäume dienen der Klassifikation von Objekten, die durch
(Attribut, Wert)-Paare beschrieben sind;
• hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung
(kann leicht verallgemeinert werden)
• Was sind Entscheidungsbäume?
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
58 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Entscheidungsbäume
• Wozu benutzt man Entscheidungsbäume?
• Entscheidungsbäume dienen der Klassifikation von Objekten, die durch
(Attribut, Wert)-Paare beschrieben sind;
• hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung
(kann leicht verallgemeinert werden)
• Was sind Entscheidungsbäume?
• Wie benutzt man Entscheidungsbäume?
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
58 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Entscheidungsbäume
• Wozu benutzt man Entscheidungsbäume?
• Entscheidungsbäume dienen der Klassifikation von Objekten, die durch
(Attribut, Wert)-Paare beschrieben sind;
• hier: binäre Klassifikation, d.h. Ja/Nein-Entscheidung
(kann leicht verallgemeinert werden)
• Was sind Entscheidungsbäume?
• Wie benutzt man Entscheidungsbäume?
• Wie baut man Entscheidungsbäume auf?
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
58 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Entscheidungsbäume – Struktur
• Wurzel und innere Knoten des Baumes sind mit Attributen markiert
und repräsentieren Abfragen, welchen Wert das betrachtete Objekt
für das jeweilige Attribut hat.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
59 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Entscheidungsbäume – Struktur
• Wurzel und innere Knoten des Baumes sind mit Attributen markiert
und repräsentieren Abfragen, welchen Wert das betrachtete Objekt
für das jeweilige Attribut hat.
• Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen
möglichen Attributwerten markiert.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
59 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Entscheidungsbäume – Struktur
• Wurzel und innere Knoten des Baumes sind mit Attributen markiert
und repräsentieren Abfragen, welchen Wert das betrachtete Objekt
für das jeweilige Attribut hat.
• Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen
möglichen Attributwerten markiert.
• Die Blätter enthalten die Klassifikation.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
59 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Entscheidungsbäume – Struktur
• Wurzel und innere Knoten des Baumes sind mit Attributen markiert
und repräsentieren Abfragen, welchen Wert das betrachtete Objekt
für das jeweilige Attribut hat.
• Die von einem Knoten ausgehenden Kanten sind mit den zugehörigen
möglichen Attributwerten markiert.
• Die Blätter enthalten die Klassifikation.
Objekte werden durch vollständige Pfade durch den Baum klassifiziert.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
59 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel
Entscheidungssituation: “Kino – ja oder nein?”
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
60 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel
Entscheidungssituation: “Kino – ja oder nein?”
zu klassifizierende Objekte: Situationen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
60 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel
Entscheidungssituation: “Kino – ja oder nein?”
zu klassifizierende Objekte: Situationen
relevante Attribute:
Attribut
Attraktivität
Preis
Loge
Wetter
Warten
Besetzung
Kategorie
Reservierung
Land
Gruppe
Werte
hoch, mittel, gering
normal ($) oder mit Zuschlag ($$)
verfügbar (ja) oder nicht (nein)
schön, mittel, schlecht
Wartezeit (ja) oder nicht (nein)
Cast und Regie sind top, mittel(mäßig)
Action (AC), Komödie (KO), Drama (DR), SciFi (SF)
besteht (ja) oder nicht (nein)
nationale (N) oder internationale (I) Produktion
mit Freunde(n), als Paar, oder allein
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
60 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Ein möglicher Entscheidungsbaum für das
Kino-Problem
Attraktivität?
h
hhhh
hhhh hoch
hhhh
hh
Besetzung?
nein
Warten?
!!PPPP
c
top c mittel
ja!!!
nein
PP
c
!
P
!
P
c
ja
Gruppe?
nein
Land?
P
lPPP
%QQ
PPallein
l
int. %
Freunde
Paar
Qnat.
PP
Q
%
l
ja
ja
Kategorie?
Kategorie?
nein
XXX
P
PP
#H
c
X
H
B
X
c PPP SF
DR ##ACB KOHH XXXSF
DRAC KO
c
PP
XX
#
B
H
c
gering
nein
mittel
ja
ja
ja
nein
ja
nein
G. Kern-Isberner (TU Dortmund)
DVEW
Wetter?
nein
HHH
mittel Hschlecht
schön
H
ja
WiSe 2016/17
ja
61 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Aufbau von Entscheidungsbäumen 1/2
Lernaufgabe:
Erzeuge Entscheidungsbaum aus Trainingsmenge (= Menge von
klassifizierten Beispielen), so dass
• Beispiele der Trainingsmenge korrekt klassifiziert werden
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
62 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Aufbau von Entscheidungsbäumen 1/2
Lernaufgabe:
Erzeuge Entscheidungsbaum aus Trainingsmenge (= Menge von
klassifizierten Beispielen), so dass
• Beispiele der Trainingsmenge korrekt klassifiziert werden und
• sich der Entscheidungsbaum auch für andere Beispiele generalisieren
lässt
→ induktives Lernen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
62 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Aufbau von Entscheidungsbäumen 2/2
Beisp. Attr.
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
hoch
mittel
mittel
gering
mittel
hoch
mittel
mittel
gering
mittel
hoch
mittel
hoch
mittel
mittel
Preis Loge Wetter Warten Bes.
Kat. Land Res. Gruppe Kino?
$$
$
$
$
$
$$
$
$
$
$
$
$
$$
$
$
AC
KO
DR
SF
DR
SF
KO
AC
KO
KO
DR
AC
SF
DR
AC
ja
ja
nein
ja
ja
ja
ja
nein
ja
ja
ja
nein
ja
ja
ja
G. Kern-Isberner (TU Dortmund)
schlecht
mittel
mittel
mittel
mittel
schön
schlecht
schlecht
schön
schön
mittel
schlecht
mittel
schön
schlecht
ja
nein
ja
ja
nein
nein
nein
ja
nein
nein
ja
ja
ja
ja
nein
DVEW
top
mittel
mittel
mittel
mittel
top
mittel
mittel
mittel
mittel
top
mittel
mittel
top
mittel
int.
int.
int.
int.
int.
int.
nat.
int.
nat.
int.
int.
nat.
int.
int.
int.
ja
nein
nein
nein
nein
ja
nein
nein
nein
nein
nein
nein
nein
ja
nein
Freunde
Paar
Freunde
allein
Paar
Freunde
Freunde
Freunde
Freunde
Paar
Paar
allein
allein
Freunde
Paar
WiSe 2016/17
ja
ja
nein
nein
ja
ja
ja
ja
nein
nein
ja
nein
nein
nein
ja
63 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Occam’s Razor
Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des
Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden,
das sich auf neue Situationen verallgemeinern lässt.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
64 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Occam’s Razor
Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des
Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden,
das sich auf neue Situationen verallgemeinern lässt. Ziel des Lernens ist es
daher, einen möglichst kompakten Entscheidungsbaum zu generieren.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
64 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Occam’s Razor
Ein wichtiger Vorteil eines Entscheidungsbaumes ist die Möglichkeit des
Generalisierens: Es soll ein Muster aus den Beispielen extrahiert werden,
das sich auf neue Situationen verallgemeinern lässt. Ziel des Lernens ist es
daher, einen möglichst kompakten Entscheidungsbaum zu generieren.
Dieser Überlegung liegt ein generelles Prinzip des induktiven Lernens
zugrunde:
Occam’s Razor
Bevorzuge die einfachste Hypothese, die konsistent mit allen
Beobachtungen ist.
(William of Occam, engl. Philosoph, ca. 1285-1349)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
64 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
1/3
1
Wähle ein Attribut a für den nächsten Knoten.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
65 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
1/3
1
Wähle ein Attribut a für den nächsten Knoten.
2
Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die
zugehörige Kante mit diesem Wert.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
65 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
1/3
1
Wähle ein Attribut a für den nächsten Knoten.
2
Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die
zugehörige Kante mit diesem Wert.
3
Verteile die aktuelle Trainingsmenge auf die Nachfolgeknoten,
entsprechend den jeweiligen Werten von a.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
65 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
1/3
1
Wähle ein Attribut a für den nächsten Knoten.
2
Für jeden Wert von a erzeuge einen Nachfolgeknoten; markiere die
zugehörige Kante mit diesem Wert.
3
Verteile die aktuelle Trainingsmenge auf die Nachfolgeknoten,
entsprechend den jeweiligen Werten von a.
4
wende TDIDT auf die neuen Blattknoten an (Rekursion)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
65 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
2/3
An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten:
1
alle Beispiele haben die gleiche Klassifikation C → Blatt mit
Klassifikation C
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
66 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
2/3
An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten:
1
2
alle Beispiele haben die gleiche Klassifikation C → Blatt mit
Klassifikation C
Beispielmenge ist leer → Blatt mit Default-Klassifikation
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
66 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
2/3
An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten:
1
2
3
alle Beispiele haben die gleiche Klassifikation C → Blatt mit
Klassifikation C
Beispielmenge ist leer → Blatt mit Default-Klassifikation
es gibt noch positive und negative Beispiele,
aber es sind keine Attribute mehr übrig → Inkonsistenz
(es gibt Beispiele mit genau denselben Attributwerten, aber
unterschiedlicher Klassifikation)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
66 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
2/3
An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten:
1
2
3
4
alle Beispiele haben die gleiche Klassifikation C → Blatt mit
Klassifikation C
Beispielmenge ist leer → Blatt mit Default-Klassifikation
es gibt noch positive und negative Beispiele,
aber es sind keine Attribute mehr übrig → Inkonsistenz
(es gibt Beispiele mit genau denselben Attributwerten, aber
unterschiedlicher Klassifikation)
es gibt noch positive und negative Beispiele,
die aktuelle Menge der Attribute ist nicht leer
→ nächster Rekursionsschritt
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
66 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
2/3
An den (aktuellen) Blattknoten können vier verschiedene Fälle auftreten:
1
2
3
4
alle Beispiele haben die gleiche Klassifikation C → Blatt mit
Klassifikation C
Beispielmenge ist leer → Blatt mit Default-Klassifikation
es gibt noch positive und negative Beispiele,
aber es sind keine Attribute mehr übrig → Inkonsistenz
(es gibt Beispiele mit genau denselben Attributwerten, aber
unterschiedlicher Klassifikation)
es gibt noch positive und negative Beispiele,
die aktuelle Menge der Attribute ist nicht leer
→ nächster Rekursionsschritt
Zentrales Problem: Wie findet man das (jeweils nächste) beste Attribut,
um den Entscheidungsbaum aufzubauen ?
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
66 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
3/3
Welches Attribut a soll als nächstes gewählt werden?
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
67 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
3/3
Welches Attribut a soll als nächstes gewählt werden?
→ Wähle dasjenige Attribut, das am wichtigsten ist
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
67 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
3/3
Welches Attribut a soll als nächstes gewählt werden?
→ Wähle dasjenige Attribut, das am wichtigsten ist, d.h. das
• soviel Beispiele wie möglich klassifiziert
(→ Kardinalitätskriterium);
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
67 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Top-Down Induction of Decision Trees (TDIDT)
3/3
Welches Attribut a soll als nächstes gewählt werden?
→ Wähle dasjenige Attribut, das am wichtigsten ist, d.h. das
• soviel Beispiele wie möglich klassifiziert
(→ Kardinalitätskriterium);
• die meiste Information enthält (→ ID3, C4.5).
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
67 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Gruppe?
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
68 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Gruppe?
```
```
```
```
``
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
68 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Gruppe?
Freunde
```
```
```
```
``
+ : X1,X6,X7,X8
− : X3,X9,X14
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
68 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Gruppe?
Freunde
```
```
```
``` Paar
allein
``
+ : X2,X5,X11,X15
+ : X1,X6,X7,X8
+:
− : X3,X9,X14
− : X4,X12,X13
G. Kern-Isberner (TU Dortmund)
DVEW
− : X10
WiSe 2016/17
68 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Gruppe?
Freunde
```
```
```
``` Paar
allein
``
+ : X2,X5,X11,X15
+ : X1,X6,X7,X8
+:
− : X3,X9,X14
− : X4,X12,X13
− : X10
Beim Wert Gruppe = allein werden alle verfügbaren (drei) Beispiele
vollständig klassifiziert.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
68 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Kategorie?
```
(((
HH
"`
((((""
(
HH `````
(
(
``` SF
DR (((((
AC "
KO
HH
``
"
(
+ : X5,X11
+ : X1,X8,X15
+ : X6
+ : X2,X7
− : X3,X14
− : X12
G. Kern-Isberner (TU Dortmund)
− : X9,X10
DVEW
− : X4,X13
WiSe 2016/17
69 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Kategorie?
```
(((
HH
"`
((((""
(
HH `````
(
(
``` SF
DR (((((
AC "
KO
HH
``
"
(
+ : X5,X11
+ : X1,X8,X15
+ : X6
+ : X2,X7
− : X3,X14
− : X12
− : X9,X10
− : X4,X13
Das Attribut Kategorie kann kein einziges Trainingsbeispiel mit nur einem
Test klassifizieren.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
69 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Kategorie?
```
(((
HH
"`
((((""
(
HH `````
(
(
``` SF
DR (((((
AC "
KO
HH
``
"
(
+ : X5,X11
+ : X1,X8,X15
+ : X6
+ : X2,X7
− : X3,X14
− : X12
− : X9,X10
− : X4,X13
Das Attribut Kategorie kann kein einziges Trainingsbeispiel mit nur einem
Test klassifizieren.
Gruppe ist also nach dem Kardinalitätskriterium als erstes Attribut des
Entscheidungsbaumes besser geeignet als Kategorie.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
69 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Gruppe?
Freunde
+ : X1,X6,X7,X8
− : X3,X9,X14
```
```
```
allein
Paar
```
+:
+ : X2,X5,X11,X15
− : X10
− : X4,X12,X13
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
70 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Gruppe?
Freunde
+ : X1,X6,X7,X8
− : X3,X9,X14
```
```
```
allein
Paar
```
+:
+ : X2,X5,X11,X15
− : X10
− : X4,X12,X13
Wetter?
PP
PP
PPschlecht
schön mittel
P
+:
+ : X2,X5,X11
+ : X15
− : X10
−:
−:
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
70 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X1,X2,X5,X6,X7,X8,X11,X15
− : X3,X4,X9,X10,X12,X13,X14
Gruppe?
Freunde
+ : X1,X6,X7,X8
− : X3,X9,X14
```
```
```
allein
Paar
```
+:
+ : X2,X5,X11,X15
− : X10
− : X4,X12,X13
Wetter?
PP
PP
PPschlecht
schön mittel
P
+:
+ : X2,X5,X11
+ : X15
− : X10
−:
−:
Wetter klassifiziert alle Beispiele der Menge EGruppe=P aar vollständig.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
70 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X2,X5,X11,X15
− : X10
Kategorie?
X
Z
, XXXX
Z
X
,
Z KO XXXX SF
AC ,
DR X
,
Z
+ : X5,X11
+ : X15
+ : X2
+:
−:
G. Kern-Isberner (TU Dortmund)
−:
− : X10
DVEW
−:
WiSe 2016/17
71 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X2,X5,X11,X15
− : X10
Kategorie?
X
Z
, XXXX
Z
X
,
Z KO XXXX SF
AC ,
DR X
,
Z
+ : X5,X11
+ : X15
+ : X2
+:
−:
−:
− : X10
−:
Kategorie kann bei EGruppe=P aar zwei Beispiele nicht eindeutig
klassifizieren.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
71 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
+ : X2,X5,X11,X15
− : X10
Kategorie?
X
Z
, XXXX
Z
X
,
Z KO XXXX SF
AC ,
DR X
,
Z
+ : X5,X11
+ : X15
+ : X2
+:
−:
−:
− : X10
−:
Kategorie kann bei EGruppe=P aar zwei Beispiele nicht eindeutig
klassifizieren.
Folglich ist Wetter als zweites Attribut an dieser Stelle besser geeignet. ♣
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
71 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Notizen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
71 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Wichtigkeit von Attributen
Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff – sie hängt
stark von der aktuellen Beispielmenge ab!
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
72 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Wichtigkeit von Attributen
Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff – sie hängt
stark von der aktuellen Beispielmenge ab!
Beispiel: Das Attribut Kategorie ist als erste Abfrage für die gesamte
Beispielmenge {X1 , . . . , X15 } ziemlich nutzlos
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
72 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Wichtigkeit von Attributen
Die Wichtigkeit eines Attributes ist jedoch ein relativer Begriff – sie hängt
stark von der aktuellen Beispielmenge ab!
Beispiel: Das Attribut Kategorie ist als erste Abfrage für die gesamte
Beispielmenge {X1 , . . . , X15 } ziemlich nutzlos – andererseits hat gerade
dieses Attribut für die Beispielmenge
EGruppe=F reunde = {X1 , X3 , X6 , X7 , X8 , X9 , X14 }
unter allen übrig gebliebenen Attributen die größte Wichtigkeit
(es klassifiziert 5 Beispiele vollständig).
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
♣
72 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
TDIDT-Algorithmus 1/2
function
DT (E, A, default)
Eingabe:
E
A
default
Ausgabe:
Entscheidungsbaum
G. Kern-Isberner (TU Dortmund)
Menge von Beispielen
Menge von Attributen
Default-Klassifikation
DVEW
WiSe 2016/17
73 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
TDIDT-Algorithmus 2/2
if E = ∅
then return default
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
74 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
TDIDT-Algorithmus 2/2
if E = ∅
then return default
else if alle Elemente in E haben die gleiche Klassifikation c ∈ {ja, nein}
then return c
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
74 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
TDIDT-Algorithmus 2/2
if E = ∅
then return default
else if alle Elemente in E haben die gleiche Klassifikation c ∈ {ja, nein}
then return c
else if A = ∅
then Fehler “gleiche Beispiele mit unterschiedlicher
Klassifikation”
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
74 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
TDIDT-Algorithmus 2/2
if E = ∅
then return default
else if alle Elemente in E haben die gleiche Klassifikation c ∈ {ja, nein}
then return c
else if A = ∅
then Fehler “gleiche Beispiele mit unterschiedlicher
Klassifikation”
else a := ChooseAttribute(A, E)
T := neuer Entscheidungsbaum mit Wurzelmarkierung a
for each Attributwert wi von a do
Ei := {e ∈ E | a(e) = wi }
Ti := DT (Ei , A\{a}, MajorityVal (E))
hänge an den Wurzelknoten von T
eine neue Kante mit Markierung wi
und Unterbaum Ti an
end
return T
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
74 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Kino-Beispiel (Forts.)
Gruppe?
Freunde
allein
Kategorie?
AC
ja
DR
nein
KO
Wetter?
schön mittel
ja
nein
Paar
nein
SF
Wetter?
schön
ja
nein
mittel schlecht
ja
schlecht
ja
Der fertige Entscheidungsbaum
G. Kern-Isberner (TU Dortmund)
ja
DVEW
♣
WiSe 2016/17 1
75 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
TDIDT-Systeme
Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel,
den Entscheidungsbaum möglichst klein zu halten.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
76 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
TDIDT-Systeme
Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel,
den Entscheidungsbaum möglichst klein zu halten.
Die etabliertesten TDIDT-Systeme sind ID3 und seine Weiterentwicklung
C4.5, die beide auf Quinlan zurückgehen.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
76 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
TDIDT-Systeme
Der Kern eines TDIDT-Verfahrens ist die Attributauswahl mit dem Ziel,
den Entscheidungsbaum möglichst klein zu halten.
Die etabliertesten TDIDT-Systeme sind ID3 und seine Weiterentwicklung
C4.5, die beide auf Quinlan zurückgehen.
Zur Bestimmung des jeweils besten Attributes verwenden diese beiden
Systeme grundsätzlich den Informationsgehalt eines Attributes, der durch
den jeweiligen Informationsgewinn bestimmt wird.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
76 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 1/6
Die Menge E der Beispiele enthalte p positive und n negative Beispiele;
dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel
p
n
auszuwählen,
bzw.
.
p+n
p+n
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
77 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 1/6
Die Menge E der Beispiele enthalte p positive und n negative Beispiele;
dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel
p
n
auszuwählen,
bzw.
.
p+n
p+n
Der Informationsgehalt I(E) der Antwort auf die Frage
“Handelt es sich bei einem beliebigen Beispiel aus E um ein
positives oder ein negatives Beispiel ? ”
beträgt daher (wobei H die Entropie bezeichnet)
I(E) :=
H
G. Kern-Isberner (TU Dortmund)
p
n
;
p+n p+n
DVEW
WiSe 2016/17
77 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 1/6
Die Menge E der Beispiele enthalte p positive und n negative Beispiele;
dann beträgt die Wahrscheinlichkeit, ein positives bzw. negatives Beispiel
p
n
auszuwählen,
bzw.
.
p+n
p+n
Der Informationsgehalt I(E) der Antwort auf die Frage
“Handelt es sich bei einem beliebigen Beispiel aus E um ein
positives oder ein negatives Beispiel ? ”
beträgt daher (wobei H die Entropie bezeichnet)
p
n
I(E) := H
;
p+n p+n
p
p
n
n
= −
log2
−
log2
[bit]
p+n
p+n
p+n
p+n
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
77 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 2/6
Beispiel: Bei der Trainingsmenge des Kinoproblems beträgt dieser
Informationsgehalt
H(
p
n
8 7
;
) = H( ; ) ≈ 0.9968 bit
p+n p+n
15 15
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
78 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 2/6
Beispiel: Bei der Trainingsmenge des Kinoproblems beträgt dieser
Informationsgehalt
H(
p
n
8 7
;
) = H( ; ) ≈ 0.9968 bit
p+n p+n
15 15
♣
Bei der Attributauswahl soll nun berücksichtigt werden, welchen
Informationsgewinn man erhält, wenn man den Wert eines Attributs kennt.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
78 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 3/6
Informell errechnet sich also der Informationsgewinn als Differenz
Informationsgewinn =
Informationsgehalt vor Attributauswahl
− Informationsgehalt nach Attributauswahl
wobei der Informationsgehalt einer Trainingsmenge als die Entropie der
zugehörigen Verteilung definiert wird.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
79 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 4/6
Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E1 , . . . , Ek auf,
wobei jedes Ei die zum Wert wi von a gehörigen Beispiele enthält und k
die Anzahl der verschiedenen Werte w1 , . . . , wk ist, die a annehmen kann.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
80 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 4/6
Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E1 , . . . , Ek auf,
wobei jedes Ei die zum Wert wi von a gehörigen Beispiele enthält und k
die Anzahl der verschiedenen Werte w1 , . . . , wk ist, die a annehmen kann.
Jedes Ei habe pi positive und ni negative Beispiele.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
80 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 4/6
Jedes Attribut a teilt die Trainingsmenge E in Teilmengen E1 , . . . , Ek auf,
wobei jedes Ei die zum Wert wi von a gehörigen Beispiele enthält und k
die Anzahl der verschiedenen Werte w1 , . . . , wk ist, die a annehmen kann.
Jedes Ei habe pi positive und ni negative Beispiele.
Wenn wir a = wi wissen, benötigen wir also noch
I(Ei ) = H(
pi
ni
;
) bit
p i + ni p i + ni
an Information.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
80 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 5/6
Durch die Berücksichtigung aller Attributwerte a = wi ergibt sich nach
dem Test des Attributes a die folgende bedingte mittlere Information:
I(E | a bekannt) =
G. Kern-Isberner (TU Dortmund)
k
X
i=1
P (a = wi ) · I(Ei )
DVEW
WiSe 2016/17
81 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 5/6
Durch die Berücksichtigung aller Attributwerte a = wi ergibt sich nach
dem Test des Attributes a die folgende bedingte mittlere Information:
I(E | a bekannt) =
=
k
X
i=1
k
X
pi + ni
i=1
G. Kern-Isberner (TU Dortmund)
P (a = wi ) · I(Ei )
p+n
DVEW
· H(
pi
ni
;
)
pi + ni pi + ni
WiSe 2016/17
81 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 6/6
Der Informationsgewinn des Attributes a ist nun :
gain(a) = I(E) − I(E | a bekannt)
(ist also nichts anderes als die gegenseitige Information zwischen dem
Attribut a und der Ausprägung positiv/negativ.)
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
82 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn 6/6
Der Informationsgewinn des Attributes a ist nun :
gain(a) = I(E) − I(E | a bekannt)
(ist also nichts anderes als die gegenseitige Information zwischen dem
Attribut a und der Ausprägung positiv/negativ.)
Das Lernsystem ID3 wählt als nächstes zu testendes Attribut a dasjenige
aus, bei dem gain(a) maximal ist.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
82 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Notizen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
82 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn – Beispiel
Für das Kinoproblem errechnet man für die Wurzel des
Entscheidungsbaumes:
gain(Gruppe)
G. Kern-Isberner (TU Dortmund)
= I(E) − I(E
bekannt)
7 | Gruppe
4 3
5
H( 45 ; 15 ) +
≈ 0.9968 − 15 H( 7 ; 7 ) + 15
≈ 0.2964 bit
DVEW
3
15 H(0; 1)
WiSe 2016/17
83 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn – Beispiel
Für das Kinoproblem errechnet man für die Wurzel des
Entscheidungsbaumes:
gain(Gruppe)
= I(E) − I(E
bekannt)
7 | Gruppe
4 3
5
H( 45 ; 15 ) +
≈ 0.9968 − 15 H( 7 ; 7 ) + 15
≈ 0.2964 bit
gain(Kategorie) = I(E) − I(E
bekannt)
4 | Kategorie
3 1
4
1 1
≈ 0.9968 − 15
H(
;
)
+
4 4
15 H( 2 ; 2 ) +
3
+ 15
I( 13 ; 23 )
≈ 0.0634 bit
3
15 H(0; 1)
4
1 1
15 H( 2 ; 2 )
Es zeigt sich, dass gain(Gruppe) maximal ist und daher von ID3 als erstes
Attribut ausgewählt würde.
♣
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
83 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn – Problem
Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er
Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu
unsinnigen Ergebnissen führen kann.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
84 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn – Problem
Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er
Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu
unsinnigen Ergebnissen führen kann.
Beispiel: Bei einer medizinischen Diagnose werde als eines der Attribute
die persönliche Identifikationsnummer (PIN) eines Patienten benutzt.
Dieses Attribut hat soviele Werte (n), wie es Patienten in der Datei gibt,
und partitioniert daher die Beispielmenge E in eben soviele Teilmengen
mit je einem Element.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
84 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Informationsgewinn – Problem
Der (absolute) Informationsgewinn gain(a) hat den Nachteil, dass er
Attribute mit zahlreichen Werten bevorzugt, was im Extremfall zu
unsinnigen Ergebnissen führen kann.
Beispiel: Bei einer medizinischen Diagnose werde als eines der Attribute
die persönliche Identifikationsnummer (PIN) eines Patienten benutzt.
Dieses Attribut hat soviele Werte (n), wie es Patienten in der Datei gibt,
und partitioniert daher die Beispielmenge E in eben soviele Teilmengen
mit je einem Element.
In diesem Fall ist die bedingte mittlere Information
n
X
1
I(E | PIN bekannt) =
H(0; 1) = 0 bit
n
i=1
der Informationsgewinn also maximal. Für die Diagnose selbst jedoch ist
das Attribut PIN nutzlos.
♣
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
84 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Normierter Informationsgewinn 1/2
Das System C4.5 benutzt statt des absoluten Informationsgewinns einen
normierten Informationsgewinn
gain ratio(a) =
G. Kern-Isberner (TU Dortmund)
DVEW
gain (a)
split info (a)
WiSe 2016/17
85 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Normierter Informationsgewinn 1/2
Das System C4.5 benutzt statt des absoluten Informationsgewinns einen
normierten Informationsgewinn
gain ratio(a) =
gain (a)
split info (a)
wobei split info(a) die Entropie des Attributes a ist:
split info(a) = H(a) = −
G. Kern-Isberner (TU Dortmund)
k
X
P (a = wi ) log2 P (a = wi )
i=1
DVEW
WiSe 2016/17
85 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Normierter Informationsgewinn 2/2
Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine
Gleichverteilung (k = n und P (PIN = wi ) = n1 ), also ist der
Normierungsfaktor H(PIN ) = log2 n und damit maximal.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
86 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Normierter Informationsgewinn 2/2
Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine
Gleichverteilung (k = n und P (PIN = wi ) = n1 ), also ist der
Normierungsfaktor H(PIN ) = log2 n und damit maximal. Damit ist
gain ratio(PIN ) =
I(E)
,
log2 n
der Informationsgewinn durch PIN ist also minimal (bei konstantem
Zähler).
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
♣
86 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Normierter Informationsgewinn 2/2
Beispiel [Forts.]: Die durch PIN induzierte Verteilung ist eine
Gleichverteilung (k = n und P (PIN = wi ) = n1 ), also ist der
Normierungsfaktor H(PIN ) = log2 n und damit maximal. Damit ist
gain ratio(PIN ) =
I(E)
,
log2 n
der Informationsgewinn durch PIN ist also minimal (bei konstantem
Zähler).
♣
Das System C4.5 wählt als nächstes Attribut dasjenige mit dem
maximalen gain ratio-Wert aus (gain ratio-Kriterium).
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
86 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Erzeugung von Regeln aus Entscheidungsbäumen
Aus Entscheidungsbäumen kann man direkt Regeln ableiten:
Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer
if-then-Regel.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
87 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Erzeugung von Regeln aus Entscheidungsbäumen
Aus Entscheidungsbäumen kann man direkt Regeln ableiten:
Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer
if-then-Regel.
Beispiel [Kino]:
Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.B. die
folgenden Regeln gewinnen:
if Gruppe = Paar and Wetter = schlecht then
Kinobesuch = ja
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
87 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Erzeugung von Regeln aus Entscheidungsbäumen
Aus Entscheidungsbäumen kann man direkt Regeln ableiten:
Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer
if-then-Regel.
Beispiel [Kino]:
Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.B. die
folgenden Regeln gewinnen:
if Gruppe = Paar and Wetter = schlecht then
Kinobesuch = ja
if Gruppe = Freunde and Kategorie = SF then
Kinobesuch = ja
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
87 / 169
Wissenserwerb und Wissensentdeckung
Entscheidungsbäume
Erzeugung von Regeln aus Entscheidungsbäumen
Aus Entscheidungsbäumen kann man direkt Regeln ableiten:
Jeder Pfad von der Wurzel zu einem Blattknoten entspricht einer
if-then-Regel.
Beispiel [Kino]:
Aus dem Entscheidungsbaum des Kino-Beispiels kann man z.B. die
folgenden Regeln gewinnen:
if Gruppe = Paar and Wetter = schlecht then
Kinobesuch = ja
if Gruppe = Freunde and Kategorie = SF then
Kinobesuch = ja
if Gruppe = Freunde and Kategorie = Komödie and
Wetter = schön then Kinobesuch = nein
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
♣
87 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Übersicht Kapitel 5
5.1 (Kurze) Einführung
5.2 Clustering
5.3 Entscheidungsbäume
5.4 Data Mining und Assoziationsregeln
5.5 Konzeptlernen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
88 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Kapitel 5
5. Wissenserwerb und
Wissensentdeckung
5.6 Data Mining und Assoziationsregeln
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
89 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
KDD & DM
Durch die fortschreitende Automatisierung fallen immense Mengen an
Daten an . . .
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
90 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
KDD & DM
Durch die fortschreitende Automatisierung fallen immense Mengen an
Daten an . . .
Knowledge Discovery in Databases (KDD) . . .
. . . bezeichnet den Prozess, neues, nützliches und interessantes
Wissen aus Daten herauszufiltern und in verständlicher Form zu
präsentieren.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
90 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
KDD & DM
Durch die fortschreitende Automatisierung fallen immense Mengen an
Daten an . . .
Knowledge Discovery in Databases (KDD) . . .
. . . bezeichnet den Prozess, neues, nützliches und interessantes
Wissen aus Daten herauszufiltern und in verständlicher Form zu
präsentieren.
Data Mining (DM) . . .
bezeichnet die konkrete Anwendung von Algorithmen zur
Wissensfindung in Daten.
[Fayyad & Uthurusamy, ACM Communications 1996]
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
90 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Der KDD-Prozess 1/2
. . . umfasst die folgenden Schritte:
• Hintergrundwissen und Zielsetzung: Bereitstellung von
bereichsspezifischem Wissen und Definition der Ziele des
durchzuführenden KDD-Prozesses.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
91 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Der KDD-Prozess 1/2
. . . umfasst die folgenden Schritte:
• Hintergrundwissen und Zielsetzung: Bereitstellung von
bereichsspezifischem Wissen und Definition der Ziele des
durchzuführenden KDD-Prozesses.
• Datenauswahl: Festlegung der zu untersuchenden Datenmenge.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
91 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Der KDD-Prozess 1/2
. . . umfasst die folgenden Schritte:
• Hintergrundwissen und Zielsetzung: Bereitstellung von
bereichsspezifischem Wissen und Definition der Ziele des
durchzuführenden KDD-Prozesses.
• Datenauswahl: Festlegung der zu untersuchenden Datenmenge.
• Datenbereinigung: Herausfiltern von Ausreißern und Rauscheffekten,
Behandlung fehlender Daten.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
91 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Der KDD-Prozess 1/2
. . . umfasst die folgenden Schritte:
• Hintergrundwissen und Zielsetzung: Bereitstellung von
bereichsspezifischem Wissen und Definition der Ziele des
durchzuführenden KDD-Prozesses.
• Datenauswahl: Festlegung der zu untersuchenden Datenmenge.
• Datenbereinigung: Herausfiltern von Ausreißern und Rauscheffekten,
Behandlung fehlender Daten.
• Datenreduktion und -projektion: Komprimierung der Datenmenge
durch Reduktion und/oder Transformation der Variablen (→ feature
selection, feature extraction).
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
91 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Der KDD-Prozess 2/2
• Modellfunktionalität: Welchem Zweck dient das Data Mining? –
Klassifikation, Clustering, Regressionsanalyse etc.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
92 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Der KDD-Prozess 2/2
• Modellfunktionalität: Welchem Zweck dient das Data Mining? –
Klassifikation, Clustering, Regressionsanalyse etc.
• Verfahrenswahl: Bestimmung des Data Mining-Verfahrens.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
92 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Der KDD-Prozess 2/2
• Modellfunktionalität: Welchem Zweck dient das Data Mining? –
Klassifikation, Clustering, Regressionsanalyse etc.
• Verfahrenswahl: Bestimmung des Data Mining-Verfahrens.
• Data Mining: der eigentliche Data Mining-Prozess.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
92 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Der KDD-Prozess 2/2
• Modellfunktionalität: Welchem Zweck dient das Data Mining? –
Klassifikation, Clustering, Regressionsanalyse etc.
• Verfahrenswahl: Bestimmung des Data Mining-Verfahrens.
• Data Mining: der eigentliche Data Mining-Prozess.
• Interpretation: Aufbereitung der gefundenen Information.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
92 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Eine spezielle KDD/DM-Aufgabe
• verständliche Form −→ Assoziationsregeln
r : A1 . . . An → B1 . . . Bm
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
93 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Eine spezielle KDD/DM-Aufgabe
• verständliche Form −→ Assoziationsregeln
r : A1 . . . An → B1 . . . Bm
Beispiel:
“80 % der Kunden, die Bier und Sekt kaufen, kaufen auch
Kartoffelchips”
♣
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
93 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Eine spezielle KDD/DM-Aufgabe
• verständliche Form −→ Assoziationsregeln
r : A1 . . . An → B1 . . . Bm
Beispiel:
“80 % der Kunden, die Bier und Sekt kaufen, kaufen auch
Kartoffelchips”
• nützlich und interessant −→ Wahrscheinlichkeiten nahe 1
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
♣
93 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Eine spezielle KDD/DM-Aufgabe
• verständliche Form −→ Assoziationsregeln
r : A1 . . . An → B1 . . . Bm
Beispiel:
“80 % der Kunden, die Bier und Sekt kaufen, kaufen auch
Kartoffelchips”
• nützlich und interessant −→ Wahrscheinlichkeiten nahe 1
• Support support(r) = Prob(A1 . . . An , B1 . . . Bm )
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
♣
93 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Eine spezielle KDD/DM-Aufgabe
• verständliche Form −→ Assoziationsregeln
r : A1 . . . An → B1 . . . Bm
Beispiel:
“80 % der Kunden, die Bier und Sekt kaufen, kaufen auch
Kartoffelchips”
• nützlich und interessant −→ Wahrscheinlichkeiten nahe 1
• Support support(r) = Prob(A1 . . . An , B1 . . . Bm )
• Konfidenz confidence(r) = Prob(B1 . . . Bm |A1 . . . An )
♣
Finde Assoziationsregeln mit hohem Support und hoher
Konfidenz!
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
93 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Itemmengen und Transaktionen
• Item = Artikel, Ding, Gegenstand;
I Menge aller betrachteten Items
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
94 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Itemmengen und Transaktionen
• Item = Artikel, Ding, Gegenstand;
I Menge aller betrachteten Items
• X ⊆ I Itemmenge; |X| = k: k-Itemmenge
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
94 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Itemmengen und Transaktionen
• Item = Artikel, Ding, Gegenstand;
I Menge aller betrachteten Items
• X ⊆ I Itemmenge; |X| = k: k-Itemmenge
• Transaktion t ⊆ I Itemmenge;
Datenbasis D = {t1 , t2 , . . .} Menge von Transaktionen
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
94 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Itemmengen und Transaktionen
• Item = Artikel, Ding, Gegenstand;
I Menge aller betrachteten Items
• X ⊆ I Itemmenge; |X| = k: k-Itemmenge
• Transaktion t ⊆ I Itemmenge;
Datenbasis D = {t1 , t2 , . . .} Menge von Transaktionen
• Support einer Itemmenge
support(X) =
G. Kern-Isberner (TU Dortmund)
| {t ∈ D | X ⊆ t} |
|D|
DVEW
WiSe 2016/17
94 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Itemmengen und Transaktionen – Beispiel
Anwendungsbereich: Verkaufsdatenanalyse eines Supermarktes
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
95 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Itemmengen und Transaktionen – Beispiel
Anwendungsbereich: Verkaufsdatenanalyse eines Supermarktes
Items: Artikel des Marktsortimentes
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
95 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Itemmengen und Transaktionen – Beispiel
Anwendungsbereich: Verkaufsdatenanalyse eines Supermarktes
Items: Artikel des Marktsortimentes
Transaktionen: Kundeneinkäufe
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
95 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Itemmengen und Transaktionen – Beispiel
Anwendungsbereich: Verkaufsdatenanalyse eines Supermarktes
Items: Artikel des Marktsortimentes
Transaktionen: Kundeneinkäufe
Datenbasis D: alle Verkaufstransaktionen eines bestimmten Zeitraums
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
95 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Itemmengen und Transaktionen – Beispiel
Anwendungsbereich: Verkaufsdatenanalyse eines Supermarktes
Items: Artikel des Marktsortimentes
Transaktionen: Kundeneinkäufe
Datenbasis D: alle Verkaufstransaktionen eines bestimmten Zeitraums
Support der Itemmenge {M ilch}: Prozentsatz der Kunden, die bei ihrem
Einkauf auch Milch einkauften.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
95 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Assoziationsregeln
Eine Assoziationsregel hat die Form
X→Y
wobei X und Y disjunkte Itemmengen sind.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
96 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Assoziationsregeln
Eine Assoziationsregel hat die Form
X→Y
wobei X und Y disjunkte Itemmengen sind.
Der Support einer Assoziationsregel ist definiert als der Support von
Prämisse + Konklusion:
support(X → Y ) = support(X ∪ Y )
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
96 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
Assoziationsregeln
Eine Assoziationsregel hat die Form
X→Y
wobei X und Y disjunkte Itemmengen sind.
Der Support einer Assoziationsregel ist definiert als der Support von
Prämisse + Konklusion:
support(X → Y ) = support(X ∪ Y )
Die Konfidenz einer Assoziationsregel X → Y ist der (relative) Anteil
derjenigen der X enthaltenden Transaktionen, die auch Y enthalten:
confidence(X → Y ) =
G. Kern-Isberner (TU Dortmund)
DVEW
support(X → Y )
support(X)
WiSe 2016/17
96 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
KDD-Suche nach Assoziationsregeln
Finde alle Assoziationsregeln, die in der betrachteten Datenbasis
mit einem Support von mindestens minsupp und einer Konfidenz
von mindestens minconf gelten, wobei minsupp und minconf
benutzerdefinierte Werte sind.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
97 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
KDD-Suche nach Assoziationsregeln
Finde alle Assoziationsregeln, die in der betrachteten Datenbasis
mit einem Support von mindestens minsupp und einer Konfidenz
von mindestens minconf gelten, wobei minsupp und minconf
benutzerdefinierte Werte sind.
• Finde alle Itemmengen, deren Support über der minsupp-Schwelle
liegt; diese Itemmengen werden häufige Itemmengen (frequent
itemsets) genannt.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
97 / 169
Wissenserwerb und Wissensentdeckung
Data Mining und Assoziationsregeln
KDD-Suche nach Assoziationsregeln
Finde alle Assoziationsregeln, die in der betrachteten Datenbasis
mit einem Support von mindestens minsupp und einer Konfidenz
von mindestens minconf gelten, wobei minsupp und minconf
benutzerdefinierte Werte sind.
• Finde alle Itemmengen, deren Support über der minsupp-Schwelle
liegt; diese Itemmengen werden häufige Itemmengen (frequent
itemsets) genannt.
• Finde in jeder häufigen Itemmenge I alle Assoziationsregeln
I 0 → (I − I 0 ) mit I 0 ⊂ I,
deren Konfidenz mindestens minconf beträgt.
G. Kern-Isberner (TU Dortmund)
DVEW
WiSe 2016/17
97 / 169
Herunterladen