Überwachtes Lernen I: Klassifikation und Regression

Werbung
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Überwachtes Lernen I:
Klassifikation und Regression
Praktikum:
Data Warehousing und
Data Mining
Praktikum Data Warehousing und Mining, Sommersemester 2009
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Klassifikationsprobleme
• Idee
• Bestimmung eines unbekannten
kategorischen Attributwertes
(ordinal mit Einschränkung)
• Unter Benutzung beliebiger
bekannter Attributwerte
• Beispiele:
•
•
•
•
•
Klassifikation von Spam
Vorhersage von Kundenverhalten wie Kündigungen (Churn)
Vorhersage von Kreditwürdigkeit
Beurteilung von industriellen Gütern
…
Praktikum Data Warehousing und Mining, Sommersemester 2009
2
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Regressionsprobleme
• Idee
• Bestimmung eines unbekannten
numerischen Attributwertes
(ordinale und kategorische Vorhersagen
durch Schwellwertsetzung)
• Unter Benutzung beliebiger
bekannter Attributwerte
• Beispiele:
•
•
•
•
Vorhersage von Kundenverhalten wie ‚Zeit bis Kündigung‘
Vorhersage von Kosten, Aufwand o.ä.
Voraussage von Verkaufszahlen, z.B. von Büchern
…
Praktikum Data Warehousing und Mining, Sommersemester 2009
3
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Prozess 1: Klassifikationsmodell lernen
TrainingsDaten
NAME
M ike
M ary
B ill
Jim
D ave
Anne
RANK
YEARS TENURED
A ssistan t P ro f
3
no
A ssistan t P ro f
7
yes
P ro fesso r
2
yes
A sso ciate P ro f
7
yes
A ssistan t P ro f
6
no
A sso ciate P ro f
3
no
Praktikum Data Warehousing und Mining, Sommersemester 2009
Klassifikator
Lernen
Klassifikator
IF rank = ‘Professor’
OR years > 6
THEN tenured = ‘yes’
4
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Prozess 2: Vorhersagen mit dem Modell
Klassifikator
TestDaten
Neue Daten
(Jeff, Professor, 4)
NAME
Tom
Merlisa
George
Joseph
RANK
YEARS TENURED
Assistant Prof
2
no
Associate Prof
7
no
Professor
5
yes
Assistant Prof
7
yes
Praktikum Data Warehousing und Mining, Sommersemester 2009
Tenured?
5
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Überwachtes vs. Unüberwachtes Lernen
• Überwachtes Lernen (Klassifikation, Regression)
• Bei den Trainingsdaten ist das Vorhersageattribut bekannt
• Die Zielgrößen neuer Datensätze werden auf Basis des
gelernten Modells vorhergesagt
• Unüberwachtes Lernen (Clusteranalyse)
• Die Vorhersageattribute (Klassen bzw. hier Cluster) des
Lerndatensatzes sind unbekannt
• Ziel ist es, aus Werten und Beobachtungen des Datensatzes
eine Clustereinteilung zu finden
Praktikum Data Warehousing und Mining, Sommersemester 2009
6
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Techniken zum überwachten Lernen
Technik
Klassifikation Regression
k-Nearest Neighbour
Statistische Techniken
(Lineare Regression etc.)
Entscheidungsbäume
Regressionsbäume
X
X
(X)
X
X
(X)
X
Neuronale Netze
X
X
Support Vektor Maschinen (SVMs)
X
X
Regelbasierte Techniken
X
X
Naive Bayes
X
Assoziationsregeln zur Klassifikation
X
…
Praktikum Data Warehousing und Mining, Sommersemester 2009
7
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Zum Einstieg: k-Nearest Neighbour
• Gegeben:
• Lerndatensatz L
• Vorgehen zur Klassifikation eines Tupels t:
• Menge S: die k nächsten Nachbarn von t in L
• Klassifikation von t durch Klasse mit meisten Elementen in S
• Als Regressionsverfahren:
• Vorhersage ist Mittelwert der Tupel in S
• Anmerkungen:
•
•
•
•
„Nähe“ über Distanzmaß (z.B. euklidische Distanz)
Kein Lernen im engeren Sinn
Vorhersage rechenaufwändig für große L
Einsatz nur sinnvoll bei wenigen, numerischen Attributen
Praktikum Data Warehousing und Mining, Sommersemester 2009
8
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Statistische Techniken zur Regression
Praktikum Data Warehousing und Mining, Sommersemester 2009
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Einfache Lineare Regression
• Vorhersage der
Zielvariable y durch eine
Prediktorvariable x
• Gegeben: Lerndatensatz
D = {(x1, y1), (x2, y2),…,
(xn, yn)}, n = |D|
• Vermutung eines linearen
Zusammenhangs
• Gesucht: Gerade
y = w0 + w1 x
•
Bestimmung von w0, w1
(Regressionskoeffizienten)
Lerndatensatz D:
w0 = 23,6
w1 = 03,5
y = 23,6 + 3,5 x
Praktikum Data Warehousing und Mining, Sommersemester 2009
10
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Berechnung der Regressionskoeffizienten
• Zunächst:
• Bestimmung des Fehlers als Summe
der quadratischen Abweichungen
• E = Σi (yi – (w0 + w1 xi ))2
• Aus der notwendigen Bedingung für ein Minimum der
Fehlfunktion lassen sich unter Verwendung von
partiellen Ableitungen w0 und w1 berechnen:
| D|
∑ ( x − x )( y
w=
1
∑ (x − x)
i =1
i
i
− y)
| D|
i =1
i
2
w = y −w x
0
1
x, y:
y Durchschnitt aller x1, x2, …, xn bzw. aller y1, y2, …, yn
x,
(Rechenbeispiel: S. Data-Mining-Buch von J. Han, M. Kamber)
Praktikum Data Warehousing und Mining, Sommersemester 2009
11
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Lineare Regression – Fehlermaße
• Üblich ist:
• Mittlerer quadratischer Abstand in y-Richtung
• Andere sinnvolle Fehlermaße:
•
•
•
•
Mittlerer absoluter Abstand in y-Richtung
Mittlerer euklidischer Abstand
Maximaler absoluter/quadratischer Abstand in y-Richtung
Maximaler euklidischer Abstand
• Diese Maße können jedoch nicht verwendet werden:
• Betragsfunktion (absoluter Abstand) und Maximum sind
nicht überall differenzierbar.
• Die Ableitung beim euklidischen Abstand führt zu einem
nichtlinearen Gleichungssystem; ist nicht analytisch lösbar.
Praktikum Data Warehousing und Mining, Sommersemester 2009
12
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Multivariate Lineare Regression
• Typischerweise steht nicht nur eine Prediktorvariable
x zur Verfügung, sondern mehrere (p) :
Vektor Xi := xi,1, xi,2, …, xi,p
• Lerndatensatz: D = {(X1, y1), (X2, y2),…, (Xn, yn)}
• Hyper-Ebene:
y = w0 + w1 x1+ w2 x2 + … + wp xp
• Die Methode zur Minimierung der Fehler-Quadrate
kann übertragen werden:
Es entsteht ein lineares Gleichungssystem.
• Lösbar mit linearer Algebra (Matrizen).
• Lösung mit numerischen Methoden oft effizienter.
Praktikum Data Warehousing und Mining, Sommersemester 2009
13
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Lineare Regression – Bewertung
• Eigenschaften
• Aufwand zum Lösen der Gleichungen: O(p³)
• Koeffizienten sind eventuell interpretierbar.
• Vorteile
• Relativ simples Modell:
p-dimensionale Hyperebene bei p Prediktorvariablen
• Dient als Baseline zum Vergleich von Regressionstechniken.
• Nachteile
• Gleichungen sind eventuell nicht lösbar, wenn Prediktorvariablen (nahezu) linear abhängig voneinander sind.
• Alle Prediktorvariablen werden betrachtet, auch irrelevante.
• Anfällig für Outlier. (Ignorieren von Datenpunkten gefährlich!)
• Nicht alle Probleme sind linear…
Praktikum Data Warehousing und Mining, Sommersemester 2009
14
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Nichtlineare Regression
• Einige nichtlineare Probleme können als polynomielle
Funktion modelliert werden.
• Polynomielle (u.a.) Funktionen können in lineare
Regressionsmodelle transformiert werden, z.B.:
y = w0 + w1 x + w2 x2 + w3 x3
wird gemappt auf:
y = w0 + w1 x + w2 x2 + w3 x3
• Die Methode zur Minimierung der Fehler-Quadrate
mit Ableitungstechniken kann prinzipiell auf beliebige
Funktionen übertragen werden.
• Eventuell sehr hoher Rechenaufwand, aber oft nicht lösbar.
• Hintergrundwissen kann helfen, einen Term zu finden.
Praktikum Data Warehousing und Mining, Sommersemester 2009
15
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Lokale Lineare Regression
•
•
•
•
•
Idee:
Mehrere einfache
Regressionsfunktionen (hier
Geraden) für verschiedene
Wertebereiche von x
Problem:
Brüche an Wertebereichsgrenzen
Eine Lösung:
Splines „glätten“ die Übergänge
Gut geeignet bei wenigen
Prädiktorvariablen.
Bestimmte Regressionsbäuzme
greiften die Idee „lokale
Regression“ auf…
y
x
y
Praktikum Data Warehousing und Mining, Sommersemester 2009
x
16
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Weitere nichtlineare Verfahren
• Oft ist eine numerische Parameter-Bestimmung aus
partiellen Ableitungen nicht möglich:
• Parameter gehen nichtlinear in die Regressionsfunktion ein.
• Ein alternatives Fehlermaß wird verwendet.
• Lösungsansatz: „Systematisches Trial and Error“
1. Aufstellen einer (beliebigen) Regressionsfunktion.
2. Suche nach geeigneten Parametern:
• Random Search
• Hillclimbing
• Varianten um lokale Minima zu verhindern
• Genetische Algorithmen
• …
Praktikum Data Warehousing und Mining, Sommersemester 2009
17
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Generalisierung vs. Overfitting
Too simple?
Training data
y
y
x
x
Too complex ?
y
About right ?
y
x
Praktikum Data Warehousing und Mining, Sommersemester 2009
x
18
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Entscheidungsbäume
Praktikum Data Warehousing und Mining, Sommersemester 2009
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Klassifikation - Entscheidungsbäume
•
Vorgehen
Zulassung
• Aufbau eines Baums
• Knoten entspricht
Entscheidungskriterium
• Blatt entspricht Entscheidung
nein
ja
Verbrauch
nicht kaufen
•
Vorteile
hoch
• Ergebnis leicht interpretierbar
• Übersetzbar in Regelsystem
•
ID3 / C4.5 / C5.0 / J48
C&RT
Quest
Chaid
…
kaufen
Alter
Diverse Verfahren
•
•
•
•
•
niedrig
alt
nicht kaufen
modern
kaufen
Eine Regel (von mehreren):
Wenn
Zulassung vorhanden und
Verbrauch niedrig,
dann kaufen.
Praktikum Data Warehousing und Mining, Sommersemester 2009
20
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Vorgehen bei der Konstruktion
01 Alle Datentupel im Wurzelknoten
02 IF Stoppkriterium erreicht THEN
03 Aktueller Knoten wird Blattknoten mit Majoritätsklasse
04 ELSE
05 Suche geeignetes Entscheidungssattribut (Splitattribut)
06 Wende Algorithmus rekursiv auf Teilmengen an
Anschließend: Beschneide Baum (Pruning)
• Existierende Algorithmen unterscheiden sich in
•
•
•
•
•
… der Wahl des Stoppkriteriums
… der Art des Splits
… dem Vorgehen zur Wahl des Splitattributs
… dem Vorgehen zum Splitten eines Attributs
… der Wahl des Pruningverfahrens
Praktikum Data Warehousing und Mining, Sommersemester 2009
21
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Wahl des Stoppkriteriums
• Natürliche Stoppkriterien
• Knoten enthält (fast) nur Tupel einer Klasse
• Alle Tupel sind identisch bis auf die Klasse
• Alle Klassifikationsattribute ausgeschöpft
• Weitere Kriterien
•
•
•
•
Minimale Tupelzahl je Knoten
Minimaler Anteil falsch klassifizierter Tupel
Maximale Baumtiefe
Maximale Knotenanzahl
Praktikum Data Warehousing und Mining, Sommersemester 2009
22
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Art des Splits
• Diskrete vs. kontinuierliche Attribute
• Diskret
• Ein Knoten pro
Attributwert
Augenfarbe
blau
• Kontinuierlich:
rot
grün
Alter
• Ein Knoten pro
Attributintervall
<5
5…10
> 10
• Binäre vs. n-äre Bäume
• Zwei oder mehrere Ausgangskanten
• Frage: Wie erreicht man binäre Bäume mit
kategorischen Attributen?
• Frage: Wie gelangt man an Attributintervalle?
Praktikum Data Warehousing und Mining, Sommersemester 2009
23
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Wahl des Splitattributs
• Beispiel (binäres Attribut)
• Objektmenge: 1 0 0 0 0 0 1 0 0 0 1 1
• Verschiedene Splits möglich:
• Split A: 1 0 0 0 0 0 | 1 0 0 0 1 1
• „Linke Seite“: 17% Fehler
• „Rechte Seite“: 50% Fehler
• Split B: 1 0 0 0 0 0 1 0 0 | 0 1 1
• „Linke Seite“: 22% Fehler
• „Rechte Seite“: 33% Fehler
• Split C …
• Welcher Split ist vorzuziehen?
• Festlegung eines Bewertungsmaßes
Praktikum Data Warehousing und Mining, Sommersemester 2009
24
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Informationsgewinn
• Prinzip
• Maximierung des Informationsgewinns
• Vorgehen
• Basiert auf Shannon-Entropie
• H = - ∑ni=1 pi log2 pi
• Informationsgewinn
•
•
•
•
Igain(C,A) = H(C) – H(C|A)
Igain(C,A) = - ∑|C|i=1 pi log2 pi – ∑|A|j=1 pj (- ∑|C|i=1 pi|j log2 pi|j)
H(C) – Entropie der Klassenverteilung (mit C – Klassenattribut)
H(C|A) – Erwartete Entropie der Klassenverteilung, wenn
Attribut A bekannt
Praktikum Data Warehousing und Mining, Sommersemester 2009
25
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Informationsgewinn - Beispiel
•
Berechnung des Informationsgewinns
• Allgemein:
Igain(C,A) = - ∑|C|i=1 pi log2 pi – ∑|A|j=1 pj (- ∑|C|i=1 pi|j log2 pi|j)
• H(C) = - (4/12 * log2(4/12) + 8/12 * log2(8/12)) = 0,918
• Split A:
• 100000|100011
• Igain(C,A) = 0,918 – (6/12 * (-1) * (1/6 * log2(1/6) + 5/6 * log2(5/6))
+ 6/12 * (-1) * (3/6 * log2(3/6) + 3/6 * log2(3/6)))
Igain(C,A) =
• Igain(C,A) = 0,918 – 0,325 – 0,500
• Igain(C,A) = 0,918 – 0,825 = 0,093
• Split B:
• 100000100|011
• Igain(C,B) = 0,918 – (9/12 * (-1) * (2/9 * log2(2/9) + 7/9 * log2(7/9))
+ 3/12 * (-1) * (1/3 * log2(1/3) + 2/3 * log2(2/3)))
Igain(C,A) =
• Igain(C,A) = 0,918 – 0,573 – 0,230
• Igain(C,A) = 0,918 – 0,803 = 0,115
•
Hier würde B bevorzugt
Praktikum Data Warehousing und Mining, Sommersemester 2009
26
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Gini Index
• Prinzip
• Minimierung der Heterogenität
• Vorgehen
• Wahrscheinlichkeitsmaß, bei Stichprobe Datentupel aus 2
unterschiedlichen Klassen zu erhalten:
• Gini = 1 – p(0)² – p(1)²
• Minimum = 0,0
• alle Objekte aus einer Klasse
• Maximale Homogenität
• Maximum = 0,5
• Objekte zweier Klassen gleich häufig
• Maximale Heterogenität
Praktikum Data Warehousing und Mining, Sommersemester 2009
27
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Gini Index - Beispiel
• Berechnung der Heterogenität
• Split A:
• 100000|100011
• Linke Seite = 1 - (1/6)2 - (5/6)2 = 0,278
• Rechte Seite = 1 - (3/6)2 - (3/6)2 = 0,500
• Split B:
• 100000100|011
• Linke Seite = 1 - (2/9)2 - (7/9)2 = 0,346
• Rechte Seite = 1 - (1/3)2 - (2/3)2 = 0,444
• Einfacher Durchschnitt
• A: (0,278 + 0,500) / 2 = 0,389
• B: (0,346 + 0,444) / 2 = 0,395
• Hier würde A bevorzugt
Praktikum Data Warehousing und Mining, Sommersemester 2009
28
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Weitere Bewertungsmaße
• Chi-Quadrat-Test
• Maß für die Abhängigkeit zwischen Merkmal und
Zielgröße
• Auswahl des Merkmals mit dem höchsten ChiQuadrat-Wert (= stärkste Abhängigkeit)
• Minimale Beschreibungslänge (MDL)
• Ähnlich Informationsgewinn
• Zusätzlich „Strafe“ für zunehmende Komplexität
des Baums
Praktikum Data Warehousing und Mining, Sommersemester 2009
29
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Splitten eines Attributs
• Nicht alle Attribute sind binär (Binärbäume)
bzw. haben genau n Attribute (n-äre Bäume).
• Vorgehen kategorische Attribute:
• Es werden Bewertungsmaße für alle Aufteilungen der
Klassen in 2 bzw. n Mengen berechnet.
• Z.B. {blau, rot, grün} bei Binärbäumen:
{{blau, rot}, grün}, {blau, {rot, grün}} und {{blau, grün}, rot}
•
Vorgehen numerische Attribute:
1. Auf- oder absteigendes Sortieren der Attribute
2. Setzen von allen Kombinationen von 1 bzw. (n-1) Splits
• Alternativ: Diskretisieren des Attributs vor dem eigentlichen
Lernprozess (z.B. CHAID)
Praktikum Data Warehousing und Mining, Sommersemester 2009
30
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Pruning - Motivation
zu
klein
gut
(generalisierend)
Overfitting
• Achtung: Die optimale Baumgröße ist bei jedem
Datensatz unterschiedlich!
Praktikum Data Warehousing und Mining, Sommersemester 2009
31
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Pruningverfahren
•
Gründe für Pruning komplexer Bäume
• Einfachheit / Verständlichkeit
• Verhinderung von Overfitting / Generalisierungsfähigkeit
•
Pre-Pruning: Stopkriterien bei Baumerstellung
•
Post-Pruning: Nachträgliches Stutzen
• Subtree Replacement
• Ersetzen von Entscheidungsknoten durch Blattknoten,
wenn Klassifikationsbeitrag gering
• Optimal: Entscheidung zum Ersetzen mit „frischen“ Daten evaluieren
• Subtree Raising
• Verschiebung von Teilbäumen nach oben
• Insbesondere dann, wenn es Attribute gibt, die einzeln wenig, aber in
Kombination sehr stark zur Klassifikation beitragen.
• Solche Attribute rutschen sonst sehr leicht weit nach unten.
Praktikum Data Warehousing und Mining, Sommersemester 2009
32
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Regressionsbäume
Praktikum Data Warehousing und Mining, Sommersemester 2009
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Regressionsbäume und Model Trees
• Regressionsbäume:
Entscheidungsbäume, dessen
Blätter anstatt kategorischen
Labels numerische Zielgrößen
enthalten (z.B. das Mittel aller
Lerntupel im Knoten)
• Model Trees:
Variante von Regressionsbäumen, deren Blattknoten je
eine (multivariate lineare)
Regressionsfunktion für alle
Tupel eines Knotens enthalten
Praktikum Data Warehousing und Mining, Sommersemester 2009
x1 <= 7
ja
nein
x2 >= 2
2,7
ja
nein
3,2
3,6
x1 <= 7
ja
nein
x2 >= 2
ja
nein
34
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Regressionsbäume
• Wie kann man einen Regressionsbaum lernen?
• Wie Entscheidungsbäume, aber…
• …andere Wahl des Splitattributs und
• …angepasstes Pruning.
• Wahl des Splitattributs…
• …welches die Varianz minimiert.
• …welches die Standardabweichung minimiert (M5).
• …welches die stärkste Korrelation mit der Zielvariablen hat,
basierend auf dem p-Wert des statistischen F-Test (CHAID).
• …welches die Fehlerquadrate minimiert (C&RT).
Praktikum Data Warehousing und Mining, Sommersemester 2009
35
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Splitattribut-Wahl mit Fehlerquadraten
• Die Methode der Fehlerquadrate lässt sich auch hier
als Fehlermaß R in einem Knoten nutzen:
• R ist die Summe der quadratischen Fehler von allen Tupeln i
im aktuellen Knoten t, geteilt durch die Anzahl der Tupel in t.
• Die Fehler sind die Differenz des Zielwertes des jeweiligen
Tupels yi und dem Mittel der Zielwerte aller dieser Tupel in t.
1
R(t ) = ∑ ( y − y(t ))²
| t | i ∈t i
• Es wird der Split gewählt, der R der beiden Kinder eines
Knotens minimiert (bei Binärbäumen wie C&RT).
• So erhält man Tupel mit ähnlichen Werten in einem Knoten.
• Entsprechend bei Varianz/Standardabweichung…
Praktikum Data Warehousing und Mining, Sommersemester 2009
36
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Model Trees
• Lernen eines Model Trees (hier M5)
• Lernen des Baums zunächst wie bei Regressionsbäumen.
• In jedem Knoten wird ein multivariates lineares
Regressionsmodell gelernt, auf Basis aller Attribute, die in
den darunter liegenden Knoten getestet werden.
• Die Regressionsmodelle bilden auch die Basis für das
anschließende Prunen…
• Vorhersagen mit dem Model Tree (auch M5)
•
•
•
•
Zunächst wie beim Entscheidungsbaum.
Das Regressionsmodell des Blattknotens liefert Vorhersage.
Vorhersagen sind unstetig, da lokale lineare Regression.
Abhilfe: Glätten der Funktion durch Einbeziehung der
Vorhersagen aller darüber liegenden Knoten bis zur Wurzel.
Praktikum Data Warehousing und Mining, Sommersemester 2009
37
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Regressionsbäume – Bewertung
• Eigenschaften
• Bäume helfen eventuell beim Verständnis des Problems.
• Model Trees im allgemeinen genauer.
• Vorteile
•
•
•
•
Oft besser als lineare Regression.
Hilfreich bei hochdimensionalen Problemen.
Behandlung von kategorischen Variablen möglich.
Im allgemeinen recht schnell; bei einzelnen Regressionsfunktionen findet Attributauswahl statt (Model Trees).
• Nachteile
• Große Gefahr des Overfittings gegeben.
• Der ganze Baum mit Regressionsgeraden stellt eine sehr
komplexe Funktion dar (Model Trees).
Praktikum Data Warehousing und Mining, Sommersemester 2009
38
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Evaluationstechniken
Praktikum Data Warehousing und Mining, Sommersemester 2009
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Sampling bzw. Holdout
• Die Leistung eines Klassifikators kann nicht mit dem
Lerndatensatz beurteilt werden!
• Overfitting! Vgl. Motivation Pruning.
• Deshalb: Unterteilung der Ausgangsdaten in
• Training Set zum Lernen des Klassifikators (oft zwei Drittel)
• Test Set zur Evaluation des Klassifikators (oft ein Drittel)
• Beide Mengen sollten möglichst repräsentativ sein:
• Stratifikation: Aus jeder Klasse wird ein proportionaler
Anteil in das Training- und Test Set übernommen.
• Eine Unterteilung in Training- und Test Set ist oft
nicht möglich, wenn nicht genug Daten zur Verfügung
stehen:
• Ein kleines Test Set ist ggf. nicht mehr repräsentativ.
• Ein kleines Training Set bietet ggf. zu wenig zum Lernen.
Praktikum Data Warehousing und Mining, Sommersemester 2009
40
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Klassifikation - Vorgehen
Trainingsdaten
Klassifikator
lernen
Klassifikationsregeln
modell
Testdaten
Klassifikator
testen
Produktivdaten
Praktikum Data Warehousing und Mining, Sommersemester 2009
optimiertes
Klassifikationsregeln
modell
Klassifikator
anwenden
41
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Cross-Validation
• Unterteilung der Ausgangsdaten in k Partitionen
• Typischerweise wird k=10 gewählt
• Eine Partition bildet Test Set
• k–1 Partitionen bilden Training Set
• Berechnung und Evaluation von k Klassifikatoren:
• In k Runden wird jedes Datentupel k-1 mal zum Lernen
verwendet und genau ein mal klassifiziert.
• Stratifizierte Cross-Validation ist in vielen Fällen die
zu empfehlende Evaluationstechnik, besonders aber
bei kleinen Datensätzen.
• Achtung: Cross-Validation ist sehr Rechenaufwändig
• „Leave-One-Out“ ist Spezialfall für k=n
Praktikum Data Warehousing und Mining, Sommersemester 2009
42
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Evaluationsmasse für Klassifikatoren
•
Konfusions-Matrix
Vorhersage
Tatsächliche Klasse
Ja
Ja
Nein
True Positives (TP)
False Negatives (FN)
Nein False Positives (FP)
True Negatives (TN)
•
accuracy = (TP + TN) / (TP + FN + FP + TN)
•
sensitivity = TP / (TP + FN)
•
specificity = TN / (FP + TN)
•
precision = TP / (TP + FP)
•
lift = precision / P(ja); P(ja) = (TP + FN) / (TP + FN + FP + TN)
Praktikum Data Warehousing und Mining, Sommersemester 2009
43
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Evaluation von Regressionstechniken
• Es existieren viele Techniken…
• Data Mining Cup:
Die Summe aller Abweichungen (aller 8 Bücher bei
allen vorauszusagenden Händlern) von der
bekannten Anzahl an Buchverkäufen.
Praktikum Data Warehousing und Mining, Sommersemester 2009
44
Institut für Programmstrukturen und Datenorganisation (IPD)
Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm
Quellen
•
•
•
•
•
•
•
•
J. Han und M. Kamber: „Data Mining: Concepts and
Techniques“, Morgan Kaufmann, 2006.
Hand, H. Mannila und P. Smyth: "Principles of Data Mining",
MIT Press, 2001.
T. M. Mitchell: „Machine Learning“, Mc Graw Hill, 1997
I.H. Witten und E. Frank: "Data Mining - Practical Machine
Learning Tools and Techniques", Morgan Kaufmann, 2005. D.
F. Klawonn: Folien zur Vorlesung „Data Mining“, 2006.
Pierre Geurts: Folien zur Vorlesung „Stochastic methods“.
SPSS: Clementine 12.0 Algorithms Guide. 2007.
C. Borgelt: Folien zur Vorlesung „Intelligent Data Analysis“,
2004. Vorlesungsskript verfügbar (120 Seiten):
http://fuzzy.cs.uni-magdeburg.de/studium/ida/txt/idascript.pdf
Praktikum Data Warehousing und Mining, Sommersemester 2009
45
Herunterladen