Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Überwachtes Lernen I: Klassifikation und Regression Praktikum: Data Warehousing und Data Mining Praktikum Data Warehousing und Mining, Sommersemester 2009 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Klassifikationsprobleme • Idee • Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung) • Unter Benutzung beliebiger bekannter Attributwerte • Beispiele: • • • • • Klassifikation von Spam Vorhersage von Kundenverhalten wie Kündigungen (Churn) Vorhersage von Kreditwürdigkeit Beurteilung von industriellen Gütern … Praktikum Data Warehousing und Mining, Sommersemester 2009 2 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Regressionsprobleme • Idee • Bestimmung eines unbekannten numerischen Attributwertes (ordinale und kategorische Vorhersagen durch Schwellwertsetzung) • Unter Benutzung beliebiger bekannter Attributwerte • Beispiele: • • • • Vorhersage von Kundenverhalten wie ‚Zeit bis Kündigung‘ Vorhersage von Kosten, Aufwand o.ä. Voraussage von Verkaufszahlen, z.B. von Büchern … Praktikum Data Warehousing und Mining, Sommersemester 2009 3 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Prozess 1: Klassifikationsmodell lernen TrainingsDaten NAME M ike M ary B ill Jim D ave Anne RANK YEARS TENURED A ssistan t P ro f 3 no A ssistan t P ro f 7 yes P ro fesso r 2 yes A sso ciate P ro f 7 yes A ssistan t P ro f 6 no A sso ciate P ro f 3 no Praktikum Data Warehousing und Mining, Sommersemester 2009 Klassifikator Lernen Klassifikator IF rank = ‘Professor’ OR years > 6 THEN tenured = ‘yes’ 4 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Prozess 2: Vorhersagen mit dem Modell Klassifikator TestDaten Neue Daten (Jeff, Professor, 4) NAME Tom Merlisa George Joseph RANK YEARS TENURED Assistant Prof 2 no Associate Prof 7 no Professor 5 yes Assistant Prof 7 yes Praktikum Data Warehousing und Mining, Sommersemester 2009 Tenured? 5 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Überwachtes vs. Unüberwachtes Lernen • Überwachtes Lernen (Klassifikation, Regression) • Bei den Trainingsdaten ist das Vorhersageattribut bekannt • Die Zielgrößen neuer Datensätze werden auf Basis des gelernten Modells vorhergesagt • Unüberwachtes Lernen (Clusteranalyse) • Die Vorhersageattribute (Klassen bzw. hier Cluster) des Lerndatensatzes sind unbekannt • Ziel ist es, aus Werten und Beobachtungen des Datensatzes eine Clustereinteilung zu finden Praktikum Data Warehousing und Mining, Sommersemester 2009 6 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Techniken zum überwachten Lernen Technik Klassifikation Regression k-Nearest Neighbour Statistische Techniken (Lineare Regression etc.) Entscheidungsbäume Regressionsbäume X X (X) X X (X) X Neuronale Netze X X Support Vektor Maschinen (SVMs) X X Regelbasierte Techniken X X Naive Bayes X Assoziationsregeln zur Klassifikation X … Praktikum Data Warehousing und Mining, Sommersemester 2009 7 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Zum Einstieg: k-Nearest Neighbour • Gegeben: • Lerndatensatz L • Vorgehen zur Klassifikation eines Tupels t: • Menge S: die k nächsten Nachbarn von t in L • Klassifikation von t durch Klasse mit meisten Elementen in S • Als Regressionsverfahren: • Vorhersage ist Mittelwert der Tupel in S • Anmerkungen: • • • • „Nähe“ über Distanzmaß (z.B. euklidische Distanz) Kein Lernen im engeren Sinn Vorhersage rechenaufwändig für große L Einsatz nur sinnvoll bei wenigen, numerischen Attributen Praktikum Data Warehousing und Mining, Sommersemester 2009 8 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Statistische Techniken zur Regression Praktikum Data Warehousing und Mining, Sommersemester 2009 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Einfache Lineare Regression • Vorhersage der Zielvariable y durch eine Prediktorvariable x • Gegeben: Lerndatensatz D = {(x1, y1), (x2, y2),…, (xn, yn)}, n = |D| • Vermutung eines linearen Zusammenhangs • Gesucht: Gerade y = w0 + w1 x • Bestimmung von w0, w1 (Regressionskoeffizienten) Lerndatensatz D: w0 = 23,6 w1 = 03,5 y = 23,6 + 3,5 x Praktikum Data Warehousing und Mining, Sommersemester 2009 10 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Berechnung der Regressionskoeffizienten • Zunächst: • Bestimmung des Fehlers als Summe der quadratischen Abweichungen • E = Σi (yi – (w0 + w1 xi ))2 • Aus der notwendigen Bedingung für ein Minimum der Fehlfunktion lassen sich unter Verwendung von partiellen Ableitungen w0 und w1 berechnen: | D| ∑ ( x − x )( y w= 1 ∑ (x − x) i =1 i i − y) | D| i =1 i 2 w = y −w x 0 1 x, y: y Durchschnitt aller x1, x2, …, xn bzw. aller y1, y2, …, yn x, (Rechenbeispiel: S. Data-Mining-Buch von J. Han, M. Kamber) Praktikum Data Warehousing und Mining, Sommersemester 2009 11 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Lineare Regression – Fehlermaße • Üblich ist: • Mittlerer quadratischer Abstand in y-Richtung • Andere sinnvolle Fehlermaße: • • • • Mittlerer absoluter Abstand in y-Richtung Mittlerer euklidischer Abstand Maximaler absoluter/quadratischer Abstand in y-Richtung Maximaler euklidischer Abstand • Diese Maße können jedoch nicht verwendet werden: • Betragsfunktion (absoluter Abstand) und Maximum sind nicht überall differenzierbar. • Die Ableitung beim euklidischen Abstand führt zu einem nichtlinearen Gleichungssystem; ist nicht analytisch lösbar. Praktikum Data Warehousing und Mining, Sommersemester 2009 12 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Multivariate Lineare Regression • Typischerweise steht nicht nur eine Prediktorvariable x zur Verfügung, sondern mehrere (p) : Vektor Xi := xi,1, xi,2, …, xi,p • Lerndatensatz: D = {(X1, y1), (X2, y2),…, (Xn, yn)} • Hyper-Ebene: y = w0 + w1 x1+ w2 x2 + … + wp xp • Die Methode zur Minimierung der Fehler-Quadrate kann übertragen werden: Es entsteht ein lineares Gleichungssystem. • Lösbar mit linearer Algebra (Matrizen). • Lösung mit numerischen Methoden oft effizienter. Praktikum Data Warehousing und Mining, Sommersemester 2009 13 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Lineare Regression – Bewertung • Eigenschaften • Aufwand zum Lösen der Gleichungen: O(p³) • Koeffizienten sind eventuell interpretierbar. • Vorteile • Relativ simples Modell: p-dimensionale Hyperebene bei p Prediktorvariablen • Dient als Baseline zum Vergleich von Regressionstechniken. • Nachteile • Gleichungen sind eventuell nicht lösbar, wenn Prediktorvariablen (nahezu) linear abhängig voneinander sind. • Alle Prediktorvariablen werden betrachtet, auch irrelevante. • Anfällig für Outlier. (Ignorieren von Datenpunkten gefährlich!) • Nicht alle Probleme sind linear… Praktikum Data Warehousing und Mining, Sommersemester 2009 14 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Nichtlineare Regression • Einige nichtlineare Probleme können als polynomielle Funktion modelliert werden. • Polynomielle (u.a.) Funktionen können in lineare Regressionsmodelle transformiert werden, z.B.: y = w0 + w1 x + w2 x2 + w3 x3 wird gemappt auf: y = w0 + w1 x + w2 x2 + w3 x3 • Die Methode zur Minimierung der Fehler-Quadrate mit Ableitungstechniken kann prinzipiell auf beliebige Funktionen übertragen werden. • Eventuell sehr hoher Rechenaufwand, aber oft nicht lösbar. • Hintergrundwissen kann helfen, einen Term zu finden. Praktikum Data Warehousing und Mining, Sommersemester 2009 15 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Lokale Lineare Regression • • • • • Idee: Mehrere einfache Regressionsfunktionen (hier Geraden) für verschiedene Wertebereiche von x Problem: Brüche an Wertebereichsgrenzen Eine Lösung: Splines „glätten“ die Übergänge Gut geeignet bei wenigen Prädiktorvariablen. Bestimmte Regressionsbäuzme greiften die Idee „lokale Regression“ auf… y x y Praktikum Data Warehousing und Mining, Sommersemester 2009 x 16 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Weitere nichtlineare Verfahren • Oft ist eine numerische Parameter-Bestimmung aus partiellen Ableitungen nicht möglich: • Parameter gehen nichtlinear in die Regressionsfunktion ein. • Ein alternatives Fehlermaß wird verwendet. • Lösungsansatz: „Systematisches Trial and Error“ 1. Aufstellen einer (beliebigen) Regressionsfunktion. 2. Suche nach geeigneten Parametern: • Random Search • Hillclimbing • Varianten um lokale Minima zu verhindern • Genetische Algorithmen • … Praktikum Data Warehousing und Mining, Sommersemester 2009 17 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Generalisierung vs. Overfitting Too simple? Training data y y x x Too complex ? y About right ? y x Praktikum Data Warehousing und Mining, Sommersemester 2009 x 18 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Entscheidungsbäume Praktikum Data Warehousing und Mining, Sommersemester 2009 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Klassifikation - Entscheidungsbäume • Vorgehen Zulassung • Aufbau eines Baums • Knoten entspricht Entscheidungskriterium • Blatt entspricht Entscheidung nein ja Verbrauch nicht kaufen • Vorteile hoch • Ergebnis leicht interpretierbar • Übersetzbar in Regelsystem • ID3 / C4.5 / C5.0 / J48 C&RT Quest Chaid … kaufen Alter Diverse Verfahren • • • • • niedrig alt nicht kaufen modern kaufen Eine Regel (von mehreren): Wenn Zulassung vorhanden und Verbrauch niedrig, dann kaufen. Praktikum Data Warehousing und Mining, Sommersemester 2009 20 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Vorgehen bei der Konstruktion 01 Alle Datentupel im Wurzelknoten 02 IF Stoppkriterium erreicht THEN 03 Aktueller Knoten wird Blattknoten mit Majoritätsklasse 04 ELSE 05 Suche geeignetes Entscheidungssattribut (Splitattribut) 06 Wende Algorithmus rekursiv auf Teilmengen an Anschließend: Beschneide Baum (Pruning) • Existierende Algorithmen unterscheiden sich in • • • • • … der Wahl des Stoppkriteriums … der Art des Splits … dem Vorgehen zur Wahl des Splitattributs … dem Vorgehen zum Splitten eines Attributs … der Wahl des Pruningverfahrens Praktikum Data Warehousing und Mining, Sommersemester 2009 21 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Wahl des Stoppkriteriums • Natürliche Stoppkriterien • Knoten enthält (fast) nur Tupel einer Klasse • Alle Tupel sind identisch bis auf die Klasse • Alle Klassifikationsattribute ausgeschöpft • Weitere Kriterien • • • • Minimale Tupelzahl je Knoten Minimaler Anteil falsch klassifizierter Tupel Maximale Baumtiefe Maximale Knotenanzahl Praktikum Data Warehousing und Mining, Sommersemester 2009 22 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Art des Splits • Diskrete vs. kontinuierliche Attribute • Diskret • Ein Knoten pro Attributwert Augenfarbe blau • Kontinuierlich: rot grün Alter • Ein Knoten pro Attributintervall <5 5…10 > 10 • Binäre vs. n-äre Bäume • Zwei oder mehrere Ausgangskanten • Frage: Wie erreicht man binäre Bäume mit kategorischen Attributen? • Frage: Wie gelangt man an Attributintervalle? Praktikum Data Warehousing und Mining, Sommersemester 2009 23 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Wahl des Splitattributs • Beispiel (binäres Attribut) • Objektmenge: 1 0 0 0 0 0 1 0 0 0 1 1 • Verschiedene Splits möglich: • Split A: 1 0 0 0 0 0 | 1 0 0 0 1 1 • „Linke Seite“: 17% Fehler • „Rechte Seite“: 50% Fehler • Split B: 1 0 0 0 0 0 1 0 0 | 0 1 1 • „Linke Seite“: 22% Fehler • „Rechte Seite“: 33% Fehler • Split C … • Welcher Split ist vorzuziehen? • Festlegung eines Bewertungsmaßes Praktikum Data Warehousing und Mining, Sommersemester 2009 24 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Informationsgewinn • Prinzip • Maximierung des Informationsgewinns • Vorgehen • Basiert auf Shannon-Entropie • H = - ∑ni=1 pi log2 pi • Informationsgewinn • • • • Igain(C,A) = H(C) – H(C|A) Igain(C,A) = - ∑|C|i=1 pi log2 pi – ∑|A|j=1 pj (- ∑|C|i=1 pi|j log2 pi|j) H(C) – Entropie der Klassenverteilung (mit C – Klassenattribut) H(C|A) – Erwartete Entropie der Klassenverteilung, wenn Attribut A bekannt Praktikum Data Warehousing und Mining, Sommersemester 2009 25 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Informationsgewinn - Beispiel • Berechnung des Informationsgewinns • Allgemein: Igain(C,A) = - ∑|C|i=1 pi log2 pi – ∑|A|j=1 pj (- ∑|C|i=1 pi|j log2 pi|j) • H(C) = - (4/12 * log2(4/12) + 8/12 * log2(8/12)) = 0,918 • Split A: • 100000|100011 • Igain(C,A) = 0,918 – (6/12 * (-1) * (1/6 * log2(1/6) + 5/6 * log2(5/6)) + 6/12 * (-1) * (3/6 * log2(3/6) + 3/6 * log2(3/6))) Igain(C,A) = • Igain(C,A) = 0,918 – 0,325 – 0,500 • Igain(C,A) = 0,918 – 0,825 = 0,093 • Split B: • 100000100|011 • Igain(C,B) = 0,918 – (9/12 * (-1) * (2/9 * log2(2/9) + 7/9 * log2(7/9)) + 3/12 * (-1) * (1/3 * log2(1/3) + 2/3 * log2(2/3))) Igain(C,A) = • Igain(C,A) = 0,918 – 0,573 – 0,230 • Igain(C,A) = 0,918 – 0,803 = 0,115 • Hier würde B bevorzugt Praktikum Data Warehousing und Mining, Sommersemester 2009 26 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Gini Index • Prinzip • Minimierung der Heterogenität • Vorgehen • Wahrscheinlichkeitsmaß, bei Stichprobe Datentupel aus 2 unterschiedlichen Klassen zu erhalten: • Gini = 1 – p(0)² – p(1)² • Minimum = 0,0 • alle Objekte aus einer Klasse • Maximale Homogenität • Maximum = 0,5 • Objekte zweier Klassen gleich häufig • Maximale Heterogenität Praktikum Data Warehousing und Mining, Sommersemester 2009 27 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Gini Index - Beispiel • Berechnung der Heterogenität • Split A: • 100000|100011 • Linke Seite = 1 - (1/6)2 - (5/6)2 = 0,278 • Rechte Seite = 1 - (3/6)2 - (3/6)2 = 0,500 • Split B: • 100000100|011 • Linke Seite = 1 - (2/9)2 - (7/9)2 = 0,346 • Rechte Seite = 1 - (1/3)2 - (2/3)2 = 0,444 • Einfacher Durchschnitt • A: (0,278 + 0,500) / 2 = 0,389 • B: (0,346 + 0,444) / 2 = 0,395 • Hier würde A bevorzugt Praktikum Data Warehousing und Mining, Sommersemester 2009 28 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Weitere Bewertungsmaße • Chi-Quadrat-Test • Maß für die Abhängigkeit zwischen Merkmal und Zielgröße • Auswahl des Merkmals mit dem höchsten ChiQuadrat-Wert (= stärkste Abhängigkeit) • Minimale Beschreibungslänge (MDL) • Ähnlich Informationsgewinn • Zusätzlich „Strafe“ für zunehmende Komplexität des Baums Praktikum Data Warehousing und Mining, Sommersemester 2009 29 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Splitten eines Attributs • Nicht alle Attribute sind binär (Binärbäume) bzw. haben genau n Attribute (n-äre Bäume). • Vorgehen kategorische Attribute: • Es werden Bewertungsmaße für alle Aufteilungen der Klassen in 2 bzw. n Mengen berechnet. • Z.B. {blau, rot, grün} bei Binärbäumen: {{blau, rot}, grün}, {blau, {rot, grün}} und {{blau, grün}, rot} • Vorgehen numerische Attribute: 1. Auf- oder absteigendes Sortieren der Attribute 2. Setzen von allen Kombinationen von 1 bzw. (n-1) Splits • Alternativ: Diskretisieren des Attributs vor dem eigentlichen Lernprozess (z.B. CHAID) Praktikum Data Warehousing und Mining, Sommersemester 2009 30 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Pruning - Motivation zu klein gut (generalisierend) Overfitting • Achtung: Die optimale Baumgröße ist bei jedem Datensatz unterschiedlich! Praktikum Data Warehousing und Mining, Sommersemester 2009 31 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Pruningverfahren • Gründe für Pruning komplexer Bäume • Einfachheit / Verständlichkeit • Verhinderung von Overfitting / Generalisierungsfähigkeit • Pre-Pruning: Stopkriterien bei Baumerstellung • Post-Pruning: Nachträgliches Stutzen • Subtree Replacement • Ersetzen von Entscheidungsknoten durch Blattknoten, wenn Klassifikationsbeitrag gering • Optimal: Entscheidung zum Ersetzen mit „frischen“ Daten evaluieren • Subtree Raising • Verschiebung von Teilbäumen nach oben • Insbesondere dann, wenn es Attribute gibt, die einzeln wenig, aber in Kombination sehr stark zur Klassifikation beitragen. • Solche Attribute rutschen sonst sehr leicht weit nach unten. Praktikum Data Warehousing und Mining, Sommersemester 2009 32 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Regressionsbäume Praktikum Data Warehousing und Mining, Sommersemester 2009 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Regressionsbäume und Model Trees • Regressionsbäume: Entscheidungsbäume, dessen Blätter anstatt kategorischen Labels numerische Zielgrößen enthalten (z.B. das Mittel aller Lerntupel im Knoten) • Model Trees: Variante von Regressionsbäumen, deren Blattknoten je eine (multivariate lineare) Regressionsfunktion für alle Tupel eines Knotens enthalten Praktikum Data Warehousing und Mining, Sommersemester 2009 x1 <= 7 ja nein x2 >= 2 2,7 ja nein 3,2 3,6 x1 <= 7 ja nein x2 >= 2 ja nein 34 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Regressionsbäume • Wie kann man einen Regressionsbaum lernen? • Wie Entscheidungsbäume, aber… • …andere Wahl des Splitattributs und • …angepasstes Pruning. • Wahl des Splitattributs… • …welches die Varianz minimiert. • …welches die Standardabweichung minimiert (M5). • …welches die stärkste Korrelation mit der Zielvariablen hat, basierend auf dem p-Wert des statistischen F-Test (CHAID). • …welches die Fehlerquadrate minimiert (C&RT). Praktikum Data Warehousing und Mining, Sommersemester 2009 35 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Splitattribut-Wahl mit Fehlerquadraten • Die Methode der Fehlerquadrate lässt sich auch hier als Fehlermaß R in einem Knoten nutzen: • R ist die Summe der quadratischen Fehler von allen Tupeln i im aktuellen Knoten t, geteilt durch die Anzahl der Tupel in t. • Die Fehler sind die Differenz des Zielwertes des jeweiligen Tupels yi und dem Mittel der Zielwerte aller dieser Tupel in t. 1 R(t ) = ∑ ( y − y(t ))² | t | i ∈t i • Es wird der Split gewählt, der R der beiden Kinder eines Knotens minimiert (bei Binärbäumen wie C&RT). • So erhält man Tupel mit ähnlichen Werten in einem Knoten. • Entsprechend bei Varianz/Standardabweichung… Praktikum Data Warehousing und Mining, Sommersemester 2009 36 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Model Trees • Lernen eines Model Trees (hier M5) • Lernen des Baums zunächst wie bei Regressionsbäumen. • In jedem Knoten wird ein multivariates lineares Regressionsmodell gelernt, auf Basis aller Attribute, die in den darunter liegenden Knoten getestet werden. • Die Regressionsmodelle bilden auch die Basis für das anschließende Prunen… • Vorhersagen mit dem Model Tree (auch M5) • • • • Zunächst wie beim Entscheidungsbaum. Das Regressionsmodell des Blattknotens liefert Vorhersage. Vorhersagen sind unstetig, da lokale lineare Regression. Abhilfe: Glätten der Funktion durch Einbeziehung der Vorhersagen aller darüber liegenden Knoten bis zur Wurzel. Praktikum Data Warehousing und Mining, Sommersemester 2009 37 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Regressionsbäume – Bewertung • Eigenschaften • Bäume helfen eventuell beim Verständnis des Problems. • Model Trees im allgemeinen genauer. • Vorteile • • • • Oft besser als lineare Regression. Hilfreich bei hochdimensionalen Problemen. Behandlung von kategorischen Variablen möglich. Im allgemeinen recht schnell; bei einzelnen Regressionsfunktionen findet Attributauswahl statt (Model Trees). • Nachteile • Große Gefahr des Overfittings gegeben. • Der ganze Baum mit Regressionsgeraden stellt eine sehr komplexe Funktion dar (Model Trees). Praktikum Data Warehousing und Mining, Sommersemester 2009 38 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Evaluationstechniken Praktikum Data Warehousing und Mining, Sommersemester 2009 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Sampling bzw. Holdout • Die Leistung eines Klassifikators kann nicht mit dem Lerndatensatz beurteilt werden! • Overfitting! Vgl. Motivation Pruning. • Deshalb: Unterteilung der Ausgangsdaten in • Training Set zum Lernen des Klassifikators (oft zwei Drittel) • Test Set zur Evaluation des Klassifikators (oft ein Drittel) • Beide Mengen sollten möglichst repräsentativ sein: • Stratifikation: Aus jeder Klasse wird ein proportionaler Anteil in das Training- und Test Set übernommen. • Eine Unterteilung in Training- und Test Set ist oft nicht möglich, wenn nicht genug Daten zur Verfügung stehen: • Ein kleines Test Set ist ggf. nicht mehr repräsentativ. • Ein kleines Training Set bietet ggf. zu wenig zum Lernen. Praktikum Data Warehousing und Mining, Sommersemester 2009 40 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Klassifikation - Vorgehen Trainingsdaten Klassifikator lernen Klassifikationsregeln modell Testdaten Klassifikator testen Produktivdaten Praktikum Data Warehousing und Mining, Sommersemester 2009 optimiertes Klassifikationsregeln modell Klassifikator anwenden 41 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Cross-Validation • Unterteilung der Ausgangsdaten in k Partitionen • Typischerweise wird k=10 gewählt • Eine Partition bildet Test Set • k–1 Partitionen bilden Training Set • Berechnung und Evaluation von k Klassifikatoren: • In k Runden wird jedes Datentupel k-1 mal zum Lernen verwendet und genau ein mal klassifiziert. • Stratifizierte Cross-Validation ist in vielen Fällen die zu empfehlende Evaluationstechnik, besonders aber bei kleinen Datensätzen. • Achtung: Cross-Validation ist sehr Rechenaufwändig • „Leave-One-Out“ ist Spezialfall für k=n Praktikum Data Warehousing und Mining, Sommersemester 2009 42 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Evaluationsmasse für Klassifikatoren • Konfusions-Matrix Vorhersage Tatsächliche Klasse Ja Ja Nein True Positives (TP) False Negatives (FN) Nein False Positives (FP) True Negatives (TN) • accuracy = (TP + TN) / (TP + FN + FP + TN) • sensitivity = TP / (TP + FN) • specificity = TN / (FP + TN) • precision = TP / (TP + FP) • lift = precision / P(ja); P(ja) = (TP + FN) / (TP + FN + FP + TN) Praktikum Data Warehousing und Mining, Sommersemester 2009 43 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Evaluation von Regressionstechniken • Es existieren viele Techniken… • Data Mining Cup: Die Summe aller Abweichungen (aller 8 Bücher bei allen vorauszusagenden Händlern) von der bekannten Anzahl an Buchverkäufen. Praktikum Data Warehousing und Mining, Sommersemester 2009 44 Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Quellen • • • • • • • • J. Han und M. Kamber: „Data Mining: Concepts and Techniques“, Morgan Kaufmann, 2006. Hand, H. Mannila und P. Smyth: "Principles of Data Mining", MIT Press, 2001. T. M. Mitchell: „Machine Learning“, Mc Graw Hill, 1997 I.H. Witten und E. Frank: "Data Mining - Practical Machine Learning Tools and Techniques", Morgan Kaufmann, 2005. D. F. Klawonn: Folien zur Vorlesung „Data Mining“, 2006. Pierre Geurts: Folien zur Vorlesung „Stochastic methods“. SPSS: Clementine 12.0 Algorithms Guide. 2007. C. Borgelt: Folien zur Vorlesung „Intelligent Data Analysis“, 2004. Vorlesungsskript verfügbar (120 Seiten): http://fuzzy.cs.uni-magdeburg.de/studium/ida/txt/idascript.pdf Praktikum Data Warehousing und Mining, Sommersemester 2009 45