Data Mining und Text Mining Einführung S3 Mehr Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 [email protected] Inhalt • Regeln mit Wahrscheinlichkeiten: Naive Bayes Verfahren • Bottom Up Regelerzeugung: PRI SM • Vergleich der drei Klassischen Verfahren — ID3, — Naive Bayes — PRI SM © H. Weber 2003. [email protected] Page 2, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Naive Bayes Verfahren 1 Probabilistische Regeln • • Alle Regeln gelten immer: — Auch die Wiedersprüchlichen Regeln gelten gleichzeitig Alle Regeln haben Wahrscheinlichkeiten A, B, C -> yes mit Wahrscheinlichkeit X A, B, C -> no • • mit Wahrscheinlichkeit 1-X Probabilistische Regeln anstatt Deterministische Regeln Wir schreiben die Regeln als bedingte Wahrscheinlichkeiten P(yes| A,B,C) = X P(no| A,B,C)= 1-X © H. Weber 2003. [email protected] Page 3, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Naive Bayes Verfahren 2 Kein direkten Schätzen • Beim direkten Auszählen der Häufigkeiten ergibt sich ein Problem, Z.B: RelH(Yes | outlook = sunny, temerature = cool, humidity = high, windy = true) = 1 RelH(No| outlook = sunny, temerature = cool, humidity = high, windy = true) = 0 • • • Wo sind die Wahrscheinlichkeiten ? Für das Schätzen der direkten Wahrscheinlichkeiten zu wenige Fälle Wenige Fälle von viele Verteilunge auszählen ist ungünstig © H. Weber 2003. [email protected] Page 4, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Naive Bayes Verfahren 3 Die Bayes Formel Die Bayes Formel kehrt Bedingungen um: P(B | A) * P(A) P( A | B) = ------------------------P(B) Angewendet auf unser Klas sifikationsproblem: P(A,B,C |yes) * P(yes) P(yes | A,B,C) = ---------------------P(A,B,C) Anteil P(A,B,C) ist Konstant und fällt weg: P‘(yes | A,B,C) = P( A,B,C| yes) * P(yes) © H. Weber 2003. [email protected] Page 5, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Naive Bayes Verfahren 4 Die „naive“ Annahme der Unabhängigkeit • Die Zuordnung von P(A,B,C yes) zu einzelnen Attributen erfolgt durch Multiplikation: P( A, B, C | yes) = P(A | yes) * P(B | yes) * P(C | yes) • Die multiplikative Kombination ist in der Stochastik nur gültig, wenn A, B und C paarweise stochastisch unabhängig sind, d.h. falls gilt: P(A) = P(A|B) und P(B) = P(B|A) • Die obere Aus sage ist messbar und für die meisten Datensammlungen und Attribute falsch = naive Annahme. • Naiv betrachtet und nach Bayes gilt also: P(yes| A,B,C)= P(A | yes) * P(B | yes) * P(C | yes) * P(yes) © H. Weber 2003. [email protected] Page 6, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Naive Bayes Verfahren 5 Klassifikation • • • Wahrscheinlichkeiten werden aus relativen Häufigkeiten geschätzt: Schätzung der P(A=W | yes) und P(A=W | no) aus relativen Häufigkeiten Schätzung der P(yes) und P(no) aus relativen Häufigkeiten © H. Weber 2003. [email protected] Page 7, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Naive Bayes Verfahren 6 Klassifizieren Beispiel Modellwahrscheinlichkeiten: P‘(yes) = 2/9 * 3/9 * 3/9 * 3/9 * 9/14 = 0.0053 P‘(no) = 3/5 * 1/5 * 4/5 * 3/5 * 5/14 = 0.0206 Normalisierte Wahrscheinlichkeiten: P(yes) = 0.0053 / (0.0053 + 0.0206) = 0.205 P(no) = 0.0206 / (0.0053 + 0.0206) = 0.795 © H. Weber 2003. [email protected] Page 8, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Naive Bayes 7 Wetterbeispiel © H. Weber 2003. [email protected] Page 9, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Naive Bayes Verfahren 8 Kontinuierliche Werte 1 • • Kontinuierliche Werte können direkt via Normalverteilungsannahme integriert werden. P(termperatur=66|yes) wird z.B. wie folgt ermitteln. Aktueller Wert: x=66 Standardabweichung: σ=6.2 Mittelwert: µ=73 © H. Weber 2003. [email protected] Page 10, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Naive Bayes 9 Kontinuierliche Werte 2 Modellwahrscheinlichkeiten: P‘(yes) = 2/9 * 0.0340 * 0.0221 * 3/9 * 9/14 = 0.000036 P‘(no) = 3/5 * 0.0291 * 0.0380 * 3/5 * 5/14 = 0.000136 Normalisierte Wahrscheinlichkeiten: P(yes) = 0.000036 / (0.000036 + 0.000136) = 0.209 P(no) = 0.000136 / (0.000036 + 0.000136) = 0.791 © H. Weber 2003. [email protected] Page 11, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Naive Bayes Zusammenfassung • Für jedes Attribut wird eine Wahrscheinlichkeit P(yes|A) ermittelt (durch die Schätzung) • Beim Klassifizieren werden direkt die Modellwahrscheinlichkeiten maximiert über allen Klassenkandidaten. • In der Praxis werden mit der einfachen „naiven“ Näherung sehr gute Ergebnis se erzielt. • Naive Bayes legt aber keine Zusammenhänge zwischen Attributen im Hinblick auf die Klassifikation offen © H. Weber 2003. [email protected] Page 12, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner P RI SM 1 Die Gundidee • PRI SM baut einfache, 100% korrekte, deterministische Regeln • Klassifikationsregeln erstellen durch sukzessive Aufbau der linken Regelseite • Eine Regeln wird im Erstellungsprozess solange spezialisiert, bis Sie keine Fehler mehr macht. • Die Bewertung von guten/schlechten Schritten basiert direkt auf der Abdeckung von Ausgangsdaten. © H. Weber 2003. [email protected] Page 13, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner P RI SM 2 Algorithmus • Klassen C, Beispieldaten E, Regel R, Attribute-Werte A=v • Für jede Klasse C — Initialisiere die Menge von Beispielen E — WÄHREND (E enthält Beispiele für C) — Erzeuge eine leere Regel R die C vorhersagt. — BI S (R ist perfekt ODER alle A sind schon in R) — Für alle Paare Attribut:Wert, wähle die Bedingung, (if A=v) welches das Verhältnis Korrekte zu Abdeckung in E maximiert. Im Zweifel wähle das Paar mit der größten Abeckung. — Füge (if A=v) zur Regel R hinzu — Entferne alle von R betroffenen Beispiele aus E © H. Weber 2003. [email protected] Page 14, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Kontaktlinsen Daten für P RI SM mit Astigmatismus = yes © H. Weber 2003. [email protected] Page 15, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner P RI SM 4 Beispiel Anfangszustand Kandidaten Erster Schritt © H. Weber 2003. [email protected] Page 16, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner P RI SM 5 Beispiel 2. Kandidaten 2. Schritt © H. Weber 2003. [email protected] Page 17, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner P RI SM 6 Beispiel 3. Kandidaten 3. Schritt Danach .. Und danach dasselbe für soft .... © H. Weber 2003. [email protected] Page 18, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner P RI SM Zusammenfas sung • Der Algorithmus behandelt verschiedene Klassen komplett unabhängig. • Regeln werden in der Reihenfolge der Abdeckung und Korrektheit erstellt. • Nebeneffekt: Die letzten erstellten Regeln sind für die Ausreißer bzw. Spezialfälle. • Das Verfahren liefert perfekte Regeln (100% korrekte Klassifikation) © H. Weber 2003. [email protected] Page 19, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner Vergleich der Verfahren Regelformate • ID3: Beweisbäume, deterministisch — Top Down Lernen: Alle Regeln werden gleichzeitig gelernt — Von grober Trennung der Klassen zu perfekten Clustern • Naive Bayes: Regelschema, probabilistisch — Holistisches Lernen, ungerichtet — Bestes Verfahren zum Klas sifizieren — Schlechtestes Verfahren zum Explizieren • PRI SM: Regeln, deterministisch — Zielklassen werden völlig getrennt behandelt. — Von allgemeinen Regeln mit Fehlern zu speziellen perfekten Regeln © H. Weber 2003. [email protected] Page 20, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner