Data Mining und Text Mining Einführung S3 Mehr Einfache

Werbung
Data Mining und Text Mining
Einführung
S3 Mehr Einfache Regellerner
Hans Hermann Weber
Univ. Erlangen, Informatik 8
Wintersemester 2003
[email protected]
Inhalt
• Regeln mit Wahrscheinlichkeiten:
Naive Bayes Verfahren
• Bottom Up Regelerzeugung:
PRI SM
• Vergleich der drei Klassischen Verfahren
— ID3,
— Naive Bayes
— PRI SM
© H. Weber 2003. [email protected]
Page 2, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Naive Bayes Verfahren 1
Probabilistische Regeln
•
•
Alle Regeln gelten immer:
— Auch die Wiedersprüchlichen Regeln gelten gleichzeitig
Alle Regeln haben Wahrscheinlichkeiten
A, B, C -> yes
mit Wahrscheinlichkeit X
A, B, C -> no
•
•
mit Wahrscheinlichkeit 1-X
Probabilistische Regeln anstatt Deterministische Regeln
Wir schreiben die Regeln als bedingte Wahrscheinlichkeiten
P(yes| A,B,C) = X
P(no| A,B,C)= 1-X
© H. Weber 2003. [email protected]
Page 3, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Naive Bayes Verfahren 2
Kein direkten Schätzen
•
Beim direkten Auszählen der Häufigkeiten ergibt sich ein
Problem, Z.B:
RelH(Yes | outlook = sunny, temerature = cool, humidity =
high, windy = true) = 1
RelH(No| outlook = sunny, temerature = cool, humidity =
high, windy = true) = 0
•
•
•
Wo sind die Wahrscheinlichkeiten ?
Für das Schätzen der direkten Wahrscheinlichkeiten zu wenige
Fälle
Wenige Fälle von viele Verteilunge auszählen ist ungünstig
© H. Weber 2003. [email protected]
Page 4, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Naive Bayes Verfahren 3
Die Bayes Formel
Die Bayes Formel kehrt Bedingungen um:
P(B | A) * P(A)
P( A | B) =
------------------------P(B)
Angewendet auf unser Klas sifikationsproblem:
P(A,B,C |yes) * P(yes)
P(yes | A,B,C) = ---------------------P(A,B,C)
Anteil P(A,B,C) ist Konstant und fällt weg:
P‘(yes | A,B,C) = P( A,B,C| yes) * P(yes)
© H. Weber 2003. [email protected]
Page 5, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Naive Bayes Verfahren 4
Die „naive“ Annahme der Unabhängigkeit
•
Die Zuordnung von P(A,B,C yes) zu einzelnen Attributen
erfolgt durch Multiplikation:
P( A, B, C | yes) = P(A | yes) * P(B | yes) * P(C | yes)
•
Die multiplikative Kombination ist in der Stochastik nur gültig,
wenn A, B und C paarweise stochastisch unabhängig sind,
d.h. falls gilt:
P(A) = P(A|B) und P(B) = P(B|A)
•
Die obere Aus sage ist messbar und für die meisten
Datensammlungen und Attribute falsch = naive Annahme.
•
Naiv betrachtet und nach Bayes gilt also:
P(yes| A,B,C)= P(A | yes) * P(B | yes) * P(C | yes) * P(yes)
© H. Weber 2003. [email protected]
Page 6, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Naive Bayes Verfahren 5
Klassifikation
•
•
•
Wahrscheinlichkeiten werden aus relativen Häufigkeiten
geschätzt:
Schätzung der P(A=W | yes) und P(A=W | no) aus relativen
Häufigkeiten
Schätzung der P(yes) und P(no) aus relativen Häufigkeiten
© H. Weber 2003. [email protected]
Page 7, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Naive Bayes Verfahren 6
Klassifizieren Beispiel
Modellwahrscheinlichkeiten:
P‘(yes) = 2/9 * 3/9 * 3/9 * 3/9 * 9/14 = 0.0053
P‘(no) = 3/5 * 1/5 * 4/5 * 3/5 * 5/14 = 0.0206
Normalisierte Wahrscheinlichkeiten:
P(yes) = 0.0053 / (0.0053 + 0.0206) = 0.205
P(no) = 0.0206 / (0.0053 + 0.0206) = 0.795
© H. Weber 2003. [email protected]
Page 8, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Naive Bayes 7
Wetterbeispiel
© H. Weber 2003. [email protected]
Page 9, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Naive Bayes Verfahren 8
Kontinuierliche Werte 1
•
•
Kontinuierliche Werte können direkt via
Normalverteilungsannahme integriert werden.
P(termperatur=66|yes) wird z.B. wie folgt ermitteln.
Aktueller Wert:
x=66
Standardabweichung:
σ=6.2
Mittelwert:
µ=73
© H. Weber 2003. [email protected]
Page 10, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Naive Bayes 9
Kontinuierliche Werte 2
Modellwahrscheinlichkeiten:
P‘(yes) = 2/9 * 0.0340 * 0.0221 * 3/9 * 9/14 = 0.000036
P‘(no) = 3/5 * 0.0291 * 0.0380 * 3/5 * 5/14 = 0.000136
Normalisierte Wahrscheinlichkeiten:
P(yes) = 0.000036 / (0.000036 + 0.000136) = 0.209
P(no) = 0.000136 / (0.000036 + 0.000136) = 0.791
© H. Weber 2003. [email protected]
Page 11, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Naive Bayes Zusammenfassung
•
Für jedes Attribut wird eine Wahrscheinlichkeit P(yes|A)
ermittelt (durch die Schätzung)
•
Beim Klassifizieren werden direkt die
Modellwahrscheinlichkeiten maximiert über allen
Klassenkandidaten.
•
In der Praxis werden mit der einfachen „naiven“ Näherung sehr
gute Ergebnis se erzielt.
•
Naive Bayes legt aber keine Zusammenhänge zwischen
Attributen im Hinblick auf die Klassifikation offen
© H. Weber 2003. [email protected]
Page 12, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
P RI SM 1
Die Gundidee
•
PRI SM baut einfache, 100% korrekte, deterministische Regeln
•
Klassifikationsregeln erstellen durch sukzessive Aufbau der
linken Regelseite
•
Eine Regeln wird im Erstellungsprozess solange spezialisiert,
bis Sie keine Fehler mehr macht.
•
Die Bewertung von guten/schlechten Schritten basiert direkt
auf der Abdeckung von Ausgangsdaten.
© H. Weber 2003. [email protected]
Page 13, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
P RI SM 2
Algorithmus
•
Klassen C, Beispieldaten E, Regel R, Attribute-Werte A=v
•
Für jede Klasse C
— Initialisiere die Menge von Beispielen E
— WÄHREND (E enthält Beispiele für C)
— Erzeuge eine leere Regel R die C vorhersagt.
— BI S (R ist perfekt ODER alle A sind schon in R)
— Für alle Paare Attribut:Wert, wähle die Bedingung,
(if A=v) welches das Verhältnis Korrekte zu
Abdeckung in E maximiert. Im Zweifel wähle das
Paar mit der größten Abeckung.
— Füge (if A=v) zur Regel R hinzu
— Entferne alle von R betroffenen Beispiele aus E
© H. Weber 2003. [email protected]
Page 14, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Kontaktlinsen Daten für P RI SM
mit Astigmatismus = yes
© H. Weber 2003. [email protected]
Page 15, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
P RI SM 4
Beispiel
Anfangszustand
Kandidaten
Erster Schritt
© H. Weber 2003. [email protected]
Page 16, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
P RI SM 5
Beispiel
2. Kandidaten
2. Schritt
© H. Weber 2003. [email protected]
Page 17, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
P RI SM 6
Beispiel
3. Kandidaten
3. Schritt
Danach ..
Und danach
dasselbe für
soft ....
© H. Weber 2003. [email protected]
Page 18, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
P RI SM Zusammenfas sung
•
Der Algorithmus behandelt verschiedene Klassen komplett
unabhängig.
•
Regeln werden in der Reihenfolge der Abdeckung und
Korrektheit erstellt.
•
Nebeneffekt: Die letzten erstellten Regeln sind für die
Ausreißer bzw. Spezialfälle.
•
Das Verfahren liefert perfekte Regeln (100% korrekte
Klassifikation)
© H. Weber 2003. [email protected]
Page 19, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Vergleich der Verfahren
Regelformate
•
ID3: Beweisbäume, deterministisch
— Top Down Lernen: Alle Regeln werden gleichzeitig gelernt
— Von grober Trennung der Klassen zu perfekten Clustern
•
Naive Bayes: Regelschema, probabilistisch
— Holistisches Lernen, ungerichtet
— Bestes Verfahren zum Klas sifizieren
— Schlechtestes Verfahren zum Explizieren
•
PRI SM: Regeln, deterministisch
— Zielklassen werden völlig getrennt behandelt.
— Von allgemeinen Regeln mit Fehlern zu speziellen
perfekten Regeln
© H. Weber 2003. [email protected]
Page 20, Data Mining & Text Mining Einführung, Abschnitt 2, Einrache Regellerner
Herunterladen