SEMINAR KLASSIFIKATION & CLUSTERING WINTERSEMESTER 2013/14 STATISTISCHE GRUNDLAGEN Stefan Langer [email protected] Frequenz & Häufigkeit: Übersicht • Absolute Häufigkeit • Relative Häufigkeit • Dokumentfrequenz • IDF (inverse document frequency) • TF (term frequency) • TF/IDF Übung • Sie haben eine Sammlung von 10 Dokumenten • Term t kommt in 3 Dokumenten vor • D1, 99 Terme: t kommt 3 mal vor • D4, 50 Terme: 5 mal • D6: 200 Terme: 1 mal • Was ist die absolute Häufigkeit und die relative Häufigkeit des Terms in D4? • Was ist die IDF des Terms? • Berechnen sie TF-IDF für t in D4 Absolute Häufigkeit und relative Häufigkeit • Absolute Häufigkeit: f (einfaches Abzählen) • Gesamtzahl der zählbaren Einheiten (z.B. Wörter): N • Relative Häufigkeit: h = f/N TF-IDF Maß für die Signifkanz eines Terms in Bezug auf ein Dokument • tf (= h) is die relative Häufigkeit eines Terms in einem Dokument • df (document Frequency) • df = |d:t ∈ d | (Anzahl der Dokumente, die den Term t enthalten) • idf (inverse document frequency) ist der Logarithmus aus der invertierten relativen Dokumentenfrequenz des Terms • 𝑖𝑑𝑓 = 𝑙𝑜𝑔 𝐷 |𝑑:𝑡 ∈𝑑| • Kombination aus tf und idf. • tf-idf = tf*idf TF-IDF - Erläuterungen • Gewichtung von Termen • Je höher die idf, desto signifikanter ist ein Term für Dokumente (da er ja in wenigen Dokumenten vorkommt) • Je höher die Termfrequenz, desto wichtiger ist ein Term für ein Dokument TF-IDF: Varianten - Vorkommen (binär) statt relative Häufigkeit - Logarithmus (log2, log10….) - Andere Abwandlungen (Bezug auf Klasse statt auf Dokumente …) Grundbegriffe der Wahrscheinlichkeitsrechnung Zufallsvorgang, Zufallsexperiment und Ergebnismenge/Ergebnisraum (sample space) • Ein Zufallsvorgang führt zu einem oder mehreren möglichen Ergebnissen. Ein Zufallsexperiment ist ein Zufallsvorgang unter kontrollierten, wiederholbaren Bedingungen. Die Menge der möglichen Ergebnisse eines Zufallsvorgangs ist der Ergebnisraum (auch Ergebnismenge o. Stichprobenraum). Er wird notiert als Ω (großes Omega). Elementarereignis Ereignis, Elementarereignis • Eine Menge von möglichen Ergebnissen (ω1 .. ωn) eines Experiments ist ein Ereignis. Ein Ereignis ist damit stets eine Untermenge von Ω. Ω selbst heißt das sichere Ereignis, die leere Menge ist das unmögliche Ereignis. Eine Menge, die nur ein mögliches Ergebnis eines Experiments enthält, wird als Elementarereignis bezeichnet. Der Ereignisraum ist die Menge aller Teilmengen von Ω. Bernoulli Bernoulli-Experiment (Bernoulli trial) • Ein Bernoulli-Experiment ist ein Zufallsexperiment mit zwei möglichen Ergebnissen. Die beiden möglichen Ergebnisse werden als "Treffer" bzw. "Niete" (success / failure) bezeichnet, bzw. auf die Zahlen 0 oder 1 abgebildet. Wahrscheinlichkeitsraum • Wahrscheinlichkeitsraum • Tripel aus Ω, F, P • Ω ist ein Ergebnisraum; • F ist eine Ereignismenge, genauer, die Menge aller möglichen Untermengen von Ω (Potenzmenge); • P ist eine Funktion, die Ereignissen aus F eine reelle Zahl zwischen 0 und 1 zuordnet (eine Wahrscheinlichkeit). Wahrscheinlichkeitsraum: Axiome Für P gelten folgende Axiome (Grundannahmen): • P(Ω) = 1 • P(Ø) = 0 • Für disjunkte Ereignisse A1-An aus F gilt, dass die Wahrscheinlichkeit der Vereinigungsmenge dieser Ereignisse gleich der summierten Wahrscheinlichkeit dieser Ereignisse Ai ist. Laplace • Laplace-Wahrscheinlichkeitsraum • Ein Laplace-Wahrscheinlichkeitsraum entsteht bei einem Laplace-Experiment: Alle Elementarereignisse eines Laplace-Experiments haben dieselbe Wahrscheinlichkeit. Bernoulli Wahrscheinlichkeit von Bernoulli-Experimenten • Für ein Bernoulli-Experiment mit genau zwei möglichen Ergebnissen (s.o.) muss nur die Wahrscheinlichkeit für ein Elementarereignis angegeben werden – da es nur zwei Elementarereignisse gibt ({ERFOLG} oder {NIETE}) ergibt sich die Wahrscheinlichkeit des einen aus der Wahrscheinlichkeit des anderen, denn die Wahrscheinlichkeiten müssen sich auf den Wert 1 aufsummieren (die Wahrscheinlichkeit von Ω = 1, s.o.). Ist die Wahrscheinlichkeit für {ERFOLG} = p, so ist die Wahrscheinlichkeit für {NIETE} = 1-p Unabhängige Ereignisse Kombinierte Wahrscheinlichkeiten von unabhängigen Ereignissen • Angenommen, zwei Ereignisse A und B sind unabhängig. Dann ist die Wahrscheinlichkeit von P(AB) – d.h. die Wahrscheinlichkeit, dass beide Ereignisse gemeinsam auftreten das Produkt der Einzelwahrscheinlichkeiten. • P(AB) = P(A) * P(B). Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit (conditional probability) • Die Wahrscheinlichkeit für ein bestimmtes Ereignis A, gegeben Ereignis B. • Sie ist P(A|B) = P(AB) / P(B) Unabhängigkeit von Ereignissen • Unabhängigkeit • Ist P(A) = P(A|B) dann spricht man davon, dass zwei Ereignisse unabhängig voneinander sind. Satz von Bayes • Berechne die bedingte Wahrscheinlichkeit P(A|B) aus P(B|A) • Es seien A1 - Ak eine disjunkte Zerlegung von Ω. • • P(Aj|B) = • P(B|Aj) P(Aj) ------------------------ (P(B|Ai) * P(Ai) P(B|Aj) P(Aj) = -----------------P(B) Wahrscheinlichkeitsrechung und Frequenz Fragestellungen: - Wie approximiert man aus dem Trainingskorpus die Wahrscheinlichkeit eines Terms in einem Dokument? - Wie berechnet man die Wahrscheinlichkeit, dass eine Dokument einen Term enthält? p(t) wird approximiert als h(t) Wahrscheinlichkeit: Glättung (smoothing) • Wahrscheinlichkeit das ein Dokument mit den Wörtern W1-Wn zur Klasse K gehört: P(D|K) = P(W1|K) * P(W2|K) * … * P(WN|K) •= 𝑃(𝑊𝑖|𝐾) • Problem: Zahlreiche Wörter sind für K nicht aufgetreten: • - Wahrscheinlichkeit wird leicht 0 • Ähnliche Probleme treten in vielen Zusammenhängen auf Glättung von Wortwahrscheinlichkeiten Laplace-Glättung P(W|D) = f(W(D))+ 1 / N+ B Lidstone-Glättung P(W|D) = f(W(D))+λ / N+ λ B Für alle nicht auftretenden Wörter W: P(W|D) = λ / N+ λ B Parametrische und nicht-parametrische Klassifikationsverfahren Parametrisch Nicht-parametrisch Geht von Annahmen über die Verteilung der Daten aus (Wahrscheinlichkeitsverteilung) Annahmen werden aus den Daten ermittelt Modellstruktur liegt fest Modellstruktur wird aus den Daten ermittelt Ermittelt wird die Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse Ja/Nein Entscheidung Bsp. Naiver Bayes-Klassifikator Bsp K-Nächster-Nachbar Lineare / nicht-lineare Klassifikatoren • Lineare Klassifikatoren trennen Klassen durch eine Hyperebene Bayessche Fehlerrate Literaturhinweise Manning/Schütze: Foundations of Natural Language Processing.