Statistische Grundlagen

Werbung
SEMINAR
KLASSIFIKATION & CLUSTERING
WINTERSEMESTER 2013/14
STATISTISCHE GRUNDLAGEN
Stefan Langer
[email protected]
Frequenz & Häufigkeit: Übersicht
• Absolute Häufigkeit
• Relative Häufigkeit
• Dokumentfrequenz
• IDF (inverse document frequency)
• TF (term frequency)
• TF/IDF
Übung
• Sie haben eine Sammlung von 10 Dokumenten
• Term t kommt in 3 Dokumenten vor
• D1, 99 Terme: t kommt 3 mal vor
• D4, 50 Terme: 5 mal
• D6: 200 Terme: 1 mal
• Was ist die absolute Häufigkeit und die relative Häufigkeit des
Terms in D4?
• Was ist die IDF des Terms?
• Berechnen sie TF-IDF für t in D4
Absolute Häufigkeit und relative Häufigkeit
• Absolute Häufigkeit: f (einfaches Abzählen)
• Gesamtzahl der zählbaren Einheiten (z.B. Wörter): N
• Relative Häufigkeit: h = f/N
TF-IDF
Maß für die Signifkanz eines Terms in Bezug auf ein Dokument
• tf (= h) is die relative Häufigkeit eines Terms in einem Dokument
• df (document Frequency)
•
df = |d:t ∈ d | (Anzahl der Dokumente, die den Term t enthalten)
• idf (inverse document frequency) ist der Logarithmus aus der
invertierten relativen Dokumentenfrequenz des Terms
• 𝑖𝑑𝑓 = 𝑙𝑜𝑔
𝐷
|𝑑:𝑡 ∈𝑑|
• Kombination aus tf und idf.
• tf-idf = tf*idf
TF-IDF - Erläuterungen
• Gewichtung von Termen
• Je höher die idf, desto signifikanter ist ein Term für Dokumente (da
er ja in wenigen Dokumenten vorkommt)
• Je höher die Termfrequenz, desto wichtiger ist ein Term für ein
Dokument
TF-IDF: Varianten
- Vorkommen (binär) statt relative Häufigkeit
- Logarithmus (log2, log10….)
- Andere Abwandlungen (Bezug auf Klasse statt auf
Dokumente …)
Grundbegriffe der
Wahrscheinlichkeitsrechnung
Zufallsvorgang, Zufallsexperiment und
Ergebnismenge/Ergebnisraum (sample space)
• Ein Zufallsvorgang führt zu einem oder mehreren
möglichen Ergebnissen. Ein Zufallsexperiment ist ein
Zufallsvorgang unter kontrollierten, wiederholbaren
Bedingungen. Die Menge der möglichen Ergebnisse
eines Zufallsvorgangs ist der Ergebnisraum (auch
Ergebnismenge o. Stichprobenraum). Er wird notiert als Ω
(großes Omega).
Elementarereignis
Ereignis, Elementarereignis
• Eine Menge von möglichen Ergebnissen (ω1 .. ωn) eines
Experiments ist ein Ereignis. Ein Ereignis ist damit stets
eine Untermenge von Ω. Ω selbst heißt das sichere
Ereignis, die leere Menge ist das unmögliche Ereignis.
Eine Menge, die nur ein mögliches Ergebnis eines
Experiments enthält, wird als Elementarereignis
bezeichnet. Der Ereignisraum ist die Menge aller
Teilmengen von Ω.
Bernoulli
Bernoulli-Experiment (Bernoulli trial)
• Ein Bernoulli-Experiment ist ein Zufallsexperiment mit
zwei möglichen Ergebnissen. Die beiden möglichen
Ergebnisse werden als "Treffer" bzw. "Niete" (success /
failure) bezeichnet, bzw. auf die Zahlen 0 oder 1
abgebildet.
Wahrscheinlichkeitsraum
• Wahrscheinlichkeitsraum
• Tripel aus Ω, F, P
• Ω ist ein Ergebnisraum;
• F ist eine Ereignismenge, genauer, die Menge aller
möglichen Untermengen von Ω (Potenzmenge);
• P ist eine Funktion, die Ereignissen aus F eine reelle Zahl
zwischen 0 und 1 zuordnet (eine Wahrscheinlichkeit).
Wahrscheinlichkeitsraum: Axiome
Für P gelten folgende Axiome (Grundannahmen):
• P(Ω) = 1
• P(Ø) = 0
• Für disjunkte Ereignisse A1-An aus F gilt, dass die
Wahrscheinlichkeit der Vereinigungsmenge dieser
Ereignisse gleich der summierten Wahrscheinlichkeit
dieser Ereignisse Ai ist.
Laplace
• Laplace-Wahrscheinlichkeitsraum
• Ein Laplace-Wahrscheinlichkeitsraum entsteht bei einem
Laplace-Experiment: Alle Elementarereignisse eines
Laplace-Experiments haben dieselbe Wahrscheinlichkeit.
Bernoulli
Wahrscheinlichkeit von Bernoulli-Experimenten
• Für ein Bernoulli-Experiment mit genau zwei möglichen
Ergebnissen (s.o.) muss nur die Wahrscheinlichkeit für ein
Elementarereignis angegeben werden – da es nur zwei
Elementarereignisse gibt ({ERFOLG} oder {NIETE}) ergibt
sich die Wahrscheinlichkeit des einen aus der
Wahrscheinlichkeit des anderen, denn die
Wahrscheinlichkeiten müssen sich auf den Wert 1
aufsummieren (die Wahrscheinlichkeit von Ω = 1, s.o.). Ist
die Wahrscheinlichkeit für {ERFOLG} = p, so ist die
Wahrscheinlichkeit für {NIETE} = 1-p
Unabhängige Ereignisse
Kombinierte Wahrscheinlichkeiten von unabhängigen
Ereignissen
• Angenommen, zwei Ereignisse A und B sind unabhängig.
Dann ist die Wahrscheinlichkeit von P(AB) – d.h. die
Wahrscheinlichkeit, dass beide Ereignisse gemeinsam
auftreten das Produkt der Einzelwahrscheinlichkeiten.
•
P(AB) = P(A) * P(B).
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit (conditional probability)
• Die Wahrscheinlichkeit für ein bestimmtes Ereignis A,
gegeben Ereignis B.
• Sie ist P(A|B) = P(AB) / P(B)
Unabhängigkeit von Ereignissen
• Unabhängigkeit
• Ist P(A) = P(A|B) dann spricht man davon, dass zwei
Ereignisse unabhängig voneinander sind.
Satz von Bayes
• Berechne die bedingte Wahrscheinlichkeit P(A|B) aus
P(B|A)
• Es seien A1 - Ak eine disjunkte Zerlegung von Ω.
•
• P(Aj|B) =
•
P(B|Aj) P(Aj)
------------------------ (P(B|Ai) * P(Ai)
P(B|Aj) P(Aj)
= -----------------P(B)
Wahrscheinlichkeitsrechung und
Frequenz
Fragestellungen:
- Wie approximiert man aus dem Trainingskorpus die
Wahrscheinlichkeit eines Terms in einem Dokument?
- Wie berechnet man die Wahrscheinlichkeit, dass eine
Dokument einen Term enthält?
 p(t) wird approximiert als h(t)
Wahrscheinlichkeit: Glättung (smoothing)
• Wahrscheinlichkeit das ein Dokument mit den Wörtern
W1-Wn zur Klasse K gehört:
P(D|K) = P(W1|K) * P(W2|K) * … * P(WN|K)
•=
𝑃(𝑊𝑖|𝐾)
• Problem: Zahlreiche Wörter sind für K nicht aufgetreten:
• - Wahrscheinlichkeit wird leicht 0
• Ähnliche Probleme treten in vielen Zusammenhängen auf
Glättung von Wortwahrscheinlichkeiten
Laplace-Glättung
P(W|D) = f(W(D))+ 1 / N+ B
Lidstone-Glättung
P(W|D) = f(W(D))+λ / N+ λ B
 Für alle nicht auftretenden Wörter W:
P(W|D) = λ / N+ λ B
Parametrische und nicht-parametrische
Klassifikationsverfahren
Parametrisch
Nicht-parametrisch
Geht von Annahmen über die
Verteilung der Daten aus
(Wahrscheinlichkeitsverteilung)
Annahmen werden aus den Daten
ermittelt
Modellstruktur liegt fest
Modellstruktur wird aus den Daten
ermittelt
Ermittelt wird die Wahrscheinlichkeit
der Zugehörigkeit zu einer Klasse
Ja/Nein Entscheidung
Bsp. Naiver Bayes-Klassifikator
Bsp K-Nächster-Nachbar
Lineare / nicht-lineare Klassifikatoren
• Lineare Klassifikatoren trennen Klassen durch eine
Hyperebene
Bayessche Fehlerrate
Literaturhinweise
Manning/Schütze: Foundations of Natural Language
Processing.
Herunterladen