Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Sprachtechnologie
Tobias Scheffer
Thomas Vanck
Statistik & Maschinelles Lernen
Statistik:
Scheffer/Vanck: Sprachtechnologie
Deskriptive Statistik: Beschreibung (Tabellen,
Diagramme, etc), Untersuchung von Eigenschaften
von Daten (langweilig).
Induktive Statistik oder auch Inferenzstatistik: Welche
Schlussfolgerungen über die Realität lassen sich aus
Daten ziehen? (spannend, maschinelles Lernen.)
2
Thomas Bayes
1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Scheffer/Vanck: Sprachtechnologie
3
Frequentistische / Bayessche
Wahrscheinlichkeit
Frequentische Wahrscheinlichkeiten
Scheffer/Vanck: Sprachtechnologie
Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Teilchenzerfall).
Bayessche, „subjektive“ Wahrscheinlichkeiten
Beschreiben die Möglichkeit des Eintretens von
Ereignissen bezogen auf einen Grad von
Informiertheit.
Unsicherheit bedeutet hier Mangel an Information.
Wie
wahrscheinlich ist es, dass der Verdächtige das
Opfer umgebracht hat?
Neue Informationen (z.B. Fingerabdrücke) können diese
subjektive Wahrscheinlichkeiten verändern.
4
Zufallsvariablen
€
Ereignisraum Ω: Ist in der Regel R
Zufallsvariable ist eine Abbildung X : Ω → R
Beispiel: Ω = {1,2,3} und
Wahrscheinlichkeitsmaß P weist jedem Ereignis ω
einen Wahrscheinlichkeit zu. D.h. P : Ω → [0,1]
Beispiel:
1
1
1
€
P(1) = ,P(2) = ,P(3) =
4
2
4
(nennt man auch Wahrscheinlichkeitsverteilung)
€ Realisierung der
dann gilt für die konkrete
Zufallsvariable X(3) = 6
€
1 1 3
1
oder
P(X ∈ {4,6}) = + =
P(X(ω ) = 6) =
Scheffer/Vanck: Sprachtechnologie
X(ω ) = 2ω
€
2
2
4
4
5
€
Bedingte Wahrscheinlichkeiten
Wie beeinflusst zusätzliche Information die
Wahrscheinlichkeitsverteilung?
Scheffer/Vanck: Sprachtechnologie
Bedingte Wahrscheinlichkeit eines Ereignisses:
Bedingte Verteilung:
Randverteilung, Marginalisieren:
6
Konjunktion von Ereignissen
Wahrscheinlichkeit für Eintreten mehrerer
Ereignisse:
Scheffer/Vanck: Sprachtechnologie
Gemeinsame Verteilung zweier Zufallsvariablen:
Gemeinsame Verteilung mehrerer Variablen:
7
Unabhängigkeit
Zwei Zufallsvariablen sind unabhängig, wenn:
Scheffer/Vanck: Sprachtechnologie
Äquivalent dazu
8
Diskrete, kontinuierliche Verteilungen
Diskrete Zufallsvariablen:
Beispiel: Anzahl „Köpfe“ bei 100 Münzwürfen.
Kontinuierliche Zufallsvariablen besitzen
Wahrscheinlichkeitsdichtefunktion fX, so dass:
Verteilungsfunktion:
Beispiel: IQ, Körpergrößen
Scheffer/Vanck: Sprachtechnologie
9
Erwartungswert, Standardabweichung
Erwartungswert einer Zufallsvariable:
bzw
Varianz: Erwartete quadrierte Abweichung von X
von E(X)
Standardabweichung: Erwartete Abweichung
Rechenregeln: E(αX + βY ) = αE(X) + βE(Y )
Scheffer/Vanck: Sprachtechnologie
€
Var(αX + βY ) = α 2Var(X) + β 2Var(Y )
€
€
10
Bayes‘ Theorem
Erklärung, Ursache für eine Beobachtung:
Scheffer/Vanck: Sprachtechnologie
P(Ursache): A-Priori-Wahrscheinlichkeit, „Prior“.
P(Beobachtung|Ursache): Likelihood.
P(Ursache|Beobachtung): A-PosterioriWahrscheinlichkeit, „Posterior“.
11
Bayes‘ Theorem: Beispiel
Die Erbtante ist tot. Bruder b und Schwester s sind
verdächtig. DNS-Analyse der Spuren ergibt:
Scheffer/Vanck: Sprachtechnologie
P(DNS-Spuren | Täter=b) = 0.98
P(DNS-Spuren | Täter=s) = 0.99
90% aller Morde werden von Männern begangen:
P(Täter=b) = 0.9, P(Täter=s) = 0.1.
Bestimmen Sie:
P(Täter=b | DNS-Spuren), P(Täter=s | DNS-Spuren).
Plausibelste (Maximum-Likelihood-) Hypothese
argmaxt P(DNS-Spuren | Täter=t)
Wahrscheinlichste (Maximum-A-Posteriori-)
Hypothese argmaxt P(Täter=t | DNS-Spuren)
12
Lernen und Vorhersage
Lernen:
Scheffer/Vanck: Sprachtechnologie
Vorhersage:
Warum Unterteilung in Suche nach einem Modell
und Vorhersage mithilfe des Modells?
13
Bayessches Lernen und Vorhersage
Gegeben:
Scheffer/Vanck: Sprachtechnologie
Trainingsdaten L,
neue Instanz x.
Gesucht:
Wahrscheinlichkeit für Wert y für gegebenes x.
Bayes-Hypothese: wahrscheinlichstes y.
Minimiert Risiko einer falschen Vorhersage.
Bayes-optimale Entscheidung.
14
Bayessches Lernen und Vorhersage
Bayes-Hypothese: wahrscheinlichstes y.
Scheffer/Vanck: Sprachtechnologie
Minimiert Risiko einer falschen Vorhersage.
Berechnet:
Bayesian Model
Averaging
Vorhersage,
gegeben Modell
Modell gegeben
Trainingsdaten
Bayessches Lernen:
Mitteln der Vorhersage über alle Modelle.
Gewichtung: wie gut passt Modell zu Trainingsdaten.
15
Bayessches Lernen und Vorhersage
Bayes-Hypothese: wahrscheinlichstes y, gegeben x
und alle verfügbaren Daten.
Scheffer/Vanck: Sprachtechnologie
Weiter auflösen:
Bayes‘ Gleichung
Posterior,
A-PosterioriVerteilung
Bayessche Regel:
Posterior = Likelihood x Prior.
Likelihood,
Wie gut passt
Modell zu Daten?
Prior,
A-PrioriVerteilung
Normierungskonstante
16
Bayessche Regel
Bayes‘ Gleichung
Likelihood P(L | θ).
Scheffer/Vanck: Sprachtechnologie
Wie wahrscheinlich wären die Trainingsdaten, wenn θ
das richtige Modell wäre.
Wie gut passt Modell zu den Daten.
17
Bayessche Regel
Bayes‘ Gleichung
Prior P(θ).
Scheffer/Vanck: Sprachtechnologie
Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ) drücken datenunabhängiges
Vorwissen über Problem aus.
18
Binomialverteilte Zufallsvariablen
„Echte“ Wahrscheinlichkeiten für Ereignisse kennen
wir nie.
Mit Bayes Regel können wir Aussage über echte
Wahrscheinlichkeit machen, gegeben Daten.
Beispiel: Münzwurf.
Scheffer/Vanck: Sprachtechnologie
Wiederhole Münzwurfexperiment.
Daten L: Nk mal Kopf, Nz mal Zahl.
Likelihood:
Binomialverteilung
19
Bayessche Regel
Bayes‘ Gleichung
Scheffer/Vanck: Sprachtechnologie
Prior P(θ).
Beispiel Münzwurf:
Gutes Modell für Vorwissen über θ: Beta-Verteilung.
αk und αz sind Hyperparameter der Verteilung.
20
Beispiel Münzwurf: Beta-Verteilung
Warum gerade diese Definition?
Besondere Eigenschaft: Wenn wir den Beta-Prior in Bayes‘
Gleichung einsetzen, dann:
Scheffer/Vanck: Sprachtechnologie
Posterior wieder Beta-verteilt.
Interpretation der Hyperparameter:
αk-1/ αz-1: wie oft im Leben haben wir bei Münzwurf
schon Ergebnis Kopf/Zahl gesehen.
21
Bayessche Regel
Bayes‘ Gleichung
Posterior P(θ | L).
Wie wahrscheinlich ist Modell θ, nachdem wir Daten L
gesehen haben.
Vorwissen P(θ ) und Trainingsdaten werden zu
neuem Gesamtwissen P(θ | L) integriert.
22
Scheffer/Vanck: Sprachtechnologie
Bayessche Regel
Bayes‘ Gleichung
Posterior P(θ | L).
Beispiel Münzwurf:
Wie wahrscheinlich ist Modell θ, nachdem wir Daten L
gesehen haben.
Vorwissen Beta(θ | αk, αz) und Beobachtungen Nk, Nz
werden zu Posterior Beta(θ | αk +Nk, αz +Nz).
Beta-Verteilungen sind die konjugierten Verteilungen
für binomiale Beobachtungen.
23
Scheffer/Vanck: Sprachtechnologie
Beispiel Münzwurf: Beta-Verteilung
Geburt
Kopf
Scheffer/Vanck: Sprachtechnologie
Kopf, Zahl
…
24
Münzwurf: wahrscheinlichste
Wahrscheinlichkeit
Wahrscheinlichster Parameter θ.
Scheffer/Vanck: Sprachtechnologie
konstant
Ableiten,
Ableitung
null setzen
25
Würfelwurf statt Münzwurf
Münzwurf: 2 Ausgänge.
Scheffer/Vanck: Sprachtechnologie
Prior Beta-verteilt, Binomiale Likelihood,
Posterior wieder Beta-verteilt.
Modell für Prozesse mit binären Attributen.
Würfelwurf: k Ausgänge (Text).
Prior Dirichlet-verteilt,
Likelihood Multinomial,
Posterior wieder Dirichlet-verteilt.
Modell für diskrete Prozesse mit mehrwertigen
Attributen,
z.B. Texte, Verweisdaten.
26
Multinomiale Zufallsvariablen
„Echte“ Wahrscheinlichkeiten für Ereignisse kennen
wir nie.
Mit Bayes Regel können wir Aussage über echte
Wahrscheinlichkeit machen, gegeben Daten.
Wörter eines Textes.
Scheffer/Vanck: Sprachtechnologie
Jedes Wort eines Textes wird ausgewürfelt.
Wort j wird mit Wahrscheinlichkeit θj gezogen.
In Daten L kommt Wort j genau Nj mal vor.
Likelihood:
Multinomialverteilung
27
Bayessche Regel
Bayes‘ Gleichung
Scheffer/Vanck: Sprachtechnologie
Prior P(θ).
Beispiel Wörter eines Textes:
Modell für Vorwissen über θ : Dirichlet-Verteilung.
αj sind Hyperparameter der Verteilung.
28
Beispiel Text: Dirichlet-Verteilung
Warum gerade diese Definition?
Besondere Eigenschaft: Wenn wir den DirichletPrior in Bayes‘ Gleichung einsetzen, dann:
Scheffer/Vanck: Sprachtechnologie
Posterior wieder Dirichlet-verteilt.
Interpretation der Hyperparameter:
αj-1: wie oft im Leben haben wir bei schon Wort j
gesehen.
29
MAP-Hypothese
Um Risiko einer Fehlentscheidung zu minimieren:
wähle
Problem: In vielen Fällen gibt es keine geschlossene
Lösung, explizite Integration über alle Modelle
unpraktikabel.
Maximum-A-Posteriori- (MAP-)Hypothese:
wähle
30
Scheffer/Vanck: Sprachtechnologie
MAP-Hypothese
MAP-Hypothese:
Scheffer/Vanck: Sprachtechnologie
wähle
Beispiel Münzwurf
31
MAP-Hypothese
MAP-Hypothese:
Scheffer/Vanck: Sprachtechnologie
wähle
Beispiel Text
32
ML-Hypothese
Um MAP-Hypothese zu bestimmen müssen wir
Posterior (Likelihood x Prior) kennen.
Unmöglich, wenn kein Vorwissen (Prior) existiert.
Maximum-Likelihood- (ML-)Hypothese:
Scheffer/Vanck: Sprachtechnologie
wähle
Beispiel Münzwurf:
Berücksichtigt nur Beobachtungen in L, kein
Vorwissen.
33
Wahrscheinlichkeiten schätzen
Binomiale Beobachtung (Münzwürfe):
Scheffer/Vanck: Sprachtechnologie
gerade behandelt, konjugierte Verteilung Beta.
Multinomiale Verteilung:
Diskrete Ereignisse, mehr als zwei Werte.
Beispiel: Text, Folge diskreter Wörter.
Geschlossene Lösung, konjugierte Verteilung
Dirichlet.
34