Sprachtechnologie - Institut für Informatik

Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Sprachtechnologie
Tobias Scheffer
Thomas Vanck
Statistik & Maschinelles Lernen
Statistik:
Scheffer/Vanck: Sprachtechnologie
 Deskriptive Statistik: Beschreibung (Tabellen,
Diagramme, etc), Untersuchung von Eigenschaften
von Daten (langweilig).
 Induktive Statistik oder auch Inferenzstatistik: Welche
Schlussfolgerungen über die Realität lassen sich aus
Daten ziehen? (spannend, maschinelles Lernen.)
 2
Thomas Bayes
 1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Scheffer/Vanck: Sprachtechnologie
 3
Frequentistische / Bayessche
Wahrscheinlichkeit
Frequentische Wahrscheinlichkeiten
  Scheffer/Vanck: Sprachtechnologie
 Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Teilchenzerfall).
Bayessche, „subjektive“ Wahrscheinlichkeiten
Beschreiben die Möglichkeit des Eintretens von
Ereignissen bezogen auf einen Grad von
Informiertheit.
 Unsicherheit bedeutet hier Mangel an Information.
  Wie
wahrscheinlich ist es, dass der Verdächtige das
Opfer umgebracht hat?
 Neue Informationen (z.B. Fingerabdrücke) können diese
subjektive Wahrscheinlichkeiten verändern.
4
Zufallsvariablen
    €
Ereignisraum Ω: Ist in der Regel R
Zufallsvariable ist eine Abbildung X : Ω → R
Beispiel: Ω = {1,2,3} und
Wahrscheinlichkeitsmaß P weist jedem Ereignis ω
einen Wahrscheinlichkeit zu. D.h. P : Ω → [0,1]
Beispiel:
1
1
1
€
P(1) = ,P(2) = ,P(3) =
4
2
4
(nennt man auch Wahrscheinlichkeitsverteilung)
€ Realisierung der
dann gilt für die konkrete
Zufallsvariable X(3) = 6
€
1 1 3
1
oder
P(X ∈ {4,6}) = + =
P(X(ω ) = 6) =
Scheffer/Vanck: Sprachtechnologie
 X(ω ) = 2ω
€
2
2
4
4
5
€
Bedingte Wahrscheinlichkeiten
Wie beeinflusst zusätzliche Information die
Wahrscheinlichkeitsverteilung?
Scheffer/Vanck: Sprachtechnologie
   Bedingte Wahrscheinlichkeit eines Ereignisses:
  Bedingte Verteilung:
  Randverteilung, Marginalisieren:
 6
Konjunktion von Ereignissen
Wahrscheinlichkeit für Eintreten mehrerer
Ereignisse:
Scheffer/Vanck: Sprachtechnologie
   Gemeinsame Verteilung zweier Zufallsvariablen:
  Gemeinsame Verteilung mehrerer Variablen:
 7
Unabhängigkeit
Zwei Zufallsvariablen sind unabhängig, wenn:
Scheffer/Vanck: Sprachtechnologie
   Äquivalent dazu
 8
Diskrete, kontinuierliche Verteilungen
Diskrete Zufallsvariablen:
 Beispiel: Anzahl „Köpfe“ bei 100 Münzwürfen.
Kontinuierliche Zufallsvariablen besitzen
Wahrscheinlichkeitsdichtefunktion fX, so dass:
 Verteilungsfunktion:
 Beispiel: IQ, Körpergrößen
 Scheffer/Vanck: Sprachtechnologie
 9
Erwartungswert, Standardabweichung
 Erwartungswert einer Zufallsvariable:
bzw
Varianz: Erwartete quadrierte Abweichung von X
von E(X)
 Standardabweichung: Erwartete Abweichung
 Rechenregeln: E(αX + βY ) = αE(X) + βE(Y )
Scheffer/Vanck: Sprachtechnologie
 €
Var(αX + βY ) = α 2Var(X) + β 2Var(Y )
€
€
10
Bayes‘ Theorem
   Erklärung, Ursache für eine Beobachtung:
Scheffer/Vanck: Sprachtechnologie
 P(Ursache): A-Priori-Wahrscheinlichkeit, „Prior“.
P(Beobachtung|Ursache): Likelihood.
P(Ursache|Beobachtung): A-PosterioriWahrscheinlichkeit, „Posterior“.
11
Bayes‘ Theorem: Beispiel
Die Erbtante ist tot. Bruder b und Schwester s sind
verdächtig. DNS-Analyse der Spuren ergibt:
Scheffer/Vanck: Sprachtechnologie
 P(DNS-Spuren | Täter=b) = 0.98
 P(DNS-Spuren | Täter=s) = 0.99
  90% aller Morde werden von Männern begangen:
  P(Täter=b) = 0.9, P(Täter=s) = 0.1.
Bestimmen Sie:
P(Täter=b | DNS-Spuren), P(Täter=s | DNS-Spuren).
 Plausibelste (Maximum-Likelihood-) Hypothese
argmaxt P(DNS-Spuren | Täter=t)
 Wahrscheinlichste (Maximum-A-Posteriori-)
Hypothese argmaxt P(Täter=t | DNS-Spuren)
 12
Lernen und Vorhersage
Lernen:
Scheffer/Vanck: Sprachtechnologie
   Vorhersage:
  Warum Unterteilung in Suche nach einem Modell
und Vorhersage mithilfe des Modells?
13
Bayessches Lernen und Vorhersage
Gegeben:
Scheffer/Vanck: Sprachtechnologie
 Trainingsdaten L,
 neue Instanz x.
  Gesucht:
 Wahrscheinlichkeit für Wert y für gegebenes x.
  Bayes-Hypothese: wahrscheinlichstes y.
 Minimiert Risiko einer falschen Vorhersage.
 Bayes-optimale Entscheidung.
 14
Bayessches Lernen und Vorhersage
Bayes-Hypothese: wahrscheinlichstes y.
Scheffer/Vanck: Sprachtechnologie
    Minimiert Risiko einer falschen Vorhersage.
Berechnet:
 Bayesian Model
Averaging
 Vorhersage,
gegeben Modell
Modell gegeben
Trainingsdaten
Bayessches Lernen:
Mitteln der Vorhersage über alle Modelle.
 Gewichtung: wie gut passt Modell zu Trainingsdaten.
 15
Bayessches Lernen und Vorhersage
Bayes-Hypothese: wahrscheinlichstes y, gegeben x
und alle verfügbaren Daten.
Scheffer/Vanck: Sprachtechnologie
   Weiter auflösen:
 Bayes‘ Gleichung
Posterior,
A-PosterioriVerteilung
Bayessche Regel:
Posterior = Likelihood x Prior.
Likelihood,
Wie gut passt
Modell zu Daten?
Prior,
A-PrioriVerteilung
Normierungskonstante
16
Bayessche Regel
Bayes‘ Gleichung
 Likelihood P(L | θ).
Scheffer/Vanck: Sprachtechnologie
 Wie wahrscheinlich wären die Trainingsdaten, wenn θ
das richtige Modell wäre.
 Wie gut passt Modell zu den Daten.
 17
Bayessche Regel
Bayes‘ Gleichung
 Prior P(θ).
  Scheffer/Vanck: Sprachtechnologie
 Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ) drücken datenunabhängiges
Vorwissen über Problem aus.
18
Binomialverteilte Zufallsvariablen
  „Echte“ Wahrscheinlichkeiten für Ereignisse kennen
wir nie.
Mit Bayes Regel können wir Aussage über echte
Wahrscheinlichkeit machen, gegeben Daten.
Beispiel: Münzwurf.
Scheffer/Vanck: Sprachtechnologie
 Wiederhole Münzwurfexperiment.
 Daten L: Nk mal Kopf, Nz mal Zahl.
  Likelihood:
 Binomialverteilung
19
Bayessche Regel
  Bayes‘ Gleichung
Scheffer/Vanck: Sprachtechnologie
 Prior P(θ).
Beispiel Münzwurf:
 Gutes Modell für Vorwissen über θ: Beta-Verteilung.
  αk und αz sind Hyperparameter der Verteilung.
20
Beispiel Münzwurf: Beta-Verteilung
 Warum gerade diese Definition?
Besondere Eigenschaft: Wenn wir den Beta-Prior in Bayes‘
Gleichung einsetzen, dann:
Scheffer/Vanck: Sprachtechnologie
  Posterior wieder Beta-verteilt.
Interpretation der Hyperparameter:
   αk-1/ αz-1: wie oft im Leben haben wir bei Münzwurf
schon Ergebnis Kopf/Zahl gesehen.
21
Bayessche Regel
Bayes‘ Gleichung
 Posterior P(θ | L).
  Wie wahrscheinlich ist Modell θ, nachdem wir Daten L
gesehen haben.
Vorwissen P(θ ) und Trainingsdaten werden zu
neuem Gesamtwissen P(θ | L) integriert.
22
Scheffer/Vanck: Sprachtechnologie
 Bayessche Regel
Bayes‘ Gleichung
 Posterior P(θ | L).
  Beispiel Münzwurf:
  Wie wahrscheinlich ist Modell θ, nachdem wir Daten L
gesehen haben.
Vorwissen Beta(θ | αk, αz) und Beobachtungen Nk, Nz
werden zu Posterior Beta(θ | αk +Nk, αz +Nz).
Beta-Verteilungen sind die konjugierten Verteilungen
für binomiale Beobachtungen.
23
Scheffer/Vanck: Sprachtechnologie
 Beispiel Münzwurf: Beta-Verteilung
Geburt
Kopf
Scheffer/Vanck: Sprachtechnologie
Kopf, Zahl
…
24
Münzwurf: wahrscheinlichste
Wahrscheinlichkeit
Wahrscheinlichster Parameter θ.
Scheffer/Vanck: Sprachtechnologie
  konstant
Ableiten,
Ableitung
null setzen
25
Würfelwurf statt Münzwurf
Münzwurf: 2 Ausgänge.
Scheffer/Vanck: Sprachtechnologie
 Prior Beta-verteilt, Binomiale Likelihood,
 Posterior wieder Beta-verteilt.
 Modell für Prozesse mit binären Attributen.
  Würfelwurf: k Ausgänge (Text).
Prior Dirichlet-verteilt,
 Likelihood Multinomial,
 Posterior wieder Dirichlet-verteilt.
 Modell für diskrete Prozesse mit mehrwertigen
Attributen,
 z.B. Texte, Verweisdaten.
 26
Multinomiale Zufallsvariablen
  „Echte“ Wahrscheinlichkeiten für Ereignisse kennen
wir nie.
Mit Bayes Regel können wir Aussage über echte
Wahrscheinlichkeit machen, gegeben Daten.
Wörter eines Textes.
Scheffer/Vanck: Sprachtechnologie
 Jedes Wort eines Textes wird ausgewürfelt.
 Wort j wird mit Wahrscheinlichkeit θj gezogen.
 In Daten L kommt Wort j genau Nj mal vor.
  Likelihood:
 Multinomialverteilung
27
Bayessche Regel
  Bayes‘ Gleichung
Scheffer/Vanck: Sprachtechnologie
 Prior P(θ).
Beispiel Wörter eines Textes:
 Modell für Vorwissen über θ : Dirichlet-Verteilung.
  αj sind Hyperparameter der Verteilung.
28
Beispiel Text: Dirichlet-Verteilung
 Warum gerade diese Definition?
Besondere Eigenschaft: Wenn wir den DirichletPrior in Bayes‘ Gleichung einsetzen, dann:
  Scheffer/Vanck: Sprachtechnologie
 Posterior wieder Dirichlet-verteilt.
Interpretation der Hyperparameter:
 αj-1: wie oft im Leben haben wir bei schon Wort j
gesehen.
29
MAP-Hypothese
Um Risiko einer Fehlentscheidung zu minimieren:
   wähle
Problem: In vielen Fällen gibt es keine geschlossene
Lösung, explizite Integration über alle Modelle
unpraktikabel.
Maximum-A-Posteriori- (MAP-)Hypothese:
 wähle
30
Scheffer/Vanck: Sprachtechnologie
 MAP-Hypothese
MAP-Hypothese:
  Scheffer/Vanck: Sprachtechnologie
 wähle
Beispiel Münzwurf
 31
MAP-Hypothese
MAP-Hypothese:
  Scheffer/Vanck: Sprachtechnologie
 wähle
Beispiel Text
 32
ML-Hypothese
  Um MAP-Hypothese zu bestimmen müssen wir
Posterior (Likelihood x Prior) kennen.
Unmöglich, wenn kein Vorwissen (Prior) existiert.
Maximum-Likelihood- (ML-)Hypothese:
  Scheffer/Vanck: Sprachtechnologie
 wähle
Beispiel Münzwurf:
  Berücksichtigt nur Beobachtungen in L, kein
Vorwissen.
33
Wahrscheinlichkeiten schätzen
Binomiale Beobachtung (Münzwürfe):
  Scheffer/Vanck: Sprachtechnologie
 gerade behandelt, konjugierte Verteilung Beta.
Multinomiale Verteilung:
Diskrete Ereignisse, mehr als zwei Werte.
 Beispiel: Text, Folge diskreter Wörter.
 Geschlossene Lösung, konjugierte Verteilung
Dirichlet.
 34