 
                                Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Sprachtechnologie
Tobias Scheffer
Thomas Vanck
Statistik & Maschinelles Lernen
Statistik:
Scheffer/Vanck: Sprachtechnologie
 Deskriptive Statistik: Beschreibung (Tabellen,
Diagramme, etc), Untersuchung von Eigenschaften
von Daten (langweilig).
 Induktive Statistik oder auch Inferenzstatistik: Welche
Schlussfolgerungen über die Realität lassen sich aus
Daten ziehen? (spannend, maschinelles Lernen.)
 2
Thomas Bayes
 1702-1761
„An essay towards solving a
problem in the doctrine of
chances“, 1764 veröffentlicht.
Scheffer/Vanck: Sprachtechnologie
 3
Frequentistische / Bayessche
Wahrscheinlichkeit
Frequentische Wahrscheinlichkeiten
  Scheffer/Vanck: Sprachtechnologie
 Beschreiben die Möglichkeit des Eintretens intrinsisch
stochastischer Ereignisse (z.B. Teilchenzerfall).
Bayessche, „subjektive“ Wahrscheinlichkeiten
Beschreiben die Möglichkeit des Eintretens von
Ereignissen bezogen auf einen Grad von
Informiertheit.
 Unsicherheit bedeutet hier Mangel an Information.
  Wie
wahrscheinlich ist es, dass der Verdächtige das
Opfer umgebracht hat?
 Neue Informationen (z.B. Fingerabdrücke) können diese
subjektive Wahrscheinlichkeiten verändern.
4
Zufallsvariablen
    €
Ereignisraum Ω: Ist in der Regel R
Zufallsvariable ist eine Abbildung X : Ω → R
Beispiel: Ω = {1,2,3} und
Wahrscheinlichkeitsmaß P weist jedem Ereignis ω
einen Wahrscheinlichkeit zu. D.h. P : Ω → [0,1]
Beispiel:
1
1
1
€
P(1) = ,P(2) = ,P(3) =
4
2
4
(nennt man auch Wahrscheinlichkeitsverteilung)
€ Realisierung der
dann gilt für die konkrete
Zufallsvariable X(3) = 6
€
1 1 3
1
oder
P(X ∈ {4,6}) = + =
P(X(ω ) = 6) =
Scheffer/Vanck: Sprachtechnologie
 X(ω ) = 2ω
€
2
2
4
4
5
€
Bedingte Wahrscheinlichkeiten
Wie beeinflusst zusätzliche Information die
Wahrscheinlichkeitsverteilung?
Scheffer/Vanck: Sprachtechnologie
   Bedingte Wahrscheinlichkeit eines Ereignisses:
  Bedingte Verteilung:
  Randverteilung, Marginalisieren:
 6
Konjunktion von Ereignissen
Wahrscheinlichkeit für Eintreten mehrerer
Ereignisse:
Scheffer/Vanck: Sprachtechnologie
   Gemeinsame Verteilung zweier Zufallsvariablen:
  Gemeinsame Verteilung mehrerer Variablen:
 7
Unabhängigkeit
Zwei Zufallsvariablen sind unabhängig, wenn:
Scheffer/Vanck: Sprachtechnologie
   Äquivalent dazu
 8
Diskrete, kontinuierliche Verteilungen
Diskrete Zufallsvariablen:
 Beispiel: Anzahl „Köpfe“ bei 100 Münzwürfen.
Kontinuierliche Zufallsvariablen besitzen
Wahrscheinlichkeitsdichtefunktion fX, so dass:
 Verteilungsfunktion:
 Beispiel: IQ, Körpergrößen
 Scheffer/Vanck: Sprachtechnologie
 9
Erwartungswert, Standardabweichung
 Erwartungswert einer Zufallsvariable:
bzw
Varianz: Erwartete quadrierte Abweichung von X
von E(X)
 Standardabweichung: Erwartete Abweichung
 Rechenregeln: E(αX + βY ) = αE(X) + βE(Y )
Scheffer/Vanck: Sprachtechnologie
 €
Var(αX + βY ) = α 2Var(X) + β 2Var(Y )
€
€
10
Bayes‘ Theorem
   Erklärung, Ursache für eine Beobachtung:
Scheffer/Vanck: Sprachtechnologie
 P(Ursache): A-Priori-Wahrscheinlichkeit, „Prior“.
P(Beobachtung|Ursache): Likelihood.
P(Ursache|Beobachtung): A-PosterioriWahrscheinlichkeit, „Posterior“.
11
Bayes‘ Theorem: Beispiel
Die Erbtante ist tot. Bruder b und Schwester s sind
verdächtig. DNS-Analyse der Spuren ergibt:
Scheffer/Vanck: Sprachtechnologie
 P(DNS-Spuren | Täter=b) = 0.98
 P(DNS-Spuren | Täter=s) = 0.99
  90% aller Morde werden von Männern begangen:
  P(Täter=b) = 0.9, P(Täter=s) = 0.1.
Bestimmen Sie:
P(Täter=b | DNS-Spuren), P(Täter=s | DNS-Spuren).
 Plausibelste (Maximum-Likelihood-) Hypothese
argmaxt P(DNS-Spuren | Täter=t)
 Wahrscheinlichste (Maximum-A-Posteriori-)
Hypothese argmaxt P(Täter=t | DNS-Spuren)
 12
Lernen und Vorhersage
Lernen:
Scheffer/Vanck: Sprachtechnologie
   Vorhersage:
  Warum Unterteilung in Suche nach einem Modell
und Vorhersage mithilfe des Modells?
13
Bayessches Lernen und Vorhersage
Gegeben:
Scheffer/Vanck: Sprachtechnologie
 Trainingsdaten L,
 neue Instanz x.
  Gesucht:
 Wahrscheinlichkeit für Wert y für gegebenes x.
  Bayes-Hypothese: wahrscheinlichstes y.
 Minimiert Risiko einer falschen Vorhersage.
 Bayes-optimale Entscheidung.
 14
Bayessches Lernen und Vorhersage
Bayes-Hypothese: wahrscheinlichstes y.
Scheffer/Vanck: Sprachtechnologie
    Minimiert Risiko einer falschen Vorhersage.
Berechnet:
 Bayesian Model
Averaging
 Vorhersage,
gegeben Modell
Modell gegeben
Trainingsdaten
Bayessches Lernen:
Mitteln der Vorhersage über alle Modelle.
 Gewichtung: wie gut passt Modell zu Trainingsdaten.
 15
Bayessches Lernen und Vorhersage
Bayes-Hypothese: wahrscheinlichstes y, gegeben x
und alle verfügbaren Daten.
Scheffer/Vanck: Sprachtechnologie
   Weiter auflösen:
 Bayes‘ Gleichung
Posterior,
A-PosterioriVerteilung
Bayessche Regel:
Posterior = Likelihood x Prior.
Likelihood,
Wie gut passt
Modell zu Daten?
Prior,
A-PrioriVerteilung
Normierungskonstante
16
Bayessche Regel
Bayes‘ Gleichung
 Likelihood P(L | θ).
Scheffer/Vanck: Sprachtechnologie
 Wie wahrscheinlich wären die Trainingsdaten, wenn θ
das richtige Modell wäre.
 Wie gut passt Modell zu den Daten.
 17
Bayessche Regel
Bayes‘ Gleichung
 Prior P(θ).
  Scheffer/Vanck: Sprachtechnologie
 Wie wahrscheinlich ist Modell θ bevor wir
irgendwelche Trainingsdaten gesehen haben.
Annahmen über P(θ) drücken datenunabhängiges
Vorwissen über Problem aus.
18
Binomialverteilte Zufallsvariablen
  „Echte“ Wahrscheinlichkeiten für Ereignisse kennen
wir nie.
Mit Bayes Regel können wir Aussage über echte
Wahrscheinlichkeit machen, gegeben Daten.
Beispiel: Münzwurf.
Scheffer/Vanck: Sprachtechnologie
 Wiederhole Münzwurfexperiment.
 Daten L: Nk mal Kopf, Nz mal Zahl.
  Likelihood:
 Binomialverteilung
19
Bayessche Regel
  Bayes‘ Gleichung
Scheffer/Vanck: Sprachtechnologie
 Prior P(θ).
Beispiel Münzwurf:
 Gutes Modell für Vorwissen über θ: Beta-Verteilung.
  αk und αz sind Hyperparameter der Verteilung.
20
Beispiel Münzwurf: Beta-Verteilung
 Warum gerade diese Definition?
Besondere Eigenschaft: Wenn wir den Beta-Prior in Bayes‘
Gleichung einsetzen, dann:
Scheffer/Vanck: Sprachtechnologie
  Posterior wieder Beta-verteilt.
Interpretation der Hyperparameter:
   αk-1/ αz-1: wie oft im Leben haben wir bei Münzwurf
schon Ergebnis Kopf/Zahl gesehen.
21
Bayessche Regel
Bayes‘ Gleichung
 Posterior P(θ | L).
  Wie wahrscheinlich ist Modell θ, nachdem wir Daten L
gesehen haben.
Vorwissen P(θ ) und Trainingsdaten werden zu
neuem Gesamtwissen P(θ | L) integriert.
22
Scheffer/Vanck: Sprachtechnologie
 Bayessche Regel
Bayes‘ Gleichung
 Posterior P(θ | L).
  Beispiel Münzwurf:
  Wie wahrscheinlich ist Modell θ, nachdem wir Daten L
gesehen haben.
Vorwissen Beta(θ | αk, αz) und Beobachtungen Nk, Nz
werden zu Posterior Beta(θ | αk +Nk, αz +Nz).
Beta-Verteilungen sind die konjugierten Verteilungen
für binomiale Beobachtungen.
23
Scheffer/Vanck: Sprachtechnologie
 Beispiel Münzwurf: Beta-Verteilung
Geburt
Kopf
Scheffer/Vanck: Sprachtechnologie
Kopf, Zahl
…
24
Münzwurf: wahrscheinlichste
Wahrscheinlichkeit
Wahrscheinlichster Parameter θ.
Scheffer/Vanck: Sprachtechnologie
  konstant
Ableiten,
Ableitung
null setzen
25
Würfelwurf statt Münzwurf
Münzwurf: 2 Ausgänge.
Scheffer/Vanck: Sprachtechnologie
 Prior Beta-verteilt, Binomiale Likelihood,
 Posterior wieder Beta-verteilt.
 Modell für Prozesse mit binären Attributen.
  Würfelwurf: k Ausgänge (Text).
Prior Dirichlet-verteilt,
 Likelihood Multinomial,
 Posterior wieder Dirichlet-verteilt.
 Modell für diskrete Prozesse mit mehrwertigen
Attributen,
 z.B. Texte, Verweisdaten.
 26
Multinomiale Zufallsvariablen
  „Echte“ Wahrscheinlichkeiten für Ereignisse kennen
wir nie.
Mit Bayes Regel können wir Aussage über echte
Wahrscheinlichkeit machen, gegeben Daten.
Wörter eines Textes.
Scheffer/Vanck: Sprachtechnologie
 Jedes Wort eines Textes wird ausgewürfelt.
 Wort j wird mit Wahrscheinlichkeit θj gezogen.
 In Daten L kommt Wort j genau Nj mal vor.
  Likelihood:
 Multinomialverteilung
27
Bayessche Regel
  Bayes‘ Gleichung
Scheffer/Vanck: Sprachtechnologie
 Prior P(θ).
Beispiel Wörter eines Textes:
 Modell für Vorwissen über θ : Dirichlet-Verteilung.
  αj sind Hyperparameter der Verteilung.
28
Beispiel Text: Dirichlet-Verteilung
 Warum gerade diese Definition?
Besondere Eigenschaft: Wenn wir den DirichletPrior in Bayes‘ Gleichung einsetzen, dann:
  Scheffer/Vanck: Sprachtechnologie
 Posterior wieder Dirichlet-verteilt.
Interpretation der Hyperparameter:
 αj-1: wie oft im Leben haben wir bei schon Wort j
gesehen.
29
MAP-Hypothese
Um Risiko einer Fehlentscheidung zu minimieren:
   wähle
Problem: In vielen Fällen gibt es keine geschlossene
Lösung, explizite Integration über alle Modelle
unpraktikabel.
Maximum-A-Posteriori- (MAP-)Hypothese:
 wähle
30
Scheffer/Vanck: Sprachtechnologie
 MAP-Hypothese
MAP-Hypothese:
  Scheffer/Vanck: Sprachtechnologie
 wähle
Beispiel Münzwurf
 31
MAP-Hypothese
MAP-Hypothese:
  Scheffer/Vanck: Sprachtechnologie
 wähle
Beispiel Text
 32
ML-Hypothese
  Um MAP-Hypothese zu bestimmen müssen wir
Posterior (Likelihood x Prior) kennen.
Unmöglich, wenn kein Vorwissen (Prior) existiert.
Maximum-Likelihood- (ML-)Hypothese:
  Scheffer/Vanck: Sprachtechnologie
 wähle
Beispiel Münzwurf:
  Berücksichtigt nur Beobachtungen in L, kein
Vorwissen.
33
Wahrscheinlichkeiten schätzen
Binomiale Beobachtung (Münzwürfe):
  Scheffer/Vanck: Sprachtechnologie
 gerade behandelt, konjugierte Verteilung Beta.
Multinomiale Verteilung:
Diskrete Ereignisse, mehr als zwei Werte.
 Beispiel: Text, Folge diskreter Wörter.
 Geschlossene Lösung, konjugierte Verteilung
Dirichlet.
 34