Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Mathematische Grundlagen
Tobias Scheffer
Peter Haider
Paul Prasse
Bayes‘sches Lernen: Anwendungsbeispiel
Neuer Impfstoff wurde
entwickelt
Frage: Wie wirksam ist
er? In wie viel % der
Fälle verhindert er eine
Infektion?
Studie: Testpersonen
werden geimpft; nach
1 Jahr wird untersucht,
ob sie sich angesteckt
haben
Scheffer/Vanck: Sprachtechnologie
2
Was untersucht man?
Deskriptive Statistik: Beschreibung, Untersuchung von
Eigenschaften von Daten (langweilig).
Welcher Anteil der Testpersonen ist gesund geblieben?
(= abzählen)
Induktive Statistik: Welche Schlussfolgerungen über die
Realität lassen sich aus Daten ziehen? (spannend,
maschinelles Lernen.)
Wie viele Personen werden in Zukunft gesund bleiben?
Wie sicher sind wir uns dessen?
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
3
Wahrscheinlichkeiten
Frequentistische Wahrscheinlichkeiten
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Beschreiben die Möglichkeit des Eintretens
intrinsisch stochastischer Ereignisse (z.B.
Teilchenzerfall).
Bayes‘sche, „subjektive“ Wahrscheinlichkeiten
Beschreiben die Möglichkeit des Eintretens von
Ereignissen bezogen auf einen Grad von
Informiertheit.
Unsicherheit bedeutet hier Mangel an Information.
Thomas Bayes
1702-1761
Wie wahrscheinlich ist es, dass der Impfstoff wirkt?
Neue Informationen (z.B. Studienergebnisse) können
diese subjektive Wahrscheinlichkeiten verändern.
4
Begriffe
Wirksamkeit: Rate der
Nicht-Infektionen
Untersuchungen der n
Patienten
mögliche Untersuchungsergebnisse pro Patient
Wahrscheinlichkeit, dass
ein Patient gesund bleibt
Bezeichung
Modellparameter
Zufallsvariablen
Wertebereich der Zufallsv.
Likelihood
5
Scheffer/Vanck: Sprachtechnologie
Entität
Zufallsvariablen
Ein Zufallsexperiment ist ein definierter Prozess, in
dem eine Beobachtung erzeugt wird
Zufallsvariablen (mit Großbuchstaben bezeichnet)
sind Variablen, deren Wert vom Ausgang eines
Zufallsexperiments abhängt
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Formell: Zufallsvariablen bilden Elemente eines
Ereignisraums auf numerische Werte ab
Maschinelles Lernen: Wertebereich einer
Zufallsvariable gleichgesetzt mit Ereignisraum;
nichtnumerische Werte erlaubt (Vektoren, Bäume,
Wörter, …)
6
Wahrscheinlichkeitsfunktion
Wahrscheinlichkeitsfunktion P weist jedem jedem
möglichen Wert (mit Kleinbuchstaben bezeichnet)
einer Zufallsvariable eine Wahrscheinlichkeit zu
= Wahrscheinlichkeit, dass die
Zufallsvariable X den Wert x annimmt
Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit eines
der möglichen Werte von X mit Zusatzinformation
7
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Likelihood
Ereignis
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Wahrscheinlichkeit, dass der i-te Patient gesund bleibt, …
… gegeben, dass die Wirksamkeitsrate gleich θ ist
Modellparameter
8
Feinheiten der Notation
P(X)
Wahrscheinlichkeitsverteilung über alle
möglichen Werte von X
P(X = x) konkreter Wahrscheinlichkeitswert
P(x)
verkürzte Schreibweise von P(X = x),
wenn eindeutig ist, welche Zufallsvariable gemeint
ist
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
9
Diskrete Wahrscheinlichkeitsverteilung
nennt man eine diskrete
Wahrscheinlichkeitsverteilung, wenn X nur diskrete
(im Gegensatz zu kontinuierlichen) Werte
annehmen kann
Wahrscheinlichkeiten liegen immer im Intervall
Summe der Verteilungsfunktion über alle Werte = 1
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
10
Bernoulli-Verteilung
Eine diskrete Verteilung mit den 2 möglichen
Ereignissen 0 und 1 ist eine Bernoulli-Verteilung
bestimmt durch genau einen Parameter:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Verteilungsfunktion:
11
Binomialverteilung
Zusammenfassung mehrerer Bernoulli-verteilter
Zufallsvariablen X1,…,Xn mit gleichem Parameter θ
neue Zufallsvariable Z, die angibt, wie viele der Xi
positiv sind:
Z ist Binomial-verteilt mit Parametern θ und n
Verteilungsfunktion:
Binomialkoeffizient: Anzahl der
Möglichkeiten, daus n Elementen z
auszuwählen
Wahrscheinlichkeit, dass z der Xi
positiv sind
Wahrscheinlichkeit, dass n-z der Xi
negativ sind
12
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Gemeinsame Wahrscheinlichkeit
ist die gemeinsame
Wahrscheinlichkeitsverteilung der Zufallsvariablen
X1 und X2
gemeinsamer Wertebereich:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
kartesisches Produkt
z.B.: {beidePatientenInfiziert,
Patient1infiziert&Patient2gesund,
Patient1gesund&Patient2infiziert,
beidePatientenGesund}
13
Abhängige Zufallsvariablen
Zufallsvariablen X1 und X2 können abhängig oder
unabhängig sein
Unabhängig: P(X1, X2) = P(X1) P(X2)
Beispiel:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
2 aufeinanderfolgende Münzwürfe
Ergebnis des zweiten hängt nicht vom ersten ab
Impliziert: P(X2 | X1) = P(X2)
Abhängig: P(X1, X2) ≠ P(X1) P(X2)
Beispiel:
Grippeinfektionen von 2 Sitznachbarn
14
Bedingte Unabhängigkeit
Zwei oder mehrere Zufallsvariablen können für sich
genommen abhängig sein, aber unabhängig
gegeben eine weitere Zufallsvariable
wenn gilt:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
P(X1,X2|Y) = P(X1|Y) P(X2|Y)
dann heißen X1 und X2 bedingt unabhängig gegeben
Y
Beispiel:
Wirkrate des Impfstoffs bekannt →
Infektionswahrscheinlichkeiten der Testpersonen unabhängig
Wirkrate des Impfstoffs unbekannt → Beobachtung eines Teils
der Testpersonen gibt Information über restliche Testpersonen
15
Rechenregeln
Summenregel:
Sind a und b disjunkte Ereignisse, dann gilt
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Beispiel: Sei X eine Zufallsvariable, die das
Ergebnis eines Würfelwurfes beschreibt
ungleich, da man P(X=2) doppelt zählen würde
16
Rechenregeln
Randverteilung:
Produktregel:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
egal, ob abhängig oder unabhängig
verallgemeinert:
17
Satz von Bayes
Umformungen der Produktregel
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
ergibt zusammen:
Satz von Bayes
18
Satz von Bayes
Erklärung, Ursache für eine Beobachtung:
P(Ursache | Beobachtung ) = P ( Beobachtung | Ursache)
P (Ursache)
P ( Beobachtung )
P ( Beobachtung ) = ∑u P( Beobachtung | Ursache = u ) P(Ursache = u )
P(Ursache): A-Priori-Wahrscheinlichkeit, „Prior“.
P(Beobachtung|Ursache): Likelihood.
P(Ursache|Beobachtung): A-PosterioriWahrscheinlichkeit, „Posterior“.
19
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Satz von Bayes: Beispiel
Diagnostik:
P(Test positiv | Patient hat Krankheit) = 0,98
P(Test positiv | Patient hat die Krankheit nicht) = 0,05
P(Patient hat Krankheit) = 0,02
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Gesamtrate des Vorkommens dieser Krankheit
Gesucht:
Wahrscheinlichkeit, dass der Patient krank ist:
P(krank=1 | Test=1)
Plausibelste (Maximum-Likelihood-) Ursache
argmaxk P(Test=1 | krank=k)
Wahrscheinlichste (Maximum-A-Posteriori-) Ursache
argmaxk P(krank=k | Test=1)
20
Prior und Posterior
Subjektive Einschätzung, bevor man die Daten
gesehen hat (a priori): Prior-Verteilung über die
Modelle
P(Patient ist krank)
P(Wirksamkeit des Impfstoffs)
Wie gut passen die Daten zum Modell: Likelihood
P(Test | Krankheit)
P(Testperson gesund | Wirksamkeit), P(X | θ)
Subjektive Einschätzung, nachdem man die Daten
gesehen hat (a posteriori): Posterior-Verteilung
P(Krankheit | Test)
P(Wirksamkeit | Studie), P(θ | X1,…,Xn)
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
21
Prior
Woher bekommt man die Prior-Verteilung?
Im Diagnostik-Beispiel relativ naheliegend
Impfstudie: schwieriger; z.B. aus allen bisherigen
Studien anderer Impfstoffe schätzen
Es gibt keine „richtige“ Prior-Verteilung!
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
aber: unterschiedliche Prior-Verteilungen
ermöglichen unterschiedlich gute Vorhersagen für
die Zukunft
Posterior-Verteilung ergibt sich deterministisch aus
Prior und Likelihood der Beobachtungen
durch Satz von Bayes
22
Prior der Impfstudie
Verteilung über alle Wirkraten
keine diskrete, sondern kontinuierliche Verteilung
P(θ) beschreibt eine Dichtefunktion
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Häufige Wahl (bei Parameterraum
):
Beta-Verteilung
definiert durch 2 Parameter α und β
Beta-Funktion; dient der Normalisierung
23
Beta-Verteilung
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Spezialfall: α = β = 1
→Gleichverteilung
24
Schema für Ermittlung der PosteriorVerteilung
Gegeben:
Prior-Verteilung P(θ)
Beobachtungen x1,…,xn,
Likelihood P(x1,…,xn | θ)
Gesucht: Posterior-Verteilung P(θ | x1,…,xn)
1. Satz von Bayes anwenden
2. Randverteilung für kontinuierliche Parameter
einsetzen
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
25
Ermittlung der Posterior-Verteilung:
Beispiel
Gegeben:
Modellparameterraum
Beta-Prior mit Parametern α und β : P(θ)=Beta(θ |α,β)
Bernoulli-Likelihood
binäre Beobachtungen x1,…,xn, bedingt unabhängig
gegeben Modellparameter θ
a
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
positive Beobachtungen, b negative
Gesucht:
Posterior P(θ | x1,…,xn)
26
1. Satz von Bayes
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
2. bedingte
Unabhängigkeit
3. a positive,
b negative Beob.
4. Bernoulli- und
Beta-Verteilung einsetzen
5. Terme zus.-fassen,
Randverteilungsformel
6. Definition der
Beta-Funktion
7. Kürzen, Definition
der Beta-Verteilung
27
Konjugierter Prior
Im vorherigen Beispiel:
Übergang vom Prior Beta(θ |α,β)
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
durch a positive und b negative Beobachtungen
zum Posterior Beta(θ |α+a,β+b)
algebraische Form von Posterior und Prior identisch
Die Beta-Verteilung ist der konjugierte Prior zur
Bernoulli-Likelihood
Immer vorteilhaft, den konjugierten Prior zu
verwenden, um zu garantieren, dass der Posterior
effizient berechenbar ist
28
Rechenbeispiel: Impfstudie
Prior: Beta mit α=1, β=5
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
8 gesunde Testpersonen, 2 infizierte
ergibt Posterior: Beta mit α=9, β=7
29
Ermittlung des Posteriors: mechanisch
Füllhöhe zu Beginn: Prior
Likelihood-Funktion (nach
hinten gewölbt) als Filter
ergibt Posterior als
resultierende Sandmenge
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Francis Galton, 1877
30
Parameterschätzung
Bayes‘sche Inferenz liefert keinen
Modellparameter, sondern Verteilung über
Modellparameter
Ermittlung des Modells mit der höchsten
Wahrscheinlichkeit: MAP-Schätzung
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
„maximum-a-posteriori“ = maximiert den Posterior
θMAP = argmaxθ P(θ | Beobachtungen)
Im Gegensatz dazu: plausibelstes Modell = MLSchätzung
„maximum-likelihood“ = maximiert die Likelihood
ohne Berücksichtigung des Priors
θML = argmaxθ P(Beobachtungen | θ)
31
Parameterschätzung: Beispiel
Impfstudie:
Prior: Beta mit α=1, β=5
8 gesunde Testpersonen, 2 infizierte
ergibt Posterior: Beta mit α=9, β=7
ML-Schätzung:
θML = argmaxθ P(Beobachtungen | θ)
Lösungstipp: www.wolframalpha.com
max(theta^8*(1-theta)^2)
Likelihood-Funktion
(keine Wahrscheinlichkeitsverteilung)
MAP-Schätzung:
θMAP = argmaxθ P(θ | Beobachtungen)
32
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Vorhersage
= Vorhersage für Testdaten, gegeben eine Menge von
Trainingsdaten
P(Xneu | x1,…,xn)
Vorhersage mit MAP-Schätzung:
erst θMAP bestimmen durch θMAP = argmaxθ P(θ | x1,…,xn)
dann P(Xneu | θMAP) bestimmen (Likelihood-Verteilung)
ist manchmal einfach zu berechnen, ist aber mit
Informationsverlust verbunden
θMAP nicht der „wahre“ Modellparameter, sondern nur der
wahrscheinlichste
es wird ignoriert, dass auch andere Modelle in Frage
kommen
33
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Fragestellung: Welche Beobachtungen kann man in
Zukunft erwarten, gegeben die Beobachtungen der
Vergangenheit?
Bayes-optimale Vorhersage
Kein Zwischenschritt über das MAP-Modell,
sondern direkte Herleitung der Vorhersage:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
1. Randverteilung
2. bedingte
Unabhängigkeit
mitteln über alle Modelle
(Bayesian Model-Averaging)
gewichtet durch: wie gut passt
das Modell zu den früheren
Beobachtungen? (Posterior)
Vorhersage gegeben Modell
34
Vorhersage: Beispiel
Impfstudie: Mit welcher Wahrscheinlichkeit bleibt
eine neue Person gesund, gegeben die
Beobachtungen aus der Studie?
Vorhersage mit MAP-Modell:
θMAP = argmaxθ P(θ | Beobachtungen) = 4/7
P(Xneu = gesund | θMAP) = θMAP = 4/7
Bayes-optimale Vorhersage:
Erwartungswert einer Beta-Verteilung
mit Parametern α und β:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
35
Erwartungswert
Zufallsvariable X mit Verteilung P(X):
Der Erwartungswert E(X) ist der gewichtete
Mittelwert der möglichen Werte von X
Werte werden mit ihrer Wahrscheinlichkeit gewichet
diskrete Zufallsvariable:
kontinuierliche Zufallsvariable:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
36
Erwartungswert: Beispiel
St. Petersburger Spiel:
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
Man wirft eine Münze so lange, bis sie zum ersten
Mal „Kopf“ zeigt
passiert dies gleich beim ersten Wurf, gewinnt man 1
Euro
falls nicht, verdoppelt sich der Gewinn so oft man
„Zahl“ geworfen hat
der Gewinn den man am Ende erhält ist eine
Zufallsvariable X
Erwarteter (durchschnittlicher) Gewinn:
37
Rekapitulation
Bayes‘sches Lernen:
einfacher →
besser →
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
subjektiver Prior: Ausgangsverteilung über die
Modelle
Beobachtungen aus der Vergangenheit: Likelihood
gegeben Modellparameter
ergibt durch Satz von Bayes Posterior: Verteilung
über Modelle gegeben die Beobachtungen
Vorhersagen für die Zukunft: entweder
MAP-Modell berechnen (Maximierung des Posteriors),
dann Vorhersage damit
oder Bayes-optimale Vorhersage: über alle Modelle
mitteln, gewichtet mit ihrer PosteriorWahrscheinlichkeit
38
Fragen?
Scheffer/Vanck: Sprachtechnologie
Scheffer/Haider/Prasse:
Sprachtechnologie
39