Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Mathematische Grundlagen
(Bayes‘sches Lernen)
Tobias Scheffer
Michael Großhans
Paul Prasse
Anwendungsbeispiel 1: Diagnostik
Scheffer/Großhans/Prasse: Sprachtechnologie
Neuer Test wurde
entwickelt
Frage: Wie sicher ist
die Person krank,
wenn positives
Testergebnis vorliegt?
Studie: Auf kranken
und gesunden
Testpersonen (Zustand
ist bekannt) wird Test
angewandt
2
Anwendungsbeispiel 2: Impfstoff
Scheffer/Großhans/Prasse: Sprachtechnologie
Neuer Impfstoff wurde
entwickelt
Frage: Wie wirksam ist
er? Wie oft verhindert
er eine Infektion?
Studie: Testpersonen
werden geimpft; später
wird untersucht, ob sie
sich angesteckt haben
3
Was untersucht man?
Deskriptive Statistik: Beschreibung, Untersuchung
von Eigenschaften von Stichproben (langweilig).
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Welcher Anteil der Testpersonen ist gesund geblieben?
(= abzählen)
Induktive Statistik: Welche Schlussfolgerungen
über die Grundgesamtheit lassen sich aus
Stichproben ziehen? (spannend, maschinelles
Lernen).
Wie viele Personen werden in Zukunft gesund bleiben?
Wie sicher sind wir uns dessen?
4
Wahrscheinlichkeiten
Frequentistische „objektive“ Wahrscheinlichkeiten
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Wahrscheinlichkeit als relative Häufigkeit mit der ein
Ereignis bei einer großen Zahl unabhängiger und
wiederholter Experimente eintritt.
Bayes‘sche, „subjektive“ Wahrscheinlichkeiten
Wahrscheinlichkeit als persönliche Überzeugung, dass ein
Ereignis eintritt.
Unsicherheit bedeutet hier Mangel an Information.
Wie wahrscheinlich ist es, dass der Impfstoff wirkt?
Neue Informationen (z.B. Studienergebnisse) können
diese subjektive Wahrscheinlichkeiten verändern.
5
Wahrscheinlichkeitstheorie
Zufallsexperiment: Definierter Prozess in dem eine
Beobachtung ω erzeugt wird (Elementarereignis).
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Ereignisraum Ω: Menge aller möglichen Elementarereignisse; Anzahl aller Elementarereignisse ist |Ω|.
Ereignis A: Teilmenge des Ereignisraums.
Wahrscheinlichkeit P: Funktion welche Wahrscheinlichkeitsmasse auf Ereignisse A aus Ω
verteilt.
P( A) : P A
6
Wahrscheinlichkeitstheorie
Wahrscheinlichkeit = normiertes Maß
definiert durch Kolmogorow-Axiome:
Wahrscheinlichkeit von Ereignis A : 0 P ( A) 1
Sicheres Ereignis: P () 1
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Wahrscheinlichkeit dass Ereignis A oder Ereignis
B eintritt mit A B (beide Ereignisse sind
inkompatibel): P ( A B ) P ( A) P ( B )
Allgemein gilt: P ( A B ) P ( A) P ( B ) P ( A B )
7
Zufallsvariablen
Zufallsvariable X ist Abbildung eines elementaren
Ereignisses auf numerischen Wert X :
x
bzw. auf m-dimensionalen Vektor X : .x
m
Maschinelles Lernen: auch Abbildungen auf Bäume und
andere Strukturen möglich.
Maschinelles Lernen: gleichgesetzt mit Ereignisraum.
Bild der Zufallsvariable:
: X ( ) |
8
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Diskrete Zufallsvariablen
X nennt man eine diskrete Zufallsvariable, wenn
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
sie nur diskrete Werte annehmen kann.
Wahrscheinlichkeitsfunktion P weist jedem
möglichen Wert einer Zufallsvariable eine
Wahrscheinlichkeit P X x 0;1 zu.
Summe der Verteilungsfunktion über alle Werte
P X x 1
x
9
Stetige Zufallsvariablen
X nennt man eine stetige Zufallsvariable, wenn sie
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
sie kontinuierliche Werte annehmen kann.
Die Werte der Verteilungsfunktion P entsprechen
an jeder Stelle den kumulierten
Wahrscheinlichkeiten PX x P X x 0;1
Die Werte der Dichtefunktion p entsprechen an
jeder Stelle den Änderungen der
Verteilungsfunktion
pX a
PX x
x
mit
xa
p x dx 1
X
10
Feinheiten der Notation
P X
pX
Wahrscheinlichkeitsfunktion bzw.
Dichtefunktion über alle möglichen
Werte von X
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
P X x konkreter Wahrscheinlichkeitswert bzw.
konkreter Wert der Dichtefunktion
pX x
P x
p x
verkürzte Schreibweise von P X x
bzw. von p X x wenn eindeutig ist,
welche Zufallsvariable gemeint ist. Meist
werden Wahrscheinlichkeitsfunktion und
Dichtefunktion nicht getrennt.
11
Erwartungswert
Der Erwartungswert E(X) ist der gewichtete
Mittelwert der möglichen Werte von X
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
diskrete Zufallsvariable:
E X xP X x
x
kontinuierliche Zufallsvariable:
E X xp X x dx
Die Varianz Var(X) ist der erwarte quadratische
Abstand zum Erwartungswert von X
2
Var X E X E X
12
Erwartungswert: Beispiel
St. Petersburger Spiel:
Werfen einer Münze, bis sie zum ersten Mal „Kopf“ zeigt
passiert dies gleich beim ersten Wurf, gewinnt man 1 Euro
falls nicht, verdoppelt sich der Gewinn so oft man „Zahl“
geworfen hat
der Gewinn den man am Ende erhält ist Zufallsvariable X
Erwarteter (durchschnittlicher) Gewinn:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
E X xP X x
x
1
1
1
1 2 4
2
4
8
13
Gemeinsame Wahrscheinlichkeit
ist die gemeinsame
Wahrscheinlichkeitsverteilung der Zufallsvariablen
X1 und X2
gemeinsamer Wertebereich:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
kartesisches Produkt
1
2
z.B.:
1
×
2
{ (infiziert,infiziert), (infiziert, gesund),
(gesund, infiziert), (gesund, gesund) }
14
Bedingte Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit
eines der möglichen Werte von X mit
Zusatzinformation:
Diskrete Zufallsvariable:
Stetige Zufallsvariable:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
P X x | zusätzliche Information
p X x | zusätzliche Information
15
Abhängige Zufallsvariablen
Zufallsvariablen X1 und X2 können abhängig oder
unabhängig sein
Unabhängig: P(X1, X2) = P(X1) P(X2)
Beispiel:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
2 aufeinanderfolgende Münzwürfe
Ergebnis des zweiten hängt nicht vom ersten ab
Impliziert: P(X2 | X1) = P(X2)
Abhängig: P(X1, X2)= P(X1) P(X2 | X1) P(X1) P(X2)
Beispiel:
Grippeinfektionen von 2 Sitznachbarn
16
Bedingte Unabhängigkeit
Zufallsvariablen können abhängig sein, jedoch
unabhängig gegeben eine weitere Zufallsvariable
Die Zufallsvariablenvariablen X1 und X2 heißen
bedingt unabhängig gegeben Y wenn gilt:
P(X1,X2|Y) = P(X1|Y) P(X2|Y)
Beispiel:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Wirkrate des Impfstoffs bekannt
Infektionswahrscheinlichkeiten der Personen unabhängig
Wirkrate des Impfstoffs unbekannt Beobachtung eines
Teils der Testpersonen gibt Information über restliche
Testpersonen
17
Rechenregeln
Produktregel:
verallgemeinert:
Summenregel:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Sind Ereignisse A, B inkombatibel:
P( A B ) P ( A) P ( B )
Randverteilung:
18
Rechenregeln
Satz von Bayes:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Inferiere P X | Y aus P Y | X , P X und P Y
P X , Y P Y , X
P X | Y P Y P Y | X P X
P Y | X P X
P X |Y
P Y
19
Satz von Bayes: Beispiel
Diagnostik-Beispiel:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
P(positiv | krank) = 0,98
P(positiv | gesund) = 0,05
P(krank) = 0,02
Gesucht für Testergebnis Test:
Wahrscheinlichkeit, dass der Patient krank ist:
P krank | Test
Plausibelste Ursache
arg max P Test | P
Pkrank , gesund
Wahrscheinlichste Ursache
arg max P P | Test
Pkrank , gesund
20
Satz von Bayes
Wahrscheinlichkeit der Ursache Urs. für eine
Beobachtung Beob.:
P Urs.
P Urs. | Beob. P Beob. | Urs.
P Beob.
P Beob.
P Beob. | u P u
uUrsachen
P(Urs.):
P(Beob.|Urs.):
P(Urs.|Beob.):
A-Priori-Wahrscheinlichkeit, „Prior“.
Likelihood.
A-Posteriori-Wahrscheinlichkeit,
„Posterior“.
21
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Prior, Likelihood und Posterior
Subjektive Einschätzung, bevor man die Daten
gesehen hat (a priori): Prior-Verteilung über die
Modelle
P(Krankheit)
P(q),
q Wirksamkeit des Impfstoffes
Wie gut passen die Daten zum Modell: Likelihood
P(Test | Krankheit)
P(Studie| q),
Subjektive Einschätzung, nachdem man die Daten
gesehen hat (a posteriori): Posterior-Verteilung
P(Krankheit | Test)
P(q | Studie)
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
22
Prior
Woher bekommt man die Prior-Verteilung?
P(Krankheit) relativ naheliegend; diskret
P(q): schwieriger; stetig; z.B. aus allen bisherigen
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Studien anderer Impfstoffe schätzen
Es gibt keine „richtige“ Prior-Verteilung!
aber: unterschiedliche Prior-Verteilungen
ermöglichen unterschiedlich gute Vorhersagen für
die Zukunft
Posterior-Verteilung ergibt sich deterministisch aus
Prior und Likelihood der Beobachtungen
durch Satz von Bayes
23
Beispiel Likelihood: Bernoulli-Verteilung
Eine diskrete Verteilung mit den 2 möglichen
Ereignissen 0 und 1 ist eine Bernoulli-Verteilung
bestimmt durch genau einen Parameter:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Verteilungsfunktion:
24
Beispiel Likelihood: Binomialverteilung
Zusammenfassung mehrerer Bernoulli-verteilter
Zufallsvariablen X1,…,Xn mit gleichem Parameter q
neue Zufallsvariable Y, die angibt, wie viele der Xi positiv
n
sind:
Y Xi
i 1
Y ist Binomial-verteilt mit Parametern q und n
Verteilungsfunktion:
n y
n y
P Y y | q , n q 1 q
y
Binomialkoeffizient: Anzahl der
Möglichkeiten, aus n Elementen y
auszuwählen
Wahrscheinlichkeit, dass y der Xi
positiv sind
Wahrscheinlichkeit, dass n-y der Xi
negativ sind
25
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Beispiel Prior: Beta-Verteilung
Häufige Wahl (bei Parameterraum
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Verteilung über alle Wirkraten
keine diskrete, sondern kontinuierliche Verteilung
P(q) beschreibt eine Dichtefunktion
):
Beta-Verteilung
definiert durch 2 Parameter a und b
Beta-Funktion; dient der Normalisierung
26
Beispiel Prior: Beta-Verteilung
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Spezialfall: a = b = 1 ist Gleichverteilung
27
Schema für Ermittlung der PosteriorVerteilung
Gegeben:
Prior-Verteilung P(q)
Beobachtungen x1,…,xn
Likelihood
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
P(x1,…,xn | q)
Gesucht: Posterior-Verteilung P(q | x1,…,xn)
1. Satz von Bayes anwenden
2. Randverteilung für kontinuierliche Parameter
einsetzen
28
Ermittlung der Posterior-Verteilung:
Beispiel
Gegeben:
Modellparameterraum
Beta-Prior mit Parametern a und b : P(q)=Beta(q |a,b)
Bernoulli-Likelihood
binäre Beobachtungen x1,…,xn, bedingt unabhängig
gegeben Modellparameter q
a
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
positive Beobachtungen, b negative
Gesucht:
Posterior P(q | x1,…,xn)
29
Ermittlung der Posterior-Verteilung
, xn
P x1 ,
, xn | q P q / P x1 ,
, xn
n
P xi | q P q / P x1 , , xn
i 1
a
b
P X 1 | q P X 0 | q P q / P x1 ,
q a 1 q
b
q a 1 1 q
B a , b
q a a 1 1 q
B a , b
b b 1
q a a 1 1 q
B a , b
b b 1
b 1
/ P x1 ,
, xn
Satz von Bayes
Bedingte Unabhängigkeit
, xn
a positive, b negative
Bernoulli- und
Beta-Verteilung einsetzen
q a a 1 1 q b b 1
/
dq
B a , b
Terme zusammenfassen,
Randverteilungsformel
B a a,b b
/
B
a
,
b
Definition der
Beta-Funktion
Beta q | a a , b b
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
P q | x1 ,
Kürzen, Definition
der Beta-Verteilung
30
Konjugierter Prior
Im vorherigen Beispiel:
Übergang vom Prior Beta(q |a,b)
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
durch a positive und b negative Beobachtungen
zum Posterior Beta(q |a+a,b+b)
algebraische Form von Posterior und Prior identisch
Die Beta-Verteilung ist der konjugierte Prior zur
Bernoulli-Likelihood
Immer vorteilhaft, den konjugierten Prior zu
verwenden, um zu garantieren, dass der Posterior
effizient berechenbar ist
31
Rechenbeispiel: Impfstudie
Prior: Beta mit a=1, b=5
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
8 gesunde Testpersonen, 2 infizierte
ergibt Posterior: Beta mit a=9, b=7
32
Parameterschätzung
Bayes‘sche Inferenz liefert keinen
Modellparameter, sondern Verteilung über
Modellparameter
Ermittlung des Modells mit der höchsten
Wahrscheinlichkeit: MAP-Schätzung
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
„maximum-a-posteriori“ = maximiert den Posterior
qMAP = argmaxq P(q | Beobachtungen)
Im Gegensatz dazu: plausibelstes Modell = MLSchätzung
„maximum-likelihood“ = maximiert die Likelihood
ohne Berücksichtigung des Priors
qML = argmaxq P(Beobachtungen | q)
33
Parameterschätzung: Beispiel
Impfstudie:
Prior: Beta mit a=1, b=5
8 gesunde Testpersonen, 2 infizierte
ergibt Posterior: Beta mit a=9, b=7
ML-Schätzung:
qML = argmaxq P(Beob. | q)
MAP-Schätzung:
qMAP = argmaxq P(q | Beob.)
Likelihood-Funktion
(keine Wahrscheinlichkeitsverteilung)
34
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Vorhersage
Welche Beobachtungen kann man in Zukunft erwarten,
gegeben die Beobachtungen der Vergangenheit?
Vorhersage für Testdaten, gegeben eine Menge von
Trainingsdaten P(Xneu | Xalt)
Vorhersage mit MAP-Schätzung:
erst qMAP bestimmen durch qMAP = argmaxq P(q | Xalt)
dann P(Xneu | qMAP) bestimmen (Likelihood-Verteilung)
Mit Informationsverlust verbunden:
qMAP nicht „echter“ Parameter, sondern wahrscheinlichster
ignoriert, dass auch andere Modelle in Frage kommen
35
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
Bayes-optimale Vorhersage
Kein Zwischenschritt über das MAP-Modell,
sondern direkte Herleitung der Vorhersage:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
P X neu | X alt
1. Randverteilung
P X neu | q , X alt P q | X alt dq
q
2. bedingte
Unabhängigkeit
P X neu | q P q | X alt dq
q
mitteln über alle Modelle
(Bayesian Model-Averaging)
gewichtet durch: wie gut passt
das Modell zu den früheren
Beobachtungen? (Posterior)
Vorhersage gegeben Modell
36
Vorhersage: Beispiel
Impfstudie: Mit welcher Wahrscheinlichkeit bleibt
neue Person gesund, gegeben die Studie?
Vorhersage mit MAP-Modell:
qMAP = argmaxq P(q | Beob.) = 4/7
P(gesund | qMAP) = qMAP = 4/7
Bayes-optimale Vorhersage:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
P gesund | X alt P gesund | q P q | X alt dq
q
9
q Beta q | 9, 7 dq
16
q
Erwartungswert einer Beta-Verteilung
37
Rekapitulation
Bayes‘sches Lernen:
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
subjektiver Prior: Ausgangsverteilung über die Modelle
Beobachtungen aus der Vergangenheit: Likelihood
gegeben Modellparameter
ergibt durch Satz von Bayes Posterior: Verteilung über
Modelle gegeben die Beobachtungen
Mögliche Wege für Vorhersagen in der Zukunft:
einfacher MAP-Modell berechnen (Maximierung des Posteriors),
dann Vorhersage mit MAP-Modell
besser Bayes-optimale Vorhersage: über alle Modelle mitteln,
gewichtet mit ihrer Posterior-Wahrscheinlichkeit
38
Fragen?
Scheffer/Großhans/Prasse: Sprachtechnologie
Sprachtechnologie
Scheffer/Großhans/Prasse:
39