Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayessches Lernen (II)
Christoph Sawade/Niels Landwehr
Jules Rasetaharison
Tobias Scheffer
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen
2
Parameter von Verteilungen schätzen
Oft können wir annehmen, dass Daten einer bestimmten
Verteilung folgen
Z.B. Binomialverteilung für N Münzwürfe
Z.B. Gaußverteilung für Körpergröße, IQ, …
Diese Verteilungen sind parametrisiert
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Binomialverteilung: Parameter µ ist Wahrscheinlichkeit für
„Kopf“
Gaußverteilung: Parameter µ , σ für Mittelwert und
Standardabweichung
„Echte“ Wahrscheinlichkeiten/Parameter kennen wir nie.
Welche Aussagen über echte Wahrscheinlichkeiten
können wir machen, gegeben Daten?
3
Parameter von Verteilungen schätzen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Problemstellung Parameter von Verteilungen
schätzen:
Gegeben parametrisierte Familie von Verteilungen
(z.B. Binomial, Gauß) mit Parametervektor θ
Gegeben Daten L
Gesucht: a-posteriori Verteilung P (θ | L) bzw.
maximum a-posteriori Schätzung
θ * = arg maxθ P(θ | L)
Verwende Bayessche Regel:
P(θ | L) =
P( L | θ ) P(θ )
P ( L)
4
Binomialverteilte Daten Schätzen
Beispiel: Münzwurf, schätze Parameter μ =θ
N Mal Münze werfen.
Daten L: Nk mal Kopf, Nz mal Zahl.
Beste Schätzung θ gegeben L? Bayes‘ Gleichung:
Likelihood der Daten gegeben Parameter,
wie gut erklärt Parameter die Beobachtungen?
A-posteriori Verteilung
über Parameter, charakterisiert
wahrscheinliche Parameterwerte
und verbleibende Ungewissheit
A-priori Verteilung über Parameter,
repräsentiert Vorwissen
P( L | θ ) P(θ )
P(θ | L) =
P ( L)
5
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Binomialverteilte Daten Schätzen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Likelihood der Daten:
P( L | θ )
(θ = μ Wahrscheinlichkeit für „Kopf“)
Likelihood ist binomialverteilt:
=
P( L | θ ) P=
( N k , N z | θ ) Bin( N k | N , θ )
=
N Nk + N z
N k + N z Nk
Nz
θ
θ
=
−
(1
)
N
k
Wahrscheinlichkeit, bei N Münzwürfen N k -mal Kopf
und N Z -mal Zahl zu sehen, für Münzparameter θ
6
Binomialverteilte Daten Schätzen
Was ist der Prior P(θ ) im Münzwurfbeispiel?
1) Versuch: Kein Vorwissen
1: 0 ≤ θ ≤ 1
P(θ ) =
0 : sonst
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Dichte
Beispiel:
Daten L = {Zahl,Zahl,Zahl}
MAP Modell:
P( L | θ ) P(θ )
P( L)
3 0
3
arg maxθ ∈[0,1]
= arg max
=
=
θ ∈[0,1] P ( L | θ )
θ (1 − θ ) 0
0
θ*
arg
=
maxθ ∈[0,1] P(θ | L) arg maxθ ∈[0,1]
Schlussfolgerung: Münze wird niemals „Kopf“ zeigen
Schlecht, Überanpassung an Daten („Overfitting“)
7
Binomialverteilte Daten Schätzen
Was ist der Prior P(θ ) im Münzwurfbeispiel?
Besser mit Vorwissen: Unwahrscheinlich, dass Münze
immer Kopf oder immer Zahl zeigt
Gutes Modell für Vorwissen über θ : Beta-Verteilung.
Beta (θ | 5,5)
P(θ ) Beta (θ | α k , α z )
=
(θ ∈ [0,1])
=
Γ(α k + α z ) α k −1
θ (1 − θ )α z −1
Γ(α k )Γ(α z )
0.5
Gamma-Funktion Γ(α ) kontinuierliche Fortsetzung der
Fakultätsfunktion
∞
z −1 − t
Γ( z ) =
t
∫ e dt
0
∀n ∈ : Γ(n) = (n − 1)!
8
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Binomialverteilte Daten Schätzen
αk und αz sind Parameter der Beta-Verteilung
(„Hyperparameter“)
Beta-Verteilung ist Verteilung über Verteilungen
=
α K 5,=
αZ 5
=
α K 1,=
αZ 1
1
Normalisierte Dichte
∫ Beta(θ | α
K
Sawade/Landwehr/Scheffer, Maschinelles Lernen
=
α K 4,=
αZ 2
, α Z ) dθ = 1
0
9
Binomialverteilte Daten Schätzen
Warum gerade diese a-priori-Verteilung?
Strukturelle Ähnlichkeit mit Likelihood:
Prior
P(θ ) Beta (θ=
| α k ,α z )
=
Γ(α k + α z ) α k −1
θ (1 − θ )α z −1
Γ(α k )Γ(α z )
N k + N Z Nk
Nz
θ
θ
=
P( L | θ ) P=
−
( Nk , N z | θ )
(1
)
Likelihood
N
k
Einfach, Beobachtungen zu berücksichtigen: Produkt aus
Likelihood und Prior hat wieder dieselbe Form wie Prior
P(θ | L) ∝ P ( L | θ ) P (θ )
10
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Binomialverteilte Daten Schätzen
Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann:
P(θ | L) =
Sawade/Landwehr/Scheffer, Maschinelles Lernen
P( L | θ ) P(θ )
P ( L)
1
Bin( N K | N , θ ) Beta(θ | α k , α z )
Z
1 N k + N z Nk
α k −1
N z Γ(α k + α z )
(1
)
(1 − θ )α z −1
=
θ
−
θ
θ
Γ(α k )Γ(α z )
Z Nk
1 α k + Nk −1
(1 − θ )α z + N z −1
θ
Z'
=?
=
11
Binomialverteilte Daten Schätzen
Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann:
P(θ | L) =
Sawade/Landwehr/Scheffer, Maschinelles Lernen
P( L | θ ) P(θ )
P ( L)
1
Bin( N K | N , θ ) Beta (θ | α k , α z )
Z
1 N k + N z Nk
N z Γ(α k + α z )
(1
)
θ
θ
θ α k −1 (1 − θ )α z −1
=
−
Z Nk
Γ(α k )Γ(α z )
=
1 α k + Nk −1
(1 − θ )α z + N z −1
θ
Z'
Γ(α k + N k + α z + N z ) α k + Nk −1
(1 − θ )α z + N z −1
θ
Γ(α k + N k )Γ(α z + N z )
= Beta (θ | α k + N k , α z + N z )
Beta-Verteilung ist „konjugierter“ Prior: Posterior ist
wieder Beta-verteilt
12
Zusammenfassung Bayessche
Parameterschätzung Binomialverteilung
Bayessche Regel
P(θ | L) =
Sawade/Landwehr/Scheffer, Maschinelles Lernen
P( L | θ ) P(θ )
P ( L)
Posterior P(θ | L): Wie wahrscheinlich ist Modell θ,
nachdem wir Daten L gesehen haben?
Vorwissen P(θ ) und Evidenz der Trainingsdaten L
werden zu neuem Gesamtwissen P(θ | L) integriert.
Beispiel Münzwurf: Vorwissen Beta(θ | αk, αz) und
Beobachtungen Nk, Nz werden zu Posterior
Beta(θ | αk +Nk, αz +Nz).
13
Münzwurf: Wahrscheinlichste
Wahrscheinlichkeit
Wahrscheinlichster Parameter θ.
arg
maxθ P(θ | L) arg maxθ Beta(θ | α k + N k , α z + N z )
=
Ableiten, Ableitung
null setzen
( α z ≥ 1, α k ≥ 1 )
Γ(α k + α z + N k + N z ) α k + Nk −1
arg maxθ
(1 − θ )α z + N z −1
θ
Γ(α k + N k )Γ(α z + N z )
=
Nk + αk −1
Nk + N z + αk + α z − 2
Normalisierer,
unabhängig von θ
Für α=
α=
1 ergibt sich ML Schätzung
z
k
Interpretation der Hyperparameter α z − 1/ α k − 1 :
α z − 1/ α k − 1 „Pseudocounts“ , die auf beobachtete „Counts“
aufgeschlagen werden
wie oft im Leben Münzwurf mit „Kopf“/“Zahl“ gesehen?
N z / Nk
14
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Münzwurf: Wahrscheinlichste
Wahrscheinlichkeit
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Beispiel MAP Schätzung Parameter
Prior=
P(θ ) Beta (θ | 5, 5)
Posterior nach 50x Kopf, 25x Zahl:
25
) Beta (θ | 55, 30 )
P(θ | N K = 50, N=
=
Z
*
MAP Schätzung: θ
arg maxθ P(θ | N K = 50, N=
25)
=
=
Z
54
≈ 0.65
54 + 29
15
Bayessche Schätzung als Sequentielles
Update der Verteilung
Geburt
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Kopf, Zahl
16 Kopf,
37 Zahl
Kopf
…
1 N K + N Z Nk
θ (1 − θ ) N z Beta(θ | α k , α z )
Beta (θ | α k=
+ Nk ,α z + N z )
Z N K
Posterior
Prior
Likelihood
16
Verallgemeinerung: Würfelwurf statt
Münzwurf
Münzwurf: 2 Ausgänge.
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Prior Beta-verteilt,
Binomiale Likelihood,
Posterior wieder Beta-verteilt.
Modell für Prozesse mit binärem Ergebnis.
Verallgemeinerung Würfelwurf: k Ausgänge.
Prior Dirichlet-verteilt,
Likelihood Multinomial,
Posterior wieder Dirichlet-verteilt.
Modell für diskrete Prozesse mit mehreren möglichen
Ergebnissen
17
Einschub: Begriff „Schätzer“
Wir haben uns mit der Schätzung von Parametern von
Verteilungen aus Daten beschäftigt
Formalisierung: ein Schätzer ist ein Verfahren, das
Beobachtungen L auf einen Schätzwert abbildet.
z.B. Münzwurf: Beobachtung Nk, Nz, schätze Münzparameter
Schätzer für (unbekannten) Wert θ wird mit θˆ bezeichnet
Schätzer ist Zufallsvariable, Verteilung bestimmt durch die
Verteilung p ( L | θ ) der Daten gegeben den echten
Parameter
Schätzer heißt erwartungstreu, wenn E[θˆ] = θ
18
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Schätzer
Beispiel: Münzwurf, Beobachtung Nk, Nz.
MAP-Schätzer Münzwurf:
Sawade/Landwehr/Scheffer, Maschinelles Lernen
θˆMAP = arg maxθ P(θ | L)
= arg maxθ Beta(θ | α k + N k , α z + N z )
α k + Nk −1
=
αk + Nk + α z + N z − 2
ML-Schätzer Münzwurf:
θˆML = arg maxθ P( L | θ )
= arg maxθ θ N k (1 − θ ) N z
=
Nk
Nk + N z
19
Schätzer
Maximum Likelihood Schätzer erwartungstreu:
Angenommen echter Münzparameter ist θ
Dann
Erwartungswert additiv
N
N
N
1
1
1
K
ˆ
θ ML =
=
[ NK ]
=
[ Xi ]
Xi
∑
∑
N N=
N i 1=
=
N i1
1 N
= ∑θ
Erwartungswert über mögliche
„Kopf“ Indikator für
N i =1
beobachtete Münzwürfe
einzelnen Münzwurf
=θ
MAP Schätzer nicht erwartungstreu:
θˆMAP =
N µ + α K −1
N + αK + αZ − 2
20
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Schätzen Kontinuierlicher Daten:
Normalverteilung
Normalverteilung häufige Wahl zur Modellierung
kontinuierlicher ZV
Hier: eindimensionale Daten, univariate Normalverteilung
Mittelwert-Parameter µ
Varianz-Parameter σ 2
Dichtefunktion:
=
( x | µ ,σ 2 )
1
(2πσ 2 )1/2
( x − µ )2
exp −
2
2
σ
21
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Normalverteilte Daten Schätzen: ML
Schätzen einer Normalverteilung aus Daten
Annahme: Daten folgen Normalverteilung
Aber Mittelwert µ und Standardabweichung σ
unbekannt
Gegeben: Daten L bestehend aus n unabhängigen
Datenpunkten
x1 ,..., xn
Sawade/Landwehr/Scheffer, Maschinelles Lernen
xi ~ ( x | µ ,σ 2 )
unabhängig gezogen
, σ für die unbekannten
Gesucht: Schätzungen µ
Parameter µ , σ
22
Normalverteilte Daten Schätzen: ML
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Einfachster Ansatz: Maximum Likelihood, finde
,σ ) = arg max p ( L|µ ,σ )
(µ
µ ,σ
Berechnen der Likelihood
p ( L | µ ,σ )= p ( x1 ,..., xn |µ ,σ )
n
= ∏ p ( xi |µ ,σ )
Datenpunkte unabhängig
i =1
n
= ∏ ( xi |µ ,σ 2 )
Verteilungsannahme einsetzen
i =1
( xi − µ ) 2
=∏
exp −
2 1/2
2
πσ
σ
)
2
i =1 (2
n
1
23
Normalverteilte Daten Schätzen: ML
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Logarithmieren:
arg max µ ,σ p ( L|µ ,σ ) = arg max µ ,σ log p ( L|µ ,σ )
Log-Likelihood:
n
( xi − µ ) 2
1
log p ( L|µ ,σ ) = log ∏
exp −
2 1/2
2
πσ
σ
(2
)
2
i =1
2
n
−
µ
x
(
)
2 − n/2
i
= log (2πσ ) ∏ exp −
2
2σ
i =1
n
n
1 n
2
= − log(2π ) − log σ − 2 ∑ ( xi − µ ) 2
2
2
2σ i =1
24
Normalverteilte Daten Schätzen: ML
Log-Likelihood
n
n
1
2
log p ( L|µ ,σ ) = − log(2π ) − log σ − 2
2
2
2σ
2
x
(
)
µ
−
∑ i
i =1
Maximierung über µ : betrachte partielle Ableitung
∂
1
log p ( L|µ ,σ ) =
∂µ
2σ 2
n
Null setzen:
n
1
= x
⇒µ
∑
i
n i =1
n
∑ 2( x − µ )
i =1
i
1 n
= 2 ∑ xi − nµ
σ i =1
Null setzen
Intuitiv: geschätzter Mittelwert = Durchschnitt
25
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Normalverteilte Daten Schätzen: ML
Log-Likelihood
n
n
n
1
2
log p ( L|µ ,σ ) = − log(2π ) − log σ − 2
2
2
2σ
i =1
Maximierung über σ : betrachte partielle Ableitung
2
∂
1
n
ˆ
,...
,
=
−
+
log
(
|
,
)
p
x
x
µ
σ
n
1
∂σ 2
2σ 2 2σ 4
2
x
(
)
µ
−
∑ i
Null setzen:
n
1
)2
(
⇒ σ=
x
−
µ
∑ i
n i =1
2
n
∑ ( x − µˆ )
i =1
2
i
1 1 n
2
ˆ
=
−
−
(
)
x
µ
n
∑ i
2σ 2 σ 2 i =1
Null setzen
Intuitiv: geschätzte Varianz = durchschnittliche
Abweichung vom Mittelwert
26
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Normalverteilte Daten Schätzen: ML
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Mittelwert-Schätzer für Normalverteilung
erwartungstreu?
n
1
=
x
µ
n ∑ i
i =1
1 n
= ∑ [ xi ]
n i =1
1 n
= ∑µ
n i =1
=µ
erwartungstreu
Schätzer µ
27
Normalverteilte Daten Schätzen: ML
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Varianz-Schätzer für Normalverteilung erwartungstreu?
2
n
n
2
1
1
=
σ
∑ xi − ∑ x j
n j =1
n i =1
= ...
n −1 2
σ
=
n
2
Schätzer σ nicht erwartungstreu – Varianz wird
systematisch unterschätzt
Schätzer ist aber konsistent – der systematische Fehler
verschwindet für n → ∞
28
Normalverteilte Daten Schätzen: Beispiel
ML Schätzung
Wir wollen IQ einer Population schätzen
=
σ 0 15
IQ typischerweise normalverteilt =
mit µ0 100,
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Wir wollen IQ-Verteilung schätzen für Subpopulation
Wohl auch normalverteilt, aber evtl andere Parameter
Intelligenztest mit n Probanden: ergibt n unabhängige
Datenpunkte x1 ,..., xn
Annahme: Normalverteilung mit unbekanntem Mittelwert
und unbekannter Varianz
xi ~ ( x | µ ,σ 2 )
,σ
Maximum-Likelihood Schätzung µ
29
Normalverteilte Daten Schätzen: Beispiel
ML Schätzung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation: n=3 Punkte ziehen aus echter Verteilung mit
=
µ 120,
=
σ 15 , ML Parameter schätzen
ML-Schätzung Verteilung:
Dichte
p(x)
, σ 2 )
(x | µ
123.
=
µ
=
4, σ 8.1
Echte Verteilung:
xi ~ ( x | µ , σ 2 )
=
µ 120,
=
σ 15
Datenpunkte
x (gemessener IQ)
30
Normalverteilte Daten Schätzen: Beispiel
ML Schätzung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation: n=30 Punkte ziehen aus echter Verteilung mit
=
µ 120,
=
σ 15 , ML Parameter schätzen
ML-Schätzung Verteilung:
Dichte
p(x)
, σ 2 )
(x | µ
116.
=
µ
=
4, σ 13.7
Echte Verteilung:
xi ~ ( x | µ , σ 2 )
=
µ 120,
=
σ 15
Datenpunkte
x (gemessener IQ)
31
Normalverteilte Daten Schätzen: Beispiel
ML Schätzung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation: n=500 Punkte ziehen aus echter Verteilung mit
=
µ 120,
=
σ 15 , ML Parameter schätzen
ML-Schätzung Verteilung:
Dichte
p(x)
, σ 2 )
(x | µ
120.
=
µ
=
3, σ 15.1
Echte Verteilung:
xi ~ ( x | µ , σ 2 )
=
µ 120,
=
σ 15
Datenpunkte
x (gemessener IQ)
32
Normalverteilte Daten Schätzen:
Bayessche Schätzungen
Bisher nur ML-Schätzung
Bayessche Schätzungen für Parameter µ ,σ ?
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Brauchen geeignete a-priori Verteilung
Im Allgemeinen gemeinsame a-priori Verteilung p ( µ ,σ )
Zunächst einfacher Fall:
Varianz σ bekannt
mit Prior p ( µ )
Schätzung des Mittelwertes µ
33
Normalverteilte Daten Schätzen:
Bayessche Schätzungen
Konjugierter Prior zur Normalverteilung mit bekannter
Varianz ist Normalverteilung
Prior:
p( µ ) = ( µ | µ0 , σ 02 )
Wie stark ist Vorwissen?
Vermuteter Mittelwert
n
Likelihood: p ( x1 ,..., xn | µ ) = ∏ ( xi | µ , σ 2 )
i =1
Posterior:=
p ( µ | L)
p( L | µ ) p( µ )
= ( µ | µn , σ n2 )
p ( L)
nσ 02
σ2
µ0 + 2
µ ML ,
mit µn =
nσ 02
nσ 0 + σ 2
Posterior wieder
normalverteilt!
σ 2σ 02
σ =
σ 2 + nσ 02
ML-Schätzung
2
n
34
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Normalverteilte Daten Schätzen:
Bayessche Schätzungen
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Weder Mittelwert noch Varianz ist bekannt: geeigneter
konjugierter Prior ist Normal-Gamma
Definiere
λ=
1
σ
"Precision"
Konjugierter Prior ist Produkt aus Normalverteilung und
Gamma-Verteilung:
p ( µ , λ ) = ( µ | µ0 , ( βλ ) −1 ) Gam(λ | a, b)
mit =
Gam(λ | a, b)
1 a a −1
b λ exp(−bλ )
Γ(a )
Posterior p ( µ , λ | x1 ,..., xn ) ist wieder Normal-Gamma
35
Normalverteilte Daten Schätzen: Beispiel
Bayessche Schätzung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Zurück zum Beispiel: schätzen der IQ-Verteilung anhand
von n unabhängigen Datenpunkten
Normal-Gamma Prior: erwarte µ ≈ 100, σ ≈ 15
Farbkodierung
Dichte p( µ , σ )
Erwartung:
µ ≈ 100, σ ≈ 15
36
Normalverteilte Daten Schätzen: Beispiel
Bayessche Schätzung
Likelihood:
Prior:
( µ | µ0 ,( βλ ) −1 )Gam(λ | a, b)
n
∏ ( xi | µ ,σ 2 )
Posterior:
( µ | µ0* ,( β *λ ) −1 )Gam(λ | a* , b* )
i =1
Prior bewirkt Korrektur der ML-Schätzung in Richtung
des Vorwissens
37
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation: n=3 Punkte ziehen aus echter Verteilung mit
=
µ 120,
=
σ 15 , statt ML-Schätzung berechnen wir Posterior
Normalverteilte Daten Schätzen: Beispiel
MAP Parameter
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation für n=3: Vergleich ML und MAP Lösung
ML
MAP
38
Normalverteilte Daten Schätzen: Beispiel
Bayessche Schätzung
Simulation: n=30 Punkte ziehen aus echter Verteilung, statt
ML-Schätzung berechnen wir a posteriori Verteilung
Likelihood:
Prior:
( µ | µ0 ,( βλ ) −1 )Gam(λ | a, b)
n
∏ ( xi | µ ,σ 2 )
Posterior:
( µ | µ0* ,( β *λ ) −1 )Gam(λ | a* , b* )
i =1
Prior bewirkt Korrektur der ML-Schätzung in Richtung
des Vorwissens
39
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Normalverteilte Daten Schätzen: Beispiel
MAP Parameter
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation für n=30: Vergleich ML und MAP Lösung
ML
MAP
40
Normalverteilte Daten Schätzen: Beispiel
Bayessche Schätzung
Simulation: n=500 Punkte ziehen aus echter Verteilung, statt
ML-Schätzung berechnen wir a posteriori Verteilung
Likelihood:
Prior:
( µ | µ0 ,( βλ ) −1 )Gam(λ | a, b)
n
∏ ( xi | µ ,σ 2 )
Posterior:
( µ | µ0* ,( β *λ ) −1 )Gam(λ | a* , b* )
i =1
Für grosse n nähert sich MAP Schätzung der ML
Schätzung an
41
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Normalverteilte Daten Schätzen: Beispiel
MAP Parameter
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation für n=500: Vergleich ML und MAP Lösung
ML
MAP
42
Normalverteilte Daten Schätzen: Beispiel
MAP Parameter
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Mehrmalige Wiederholung der Simulation: n=3 Punkte ziehen
aus echter Verteilung, Vergleich ML/MAP Schätzung:
ML
MAP
43
Beobachtungen ML vs. MAP Schätzung
MAP Schätzungen Kompromiss zwischen Vorwissen und
Evidenz der Daten
MAP Schätzungen sind stabiler als ML Schätzungen:
Schwankungen in den Daten beeinflussen Ergebnis
weniger
Je mehr Daten, desto kleiner die Varianz der PosteriorVerteilung: immer sicherer, was bestes Modell ist
Für unendlich viele Daten ( n → ∞ ) konvergiert die MAP
Lösung gegen die ML Lösung
44
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Normalverteilung: Kumulative
Verteilungsfunktion
Gegeben Normalverteilung: was ist p(beobachteter Wert ≥ x) ?
Beispiel:
IQ einer zufällig gezogenen Person Zufallsvariable mit
µ 100,
=
σ 15
X ~ ( x | µ ,σ 2 ) =
Was ist p ( X ≥ 120) ?
Normalisierung zur Standardnormalverteilung
X −µ
X ~ ( x | µ ,σ 2 ) ⇒ Z =
~ ( x | 0,1)
σ
Wahrscheinlichkeit, IQ von 120 oder größer zu sehen?
4
4
X − 100 120 − 100
p ( X ≥ 120) =P
≥
=
p
(
Z
≥
)
=−
1
p
(
Z
≤
)
15
15
3
3
Kumulative Verteilungsfunktion
45
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Normalverteilung: Kumulative
Verteilungsfunktion
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Kumulative Verteilungsfunktion
Φ( z ) = p(Z ≤ z )
z
=
∫ ( x | 0,1)dx
−∞
z
=
∫
−∞
1
exp ( − x 2 / 2 ) dx
2π
Keine geschlossene Lösung, nachschlagen in Tabelle
46
Verteilungsfunktion der Normalverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
4
Φ ≈ 0.9082
3
p ( X ≥ 120) ≈ 0.0918
47
Normalverteilung: Kumulative
Verteilungsfunktion
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Normalverteilung konzentriert die meiste
Wahrscheinlichkeitsmasse „nahe“ dem Mittelwert
p ( µ − σ ≤ X ≤ µ − σ ) ≈ 0.68
p ( µ − 2σ ≤ X ≤ µ − 2σ ) ≈ 0.95
p ( µ − 3σ ≤ X ≤ µ − 3σ ) ≈ 0.997
48
Multivariate Normalverteilung
Zufallsvariable x mit d Dimensionen.
x ∈ d normalverteilt, wenn Verteilung beschrieben wird durch Dichte
=
(xμ| , Σ)
1
1
T −1
−
x
−
μ
xμ
exp
(
)
(
)
Σ
−
2π d /2 | Σ |1/2
2
Determinante
Beispiel d=2
d
Mittelwertvektor μ ∈
Kovarianzmatrix Σ
Koarianzmatrix entscheidet, wie Punkte streuen
μ
49
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz
Grundkonzepte des Bayesschen Lernens
(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen
Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen
50