N - Institut für Informatik

Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Bayessches Lernen (II)
Christoph Sawade/Niels Landwehr
Jules Rasetaharison
Tobias Scheffer
Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen

2
Parameter von Verteilungen schätzen
Oft können wir annehmen, dass Daten einer bestimmten
Verteilung folgen





Z.B. Binomialverteilung für N Münzwürfe
Z.B. Gaußverteilung für Körpergröße, IQ, …
Diese Verteilungen sind parametrisiert


Sawade/Landwehr/Scheffer, Maschinelles Lernen

Binomialverteilung: Parameter µ ist Wahrscheinlichkeit für
„Kopf“
Gaußverteilung: Parameter µ , σ für Mittelwert und
Standardabweichung
„Echte“ Wahrscheinlichkeiten/Parameter kennen wir nie.
Welche Aussagen über echte Wahrscheinlichkeiten
können wir machen, gegeben Daten?
3
Parameter von Verteilungen schätzen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Problemstellung Parameter von Verteilungen
schätzen:



Gegeben parametrisierte Familie von Verteilungen
(z.B. Binomial, Gauß) mit Parametervektor θ
Gegeben Daten L
Gesucht: a-posteriori Verteilung P (θ | L) bzw.
maximum a-posteriori Schätzung
θ * = arg maxθ P(θ | L)

Verwende Bayessche Regel:
P(θ | L) =
P( L | θ ) P(θ )
P ( L)
4
Binomialverteilte Daten Schätzen
Beispiel: Münzwurf, schätze Parameter μ =θ



N Mal Münze werfen.
Daten L: Nk mal Kopf, Nz mal Zahl.
Beste Schätzung θ gegeben L? Bayes‘ Gleichung:
Likelihood der Daten gegeben Parameter,
wie gut erklärt Parameter die Beobachtungen?
A-posteriori Verteilung
über Parameter, charakterisiert
wahrscheinliche Parameterwerte
und verbleibende Ungewissheit
A-priori Verteilung über Parameter,
repräsentiert Vorwissen
P( L | θ ) P(θ )
P(θ | L) =
P ( L)
5
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Binomialverteilte Daten Schätzen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Likelihood der Daten:
P( L | θ )
(θ = μ Wahrscheinlichkeit für „Kopf“)

Likelihood ist binomialverteilt:
=
P( L | θ ) P=
( N k , N z | θ ) Bin( N k | N , θ )
=
N Nk + N z
 N k + N z  Nk
Nz
θ
θ
= 
−
(1
)

N
k


Wahrscheinlichkeit, bei N Münzwürfen N k -mal Kopf
und N Z -mal Zahl zu sehen, für Münzparameter θ
6
Binomialverteilte Daten Schätzen

Was ist der Prior P(θ ) im Münzwurfbeispiel?
1) Versuch: Kein Vorwissen
1: 0 ≤ θ ≤ 1
P(θ ) = 
0 : sonst

Sawade/Landwehr/Scheffer, Maschinelles Lernen

Dichte
Beispiel:


Daten L = {Zahl,Zahl,Zahl}
MAP Modell:
P( L | θ ) P(θ )
P( L)
 3 0
3
arg maxθ ∈[0,1]
= arg max
=
=
θ ∈[0,1] P ( L | θ )
  θ (1 − θ ) 0
0
θ*

arg
=
maxθ ∈[0,1] P(θ | L) arg maxθ ∈[0,1]
Schlussfolgerung: Münze wird niemals „Kopf“ zeigen
 Schlecht, Überanpassung an Daten („Overfitting“)
7
Binomialverteilte Daten Schätzen


Was ist der Prior P(θ ) im Münzwurfbeispiel?
Besser mit Vorwissen: Unwahrscheinlich, dass Münze
immer Kopf oder immer Zahl zeigt
Gutes Modell für Vorwissen über θ : Beta-Verteilung.
Beta (θ | 5,5)
P(θ ) Beta (θ | α k , α z )
=
(θ ∈ [0,1])
=
Γ(α k + α z ) α k −1
θ (1 − θ )α z −1
Γ(α k )Γ(α z )
0.5

Gamma-Funktion Γ(α ) kontinuierliche Fortsetzung der
Fakultätsfunktion
∞
z −1 − t
Γ( z ) =
t
∫ e dt
0
∀n ∈  : Γ(n) = (n − 1)!
8
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Binomialverteilte Daten Schätzen
αk und αz sind Parameter der Beta-Verteilung

(„Hyperparameter“)
Beta-Verteilung ist Verteilung über Verteilungen
=
α K 5,=
αZ 5
=
α K 1,=
αZ 1
1

Normalisierte Dichte
∫ Beta(θ | α
K
Sawade/Landwehr/Scheffer, Maschinelles Lernen

=
α K 4,=
αZ 2
, α Z ) dθ = 1
0
9
Binomialverteilte Daten Schätzen
Warum gerade diese a-priori-Verteilung?

Strukturelle Ähnlichkeit mit Likelihood:
Prior
P(θ ) Beta (θ=
| α k ,α z )
=
Γ(α k + α z ) α k −1
θ (1 − θ )α z −1
Γ(α k )Γ(α z )
 N k + N Z  Nk
Nz
θ
θ
=
P( L | θ ) P=
−
( Nk , N z | θ ) 
(1
)
Likelihood

N
k



Einfach, Beobachtungen zu berücksichtigen: Produkt aus
Likelihood und Prior hat wieder dieselbe Form wie Prior
P(θ | L) ∝ P ( L | θ ) P (θ )
10
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Binomialverteilte Daten Schätzen
Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann:
P(θ | L) =
Sawade/Landwehr/Scheffer, Maschinelles Lernen

P( L | θ ) P(θ )
P ( L)
1
Bin( N K | N , θ ) Beta(θ | α k , α z )
Z
1  N k + N z  Nk
α k −1
N z Γ(α k + α z )
(1
)
(1 − θ )α z −1
=
θ
−
θ
θ


Γ(α k )Γ(α z )
Z  Nk 
1 α k + Nk −1
(1 − θ )α z + N z −1
θ
Z'
=?
=
11
Binomialverteilte Daten Schätzen
Wenn wir den Beta-Prior in Bayes‘ Gleichung einsetzen, dann:
P(θ | L) =
Sawade/Landwehr/Scheffer, Maschinelles Lernen

P( L | θ ) P(θ )
P ( L)
1
Bin( N K | N , θ ) Beta (θ | α k , α z )
Z
1  N k + N z  Nk
N z Γ(α k + α z )
(1
)
θ
θ
θ α k −1 (1 − θ )α z −1
=
−


Z  Nk 
Γ(α k )Γ(α z )
=
1 α k + Nk −1
(1 − θ )α z + N z −1
θ
Z'
Γ(α k + N k + α z + N z ) α k + Nk −1
(1 − θ )α z + N z −1
θ
Γ(α k + N k )Γ(α z + N z )
= Beta (θ | α k + N k , α z + N z )

Beta-Verteilung ist „konjugierter“ Prior: Posterior ist
wieder Beta-verteilt
12
Zusammenfassung Bayessche
Parameterschätzung Binomialverteilung
Bayessche Regel
P(θ | L) =



Sawade/Landwehr/Scheffer, Maschinelles Lernen

P( L | θ ) P(θ )
P ( L)
Posterior P(θ | L): Wie wahrscheinlich ist Modell θ,
nachdem wir Daten L gesehen haben?
Vorwissen P(θ ) und Evidenz der Trainingsdaten L
werden zu neuem Gesamtwissen P(θ | L) integriert.
Beispiel Münzwurf: Vorwissen Beta(θ | αk, αz) und
Beobachtungen Nk, Nz werden zu Posterior
Beta(θ | αk +Nk, αz +Nz).
13
Münzwurf: Wahrscheinlichste
Wahrscheinlichkeit
Wahrscheinlichster Parameter θ.
arg
maxθ P(θ | L) arg maxθ Beta(θ | α k + N k , α z + N z )
=
Ableiten, Ableitung
null setzen
( α z ≥ 1, α k ≥ 1 )


Γ(α k + α z + N k + N z ) α k + Nk −1
arg maxθ
(1 − θ )α z + N z −1
θ
Γ(α k + N k )Γ(α z + N z )
=
Nk + αk −1
Nk + N z + αk + α z − 2
Normalisierer,
unabhängig von θ
Für α=
α=
1 ergibt sich ML Schätzung
z
k
Interpretation der Hyperparameter α z − 1/ α k − 1 :

α z − 1/ α k − 1 „Pseudocounts“ , die auf beobachtete „Counts“

aufgeschlagen werden
wie oft im Leben Münzwurf mit „Kopf“/“Zahl“ gesehen?
N z / Nk
14
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Münzwurf: Wahrscheinlichste
Wahrscheinlichkeit
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Beispiel MAP Schätzung Parameter
Prior=
P(θ ) Beta (θ | 5, 5)
Posterior nach 50x Kopf, 25x Zahl:
25
) Beta (θ | 55, 30 )
P(θ | N K = 50, N=
=
Z
*
MAP Schätzung: θ
arg maxθ P(θ | N K = 50, N=
25)
=
=
Z
54
≈ 0.65
54 + 29
15
Bayessche Schätzung als Sequentielles
Update der Verteilung
Geburt
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Kopf, Zahl
16 Kopf,
37 Zahl
Kopf
…
1  N K + N Z  Nk
θ (1 − θ ) N z Beta(θ | α k , α z )
Beta (θ | α k=
+ Nk ,α z + N z )


 Z  N K 

Posterior
Prior



Likelihood
16
Verallgemeinerung: Würfelwurf statt
Münzwurf
Münzwurf: 2 Ausgänge.





Sawade/Landwehr/Scheffer, Maschinelles Lernen

Prior Beta-verteilt,
Binomiale Likelihood,
Posterior wieder Beta-verteilt.
Modell für Prozesse mit binärem Ergebnis.
Verallgemeinerung Würfelwurf: k Ausgänge.




Prior Dirichlet-verteilt,
Likelihood Multinomial,
Posterior wieder Dirichlet-verteilt.
Modell für diskrete Prozesse mit mehreren möglichen
Ergebnissen
17
Einschub: Begriff „Schätzer“
Wir haben uns mit der Schätzung von Parametern von
Verteilungen aus Daten beschäftigt

Formalisierung: ein Schätzer ist ein Verfahren, das
Beobachtungen L auf einen Schätzwert abbildet.




z.B. Münzwurf: Beobachtung Nk, Nz, schätze Münzparameter
Schätzer für (unbekannten) Wert θ wird mit θˆ bezeichnet
Schätzer ist Zufallsvariable, Verteilung bestimmt durch die
Verteilung p ( L | θ ) der Daten gegeben den echten
Parameter
Schätzer heißt erwartungstreu, wenn E[θˆ] = θ
18
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Schätzer

Beispiel: Münzwurf, Beobachtung Nk, Nz.
MAP-Schätzer Münzwurf:


Sawade/Landwehr/Scheffer, Maschinelles Lernen

θˆMAP = arg maxθ P(θ | L)
= arg maxθ Beta(θ | α k + N k , α z + N z )
α k + Nk −1
=
αk + Nk + α z + N z − 2
ML-Schätzer Münzwurf:

θˆML = arg maxθ P( L | θ )
= arg maxθ θ N k (1 − θ ) N z
=
Nk
Nk + N z
19
Schätzer
Maximum Likelihood Schätzer erwartungstreu:


Angenommen echter Münzparameter ist θ
Dann
Erwartungswert additiv
N
N
N
1
1
1




K
ˆ
θ ML  =
=
[ NK ]
 =
[ Xi ]
Xi 
∑
∑
 N  N=
 
N  i 1=


=
 N i1
1 N
= ∑θ
Erwartungswert über mögliche
„Kopf“ Indikator für
N i =1
beobachtete Münzwürfe
einzelnen Münzwurf
=θ

MAP Schätzer nicht erwartungstreu:
 θˆMAP  =
N µ + α K −1
N + αK + αZ − 2
20
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Schätzen Kontinuierlicher Daten:
Normalverteilung

Normalverteilung häufige Wahl zur Modellierung
kontinuierlicher ZV
Hier: eindimensionale Daten, univariate Normalverteilung


Mittelwert-Parameter µ
Varianz-Parameter σ 2
Dichtefunktion:
=
 ( x | µ ,σ 2 )
1
(2πσ 2 )1/2
 ( x − µ )2 
exp  −

2
2
σ


21
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Normalverteilte Daten Schätzen: ML
Schätzen einer Normalverteilung aus Daten



Annahme: Daten folgen Normalverteilung
Aber Mittelwert µ und Standardabweichung σ
unbekannt
Gegeben: Daten L bestehend aus n unabhängigen
Datenpunkten
x1 ,..., xn

Sawade/Landwehr/Scheffer, Maschinelles Lernen

xi ~  ( x | µ ,σ 2 )
unabhängig gezogen
 , σ für die unbekannten
Gesucht: Schätzungen µ
Parameter µ , σ
22
Normalverteilte Daten Schätzen: ML
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Einfachster Ansatz: Maximum Likelihood, finde
 ,σ ) = arg max p ( L|µ ,σ )
(µ
µ ,σ

Berechnen der Likelihood
p ( L | µ ,σ )= p ( x1 ,..., xn |µ ,σ )
n
= ∏ p ( xi |µ ,σ )
Datenpunkte unabhängig
i =1
n
= ∏  ( xi |µ ,σ 2 )
Verteilungsannahme einsetzen
i =1
 ( xi − µ ) 2 
=∏
exp  −

2 1/2
2
πσ
σ
)
2
i =1 (2


n
1
23
Normalverteilte Daten Schätzen: ML
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Logarithmieren:
arg max µ ,σ p ( L|µ ,σ ) = arg max µ ,σ log p ( L|µ ,σ )

Log-Likelihood:
 n
 ( xi − µ ) 2  
1
log p ( L|µ ,σ ) = log  ∏
exp  −

2 1/2
2
πσ
σ
(2
)
2


 i =1
2
n



−
µ
x
(
)
2 − n/2
i
= log  (2πσ ) ∏ exp  −

2
2σ
i =1



n
n
1 n
2
= − log(2π ) − log σ − 2 ∑ ( xi − µ ) 2
2
2
2σ i =1
24
Normalverteilte Daten Schätzen: ML
Log-Likelihood
n
n
1
2
log p ( L|µ ,σ ) = − log(2π ) − log σ − 2
2
2
2σ

2
x
(
)
µ
−
∑ i
i =1
Maximierung über µ : betrachte partielle Ableitung
∂
1
log p ( L|µ ,σ ) =
∂µ
2σ 2

n
Null setzen:
n
1
 = x
⇒µ
∑
i
n i =1
n
∑ 2( x − µ )
i =1
i
1  n

= 2  ∑ xi − nµ 
σ  i =1



Null setzen
Intuitiv: geschätzter Mittelwert = Durchschnitt
25
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Normalverteilte Daten Schätzen: ML
Log-Likelihood
n
n
n
1
2
log p ( L|µ ,σ ) = − log(2π ) − log σ − 2
2
2
2σ

i =1
Maximierung über σ : betrachte partielle Ableitung
2
∂
1
n
ˆ
,...
,
=
−
+
log
(
|
,
)
p
x
x
µ
σ
n
1
∂σ 2
2σ 2 2σ 4

2
x
(
)
µ
−
∑ i
Null setzen:
n
1
 )2
(
⇒ σ=
x
−
µ
∑ i
n i =1
2
n
∑ ( x − µˆ )
i =1
2
i
1  1 n

2
ˆ
=
−
−
(
)
x
µ
n
∑ i

2σ 2  σ 2 i =1

Null setzen
Intuitiv: geschätzte Varianz = durchschnittliche
Abweichung vom Mittelwert
26
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Normalverteilte Daten Schätzen: ML
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Mittelwert-Schätzer für Normalverteilung
erwartungstreu?
n
1


 = 
x
 µ
n ∑ i 
 
 i =1 
1 n
= ∑  [ xi ]
n i =1
1 n
= ∑µ
n i =1
=µ

 erwartungstreu
Schätzer µ
27
Normalverteilte Daten Schätzen: ML
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Varianz-Schätzer für Normalverteilung erwartungstreu?
2
n
n

2
 
1 
1



=
 σ
  ∑  xi − ∑ x j  
 
n j =1  
 n i =1 

= ...
n −1 2
σ
=
n

2

Schätzer σ nicht erwartungstreu – Varianz wird
systematisch unterschätzt

Schätzer ist aber konsistent – der systematische Fehler
verschwindet für n → ∞
28
Normalverteilte Daten Schätzen: Beispiel
ML Schätzung
Wir wollen IQ einer Population schätzen
=
σ 0 15
 IQ typischerweise normalverteilt =
mit µ0 100,




Sawade/Landwehr/Scheffer, Maschinelles Lernen

Wir wollen IQ-Verteilung schätzen für Subpopulation
Wohl auch normalverteilt, aber evtl andere Parameter
Intelligenztest mit n Probanden: ergibt n unabhängige
Datenpunkte x1 ,..., xn
Annahme: Normalverteilung mit unbekanntem Mittelwert
und unbekannter Varianz
xi ~  ( x | µ ,σ 2 )

 ,σ
Maximum-Likelihood Schätzung µ
29
Normalverteilte Daten Schätzen: Beispiel
ML Schätzung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation: n=3 Punkte ziehen aus echter Verteilung mit
=
µ 120,
=
σ 15 , ML Parameter schätzen

ML-Schätzung Verteilung:
Dichte
p(x)
 , σ 2 )
 (x | µ
 123.
=
µ
=
4, σ 8.1
Echte Verteilung:
xi ~  ( x | µ , σ 2 )
=
µ 120,
=
σ 15
Datenpunkte
x (gemessener IQ)
30
Normalverteilte Daten Schätzen: Beispiel
ML Schätzung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation: n=30 Punkte ziehen aus echter Verteilung mit
=
µ 120,
=
σ 15 , ML Parameter schätzen

ML-Schätzung Verteilung:
Dichte
p(x)
 , σ 2 )
 (x | µ
 116.
=
µ
=
4, σ 13.7
Echte Verteilung:
xi ~  ( x | µ , σ 2 )
=
µ 120,
=
σ 15
Datenpunkte
x (gemessener IQ)
31
Normalverteilte Daten Schätzen: Beispiel
ML Schätzung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation: n=500 Punkte ziehen aus echter Verteilung mit
=
µ 120,
=
σ 15 , ML Parameter schätzen

ML-Schätzung Verteilung:
Dichte
p(x)
 , σ 2 )
 (x | µ
 120.
=
µ
=
3, σ 15.1
Echte Verteilung:
xi ~  ( x | µ , σ 2 )
=
µ 120,
=
σ 15
Datenpunkte
x (gemessener IQ)
32
Normalverteilte Daten Schätzen:
Bayessche Schätzungen

Bisher nur ML-Schätzung
Bayessche Schätzungen für Parameter µ ,σ ?



Sawade/Landwehr/Scheffer, Maschinelles Lernen

Brauchen geeignete a-priori Verteilung
Im Allgemeinen gemeinsame a-priori Verteilung p ( µ ,σ )
Zunächst einfacher Fall:


Varianz σ bekannt
 mit Prior p ( µ )
Schätzung des Mittelwertes µ
33
Normalverteilte Daten Schätzen:
Bayessche Schätzungen
Konjugierter Prior zur Normalverteilung mit bekannter
Varianz ist Normalverteilung
Prior:
p( µ ) =  ( µ | µ0 , σ 02 )
Wie stark ist Vorwissen?
Vermuteter Mittelwert
n
Likelihood: p ( x1 ,..., xn | µ ) = ∏  ( xi | µ , σ 2 )
i =1
Posterior:=
p ( µ | L)
p( L | µ ) p( µ )
=  ( µ | µn , σ n2 )
p ( L)
nσ 02 
σ2
µ0 + 2
µ ML ,
mit µn =
nσ 02
nσ 0 + σ 2
Posterior wieder
normalverteilt!
σ 2σ 02
σ =
σ 2 + nσ 02
ML-Schätzung
2
n
34
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Normalverteilte Daten Schätzen:
Bayessche Schätzungen
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Weder Mittelwert noch Varianz ist bekannt: geeigneter
konjugierter Prior ist Normal-Gamma

Definiere
λ=

1
σ
"Precision"
Konjugierter Prior ist Produkt aus Normalverteilung und
Gamma-Verteilung:
p ( µ , λ ) =  ( µ | µ0 , ( βλ ) −1 ) Gam(λ | a, b)
mit =
Gam(λ | a, b)

1 a a −1
b λ exp(−bλ )
Γ(a )
Posterior p ( µ , λ | x1 ,..., xn ) ist wieder Normal-Gamma
35
Normalverteilte Daten Schätzen: Beispiel
Bayessche Schätzung

Sawade/Landwehr/Scheffer, Maschinelles Lernen

Zurück zum Beispiel: schätzen der IQ-Verteilung anhand
von n unabhängigen Datenpunkten
Normal-Gamma Prior: erwarte µ ≈ 100, σ ≈ 15
Farbkodierung
Dichte p( µ , σ )
Erwartung:
µ ≈ 100, σ ≈ 15
36
Normalverteilte Daten Schätzen: Beispiel
Bayessche Schätzung
Likelihood:
Prior:
 ( µ | µ0 ,( βλ ) −1 )Gam(λ | a, b)
n
∏  ( xi | µ ,σ 2 )
Posterior:
 ( µ | µ0* ,( β *λ ) −1 )Gam(λ | a* , b* )
i =1

Prior bewirkt Korrektur der ML-Schätzung in Richtung
des Vorwissens
37
Sawade/Landwehr/Scheffer, Maschinelles Lernen
Simulation: n=3 Punkte ziehen aus echter Verteilung mit
=
µ 120,
=
σ 15 , statt ML-Schätzung berechnen wir Posterior

Normalverteilte Daten Schätzen: Beispiel
MAP Parameter
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Simulation für n=3: Vergleich ML und MAP Lösung
ML
MAP
38
Normalverteilte Daten Schätzen: Beispiel
Bayessche Schätzung
Simulation: n=30 Punkte ziehen aus echter Verteilung, statt
ML-Schätzung berechnen wir a posteriori Verteilung
Likelihood:
Prior:
 ( µ | µ0 ,( βλ ) −1 )Gam(λ | a, b)
n
∏  ( xi | µ ,σ 2 )
Posterior:
 ( µ | µ0* ,( β *λ ) −1 )Gam(λ | a* , b* )
i =1

Prior bewirkt Korrektur der ML-Schätzung in Richtung
des Vorwissens
39
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Normalverteilte Daten Schätzen: Beispiel
MAP Parameter
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Simulation für n=30: Vergleich ML und MAP Lösung
ML
MAP
40
Normalverteilte Daten Schätzen: Beispiel
Bayessche Schätzung
Simulation: n=500 Punkte ziehen aus echter Verteilung, statt
ML-Schätzung berechnen wir a posteriori Verteilung
Likelihood:
Prior:
 ( µ | µ0 ,( βλ ) −1 )Gam(λ | a, b)
n
∏  ( xi | µ ,σ 2 )
Posterior:
 ( µ | µ0* ,( β *λ ) −1 )Gam(λ | a* , b* )
i =1

Für grosse n nähert sich MAP Schätzung der ML
Schätzung an
41
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Normalverteilte Daten Schätzen: Beispiel
MAP Parameter
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Simulation für n=500: Vergleich ML und MAP Lösung
ML
MAP
42
Normalverteilte Daten Schätzen: Beispiel
MAP Parameter
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Mehrmalige Wiederholung der Simulation: n=3 Punkte ziehen
aus echter Verteilung, Vergleich ML/MAP Schätzung:
ML
MAP
43
Beobachtungen ML vs. MAP Schätzung
MAP Schätzungen Kompromiss zwischen Vorwissen und
Evidenz der Daten

MAP Schätzungen sind stabiler als ML Schätzungen:
Schwankungen in den Daten beeinflussen Ergebnis
weniger

Je mehr Daten, desto kleiner die Varianz der PosteriorVerteilung: immer sicherer, was bestes Modell ist

Für unendlich viele Daten ( n → ∞ ) konvergiert die MAP
Lösung gegen die ML Lösung
44
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Normalverteilung: Kumulative
Verteilungsfunktion

Gegeben Normalverteilung: was ist p(beobachteter Wert ≥ x) ?
Beispiel:

IQ einer zufällig gezogenen Person Zufallsvariable mit
µ 100,
=
σ 15
X ~  ( x | µ ,σ 2 ) =

Was ist p ( X ≥ 120) ?

Normalisierung zur Standardnormalverteilung
X −µ
X ~  ( x | µ ,σ 2 ) ⇒ Z =
~  ( x | 0,1)
σ

Wahrscheinlichkeit, IQ von 120 oder größer zu sehen?
4
4
 X − 100 120 − 100 
p ( X ≥ 120) =P 
≥
=
p
(
Z
≥
)
=−
1
p
(
Z
≤
)

15
15
3
3


Kumulative Verteilungsfunktion
45
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Normalverteilung: Kumulative
Verteilungsfunktion
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Kumulative Verteilungsfunktion
Φ( z ) = p(Z ≤ z )
z
=
∫  ( x | 0,1)dx
−∞
z
=
∫
−∞

1
exp ( − x 2 / 2 ) dx
2π
Keine geschlossene Lösung, nachschlagen in Tabelle
46
Verteilungsfunktion der Normalverteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen
4
Φ   ≈ 0.9082
3
p ( X ≥ 120) ≈ 0.0918
47
Normalverteilung: Kumulative
Verteilungsfunktion
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Normalverteilung konzentriert die meiste
Wahrscheinlichkeitsmasse „nahe“ dem Mittelwert

p ( µ − σ ≤ X ≤ µ − σ ) ≈ 0.68

p ( µ − 2σ ≤ X ≤ µ − 2σ ) ≈ 0.95

p ( µ − 3σ ≤ X ≤ µ − 3σ ) ≈ 0.997
48
Multivariate Normalverteilung
Zufallsvariable x mit d Dimensionen.
x ∈  d normalverteilt, wenn Verteilung beschrieben wird durch Dichte
=
 (xμ| , Σ)
1
 1

T −1
−
x
−
μ
xμ
exp
(
)
(
)
Σ
−


2π d /2 | Σ |1/2
2


Determinante
Beispiel d=2

d
Mittelwertvektor μ ∈ 

Kovarianzmatrix Σ

Koarianzmatrix entscheidet, wie Punkte streuen
μ
49
Sawade/Landwehr/Scheffer, Maschinelles Lernen

Überblick
Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für
Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes
Sawade/Landwehr/Scheffer, Maschinelles Lernen

50