Numerische Methoden der Bayes

Werbung
Numerische Methoden der Bayes-Inferenz
Helga Wagner
Bayes Statistik
WS 2010/11
338
Nichtkonjugierte Analyse
Bei bekannter Likelihood und Priori-Verteilung kann die nichtnormierte Dichte
der Posteriori-Verteilung p⋆(ϑ|y) für beliebige Werte ϑ bestimmt werden.
Die normierte Posteriori-Verteilung erfordert die Bestimmung der marginalen
Likelihood, d.h. des Integrals
Z
p(y) = p(y|ϑ)p(ϑ)dϑ.
Auch die Bestimmung des Bayes-Schätzers von h(ϑ) bei quadratischer Verlustfunktion erfordert die Berechnung eines Integrals
R
Z
h(ϑ)p(y|ϑ)p(ϑ)dϑ
ΘR
E(h(ϑ)|y) =
h(ϑ)p(ϑ|y)dϑ =
p(y|ϑ)p(ϑ)dϑ
Θ
Θ
Helga Wagner
Bayes Statistik
WS 2010/11
339
Nichtkonjugierte Analyse
keine analytische Lösung des Integrals =⇒
• numerische Integration
• analytische Approximation: Laplace Approximation
• Monte-Carlo-Methoden: Monte-Carlo-Integration, Importance sampling
• Markov-Chain-Monte-Carlo (MCMC) Methoden
Helga Wagner
Bayes Statistik
WS 2010/11
340
Beispiel SFr Wechselkurs-Daten
Modell: yi = 100(log pi − log pi−1) ∼ tν µ, σ
p(y|µ, σ 2, ν) =
N
Γ((ν + 1)/2)
√ N
N
Γ(ν/2)
νπ
1
σ2
2
Likelihood:
N/2 Y
N 1+
i=1
(yi − µ)
νσ 2
2
−(ν+1)/2
. (37)
=⇒ keine konjugierte Analyse möglich
2
einfacheres Modell: y ∼ i.i.d. t4 0, σ , d.h. nur die Varianz ist unbekannt
Nichtnormierte Posteriori-Dichte:
p(σ 2|y) ∝
Helga Wagner
1
σ2
N/2 Y
N Bayes Statistik
i=1
1+
yi2
4σ 2
−5/2
WS 2010/11
p(σ 2)
(38)
341
Beispiel SFr Wechselkurs-Daten
Posterior distribution of σ2
−162
2.5
x 10
2
Posterior distribution of σ
−299
6
x 10
5
2
4
1.5
3
1
2
0.5
1
0
0.24
0.26
0.28
0.3
0.32
0.34
0.36
0
0.45
0.5
0.55
0.6
0.65
2
σ
2
σ
2
Abbildung 39: SFr Wechselkurs-Daten, Modell: i.i.d. t4 0, σ (links)
und N 0, σ 2 (rechts); nichtnormierte Posteriori-Dichte p(σ 2|y) bei nichtinformativer Priori p(σ 2) ∝ 1/σ 2
Posteriori gegenüber dem Normalverteilungsmodell nach links verschoben
Helga Wagner
Bayes Statistik
WS 2010/11
342
Beispiel SFr Wechselkurs-Daten
Inferenz:
• Posteriori Erwartungswert
E(ϑ|y) =
Z
R ⋆
ϑp (ϑ|y)d ϑ
R
ϑp(ϑ|y)d ϑ =
p⋆(ϑ|y)d ϑ
• Posteriori Varianz: Var(ϑ|y) = E(ϑ2|y) − E(ϑ|y)2
2
E(ϑ |y) =
Z
ϑ2p⋆(ϑ|y)d ϑ
ϑ p(ϑ|y)d ϑ = R ⋆
p (ϑ|y)d ϑ
2
R
p⋆(ϑ|y) = p(y|ϑ)p(ϑ) ist die nicht-normierte Posteriori-Verteilung.
Helga Wagner
Bayes Statistik
WS 2010/11
343
Numerische Methoden der Bayes-Inferenz:
Numerische Integration
Helga Wagner
Bayes Statistik
WS 2010/11
344
Trapezregel
Rb
Die Trapezregel für ein univariates Integral a g(x)dx basiert auf stückweiser
Integration
Z b
G−1
X Z xi+1
g(x)dx =
g(x)dx
a
i=0
xi
mit Knoten x0 = a < x1 < · · · < xG = b
Approximation der Teilintegrale durch Fläche des Trapezes in einem Intervall:
1
(xi+1 − xi ) g(xi ) + g(xi+1)
2
Bei gleicher Intervallbreite h = (xi+1 − xi) ist
Z
Helga Wagner
b
a
n−1
X
1
1
g(x)dx ≈ h ( g(a) +
g(xi) + g(b))
2
2
i=1
Bayes Statistik
WS 2010/11
345
Beispiel: SFr Wechselkurs-Daten
1. Bestimmen der Normierungskonstanten: g(ϑ) = p∗(ϑ|y)
2. Bestimmen von Erwartungswert und Varianz der Posteriori-Verteilung
g(ϑ) = ϑp(ϑ|y) bzw. g(ϑ) = (ϑ − E(ϑ|y))2p(ϑ|y)
SFr Wechselkurs-Daten: yi i.i.d.t4 0, σ
2
E(σ |y) = 0.3031,
Helga Wagner
Bayes Statistik
2
2
SD σ |y = 0.00907
WS 2010/11
346
Newton Cotes-Formeln
• Wahl von m+1 äquidistanten Stützstellen xi0 = xi < xi1 · · · < xi,m+1 = xi+1
in jedem Intervall [xi, xi+1]
• Berechnung der Funktionswerte g(xi,j )
• Interpolation der m + 1 Punkte (xi,j , g(xi,j )) durch ein Polynom pi(xij ) vom
Grad m
• Integration des Näherungspolynomes
Ti =
Z
xi+1
xi
Helga Wagner
g(x)dx ≈
Bayes Statistik
Z
xi+1
pi(x)dx =
xi
m
X
wij g(xij )
j=0
WS 2010/11
347
Newton Cotes-Formeln
Beispiel Simpson-Regel: m=2 Stützstellen xi0 = xi und xi1 = (xi + xi+1)/2
Z
xi+1
xi
xi+1 − xi f (xi) + 4f ((xi + xi+1)/2) + f (xi+1)
f (x)dx =
6
Durch die Newton-Cotes-Formel werden Polynome
• vom Grad ≤ m für ungerades m
• vom Grad ≤ m + 1 für gerades m
exakt integriert. Der Integrationsfehler hängt von der (m + 1)-ten Ableitung der
zu integrierenden Funktion ab.
Helga Wagner
Bayes Statistik
WS 2010/11
348
Adaptive numerische Integration
adaptive Wahl der Knoten
• Start mit wenigen Knoten −→ Bestimmung des Integrals
• Bestimmung des Integrals mit Zwischenknoten: Bereiche, in denen Integralschätzung noch stark schwankt, werden weiter zerlegt
Die Knoten sind also nicht äquidistant: in schwierigen“ Integrationsbereichen
”
liegen die Knoten dichter als in einfachen“.
”
Eindimensionale (auch uneigentliche) Integrale berechnet die R-Funktion
integrate.
Mehrdimensionale Integrale auf Rechtecksbereichen können mit der R-Funktion
adaptIntegrate des Packages cubature berechnet werden.
Helga Wagner
Bayes Statistik
WS 2010/11
349
Adaptive numerische Integration
Mögliche Probleme bei numerischer Integration:
• Unendlicher Integrationsbereich: Integrationsbereich abschneiden, Transformation
• Singularitäten: stückweise Integration, Transformation
• hochdimensionale Integrale
• numerische Probleme
Helga Wagner
Bayes Statistik
WS 2010/11
350
Berechnung der marginalen Likelihood
Für y1, . . . , yn i.i.d. ∼ N 0, σ
2
ist die Likelihood
n
1 n/2
1 X 2
2
p(y|σ ) = (
) exp − 2
yi
2
2πσ
2σ i=1
Mit wachsendem n konvergiert p(y|σ 2) gegen 0 für σ 2 > 1 bzw. gegen ∞ wenn
σ 2 < 1.
=⇒ Log-Likelihood ist robuster bezüglich Over-/Underflows
n
n
1 X 2
2
2
log p(y|σ ) = − (log(2π) + log(σ )) − 2
yi .
2
2σ i=1
Helga Wagner
Bayes Statistik
WS 2010/11
351
Berechnung der marginalen Likelihood
Beispiel: σ 2,true = 0.1:
n
100
200
1000
p(y|σ 2,true)
3.3162e+039
3.9797e+073
Inf
log p(y|σ 2,true)
91.00
169.47
1273.40
n
100
200
1000
p(y|σ 2,true)
1.5298e-090
5.7630e-178
0
log p(y|σ 2,true)
-206.81
-408.11
-2116.04
Beispiel σ 2,true = 2:
Helga Wagner
Bayes Statistik
WS 2010/11
352
Berechnung der marginalen Likelihood
• Wahl der Knoten ϑ0, . . . , ϑG
• Berechnung der nicht-normierten Log-posteriori-Dichte
l(ϑi) = log(p∗(ϑi|y)) = log(p(y|ϑi)) − log(p(ϑi))
• Bestimmen des Maximums lmax = max l(ϑi)
i=0,...,G
• Berechnung der marginalen Likelihood als
p(y|M) =
Helga Wagner
Z
p⋆(ϑ|y)d ϑ = exp(lmax)
Bayes Statistik
Z
exp(l(ϑ) − lmax)d ϑ
WS 2010/11
353
Berechnung der marginalen Likelihood
Berechnung des Posteriori-Erwartungswertes
R ⋆
ϑp (ϑ|y)d ϑ
R
E(ϑ|y) = ϑp(ϑ|y)d ϑ =
p⋆(ϑ|y)d ϑ
R
exp(lmax) ϑ exp(l(ϑ) − lmax)d ϑ
R
=
exp(lmax) exp(l(ϑ) − lmax)d ϑ
R
ϑ exp(l(ϑ) − lmax)d ϑ
R
=
exp(l(ϑ) − lmax)d ϑ
Z
Analog:
ϑ2 exp(l(ϑ) − lmax)d ϑ
E(ϑ |y) = R
exp(l(ϑ) − lmax)d ϑ
2
Helga Wagner
Bayes Statistik
R
WS 2010/11
354
Numerische Methoden der Bayes-Inferenz:
Laplace- Approximation
Helga Wagner
Bayes Statistik
WS 2010/11
355
Laplace-Approximation
Gesucht sei das Integral
Z
∞
exp(−nh(x))dx
−∞
wobei h(x) eine konvexe, zweimal differenzierbare Funktion ist, die ihr Minimum
an der Stelle x = x̃ hat.
′
Für x̃ gilt damit: h (x̃) =
dh(x̃)
dx
′′
= 0 und h (x̃) =
d2 h(x̃)
dx2
>0
Entwicklung der Funktion h(x) in Taylor-Reihe an der Stelle x̃ ergibt
1
h(x) = h(x̃) + h′(x̃)(x − x̃) + h′′(x̃)(x − x̃)2
2
1
= h(x̃) + h′′(x̃)(x − x̃)2
2
Helga Wagner
Bayes Statistik
WS 2010/11
356
Laplace-Approximation
Für das Integral ergibt sich damit
Z
∞
−∞
∞
1
exp(− nh′′(x̃)(x − x̃)2)du
2
−∞
s
2π
= exp(−nh(x̃))
nh′′(x̃)
exp(−nh(x))dx ≈ exp(−nh(x̃))
Z
Der relative Fehler der Laplace-Approximation ist O( n1 ).
Helga Wagner
Bayes Statistik
WS 2010/11
357
Anwendung der Laplace-Approximation
Die Bestimmung des Posteriori-Erwartungswertes der Funktion g(ϑ)
E(g(ϑ)|y) =
R
g(ϑ)p(y|ϑ)p(ϑ)dϑ
p(y|ϑ)p(ϑ)dϑ
Θ
ΘR
erfordert die Berechnung des Quotienten zweier Integrale mit ähnlichem Integranden.
Die Laplace-Approximation für E(g(ϑ)|y) ist mit einem relativen Fehler von
O( n12 ) genauer als für die marginale Likelihood p(y).
Helga Wagner
Bayes Statistik
WS 2010/11
358
Anwendung der Laplace-Approximation
Mit
−nh(ϑ) = log p(y|ϑ) + log p(ϑ)
ist
−nq(ϑ) = log g(ϑ) + log p(y|ϑ) + log p(ϑ)
R
exp(−nq(ϑ))dϑ
R
.
E(g(ϑ)|y) =
exp(−nh(ϑ))dϑ
Seien ϑ̂ und ϑ̃ die Minimumstellen von h(ϑ) und q(ϑ).
Dann ist
E(g(ϑ)|y) ≈
Helga Wagner
s
Bayes Statistik
h′′(ϑ̂)
exp(−n(q(ϑ̃) − h(ϑ̂))).
′′
q (ϑ̃)
WS 2010/11
359
Anwendung der Laplace-Approximation
Beispiel Verkehrssicherheitsdaten Kinder 6-10: y i.i.d.∼ P (µ)
ges.: Laplace-Aproximation des Posteriori-Erwartungswertes
Mit der konjugierten G (a0, b0)-Priori ist
−nh(µ) = −(n + b0)µ + (ny + a0 − 1) log(µ) + c = −bnµ + (an − 1) log(µ) + c
−nq(µ) = −bnµ + an log(µ) + c
Die ersten Ableitungen erhält man als
d(−nh(µ))
an − 1
= −bn +
dµ
µ
Ihre Nullstellen sind
µ̂ =
Helga Wagner
an − 1
bn
Bayes Statistik
und
d(−nq(µ))
an
= −bn +
dµ
µ
und
µ̃ =
an
bn
WS 2010/11
360
Anwendung der Laplace-Approximation
Die 2. Ableitungen sind gegeben als
d2(−nh(µ))
an − 1 d2(−nq(µ))
an
=
−
=
−
.
dµ2
µ2
dµ2
µ2
An der Stelle der Maxima des Integranden erhält man
b2n
h (µ̂) = −
an − 1
′′
und damit
s
h′′(µ̂)
q ′′(µ̃)
und
=
s
b2n
q (µ̃) = −
an
′′
an − 1
an
Für den Exponenten −n(q(µ̃) − h(µ̂)) erhält man
−n(q(µ̃) − h(µ̂)) = −bn(µ̃ − µ̂) + (an − 1)(log(µ̃) − log(µ̂)) + log(µ̃) =
an
an
= −1 + (an − 1) log(
) + log( )
an − 1
bn
Helga Wagner
Bayes Statistik
WS 2010/11
361
Anwendung der Laplace-Approximation
Damit ergibt sich die Laplace-Approximation für den Posteriori-Erwartungswert
als
E(µ|y) ≈
s
h′′(µ̂)
exp(−n(q(µ̃) − h(µ̂)))
q ′′(µ̃)
r
an
an − 1
an
exp(−1 + (an − 1) log(
) + log( )) =
an
an − 1
bn
r
a
−1
n
an 1
1
an − 1
=
· 1+
bn e
an − 1
an
=
Helga Wagner
Bayes Statistik
WS 2010/11
362
Anwendung der Laplace-Approximation
Tabelle 17: Verkehrssicherheitsdaten Kinder 6-10;, i.i.d. ∼ P (µ)
Genauigkeit der Laplace-Approximation für den Posteriori-Erwartungswert,
bestimmt aus den ersten n∗ Beobachtungen mit G (2, 1)-Priori
n∗
3
6
12
60
292(=n)
Helga Wagner
Posteriori-Mittel
µ
1.5000
2.2857
2.2308
2.1639
1.8394
Bayes Statistik
Approximation
µ∗
1.2535
2.1436
2.1541
2.1476
1.8342
WS 2010/11
rel. Fehler
|µ − µ∗|/µ
0.1644
0.0622
0.0344
0.0076
0.0028
363
Laplace-Approximation eines p-dimensionalen Integrals
Die Laplace-Approximation des p-dimensionalen Integrals
Z
I=
exp(−nh(x))dx
Rp
erfolgt analog zum univariaten Fall.
Eine Taylor-Reihenentwicklung an der Minimumstelle x̃ von h(x) ergibt
1
h(x) ≈ h(x̃) + (x − x̃)′Hh(x − x̃)
2
wobei Hh die p × p-Hesse-Matrix an der Stelle x̃ bezeichnet.
∂ 2h(x) Hh =
∂xi ∂xj x̃
Helga Wagner
Bayes Statistik
WS 2010/11
364
Laplace-Approximation eines p-dimensionalen Integrals
Die Laplace-Approximation von I ist damit gegeben als
2 π p/2
I=
exp(−nh(x))dx =
|H|−1/2 exp(−nh(x̃))
n
Rp
Z
Die Minimumstelle von h(x) ist i.A. nicht bekannt und muss daher zur Anwendung
der Laplace-Approximation bestimmt werden. Die numerische Bestimmung von
Minimum und Krümmung ist z.B. mit der R-Funktion optim möglich.
Helga Wagner
Bayes Statistik
WS 2010/11
365
Erwartungswerte von Funktionen multivariater Parameter
Mit
−nhn(ϑ) = log p(y|ϑ) + log p(ϑ)
−nqn(ϑ) = log g(ϑ) + log p(y|ϑ) + log p(ϑ),
und
ϑ̂ = argminϑ hn(ϑ)
und
ϑ̃ = argminϑ qn(ϑ)
ist die Laplace-Approximation für den Erwartungswert von g(ϑ) gegeben als
E(g(ϑ)) ≈
Helga Wagner
s
|Hh|
exp − n(qn(ϑ̃) − hn(ϑ̂))
|Hq |
Bayes Statistik
WS 2010/11
366
Erwartungswerte von Funktionen multivariater Parameter
Dabei sind Hh und Hq die Hesse-Matrizen an den Minimumstellen:
∂ 2hn(ϑ) Hh =
∂ϑiϑj ϑ̂
Helga Wagner
Bayes Statistik
und
∂ 2qn(ϑ) Hq =
∂ϑiϑj ϑ̃
WS 2010/11
367
Herunterladen