Numerische Methoden der Bayes-Inferenz Helga Wagner Bayes Statistik WS 2010/11 338 Nichtkonjugierte Analyse Bei bekannter Likelihood und Priori-Verteilung kann die nichtnormierte Dichte der Posteriori-Verteilung p⋆(ϑ|y) für beliebige Werte ϑ bestimmt werden. Die normierte Posteriori-Verteilung erfordert die Bestimmung der marginalen Likelihood, d.h. des Integrals Z p(y) = p(y|ϑ)p(ϑ)dϑ. Auch die Bestimmung des Bayes-Schätzers von h(ϑ) bei quadratischer Verlustfunktion erfordert die Berechnung eines Integrals R Z h(ϑ)p(y|ϑ)p(ϑ)dϑ ΘR E(h(ϑ)|y) = h(ϑ)p(ϑ|y)dϑ = p(y|ϑ)p(ϑ)dϑ Θ Θ Helga Wagner Bayes Statistik WS 2010/11 339 Nichtkonjugierte Analyse keine analytische Lösung des Integrals =⇒ • numerische Integration • analytische Approximation: Laplace Approximation • Monte-Carlo-Methoden: Monte-Carlo-Integration, Importance sampling • Markov-Chain-Monte-Carlo (MCMC) Methoden Helga Wagner Bayes Statistik WS 2010/11 340 Beispiel SFr Wechselkurs-Daten Modell: yi = 100(log pi − log pi−1) ∼ tν µ, σ p(y|µ, σ 2, ν) = N Γ((ν + 1)/2) √ N N Γ(ν/2) νπ 1 σ2 2 Likelihood: N/2 Y N 1+ i=1 (yi − µ) νσ 2 2 −(ν+1)/2 . (37) =⇒ keine konjugierte Analyse möglich 2 einfacheres Modell: y ∼ i.i.d. t4 0, σ , d.h. nur die Varianz ist unbekannt Nichtnormierte Posteriori-Dichte: p(σ 2|y) ∝ Helga Wagner 1 σ2 N/2 Y N Bayes Statistik i=1 1+ yi2 4σ 2 −5/2 WS 2010/11 p(σ 2) (38) 341 Beispiel SFr Wechselkurs-Daten Posterior distribution of σ2 −162 2.5 x 10 2 Posterior distribution of σ −299 6 x 10 5 2 4 1.5 3 1 2 0.5 1 0 0.24 0.26 0.28 0.3 0.32 0.34 0.36 0 0.45 0.5 0.55 0.6 0.65 2 σ 2 σ 2 Abbildung 39: SFr Wechselkurs-Daten, Modell: i.i.d. t4 0, σ (links) und N 0, σ 2 (rechts); nichtnormierte Posteriori-Dichte p(σ 2|y) bei nichtinformativer Priori p(σ 2) ∝ 1/σ 2 Posteriori gegenüber dem Normalverteilungsmodell nach links verschoben Helga Wagner Bayes Statistik WS 2010/11 342 Beispiel SFr Wechselkurs-Daten Inferenz: • Posteriori Erwartungswert E(ϑ|y) = Z R ⋆ ϑp (ϑ|y)d ϑ R ϑp(ϑ|y)d ϑ = p⋆(ϑ|y)d ϑ • Posteriori Varianz: Var(ϑ|y) = E(ϑ2|y) − E(ϑ|y)2 2 E(ϑ |y) = Z ϑ2p⋆(ϑ|y)d ϑ ϑ p(ϑ|y)d ϑ = R ⋆ p (ϑ|y)d ϑ 2 R p⋆(ϑ|y) = p(y|ϑ)p(ϑ) ist die nicht-normierte Posteriori-Verteilung. Helga Wagner Bayes Statistik WS 2010/11 343 Numerische Methoden der Bayes-Inferenz: Numerische Integration Helga Wagner Bayes Statistik WS 2010/11 344 Trapezregel Rb Die Trapezregel für ein univariates Integral a g(x)dx basiert auf stückweiser Integration Z b G−1 X Z xi+1 g(x)dx = g(x)dx a i=0 xi mit Knoten x0 = a < x1 < · · · < xG = b Approximation der Teilintegrale durch Fläche des Trapezes in einem Intervall: 1 (xi+1 − xi ) g(xi ) + g(xi+1) 2 Bei gleicher Intervallbreite h = (xi+1 − xi) ist Z Helga Wagner b a n−1 X 1 1 g(x)dx ≈ h ( g(a) + g(xi) + g(b)) 2 2 i=1 Bayes Statistik WS 2010/11 345 Beispiel: SFr Wechselkurs-Daten 1. Bestimmen der Normierungskonstanten: g(ϑ) = p∗(ϑ|y) 2. Bestimmen von Erwartungswert und Varianz der Posteriori-Verteilung g(ϑ) = ϑp(ϑ|y) bzw. g(ϑ) = (ϑ − E(ϑ|y))2p(ϑ|y) SFr Wechselkurs-Daten: yi i.i.d.t4 0, σ 2 E(σ |y) = 0.3031, Helga Wagner Bayes Statistik 2 2 SD σ |y = 0.00907 WS 2010/11 346 Newton Cotes-Formeln • Wahl von m+1 äquidistanten Stützstellen xi0 = xi < xi1 · · · < xi,m+1 = xi+1 in jedem Intervall [xi, xi+1] • Berechnung der Funktionswerte g(xi,j ) • Interpolation der m + 1 Punkte (xi,j , g(xi,j )) durch ein Polynom pi(xij ) vom Grad m • Integration des Näherungspolynomes Ti = Z xi+1 xi Helga Wagner g(x)dx ≈ Bayes Statistik Z xi+1 pi(x)dx = xi m X wij g(xij ) j=0 WS 2010/11 347 Newton Cotes-Formeln Beispiel Simpson-Regel: m=2 Stützstellen xi0 = xi und xi1 = (xi + xi+1)/2 Z xi+1 xi xi+1 − xi f (xi) + 4f ((xi + xi+1)/2) + f (xi+1) f (x)dx = 6 Durch die Newton-Cotes-Formel werden Polynome • vom Grad ≤ m für ungerades m • vom Grad ≤ m + 1 für gerades m exakt integriert. Der Integrationsfehler hängt von der (m + 1)-ten Ableitung der zu integrierenden Funktion ab. Helga Wagner Bayes Statistik WS 2010/11 348 Adaptive numerische Integration adaptive Wahl der Knoten • Start mit wenigen Knoten −→ Bestimmung des Integrals • Bestimmung des Integrals mit Zwischenknoten: Bereiche, in denen Integralschätzung noch stark schwankt, werden weiter zerlegt Die Knoten sind also nicht äquidistant: in schwierigen“ Integrationsbereichen ” liegen die Knoten dichter als in einfachen“. ” Eindimensionale (auch uneigentliche) Integrale berechnet die R-Funktion integrate. Mehrdimensionale Integrale auf Rechtecksbereichen können mit der R-Funktion adaptIntegrate des Packages cubature berechnet werden. Helga Wagner Bayes Statistik WS 2010/11 349 Adaptive numerische Integration Mögliche Probleme bei numerischer Integration: • Unendlicher Integrationsbereich: Integrationsbereich abschneiden, Transformation • Singularitäten: stückweise Integration, Transformation • hochdimensionale Integrale • numerische Probleme Helga Wagner Bayes Statistik WS 2010/11 350 Berechnung der marginalen Likelihood Für y1, . . . , yn i.i.d. ∼ N 0, σ 2 ist die Likelihood n 1 n/2 1 X 2 2 p(y|σ ) = ( ) exp − 2 yi 2 2πσ 2σ i=1 Mit wachsendem n konvergiert p(y|σ 2) gegen 0 für σ 2 > 1 bzw. gegen ∞ wenn σ 2 < 1. =⇒ Log-Likelihood ist robuster bezüglich Over-/Underflows n n 1 X 2 2 2 log p(y|σ ) = − (log(2π) + log(σ )) − 2 yi . 2 2σ i=1 Helga Wagner Bayes Statistik WS 2010/11 351 Berechnung der marginalen Likelihood Beispiel: σ 2,true = 0.1: n 100 200 1000 p(y|σ 2,true) 3.3162e+039 3.9797e+073 Inf log p(y|σ 2,true) 91.00 169.47 1273.40 n 100 200 1000 p(y|σ 2,true) 1.5298e-090 5.7630e-178 0 log p(y|σ 2,true) -206.81 -408.11 -2116.04 Beispiel σ 2,true = 2: Helga Wagner Bayes Statistik WS 2010/11 352 Berechnung der marginalen Likelihood • Wahl der Knoten ϑ0, . . . , ϑG • Berechnung der nicht-normierten Log-posteriori-Dichte l(ϑi) = log(p∗(ϑi|y)) = log(p(y|ϑi)) − log(p(ϑi)) • Bestimmen des Maximums lmax = max l(ϑi) i=0,...,G • Berechnung der marginalen Likelihood als p(y|M) = Helga Wagner Z p⋆(ϑ|y)d ϑ = exp(lmax) Bayes Statistik Z exp(l(ϑ) − lmax)d ϑ WS 2010/11 353 Berechnung der marginalen Likelihood Berechnung des Posteriori-Erwartungswertes R ⋆ ϑp (ϑ|y)d ϑ R E(ϑ|y) = ϑp(ϑ|y)d ϑ = p⋆(ϑ|y)d ϑ R exp(lmax) ϑ exp(l(ϑ) − lmax)d ϑ R = exp(lmax) exp(l(ϑ) − lmax)d ϑ R ϑ exp(l(ϑ) − lmax)d ϑ R = exp(l(ϑ) − lmax)d ϑ Z Analog: ϑ2 exp(l(ϑ) − lmax)d ϑ E(ϑ |y) = R exp(l(ϑ) − lmax)d ϑ 2 Helga Wagner Bayes Statistik R WS 2010/11 354 Numerische Methoden der Bayes-Inferenz: Laplace- Approximation Helga Wagner Bayes Statistik WS 2010/11 355 Laplace-Approximation Gesucht sei das Integral Z ∞ exp(−nh(x))dx −∞ wobei h(x) eine konvexe, zweimal differenzierbare Funktion ist, die ihr Minimum an der Stelle x = x̃ hat. ′ Für x̃ gilt damit: h (x̃) = dh(x̃) dx ′′ = 0 und h (x̃) = d2 h(x̃) dx2 >0 Entwicklung der Funktion h(x) in Taylor-Reihe an der Stelle x̃ ergibt 1 h(x) = h(x̃) + h′(x̃)(x − x̃) + h′′(x̃)(x − x̃)2 2 1 = h(x̃) + h′′(x̃)(x − x̃)2 2 Helga Wagner Bayes Statistik WS 2010/11 356 Laplace-Approximation Für das Integral ergibt sich damit Z ∞ −∞ ∞ 1 exp(− nh′′(x̃)(x − x̃)2)du 2 −∞ s 2π = exp(−nh(x̃)) nh′′(x̃) exp(−nh(x))dx ≈ exp(−nh(x̃)) Z Der relative Fehler der Laplace-Approximation ist O( n1 ). Helga Wagner Bayes Statistik WS 2010/11 357 Anwendung der Laplace-Approximation Die Bestimmung des Posteriori-Erwartungswertes der Funktion g(ϑ) E(g(ϑ)|y) = R g(ϑ)p(y|ϑ)p(ϑ)dϑ p(y|ϑ)p(ϑ)dϑ Θ ΘR erfordert die Berechnung des Quotienten zweier Integrale mit ähnlichem Integranden. Die Laplace-Approximation für E(g(ϑ)|y) ist mit einem relativen Fehler von O( n12 ) genauer als für die marginale Likelihood p(y). Helga Wagner Bayes Statistik WS 2010/11 358 Anwendung der Laplace-Approximation Mit −nh(ϑ) = log p(y|ϑ) + log p(ϑ) ist −nq(ϑ) = log g(ϑ) + log p(y|ϑ) + log p(ϑ) R exp(−nq(ϑ))dϑ R . E(g(ϑ)|y) = exp(−nh(ϑ))dϑ Seien ϑ̂ und ϑ̃ die Minimumstellen von h(ϑ) und q(ϑ). Dann ist E(g(ϑ)|y) ≈ Helga Wagner s Bayes Statistik h′′(ϑ̂) exp(−n(q(ϑ̃) − h(ϑ̂))). ′′ q (ϑ̃) WS 2010/11 359 Anwendung der Laplace-Approximation Beispiel Verkehrssicherheitsdaten Kinder 6-10: y i.i.d.∼ P (µ) ges.: Laplace-Aproximation des Posteriori-Erwartungswertes Mit der konjugierten G (a0, b0)-Priori ist −nh(µ) = −(n + b0)µ + (ny + a0 − 1) log(µ) + c = −bnµ + (an − 1) log(µ) + c −nq(µ) = −bnµ + an log(µ) + c Die ersten Ableitungen erhält man als d(−nh(µ)) an − 1 = −bn + dµ µ Ihre Nullstellen sind µ̂ = Helga Wagner an − 1 bn Bayes Statistik und d(−nq(µ)) an = −bn + dµ µ und µ̃ = an bn WS 2010/11 360 Anwendung der Laplace-Approximation Die 2. Ableitungen sind gegeben als d2(−nh(µ)) an − 1 d2(−nq(µ)) an = − = − . dµ2 µ2 dµ2 µ2 An der Stelle der Maxima des Integranden erhält man b2n h (µ̂) = − an − 1 ′′ und damit s h′′(µ̂) q ′′(µ̃) und = s b2n q (µ̃) = − an ′′ an − 1 an Für den Exponenten −n(q(µ̃) − h(µ̂)) erhält man −n(q(µ̃) − h(µ̂)) = −bn(µ̃ − µ̂) + (an − 1)(log(µ̃) − log(µ̂)) + log(µ̃) = an an = −1 + (an − 1) log( ) + log( ) an − 1 bn Helga Wagner Bayes Statistik WS 2010/11 361 Anwendung der Laplace-Approximation Damit ergibt sich die Laplace-Approximation für den Posteriori-Erwartungswert als E(µ|y) ≈ s h′′(µ̂) exp(−n(q(µ̃) − h(µ̂))) q ′′(µ̃) r an an − 1 an exp(−1 + (an − 1) log( ) + log( )) = an an − 1 bn r a −1 n an 1 1 an − 1 = · 1+ bn e an − 1 an = Helga Wagner Bayes Statistik WS 2010/11 362 Anwendung der Laplace-Approximation Tabelle 17: Verkehrssicherheitsdaten Kinder 6-10;, i.i.d. ∼ P (µ) Genauigkeit der Laplace-Approximation für den Posteriori-Erwartungswert, bestimmt aus den ersten n∗ Beobachtungen mit G (2, 1)-Priori n∗ 3 6 12 60 292(=n) Helga Wagner Posteriori-Mittel µ 1.5000 2.2857 2.2308 2.1639 1.8394 Bayes Statistik Approximation µ∗ 1.2535 2.1436 2.1541 2.1476 1.8342 WS 2010/11 rel. Fehler |µ − µ∗|/µ 0.1644 0.0622 0.0344 0.0076 0.0028 363 Laplace-Approximation eines p-dimensionalen Integrals Die Laplace-Approximation des p-dimensionalen Integrals Z I= exp(−nh(x))dx Rp erfolgt analog zum univariaten Fall. Eine Taylor-Reihenentwicklung an der Minimumstelle x̃ von h(x) ergibt 1 h(x) ≈ h(x̃) + (x − x̃)′Hh(x − x̃) 2 wobei Hh die p × p-Hesse-Matrix an der Stelle x̃ bezeichnet. ∂ 2h(x) Hh = ∂xi ∂xj x̃ Helga Wagner Bayes Statistik WS 2010/11 364 Laplace-Approximation eines p-dimensionalen Integrals Die Laplace-Approximation von I ist damit gegeben als 2 π p/2 I= exp(−nh(x))dx = |H|−1/2 exp(−nh(x̃)) n Rp Z Die Minimumstelle von h(x) ist i.A. nicht bekannt und muss daher zur Anwendung der Laplace-Approximation bestimmt werden. Die numerische Bestimmung von Minimum und Krümmung ist z.B. mit der R-Funktion optim möglich. Helga Wagner Bayes Statistik WS 2010/11 365 Erwartungswerte von Funktionen multivariater Parameter Mit −nhn(ϑ) = log p(y|ϑ) + log p(ϑ) −nqn(ϑ) = log g(ϑ) + log p(y|ϑ) + log p(ϑ), und ϑ̂ = argminϑ hn(ϑ) und ϑ̃ = argminϑ qn(ϑ) ist die Laplace-Approximation für den Erwartungswert von g(ϑ) gegeben als E(g(ϑ)) ≈ Helga Wagner s |Hh| exp − n(qn(ϑ̃) − hn(ϑ̂)) |Hq | Bayes Statistik WS 2010/11 366 Erwartungswerte von Funktionen multivariater Parameter Dabei sind Hh und Hq die Hesse-Matrizen an den Minimumstellen: ∂ 2hn(ϑ) Hh = ∂ϑiϑj ϑ̂ Helga Wagner Bayes Statistik und ∂ 2qn(ϑ) Hq = ∂ϑiϑj ϑ̃ WS 2010/11 367