Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik Helga Wagner und Gero Walter 1 1.1 Verteilungen Diskrete Verteilungen Binomialverteilung: Y ∼ BiNom (n, π) Parameter: n > 0, π ∈ [0, 1] Wahrscheinlichkeitsfunktion: ( ) n P (Y = y|π) = π y (1 − π)n−y , y für y ∈ {0, 1, 2, . . . , n} Momente: E(Y |π) = nπ Var(Y |π) = nπ(1 − π) Poissonverteilung: Y ∼ P (µ) Parameter: µ > 0 Wahrscheinlichkeitsfunktion: P (Y = y|µ) = µy −µ e , y! für y ∈ {0, 1, 2, . . .} Momente: E(Y |µ) = Var(Y |µ) = µ Negative Binomialverteilung: Y ∼ NegBin (α, β) Parameter: α, β > 0 Wahrscheinlichkeitsfunktion: ( ) α + y − 1 ( β )α ( 1 )y P (Y = y|α, β) = α−1 β+1 β+1 Momente: E(Y |α, β) = α β Var(Y |α, β) = 1 für y ∈ {0, 1, 2, . . .} α (β + 1) β2 Beta-Binomialverteilung: Y ∼ BetaBin (n, α, β) Parameter: n > 0,α, β > 0 Wahrscheinlichkeitsfunktion: ( ) n B(α + y, β + n − y) P (Y = y|n, α, β) = y B(α, β) für y ∈ {0, 1, 2, . . . , n} Momente: E(Y |n, α, β) = n 1.2 α α+β Var(Y |n, α, β) = n αβ α + β + n (α + β)2 α + β + 1 Stetige Verteilungen Univariate Normalverteilung: Y ∼ N (µ, σ 2 ) Parameter: µ ∈ R, σ 2 > 0 Dichtefunktion: p(y|µ, σ 2 ) = √ ( 1 (y − µ)2 ) exp − 2 σ2 2πσ 2 1 Momente: E(Y |µ, σ 2 ) = µ Var(Y |µ, σ 2 ) = σ 2 Multivariate Normalverteilung: Y ∼ Nd (µ, Σ) Parameter: µ ∈ Rd , Σ ∈ Rd×d symmetrisch und positiv definit Dichtefunktion: ( 1 ) p(y|µ, Σ) = (2π)−d/2 |Σ|−1/2 exp − (y − µ)′ Σ−1 (y − µ) 2 Momente: E(Y|µ, Σ) = µ Var(Y|µ, Σ) = Σ 2 Studentverteilung: Y ∼ tν (µ, σ) Parameter: µ ∈ R, σ 2 , ν > 0 Dichtefunktion: ) Γ( ν+1 p(y|µ, σ , ν) = ν √2 Γ( 2 ) νπσ 2 ( (y − µ)2 1+ νσ 2 )−(ν+1)/2 . Momente: E(Y |µ, σ 2 , ν) = µ für ν > 1 ν Var(Y |µ, σ 2 , ν) = σ 2 für ν > 2 ν−2 Es gilt: Ist ( ) Y |ω ∼ N µ, σ 2 /ω dann ist mit ω ∼ G (ν/2, ν/2) , ( ) Y ∼ tν µ, σ 2 . Betaverteilung: y ∼ B (a, b) Parameter: a, b > 0 Dichtefunktion: p(y|a, b) = 1 y a−1 (1 − y)b−1 B(a, b) für y ∈ [0, 1] Momente: E(Y |a, b) = Modus: mod(Y |a, b) = a a+b a−1 a+b−2 Var(Y |a, b) = ab (a + b)2 (a wenn a, b > 1 Gammaverteilung: Y ∼ G (a, b) Parameter: a, b > 0 Dichtefunktion: p(y|a, b) = ba a−1 −by y e Γ(a) Momente: E(Y |a, b) = Modus: mod(Y |a, b) = a b für y > 0 Var(Y |a, b) = a−1 b 3 a . b2 + b + 1) Inverse Gammaverteilung: Y ∼ G −1 (a, b) Parameter: a, b > 0 Dichtefunktion: p(y|a, b) = ba −a−1 −b/y y e Γ(a) für y > 0 b a−1 für a ≥ 1 b2 (a − 1)2 (a − 2) für a ≥ 2 Momente: E(Y |a, b) = Var(Y |a, b) = Modus: mod(Y |a, b) = Es gilt: Y ∼ G −1 (a, b) b a+1 ⇐⇒ 1/Y ∼ G (a, b) Weibullverteilung: Y ∼ Wb (α, θ) Parameter: α, θ > 0 Dichtefunktion: p(y|α, θ) = αθy α−1 e−θy α für y > 0 Momente: E(Y |α, θ) = θ−1/α Γ( 1 + 1) α ( 2 ) 1 Var(Y |α, θ) = θ−2/α Γ( + 1) − Γ( + 1)2 α α p-parametrische Exponentialfamilie Dichtefunktion: p(y|γ) = h(y) exp( p ∑ ϑj (γ)tj (y) − a(γ)) j=1 wobei a, h und tj , ϑj , j = 1, . . . p reellwertige Funktionen sind. Kanonische Parametrisierung: p(y|ϑ) = h(y) exp(ϑ′ t(y) − b(ϑ)) 2 Bayes Inferenz Transformationssatz für Dichten Ist y = t(x) eine streng monotone, stetige differenzierbare Funktion mit Umkehrfunktion x = s(y), so ist die Dichtefunktion von Y = t(X) gegeben als ( ) ds(y) pY (y) = pX s(y) dy 4 Bayes-Faktor von Modell M1 im Vergleich zu M2 . B12 = p(y|M1 )/p(y|M2 ) Candidate’s formula p(y|Mk ) = p(y|ϑ, Mk )p(ϑ|Mk ) p(ϑ|y, Mk ) Posteriori-prädiktive Verteilung ∫ ∫ p(yf |y) = p(yf , ϑ|y)dϑ = p(yf |ϑ)p(ϑ|y)dϑ Θ Jeffreys’ Priori p(ϑ) ∝ √ I(ϑ), wobei I(ϑ) die erwartete Fisher-Information von ϑ im Modell p(y|ϑ) ist. Erwarteter Verlust bezüglich der Posteriori-Verteilung ∫ E(l(a, ϑ)|y) = l(a, ϑ)p(ϑ|y)dϑ Ein Bayes-Schätzer ϑ̂(y) minimiert den erwarteten Verlust E(l(ϑ̂(y), ϑ)|y). Risiko Verlustfunktion: l(a, ϑ) frequentistisches Risiko: ∫ R(d, ϑ) = l(d(y), ϑ)p(y|ϑ)dy Bayes-Risiko bei Priori-Verteilung π(ϑ): ∫ r(d, π) = R(d, ϑ)π(ϑ)dϑ Stetige Asymptotik Sei ϑ̂ der ML-Schätzer, ϑ⋆ der Posteriorimodus und H die Hesse-Matrix der Log-Likelihood. Dann gelten folgende Aussagen: ) ( ϑ|y ∼ N ϑ̂, H(ϑ̂)−1 bzw. ( ) ϑ|y ∼ N ϑ̂, nI(ϑ̂)−1 bzw. ( ) p(ϑ|y) ≈ N ϑ⋆ , (n · H(ϑ⋆ ))−1 5 3 Numerische Methoden der Bayes-Inferenz Trapezregel Bei konstanter Intervallbreite h = (xi+1 − xi ) ist ∫ a b ∑ 1 1 g(x)dx ≈ h ( g(a) + g(xi ) + g(b)) 2 2 i=1 n−1 Laplace-Approximation ∫ ∞ ∫ ∞ 1 exp(−nh(x))dx ≈ exp(−nh(x̃)) exp(− nh′′ (x̃)(x − x̃)2 )du = 2 −∞ √−∞ 2π = exp(−nh(x̃)) nh′′ (x̃) Mit −nh(ϑ) = log p(y|ϑ) + log p(ϑ) −nq(ϑ) = log g(ϑ) + log p(y|ϑ) + log p(ϑ) √ ist E(g(ϑ)|y) ≈ h′′ (ϑ̂) exp(−n(q(ϑ̃) − h(ϑ̂))). q ′′ (ϑ̃) wenn ϑ̂ und ϑ̃ die Minimumstellen von h(ϑ) und q(ϑ) sind. multivariate Laplace-Approximation: ∫ ( 2 π )p/2 |H|−1/2 exp(−nh(x̃)) I= exp(−nh(x))dx = n p R Mit −nhn (ϑ) = log p(y|ϑ) + log p(ϑ) −nqn (ϑ) = log g(ϑ) + log p(y|ϑ) + log p(ϑ), und ϑ̂ = argminϑ hn (ϑ) und ϑ̃ = argminϑ qn (ϑ) ist die Laplace-Approximation für den Erwartungswert von g(ϑ) gegeben als √ ( ) |Hh | exp − n(qn (ϑ̃) − hn (ϑ̂)) E(g(ϑ)) ≈ |Hq | 6 Monte-Carlo-Integration Sind y (1) , . . . , y (M ) i.i.d. aus p(y), so gilt: ∫ E(g(y)) = und √ g(y)p(y) ≈ g M M 1 ∑ = g(y (i) ) M i=1 M (gM − E(g(y))) ∼ N (0, Var(g)) Verwerfungsmethode Sei c ≥ 1, sodass gZ (z)c ≥ fY (z) für alle z mit fY (z) > 0. Eine Ziehung aus fY (z) erhält man mit folgendem Algorithmus: • ziehe z ∼ gZ • ziehe u ∼ U [0, 1]. • Wenn u≤ fY (z) gZ (z)c akzeptiere z, sonst verwirf z. Importance Sampling ) ( ∫ g(ϑ)p(ϑ|y) g(ϑ)p(ϑ|y) E(g(ϑ)|y) = q(ϑ)dϑ = Eq q(ϑ) q(ϑ) kann approximiert werden durch g IS M M M (m) 1 ∑ |y) 1 ∑ (m) p(ϑ = g(ϑ ) = g(ϑ(m) )w(ϑ(m) ) (m) M m=1 M m=1 q(ϑ ) wobei ϑ(1) , . . . , ϑ(M ) i.i.d. Ziehungen aus der Verteilung mit Dichte q(ϑ) sind. ( ) Ist die Varianz Varq g(ϑ)p(ϑ|y) endlich, so gilt q(ϑ) √ M ( g IS M ) − Ep (g(ϑ)) ∼ N ( ( 0, Varq 7 g(ϑ)p(ϑ|y) q(ϑ) )) . Metropolis-Hastings-Algorithmus Der Vorschlag ϑnew aus q(ϑnew |ϑold ) wird mit Wahrscheinlichkeit ( p(ϑnew |y)q(ϑold |ϑnew ) ) α(ϑnew |ϑold ) = α(ϑold , ϑnew ) = min 1, p(ϑold |y) q(ϑnew |ϑold ) akzeptiert, d.h. ϑ(m) = ϑnew sonst wird ϑold beibehalten, dh. ϑ(m) = ϑold . Gibbs Sampling Algorithmus (0) Wähle Startwerte für ϑ2 , . . . , ϑ(0) p und wiederhole für m = 1, . . . , M : (m) aus p(ϑ1 |ϑ2 (m) aus p(ϑ2 |ϑ1 , ϑ3 • Ziehe ϑ1 • Ziehe ϑ2 (m−1) (m) , . . . , ϑ(m−1) , y), p (m−1) , . . . , ϑ(m−1) , y), p .. . (m) (m) • Ziehe ϑ(m) aus p(ϑp |ϑ1 , . . . , ϑp−1 , y). p 8