Einführung in die Bayes-Statistik 1 Verteilungen

Werbung
Formelsammlung zur Vorlesung:
Einführung in die Bayes-Statistik
Helga Wagner und Gero Walter
1
1.1
Verteilungen
Diskrete Verteilungen
Binomialverteilung: Y ∼ BiNom (n, π)
Parameter: n > 0, π ∈ [0, 1]
Wahrscheinlichkeitsfunktion:
( )
n
P (Y = y|π) =
π y (1 − π)n−y ,
y
für y ∈ {0, 1, 2, . . . , n}
Momente:
E(Y |π) = nπ
Var(Y |π) = nπ(1 − π)
Poissonverteilung: Y ∼ P (µ)
Parameter: µ > 0
Wahrscheinlichkeitsfunktion:
P (Y = y|µ) =
µy −µ
e ,
y!
für y ∈ {0, 1, 2, . . .}
Momente:
E(Y |µ) = Var(Y |µ) = µ
Negative Binomialverteilung: Y ∼ NegBin (α, β)
Parameter: α, β > 0
Wahrscheinlichkeitsfunktion:
(
)
α + y − 1 ( β )α ( 1 )y
P (Y = y|α, β) =
α−1
β+1
β+1
Momente:
E(Y |α, β) =
α
β
Var(Y |α, β) =
1
für y ∈ {0, 1, 2, . . .}
α
(β + 1)
β2
Beta-Binomialverteilung: Y ∼ BetaBin (n, α, β)
Parameter: n > 0,α, β > 0
Wahrscheinlichkeitsfunktion:
( )
n B(α + y, β + n − y)
P (Y = y|n, α, β) =
y
B(α, β)
für y ∈ {0, 1, 2, . . . , n}
Momente:
E(Y |n, α, β) = n
1.2
α
α+β
Var(Y |n, α, β) = n
αβ α + β + n
(α + β)2 α + β + 1
Stetige Verteilungen
Univariate Normalverteilung: Y ∼ N (µ, σ 2 )
Parameter: µ ∈ R, σ 2 > 0
Dichtefunktion:
p(y|µ, σ 2 ) = √
( 1 (y − µ)2 )
exp −
2 σ2
2πσ 2
1
Momente:
E(Y |µ, σ 2 ) = µ
Var(Y |µ, σ 2 ) = σ 2
Multivariate Normalverteilung: Y ∼ Nd (µ, Σ)
Parameter: µ ∈ Rd , Σ ∈ Rd×d symmetrisch und positiv definit
Dichtefunktion:
( 1
)
p(y|µ, Σ) = (2π)−d/2 |Σ|−1/2 exp − (y − µ)′ Σ−1 (y − µ)
2
Momente:
E(Y|µ, Σ) = µ
Var(Y|µ, Σ) = Σ
2
Studentverteilung: Y ∼ tν (µ, σ)
Parameter: µ ∈ R, σ 2 , ν > 0
Dichtefunktion:
)
Γ( ν+1
p(y|µ, σ , ν) = ν √2
Γ( 2 ) νπσ
2
(
(y − µ)2
1+
νσ 2
)−(ν+1)/2
.
Momente:
E(Y |µ, σ 2 , ν) = µ für ν > 1
ν
Var(Y |µ, σ 2 , ν) = σ 2
für ν > 2
ν−2
Es gilt: Ist
(
)
Y |ω ∼ N µ, σ 2 /ω
dann ist
mit ω ∼ G (ν/2, ν/2) ,
(
)
Y ∼ tν µ, σ 2 .
Betaverteilung: y ∼ B (a, b)
Parameter: a, b > 0
Dichtefunktion:
p(y|a, b) =
1
y a−1 (1 − y)b−1
B(a, b)
für y ∈ [0, 1]
Momente:
E(Y |a, b) =
Modus: mod(Y |a, b) =
a
a+b
a−1
a+b−2
Var(Y |a, b) =
ab
(a +
b)2 (a
wenn a, b > 1
Gammaverteilung: Y ∼ G (a, b)
Parameter: a, b > 0
Dichtefunktion:
p(y|a, b) =
ba a−1 −by
y e
Γ(a)
Momente:
E(Y |a, b) =
Modus: mod(Y |a, b) =
a
b
für y > 0
Var(Y |a, b) =
a−1
b
3
a
.
b2
+ b + 1)
Inverse Gammaverteilung: Y ∼ G −1 (a, b)
Parameter: a, b > 0
Dichtefunktion:
p(y|a, b) =
ba −a−1 −b/y
y
e
Γ(a)
für y > 0
b
a−1
für a ≥ 1
b2
(a − 1)2 (a − 2)
für a ≥ 2
Momente:
E(Y |a, b) =
Var(Y |a, b) =
Modus: mod(Y |a, b) =
Es gilt: Y ∼ G −1 (a, b)
b
a+1
⇐⇒
1/Y ∼ G (a, b)
Weibullverteilung: Y ∼ Wb (α, θ)
Parameter: α, θ > 0
Dichtefunktion:
p(y|α, θ) = αθy α−1 e−θy
α
für y > 0
Momente:
E(Y |α, θ) = θ−1/α Γ(
1
+ 1)
α
( 2
)
1
Var(Y |α, θ) = θ−2/α Γ( + 1) − Γ( + 1)2
α
α
p-parametrische Exponentialfamilie
Dichtefunktion:
p(y|γ) = h(y) exp(
p
∑
ϑj (γ)tj (y) − a(γ))
j=1
wobei a, h und tj , ϑj ,
j = 1, . . . p reellwertige Funktionen sind.
Kanonische Parametrisierung:
p(y|ϑ) = h(y) exp(ϑ′ t(y) − b(ϑ))
2
Bayes Inferenz
Transformationssatz für Dichten Ist y = t(x) eine streng monotone,
stetige differenzierbare Funktion mit Umkehrfunktion x = s(y), so ist die
Dichtefunktion von Y = t(X) gegeben als
(
) ds(y) pY (y) = pX s(y) dy
4
Bayes-Faktor von Modell M1 im Vergleich zu M2 .
B12 = p(y|M1 )/p(y|M2 )
Candidate’s formula
p(y|Mk ) =
p(y|ϑ, Mk )p(ϑ|Mk )
p(ϑ|y, Mk )
Posteriori-prädiktive Verteilung
∫
∫
p(yf |y) =
p(yf , ϑ|y)dϑ = p(yf |ϑ)p(ϑ|y)dϑ
Θ
Jeffreys’ Priori
p(ϑ) ∝
√
I(ϑ),
wobei I(ϑ) die erwartete Fisher-Information von ϑ im Modell p(y|ϑ) ist.
Erwarteter Verlust bezüglich der Posteriori-Verteilung
∫
E(l(a, ϑ)|y) = l(a, ϑ)p(ϑ|y)dϑ
Ein Bayes-Schätzer ϑ̂(y) minimiert den erwarteten Verlust E(l(ϑ̂(y), ϑ)|y).
Risiko
Verlustfunktion: l(a, ϑ)
frequentistisches Risiko:
∫
R(d, ϑ) =
l(d(y), ϑ)p(y|ϑ)dy
Bayes-Risiko bei Priori-Verteilung π(ϑ):
∫
r(d, π) = R(d, ϑ)π(ϑ)dϑ
Stetige Asymptotik
Sei ϑ̂ der ML-Schätzer, ϑ⋆ der Posteriorimodus und H die Hesse-Matrix der
Log-Likelihood. Dann gelten folgende Aussagen:
)
(
ϑ|y ∼ N ϑ̂, H(ϑ̂)−1
bzw.
(
)
ϑ|y ∼ N ϑ̂, nI(ϑ̂)−1
bzw.
(
)
p(ϑ|y) ≈ N ϑ⋆ , (n · H(ϑ⋆ ))−1
5
3
Numerische Methoden der Bayes-Inferenz
Trapezregel
Bei konstanter Intervallbreite h = (xi+1 − xi ) ist
∫
a
b
∑
1
1
g(x)dx ≈ h ( g(a) +
g(xi ) + g(b))
2
2
i=1
n−1
Laplace-Approximation
∫ ∞
∫ ∞
1
exp(−nh(x))dx ≈ exp(−nh(x̃))
exp(− nh′′ (x̃)(x − x̃)2 )du =
2
−∞
√−∞
2π
= exp(−nh(x̃))
nh′′ (x̃)
Mit
−nh(ϑ) = log p(y|ϑ) + log p(ϑ)
−nq(ϑ) = log g(ϑ) + log p(y|ϑ) + log p(ϑ)
√
ist
E(g(ϑ)|y) ≈
h′′ (ϑ̂)
exp(−n(q(ϑ̃) − h(ϑ̂))).
q ′′ (ϑ̃)
wenn ϑ̂ und ϑ̃ die Minimumstellen von h(ϑ) und q(ϑ) sind.
multivariate Laplace-Approximation:
∫
( 2 π )p/2
|H|−1/2 exp(−nh(x̃))
I=
exp(−nh(x))dx =
n
p
R
Mit
−nhn (ϑ) = log p(y|ϑ) + log p(ϑ)
−nqn (ϑ) = log g(ϑ) + log p(y|ϑ) + log p(ϑ),
und
ϑ̂ = argminϑ hn (ϑ)
und
ϑ̃ = argminϑ qn (ϑ)
ist die Laplace-Approximation für den Erwartungswert von g(ϑ) gegeben als
√
(
)
|Hh |
exp − n(qn (ϑ̃) − hn (ϑ̂))
E(g(ϑ)) ≈
|Hq |
6
Monte-Carlo-Integration
Sind y (1) , . . . , y (M ) i.i.d. aus p(y), so gilt:
∫
E(g(y)) =
und
√
g(y)p(y) ≈ g M
M
1 ∑
=
g(y (i) )
M i=1
M (gM − E(g(y))) ∼ N (0, Var(g))
Verwerfungsmethode
Sei c ≥ 1, sodass
gZ (z)c ≥ fY (z)
für alle z mit fY (z) > 0.
Eine Ziehung aus fY (z) erhält man mit folgendem Algorithmus:
• ziehe z ∼ gZ
• ziehe u ∼ U [0, 1].
• Wenn
u≤
fY (z)
gZ (z)c
akzeptiere z, sonst verwirf z.
Importance Sampling
)
(
∫
g(ϑ)p(ϑ|y)
g(ϑ)p(ϑ|y)
E(g(ϑ)|y) =
q(ϑ)dϑ = Eq
q(ϑ)
q(ϑ)
kann approximiert werden durch
g IS
M
M
M
(m)
1 ∑
|y)
1 ∑
(m) p(ϑ
=
g(ϑ )
=
g(ϑ(m) )w(ϑ(m) )
(m)
M m=1
M m=1
q(ϑ )
wobei ϑ(1) , . . . , ϑ(M ) i.i.d. Ziehungen aus der Verteilung mit Dichte q(ϑ) sind.
(
)
Ist die Varianz Varq g(ϑ)p(ϑ|y)
endlich, so gilt
q(ϑ)
√
M
(
g IS
M
)
− Ep (g(ϑ)) ∼ N
(
(
0, Varq
7
g(ϑ)p(ϑ|y)
q(ϑ)
))
.
Metropolis-Hastings-Algorithmus
Der Vorschlag ϑnew aus q(ϑnew |ϑold ) wird mit Wahrscheinlichkeit
( p(ϑnew |y)q(ϑold |ϑnew ) )
α(ϑnew |ϑold ) = α(ϑold , ϑnew ) = min 1,
p(ϑold |y) q(ϑnew |ϑold )
akzeptiert, d.h.
ϑ(m) = ϑnew
sonst wird ϑold beibehalten, dh.
ϑ(m) = ϑold .
Gibbs Sampling Algorithmus
(0)
Wähle Startwerte für ϑ2 , . . . , ϑ(0)
p und wiederhole für m = 1, . . . , M :
(m)
aus p(ϑ1 |ϑ2
(m)
aus p(ϑ2 |ϑ1 , ϑ3
• Ziehe ϑ1
• Ziehe ϑ2
(m−1)
(m)
, . . . , ϑ(m−1)
, y),
p
(m−1)
, . . . , ϑ(m−1)
, y),
p
..
.
(m)
(m)
• Ziehe ϑ(m)
aus p(ϑp |ϑ1 , . . . , ϑp−1 , y).
p
8
Herunterladen