Formelsammlung zur Vorlesung Schätzen und Testen I

Werbung
Schätzen und Testen I
Ludwig Fahrmeir, Christian Heumann, Christiane Dargatz
WS 2008/09
Formelsammlung zur Vorlesung
Schätzen und Testen I
1
1.1
Einführung in statistische Modelle und Inferenzkonzepte
Statistische Entscheidungstheorie
Entscheidungsfunktion:
d: X → D
x 7→ d(x)
Verlustfunktion:
L:D×Θ → R
(d, θ) 7→ L(d, θ)
Risikofunktion:
R(d; θ)
=
=
Eθ [L(d(X); θ)]
Z
L(d(x); θ)f (x|θ) dx
X
Minimax-Entscheidungsregel:
Eine Entscheidungsregel d∗ : X → D heißt Minimax, falls sie das supremale Risiko minimiert:
sup R(d∗ ; θ) ≤ sup R(d; θ)∀d ∈ D ⇔ d∗ = arg inf sup R(d; θ)
θ∈Θ
d∈D θ∈Θ
θ∈Θ
Bayes-Risiko:
Z
r(d; p)
=
R(d; θ)p(θ) dθ
Θ
= Ep [R(d; θ)]
= Ep Eθ [L(d(X); θ)]
Z Z
=
L(d(x); θ)f (x|θ) dx p(θ) dθ
Θ
X
Bayes-optimaler Schätzer: d∗ mit
r(d∗ ; p) = inf r(d; p)
d∈D
Posteriori-Bayes-Risiko:
Z
L(d(x); θ)p(θ|x) dθ = Eθ|x [L(d(x) θ)]
Θ
mit p(θ|x) (eigentliche) Posteriori-Dichte.
Formelsammlung zur Vorlesung Schätzen und Testen I
2
2
Klassische Schätz- und Testtheorie
2.1
Klassische Schätztheorie
Suffizienz
def
T heißt suffizient für θ (oder auch für P) ⇔ die bedingte Verteilung bzw. Dichte von X gegeben T (x) = t ist
für alle Werte von T (x) = t unabhängig von θ, d.h.
fX|T (x|T (x) = t, θ) = fX|T (x|T (x) = t).
Faktorisierungssatz, Neyman-Kriterium
T ist suffizient für θ ⇔ f (x|θ) = h(x)g(T (x)|θ) für fast alle x.
Minimalsuffizienz
def
Eine Statistik T heißt minimalsuffizient für θ ⇔ T ist suffizient, und zu jeder anderen suffizienten Statistik V existiert eine Funktion H mit
T (x) = H(V (x)) fast überall.
Verallgemeinerungen des MSE auf θ ∈ Rp
1. MSE (skalar):
(1)
b
MSEθ (θ)
=
=
Eθ [kθb − θk2 ]
p
X
Eθ [(θbj − θj )2 ]
j=1
2. MSE-Matrix:
(2)
b
MSEθ (θ)
=
=
Eθ [(θb − θ)(θb − θ)> ]
b + (Eθ [θ]
b − θ)(Eθ [θ]
b − θ)>
Covθ (θ)
Fisher-reguläre Verteilungsfamilien
Eine Familie von Verteilungen Pθ mit Dichte f (x|θ) = f (x1 , . . . , xn |θ), θ ∈ Θ, heißt Fisher-regulär,
wenn gilt:
1. Der Träger {x ∈ X : f (x|θ) > 0} ist unabhängig von θ.
2. Θ ist offen in Rp .
3. Die ersten und zweiten Ableitungen von f (x|θ) bzgl. θ existieren und sind für jedes θ endliche Funktionen
von x.
4. Vertauschbarkeit: Sowohl für f (x|θ) als auch für log(f (x|θ)) kann erstes und zweites Differenzieren nach θ
und Integration über x vertauscht werden.
Log-Likelihood, Scorefunktion und Information
`(θ; x)
=
s(θ; x)
=
J(θ; x)
= −
I(θ)
log f (x|θ)
(log-Likelihood von θ bzgl. der Stichprobe x)
>
∂
∂
∂
`(θ; x) =
`(θ; x), . . . ,
`(θ; x)
(Score-Funktion)
∂θ
∂θ1
∂θp
∂ 2 `(θ; x)
∂θ∂θ>
= Eθ [J(θ; X)]
(beobachtete Informationsmatrix der Stichprobe mit Elementen
∂ 2 log f (x|θ) (J(θ; x))ij = −
∂θi ∂θj
(erwartete oder Fisher-Informationsmatrix)
Formelsammlung zur Vorlesung Schätzen und Testen I
3
Für X1 , . . . , Xn i.i.d wie X1 ∼ f (x|θ)
I(θ) = Eθ [J(θ)] = n · i(θ),
wobei
2
∂ log f (X; θ)
∂ `(θ; X)
=
Cov
i(θ) = Eθ −
.
θ
∂θ∂θ>
∂θ
Informationsungleichungen
Sei f (x|θ) Fisher-regulär.
1. Ist θb erwartungstreu für θ, so gilt:
b ≥ I −1 (θ)
Covθ (θ)
(Cramer-Rao-Ungleichung).
b − I −1 (θ) ist positiv semidefinit (Löwner-Ordnung).
” ≥” heißt: Covθ (θ)
2. Ist T erwartungstreu für τ (θ), so gilt
Covθ (T ) ≥ H(θ)I −1 (θ)H > (θ)
mit der Funktionalmatrix (H(θ))ij =
∂
∂θj τi (θ).
Rao-Blackwell
Sei T = T (x) suffizient für θ bzw. Pθ und θb erwartungstreu für θ. Für den Schätzer
b ]
θbRB = Eθ [θ|T
(’Rao-Blackwellization’)
gilt:
1. θbRB ist erwartungstreu für θ.
b
2. Varθ (θbRB ) ≤ Varθ (θ).
Asymptotische Eigenschaften und Kriterien
def
• θbn heißt asymptotisch erwartungstreu ⇔
lim Eθ [θbn ] = θ
für alle θ.
n→∞
P
def
• θbn ist (schwach) konsistent für θ (in Zeichen: θbn → θ (für alle θ)) ⇔
lim Pθ (|θbn − θ| ≤ ε) = 1
n→∞
für alle ε > 0 und alle θ.
def
• θbn heißt MSE-konsistent für θ ⇔
lim MSEθ (θbn ) = 0
für alle θ.
Pθ ( lim θbn = θ) = 1
für alle θ.
n→∞
def
• θbn ist stark konsistent für θ ⇔
n→∞
• Asymptotische Normalität des KQ-Schätzers im linearen Modell:
(D) Divergenzbedingung: Für n → ∞ gilt
(Xn> Xn )−1 → 0.
Formelsammlung zur Vorlesung Schätzen und Testen I
4
(N) Normalitätsbedingung:
>
−1
max x>
xi → 0 für n → ∞.
i (Xn Xn )
i=1,...,n
Dann gilt:
d
(Xn> Xn )1/2 (βbn − β) → N (0, σ 2 I),
a
βbn ∼ N (β, σ 2 (Xn> Xn )−1 ), n groß.
Asymptotische Normalität
√
1. Mit n-Normierung:
def
θbn heißt asymptotisch normalverteilt für θ ⇔
√
d
n(θbn − θ) → N (0, V (θ)) für n → ∞
mit (nicht negativ definiter) asymptotischer Kovarianzmatrix V (θ).
2. Mit Matrix-Normierung:
def
θbn heißt asymptotisch normalverteilt für θ ⇔ es existiert eine Folge von Matrizen An mit λmin (An ) → ∞,
so dass
d
b
A1/2
n (θn − θ) → N (0, V (θ)).
Delta-Methode
Sei
h : Rp → Rk , k ≤ p
1. θ skalar: Für alle θ, für die h stetig differenzierbar ist mit h0 (θ) 6= 0, gilt:
√
√
d
d
n(θbn − θ) → N (0, V (θ)) ⇒ n(h(θbn ) − h(θ)) → N (0, [h0 (θ)]2 V (θ)).
2. θ vektoriell: Sei
θ = (θ1 , . . . , θp )> 7→ h(θ) = (h1 (θ), . . . , hk (θ))>
mit der Funktionalmatrix
(H(θ))ij =
∂hi (θ)
.
∂θj
Für alle θ, für die h(θ) komponentenweise stetig partiell differenzierbar ist und jede Zeile von H(θ) ungleich
dem Nullvektor ist, gilt:
√
√
d
d
n(θbn − θ) → N (0, V (θ)) ⇒ n(h(θbn ) − h(θ)) → N (0, H(θ)V (θ)H(θ)> ).
Asymptotische Cramer-Rao Ungleichung
Unter Fisher-Regularität sowie leichten Zusatzannahmen gilt:
√
d
1. Aus n(θbn − θ) → N (0, V (θ)) folgt V (θ) ≥ i−1 (θ).
√
d
2. Aus n(h(θbn ) − h(θ)) → N (0, D(θ)) folgt D(θ) ≥ H(θ)i−1 (θ)H(θ)> mit ”≥” Löwner-Ordnung (und den
Bezeichnungen aus der Delta-Regel).
Bester asymptotisch normaler (BAN)-Schätzer
θbn heißt BAN-Schätzer, falls in 1. oben gilt:
V (θ) = i−1 (θ).
Transformation von BAN-Schätzern
θbn BAN-Schätzer für θ ⇒ h(θbn ) ist BAN-Schätzer für h(θ).
Formelsammlung zur Vorlesung Schätzen und Testen I
2.2
5
Klassische Testtheorie
Randomisierter Test


1 ,
φ(x) = γ(x),


0 ,
x ∈ B1
x ∈ B10
x ∈ B0
B1 strikter Ablehnungsbereich
B0 strikter Annahmebereich
B10 Randomisierungsbereich, Indifferenzbereich
bzw. mit Teststatistik T = T (X)


1, T (x) > c
φ(x) = γ, T (x) = c


0, T (x) < c
Güte(funktion) eines Tests φ
1. gφ (θ) = Eθ [φ(X)] = Pθ (A1 ), θ ∈ Θ, heißt Gütefunktion.
gφ (θ)
=
Pθ (A1 ) Wahrscheinlichkeit für Fehler 1. Art, θ ∈ Θ0
1 − gφ (θ)
=
Pθ (A0 ) Wahrscheinlichkeit für Fehler 2. Art, θ ∈ Θ1
2. Supremale Fehlerwahrscheinlichkeiten:
α(φ) = sup Pθ (A1 ) = sup gφ (θ)
θ∈Θ0
heißt (tatsächliches) Niveau (level, size) von φ.
θ∈Θ0
β(φ) = sup Pθ (A0 ) = 1 − inf gφ (θ)
θ∈Θ1
ist die supremale Wahrscheinlichkeit für den Fehler 2. Art.
θ∈Θ1
Satz von Neyman-Pearson
• Problemstellung: Einfache Nullhypothese vs. einfache Alternativhypothese:
H0 : θ = θ0 ,
vs.
H1 : θ = θ1 .
Sei f0 (x) = f (x|θ0 ), f1 (x) = f (x|θ1 ). Dann heißt
Λ(x) =
f1 (x)
f0 (x)
Likelihood-Quotient.
• Bester Test hat für stetiges f nach Neyman-Pearson die Form:
H0 ablehnen ⇔ Λ(x) > kα
mit kα so gewählt, dass der Test das Niveau α einhält.
Randomisierter LQ-Test
def
Ein Test φ∗ (x) heißt randomisierter Likelihood-Quotienten-Test, kurz LQ-Test ⇔
φ∗ (x) hat die Struktur


1 , f1 (x) > kf0 (x) ⇔ Λ(x) > k
∗
φ (x) = γ(x), f1 (x) = kf0 (x) ⇔ Λ(x) = k


0 , f1 (x) < kf0 (x) ⇔ Λ(x) < k
Formelsammlung zur Vorlesung Schätzen und Testen I
6
mit Konstante k > 0 und 0 ≤ γ(x) < 1. Falls Λ(X) stetig ist, gilt Pθ (Λ(X) = k) = 0. Dann reicht ein
nicht-randomisierter Test
(
1, f1 (x) > kf0 (x) ⇔ Λ(x) > k
∗
φ (x) =
0, sonst.
Gleichmäßig bester (UMP, uniformly most powerful) Test
def
φ∗ heißt gleichmäßig bester (UMP) Test zum Niveau α ⇔
1. Eθ [φ∗ (X)] ≤ α für alle θ ∈ Θ0 .
2. Für jeden anderen Test φ mit Eθ [φ(X)] ≤ α für alle θ ∈ Θ0 gilt:
Eθ [φ∗ (X)] ≥ Eθ [φ(X)] für alle θ ∈ Θ1 .
Verteilungen mit monotonem Dichtequotienten
Die Verteilungsfamilie {f (x|θ), θ ∈ Θ ⊆ R} mit skalarem Parameter θ besitzt monotonen Dichtedef
(oder: Likelihood-) Quotienten (kurz: MLQ) ⇔
es existiert eine Statistik T (X), so dass
Λ(x) =
f (x|θ1 )
f (x|θ0 )
monoton wachsend in der Statistik T (x) für je zwei θ0 , θ1 ∈ Θ mit θ0 ≤ θ1 ist.
UMP-Test bei MLQ
Gegeben sei Pθ = {f (x|θ) : θ ∈ Θ ⊆ R} mit MLQ in T (x) und die Hypothesen
H0 : θ ≤ θ 0
H1 : θ > θ0
1. Existenz: Es gibt einen UMP-Test φ∗ zum Niveau α, nämlich


1, T (x) > c
φ∗ (x) = γ, T (x) = c


0, T (x) < c.
Dabei sind c und γ eindeutig bestimmt durch die Niveaubedingung
Pθ0 (T > c) + γPθ0 (T = c) = α.
2. Die Gütefunktion gφ∗ (θ) ist monoton wachsend in θ und sogar streng monoton wachsend für alle θ mit
0 < gφ∗ (θ) < 1. Die maximale Wahrscheinlichkeit für den Fehler 1. Art ist gφ∗ (θ0 ) = α.
3. φ∗ besitzt auch gleichmäßig minimale Wahrscheinlichkeiten für den Fehler 1. Art unter allen Tests φ für
H0 vs. H1 mit gφ (θ0 ) = α.
4. φ∗ ist (mit Wahrscheinlichkeit 1) eindeutig bestimmt.
Unverfälschter Niveau-α-Test
def
Ein Test φ für H0 vs. H1 heißt unverfälschter (unbiased) Niveau-α-Test ⇔
gφ (θ) ≤ α für alle θ ∈ Θ0 , gφ (θ) ≥ α für alle θ ∈ Θ1 .
Zweiseitige UMPU (uniformly most powerful unbiased) Tests
Sei f (x|θ) = c(θ) exp(θT (x))h(x) eine einparametrische Exponentialfamilie mit natürlichem Parameter θ ∈ Θ
(Θ sei ein offenes Intervall) und Statistik T (x). Dann ist


1 , T (x) < c1





γ1 , T (x) = c1
∗
φ (x) = 0 , c1 < T (x) < c2



γ2 , T (x) = c2



1 , T (x) > c
2
Formelsammlung zur Vorlesung Schätzen und Testen I
7
ein UMPU-Test zum Niveau α unter allen unverfälschten Tests φ zum Niveau α. Dabei werden c1 , c2 , γ1 , γ2 aus
Eθ0 [φ∗ (X)] = α
und Eθ0 [φ∗ (X)T (X)] = αEθ0 [T (X)]
bestimmt.
3
Likelihood-Inferenz
3.1
Parametrische Likelihood-Inferenz
Likelihoodfunktion:
L(θ) = f (x|θ)
e
’Dichte’ der beobachteten Daten X = x, betrachtet als Funktion von θ. Mit L(θ) ist auch L(θ)
= const × L(θ)
eine Likelihoodfunktion.
3.2
Asymptotische Eigenschaften
Unter Regularitätsannahmen gilt:
• P(θbn existiert) → 1 für n → ∞, d.h. die Likelihood-Gleichungen haben für n → ∞ mit Wahrscheinlichkeit 1 eine Lösung,
P
• θbn → θ,
d
a
1/2
b
• θbn ∼ N (θ, I−1
n (θ)) bzw. In (θ)(θn − θ) → N (0, I),
d
a
1/2
b
• θbn ∼ N (θ, J−1
n (θ)) bzw. Jn (θ)(θn − θ) → N (0, I),
d.h. ML-Schätzer sind BAN-Schätzer.
3.3
Testen von Hypothesen
H0 : Cθ = d
vs.
H1 : Cθ 6= d,
dim(d) = rang(C) = s.
Likelihood-Quotienten-Statistik:
"
b
b − `(θ)}
e = 2 log L(θ)
λ = 2{`(θ)
e
L(θ)
#
Wald-Statistik:
b > )−1 (C θb − d)
w = (C θb − d)> (CI −1 (θ)C
Score- (oder Rao-) Statistik:
e > I −1 (θ)s(
e θ)
e
u = s(θ)
Unter H0 (und den gleichen Regularitätsannahmen, die für die asymptotische Normalität des MaximumLikelihood-Schätzers gefordert werden) gilt
a
1. λ, w, u ∼ χ2 (s),
2. λ, w, u sind asymptotisch (lokal) effizient.
3.4
Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen
Kullback-Leibler-Distanz von g und fθ für X stetig:
g(X)
D(g, fθ ) = Eg log
f (X|θ)
Entropie von g:
Z
−Eg log g(X) = −
g(x) log(g(x)) dx
Formelsammlung zur Vorlesung Schätzen und Testen I
8
Asymptotische Eigenschaften des ML-Schätzers bei Missspezifikation
1. Konsistenz: Sei θ0 ein (lokaler) Maximierer von
λ(θ) ≡ Eg log fθ (X|θ)
(bzw. ein Minimierer von D(g, fθ )). Unter Regularitätsannahmen (ähnlich wie bei Fisher-Regularität)
existiert eine Folge θ̂n von ( Quasi-”) ML-Schätzern, das heißt lokalen Maximierern von
”
n
1X
log f (xi |θ)
n i=1
mit
P
θ̂n −
→ θ0 .
2. Asymptotische Normalität: Es gilt
√
d
n(θ̂n − θ0 ) −
→ N 0, J1−1 (θ0 ) I1 (θ0 ) J1−1 (θ0 )
mit
>
∂ log f (X|θ)
∂ log f (X|θ)
I1 (θ) ≡ Eg
∂θ
∂θ
{z
}|
{z
}
|
s1 (θ)
s1 (θ)>
und der (Quasi-)Fisher-Information
2
∂ log f (X|θ)
J1 (θ) = Eg −
.
∂θ ∂θ>
4
Bayes-Inferenz
Finite Exchangeability
Die Zufallsgrößen X1 , . . . , Xn sind exchangeable bezüglich des Wahrscheinlichkeitsmaßes P, wenn
P(x1 , . . . , xn ) = P(xπ(1) , . . . , xπ(n) )
für alle (bijektiven) Permutationen
π : {1, . . . , n} → {1, . . . , n}
gilt. Existiert eine Dichte f zu P, so gilt entsprechend:
f (x1 , . . . , xn ) = f (xπ(1) , . . . , xπ(n) ).
Infinite Exchangeability
Die unendliche Folge X1 , X2 , . . . ist exchangeable, wenn jede endliche Teilfolge exchangeable ist.
Allgemeiner Darstellungssatz
Sei X1 , X2 , . . . eine unendliche Folge reellwertiger Zufallsvariablen, die exchangeable sind, mit zugrundeliegendem Wahrscheinlichkeitsmaß P. Dann existiert ein Wahrscheinlichkeitsmaß Q über F, dem Raum aller
Verteilungsfunktionen F auf R, so dass
Z Y
n
P(x1 , . . . , xn ) =
F (xi ) dQ(F ),
F i=1
wobei
Q(F ) = lim P (Fn ),
n→∞
wobei Fn die zu x1 , . . . , xn gehörende empirische Verteilungsfunktion bezeichnet.
Formelsammlung zur Vorlesung Schätzen und Testen I
4.1
9
Bayes-Inferenz im Schnelldurchlauf
Notation:
• X: beobachtete Daten
e unbeobachtete Daten
• X:
• θ: Parameter
Basiskomponenten in der Bayes-Inferenz:
• p(θ)
Priori-Verteilung
• f (x|θ)
Daten-Verteilung
• f (θ|x)
Posteriori-Verteilung
• f (e
x|x)
prädiktive Verteilung
A priori prädiktive Verteilung:
Z
f (x) =
Z
f (θ, x) dθ =
Θ
f (x|θ) p(θ) dθ
Θ
A posteriori prädiktive Verteilung:
Z
Z
Z
f (e
x|x) =
f (e
x, θ|x) dθ =
f (e
x|θ, x) f (θ|x) dθ =
f (e
x|θ) f (θ|x) dθ
Θ
4.2
4.2.1
Θ
Θ
Mehr-Parameter-Modelle
Dirichlet-Multinomial Modell
Multinomialverteilung:
• Verallgemeinerung der Binomialverteilung
• Notation: (X1 , . . . , Xk ) ∼ Multinomial(n; θ1 , . . . , θk )
• Likelihood:
f (x1 , . . . , xk |θ1 , . . . , θk ) ∝
k
Y
x
θj j ,
j=1
wobei
– k die Anzahl der Ausprägungen oder Kategorien, n der Stichprobenumfang,
Pk
– xj die Anzahl von Treffern in Ausprägung oder Kategorie j, j=1 xj = n,
Pk
– θj die Wahrscheinlichkeit für Kategorie j, j=1 θj = 1.
Dirichletverteilung:
• Verallgemeinerung der Betaverteilung
• konjugierte Verteilung der Multinomialverteilung
• Notation: (θ1 , . . . , θk ) ∼ Dirichlet(α1 , . . . , αk )
• Dichte:
f (θ1 , . . . , θk ) ∝
k
Y
j=1
wobei θj ∈ [0, 1] für alle j = 1, . . . , k und
Pk
j=1 θj
= 1.
α −1
θj j
,
Formelsammlung zur Vorlesung Schätzen und Testen I
4.3
10
Bayesianisches lineares Modell
Modell:
y = Xβ + ε ,
y ∈ Rn , X ∈ Rn×p , β ∈ Rp , ε ∈ Rn
Annahmen und Notation:
p
=
ε =
βb =
rang(X)
i.i.d
(ε1 , . . . , εn )> ,
εi ∼ N (0, σ 2 )
(X > X)−1 X > y
yb = X βb = X(X > X)−1 X > y = Hy
εb = (I − H)y = y − yb
εb> εb
σ
bε2 =
n−p
Bayesianisch:
y|β, σ 2 , X ∼ MVN(Xβ, σ 2 I)
Likelihood:
2
2 −n/2
f (y|X, β, σ ) ∝ (σ )
4.3.1
1
exp − 2 (y − Xβ)> (y − Xβ)
2σ
Nichtinformative Priori
p(β, σ 2 ) ∝ (σ 2 )−1
Posteriori:
2
f (β, σ |y, X) ∝
∝
1
>
(σ )
exp − 2 (y − Xβ) (y − Xβ)
2σ
n
1 >
2 −( 2 +1)
>
>
b
b
(σ )
exp − 2 εb εb + (β − β) X X(β − β)
2σ
2 −( n
2 +1)
Bedingte Posteriori:
β|σ 2 , y, X
σ 2 |β, y, X
b σ 2 (X > X)−1 )
∼ MVN(β,
!
εb> εb + (βb − β)> X > X(βb − β)
2
∼ Inv-χ n,
n
Marginale Posteriori:
β|y, X
σ 2 |y, X
b σ
tn−p (β,
bε2 (X > X)−1 )
εb> εb
2
∼ Inv-χ n − p,
n−p
∼
Prädiktive Verteilung:
h
i
b σ
f ∼ tn−p X
fβ,
f > X)−1 X
f> + I)
f (e
y |y, X, X)
bε2 (X(X
4.3.2
Konjugierte Priori
β, σ 2 ∼ MVN-inv-χ2 (β0 , σ02 Σ0 ; κ0 , σ02 )
Posteriori:
β, σ 2 |y, X ∼ MVN-inv-χ2 (βn , σn2 Σn ; κn , σn2 ) ,
Formelsammlung zur Vorlesung Schätzen und Testen I
11
wobei
βn
=
>
−1
>
(Σ−1
(Σ−1
0 + X X)
0 β0 + X y) ,
Σn
=
>
−1
(Σ−1
,
0 + X X)
κn
= κ0 + n ,
σn2
=
> −1
>
2
(β0> Σ−1
0 β0 − βn Σn βn + y y + κ0 σ0 )/(κ0 + n) .
Bedingte Posteriori:
β |σ 2 , y, X
∼
MVN(βn , σ 2 Σn )
Marginale Posteriori:
σ 2 |y, X
4.4
∼
inv-χ2 (κn , σn2 )
Markov Chain Monte Carlo
Metropolis-Hastings (genauer: Metropolis-within-Gibbs) für eine skalare Komponente:
• π : Zieldichte (unter Umständen nicht normiert)
• q : Vorschlagsdichte
• Xi = (Xi1 , . . . , Xim )> ∈ Rm
• Xi,−j = (Xi1 , . . . , Xi,j−1 , Xi−1,j+1 , . . . , Xi−1,m )>
• Erzeuge Markov-Kette X0 , X1 , X2 , . . . mit stationärer Verteilung π.
• Update-Schritt für Xij :
– Ziehe Y aus q(·|Xi−1,j , Xi,−j ).
– Akzeptiere Y mit Wahrscheinlichkeit
α(Y, Xi−1,j |Xi,−j ) = min
1,
q(Xi−1,j |Y, Xi,−j )
π(Y |Xi,−j )
·
π(Xi−1,j |Xi,−j ) q(Y |Xi−1,j , Xi,−j )
d.h. setze Xij = Y .
– Ansonsten verwirf Y , d.h. setze Xij = Xi−1,j .
5
Bootstrap
Einstichproben-Problem:
X = (X1 , . . . , Xn ) → T (X)
i.i.d.
mit Xi ∼
F , F unbekannt
Beobachtete Daten:
x = (x1 , x2 , . . . , xn ) → T (x)
Bootstrap-Stichprobe:
x∗ = (x∗1 , x∗2 , . . . , x∗n ) → T (x∗ )
Empirische Verteilungsfunktion:
n
F̂n (x) =
1X
I(xi ≤ x)
n i=1
,
Formelsammlung zur Vorlesung Schätzen und Testen I
12
Bootstrap-Algorithmus zur Schätzung des Standardfehlers
1. Erzeuge B Bootstrap-Stichproben x∗1 , . . . , x∗B .
2. Berechne θ̂∗ (b), b = 1, . . . , B.
3. Schätze den Standardfehler seF (θ̂) =
(
se
bB =
q
VarF (θ̂) durch
B
i2
1 Xh ∗
θ̂ (b) − θ̂∗ (·)
B−1
) 21
mit
θ̂∗ (·) =
b=1
B
1 X ∗
θ̂ (b).
B
b=1
Standardfehler für die Schätzung des Korrelationskoeffizienten θ
(i) Vergleich mit der Formel für die bivariate Normalverteilung:
1 − θ̂2
se
b N2 (µ,Σ) (θ̂) = √
n−3
(ii) Vergleich nach Fisher-Transformation:
1
ξˆ = log
2
1 + θ̂
!
"
approx.
∼
1 − θ̂
1
log
N
2
1+θ
1−θ
2 #
1
, √
n−3
Zweistichproben-Problem für unabhängige Stichproben
Y1 , . . . , Yn
)
i.i.d.
∼ F
unabhängig
i.i.d.
Z1 , . . . , Z m ∼ G
Schätzung des Standardfehlers der Schätzung für die Differenz θ = µY − µZ :
y ∗b = (y1∗b , . . . , yn∗b ) zufällig mit Zurücklegen aus F̂n
∗b
z ∗b = (z1∗b , . . . , zm
) zufällig mit Zurücklegen aus Ĝm
(
se
b F,G (θ̂) = seF̂n ,Ĝm (θ̂∗ ) ≈ se
bB =
B
i2
1 Xh ∗
θ̂ (b) − θ̂∗ (·)
B−1
b=1
mit
n
θ̂∗ (b) =
m
1 X ∗b
1 X ∗b
yi −
z
n i=1
m i=1 i
und
θ̂∗ (·) =
B
1 X ∗
θ̂ (b)
B
b=1
Bootstrap-Konfidenzintervalle
Bootstrap-t-Intervall
1. Generiere B Bootstrap-Stichproben x∗1 , . . . , x∗B .
2. Berechne
Z ∗ (b) =
Ordne die Z ∗ (b) aufsteigend der Größe nach.
θ̂∗ (b) − θ̂
.
se
b ∗ (b)
) 21
Formelsammlung zur Vorlesung Schätzen und Testen I
13
3. Schätze die Quantile t̂(α) und t̂(1−α) als
# Z ∗ (b) ≤ t̂(α)
=α.
B
4. Das Bootstrap-t-Intervall zum Vertrauensgrad 1 − 2α lautet dann
h
i
θ̂ − t̂(1−α) · se,
b θ̂ − t̂(α) · se
b .
Bootstrap-Perzentil-Intervall
1. Ziehe
x∗1 , . . . , x∗B
B Bootstrap-Replikationen
↓
↓
θ̂∗ (1), . . . , θ̂∗ (B) mit θ̂∗ (b) = T (x∗b ).
∗
∗
, . . . , θ̂(B)
.
2. Ordne die θ̂∗ (b) der Größe nach: θ̂(1)
∗(α)
∗(1−α)
3. Berechne Bα und B(1 − α) und bezeichne mit θ̂B bzw. θ̂B
die Werte an den jeweiligen Positionen
in der sortierten Sequenz der Bootstrap-Schätzungen. Dann ist
h
i h
i
∗(α) ∗(1−α)
θ̂lower , θ̂upper = θ̂B , θ̂B
ein approximatives (1 − 2α)-Konfidenzintervall.
Zugehörige Unterlagen
Herunterladen