Formelsammlung zur Vorlesung Schätzen und Testen I

Werbung
Schätzen und Testen I
Ludwig Fahrmeir, Christian Heumann, Christiane Dargatz, Susanne Heim
WS 2007/08
Formelsammlung zur Vorlesung
Schätzen und Testen I
1
Einführung in statistische Modelle und Inferenzkonzepte
1.1
Statistische Entscheidungstheorie
Entscheidungsfunktion:
d: X → ∆
x 7→ d(x)
Verlustfunktion:
L:∆×Θ → R
(d, θ) 7→ L(d, θ)
Risikofunktion:
R(d; θ)
=
=
Eθ [L(d(X); θ)]
Z
L(d(x); θ)f (x|θ) dx
X
Minimax-Entscheidungsregel:
Eine Entscheidungsregel d∗ : X → ∆ heißt Minimax, falls sie das supremale Risiko minimiert:
sup R(d∗ ; θ) ≤ sup R(d; θ)∀d ∈ D ⇔ d∗ = arg inf sup R(d; θ)
θ∈Θ
θ∈Θ
Bayes-Risiko:
Z
r(d; p)
=
R(d; θ)p(θ) dθ
Θ
=
Ep [R(d; θ)]
=
Ep Eθ [L(d(X); θ)]
Z Z
=
L(d(x); θ)f (x|θ) dx p(θ) dθ
Θ
X
Bayes-optimaler Schätzer: d∗ mit
r(d∗ ; p) = inf r(d; p)
d∈D
Posteriori-Bayes-Risiko:
Z
L(d(x); θ)p(θ|x) dθ = Eθ|x [L(d(x) θ)]
Θ
mit p(θ|x) (eigentliche) Posteriori-Dichte.
d∈D θ∈Θ
Formelsammlung zur Vorlesung Schätzen und Testen I
2
2
Klassische Schätz- und Testtheorie
2.1
Klassische Schätztheorie
Suffizienz
def
T heißt suffizient für θ (oder auch für P) ⇔
die bedingte Verteilung bzw. Dichte von X gegeben T (x) = t ist für alle Werte von T (x) = t unabhängig von θ,
d.h.
fX|T (x|T (x) = t, θ) = fX|T (x|T (x) = t).
Faktorisierungssatz, Neyman-Kriterium
T ist suffizient für θ ⇔ f (x|θ) = h(x)g(T (x)|θ) für fast alle x.
Minimalsuffizienz
def
Eine Statistik T heißt minimalsuffizient für θ ⇔
T ist suffizient, und zu jeder anderen suffizienten Statistik V existiert eine Funktion H mit
T (x) = H(V (x)) P − fast überall.
Verallgemeinerungen des MSE auf θ ∈ Rp
1. MSE (skalar):
(1)
b
MSEθ (θ)
Eθ [kθb − θk2 ]
p
X
=
Eθ [(θbj − θj )2 ]
=
j=1
2. MSE-Matrix:
(2)
b
MSEθ (θ)
=
=
Eθ [(θb − θ)(θb − θ)> ]
b + (Eθ [θ]
b − θ)(Eθ [θ]
b − θ)>
Covθ (θ)
Fisher-reguläre Verteilungsfamilien
Eine Familie von Verteilungen Pθ mit Dichte f (x|θ) = f (x1 , . . . , xn |θ), θ ∈ Θ, heißt Fisher-regulär,
wenn gilt:
1. Der Träger {x ∈ X : f (x|θ) > 0} ist unabhängig von θ.
2. Θ ist offen in Rp .
3. Die ersten und zweiten Ableitungen von f (x|θ) bzgl. θ existieren und sind für jedes θ endliche Funktionen
von x.
4. Vertauschbarkeit: Sowohl für f (x|θ) als auch für log(f (x|θ)) kann erstes und zweites Differenzieren nach θ
und Integration über x vertauscht werden.
Log-Likelihood, Scorefunktion und Information
`(θ; x)
=
s(θ; x)
=
J(θ; x)
= −
I(θ)
=
log f (x|θ)
(log-Likelihood von θ bzgl. der Stichprobe x)
>
∂
∂
∂
`(θ; x) =
`(θ; x), . . . ,
`(θ; x)
(Score-Funktion)
∂θ
∂θ1
∂θp
∂ 2 `(θ; x)
∂θ∂θ>
Eθ [J(θ; X)]
(beobachtete Informationsmatrix der Stichprobe mit Elementen
∂ 2 log f (x|θ) (J(θ; x))ij = −
∂θi ∂θj
(erwartete oder Fisher-Informationsmatrix)
Formelsammlung zur Vorlesung Schätzen und Testen I
3
Für X1 , . . . , Xn i.i.d wie X1 ∼ f (x|θ)
I(θ) = Eθ [J(θ)] = n · i(θ),
wobei
2
∂ log f (X; θ)
∂ `(θ; X)
= Covθ
i(θ) = Eθ −
.
∂θ∂θ>
∂θ
Informationsungleichungen
Sei f (x|θ) Fisher-regulär.
1. Ist θb erwartungstreu für θ, so gilt:
b ≥ I −1 (θ).
Covθ (θ)
b − I −1 (θ) ist positiv semidefinit.
” ≥” heißt: Covθ (θ)
2. Ist T erwartungstreu für τ (θ), so gilt
Covθ (T ) ≥ H(θ)> I −1 (θ)H(θ)
mit der Funktionalmatrix (H(θ))ij =
∂
∂θi τj (θ).
Rao-Blackwell
Sei T = T (x) suffizient für θ bzw. Pθ und θb erwartungstreu für θ. Für den Schätzer
b ]
θbRB = Eθ [θ|T
(’Rao-Blackwellization’)
gilt:
1. θbRB ist erwartungstreu für θ.
b
2. Varθ (θbRB ) ≤ Varθ (θ).
Asymptotische Eigenschaften und Kriterien
def
• θbn heißt asymptotisch erwartungstreu ⇔
lim Eθ [θbn ] = θ
n→∞
für alle θ.
P
def
• θbn ist (schwach) konsistent für θ (in Zeichen: θbn → θ (für alle θ)) ⇔
lim Pθ (|θbn − θ| ≤ ε) = 1
n→∞
für alle ε > 0 und alle θ.
def
• θbn heißt MSE-konsistent für θ ⇔
lim MSEθ (θbn ) = 0
für alle θ.
Pθ ( lim θbn = θ) = 1
für alle θ.
n→∞
def
• θbn ist stark konsistent für θ ⇔
n→∞
• Asymptotische Normalität des KQ-Schätzers im linearen Modell:
(D) Divergenzbedingung: Für n → ∞ gilt
(Xn> Xn )−1 → 0 ⇔ λmin (Xn> Xn ) → ∞.
(N) Normalitätsbedingung:
>
−1
max x>
xi → 0 für n → ∞.
i (Xn Xn )
i=1,...,n
Formelsammlung zur Vorlesung Schätzen und Testen I
4
Es gilt:
D
(Xn> Xn )1/2 (βbn − β) → N (0, σ 2 I),
a
βbn ∼ N (β, σ 2 (Xn> Xn )−1 ), n groß.
Asymptotische Normalität
√
1. Mit n-Normierung:
def
θbn heißt asymptotisch normalverteilt für θ ⇔
√
D
n(θbn − θ) → N (0, V (θ)) für n → ∞
mit (nicht negativ definiter) asymptotischer Kovarianzmatrix V (θ).
2. Mit Matrix-Normierung:
def
θbn heißt asymptotisch normal für θ ⇔
es existiert eine Folge von Matrizen An mit λmin (An ) → ∞, so dass
D
b
A1/2
n (θn − θ) → N (0, V (θ)).
Delta-Methode
Sei
h : Rp → Rk , k ≤ p
1. θ skalar: Für alle θ, für die h stetig differenzierbar ist mit h0 (θ) 6= 0, gilt:
√
D
n(θbn − θ) → N (0, V (θ)) ⇒
√
D
n(h(θbn ) − h(θ)) → N (0, [h0 (θ)]2 V (θ)).
2. θ vektoriell: Sei
θ = (θ1 , . . . , θp )> 7→ h(θ) = (h1 (θ), . . . , hk (θ))>
mit der Funktionalmatrix
(H(θ))ij =
∂hi (θ)
.
∂θj
Für alle θ, für die h(θ) komponentenweise stetig partiell differenzierbar ist und jede Zeile von H(θ) ungleich
dem Nullvektor ist, gilt:
√
D
n(θbn − θ) → N (0, V (θ)) ⇒
√
D
n(h(θbn ) − h(θ)) → N (0, H(θ)V (θ)H(θ)> ).
Asymptotische Cramer-Rao Ungleichung
Unter Fisher-Regularität sowie leichten Zusatzannahmen gilt:
1. Aus
√
D
n(θbn − θ) → N (0, V (θ)) folgt V (θ) ≥ i−1 (θ).
√
D
2. Aus n(h(θbn ) − h(θ)) → N (0, D(θ)) folgt D(θ) ≥ H(θ)i−1 (θ)H(θ)> mit ”≥” Löwner-Ordnung (und den
Bezeichnungen aus der Delta-Regel).
Bester asymptotisch normaler (BAN)-Schätzer
θbn heißt BAN-Schätzer, falls in 1. oben gilt:
V (θ) = i−1 (θ).
Transformation von BAN-Schätzern
θbn BAN-Schätzer für θ ⇒ h(θbn ) ist BAN-Schätzer für h(θ).
Formelsammlung zur Vorlesung Schätzen und Testen I
2.2
5
Klassische Testtheorie
Randomisierter Test


1,
φ(x) = γ(x),


0,
x ∈ B1
x ∈ B10
x ∈ B0
B1 strikter Ablehnungsbereich
B0 strikter Annahmebereich
B10 Randomisierungsbereich, Indifferenzbereich
bzw. mit Teststatistik T = T (X)


1, T (x) > c
φ(x) = γ, T (x) = c


0, T (x) < c
Güte(funktion) eines Tests φ
1. gφ (θ) = Eθ [φ(X)] = Pθ (A1 ), θ ∈ Θ, heißt Gütefunktion.
gφ (θ)
=
Pθ (A1 ) Wahrscheinlichkeit für Fehler 1. Art, θ ∈ Θ0
1 − gφ (θ)
=
Pθ (A0 ) Wahrscheinlichkeit für Fehler 2. Art, θ ∈ Θ1
2.
α(φ) = sup Pθ (A1 ) = sup gφ (θ)
θ∈H0
heißt (tatsächliches) Niveau (level, size) von φ.
θ∈H0
β(φ) = sup Pθ (A0 ) = 1 − inf gφ (θ)
θ∈H1
ist die supremale Wahrscheinlichkeit für den Fehler 2. Art.
θ∈H1
Satz von Neyman-Pearson
• Problemstellung: Einfache Nullhypothese vs. einfache Alternativhypothese:
H0 : θ = θ0 ,
vs.
H1 : θ = θ1 .
Sei f0 (x) = f (x|θ0 ), f1 (x) = f (x|θ1 ). Dann heißt
Λ(x) =
f1 (x)
f0 (x)
Likelihood-Quotient.
• Bester Test hat für stetiges f nach Neyman-Pearson die Form:
H0 ablehnen ⇔ Λ(x) > kα
mit kα so gewählt, dass der Test das Niveau α einhält.
Randomisierter LQ-Test
def
Ein Test φ∗0 (x) heißt randomisierter Likelihood-Quotienten-Test, kurz LQ-Test ⇔
φ∗0 (x) hat die Struktur


f1 (x) > kf0 (x) ⇔ Λ(x) > k
1,
∗
φ0 (x) = γ(x), f1 (x) = kf0 (x) ⇔ Λ(x) = k


0,
f1 (x) < kf0 (x) ⇔ Λ(x) < k
Formelsammlung zur Vorlesung Schätzen und Testen I
6
mit Konstante k > 0 und 0 ≤ γ(x) < 1. Falls Λ(X) stetig ist, gilt Pθ (Λ(X) = k) = 0. Dann reicht ein
nicht-randomisierter Test
(
1, f1 (x) > kf0 (x) ⇔ Λ(x) > k
∗
φ0 (x) =
0, sonst.
Gleichmäßig bester (UMP, uniformly most powerful) Test
def
φ∗0 heißt gleichmäßig bester (UMP) Test zum Niveau α ⇔
1. Eθ [φ∗0 (X)] ≤ α für alle θ ∈ Θ0 .
2. Für jeden anderen Test φ mit Eθ [φ(X)] ≤ α für alle θ ∈ Θ0 gilt:
Eθ [φ∗0 (X)] ≥ Eθ [φ(X)] für alle θ ∈ Θ1 .
Verteilungen mit monotonem Dichtequotienten
Die Verteilungsfamilie {f (x|θ), θ ∈ Θ ⊆ R} mit skalarem Parameter θ besitzt monotonen Dichtedef
(oder: Likelihood-) Quotienten (kurz: MLQ) ⇔
es existiert eine Statistik T (X), so dass
Λ(x) =
f (x|θ1 )
f (x|θ0 )
monoton wachsend in der Statistik T (x) für je zwei θ0 , θ1 ∈ Θ mit θ0 ≤ θ1 ist.
UMP-Test bei MLQ
Gegeben sei Pθ = {f (x|θ) : θ ∈ Θ ⊆ R} mit MLQ in T (x) und die Hypothesen
H0 : θ ≤ θ 0
H1 : θ > θ0
1. Existenz: Es gibt einen UMP-Test φ∗0 zum Niveau α, nämlich


1, T (x) > c
φ∗0 (x) = γ, T (x) = c


0, T (x) < c.
Dabei sind c und γ eindeutig bestimmt durch die Niveaubedingung
Pθ0 (T > c) + γPθ0 (T = c) = α.
2. Die Gütefunktion gφ∗0 (θ) ist monoton wachsend in θ und sogar streng monoton wachsend für alle θ mit
0 < gφ∗0 (θ) < 1. Die maximale Wahrscheinlichkeit für den Fehler 1. Art ist gφ∗0 (θ0 ) = α.
3. φ∗0 besitzt auch gleichmäßig minimale Wahrscheinlichkeiten für den Fehler 1. Art unter allen Tests φ für
H0 vs. H1 mit gφ (θ0 ) = α.
4. φ∗0 ist (mit Wahrscheinlichkeit 1) eindeutig bestimmt.
Unverfälschter Niveau-α-Test
def
Ein Test φ für H0 vs. H1 heißt unverfälschter (unbiased) Niveau-α-Test ⇔
gφ (θ) ≤ α für alle θ ∈ H0 , gφ (θ) ≥ α für alle θ ∈ H1 .
Zweiseitige UMPU (uniformly most powerful unbiased) Tests
Sei f (x|θ) = c(θ) exp(θT (x))h(x) eine einparametrische Exponentialfamilie mit natürlichem Parameter θ ∈ Θ
(Θ sei ein offenes Intervall) und Statistik T (x). Dann ist


1,
T (x) < c1





γ
,
T (x) = c1
 1
∗
φ0 (x) = 0,
c1 < T (x) < c2



γ
,
T (x) = c2

2


1,
T (x) > c2
Formelsammlung zur Vorlesung Schätzen und Testen I
7
ein UMPU-Test zum Niveau α unter allen unverfälschten Tests φ zum Niveau α. Dabei werden c1 , c2 , γ1 , γ2 aus
Eθ0 [φ∗0 (X)] = α
und
Eθ0 [φ∗0 (X)T (X)] = αEθ0 [T (X)]
bestimmt.
3
Likelihood-Inferenz
3.1
Parametrische Likelihood-Inferenz
Likelihoodfunktion:
L(θ) = f (x|θ)
e
’Dichte’ der beobachteten Daten X = x, betrachtet als Funktion von θ. Mit L(θ) ist auch L(θ)
= const × L(θ)
eine Likelihoodfunktion.
3.2
Asymptotische Eigenschaften
Unter Regularitätsannahmen gilt:
• P (θbn existiert) → 1 für n → ∞, d.h. die Likelihood-Gleichungen haben für n → ∞ mit Wahrscheinlichkeit 1 eine Lösung,
P
• θbn → θ,
D
a
1/2
b
• θbn ∼ N (θ, I−1
n (θ)) bzw. In (θ)(θn − θ) → N (0, I),
D
a
1/2
b
• θbn ∼ N (θ, J−1
n (θ)) bzw. Jn (θ)(θn − θ) → N (0, I),
d.h. ML-Schätzer sind BAN-Schätzer.
3.3
Testen von Hypothesen
H0 : Cθ = d
vs.
H1 : Cθ 6= d,
dim(d) = rang(C) = s.
Likelihood-Quotienten-Statistik:
"
#
b
L(θ)
b
e
λ = 2{`(θ) − `(θ)} = 2 log
e
L(θ)
Wald-Statistik:
b > )−1 (C θb − d)
w = (C θb − d)> (CI −1 (θ)C
Score- (oder Rao-) Statistik:
e > I −1 (θ)s(
e θ)
e
u = s(θ)
Unter H0 gilt (unter den gleichen Regularitätsannahmen, die für die asymptotische Normalität des MaximumLikelihood-Schätzers gefordert werden)
a
1. λ, w, u ∼ χ2 (s),
2. λ, w, u sind asymptotisch (lokal) effizient.
Formelsammlung zur Vorlesung Schätzen und Testen I
4
8
Bayes-Inferenz
Finite Exchangeability
Die Zufallsgrößen X1 , . . . , Xn sind exchangeable bezüglich des Wahrscheinlichkeitsmaßes P , wenn
P (x1 , . . . , xn ) = P (xπ(1) , . . . , xπ(n) )
für alle Permutationen
π : {1, . . . , n} → {1, . . . , n}
gilt. Existiert eine Dichte f zu P , so gilt entsprechend:
f (x1 , . . . , xn ) = f (xπ(1) , . . . , xπ(n) ).
Infinite Exchangeability
Die unendliche Folge X1 , X2 , . . . ist exchangeable, wenn jede endliche Teilfolge exchangeable ist.
Allgemeiner Darstellungssatz
Sei X1 , X2 , . . . eine unendliche Folge reellwertiger Zufallsvariablen, die exchangeable sind, mit zugrundeliegendem Wahrscheinlichkeitsmaß P . Dann existiert ein Wahrscheinlichkeitsmaß Q über F, dem Raum aller
Verteilungsfunktionen F auf R, so dass
P (x1 , . . . , xn ) =
Z Y
n
F (xi ) dQ(F ),
F i=1
wobei
Q(F ) = lim P (Fn ),
n→∞
wobei Fn die zu x1 , . . . , xn gehörende empirische Verteilungsfunktion bezeichnet.
4.1
Bayes-Inferenz im Schnelldurchlauf
Notation:
• X: beobachtete Daten
e unbeobachtete Daten
• X:
• θ: Parameter
Basiskomponenten in der Bayes-Inferenz:
• p(θ)
Priori-Verteilung
• f (x|θ)
Daten-Verteilung
• f (θ|x)
Posteriori-Verteilung
• f (e
x|x)
prädiktive Verteilung
A priori prädiktive Verteilung:
Z
f (x) =
Z
f (θ, x) dθ =
Θ
f (x|θ) p(θ) dθ
Θ
A posteriori prädiktive Verteilung:
Z
Z
Z
f (e
x|x) =
f (e
x, θ|x) dθ =
f (e
x|θ, x) p(θ|x) dθ =
f (e
x|θ) p(θ|x) dθ
Θ
Θ
Θ
Formelsammlung zur Vorlesung Schätzen und Testen I
4.2
4.2.1
Mehr-Parameter-Modelle
Dirichlet-Multinomial Modell
Multinomialverteilung:
• Verallgemeinerung der Binomialverteilung
• Notation: (X1 , . . . , Xk ) ∼ Multinomial(n; θ1 , . . . , θk )
• Likelihood:
f (x1 , . . . , xk |θ1 , . . . , θk ) ∝
k
Y
x
θj j ,
j=1
wobei
– k die Anzahl der Ausprägungen, n der Stichprobenumfang,
Pk
– xj die Anzahl von Treffern in Ausprägung j, j=1 xj = n,
Pk
– θj die Wahrscheinlichkeit für Kategorie j, j=1 θj = 1.
Dirichletverteilung:
• Verallgemeinerung der Betaverteilung
• konjugierte Verteilung der Multinomialverteilung
• Notation: (θ1 , . . . , θk ) ∼ Dirichlet(α1 , . . . , αk )
• Dichte:
f (θ1 , . . . , θk ) ∝
k
Y
α −1
θj j
j=1
4.3
Bayesianisches lineares Modell
Modell:
y = Xβ + ε ,
y ∈ Rn , X ∈ Rn×p , β ∈ Rp , ε ∈ Rn
Annahmen und Notation:
p
=
ε =
βb =
rang(X)
(ε1 , . . . , εn )> ,
i.i.d
εi ∼ N (0, σ 2 )
(X > X)−1 X > y
yb = X βb = X(X > X)−1 X > y = Hy
εb = (I − H)y = y − yb
εb> εb
σ
bε2 =
n−p
Bayesianisch:
y|β, σ 2 , X ∼ MVN(Xβ, σ 2 I)
Likelihood:
1
f (y|X, β, σ 2 ) ∝ (σ 2 )−n/2 exp − 2 (y − Xβ)> (y − Xβ)
2σ
9
Formelsammlung zur Vorlesung Schätzen und Testen I
4.3.1
Nichtinformative Priori
p(β, σ 2 ) ∝ (σ 2 )−1
Posteriori:
n
1
p(β, σ 2 |y, X) ∝ (σ 2 )−( 2 +1) exp − 2 (y − Xβ)> (y − Xβ)
2σ
n
1 ∝ (σ 2 )−( 2 +1) exp − 2 εb> εb + (βb − β)> X > X(βb − β)
2σ
Bedingte Posteriori:
b σ 2 (X > X)−1 )
∼ MVN(β,
!
εb> εb + (βb − β)> X > X(βb − β)
2
∼ Inv-χ n,
n
β|σ 2 , y, X
σ 2 |β, y, X
Marginale Posteriori:
β|y, X
σ 2 |y, X
b σ
tn−p (β,
bε2 (X > X)−1 )
εb> εb
∼ Inv-χ2 n − p,
n−p
∼
Prädiktive Verteilung:
h
i
b σ
f ∼ tn−p X
fβ,
f > X)−1 X
f> + I)
p(e
y |y, X, X)
bε2 (X(X
4.3.2
Konjugierte Priori
β, σ 2 ∼ MVN-inv-χ2 (β0 , σ02 Σ0 ; κ0 , σ02 )
Posteriori:
β, σ 2 |y, X ∼ MVN-inv-χ2 (βn , σn2 Σn ; κn , σn2 ) ,
wobei
βn
=
>
−1
>
(Σ−1
(Σ−1
0 + X X)
0 β0 + X y) ,
Σn
=
>
−1
(Σ−1
,
0 + X X)
κn
= κ0 + n ,
σn2
=
> −1
>
2
(β0> Σ−1
0 β0 − βn Σn βn + y y + κ0 σ0 )/(κ0 + n) .
Bedingte Posteriori:
β |σ 2 , y, X
∼
MVN(βn , σ 2 Σn )
Marginale Posteriori:
σ 2 |y, X
∼
Inv-χ2 (κn , σn2 )
10
Formelsammlung zur Vorlesung Schätzen und Testen I
4.4
Markov Chain Monte Carlo
Metropolis-Hastings für eine skalare Komponente:
• π : Zieldichte (unter Umständen nicht normiert)
• q : Vorschlagsdichte
• Xi = (Xi1 , . . . , Xim )> ∈ Rm
• Xi,−j = (Xi1 , . . . , Xi,j−1 , Xi−1,j+1 , . . . , Xi−1,m )>
• Erzeuge Markov-Kette X0 , X1 , X2 , . . . mit stationärer Verteilung π.
• Update-Schritt für Xij :
– Ziehe Y aus q(·|Xi−1,j , Xi,−j ).
– Akzeptiere Y mit Wahrscheinlichkeit
q(Xi−1,j |Y, Xi,−j )
π(Y |Xi,−j )
·
,
α(Y, Xi−1,j |Xi,−j ) = min 1 ,
π(Xi−1,j |Xi,−j ) q(Y |Xi−1,j , Xi,−j )
d.h. setze Xij = Y .
– Ansonsten verwirf Y , d.h. setze Xij = Xi−1,j .
11
Zugehörige Unterlagen
Herunterladen