Klassische Schätz- und Testtheorie

Kapitel 2
Klassische Schätz- und Testtheorie
Grundmodell:
Die Stichprobe X = (X1 , . . . , Xn ) besitzt die Verteilung P ∈ P = {Pθ : θ ∈ Θ}, Θ ⊆ Rk ,
wobei
• θ: k-dimensionaler Parameter
• Θ: Parameterraum
• k < n, oft k n, mit dim(θ) = k fest für asymptotische (n → ∞)-Betrachtungen.
• In der Regel vorausgesetzt: Es existiert Dichte
f (x|θ) = f (x1 , , . . . , xn |θ) zu Pθ ,
so dass man analog schreiben kann:
P = {f (x|θ) : θ ∈ Θ}.
• Klassische Schätz- und Testtheorie für finite (d.h. für festen Stichprobenumfang n)
i.i.d.-Stichprobe von besonderer Relevanz; es gilt:
f (x|θ) = f (x1 |θ) · . . . · f (xn |θ).
• Viele Begriffe, insbesondere der Schätztheorie, jedoch von genereller Bedeutung.
• Literatur: Lehmann & Casella (1998), Lehmann & Romano (2005), Rüger (1999, 2002)
Band I+II
Definition 2.1 (Statistik). Eine Statistik ist eine messbare Funktion
X −→ Rl
T :
x 7−→ T (x).
Normalerweise ist l < n, da mit der Statistik T eine Dimensionsreduktion erzielt werden soll.
19
Beispiel 2.1.
→ T (x) Schätzfunktion
→ T (x) Teststatistik
→ T (x) = `(θ; x) Log-Likelihoodfunktion
2.1
Klassische Schätztheorie
Gesucht: Punkt- oder Bereichsschätzung für θ oder einen transformierten Parametervektor τ (θ).
i.i.d.
Beispiel 2.2. X1 , . . . , Xn ∼ N (µ, σ 2 ) mit θ = (µ, σ 2 )> . Hier könnte τ (θ) = µ sein (d.h. σ 2
ist Nuisance-Parameter) oder τ (θ) = 1/σ 2 (d.h. die Präzision ist von Interesse).
Definition 2.2 (Punktschätzung, Schätzer, Schätzfunktion). Sei
X −→ Θ ⊆ Rk
T :
x 7−→ T (x)
eine messbare Abbildung. Man bezeichnet mit T (x) den Schätzwert oder die Punktschätzung
(zu konkreter Realisation x) und mit T (X) den Punktschätzer von θ, der eine Zufallsvariable
b
b d.h. notationell wird nicht zwischen Schätzwert und
ist (auch gebräuchlich: θ(x)
oder kurz θ,
Schätzfunktion unterschieden).
2.1.1
Suffizienz
Der Begriff der Suffizienz ist von grundlegender Bedeutung in der klassischen parametrischen
Inferenz; darüber hinaus ist die Bedeutung (stark) abgeschwächt, vgl. auch Statistik IV.
def
Definition 2.3. Eine Statistik T heißt suffizient für θ (oder auch für P) ⇔ die bedingte
Verteilung bzw. Dichte von X gegeben T (x) = t ist für alle Werte von T (x) = t von θ
unabhängig, d.h.
fX|T (x|T (x) = t, θ) = fX|T (x|T (x) = t)
hängt nicht von θ ab.
Idee: Zusätzliche Information in X, die nicht in T enthalten ist, ist durch fX|T gegeben. Falls
fX|T von θ unabhängig ist, dann enthält die Stichprobe x nicht mehr Information über θ
als T (x).
Folgender Satz ist äquivalent und konstruktiv:
Satz 2.4 (Faktorisierungssatz, Neyman-Kriterium). Eine Statistik T ist suffizient für θ genau
dann wenn
f (x|θ) = h(x)g(T (x)|θ)
für fast alle x, d.h. die Dichte lässt sich in zwei Teile faktorisieren, von denen ein Teil von x,
aber nicht von θ, und der andere nur von θ und T (x) abhängt.
20
Beweis.
⇒”: Falls T suffizient ist, gilt:
”
fX|T (x|T (x) = t, θ) =
Weiterhin ist
fX,T (x, t|θ)
.
fT |θ (t|θ)
(
fX|θ (x|θ) für T (x) = t
fX,T (x, t|θ) =
0
sonst,
d.h.
fX|T (x|t) · fT |θ (t|θ) = fX|θ (x|θ).
| {z } | {z }
h(x)
g(T (x)|θ)
⇐”: Man erhält die Dichte von T , ausgewertet an t, indem man im obigen Faktorisierungs”
kriterium über die x, für die T (x) = t gilt, summiert (bzw. integriert). Im diskreten
Fall also:
X
X
fT |θ (t|θ) =
h(x)g(T (x)|θ) = g(t|θ)
h(x).
x:T (x)=t
x:T (x)=t
Damit ist die bedingte Dichte von X gegeben T = t,
fX|θ (x|θ)
h(x)
h(x)g(T (x)|θ)
=P
,
=P
h(x)g(t|θ)
fT |θ (t|θ)
x:T (x)=t
x:T (x)=t h(x)
unabhängig von θ. Im stetigen Fall werden Summen durch Integrale ersetzt; im Detail
werden Messbarkeitsbedingungen verwendet.
P
i.i.d.
Beispiel 2.3 (Bernoulli-Experiment). Seien X1 , . . . , Xn ∼ Bin(1, π) und Z = ni=1 Xi die
Anzahl der Erfolge. Dann ist Z suffizient für π, denn
fX|Z (x|z, π) = Pπ (X = x|Z = z)
Qn
π xi (1 − π)1−xi
i=1
,
=
n z
n−z
z π (1 − π)
−1
n
=
z
wobei
n
X
xi = z
i=1
ist unabhängig von π. Gemäß Faktorisierungssatz ist
1
n z
f (x|π) = n
π (1 − π)n−z = |{z}
1 π z (1 − π)n−z .
|
{z
}
z
z |
{z
} =h∗ (x) =g∗ (z|π)
|{z}
=h(x)
=g(z|π)
Beispiel 2.4 (Normalverteilung). Sei X = (X1 , . . . , Xn ) mit Xi
θ = (µ, σ 2 )> .
!
n
n
1
1 X
2
√
fX|θ (x|θ) =
exp − 2
(xi − µ)
2σ
2πσ
i=1
1
= (2π)−n/2 (σ 2 )−n/2 exp − 2
| {z }
2σ
h(x)
|
P
g((
21
n
X
x2i − 2µ
n
X
i=1
i=1
{zP
n
n
2
i=1 xi , i=1 xi )|θ)
i.i.d.
∼
N (µ, σ 2 ) und
!!
xi + nµ2
,
}
Pn
Pn
2
2 >
d.h. T (x) =
i=1 xi ist suffizient für θ = (µ, σ ) . Aber: Die bijektive Transfori=1 xi ,
mation Te(x) = (x̄, s2 ) ist auch suffizient für θ, wobei s2 die Stichprobenvarianz bezeichnet.
i.i.d.
Beispiel 2.5 (Exponentialverteilung). Sei X = (X1 , . . . , Xn ) ∼ Exp(λ), dann
!
n
n
Y
X
n
f (x|λ) =
f (xi |λ) = |{z}
1 · λ exp −λ
xi
i=1
i=1
h(x) |
{z
}
g(T (x)|λ)
mit T (x) =
Pn
i=1 xi .
Nach der ursprünglichen Definition ist
P
fX,T |λ (x, t|λ)
λn exp (−λ ni=1 xi )
Γ(n)
= Pn
= λn Pn
Pn
n−1 .
n−1
fT |λ (t|λ)
(
x
)
(
x
)
exp
(−λ
x
)
i
i
i
i=1
i=1
i=1
Γ(n)
Dabei wird benutzt, dass die Summe von n unabhängigen und identisch exponentialverteilten
Zufallsvariablen mit Parameter λ gammaverteilt ist mit Parametern n und λ.
i.i.d.
Beispiel 2.6 (Order-Statistik). Sei X1 , . . . , Xn ∼ f (x|θ) (wobei f stetige Dichte ist) und
T (x) = x(·) = (x(1) , . . . , x(n) ) die Order-Statistik. Dann gilt
fX|T,θ (x|T = x(·) , θ) =
1
.
n!
Die Gleichheit folgt aus der Stetigkeit, denn xi 6= xj ∀i 6= j (mit Wahrscheinlichkeit 1).
x(·) ist suffizient für θ. Wir haben also bei i.i.d.-Beobachtungen keinen Informationsverlust
durch Ordnen der Daten.
Bemerkung.
• Offensichtlich ist T (x) = x, d.h. die Stichprobe selbst, suffizient.
• Ebenso ist jede eineindeutige Transformation von x oder von einer suffizienten Statistik T (x) suffizient.
• Ist T suffizient, dann auch (T, T ∗ ), wobei T ∗ eine beliebige weitere Statistik darstellt.
Dies zeigt: Die Dimension einer suffizienten Statistik sollte soweit wie möglich reduziert werden.
def
Definition 2.5 (Minimalsuffizienz). Eine Statistik T heißt minimalsuffizient für θ ⇔ T ist
suffizient, und zu jeder anderen suffizienten Statistik V existiert eine Funktion H mit
T (x) = H(V (x)) P − fast überall.
Frage: Existieren minimalsuffiziente Statistiken? Wenn ja, sind sie eindeutig?
Beispiel 2.7 (Normalverteilung).
1. T (x) = x̄ ist minimalsuffizient für µ bei bekanntem σ 2 .
P
2. T (x) = ni=1 (xi − µ)2 ist minimalsuffizient für σ 2 bei bekanntem µ.
22
3. T (x) =
Pn
i=1 xi ,
Pn
2
i=1 xi
ist minimalsuffizient für µ und σ 2 .
Lemma 2.6. Sind T und S minimalsuffiziente Statistiken, dann existieren injektive Funktionen g1 , g2 , so dass T = g1 (S) und S = g2 (T ).
Satz 2.7 (Charakterisierung von Minimalsuffizienz durch Likelihood-Quotienten). Definiere
den Likelihood-Quotienten
f (x|θ1 )
Λx (θ1 , θ2 ) =
.
f (x|θ2 )
Eine notwendige und hinreichende Bedingung für die Minimalsuffizienz einer Statistik T für θ
ist, dass für alle θ1 und θ2 gilt:
T (x) = T (x0 ) ⇔ Λx (θ1 , θ2 ) = Λx0 (θ1 , θ2 ).
Beispiel 2.8 (Suffizienz in Exponentialfamilien). Die Dichte einer k-parametrischen Exponentialfamilie hat die Form
f (x|θ) = h(x) · c(θ) · exp(γ1 (θ)T1 (x) + . . . + γk (θ)Tk (x))
= h(x) · exp(b(θ) + γ(θ)> T (x)),
d.h. T (x) = (T1 (x), . . . , Tk (x))> ist suffizient für θ nach Faktorisierungssatz. Falls Θ ein
offenes Rechteck in Rk enthält, ist T auch minimalsuffizient.
Es folgt nun die Charakterisierung der Minimalsuffizienz nach Lehmann-Scheffé. Dazu wird
der Begriff der Vollständigkeit benötigt.
def
Definition 2.8. Eine Statistik T ist vollständig ⇔ für jede reelle Funktion g gilt:
Eθ [g(T )] = 0 ∀θ ⇒ Pθ (g(T ) = 0) = 1 ∀θ.
Aus der Definiton wird nicht unmittelbar klar, warum Vollständigkeit” eine wünschenswerte
”
Eigenschaft eines Schätzers sein sollte. Einen möglichen Grund liefert der folgende Satz.
Satz 2.9 (Lehmann-Scheffé). Angenommen, X besitzt eine Dichte f (x|θ) und T (X) ist suffizient und vollständig für θ. Dann ist T (x) minimalsuffizient für θ.
Bemerkung (Ancillarity-Statistik). Eine Statistik V (X) heißt ancillary ( Hilfsstatistik”)
”
für P, wenn ihre Verteilung nicht von θ abhängt (also bekannt ist).
Häufiger Sachverhalt: T = (U, V ) ist suffizient für θ, V ancillary, U nicht suffizient.
i.i.d.
Beispiel 2.9. X1 , . . . , Xn ∼ U θ − 21 , θ + 12 . Man kann dann zeigen (Davison, 2004), dass
mit
U
V
1
(X + X(n) )
2 (1)
= X(n) − X(1)
=
T = (U, V ) suffizient, aber nicht vollständig für θ ist. Ferner ist U alleine nicht suffizient und
V ancillary.
23
2.1.2
Erwartungstreue, Varianz und MSE
b
• Fehler eines Schätzers θb = θ(X)
ist θb − θ.
• Messung des Fehlers durch Verlustfunktion, zum Beispiel
b θ) = |θb − θ|
L(θ,
b θ) = kθb − θk2
L(θ,
Abstand (θ skalar),
quadratischer Fehler,
kθb − θk2
relativer quadratischer Fehler,
kθk2
b θ) = (θb − θ)> D(θb − θ) gewichteter quadratischer Fehler (D positiv definit).
L(θ,
b θ) =
L(θ,
b θ) = Eθ [L(θ,
b θ)].
• Risikofunktion R(θ,
• Hier wird (hauptsächlich) quadratischer Verlust betrachtet.
Definition 2.10 (Erwartungstreue, Bias, Varianz eines Schätzers).
def
b = θ.
• θb heißt erwartungstreu ⇔ Eθ [θ]
b = Eθ [θ]
b − θ.
• Biasθ (θ)
b = Eθ [(θb − Eθ [θ])
b 2 ], θ skalar.
• Varθ (θ)
Definition 2.11 (MSE). Der mittlere quadratische Fehler (mean squared error) ist definiert
als
b = Eθ [(θb − θ)2 ] = Varθ (θ)
b + (Biasθ (θ))
b 2.
MSEθ (θ)
Der Gesamtfehler lässt sich also aufteilen in einen zufälligen Fehler (Varianz) und einen
systematischen (quadrierter Bias).
Vergleicht man zwei Schätzer bezüglich ihres MSE, kann für einen Teilbereich von Θ der MSE
des einen, für andere Teilbereiche der MSE des zweiten Schätzers kleiner sein:
Beispiel 2.10. X1 , . . . , Xn
1. MSE von π
b = X̄:
i.i.d.
∼ B(1, π).
Eπ [(X̄ − π)2 ] = Varπ (X̄) =
π(1 − π)
.
n
2. MSE des Bayes-Schätzers (Posteriori-Erwartungswert) bei einer Priori p(π) ∼ Be(α, β):
n
X
Y +α
π
bB =
, Y =
Xi ,
α+β+n
i=1
2
Y +α
Y +α
MSE(b
πB ) = Varπ
+ Eπ
−π
α+β+n
α+β+n
2
nπ(1 − π)
nπ + α
=
+
−π .
(α + β + n)2
α+β+n
24
Für α = β =
p
n/4 ergibt sich
MSEπ (b
πB ) = Eπ [(b
πB − π)2 ] =
n
1
√
= const bezüglich π.
4 (n + n)2
Fazit: In der Regel wird man keinen MSE-optimalen” Schätzer θbopt finden in dem Sinne,
b für alle θ” und alle konkurrierenden θ.
b Bei Einschränkung auf
dass MSEθ (θbopt ) ≤ MSEθ (θ)
erwartungstreue Schätzer ist dies öfter möglich. Deshalb die Forderung:
def
Definition 2.12 (zulässiger ( admissible”) Schätzer). Ein Schätzer θb heißt zulässig ⇔ es
”
e ≤ MSEθ (θ)
b für alle θ und MSEθ (θ)
e < MSEθ (θ)
b für
gibt keinen Schätzer θe mit MSEθ (θ)
mindestens ein θ, d.h. es gibt keinen Schätzer θ̃, der θ̂ gleichmäßig/strikt dominiert”.
”
p
Definition 2.13 (Verallgemeinerungen des MSE auf θ ∈ R , p > 1). Üblich sind die folgenden
zwei Alternativen:
1. MSE (skalar):
(1) b
MSEθ (θ)
= Eθ [kθb − θk2 ]
p
X
=
Eθ [(θbj − θj )2 ]
=
j=1
p
X
MSEθ (θbj )
j=1
2. MSE-Matrix:
(2)
b = Eθ [(θb − θ)(θb − θ)> ]
MSEθ (θ)
b + (Eθ [θ]
b − θ)(Eθ [θ]
b − θ)>
= Covθ (θ)
Diese Variante wird häufig bei linearen Modellen betrachtet.
25
Bemerkung. Das j-te Diagonalelement der MSE-Matrix ist MSEθ (θbj ). Vergleich von MSEMatrizen gemäß Löwner”-Ordnung:
”
(≤)
e < MSEθ (θ)
b
MSEθ (θ)
b − MSEθ (θ)
e positiv (semi-)definit ist. Man definiert allbedeutet, dass die Differenz MSEθ (θ)
gemein für geeignete Matrizen A, B:
def
A ≤ B ⇔ B − A ist positiv semidefinit,
def
A < B ⇔ B − A ist positiv definit.
Beispiel 2.11 (Gauß-Experiment). Seien X1 , . . . , Xn
i.i.d.
∼ N (µ, σ 2 ).
• σ 2 bekannt, µ unbekannt: MSE-Vergleich von X̄ und T = bX̄ + a.
• σ 2 unbekannt, µ bekannt:
– Eine Möglichkeit:
n
Sµ2 =
1X
(Xi − µ)2 , Eσ2 (Sµ2 ) = σ 2
n
i=1
– Weitere Möglichkeit:
n
Vµ2 =
n
1 X
(Xi − µ)2 , Eσ2 (Vµ2 ) =
σ2
n+2
n+2
i=1
Es stellt sich heraus, dass MSEσ2 (Vµ2 ) < MSEσ2 (Sµ2 ) ist.
• µ und σ 2 unbekannt:
– Eine Möglichkeit:
n
1 X
S =
(Xi − X̄)2 ,
n−1
2
i=1
Eσ2 (S 2 ) = σ 2 , MSEσ2 (S 2 ) = Varσ2 (S 2 ) =
– Weitere Möglichkeit:
2
σ4.
n−1
n
1 X
V =
(Xi − X̄)2 ,
n+1
2
i=1
Eσ2 (V 2 ) =
n−1 2
2
σ , MSEσ2 (V 2 ) =
σ4,
n+1
n+1
d.h. V 2 dominiert S 2 .
– Der sogenannte Stein-Schätzer
n
(
1 X 2
T = min V ,
Xi
n+2
2
i=1
26
)
dominiert
V 2 (und damit S 2 ). Plausibilitätsbetrachtung: Ist µ = 0, so ist
Pn
2
2
2
i /(n+2) besserer Schätzer als V . Ist µ 6= 0, so ist V ein besserer Schätzer
i=1
PX
n
2
als i=1 Xi /(n + 2). Beim Stein-Schätzer wird fallweise mit hoher Wahrscheinlichkeit der jeweils bessere Schätzer benutzt.
Beispiel 2.12 (Stein’s Paradoxon). Seien (X1 , . . . , Xm )> ∼ Nm (µ, C) multivariat normal2 ). Es sollen simultan die Erwartungsverteilt mit µ = (µ1 , . . . , µm )> , C = diag(σ12 , . . . , σm
werte µ1 , . . . , µm geschätzt werden. Man beachte dabei, dass die einzelnen Komponenten als
unabhängig angenommen werden. Die Stichprobe hat die Form
X11 , . . . , X1n1 , . . . , Xm1 , . . . , Xmnm
(i.i.d. Stichproben aus Gruppen” 1, . . . , m). Übliche Schätzer:
”
Tj = X̄j ,
j = 1, . . . , m,
T = (T1 , . . . , Tm )> = (X̄1 , . . . , X̄m )> .
Der (skalare) MSE ist:
Eµ [kT − µk2 ] =
m
X
Eµ [(X̄j − µj )2 ] =
j=1
m
X
σj2
j=1
nj
.
Paradoxerweise gilt:
1. Für m ≤ 2 ist T zulässig.
2. Für m ≥ 3 ist T nicht zulässig und wird dominiert durch den Stein-Schätzer
!
m
−
2
m
−
2
T.
T = 1 − Pm
T∗ = 1 − >
2
T T
j=1 X̄j
Dieses Ergebnis ist unabhängig von den Stichprobenumfängen n1 , . . . , nm in den Gruppen. Es
lässt sich zeigen: T ∗ ist Minimax-Schätzer, aber selbst unzulässig. Der Stein-Schätzer ist ein
sogenannter Shrinkage-Schätzer.
Beispiel 2.13 (Lineares Modell).
y = Xβ + ε, ε ∼ (N )(0, σ 2 I)
KQ-Schätzer:
Ridge-Schätzer:
βbKQ = (X > X)−1 X > y
βbRidge = (X > X + λD)−1 X > y,
wobei D eine Diagonalmatrix mit positiven Diagonalelementen ist. Für einen MSE-Vergleich
siehe Vorlesung/Buch zu Lineare Modelle.
Fazit: Bereits im einfachen Beispiel der Schätzung von π in B(1, π) (siehe Beispiel 2.10) zeigt
sich, dass es im Allgemeinen keine MSE-optimalen Schätzer gibt.
27
Auswege:
1. Einschränkung auf Teilklasse von Schätzern, zum Beispiel erwartungstreue (und lineare)
Schätzer, äquivariante Schätzer, . . .
2. MSE-Kriterium verändern:
b durch Minimierung von maxθ∈Θ MSEθ (θ)
b (Minimax-Kriterium)
• Ersetze MSEθ (θ)
b durch Ep(θ) [MSEθ (θ)]
b bei einer Priori-Verteilung p(θ) (Bayes• oder ersetzte MSEθ (θ)
Schätzer).
Hier: Strategie 1 mit erwartungstreuen Schätzern, vgl. 2.1.4.
2.1.3
Fisher-Information und Suffizienz
Definition 2.14 (Fisher-reguläre Verteilungsfamilien). Eine Familie von Verteilungen Pθ
mit Dichte f (x|θ) = f (x1 , . . . , xn |θ), θ ∈ Θ, heißt Fisher-regulär, wenn Folgendes gilt:
1. Der Träger {x ∈ X : f (x|θ) > 0} ist unabhängig von θ (dies ist zum Beispiel bei
X1 , . . . , Xn
i.i.d.
∼ U [0; θ] oder bei der Pareto-Verteilung verletzt).
2. Θ ist offen in Rp (verletzt zum Beispiel bei σ 2 ≥ 0).
3. Die ersten und zweiten Ableitungen von f (x|θ) bzgl. θ existieren und sind für jedes θ
endliche Funktionen von x.
4. Vertauschbarkeit: Sowohl für f (x|θ) als auch für log(f (x|θ)) kann erstes und zweites
Differenzieren nach θ und Integration über x vertauscht werden.
Definition 2.15 (Log-Likelihood, Scorefunktion und Information).
`(θ; x) = log f (x|θ)
( Log-Likelihood von θ bzgl. der Stichprobe x)
>
∂
∂
∂
s(θ; x) =
`(θ; x) =
`(θ; x), . . . ,
`(θ; x)
( Score-Funktion)
∂θ
∂θ1
∂θp
∂ 2 `(θ; x)
J(θ; x) = −
( beobachtete Informationsmatrix der Stichprobe mit Elementen
∂θ∂θ>
∂ 2 log f (x|θ) (J(θ; x))ij = −
∂θi ∂θj
I(θ) = Eθ [J(θ; X)] ( erwartete oder Fisher-Informationsmatrix)
Satz 2.16. Ist Pθ Fisher-regulär, so gilt:
1. Eθ [s(θ; X)] = 0
h 2
i
`(θ;X)
2. Eθ − ∂∂θ∂θ
= Covθ (s(θ; X))
>
28
Beweis.
Zu 1.:
Z
Eθ [s(θ; X)] =
s(θ; x)f (x|θ) dx
Z
∂
log(f (x|θ))f (x|θ) dx
∂θ
Z ∂
∂θ f (x|θ)
=
f (x|θ)dx
f (x|θ)
Z
∂
=
f (x|θ)dx = 0
∂θ
=
Zu 2.:
Eθ
∂ 2 `(θ; X)
−
∂θ∂θ>
"
= −Eθ
"
= −Eθ
∂
∂θ
∂
f (X|θ)
∂θ>
!#
f (X|θ)
2
∂
∂
∂
f (X|θ) ∂θ∂θ
> f (X|θ) − ( ∂θ f (X|θ))( ∂θ > f (X|θ))
f (X|θ)2
#
unter Verwendung der Quotientenregel der Differentiation. Dies ist gleich
" 2
#
"
#
∂f (X|θ)
∂
∂
f (X|θ)
∂θ∂θ>
∂θ f (X|θ)
∂θ>
− Eθ
·
+ Eθ
f (X|θ)
f (X|θ) f (X|θ)
Z
∂2
f (x|θ)dx + Eθ [s(θ; X)s(θ; X)> ]
= −
∂θ∂θ>
Der erste Summand ist unter Vertauschung von Differentiation und Integration gleich
null. Für den zweiten Teil ergibt sich mit Teil 1.
E[s(θ; X)s(θ; X)> ] = Covθ (s(θ; X)).
Weitere Eigenschaften:
• Sind X1 , . . . , Xn unabhängig und gemäß Xi ∼ fi (x|θ), i = 1, . . . , n, verteilt, so gilt:
`(θ) =
n
X
`i (θ)
,
`i (θ) = log fi (xi |θ)
si (θ)
,
si (θ) =
∂ 2 `(θ)
∂θ∂θ>
=
i=1
s(θ) =
n
X
i=1
J(θ) = −
n
X
i=1
29
−
∂
log fi (xi |θ)
∂θ
∂ 2 log fi (xi |θ)
∂θ∂θ>
• Für X1 , . . . , Xn i.i.d. wie X1 ∼ f1 (x|θ) folgt
I(θ) = Eθ [J(θ)] = n · i(θ),
wobei
∂ log f1 (X|θ)
∂ 2 `1 (θ; X)
= Covθ
i(θ) = Eθ −
∂θ
∂θ∂θ>
die erwartete Information einer Einzelbeobachtung ist, d.h. die erwartete Informationsmatrix der Stichprobe X1 , . . . , Xn ist die n-fache erwartete Information einer (typischen)
Stichprobenvariable X1 .
• Für eine Statistik T = T (X), X = (X1 , . . . , Xn )> mit T ∼ fT (t|θ) kann man die Begriffe
Score-Funktion und Fisher-Information völlig analog definieren. Insbesondere ist
2
∂ log fT (t|θ)
IT (θ) = Eθ −
.
∂θ∂θ>
Satz 2.17 (Suffizienz und Fisher-Information). Sei I(θ) die Fisher-Information für X. Dann
gilt unter Fisher-Regularität für jede Statistik T :
1. IT (θ) ≤ I(θ).
2. IT (θ) = I(θ) ⇔ T ist suffizient für θ.
Also: Bei einer suffizienten Statistik T wird keine (erwartete) Information verschenkt”.
”
2.1.4
Erwartungstreue Schätzer
• Schöne” Resultate für finites n, aber für vergleichsweise einfache statistische Modelle.
”
• Problem: Für komplexere Modelle existieren keine vernünftigen” erwartungstreuen
”
Schätzer.
• Aber: Etliche Resultate besitzen allgemeine Eigenschaften für n → ∞.
Informationsungleichungen
I. θ ∈ R (skalar). Neben θ werden auch transformierte Parameter τ (θ) betrachtet. Wenn
Ableitungen benötigt werden, nehmen wir stillschweigend an, dass sie existieren.
Satz 2.18. Sei f (x|θ) Fisher-regulär.
1. Ist θb erwartungstreu für θ, so gilt:
b ≥
Varθ (θ)
1
I(θ)
(Cramer-Rao-Ungleichung).
2. Ist T = T (x) erwartungstreu für τ (θ), so gilt:
Varθ (T ) ≥
(τ 0 (θ))2
I(θ)
heißt Cramer-Rao-Schranke.
30
(τ 0 (θ))2
.
I(θ)
b − θ, so gilt
3. Besitzt θb den Bias B(θ) = Eθ [θ]
0
2
b ≥ B 2 (θ) + (1 + B (θ)) .
MSEθ (θ)
I(θ)
Beweis. Gezeigt wird 2. Daraus folgt 1. für τ (θ) = θ und 3. für τ (θ) = θ + B(θ).
Differentiation von
Z
τ (θ) = Eθ [T ] = T (x)f (x|θ) dx
bezüglich θ, und Verwendung der Fisher-Regularität liefert:
Z
d
0
τ (θ) =
T (x) f (x|θ) dx
dθ
Z
=
T (x)s(θ; x)f (x|θ) dx
= Covθ (T (X), s(θ; X)).
Unter Verwendung der Cauchy-Schwarz-Ungleichung
p
p
|Cov(U, V )| ≤ Var(U ) Var(V )
folgt
(τ 0 (θ))2 ≤ Varθ (T (X))Varθ (s(θ; X))
= Varθ (T (X))I(θ).
Also:
Varθ (T (X)) ≥
(τ 0 (θ))2
.
I(θ)
Bemerkung. Die Gleichheit wird genau dann angenommen, wenn eine einparametrische Exponentialfamilie f (x|θ) = h(x) exp(γ(θ)T (x)+b(θ)) vorliegt, τ (θ) = −b0 (θ)/γ 0 (θ)
gilt und T (x) ein Schätzer für τ (θ) ist. Also: eher eine kleine Modellklasse.
II. θ = (θ1 , . . . , θp ) bzw. τ (θ) mehrdimensional.
Satz 2.19. Sei f (x|θ) Fisher-regulär.
1. Ist θb erwartungstreu für θ, so gilt:
b ≥ I −1 (θ),
Covθ (θ)
wobei sich das ≥” auf die Löwner-Ordnung bezieht (vergleiche Seite 26). Daraus
”
folgt insbesondere Varθ (θbj ) ≥ vjj , j = 1, . . . , p, wobei vjj das j-te Diagonalelement
von I −1 (θ) bezeichnet.
2. Ist T erwartungstreu für τ (θ), so gilt
Covθ (T ) ≥ H(θ)I −1 (θ)H(θ)>
mit der Funktionalmatrix (H(θ))ij =
Cramer-Rao-Schranke.
∂
∂θj τi (θ).
31
Die Matrix H(θ)I −1 (θ)H(θ)> ist die
Bemerkung. Obige Bemerkung für skalares θ gilt analog für
f (x|θ) = h(x) exp(b(θ) + γ > (θ)T (x)),
d.h. für mehrparametrische Exponentialfamilien.
Beispiel 2.14 (Cramer-Rao-Schranke bei X ∼ N (µ, σ 2 )). X1 , . . . , Xn i.i.d. wie X ∼ N (µ, σ 2 ),
θ = (µ, σ 2 ). Dann gilt für die Informationsmatrix
!
n
σ2
0
0
2
n
σ
bzw. I −1 (θ) =
I(θ) =
.
4
0 2σn4
0 2σn
Beste erwartungstreue Schätzer
Erwartungstreue Schätzer minimaler Varianz innerhalb einer vorgegebenen Klasse nennt man
effizient. Die Informationsungleichungen motivieren:
Definition 2.20 (Gleichmäßig bester erwartungstreuer (UMVU) Schätzer).
1. θ skalar:
Der Schätzer θbeff für θ heißt gleichmäßig bester erwartungstreuer oder UMVU ( uni”
def
formly minimum variance unbiased”)-Schätzer ⇔ θbeff ist erwartungstreu, und es gilt
b für alle θ und jeden erwartungstreuen Schätzer θ.
b
Varθ (θbeff ) ≤ Varθ (θ)
2. θ mehrdimensional:
b durch Covθ (θbeff ) ≤ Covθ (θ).
b
Ersetze in 1. Varθ (θbeff ) ≤ Varθ (θ)
Satz 2.21 (Effizienz und Informationsungleichungen). Sei f (x|θ) Fisher-regulär und θb erb = I −1 (θ) für alle θ, so ist θb ein UMVU-Schätzer.
wartungstreu für θ. Falls Covθ (θ)
Beweis. Die Aussage folgt direkt aus der Informationsungleichung und obiger Definition.
i.i.d.
Beispiel 2.15 (Gauß-Experiment). Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) mit µ, σ 2 unbekannt. Aus
Beispiel 2.14 wissen wir, dass I(µ) = n/σ 2 und somit I −1 (µ) = σ 2 /n = Var(X̄). Dann ist X̄
UMVU für µ. Aber
2σ 4
2σ 4
Var(S 2 ) =
>
= I −1 (σ 2 ).
n−1
n
Die Cramer-Rao-Schranke wird also nicht erreicht, somit kann nicht gefolgert werden, dass S 2
UMVU für σ 2 ist.
Beispiel 2.16 (Lineares Modell).
y = Xβ + ε, ε ∼ N (0, σ 2 I)
bzw.
y ∼ N (Xβ, σ 2 I)
βbKQ = βbML = (X > X)−1 X > y ist effizient für β,
n
1 X
(yi − ybi )2 ist nicht effizient für σ 2 .
σ
b2 =
n−p
i=1
32
Bemerkung. Zu unterscheiden sind folgende Situationen:
1. Es existiert ein UMVU-Schätzer, dessen Varianz gleich der Cramer-Rao-Schranke ist.
2. Es existiert ein UMVU-Schätzer, dessen Varianz größer als die Cramer-Rao-Schranke
ist (findet man mit dem Satz von Lehmann-Scheffé, siehe Satz 2.23).
3. Der häufigste Fall: Es existiert (für finiten Stichprobenumfang) kein UMVU-Schätzer.
Fazit: Finite Theorie erwartungstreuer Schätzer ist von eingeschränkter Anwendungsrelevanz.
Aber: Es existiert eine analoge asymptotische Theorie mit breiter Anwendungsrelevanz, die
sich an finiter Theorie orientiert (siehe Abschnitt 2.1.5).
Zur Konstruktion von UMVU-Schätzern sind folgende zwei Aussagen nützlich:
Satz 2.22 (Rao-Blackwell). Sei T = T (X) suffizient für θ bzw. Pθ und θb erwartungstreu
für θ. Für den Schätzer
b ]
θbRB = Eθ [θ|T
( Rao-Blackwellization”)
”
gilt:
1. θbRB ist erwartungstreu für θ.
b
2. Varθ (θbRB ) ≤ Varθ (θ).
3. In 2. gilt die Gleichheit, wenn θb nur von T abhängt, d.h. θbRB = θb mit Wahrscheinlichkeit 1.
Satz 2.23 (Lehmann-Scheffé). Ist T = T (X) suffizient und vollständig (also minimalsuffizib
ent) und θb = θ(x)
ein erwartungstreuer Schätzer, so ist
b ]
θb∗ = Eθ [θ|T
der mit Wahrscheinlichkeit 1 eindeutig bestimmte UMVU-Schätzer für θ.
2.1.5
Asymptotische Eigenschaften und Kriterien
Wichtige Schätzer (Momentenschätzer, Shrinkage-Schätzer, ML- und Quasi-ML-Schätzer etc.)
sind im Allgemeinen nicht erwartungstreu, besitzen aber günstige asymptotische (n → ∞)
Eigenschaften. Im Folgenden sei
θ̂n = θ̂(X1 , . . . , Xn )
Schätzer für θ.
def
Definition 2.24 (Asymptotische Erwartungstreue). θbn heißt asymptotisch erwartungstreu ⇔
lim Eθ [θbn ] = θ
n→∞
33
für alle θ.
Definition 2.25 (Konsistenz).
def
P
1. θbn ist (schwach) konsistent für θ (in Zeichen: θbn → θ (für alle θ)) ⇔
lim Pθ (|θbn − θ| ≤ ε) = 1
n→∞
für alle ε > 0 und alle θ.
def
2. θbn heißt MSE-konsistent für θ ⇔
lim MSEθ (θbn ) = 0
n→∞
für alle θ.
def
3. θbn ist stark konsistent für θ ⇔
Pθ lim θbn = θ = 1
für alle θ.
n→∞
Bemerkung.
1. Aus der (verallgemeinerten) Tschebyscheff-Ungleichung folgt
θbn MSE-konsistent ⇒ θbn schwach konsistent.
2. Wegen MSEθ (θbn ) = Varθ (θbn ) + (Biasθ (θbn ))2 folgt:
θbn ist MSE-konsistent ⇔ Varθ (θbn ) → 0 und Biasθ (θbn ) → 0 für alle θ.
3. Ist θbn konsistent für θ und g eine stetige Abbildung, so ist auch g(θbn ) konsistent für g(θ)
(Continuous Mapping Theorem/Stetigkeitssatz).
4. Konsistenznachweise bestehen in der Regel in der Anwendung (schwacher) Gesetze
großer Zahlen (für i.i.d. Variablen; i.n.i.d. Variablen; abhängige Variablen, z.B. Martingale, Markov-Prozesse, ...).
Beispiel 2.17.
1. X̄n =
2. Sn2 =
1
n
n
P
Xi ist wegen E(X̄n ) = µ und Var(X̄n ) =
i=1
1
n−1
n
P
(Xi − X̄n )2 und Sen2 =
i=1
3. Mit g(x) =
1
n
n
P
σ2
n
→ 0 für n → ∞ konsistent.
(Xi − X̄n )2 sind MSE-konsistent für σ 2 .
i=1
√
x folgt, dass
v
u
n
u 1 X
Sn = t
(Xi − X̄n )2
n−1
i=1
und
v
u n
u1 X
e
Sn = t
(Xi − X̄n )2
n
i=1
konsistent sind für σ.
4. Sn /X̄n ist konsistent für σ 2 /µ für µ > 0, da mit θ = (µ, σ) und g(θ) = σ 2 /µ wieder der
Stetigkeitssatz benutzt werden kann.
5. π
bn ist konsistent für π (im Bernoulli-Experiment).
6. βbKQ , βbRidge sind konsistent für β im linearen Modell.
34
Asymptotische Normalität
Viele Schätzer (KQ-, Momenten-, ML-, Quasi-ML-, Bayes-Schätzer) sind unter Regularitätsannahmen asymptotisch normalverteilt. Informell ausgedrückt heißt das: Für große n ist θbn
nicht nur approximativ erwartungstreu, sondern zusätzlich approximativ normalverteilt, kurz
a
θbn ∼ N (θ, V (θ))
mit (approximativer) Kovarianzmatrix
a
Covθ (θbn ) ∼ V (θ),
die durch
d θ (θbn ) := V (θbn )
Cov
geschätzt wird. In der Diagonalen von V (θbn ) stehen dann die (geschätzten) Varianzen
d θbj ) = vjj (θbn )
Var(
der Komponenten θj , j = 1, . . . , p, von θ.
⇒ ”Üblicher” Output statistischer Software ist
q
b
θbj
σ
bθbj = vjj (θ)
|{z}
|
{z
}
Schätzer
Standardfehler
t
|{z}
t-Statistik
p
|{z}
p-Wert
i.i.d.
Beispiel 2.18. Seien X1 , . . . , Xn ∼ F (x|θ) mit E(Xi ) = µ und Var(Xi ) = σ 2 . Aber F sei
nicht gleich Φ, sondern z.B. die Verteilungsfunktion von B(π) oder P o(λ). Für X̄n gilt
E(X̄n ) = µ und Var(X̄n ) =
σ2
.
n
Aufgrund des zentralen Grenzwertsatzes folgt
σ2
X̄n ∼ N µ,
,
n
a
zum Beispiel
a
X̄n ∼ N
π(1 − π)
π,
n
bei B(π).
Genauere Formulierung:
√
im Beispiel also
√
d
n(X̄n − µ) → N (0, σ 2 )
für n → ∞,
d
n(X̄n − π) → N (0, π(1 − π))
für n → ∞
bzw.
X̄−µ √
n
σ
√
X̄−π
√
n
π(1−π)
d
→
d
→
N (0, 1),
N (0, 1).
)
zentraler
Grenzwertsatz
√
Die n-Normierung ist vor allem bei i.i.d. Stichprobenvariablen geeignet. Für nicht identisch
verteilte Stichprobenvariablen wie zum Beispiel y1 |x1 , . . . , yn |xn in Regressionssituationen
√
benötigt man bei n-Normierung Voraussetzungen, die (teilweise) unnötig restriktiv sind.
1
Besser ist dann eine Matrix-Normierung” mit Hilfe einer Wurzel” I 2 (θ) der Informations”
”
matrix.
35
Einschub: Wurzel einer positiv definiten Matrix
• A ist positiv definit, wenn A symmetrisch ist und x> Ax > 0 für alle x 6= 0 gilt.
def
1
• Dann heißt eine Matrix A 2 (linke) Wurzel von A ⇔
1
1
A2
>
(A 2 )>
| {z }
= A.
=A 2 , rechte Wurzel
1
1
Allerdings ist A 2 nicht eindeutig, da für eine beliebige orthogonale Matrix auch A 2 Q
eine linke Wurzel ist:
1
1
>
1
A 2 Q(A 2 Q)> = A 2 QQ> A 2 = A.
| {z }
=I
• Zwei gebräuchliche Wurzeln sind:
1. Symmetrische Wurzel: Betrachte die Spektralzerlegung von A ∈ Rp×p . Mit der
Matrix P ∈ Rp×p der orthonormalen Eigenvektoren als Spalten ist


λ1
0


..
P > AP = Λ = 
,
.
0
λp
wobei für alle i die λi > 0 die Eigenwerte von A sind. (Diese Zerlegung ist numerisch aufwändig!) Dann gilt auch
1
1
A = P ΛP > = P
Λ 2} (Λ 2 )> P > ,
| {z
| {z }
1
=A 2
>
=A 2
1
und A 2 heißt symmetrische Wurzel von A.
1
2. Cholesky-Wurzel: Sei A 2 := C untere Dreiecksmatrix mit positiven Diagonalelementen und CC > = A. Dann ist C die eindeutig bestimmte Cholesky-Wurzel
von A. (Diese ist numerisch vergleichsweise einfach zu erhalten!)
• Anwendungen in der Statistik
1. Erzeugen von Np (0, Σ)-verteilten Zufallszahlen (Σ vorgegeben): Falls Z ∼ Np (0, I),
ist einfache Simulation möglich, indem p unabhängige N (0, 1)-verteilte Zufallsvariablen Z1 , . . . , Zp simuliert werden. Dann gilt auch
.
Σ1/2 Z ∼ N (0, Σ1/2 IΣ>/2 ) = N (0, Σ).
Also: Berechne Cholesky-Wurzel von Σ, ziehe p N (0, 1)-verteilte Zufallsvariablen
Z = (z1 , . . . , zp )> , berechne Y = Σ1/2 Z. Dann ist Y = (Y1 , . . . , Yp )> ein Np (0, Σ)verteilter Zufallsvektor.
36
2. Matrixnormierung bei asymptotischer Normalverteilung:
Beispiel 2.19 (Asymptotische Normalität des KQ-Schätzers im linearen Modell).
Seien y1 |x1 , . . . , yn |xn unabhängig. Dann gilt
E[yi |xi ] = x>
i β,
Var(yi |xi ) = σ 2 ,
i = 1, . . . , n,
⇔ yn = Xn β + εn , E[εn ] = 0, Cov(εn ) = σ 2 In .
Der KQ-Schätzer ist
βbn = (Xn> Xn )−1 Xn> yn , E[βbn ] = β, Cov(βbn ) = σ 2 (Xn> Xn )−1 .
Die Informationsmatrix unter der Normalverteilungsannahme ist
I(β) =
Xn> Xn
= Cov(βbn )−1 .
σ2
Zentrale Grenzwertsätze (für unabhängige, nicht identisch verteilte Zufallsvariablen, kurz: i.n.i.d.) liefern unter geeigneten Voraussetzungen (informell):
a
βbn ∼ N (β, σ 2 (Xn> Xn )−1 ).
Genauere Formulierungen nehmen an, dass
1 >
X Xn =: A > 0
n→∞n n
lim
(2.1)
existiert (also: Xn> Xn ≈ nA ⇔ (Xn> Xn )−1 ≈ A−1 /n für große A). Anwendung
des (multivariaten) zentralen Grenzwertsatzes liefert dann:
√
d
n(βbn − β) → N (0, σ 2 A−1 )
bzw.
βbn
βbn
∼
a
N (β, σ 2 A−1 /n)
a
N (β, σ 2 (Xn> Xn )−1 ).
∼
Die Annahme (2.1) ist zum Beispiel erfüllt, wenn xi , i = 1, . . . , n, i.i.d. Realisierungen stochastischer Kovariablen x = (x1 , . . . , xp )> sind. Dann gilt nach dem
Gesetz der großen Zahlen:
n
1 >
1X
Xn Xn =
xi x>
i
n
n
n→∞
→
E[xx> ] =: A.
i=1
Typischerweise ist die Annahme (2.1) nicht erfüllt bei deterministischen Regressoren mit Trend. Das einfachste Beispiel hierfür ist ein linearer Trend: xi = i für
i = 1, . . . , n und yi = β1 i + εi . Dann ist
Xn> Xn =
n
X
i=1
37
i2
und daher
Pn 2
i
1 >
n→∞
Xn Xn = i=1 ≥ n → ∞.
n
n
In diesem Fall ist eine andere Normierung nötig, zum Beispiel eine Matrixnormierung mit
Cn = (Xn> Xn ).
Dann lässt sich die asymptotische Normalität des KQ-Schätzers
d
Cn1/2 (βbn − β) → Np (0, σ 2 I)
bzw.
1/2
Cn b
d
C̃n1/2 (βbn − β) :=
(βn − β) → Np (0, I)
σ
unter folgenden, sehr schwachen Bedingungen zeigen:
(D) Divergenzbedingung: Für n → ∞ gilt:
(Xn> Xn )−1 → 0.
Eine äquivalente Forderung ist:
λmin (Xn> Xn ) → ∞,
wobei λmin den kleinsten Eigenwert von Xn> Xn bezeichnet. Die Divergenzbedingung sichert, dass die Informationsmatrix”
”
n
X
Xn> Xn =
xi x>
i
i=1
für n → ∞ gegen ∞ divergiert, die Information mit n → ∞ also laufend
wächst.
Es gilt: (D) ist hinreichend und notwendig für die (schwache und starke) Konsistenz des KQ-Schätzers βbn .
(N) Normalitätsbedingung:
>
−1
max x>
i (Xn Xn ) xi → 0
i=1,...,n
für n → ∞
(N) sichert, dass die Information
jeder Beobachtung i asymptotisch gegenüber
Pn
>
der Gesamtinformation i=1 xi xi vernachlässigbar ist.
Unter (D) und (N) gilt
d
(Xn> Xn )1/2 (βbn − β) → N (0, σ 2 I)
(Beweis mit Grenzwertsätzen für unabhängige, nicht identisch verteilte Zufallsvariablen), d.h. für praktische Zwecke:
a
βbn ∼ N (β, σ 2 (Xn> Xn )−1 )
für genügend großen Stichprobenumfang n. Dabei darf zusätzlich σ 2 durch einen
konsistenten Schätzer σ
b2 ersetzt werden.
38
Definition 2.26 (Asymptotische Normalität).
1. Mit
√
def
n-Normierung: θbn heißt asymptotisch normalverteilt für θ ⇔
√
d
n(θbn − θ) → N (0, V (θ))
für n → ∞
mit nicht-negativ definiter (in der Regel positiv definiter) asymptotischer Kovarianzmatrix V (θ).
def
2. Mit Matrix-Normierung: θbn heißt asymptotisch normalverteilt für θ ⇔ es existiert
eine Folge von Matrizen An mit λmin (An ) → ∞, so dass
d
An1/2 (θbn − θ) → N (0, V (θ)).
Bemerkung.
1. Praxisformulierung:
bzw.
a
θbn ∼ N (θ, V (θ)/n)
a
−1
1/2 −>
θbn ∼ N (θ, (A1/2
).
n ) V (θ)(An )
Dabei darf θ in V (θ) durch θbn ersetzt werden.
2. Oft: V (θ) = I möglich, wenn geeignet normiert wird, zum Beispiel bei ML-Schätzung.
Beispiel 2.20. Seien X1 , . . . , Xn i.i.d. Zufallsvariablen mit (bekanntem) Erwartungswert µ
und Varianz σ 2 .
n
1X
(Xi − µ)2
Sµ2 =
n
i=1
σ2
ist asymptotisch normal für
mit V (θ) = µ4 − σ 4 , µ4 = E[(Xi − µ)4 ] < ∞. Sµ2 ist erwartungstreu. Für die Varianz erhält man:
!
n
X
1
Var(Sµ2 ) = Var
(Xi − µ)2
n
i=1
1
=
· n · Var (X1 − µ)2
2
n
2 1
=
E[(X1 − µ)4 ] − E[(X1 − µ)2 ]
n
1
=
(µ4 − σ 4 ).
n
Es liegen die Voraussetzungen zur Anwendung des zentralen Grenzwertsatzes vor. Aus ihm
folgt:
√
a
d
Sµ2 ∼ N (σ 2 , (µ4 − σ 4 )/n) bzw.
n(Sµ2 − σ 2 ) → N (0, µ4 − σ 4 ).
39
Die Delta-Methode
θbn sei asymptotisch normalverteilter Schätzer für θ.
Frage: Wie ist für eine gegebene Abbildung
h : Rp → Rk , k ≤ p
b für h(θ) verteilt?
der Schätzer h(θ)
Satz 2.27 (Delta-Methode). Sei h wie oben.
1. θ skalar: Für alle θ, für die h stetig differenzierbar ist mit h0 (θ) 6= 0, gilt:
√
d
n(θbn − θ) → N (0, V (θ)) ⇒
√
d
n(h(θbn ) − h(θ)) → N (0, [h0 (θ)]2 V (θ))
2. θ vektoriell: Sei
θ = (θ1 , . . . , θp )> 7→ h(θ) = (h1 (θ), . . . , hk (θ))>
mit Funktionalmatrix
(H(θ))ij =
∂hi (θ)
∂θj
mit vollem Rang. Für alle θ, für die h(θ) komponentenweise stetig partiell differenzierbar
ist und jede Zeile von H(θ) ungleich dem Nullvektor ist, gilt:
√
d
n(θbn − θ) → N (0, V (θ)) ⇒
√
d
n(h(θbn ) − h(θ)) → N (0, H(θ)V (θ)H(θ)> ).
Beweisskizze für skalares θ. Taylorentwicklung von h(θbn ) um θ liefert:
h(θn ) = h(θ) + (θbn − θ)h0 (θ) + o(θbn − θ)2 .
Dabei ist für eine Folge von Zufallsvariablen Xn
Xn = o(an )
P
falls Xn /an → 0 für n → ∞.
Also:
h(θbn ) ≈ h(θ) + (θbn − θ)h0 (θ)
bzw.
√
√
n(h(θbn ) − h(θ)) ≈ n(θbn − θ)h0 (θ)
√
√
d
d
Aus n(θbn − θ) → N (0, V (θ)) folgt dann, dass n(h(θbn ) − h(θ)) → N (0, h0 (θ)2 V (θ)).
40
Asymptotische Cramer-Rao Schranke und asymptotische Effizienz
i.i.d.
Seien X1 , . . . , Xn ∼ f (x|θ) und
∂ 2 log f (x|θ)
i(θ) = −E
∂θ∂θ>
die erwartete Fisher-Information einer Beobachtung Xi . Die Information der gesamten Stichprobe X1 , . . . , Xn ist dann
I(θ) = n · i(θ).
Satz 2.28 (Asymptotische Cramer-Rao Ungleichung). Unter Fisher-Regularität sowie leichten Zusatzannahmen gilt:
1. Aus
2. Aus
√
√
d
n(θbn − θ) → N (0, V (θ)) folgt V (θ) ≥ i−1 (θ).
d
n(h(θbn ) − h(θ)) → N (0, D(θ)) folgt
D(θ) ≥ H(θ)i−1 (θ)H(θ)>
mit ”≥” Löwner-Ordnung (und den Bezeichnungen aus der Delta-Regel, Satz 2.27).
Definition 2.29 (Bester asymptotisch normaler (BAN)-Schätzer). θbn heißt BAN-Schätzer,
falls in 1. oben gilt:
V (θ) = i−1 (θ).
Mit der Delta-Regel folgt unmittelbar:
Satz 2.30 (Transformation von BAN-Schätzern). Ist θbn BAN-Schätzer für θ, so ist h(θbn )
BAN-Schätzer für h(θ).
Bemerkung. Das Konzept der asymptotischen Effizienz lässt sich auf die Matrix-Normierung
übertragen: θb ist BAN-Schätzer für θ genau dann, wenn
d
I 1/2 (θ)(θbn − θ) → N (0, I)
a
bzw. θbn ∼ N (θ, I −1 (θbn )), mit I 1/2 (θ) Wurzel der Fisher-Information I(θ) der Stichprobe
X1 , . . . , Xn . Anstelle der erwarteten kann auch die beobachtete Fisher-Information J (θ) verwendet werden.
2.2
Klassische Testtheorie
Ziel: Finde Test zum Niveau α mit optimaler Güte (Power) für θ ∈ Θ1 . Dabei ist n finit.
41
2.2.1
Problemstellung
• Sei Θ der Parameterraum; die Hypothesen seien
H0 : θ ∈ Θ0
vs. H1 : θ ∈ Θ1 ,
mit Θ0 ∩ Θ1 = ∅, d.h. Θ0 und Θ1 sind disjunkt. Möglicherweise, jedoch nicht notwendigerweise, gilt Θ0 ∪ Θ1 = Θ.
• Eine Nullhypothese heißt einfach, wenn sie aus einem einzelnen Element aus Θ besteht,
d.h. Θ0 = {θ0 }. Ansonsten spricht man von zusammengesetzten Hypothesen. Dabei ist
Folgendes zu beachten: Etliche Nullhypothesen sind scheinbar einfach, aber tatsächlich
zusammengesetzt. Dies ist häufig dann der Fall, wenn Nuisanceparameter auftauchen.
Beispiel: Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) mit µ und σ 2 unbekannt. Die Nullhypothese
H0 : µ = 0 ist eine zusammengesetzte Hypothese, da
Θ = {(µ, σ 2 ) : −∞ < µ ≤ ∞, 0 < σ 2 < ∞}
und
Θ0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < ∞}.
• Ergebnisse/Aktionen:
A0 :
H0 wird nicht abgelehnt
A1 :
H0 wird abgelehnt
• Test zum Niveau α:
Pθ (A1 ) ≤ α,
für alle θ ∈ Θ0
• Testfunktionen (vgl. Abschnitt 1.2.1): Tests werden oft folgendermaßen formuliert:
Wähle eine Teststatistik T (X), eine Stichprobe X und einen kritischen Bereich Cα .
Dann lautet der Test
1 , falls T (x) ∈ Cα
(H0 ablehnen),
φ(x) =
0 , falls T (x) ∈
/ Cα
(H0 nicht ablehnen).
• Für die Testtheorie dieses Abschnitts werden solche Testfunktionen φ(x) ∈ {0, 1} erweitert zu randomisierten Testfunktionen φ(x) ∈ [0, 1]:
1. Für gegebene Daten X = x ist φ(x) ∈ [0, 1].
2. Ziehe eine (davon unabhängige) Bernoullivariable W ∼ Bin(1, φ(x)).
3. Lehne H0 genau dann ab, wenn W = 1.
Interpretation: φ(x) ist die Wahrscheinlichkeit für die Ablehnung von H0 gegeben die
Beobachtung X = x. Im Spezialfall φ(x) ∈ {0, 1} reduziert sich ein randomisierter
Test auf einen üblichen, nicht randomisierten Test. Randomisierte Tests sind (für die
Theorie) vor allem bei diskreten Teststatistiken relevant.
42
Beispiel 2.21 (Randomisierter Binomialtest). Sei X ∼ Bin(10, π) und
1
H0 : π ≤ ,
2
1
H1 : π > .
2
Test: H0 ablehnen ⇔ X ≥ kα , wobei kα so, dass
Pπ (X ≥ kα ) ≤ α
Es ist
1
für π = .
2


0.00098



0.01074
P0.5 (X ≥ k) =

0.05469



. . .
, k = 10
,k = 9
,k = 8
Für α = 0.05 würde die Wahl kα = 8 wegen 0.054 > 0.05 nicht möglich sein. Wählt man
aber kα = 9, so schöpft man α = 0.05 bei weitem nicht aus, d.h. der Test ist sehr konservativ.
Die Lösung ist ein randomisierter Test


, x ∈ {9, 10}
1
φ(x) = 67/75 , x = 8


0
, x ≤ 7,
d.h. ziehe bei x = 8 eine bernoulliverteilte Zufallsvariable mit Wahrscheinlichkeit 67/75.
Wird 1 realisiert, so wird H0 abgelehnt.
Die Randomisierung ist ein künstlicher Vorgang, um das Signifikanzniveau α auszuschöpfen,
d.h.
Pθ (A1 ) = α
für dasjenige θ auf dem Rand zwischen Θ0 und Θ1 zu erreichen. Ein randomisierter Test
besitzt in der Regel folgende Struktur:


, x ∈ B1
1
φ(x) = γ(x) , x ∈ B10


0
, x ∈ B0 .
Der Stichprobenraum wird also in drei Teile zerlegt:
B1 strikter Ablehnungsbereich von H0 , d.h. x ∈ B1 ⇒ Aktion A1 .
B0 strikter Annahmebereich, d.h. x ∈ B0 ⇒ Aktion A0 .
B10 Randomisierungsbereich, d.h. x ∈ B10 führt mit Wahrscheinlichkeit γ(x) zur Ablehnung
und mit Wahrscheinlichkeit 1 − γ(x) zur Annahme von H0 . B10 kann als Indifferenzbereich interpretiert werden.
43
In der Regel wird ein Test mit einer Teststatistik T = T (X) formuliert. Dann haben randomisierte Tests oft die Form:


1, T (x) > c
φ(x) = γ, T (x) = c


0, T (x) < c .
Falls T (X) eine stetige Zufallsvariable ist, gilt P(T (X) = c) = 0, d.h. für stetige T reduziert
sich φ(x) zu
(
1, T (x) ≥ c
φ(x) =
0, T (x) < c .
Bei diskreten Teststatistiken T wie beim exakten Binomialtest ist γ = P(T (X) = c) > 0. Der
Wert c ist an der Entscheidungsgrenze” zwischen A1 und A0 . Dass man die Entscheidung
”
durch eine zufällige Prozedur herbeiführt, stößt in der Praxis auf Bedenken.
Die (frequentistische) Theorie zeigt, dass die Priori-Wahrscheinlichkeit
Z
Pθ (A1 ) =
P(A1 |x) f (x|θ)dx = Eθ [φ(X)], θ ∈ Θ1
X | {z } | {z }
φ(x)
dPθ
bei Randomisierung maximiert werden kann (φ(x) ist die bedingte Wahrscheinlichkeit, a
posteriori, d.h. bei gegebener Stichprobe, für A1 zu entscheiden). Maximal” bezieht sich auf
”
durchschnittliche” Optimalität des Tests bei wiederholter Durchführung.
”
Subjektive Sichtweise: Man wird bei T (x) = c bzw. x ∈ B10 eher noch keine Entscheidung
treffen ( Indifferenzbereich”).
”
Für n → ∞ geht (in der Regel) P(T (X) = c) gegen 0, d.h. für großes n wird der Randomisierungsbereich B10 immer kleiner. Idee: Bei T (x) = c zusätzliche Daten erheben.
Güte, Gütefunktion (power, power function)
Bei einer Testentscheidung gibt es folgende Möglichkeiten:
H0 trifft zu
H1 trifft zu
A0 : H0 beibehalten
richtige Aussage
Fehler 2. Art
A1 : H1 ist signifikant
Fehler 1. Art
richtige Aussage
Es ist φ(x) = P(A1 |x) die bedingte Wahrscheinlichkeit für A1 gegeben die Stichprobe x. Ist
Pθ (A1 ) die unbedingte Wahrscheinlichkeit / Priori-Wahrscheinlichkeit, dann gilt (wie oben)
Z
Z
Pθ (A1 ) =
P(A1 |x)f (x|θ) dx = φ(x)f (x|θ) dx = Eθ [φ(X)]
X
und somit auch Pθ (A0 ) = Eθ (1 − φ(X)) für θ ∈ Θ.
44
Definition 2.31 (Gütefunktion eines Tests φ).
1. Die Abbildung gφ (θ) = Eθ [φ(X)] = Pθ (A1 ), θ ∈ Θ, heißt Gütefunktion des Tests φ.
gφ (θ) = Pθ (A1 )
Wahrscheinlichkeit für Fehler 1. Art, θ ∈ Θ0
1 − gφ (θ) = Pθ (A0 )
Wahrscheinlichkeit für Fehler 2. Art, θ ∈ Θ1
Außerdem:
gφ (θ) = Pθ (A1 )
Macht (power) des Tests, θ ∈ Θ1
2. Die Größe
α(φ) = sup Pθ (A1 ) = sup gφ (θ)
θ∈Θ0
θ∈Θ0
heißt (tatsächliches) Niveau (level, size) von φ und ist die supremale Wahrscheinlichkeit
für den Fehler 1. Art.
β(φ) = sup Pθ (A0 ) = 1 − inf gφ (θ)
θ∈Θ1
θ∈Θ1
ist die supremale Wahrscheinlichkeit für den Fehler 2. Art.
• Bei den üblichen” Tests gilt wegen der Monotonie und Stetigkeit von gφ (θ)
”
α(φ) + β(φ) = 1,
d.h. α(φ) kann nur auf Kosten von β(φ) klein gehalten werden (und umgekehrt).
Allgemein gilt dagegen nur
α(φ) + β(φ) ≥ 1,
zum Beispiel beim einseitigen Gauß-Test.
• Programm der klassischen Testtheorie: Maximiere unter Beschränkung
gφ (θ) ≤ α für alle θ ∈ Θ0
bei fest vorgegebenem α > 0 die Güte für θ ∈ Θ1 , d.h.
gφ (θ) ≥ max gφe(θ)
für θ ∈ Θ1
e
φ
e H0 und H1 werden also unsymmetrisch betrachtet.
bei konkurrierenden” Tests φ.
”
• Wegen der Beziehung α(φ) + β(φ) = 1 muss dabei das vorgegebene Signifikanzniveau α
ausgeschöpft werden, d.h.
α(φ) = α
gelten. Bei α(φ) < α wird automatisch
β(φ) = 1 − inf gθ (φ)
θ∈Θ1
für θ ∈ Θ1 größer als notwendig, d.h. die Güte des Tests schlechter.
45
• Folgende Problemstellungen werden nach diesem Konzept betrachtet:
1. Einfaches H0 vs. einfaches H1 : Neyman-Pearson-Theorem zeigt, wie bester Test
zu konstruieren ist.
2. Einfaches H0 vs. zusammengesetztes H1 : Basierend auf dem Neyman-PearsonTheorem kann für bestimmte Fälle ein gleichmäßig bester Test” (UMP, uniformly
”
most powerful test) konstruiert werden. In anderen Fällen existiert — zumindest
ohne weitere Restriktionen — kein UMP-Test.
3. Zusammengesetztes H0 vs. zusammengesetztes H1 : Suche nach einem UMP-Test
ist noch schwieriger.
2.2.2
Satz von Neyman-Pearson
Problemstellung: Einfache Nullhypothese vs. einfache Alternativhypothese, also
H0 : θ = θ0 ,
vs. H1 : θ = θ1
mit θ0 6= θ1 . Sei f0 (x) = f (x|θ0 ), f1 (x) = f (x|θ1 ). Dann heißt
Λ(x) =
f1 (x)
f0 (x)
Likelihood-Quotient. Ein (bester) Test hat nach Neyman-Pearson die Form:
H0 ablehnen ⇔ Λ(x) > kα
mit kα so gewählt, dass der Test das Niveau α einhält. Aber: Falls Λ(x) diskret ist, gibt es
ein theoretisches Problem. Dies führt zu
Definition 2.32 (Randomisierter LQ-Test). Ein Test φ∗ (x) heißt randomisierter Likelihooddef
Quotienten-Test, kurz LQ-Test (likelihood ratio test, LRT) ⇔ φ∗ (x) hat die Struktur


, f1 (x) > kf0 (x) ⇔ Λ(x) > k
1
∗
φ (x) = γ(x) , f1 (x) = kf0 (x) ⇔ Λ(x) = k


0
, f1 (x) < kf0 (x) ⇔ Λ(x) < k
mit Konstante k > 0 und 0 < γ(x) < 1. Falls Λ(X) stetig ist, gilt Pθ (Λ(X) = k) = 0. Dann
reicht ein nicht-randomisierter Test
(
1, f1 (x) > kf0 (x) ⇔ Λ(x) > k
φ∗ (x) =
0, sonst.
Satz 2.33 (Neyman-Pearson, Fundamentallemma).
1. Optimalität: Für jedes k und γ(x) hat der Test φ∗ maximale Macht unter allen Tests,
deren Niveau höchstens gleich dem Niveau von φ∗ ist.
2. Existenz: Zu vorgegebenem α ∈ (0, 1) existieren Konstanten k ∗ und γ ∗ , so dass der
LQ-Test φ∗ mit diesem k ∗ und γ(x) = γ ∗ für alle x exakt das Niveau α besitzt.
46
3. Eindeutigkeit: Falls ein Test φ mit Niveau α maximale Macht (= kleinsten Fehler 2. Art)
unter allen anderen Tests mit Niveau α besitzt, dann ist φ ein LQ-Test (eventuell mit
Ausnahme einer Nullmenge X0 ⊂ X von Stichproben x, d.h. Pθ0 (X0 ) = Pθ1 (X0 ) = 0).
Beweis.
1. Sei φ ein Test mit
Eθ0 [φ(X)] ≤ Eθ0 [φ∗ (X)]
(2.2)
und
U (x) = (φ∗ (x) − φ(x))(f1 (x) − kf0 (x)).
– Für
f1 (x) − kf0 (x) > 0
ist
φ∗ (x) = 1, also U (x) ≥ 0.
– Für
f1 (x) − kf0 (x) < 0
ist
φ∗ (x) = 0, also U (x) ≥ 0.
– Für
f1 (x) = kf0 (x) = 0
ist
U (x) = 0.
Also: U (x) ≥ 0 für alle x. Somit:
Z
0 ≤
U (x)dx
Z
=
(φ∗ (x) − φ(x))(f1 (x) − kf0 (x)) dx
Z
Z
Z
Z
∗
∗
=
φ (x)f1 (x) dx − φ(x)f1 (x) dx + k
φ(x)f0 (x) dx − φ (x)f0 (x) dx
= Eθ1 [φ∗ (X)] − Eθ1 [φ(X)] + k(Eθ0 [φ(X)] − Eθ0 [φ∗ (X)])
|
{z
}
≤0 wegen (2.2)
⇒ Eθ1 [φ∗ (X)] ≥ Eθ1 [φ(X)], d.h. die Macht von φ∗ ist größer als die Macht von φ.
2. Die Verteilungsfunktion G(k) = Pθ0 (Λ(x) ≤ k) ist monoton steigend in k. Sie ist ferner
rechtsstetig, d.h.
G(k) = lim G(y) für alle k.
y↓k
Betrachtet man die Gleichung
G(k ∗ ) = 1 − α
und versucht diese bezüglich k ∗ zu lösen, so gibt es zwei Möglichkeiten:
(i) Entweder ein solches k ∗ existiert,
(ii) oder die Gleichung kann nicht exakt gelöst werden, aber es existiert ein k ∗ , so dass
G− (k ∗ ) = Pθ0 (Λ(X) < k ∗ ) ≤ 1 − α < G(k ∗ )
(das entspricht der Niveaubedingung”).
”
Im ersten Fall setzt man γ ∗ = 0, im zweiten
γ∗ =
G(k ∗ ) − (1 − α)
.
G(k ∗ ) − G− (k ∗ )
47
In diesem Fall hat der Test genau das Niveau α, wie behauptet, denn:
f1 (X)
G(k ∗ ) − 1 + α
f1 (X)
∗
∗
Eθ0 [φ(X)] = Pθ0
>k +
Pθ
=k
f0 (X)
G(k ∗ ) − G− (k ∗ ) 0 f0 (X)
G(k ∗ ) − 1 + α
= (1 − G(k ∗ )) +
(G(k ∗ ) − G− (k ∗ ))
G(k ∗ ) − G− (k ∗ )
= α.
3. Sei φ∗ der LQ-Test definiert durch eine Konstante k und eine Funktion γ(x) und man
nehme an, φ ist ein anderer Test mit gleichem Niveau α und der gleichen
Macht wie φ∗ .
R
Definiert man U (x) wie in 1., dann ist U (x) ≥ 0 für alle x und U (x) dx = 0, da
Eθ1 [φ∗ (X)] − Eθ1 [φ(X)] = 0 und Eθ0 [φ∗ (X)] − Eθ0 [φ(X)] = 0 nach Annahme. Daraus,
dass U nicht-negativ mit Integral 0 ist, folgt, dass U (x) = 0 für fast alle x. Dies wiederum
bedeutet, dass φ(x) = φ∗ (x) oder f1 (x) = kf0 (x), d.h. φ(x) ist ein LQ-Test.
Bemerkung. Für einfache Hypothesen H0 und H1 sind klassische Testtheorie und LikelihoodQuotienten-Test noch identisch. Für zusammengesetzte Hypothesen (der Praxisfall) trennen
sich die Konzepte:
• Klassische Testtheorie sucht weiter nach optimalen Tests (für finite Stichproben).
• Likelihoodbasierte Tests verallgemeinern Λ(x) bzw. sind quadratische Approximationen
von Λ(x), deren Verteilungsfunktion (unter H0 ) nur asymptotisch (n → ∞) gilt.
Beispiel 2.22 (Binomialtest). Betrachte
H0 : π = π0
vs.
H1 : π = π1
mit 0 < π0 < π1 < 1. Die Dichte (Wahrscheinlichkeitsfunktion) der i.i.d. Stichprobe
X = (X1 , . . . , Xn )> lautet
f (x|π) = π z (1 − π)n−z
mit
z=
n
X
xi ,
i=1
der Likelihood-Quotient
π z (1 − π1 )n−z
Λ(x) = 1z
=
π0 (1 − π0 )n−z
1 − π1
1 − π0
n π1 (1 − π0 ) z
·
:= Λ(z).
π0 (1 − π1 )
Da Λ(x) = Λ(z) streng monoton in z ist, lässt sich Λ(z) > k äquivalent umformen in
z > Λ−1 (k) =: c. Der Likelihood-Quotienten-Test φ∗ mit kritischer Zahl k und (konstanter) Randomisierung γ ∗ hat dann die Form


, Z = Z(x) > c
1
∗
∗
φ (x) = γ
, Z = Z(x) = c


0
, Z = Z(x) < c
mit der Teststatistik” Z. Dabei können wir uns (wegen des Wertebereichs von Z) auf
”
c ∈ {0, 1, . . . , n} beschränken. γ ∗ ist aus der Niveaubedingung
!
Pπ0 (Z > c) + γ ∗ Pπ0 (Z = c) = α
zu bestimmen. Der Test φ∗ hängt von π0 ab, jedoch nicht von π1 !
48
Bemerkung. Falls H1 wahr ist, dann bestimmt π1 die Wahrscheinlichkeit für den reali”
sierten” Fehler 2. Art Pπ1 (A0 ). Je weiter π1 von π0 entfernt ist, umso kleiner ist die Wahrscheinlichkeit für den Fehler 2. Art und umso größer ist die Power an der Stelle π = π1 .
2.2.3
Gleichmäßig beste Tests
Definition 2.34 (Gleichmäßig bester (UMP, uniformly most powerful) Test). Ein Niveaudef
α-Test φ∗ heißt gleichmäßig bester oder UMP Test zum Niveau α ⇔
1. Eθ [φ∗ (X)] ≤ α für alle θ ∈ Θ0 .
2. Für jeden anderen Niveau-α-Test φ mit Eθ [φ(X)] ≤ α für alle θ ∈ Θ0 gilt:
Eθ [φ∗ (X)] ≥ Eθ [φ(X)] für alle θ ∈ Θ1 .
Bemerkung. Der Begriff gleichmäßig” in obiger Definition bezieht sich auf die Gleichmäßig”
keit der Eigenschaft gφ∗ ≥ gφ auf Θ1 für jeden anderen Test φ.
Beste einseitige Tests bei skalarem θ
In Beispiel 2.22 (Binomialtest für einfache Hypothesen) hing die Power nicht vom speziellen
π1 (≡ H1 ) > π0 (≡ H0 ) ab. Daraus folgt, dass φ∗ für alle π1 > π0 besser ist als ein anderer
Test φ. Entscheidend dafür ist, dass der Dichte- bzw. Likelihood-Quotient monoton in z ist.
Dies gilt allgemeiner und führt zu folgender Definition.
Definition 2.35 (Verteilungen mit monotonem Dichtequotienten). Die Verteilungsfamilie
{f (x|θ), θ ∈ Θ ⊆ R} mit skalarem Parameter θ besitzt monotonen Dichte- bzw. Likelihooddef
Quotienten (kurz: MLQ) ⇔ es existiert eine Statistik T , so dass
Λ(x) =
f (x|θ1 )
f (x|θ0 )
monoton wachsend in T (x) für je zwei θ0 , θ1 ∈ Θ mit θ0 ≤ θ1 ist.
49
Bemerkung.
1. Monoton wachsend ist keine echte Einschränkung; ist Te(x) monoton fallend, so definiert man T (x) = −Te(x).
2. Jede einparametrische Exponentialfamilie in T (x) und γ(θ) besitzt monotonen Dichtequotienten, wenn γ(θ) monoton in θ ist. Letzteres gilt für die natürliche Parametrisierung γ(θ) = θ.
Satz 2.36 (UMP-Test bei MLQ). Gegeben sei Pθ = {f (x|θ) : θ ∈ Θ ⊆ R} mit MLQ in T (x)
und die Hypothesen
H0 : θ ≤ θ0 vs. H1 : θ > θ0 .
1. Existenz: Es gibt einen UMP-Test φ∗ zum Niveau α, nämlich


1, T (x) > c
∗
φ (x) = γ, T (x) = c


0, T (x) < c.
Dabei sind c und γ eindeutig bestimmt durch die Niveaubedingung
Pθ0 (T (X) > c) + γPθ0 (T (X) = c) = α.
2. Die Gütefunktion gφ∗ (θ) ist monoton wachsend in θ und sogar streng monoton wachsend
für alle θ mit 0 < gφ∗ (θ) < 1. Die maximale Wahrscheinlichkeit für den Fehler 1. Art
ist gφ∗ (θ0 ) = α.
3. φ∗ besitzt auch gleichmäßig minimale Wahrscheinlichkeiten für den Fehler 2. Art unter
allen Tests φ für H0 vs. H1 mit gφ (θ0 ) = α.
4. φ∗ ist (mit Wahrscheinlichkeit 1) eindeutig bestimmt.
Bemerkung. Es gilt weiterhin: Ist φ∗ der beste Test für das einfache Alternativproblem
H0 : θ = θ0
vs.
H1 : θ = θ1 ,
so ist φ∗ auch der UMP-Test zum Niveau α für zusammengesetzte Hypothesen
H0 : θ ∈ Θ0
vs.
H1 : θ ∈ Θ1 ,
wenn φ∗ nicht von dem speziellen Wert θ1 ∈ H1 abhängt und für alle θ ∈ H0 das Niveau α
einhält.
Beispiel 2.23.
1. Binomialtest mit H0 : π ≤ π0 gegen H1 : π > π0 hat MLQ in Z(x) = ”Anzahl der Erfolge”
(vgl. obiges Beispiel und Bemerkung). Der Binomialtest ist also UMP-Test.
2. Gleichverteilung
3. Gauß-Test
50
4. Exponentialverteilung
5. Poissonverteilung
Bemerkung. Oft existiert zwar kein UMP-Test, jedoch ein lokal bester (einseitiger) Test:
def
φlok heißt lokal bester Niveau α-Test ⇔
0
gφlok (θ0 ) =
d
d
gφlok (θ0 ) ≥
gφ (θ0 ),
dθ
dθ
wobei gφlok (θ0 ) = gφ (θ0 ) = α gilt.
Beste unverfälschte zweiseitige Tests bei skalarem θ
Für zweiseitige Testprobleme der Form
H0 : θ = θ 0
vs. H1 : θ 6= θ0
gibt es in der Regel keinen UMP-Test, insbesondere auch dann nicht, wenn MLQ vorliegt.
Deshalb wird eine Restriktion auf eine kleinere Klasse von konkurrierenden Tests notwendig.
Definition 2.37 (Unverfälschter Niveau-α-Test). Ein Test φ für H0 vs. H1 heißt unverfälschdef
ter (unbiased) Niveau-α-Test ⇔
gφ (θ) ≤ α für alle θ ∈ Θ0 ,
gφ (θ) ≥ α für alle θ ∈ Θ1 .
Satz 2.38 (Zweiseitige UMPU (uniformly most powerful unbiased) Tests). Sei
f (x|θ) = c(θ) exp(θT (x))h(x)
eine einparametrische Exponentialfamilie mit natürlichem Parameter θ ∈ Θ (Θ sei ein offenes
Intervall) und Statistik T (x). Dann ist


1 , T (x) < c1





γ1 , T (x) = c1
∗
φ (x) = 0 , c1 < T (x) < c2



γ2 , T (x) = c2




1 , T (x) > c2
ein UMPU-Test zum Niveau α unter allen unverfälschten Tests φ zum Niveau α. Dabei werden c1 , c2 , γ1 , γ2 aus
Eθ0 [φ∗ (X)] = α,
Eθ0 [φ∗ (X)T (X)] = αEθ0 [T (X)]
bestimmt.
Beispiel 2.24.
1. Zweiseitiger Binomial-Test
H0 : π = π0
ist UMPU-Test.
51
vs.
H1 : π 6= π0
i.i.d.
∼ N (µ, σ 2 ), σ 2 bekannt, ist für
2. Zweiseitiger Gauß-Test mit X1 , . . . , Xn
H0 : µ = µ0
vs.
H1 : µ 6= µ0
UMPU-Test.
i.i.d.
3. Zweiseitiger Poisson-Test: Bei X1 , . . . , Xn ∼ Po(λ)
H0 : λ = λ0
vs.
H1 : λ 6= λ0
liegt eine einparametrische Exponentialfamilie mit natürlichem Parameter θ = log λ vor.
Äquivalente Hypothesen in θ sind
H0 : θ = θ0
vs.
H1 : θ 6= θ0 .
Bestimmung der Prüfgröße:
f (xi |θ) = h(xi )c(θ) exp (θxi )
n
X
xi
f (x|θ) = f (x1 |θ) · . . . · f (xn |θ) ∝ exp θ
|i=1
{z }
T (x)
und somit


1




γ1

∗
φ (x) = 0



γ2




1
,
,
,
,
,
Pn
xi < c1
Pi=1
n
i=1 xi = c1
P
c1 < ni=1 xi < c2
Pn
xi = c2
Pi=1
n
i=1 xi > c2 .
i.i.d.
4. Zweiseitiger χ2 -Test auf die Varianz: Seien X1 , . . . , Xn ∼ N (µ, σ 2 ), µ bekannt. Getestet wird
H0 : σ 2 = σ02 vs. H1 : σ 2 6= σ02 .
Mehrparametrische Verteilungsannahme
• Bislang: θ skalar.
⇒ θ = (µ, σ 2 ) ist bei N (µ, σ 2 ) Verteilung nicht in der Theorie optimaler Tests enthalten.
⇒ t-Test auf µ (bei unbekanntem σ 2 ) und andere sind nicht erfasst.
• Idee: Optimale” Tests lassen sich (noch) für eine skalare Komponente η von
”
θ = (η, ξ), wobei ξ mehrdimensional sein darf, konstruieren. ξ ist als Stör-/Nuisanceparameter zu betrachten.
• Voraussetzung an Verteilungsfamilie: {f (x|θ), θ ∈ Θ ⊆ Rk } ist eine (strikt)
k-parameterische Exponentialfamilie mit natürlichem Parameter θ = (η, ξ) und
T = (U, V ), U skalar. Dies führt auf die Theorie bedingter Tests.
52
• Passend zum Beispiel für
– t-Test: Vergleich von µ1 , µ2 bei unabhängigen Stichproben nur, falls σ12 = σ22 = σ 2
ist.
– Test auf Signifikanz von β1 in linearer Einfachregression.
• Bereits nicht mehr anwendbar für
– Vergleich von µ1 , µ2 bei σ12 6= σ22 (Behrens-Fisher-Problem).
– Test auf Signifikanz von β1 im Logit- oder Poisson-Regressionsmodell.
⇒ (asymptotische) Likelihood-Theorie, Bayes-Inferenz.
2.3
2.3.1
Bereichsschätzungen und Konfidenzintervalle
Definition und Beurteilung der Güte
Definition 2.39 (Bereichsschätzung). Eine Bereichsschätzung (ein Konfidenzbereich) C
für τ (θ) zum (vorgegebenen) Vertrauensgrad ( Konfidenzniveau) 1 − α ist eine Abbildung des
Stichprobenraums X in die σ-Algebra Lm des Rm , also x → C(x)(⊆ Rm ) ∈ Lm , mit
Pθ (τ (θ) ∈ C(X)) ≥ 1 − α für alle θ.
Dabei sei τ (θ) m-dimensionaler Parameter.
C(X) ist ein zufälliger Bereich im Rm . Nach Beobachtung der Stichprobe X = x ist C(x)
gegeben. Der Aussage
!
τ (θ) ∈ C(x) (richtig oder falsch)
wird der Vertrauensgrad 1 − α zugeordnet. Dabei gilt die bekannte Häufigkeitsinterpretation. Ist C(x) für jedes x ein Intervall, so heißt C(x) Konfidenzintervall und C eine Intervallschätzung.
Eine Wahrscheinlichkeitsaussage zu
τ (θ) ∈ C(x)
bei gegebenem x ist im Rahmen der Bayes-Inferenz (ohne logische Probleme) möglich.
Die Präzision” von C(X) wird gemessen durch die erwartete Größe des Bereichs bzw. durch
”
die Länge des Konfidenzintervalls.
i.i.d.
Beispiel 2.25. Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) und
α S α S
√ , X̄ + tn−1
√
C(X) = X̄ − tn−1
2
2
n
n
ein Konfidenzintervall für µ. Die Länge
L = 2 tn−1
α S
√
2
n
53
von C(X) ist zufällig mit Erwartungswert
α σ r 2
α 1
Γ(n/2)
√ E(S) = 2 tn−1
√
E(L) = 2 tn−1
.
2
2
n
n n − 1 Γ((n − 1)/2)
Es gilt:
1 − α größer
→
E(L) größer,
n größer
→
E(L) kleiner.
Bei der Beurteilung der Präzision eines Konfidenzintervalls durch die Länge ist ein Konfidenzintervall umso besser, je kürzer seine erwartete Länge ist. Allgemein wird ein Konfidenzbereich C durch die mittlere Größe” beurteilt. Dazu sei π eine Verteilung (oder ein
”
Maß) auf Θ. Dann ist
π(C(x))
die Größe von C(x). Bei Konfidenzintervallen ergibt sich die Länge, wenn π das Lebesgue-Maß
ist. Dann ist
Eθ (π(C(X)))
die zu erwartende Größe. Zur Beurteilung der Güte reicht die erwartete Länge bzw. Größe
allein nicht aus.
Definition 2.40 (Kennfunktion eines Konfidenzbereichs). Eine Kennfunktion ist definiert
als eine Funktion
0
0
kC (θ, θ ) := Pθ (C(x) 3 τ (θ )).
Dabei ist θ der wahre” Wert und θ0 irgendein Wert in Θ.
”
0
0
Für θ = θ ist C(x) 3 τ (θ )” eine Aussage, deren Wahrscheinlichkeit möglichst groß sein
0”
0
0
soll. Für θ 6= θ mit τ (θ ) 6= τ (θ) ist C(x) 3 τ (θ )” eine Aussage, deren Wahrscheinlichkeit
”
möglichst klein gehalten werden soll.
Im Weiteren betrachten wir den Spezialfall τ (θ) = θ mit skalarem θ. Dann ist
0
0
kC (θ, θ ) = Pθ (C(x) 3 θ ).
Definition 2.41.
def
1. Ein Konfidenzintervall besitzt den Vertrauensgrad 1 − α : ⇔
0
kC (θ, θ0 ) ≥ 1 − α für alle θ = θ.
def
2. Ein Konfidenzintervall zum Vertrauensgrad 1 − α heißt unverfälscht : ⇔
0
kC (θ, θ0 ) ≤ 1 − α für θ 6= θ.
3. Ein Konfidenzbereich C0 zum Vertrauensgrad 1 − α heißt gleichmäßig bester (trenndef
0
scharfer) [bzw. gleichmäßig bester unverfälschter] Konfidenzbereich : ⇔ für alle θ 6= θ
und alle [unverfälschten] Konfidenzbereiche C zum Vertrauensgrad 1 − α gilt
0
0
kC0 (θ, θ ) ≤ kC (θ, θ ).
54
Lemma 2.42. Jeder gleichmäßig beste Konfidenzbereich besitzt auch die kleinste zu erwartende Größe (aber nicht umgekehrt).
Beweis.
Z Z
Z
0
0
IC(x) (θ )dπ(θ )dPθ (x)
π(C(x))dPθ (x) =
X Θ
X
Z Z
0
0
IC(x) (θ )dPθ (x)dπ(θ )
=
(Fubini)
X Θ
Z
=
Θ
0
kC (θ,θ0 )
Für jedes wahre” θ gilt also
”
Z
π(C(x))dPθ (x) =
Z
2.3.2
0
0
kC (θ, θ )dπ(θ )
X
|
0
Pθ ({x : C(x) 3 θ }) dπ(θ ).
|
{z
}
.
Θ
{z
erwartete Größe
}
|
{z
}
erwarteter Wert der Kennfunktion des Konfidenzbereichs
Dualität zwischen Konfidenzbereichen und Tests
Wir legen den oben beschriebenen Spezialfall τ (θ) = θ mit skalarem θ zugrunde.
Zu jedem festen θ betrachten wir einen Niveau-α-Test φθ (x) für die Nullhypothese H0 = {θ}
gegen die Alternative H1 = Θ\H0 . Die Tests sollen nicht randomisiert sein, so dass sie durch
die Festlegung einer Prüfgröße Tθ = Tθ (x) und eines kritischen Bereichs (Ablehnbereichs) Kθ
bestimmt werden:
(
1 für Tθ (x) ∈ Kθ ,
φθ (x) =
0 sonst.
Die Nullhypothese Der unbekannte Parameter hat den Wert θ” wird nach Beobachtung
”
von X = x genau dann nicht abgelehnt — durch die Beobachtung bestätigt” — wenn
”
Tθ (x) ∈ K̄θ = Annahmebereich des Tests φθ
gilt. Daher ist es naheliegend, als einen Konfidenzbereich nach der Beobachtung X = x den
Bereich
C(x) := {θ ∈ Θ : Tθ (x) ∈ K̄θ }
zu definieren; dem entspricht vor der Beobachtung der zufällige Bereich
C(X) = {θ ∈ Θ : Tθ (X) ∈ K̄θ }
bzw.
C(X) = {θ ∈ Θ : φθ (X) = 0}
Eine Bestätigung dieser Vorgangsweise ist der folgende Satz.
55
Satz 2.43 (Korrespondenzsatz).
1. Ist {φθ } eine Menge von Tests φθ für H0 = {θ} gegen H1 = Θ\{θ} zum Niveau α, so
ist C(X) := {θ ∈ Θ : φθ (X) = 0} ein Konfidenzbereich zum Vertrauensgrad γ = 1 − α.
2. Ist {φθ } eine Menge gleichmäßig bester [unverfälschter] Tests, so ist auch C(X) ein
gleichmäßig bester [unverfälschter] Konfidenzbereich.
Beweis. Der Beweis zu 1. ergibt sich aus
Pθ (C(X) 3 θ) = Pθ (φθ (X) = 0) = 1 − α für alle θ ∈ Θ,
derjenige für 2. aus der Beziehung
0
0
kC (θ, θ ) = Pθ (C(X) 3 θ ) = Pθ (φθ0 (X) = 0)
= 1 − Pθ (φθ0 (X) = 1) = 1 − gφ 0 (θ)
θ
0
für alle θ, θ ∈ Θ. Dabei bezeichnet gφ
θ
0
die Gütefunktion des Tests φθ0 .
Der Korrespondenzsatz lässt sich verallgemeinern auf die Situation, in der man gegenüber
bestimmten Fehlschätzungen besonders empfindlich ist; man hat dazu eine Testfamilie solcher
Tests zugrunde zu legen, die die entsprechenden Hypothesen testen, also nicht mehr Tests mit
zweiseitiger Fragestellung. Darüber hinaus gilt der im Korrespondenzsatz enthaltene Zusammenhang zwischen Tests und einem Konfidenzbereich auch dann, wenn randomisierte Tests
zugelassen werden, so dass man auf diese Weise zu einem randomisierten Konfidenzbereich
kommt: C(x) ist die Menge aller θ, die bei der Beobachtung x von dem Test φθ (auch nach
Randomisierung) nicht abgelehnt werden.
Auf diese Weise lässt sich die Theorie der Bereichsschätzungen auf die Testtheorie zurückführen bis auf das folgende Problem: Damit ein vernünftiger” Konfidenzbereich (vernünftig
”
im topologischen Sinn, also zum Beispiel ein Konfidenzintervall) aus der Testfamilie konstruierbar ist, muss die Testfunktion φθ (x), besser noch die Prüfgröße Tθ (x) als Funktion in
θ (für jedes feste θ) gutartig” sein (im Idealfall monoton in θ); außerdem darf die Vertei”
lung von Tθ (X) nicht von θ abhängen, zusammen bedeutet dies: Tθ (X) muss eine Pivotgröße
sein, die auf einfache” (zum Beispiel monotone) Weise von θ abhängt: Gesucht sind einfach
”
strukturierte Pivotgrößen.
2.4
Multiples Testen
Literatur:
• Lehmann & Romano, Kapitel 9
• Dudoit, Shaffer & Boldrick (2003): Multiple Hypothesis Testing in Microarray Experiments, Statistical Science (18), Seiten 71-103
Problem: Eine endliche Menge von (Null-) Hypothesen H1 , ..., Hm soll mit Hilfe eines Datensatzes simultan getestet werden.
56
Beispiele:
• Varianzanalyse: Vergleich mehrerer Behandlungsarten mit Kontrolle (zum Beispiel
Placebo oder übliche” Therapie). Ein simultaner Test der Form
”
H0 : θ1 = . . . = θm = 0
vs. Halter : wenigstens ein θj 6= 0
ist oft nicht ausreichend: Wenn H0 abgelehnt wird, möchte man wissen, welche
θj ’s signifikant von 0 verschieden sind. Hierzu können (simultan) die einzelnen
Hypothesen
Hj := H0j : θj = 0
für j = 1, . . . , m getestet werden. In der Regel ist m vergleichsweise klein; es
können klassische” multiple Testverfahren verwendet werden.
”
• Microarray-Experimente: Seien X1 , . . . , Xm (normalisierte log-) Expressionen von
a
Genen 1, . . . , m auf Microarrays, Xj ∼ N (µj , σj ) für j = 1, . . . , m und m von
der Größenordnung 1000 bis 10000. Es soll untersucht werden, welche Gene signifikanten Einfluss auf einen Phänotyp, zum Beispiel eine bestimmte Krankheit,
haben. In einem naiven Ansatz könnte dies wie oben durch simultane Tests untersucht werden. Wenn m und die Anzahl m0 richtiger Hypothesen jedoch groß ist,
werden mit hoher Wahrscheinlichkeit eine oder mehr Hypothesen fälschlicherweise
abgelehnt. Für unabhängige Teststatistiken T1 , . . . , Tm gilt zum Beispiel folgende
Tabelle.
m
P(mindestens eine falsche Ablehnung)
1
0.05
2
0.10
5
0.23
10
0.40
50
0.92
Es werden neue” multiple Testverfahren gesucht, um Fehlerraten zu kontrollieren.
”
2.4.1
Fehlerraten
Die Situation bei m vorgegebenen Hypothesen kann wie folgt beschrieben werden:
Anzahl richtiger
Nullhypothesen
Anzahl falscher
Nullhypothesen
Anzahl nicht abgelehnter Nullhypothesen
Anzahl abgelehnter Nullhypothesen
U
T
m−R
V
S
R
Dabei sind
• m0 die (unbekannte) Anzahl richtiger Nullhypothesen,
• m1 = m − m0 die (unbekannte) Anzahl falscher Nullhypothesen,
• R eine beobachtbare Zufallsvariable,
• S, T, U, V unbeobachtbare Zufallsvariablen (ruft nach Bayes!).
57
m0
m1
In der Microarray-Analyse bedeutet das Ablehnen von Hj , dass das Gen j differentiell ex”
primiert” ist.
Idealerweise: Minimiere
• Anzahl V von Fehlern 1. Art (falsch positiv),
• Anzahl T von Fehlern 2. Art (falsch negativ).
Klassische Testtheorie (m = 1):
P(Fehler 1. Art)
≤
α
P(Fehler 2. Art) → min
Verschiedene Verallgemeinerungen zur Kontrolle der Fehlerraten sind bei multiplem Testen
möglich.
Fehlerraten 1. Art (type I error rates)
• PCER (per-comparison error rate):
PCER =
E(V )
m
Das ist die relative Anzahl erwarteter Fehler 1. Art.
• PFER (per-family error rate):
PFER = E(V )
Das ist die absolute Anzahl erwarteter Fehler 1. Art.
• FWER (family-wise error rate):
FWER = P(V ≥ 1)
Das ist die Wahrscheinlichkeit für mindestens einen Fehler 1. Art.
• FDR (false discovery rate; Benjamini & Hochberg, 1995):
(
V
für R > 0,
FDR = E(Q)
mit
Q= R
0 für R = 0.
Das ist die erwartete relative Häufigkeit von Fehlern 1. Art unter den R abgelehnten
Hypothesen.
Starke und schwache Kontrolle
Typischerweise gilt: Für eine unbekannte Teilmenge
Λ0 ⊆ {1, . . . , m}
58
sind die Hypothesen Hj , j ∈ Λ0 , richtig, für den Rest falsch. Starke Kontrolle liegt vor, wenn
eine Fehlerrate für jede Teilmenge Λ0 nach oben durch α beschränkt wird, zum Beispiel
FWER ≤ α
gilt. Schwache Kontrolle liegt vor, wenn alle Nullhypothesen richtig sind.
Klassische Ansätze (zum Beispiel Bonferroni- und Holm-Prozedur, siehe folgender Abschnitt)
kontrollieren stark. Der FDR-Ansatz von Benjamini und Hochberg kontrolliert die FDR
schwach und ist (deshalb) weniger konservativ.
2.4.2
Multiple Testprozeduren
Bonferroni-Prozedur
Lehne für j = 1, . . . , m die Hypothesen Hj ab, falls für den p-Wert gilt: pj ≤
FWER ≤ α
d.h.
α
m.
Es gilt:
stark,


\
P V ≥ 1 Hj  ≤ α.
j∈Λ0
Nachteil: Das Niveau α/m der individuellen Tests wird bei großem m und üblichem α extrem klein. Bei Microarrays bleiben relevante Gene deshalb mit hoher Wahrscheinlichkeit
unentdeckt.
Holm-Prozedur
Ordne die p-Werte pj , j = 1, . . . , m, der individuellen Tests H1 , . . . , Hm der Größe nach an.
Dann ist
p(1) ≤ . . . ≤ p(m)
mit den entsprechend sortierten Hypothesen H(1) , . . . , H(m) . Als nächstes erfolgt schrittweise
folgende Prozedur:
Schritt 1. Falls p(1) ≥
α
m,
α
m,
Falls p(1) <
α
Niveau m−1
.
akzeptiere H1 , . . . , Hm .
lehne H(1) ab und teste die verbleibenden m − 1 Hypothesen zum
α
α
m , aber p(2) ≥ m−1 , akzeptiere H(2) , . . . , H(m)
α
α
Falls p(1) < m
und p(2) < m−1
, lehne nach H(1) auch
α
verbleibenden m − 2 Hypothesen zum Niveau m−2
.
Schritt 2. Falls p(1) <
Schritt 3. usw.
59
und stoppe.
H(2) ab und teste die
Es gilt:
FWER ≤ α
stark.
Die Holm-Prozedur ist eine spezielle Form folgender Step-Down-Prozeduren:
Step-Down-Prozeduren
Allgemeine Struktur: Sei
α1 ≤ α2 ≤ . . . ≤ αm .
Falls p(1) ≥ α1 , akzeptiere alle Hypothesen. Sonst lehne für r = 1, . . . , s die Hypothesen
H(1) , . . . , H(r) ab, falls
p1 < α1 , . . . , pr < αr .
Eine Alternative sind:
Step-Up-Prozeduren
Falls p(m) < αm , verwerfe alle Hypothesen. Sonst lehne für r = 1, . . . , s die Hypothesen
H(1) , . . . , H(r) ab, falls
p(s) ≥ αs , . . . , p(r+1) ≥ αr+1 ,
aber p(r) < αr .
Bemerkung.
• Aussagen über starke Kontrolle finden sich zum Beispiel in Lehmann & Romano.
• Für m ∼ 100, 1000 und größer: Immer noch Ablehnung fast aller Hypothesen. Benjamini
& Hochberg (1995) raten, die false discovery rate FDR zu kontrollieren. Untersuchung
der Eigenschaften ist Gegensatz aktueller Forschung.
• Die diversen Prozeduren lassen sich teils günstig mit Hilfe von adjustierten p-Werten pej
formulieren, siehe Dudoit, Shaffer & Boldrick (2003).
• Resampling Methoden (Bootstrap, Permutationen, ...) sind notwendig, um (adjustierte)
p-Werte zu berechnen.
• Software: R-Package multtest, www.bioconductor.org.
60

Klassische Schätz- und Testtheorie

Produkte

Unterstützung

Klassische Schätz- und Testtheorie

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können