Klassische Schätz- und Testtheorie

Werbung
Kapitel 2
Klassische Schätz- und Testtheorie
Grundmodell:
Die Stichprobe X = (X1 , . . . , Xn ) besitzt die Verteilung P ∈ P = {Pθ : θ ∈ Θ}, Θ ⊆ Rk ,
wobei
• θ: k-dimensionaler Parameter
• Θ: Parameterraum
• k < n, oft k n, mit dim(θ) = k fest für asymptotische (n → ∞)-Betrachtungen.
• In der Regel vorausgesetzt: Es existiert Dichte
f (x|θ) = f (x1 , , . . . , xn |θ) zu Pθ ,
so dass man analog schreiben kann:
P = {f (x|θ) : θ ∈ Θ}.
• Klassische Schätz- und Testtheorie für finite (d.h. für festen Stichprobenumfang n)
i.i.d.-Stichprobe von besonderer Relevanz; es gilt:
f (x|θ) = f (x1 |θ) · . . . · f (xn |θ).
• Viele Begriffe, insbesondere der Schätztheorie, jedoch von genereller Bedeutung.
• Literatur: Lehmann & Casella (1998), Lehmann & Romano (2005), Rüger (1999, 2002)
Band I+II
Definition 2.1 (Statistik). Eine Statistik ist eine messbare Funktion
X −→ Rl
T :
x 7−→ T (x).
Normalerweise ist l < n, da mit der Statistik T eine Dimensionsreduktion erzielt werden soll.
19
Beispiel 2.1.
→ T (x) Schätzfunktion
→ T (x) Teststatistik
→ T (x) = `(θ; x) Log-Likelihoodfunktion
2.1
Klassische Schätztheorie
Gesucht: Punkt- oder Bereichsschätzung für θ oder einen transformierten Parametervektor τ (θ).
i.i.d.
Beispiel 2.2. X1 , . . . , Xn ∼ N (µ, σ 2 ) mit θ = (µ, σ 2 )> . Hier könnte τ (θ) = µ sein (d.h. σ 2
ist Nuisance-Parameter) oder τ (θ) = 1/σ 2 (d.h. die Präzision ist von Interesse).
Definition 2.2 (Punktschätzung, Schätzer, Schätzfunktion). Sei
X −→ Θ ⊆ Rk
T :
x 7−→ T (x)
eine messbare Abbildung. Man bezeichnet mit T (x) den Schätzwert oder die Punktschätzung
(zu konkreter Realisation x) und mit T (X) den Punktschätzer von θ, der eine Zufallsvariable
b
b d.h. notationell wird nicht zwischen Schätzwert und
ist (auch gebräuchlich: θ(x)
oder kurz θ,
Schätzfunktion unterschieden).
2.1.1
Suffizienz
Der Begriff der Suffizienz ist von grundlegender Bedeutung in der klassischen parametrischen
Inferenz; darüber hinaus ist die Bedeutung (stark) abgeschwächt, vgl. auch Statistik IV.
def
Definition 2.3. Eine Statistik T heißt suffizient für θ (oder auch für P) ⇔ die bedingte
Verteilung bzw. Dichte von X gegeben T (x) = t ist für alle Werte von T (x) = t von θ
unabhängig, d.h.
fX|T (x|T (x) = t, θ) = fX|T (x|T (x) = t)
hängt nicht von θ ab.
Idee: Zusätzliche Information in X, die nicht in T enthalten ist, ist durch fX|T gegeben. Falls
fX|T von θ unabhängig ist, dann enthält die Stichprobe x nicht mehr Information über θ
als T (x).
Folgender Satz ist äquivalent und konstruktiv:
Satz 2.4 (Faktorisierungssatz, Neyman-Kriterium). Eine Statistik T ist suffizient für θ genau
dann wenn
f (x|θ) = h(x)g(T (x)|θ)
für fast alle x, d.h. die Dichte lässt sich in zwei Teile faktorisieren, von denen ein Teil von x,
aber nicht von θ, und der andere nur von θ und T (x) abhängt.
20
Beweis.
⇒”: Falls T suffizient ist, gilt:
”
fX|T (x|T (x) = t, θ) =
Weiterhin ist
fX,T (x, t|θ)
.
fT |θ (t|θ)
(
fX|θ (x|θ) für T (x) = t
fX,T (x, t|θ) =
0
sonst,
d.h.
fX|T (x|t) · fT |θ (t|θ) = fX|θ (x|θ).
| {z } | {z }
h(x)
g(T (x)|θ)
⇐”: Man erhält die Dichte von T , ausgewertet an t, indem man im obigen Faktorisierungs”
kriterium über die x, für die T (x) = t gilt, summiert (bzw. integriert). Im diskreten
Fall also:
X
X
fT |θ (t|θ) =
h(x)g(T (x)|θ) = g(t|θ)
h(x).
x:T (x)=t
x:T (x)=t
Damit ist die bedingte Dichte von X gegeben T = t,
fX|θ (x|θ)
h(x)
h(x)g(T (x)|θ)
=P
,
=P
h(x)g(t|θ)
fT |θ (t|θ)
x:T (x)=t
x:T (x)=t h(x)
unabhängig von θ. Im stetigen Fall werden Summen durch Integrale ersetzt; im Detail
werden Messbarkeitsbedingungen verwendet.
P
i.i.d.
Beispiel 2.3 (Bernoulli-Experiment). Seien X1 , . . . , Xn ∼ Bin(1, π) und Z = ni=1 Xi die
Anzahl der Erfolge. Dann ist Z suffizient für π, denn
fX|Z (x|z, π) = Pπ (X = x|Z = z)
Qn
π xi (1 − π)1−xi
i=1
,
=
n z
n−z
z π (1 − π)
−1
n
=
z
wobei
n
X
xi = z
i=1
ist unabhängig von π. Gemäß Faktorisierungssatz ist
1
n z
f (x|π) = n
π (1 − π)n−z = |{z}
1 π z (1 − π)n−z .
|
{z
}
z
z |
{z
} =h∗ (x) =g∗ (z|π)
|{z}
=h(x)
=g(z|π)
Beispiel 2.4 (Normalverteilung). Sei X = (X1 , . . . , Xn ) mit Xi
θ = (µ, σ 2 )> .
!
n
n
1
1 X
2
√
fX|θ (x|θ) =
exp − 2
(xi − µ)
2σ
2πσ
i=1
1
= (2π)−n/2 (σ 2 )−n/2 exp − 2
| {z }
2σ
h(x)
|
P
g((
21
n
X
x2i − 2µ
n
X
i=1
i=1
{zP
n
n
2
i=1 xi , i=1 xi )|θ)
i.i.d.
∼
N (µ, σ 2 ) und
!!
xi + nµ2
,
}
Pn
Pn
2
2 >
d.h. T (x) =
i=1 xi ist suffizient für θ = (µ, σ ) . Aber: Die bijektive Transfori=1 xi ,
mation Te(x) = (x̄, s2 ) ist auch suffizient für θ, wobei s2 die Stichprobenvarianz bezeichnet.
i.i.d.
Beispiel 2.5 (Exponentialverteilung). Sei X = (X1 , . . . , Xn ) ∼ Exp(λ), dann
!
n
n
Y
X
n
f (x|λ) =
f (xi |λ) = |{z}
1 · λ exp −λ
xi
i=1
i=1
h(x) |
{z
}
g(T (x)|λ)
mit T (x) =
Pn
i=1 xi .
Nach der ursprünglichen Definition ist
P
fX,T |λ (x, t|λ)
λn exp (−λ ni=1 xi )
Γ(n)
= Pn
= λn Pn
Pn
n−1 .
n−1
fT |λ (t|λ)
(
x
)
(
x
)
exp
(−λ
x
)
i
i
i
i=1
i=1
i=1
Γ(n)
Dabei wird benutzt, dass die Summe von n unabhängigen und identisch exponentialverteilten
Zufallsvariablen mit Parameter λ gammaverteilt ist mit Parametern n und λ.
i.i.d.
Beispiel 2.6 (Order-Statistik). Sei X1 , . . . , Xn ∼ f (x|θ) (wobei f stetige Dichte ist) und
T (x) = x(·) = (x(1) , . . . , x(n) ) die Order-Statistik. Dann gilt
fX|T,θ (x|T = x(·) , θ) =
1
.
n!
Die Gleichheit folgt aus der Stetigkeit, denn xi 6= xj ∀i 6= j (mit Wahrscheinlichkeit 1).
x(·) ist suffizient für θ. Wir haben also bei i.i.d.-Beobachtungen keinen Informationsverlust
durch Ordnen der Daten.
Bemerkung.
• Offensichtlich ist T (x) = x, d.h. die Stichprobe selbst, suffizient.
• Ebenso ist jede eineindeutige Transformation von x oder von einer suffizienten Statistik T (x) suffizient.
• Ist T suffizient, dann auch (T, T ∗ ), wobei T ∗ eine beliebige weitere Statistik darstellt.
Dies zeigt: Die Dimension einer suffizienten Statistik sollte soweit wie möglich reduziert werden.
def
Definition 2.5 (Minimalsuffizienz). Eine Statistik T heißt minimalsuffizient für θ ⇔ T ist
suffizient, und zu jeder anderen suffizienten Statistik V existiert eine Funktion H mit
T (x) = H(V (x)) P − fast überall.
Frage: Existieren minimalsuffiziente Statistiken? Wenn ja, sind sie eindeutig?
Beispiel 2.7 (Normalverteilung).
1. T (x) = x̄ ist minimalsuffizient für µ bei bekanntem σ 2 .
P
2. T (x) = ni=1 (xi − µ)2 ist minimalsuffizient für σ 2 bei bekanntem µ.
22
3. T (x) =
Pn
i=1 xi ,
Pn
2
i=1 xi
ist minimalsuffizient für µ und σ 2 .
Lemma 2.6. Sind T und S minimalsuffiziente Statistiken, dann existieren injektive Funktionen g1 , g2 , so dass T = g1 (S) und S = g2 (T ).
Satz 2.7 (Charakterisierung von Minimalsuffizienz durch Likelihood-Quotienten). Definiere
den Likelihood-Quotienten
f (x|θ1 )
Λx (θ1 , θ2 ) =
.
f (x|θ2 )
Eine notwendige und hinreichende Bedingung für die Minimalsuffizienz einer Statistik T für θ
ist, dass für alle θ1 und θ2 gilt:
T (x) = T (x0 ) ⇔ Λx (θ1 , θ2 ) = Λx0 (θ1 , θ2 ).
Beispiel 2.8 (Suffizienz in Exponentialfamilien). Die Dichte einer k-parametrischen Exponentialfamilie hat die Form
f (x|θ) = h(x) · c(θ) · exp(γ1 (θ)T1 (x) + . . . + γk (θ)Tk (x))
= h(x) · exp(b(θ) + γ(θ)> T (x)),
d.h. T (x) = (T1 (x), . . . , Tk (x))> ist suffizient für θ nach Faktorisierungssatz. Falls Θ ein
offenes Rechteck in Rk enthält, ist T auch minimalsuffizient.
Es folgt nun die Charakterisierung der Minimalsuffizienz nach Lehmann-Scheffé. Dazu wird
der Begriff der Vollständigkeit benötigt.
def
Definition 2.8. Eine Statistik T ist vollständig ⇔ für jede reelle Funktion g gilt:
Eθ [g(T )] = 0 ∀θ ⇒ Pθ (g(T ) = 0) = 1 ∀θ.
Aus der Definiton wird nicht unmittelbar klar, warum Vollständigkeit” eine wünschenswerte
”
Eigenschaft eines Schätzers sein sollte. Einen möglichen Grund liefert der folgende Satz.
Satz 2.9 (Lehmann-Scheffé). Angenommen, X besitzt eine Dichte f (x|θ) und T (X) ist suffizient und vollständig für θ. Dann ist T (x) minimalsuffizient für θ.
Bemerkung (Ancillarity-Statistik). Eine Statistik V (X) heißt ancillary ( Hilfsstatistik”)
”
für P, wenn ihre Verteilung nicht von θ abhängt (also bekannt ist).
Häufiger Sachverhalt: T = (U, V ) ist suffizient für θ, V ancillary, U nicht suffizient.
i.i.d.
Beispiel 2.9. X1 , . . . , Xn ∼ U θ − 21 , θ + 12 . Man kann dann zeigen (Davison, 2004), dass
mit
U
V
1
(X + X(n) )
2 (1)
= X(n) − X(1)
=
T = (U, V ) suffizient, aber nicht vollständig für θ ist. Ferner ist U alleine nicht suffizient und
V ancillary.
23
2.1.2
Erwartungstreue, Varianz und MSE
b
• Fehler eines Schätzers θb = θ(X)
ist θb − θ.
• Messung des Fehlers durch Verlustfunktion, zum Beispiel
b θ) = |θb − θ|
L(θ,
b θ) = kθb − θk2
L(θ,
Abstand (θ skalar),
quadratischer Fehler,
kθb − θk2
relativer quadratischer Fehler,
kθk2
b θ) = (θb − θ)> D(θb − θ) gewichteter quadratischer Fehler (D positiv definit).
L(θ,
b θ) =
L(θ,
b θ) = Eθ [L(θ,
b θ)].
• Risikofunktion R(θ,
• Hier wird (hauptsächlich) quadratischer Verlust betrachtet.
Definition 2.10 (Erwartungstreue, Bias, Varianz eines Schätzers).
def
b = θ.
• θb heißt erwartungstreu ⇔ Eθ [θ]
b = Eθ [θ]
b − θ.
• Biasθ (θ)
b = Eθ [(θb − Eθ [θ])
b 2 ], θ skalar.
• Varθ (θ)
Definition 2.11 (MSE). Der mittlere quadratische Fehler (mean squared error) ist definiert
als
b = Eθ [(θb − θ)2 ] = Varθ (θ)
b + (Biasθ (θ))
b 2.
MSEθ (θ)
Der Gesamtfehler lässt sich also aufteilen in einen zufälligen Fehler (Varianz) und einen
systematischen (quadrierter Bias).
Vergleicht man zwei Schätzer bezüglich ihres MSE, kann für einen Teilbereich von Θ der MSE
des einen, für andere Teilbereiche der MSE des zweiten Schätzers kleiner sein:
Beispiel 2.10. X1 , . . . , Xn
1. MSE von π
b = X̄:
i.i.d.
∼ B(1, π).
Eπ [(X̄ − π)2 ] = Varπ (X̄) =
π(1 − π)
.
n
2. MSE des Bayes-Schätzers (Posteriori-Erwartungswert) bei einer Priori p(π) ∼ Be(α, β):
n
X
Y +α
π
bB =
, Y =
Xi ,
α+β+n
i=1
2
Y +α
Y +α
MSE(b
πB ) = Varπ
+ Eπ
−π
α+β+n
α+β+n
2
nπ(1 − π)
nπ + α
=
+
−π .
(α + β + n)2
α+β+n
24
Für α = β =
p
n/4 ergibt sich
MSEπ (b
πB ) = Eπ [(b
πB − π)2 ] =
n
1
√
= const bezüglich π.
4 (n + n)2
Fazit: In der Regel wird man keinen MSE-optimalen” Schätzer θbopt finden in dem Sinne,
b für alle θ” und alle konkurrierenden θ.
b Bei Einschränkung auf
dass MSEθ (θbopt ) ≤ MSEθ (θ)
erwartungstreue Schätzer ist dies öfter möglich. Deshalb die Forderung:
def
Definition 2.12 (zulässiger ( admissible”) Schätzer). Ein Schätzer θb heißt zulässig ⇔ es
”
e ≤ MSEθ (θ)
b für alle θ und MSEθ (θ)
e < MSEθ (θ)
b für
gibt keinen Schätzer θe mit MSEθ (θ)
mindestens ein θ, d.h. es gibt keinen Schätzer θ̃, der θ̂ gleichmäßig/strikt dominiert”.
”
p
Definition 2.13 (Verallgemeinerungen des MSE auf θ ∈ R , p > 1). Üblich sind die folgenden
zwei Alternativen:
1. MSE (skalar):
(1) b
MSEθ (θ)
= Eθ [kθb − θk2 ]
p
X
=
Eθ [(θbj − θj )2 ]
=
j=1
p
X
MSEθ (θbj )
j=1
2. MSE-Matrix:
(2)
b = Eθ [(θb − θ)(θb − θ)> ]
MSEθ (θ)
b + (Eθ [θ]
b − θ)(Eθ [θ]
b − θ)>
= Covθ (θ)
Diese Variante wird häufig bei linearen Modellen betrachtet.
25
Bemerkung. Das j-te Diagonalelement der MSE-Matrix ist MSEθ (θbj ). Vergleich von MSEMatrizen gemäß Löwner”-Ordnung:
”
(≤)
e < MSEθ (θ)
b
MSEθ (θ)
b − MSEθ (θ)
e positiv (semi-)definit ist. Man definiert allbedeutet, dass die Differenz MSEθ (θ)
gemein für geeignete Matrizen A, B:
def
A ≤ B ⇔ B − A ist positiv semidefinit,
def
A < B ⇔ B − A ist positiv definit.
Beispiel 2.11 (Gauß-Experiment). Seien X1 , . . . , Xn
i.i.d.
∼ N (µ, σ 2 ).
• σ 2 bekannt, µ unbekannt: MSE-Vergleich von X̄ und T = bX̄ + a.
• σ 2 unbekannt, µ bekannt:
– Eine Möglichkeit:
n
Sµ2 =
1X
(Xi − µ)2 , Eσ2 (Sµ2 ) = σ 2
n
i=1
– Weitere Möglichkeit:
n
Vµ2 =
n
1 X
(Xi − µ)2 , Eσ2 (Vµ2 ) =
σ2
n+2
n+2
i=1
Es stellt sich heraus, dass MSEσ2 (Vµ2 ) < MSEσ2 (Sµ2 ) ist.
• µ und σ 2 unbekannt:
– Eine Möglichkeit:
n
1 X
S =
(Xi − X̄)2 ,
n−1
2
i=1
Eσ2 (S 2 ) = σ 2 , MSEσ2 (S 2 ) = Varσ2 (S 2 ) =
– Weitere Möglichkeit:
2
σ4.
n−1
n
1 X
V =
(Xi − X̄)2 ,
n+1
2
i=1
Eσ2 (V 2 ) =
n−1 2
2
σ , MSEσ2 (V 2 ) =
σ4,
n+1
n+1
d.h. V 2 dominiert S 2 .
– Der sogenannte Stein-Schätzer
n
(
1 X 2
T = min V ,
Xi
n+2
2
i=1
26
)
dominiert
V 2 (und damit S 2 ). Plausibilitätsbetrachtung: Ist µ = 0, so ist
Pn
2
2
2
i /(n+2) besserer Schätzer als V . Ist µ 6= 0, so ist V ein besserer Schätzer
i=1
PX
n
2
als i=1 Xi /(n + 2). Beim Stein-Schätzer wird fallweise mit hoher Wahrscheinlichkeit der jeweils bessere Schätzer benutzt.
Beispiel 2.12 (Stein’s Paradoxon). Seien (X1 , . . . , Xm )> ∼ Nm (µ, C) multivariat normal2 ). Es sollen simultan die Erwartungsverteilt mit µ = (µ1 , . . . , µm )> , C = diag(σ12 , . . . , σm
werte µ1 , . . . , µm geschätzt werden. Man beachte dabei, dass die einzelnen Komponenten als
unabhängig angenommen werden. Die Stichprobe hat die Form
X11 , . . . , X1n1 , . . . , Xm1 , . . . , Xmnm
(i.i.d. Stichproben aus Gruppen” 1, . . . , m). Übliche Schätzer:
”
Tj = X̄j ,
j = 1, . . . , m,
T = (T1 , . . . , Tm )> = (X̄1 , . . . , X̄m )> .
Der (skalare) MSE ist:
Eµ [kT − µk2 ] =
m
X
Eµ [(X̄j − µj )2 ] =
j=1
m
X
σj2
j=1
nj
.
Paradoxerweise gilt:
1. Für m ≤ 2 ist T zulässig.
2. Für m ≥ 3 ist T nicht zulässig und wird dominiert durch den Stein-Schätzer
!
m
−
2
m
−
2
T.
T = 1 − Pm
T∗ = 1 − >
2
T T
j=1 X̄j
Dieses Ergebnis ist unabhängig von den Stichprobenumfängen n1 , . . . , nm in den Gruppen. Es
lässt sich zeigen: T ∗ ist Minimax-Schätzer, aber selbst unzulässig. Der Stein-Schätzer ist ein
sogenannter Shrinkage-Schätzer.
Beispiel 2.13 (Lineares Modell).
y = Xβ + ε, ε ∼ (N )(0, σ 2 I)
KQ-Schätzer:
Ridge-Schätzer:
βbKQ = (X > X)−1 X > y
βbRidge = (X > X + λD)−1 X > y,
wobei D eine Diagonalmatrix mit positiven Diagonalelementen ist. Für einen MSE-Vergleich
siehe Vorlesung/Buch zu Lineare Modelle.
Fazit: Bereits im einfachen Beispiel der Schätzung von π in B(1, π) (siehe Beispiel 2.10) zeigt
sich, dass es im Allgemeinen keine MSE-optimalen Schätzer gibt.
27
Auswege:
1. Einschränkung auf Teilklasse von Schätzern, zum Beispiel erwartungstreue (und lineare)
Schätzer, äquivariante Schätzer, . . .
2. MSE-Kriterium verändern:
b durch Minimierung von maxθ∈Θ MSEθ (θ)
b (Minimax-Kriterium)
• Ersetze MSEθ (θ)
b durch Ep(θ) [MSEθ (θ)]
b bei einer Priori-Verteilung p(θ) (Bayes• oder ersetzte MSEθ (θ)
Schätzer).
Hier: Strategie 1 mit erwartungstreuen Schätzern, vgl. 2.1.4.
2.1.3
Fisher-Information und Suffizienz
Definition 2.14 (Fisher-reguläre Verteilungsfamilien). Eine Familie von Verteilungen Pθ
mit Dichte f (x|θ) = f (x1 , . . . , xn |θ), θ ∈ Θ, heißt Fisher-regulär, wenn Folgendes gilt:
1. Der Träger {x ∈ X : f (x|θ) > 0} ist unabhängig von θ (dies ist zum Beispiel bei
X1 , . . . , Xn
i.i.d.
∼ U [0; θ] oder bei der Pareto-Verteilung verletzt).
2. Θ ist offen in Rp (verletzt zum Beispiel bei σ 2 ≥ 0).
3. Die ersten und zweiten Ableitungen von f (x|θ) bzgl. θ existieren und sind für jedes θ
endliche Funktionen von x.
4. Vertauschbarkeit: Sowohl für f (x|θ) als auch für log(f (x|θ)) kann erstes und zweites
Differenzieren nach θ und Integration über x vertauscht werden.
Definition 2.15 (Log-Likelihood, Scorefunktion und Information).
`(θ; x) = log f (x|θ)
( Log-Likelihood von θ bzgl. der Stichprobe x)
>
∂
∂
∂
s(θ; x) =
`(θ; x) =
`(θ; x), . . . ,
`(θ; x)
( Score-Funktion)
∂θ
∂θ1
∂θp
∂ 2 `(θ; x)
J(θ; x) = −
( beobachtete Informationsmatrix der Stichprobe mit Elementen
∂θ∂θ>
∂ 2 log f (x|θ) (J(θ; x))ij = −
∂θi ∂θj
I(θ) = Eθ [J(θ; X)] ( erwartete oder Fisher-Informationsmatrix)
Satz 2.16. Ist Pθ Fisher-regulär, so gilt:
1. Eθ [s(θ; X)] = 0
h 2
i
`(θ;X)
2. Eθ − ∂∂θ∂θ
= Covθ (s(θ; X))
>
28
Beweis.
Zu 1.:
Z
Eθ [s(θ; X)] =
s(θ; x)f (x|θ) dx
Z
∂
log(f (x|θ))f (x|θ) dx
∂θ
Z ∂
∂θ f (x|θ)
=
f (x|θ)dx
f (x|θ)
Z
∂
=
f (x|θ)dx = 0
∂θ
=
Zu 2.:
Eθ
∂ 2 `(θ; X)
−
∂θ∂θ>
"
= −Eθ
"
= −Eθ
∂
∂θ
∂
f (X|θ)
∂θ>
!#
f (X|θ)
2
∂
∂
∂
f (X|θ) ∂θ∂θ
> f (X|θ) − ( ∂θ f (X|θ))( ∂θ > f (X|θ))
f (X|θ)2
#
unter Verwendung der Quotientenregel der Differentiation. Dies ist gleich
" 2
#
"
#
∂f (X|θ)
∂
∂
f (X|θ)
∂θ∂θ>
∂θ f (X|θ)
∂θ>
− Eθ
·
+ Eθ
f (X|θ)
f (X|θ) f (X|θ)
Z
∂2
f (x|θ)dx + Eθ [s(θ; X)s(θ; X)> ]
= −
∂θ∂θ>
Der erste Summand ist unter Vertauschung von Differentiation und Integration gleich
null. Für den zweiten Teil ergibt sich mit Teil 1.
E[s(θ; X)s(θ; X)> ] = Covθ (s(θ; X)).
Weitere Eigenschaften:
• Sind X1 , . . . , Xn unabhängig und gemäß Xi ∼ fi (x|θ), i = 1, . . . , n, verteilt, so gilt:
`(θ) =
n
X
`i (θ)
,
`i (θ) = log fi (xi |θ)
si (θ)
,
si (θ) =
∂ 2 `(θ)
∂θ∂θ>
=
i=1
s(θ) =
n
X
i=1
J(θ) = −
n
X
i=1
29
−
∂
log fi (xi |θ)
∂θ
∂ 2 log fi (xi |θ)
∂θ∂θ>
• Für X1 , . . . , Xn i.i.d. wie X1 ∼ f1 (x|θ) folgt
I(θ) = Eθ [J(θ)] = n · i(θ),
wobei
∂ log f1 (X|θ)
∂ 2 `1 (θ; X)
= Covθ
i(θ) = Eθ −
∂θ
∂θ∂θ>
die erwartete Information einer Einzelbeobachtung ist, d.h. die erwartete Informationsmatrix der Stichprobe X1 , . . . , Xn ist die n-fache erwartete Information einer (typischen)
Stichprobenvariable X1 .
• Für eine Statistik T = T (X), X = (X1 , . . . , Xn )> mit T ∼ fT (t|θ) kann man die Begriffe
Score-Funktion und Fisher-Information völlig analog definieren. Insbesondere ist
2
∂ log fT (t|θ)
IT (θ) = Eθ −
.
∂θ∂θ>
Satz 2.17 (Suffizienz und Fisher-Information). Sei I(θ) die Fisher-Information für X. Dann
gilt unter Fisher-Regularität für jede Statistik T :
1. IT (θ) ≤ I(θ).
2. IT (θ) = I(θ) ⇔ T ist suffizient für θ.
Also: Bei einer suffizienten Statistik T wird keine (erwartete) Information verschenkt”.
”
2.1.4
Erwartungstreue Schätzer
• Schöne” Resultate für finites n, aber für vergleichsweise einfache statistische Modelle.
”
• Problem: Für komplexere Modelle existieren keine vernünftigen” erwartungstreuen
”
Schätzer.
• Aber: Etliche Resultate besitzen allgemeine Eigenschaften für n → ∞.
Informationsungleichungen
I. θ ∈ R (skalar). Neben θ werden auch transformierte Parameter τ (θ) betrachtet. Wenn
Ableitungen benötigt werden, nehmen wir stillschweigend an, dass sie existieren.
Satz 2.18. Sei f (x|θ) Fisher-regulär.
1. Ist θb erwartungstreu für θ, so gilt:
b ≥
Varθ (θ)
1
I(θ)
(Cramer-Rao-Ungleichung).
2. Ist T = T (x) erwartungstreu für τ (θ), so gilt:
Varθ (T ) ≥
(τ 0 (θ))2
I(θ)
heißt Cramer-Rao-Schranke.
30
(τ 0 (θ))2
.
I(θ)
b − θ, so gilt
3. Besitzt θb den Bias B(θ) = Eθ [θ]
0
2
b ≥ B 2 (θ) + (1 + B (θ)) .
MSEθ (θ)
I(θ)
Beweis. Gezeigt wird 2. Daraus folgt 1. für τ (θ) = θ und 3. für τ (θ) = θ + B(θ).
Differentiation von
Z
τ (θ) = Eθ [T ] = T (x)f (x|θ) dx
bezüglich θ, und Verwendung der Fisher-Regularität liefert:
Z
d
0
τ (θ) =
T (x) f (x|θ) dx
dθ
Z
=
T (x)s(θ; x)f (x|θ) dx
= Covθ (T (X), s(θ; X)).
Unter Verwendung der Cauchy-Schwarz-Ungleichung
p
p
|Cov(U, V )| ≤ Var(U ) Var(V )
folgt
(τ 0 (θ))2 ≤ Varθ (T (X))Varθ (s(θ; X))
= Varθ (T (X))I(θ).
Also:
Varθ (T (X)) ≥
(τ 0 (θ))2
.
I(θ)
Bemerkung. Die Gleichheit wird genau dann angenommen, wenn eine einparametrische Exponentialfamilie f (x|θ) = h(x) exp(γ(θ)T (x)+b(θ)) vorliegt, τ (θ) = −b0 (θ)/γ 0 (θ)
gilt und T (x) ein Schätzer für τ (θ) ist. Also: eher eine kleine Modellklasse.
II. θ = (θ1 , . . . , θp ) bzw. τ (θ) mehrdimensional.
Satz 2.19. Sei f (x|θ) Fisher-regulär.
1. Ist θb erwartungstreu für θ, so gilt:
b ≥ I −1 (θ),
Covθ (θ)
wobei sich das ≥” auf die Löwner-Ordnung bezieht (vergleiche Seite 26). Daraus
”
folgt insbesondere Varθ (θbj ) ≥ vjj , j = 1, . . . , p, wobei vjj das j-te Diagonalelement
von I −1 (θ) bezeichnet.
2. Ist T erwartungstreu für τ (θ), so gilt
Covθ (T ) ≥ H(θ)I −1 (θ)H(θ)>
mit der Funktionalmatrix (H(θ))ij =
Cramer-Rao-Schranke.
∂
∂θj τi (θ).
31
Die Matrix H(θ)I −1 (θ)H(θ)> ist die
Bemerkung. Obige Bemerkung für skalares θ gilt analog für
f (x|θ) = h(x) exp(b(θ) + γ > (θ)T (x)),
d.h. für mehrparametrische Exponentialfamilien.
Beispiel 2.14 (Cramer-Rao-Schranke bei X ∼ N (µ, σ 2 )). X1 , . . . , Xn i.i.d. wie X ∼ N (µ, σ 2 ),
θ = (µ, σ 2 ). Dann gilt für die Informationsmatrix
!
n
σ2
0
0
2
n
σ
bzw. I −1 (θ) =
I(θ) =
.
4
0 2σn4
0 2σn
Beste erwartungstreue Schätzer
Erwartungstreue Schätzer minimaler Varianz innerhalb einer vorgegebenen Klasse nennt man
effizient. Die Informationsungleichungen motivieren:
Definition 2.20 (Gleichmäßig bester erwartungstreuer (UMVU) Schätzer).
1. θ skalar:
Der Schätzer θbeff für θ heißt gleichmäßig bester erwartungstreuer oder UMVU ( uni”
def
formly minimum variance unbiased”)-Schätzer ⇔ θbeff ist erwartungstreu, und es gilt
b für alle θ und jeden erwartungstreuen Schätzer θ.
b
Varθ (θbeff ) ≤ Varθ (θ)
2. θ mehrdimensional:
b durch Covθ (θbeff ) ≤ Covθ (θ).
b
Ersetze in 1. Varθ (θbeff ) ≤ Varθ (θ)
Satz 2.21 (Effizienz und Informationsungleichungen). Sei f (x|θ) Fisher-regulär und θb erb = I −1 (θ) für alle θ, so ist θb ein UMVU-Schätzer.
wartungstreu für θ. Falls Covθ (θ)
Beweis. Die Aussage folgt direkt aus der Informationsungleichung und obiger Definition.
i.i.d.
Beispiel 2.15 (Gauß-Experiment). Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) mit µ, σ 2 unbekannt. Aus
Beispiel 2.14 wissen wir, dass I(µ) = n/σ 2 und somit I −1 (µ) = σ 2 /n = Var(X̄). Dann ist X̄
UMVU für µ. Aber
2σ 4
2σ 4
Var(S 2 ) =
>
= I −1 (σ 2 ).
n−1
n
Die Cramer-Rao-Schranke wird also nicht erreicht, somit kann nicht gefolgert werden, dass S 2
UMVU für σ 2 ist.
Beispiel 2.16 (Lineares Modell).
y = Xβ + ε, ε ∼ N (0, σ 2 I)
bzw.
y ∼ N (Xβ, σ 2 I)
βbKQ = βbML = (X > X)−1 X > y ist effizient für β,
n
1 X
(yi − ybi )2 ist nicht effizient für σ 2 .
σ
b2 =
n−p
i=1
32
Bemerkung. Zu unterscheiden sind folgende Situationen:
1. Es existiert ein UMVU-Schätzer, dessen Varianz gleich der Cramer-Rao-Schranke ist.
2. Es existiert ein UMVU-Schätzer, dessen Varianz größer als die Cramer-Rao-Schranke
ist (findet man mit dem Satz von Lehmann-Scheffé, siehe Satz 2.23).
3. Der häufigste Fall: Es existiert (für finiten Stichprobenumfang) kein UMVU-Schätzer.
Fazit: Finite Theorie erwartungstreuer Schätzer ist von eingeschränkter Anwendungsrelevanz.
Aber: Es existiert eine analoge asymptotische Theorie mit breiter Anwendungsrelevanz, die
sich an finiter Theorie orientiert (siehe Abschnitt 2.1.5).
Zur Konstruktion von UMVU-Schätzern sind folgende zwei Aussagen nützlich:
Satz 2.22 (Rao-Blackwell). Sei T = T (X) suffizient für θ bzw. Pθ und θb erwartungstreu
für θ. Für den Schätzer
b ]
θbRB = Eθ [θ|T
( Rao-Blackwellization”)
”
gilt:
1. θbRB ist erwartungstreu für θ.
b
2. Varθ (θbRB ) ≤ Varθ (θ).
3. In 2. gilt die Gleichheit, wenn θb nur von T abhängt, d.h. θbRB = θb mit Wahrscheinlichkeit 1.
Satz 2.23 (Lehmann-Scheffé). Ist T = T (X) suffizient und vollständig (also minimalsuffizib
ent) und θb = θ(x)
ein erwartungstreuer Schätzer, so ist
b ]
θb∗ = Eθ [θ|T
der mit Wahrscheinlichkeit 1 eindeutig bestimmte UMVU-Schätzer für θ.
2.1.5
Asymptotische Eigenschaften und Kriterien
Wichtige Schätzer (Momentenschätzer, Shrinkage-Schätzer, ML- und Quasi-ML-Schätzer etc.)
sind im Allgemeinen nicht erwartungstreu, besitzen aber günstige asymptotische (n → ∞)
Eigenschaften. Im Folgenden sei
θ̂n = θ̂(X1 , . . . , Xn )
Schätzer für θ.
def
Definition 2.24 (Asymptotische Erwartungstreue). θbn heißt asymptotisch erwartungstreu ⇔
lim Eθ [θbn ] = θ
n→∞
33
für alle θ.
Definition 2.25 (Konsistenz).
def
P
1. θbn ist (schwach) konsistent für θ (in Zeichen: θbn → θ (für alle θ)) ⇔
lim Pθ (|θbn − θ| ≤ ε) = 1
n→∞
für alle ε > 0 und alle θ.
def
2. θbn heißt MSE-konsistent für θ ⇔
lim MSEθ (θbn ) = 0
n→∞
für alle θ.
def
3. θbn ist stark konsistent für θ ⇔
Pθ lim θbn = θ = 1
für alle θ.
n→∞
Bemerkung.
1. Aus der (verallgemeinerten) Tschebyscheff-Ungleichung folgt
θbn MSE-konsistent ⇒ θbn schwach konsistent.
2. Wegen MSEθ (θbn ) = Varθ (θbn ) + (Biasθ (θbn ))2 folgt:
θbn ist MSE-konsistent ⇔ Varθ (θbn ) → 0 und Biasθ (θbn ) → 0 für alle θ.
3. Ist θbn konsistent für θ und g eine stetige Abbildung, so ist auch g(θbn ) konsistent für g(θ)
(Continuous Mapping Theorem/Stetigkeitssatz).
4. Konsistenznachweise bestehen in der Regel in der Anwendung (schwacher) Gesetze
großer Zahlen (für i.i.d. Variablen; i.n.i.d. Variablen; abhängige Variablen, z.B. Martingale, Markov-Prozesse, ...).
Beispiel 2.17.
1. X̄n =
2. Sn2 =
1
n
n
P
Xi ist wegen E(X̄n ) = µ und Var(X̄n ) =
i=1
1
n−1
n
P
(Xi − X̄n )2 und Sen2 =
i=1
3. Mit g(x) =
1
n
n
P
σ2
n
→ 0 für n → ∞ konsistent.
(Xi − X̄n )2 sind MSE-konsistent für σ 2 .
i=1
√
x folgt, dass
v
u
n
u 1 X
Sn = t
(Xi − X̄n )2
n−1
i=1
und
v
u n
u1 X
e
Sn = t
(Xi − X̄n )2
n
i=1
konsistent sind für σ.
4. Sn /X̄n ist konsistent für σ 2 /µ für µ > 0, da mit θ = (µ, σ) und g(θ) = σ 2 /µ wieder der
Stetigkeitssatz benutzt werden kann.
5. π
bn ist konsistent für π (im Bernoulli-Experiment).
6. βbKQ , βbRidge sind konsistent für β im linearen Modell.
34
Asymptotische Normalität
Viele Schätzer (KQ-, Momenten-, ML-, Quasi-ML-, Bayes-Schätzer) sind unter Regularitätsannahmen asymptotisch normalverteilt. Informell ausgedrückt heißt das: Für große n ist θbn
nicht nur approximativ erwartungstreu, sondern zusätzlich approximativ normalverteilt, kurz
a
θbn ∼ N (θ, V (θ))
mit (approximativer) Kovarianzmatrix
a
Covθ (θbn ) ∼ V (θ),
die durch
d θ (θbn ) := V (θbn )
Cov
geschätzt wird. In der Diagonalen von V (θbn ) stehen dann die (geschätzten) Varianzen
d θbj ) = vjj (θbn )
Var(
der Komponenten θj , j = 1, . . . , p, von θ.
⇒ ”Üblicher” Output statistischer Software ist
q
b
θbj
σ
bθbj = vjj (θ)
|{z}
|
{z
}
Schätzer
Standardfehler
t
|{z}
t-Statistik
p
|{z}
p-Wert
i.i.d.
Beispiel 2.18. Seien X1 , . . . , Xn ∼ F (x|θ) mit E(Xi ) = µ und Var(Xi ) = σ 2 . Aber F sei
nicht gleich Φ, sondern z.B. die Verteilungsfunktion von B(π) oder P o(λ). Für X̄n gilt
E(X̄n ) = µ und Var(X̄n ) =
σ2
.
n
Aufgrund des zentralen Grenzwertsatzes folgt
σ2
X̄n ∼ N µ,
,
n
a
zum Beispiel
a
X̄n ∼ N
π(1 − π)
π,
n
bei B(π).
Genauere Formulierung:
√
im Beispiel also
√
d
n(X̄n − µ) → N (0, σ 2 )
für n → ∞,
d
n(X̄n − π) → N (0, π(1 − π))
für n → ∞
bzw.
X̄−µ √
n
σ
√
X̄−π
√
n
π(1−π)
d
→
d
→
N (0, 1),
N (0, 1).
)
zentraler
Grenzwertsatz
√
Die n-Normierung ist vor allem bei i.i.d. Stichprobenvariablen geeignet. Für nicht identisch
verteilte Stichprobenvariablen wie zum Beispiel y1 |x1 , . . . , yn |xn in Regressionssituationen
√
benötigt man bei n-Normierung Voraussetzungen, die (teilweise) unnötig restriktiv sind.
1
Besser ist dann eine Matrix-Normierung” mit Hilfe einer Wurzel” I 2 (θ) der Informations”
”
matrix.
35
Einschub: Wurzel einer positiv definiten Matrix
• A ist positiv definit, wenn A symmetrisch ist und x> Ax > 0 für alle x 6= 0 gilt.
def
1
• Dann heißt eine Matrix A 2 (linke) Wurzel von A ⇔
1
1
A2
>
(A 2 )>
| {z }
= A.
=A 2 , rechte Wurzel
1
1
Allerdings ist A 2 nicht eindeutig, da für eine beliebige orthogonale Matrix auch A 2 Q
eine linke Wurzel ist:
1
1
>
1
A 2 Q(A 2 Q)> = A 2 QQ> A 2 = A.
| {z }
=I
• Zwei gebräuchliche Wurzeln sind:
1. Symmetrische Wurzel: Betrachte die Spektralzerlegung von A ∈ Rp×p . Mit der
Matrix P ∈ Rp×p der orthonormalen Eigenvektoren als Spalten ist


λ1
0


..
P > AP = Λ = 
,
.
0
λp
wobei für alle i die λi > 0 die Eigenwerte von A sind. (Diese Zerlegung ist numerisch aufwändig!) Dann gilt auch
1
1
A = P ΛP > = P
Λ 2} (Λ 2 )> P > ,
| {z
| {z }
1
=A 2
>
=A 2
1
und A 2 heißt symmetrische Wurzel von A.
1
2. Cholesky-Wurzel: Sei A 2 := C untere Dreiecksmatrix mit positiven Diagonalelementen und CC > = A. Dann ist C die eindeutig bestimmte Cholesky-Wurzel
von A. (Diese ist numerisch vergleichsweise einfach zu erhalten!)
• Anwendungen in der Statistik
1. Erzeugen von Np (0, Σ)-verteilten Zufallszahlen (Σ vorgegeben): Falls Z ∼ Np (0, I),
ist einfache Simulation möglich, indem p unabhängige N (0, 1)-verteilte Zufallsvariablen Z1 , . . . , Zp simuliert werden. Dann gilt auch
.
Σ1/2 Z ∼ N (0, Σ1/2 IΣ>/2 ) = N (0, Σ).
Also: Berechne Cholesky-Wurzel von Σ, ziehe p N (0, 1)-verteilte Zufallsvariablen
Z = (z1 , . . . , zp )> , berechne Y = Σ1/2 Z. Dann ist Y = (Y1 , . . . , Yp )> ein Np (0, Σ)verteilter Zufallsvektor.
36
2. Matrixnormierung bei asymptotischer Normalverteilung:
Beispiel 2.19 (Asymptotische Normalität des KQ-Schätzers im linearen Modell).
Seien y1 |x1 , . . . , yn |xn unabhängig. Dann gilt
E[yi |xi ] = x>
i β,
Var(yi |xi ) = σ 2 ,
i = 1, . . . , n,
⇔ yn = Xn β + εn , E[εn ] = 0, Cov(εn ) = σ 2 In .
Der KQ-Schätzer ist
βbn = (Xn> Xn )−1 Xn> yn , E[βbn ] = β, Cov(βbn ) = σ 2 (Xn> Xn )−1 .
Die Informationsmatrix unter der Normalverteilungsannahme ist
I(β) =
Xn> Xn
= Cov(βbn )−1 .
σ2
Zentrale Grenzwertsätze (für unabhängige, nicht identisch verteilte Zufallsvariablen, kurz: i.n.i.d.) liefern unter geeigneten Voraussetzungen (informell):
a
βbn ∼ N (β, σ 2 (Xn> Xn )−1 ).
Genauere Formulierungen nehmen an, dass
1 >
X Xn =: A > 0
n→∞n n
lim
(2.1)
existiert (also: Xn> Xn ≈ nA ⇔ (Xn> Xn )−1 ≈ A−1 /n für große A). Anwendung
des (multivariaten) zentralen Grenzwertsatzes liefert dann:
√
d
n(βbn − β) → N (0, σ 2 A−1 )
bzw.
βbn
βbn
∼
a
N (β, σ 2 A−1 /n)
a
N (β, σ 2 (Xn> Xn )−1 ).
∼
Die Annahme (2.1) ist zum Beispiel erfüllt, wenn xi , i = 1, . . . , n, i.i.d. Realisierungen stochastischer Kovariablen x = (x1 , . . . , xp )> sind. Dann gilt nach dem
Gesetz der großen Zahlen:
n
1 >
1X
Xn Xn =
xi x>
i
n
n
n→∞
→
E[xx> ] =: A.
i=1
Typischerweise ist die Annahme (2.1) nicht erfüllt bei deterministischen Regressoren mit Trend. Das einfachste Beispiel hierfür ist ein linearer Trend: xi = i für
i = 1, . . . , n und yi = β1 i + εi . Dann ist
Xn> Xn =
n
X
i=1
37
i2
und daher
Pn 2
i
1 >
n→∞
Xn Xn = i=1 ≥ n → ∞.
n
n
In diesem Fall ist eine andere Normierung nötig, zum Beispiel eine Matrixnormierung mit
Cn = (Xn> Xn ).
Dann lässt sich die asymptotische Normalität des KQ-Schätzers
d
Cn1/2 (βbn − β) → Np (0, σ 2 I)
bzw.
1/2
Cn b
d
C̃n1/2 (βbn − β) :=
(βn − β) → Np (0, I)
σ
unter folgenden, sehr schwachen Bedingungen zeigen:
(D) Divergenzbedingung: Für n → ∞ gilt:
(Xn> Xn )−1 → 0.
Eine äquivalente Forderung ist:
λmin (Xn> Xn ) → ∞,
wobei λmin den kleinsten Eigenwert von Xn> Xn bezeichnet. Die Divergenzbedingung sichert, dass die Informationsmatrix”
”
n
X
Xn> Xn =
xi x>
i
i=1
für n → ∞ gegen ∞ divergiert, die Information mit n → ∞ also laufend
wächst.
Es gilt: (D) ist hinreichend und notwendig für die (schwache und starke) Konsistenz des KQ-Schätzers βbn .
(N) Normalitätsbedingung:
>
−1
max x>
i (Xn Xn ) xi → 0
i=1,...,n
für n → ∞
(N) sichert, dass die Information
jeder Beobachtung i asymptotisch gegenüber
Pn
>
der Gesamtinformation i=1 xi xi vernachlässigbar ist.
Unter (D) und (N) gilt
d
(Xn> Xn )1/2 (βbn − β) → N (0, σ 2 I)
(Beweis mit Grenzwertsätzen für unabhängige, nicht identisch verteilte Zufallsvariablen), d.h. für praktische Zwecke:
a
βbn ∼ N (β, σ 2 (Xn> Xn )−1 )
für genügend großen Stichprobenumfang n. Dabei darf zusätzlich σ 2 durch einen
konsistenten Schätzer σ
b2 ersetzt werden.
38
Definition 2.26 (Asymptotische Normalität).
1. Mit
√
def
n-Normierung: θbn heißt asymptotisch normalverteilt für θ ⇔
√
d
n(θbn − θ) → N (0, V (θ))
für n → ∞
mit nicht-negativ definiter (in der Regel positiv definiter) asymptotischer Kovarianzmatrix V (θ).
def
2. Mit Matrix-Normierung: θbn heißt asymptotisch normalverteilt für θ ⇔ es existiert
eine Folge von Matrizen An mit λmin (An ) → ∞, so dass
d
An1/2 (θbn − θ) → N (0, V (θ)).
Bemerkung.
1. Praxisformulierung:
bzw.
a
θbn ∼ N (θ, V (θ)/n)
a
−1
1/2 −>
θbn ∼ N (θ, (A1/2
).
n ) V (θ)(An )
Dabei darf θ in V (θ) durch θbn ersetzt werden.
2. Oft: V (θ) = I möglich, wenn geeignet normiert wird, zum Beispiel bei ML-Schätzung.
Beispiel 2.20. Seien X1 , . . . , Xn i.i.d. Zufallsvariablen mit (bekanntem) Erwartungswert µ
und Varianz σ 2 .
n
1X
(Xi − µ)2
Sµ2 =
n
i=1
σ2
ist asymptotisch normal für
mit V (θ) = µ4 − σ 4 , µ4 = E[(Xi − µ)4 ] < ∞. Sµ2 ist erwartungstreu. Für die Varianz erhält man:
!
n
X
1
Var(Sµ2 ) = Var
(Xi − µ)2
n
i=1
1
=
· n · Var (X1 − µ)2
2
n
2 1
=
E[(X1 − µ)4 ] − E[(X1 − µ)2 ]
n
1
=
(µ4 − σ 4 ).
n
Es liegen die Voraussetzungen zur Anwendung des zentralen Grenzwertsatzes vor. Aus ihm
folgt:
√
a
d
Sµ2 ∼ N (σ 2 , (µ4 − σ 4 )/n) bzw.
n(Sµ2 − σ 2 ) → N (0, µ4 − σ 4 ).
39
Die Delta-Methode
θbn sei asymptotisch normalverteilter Schätzer für θ.
Frage: Wie ist für eine gegebene Abbildung
h : Rp → Rk , k ≤ p
b für h(θ) verteilt?
der Schätzer h(θ)
Satz 2.27 (Delta-Methode). Sei h wie oben.
1. θ skalar: Für alle θ, für die h stetig differenzierbar ist mit h0 (θ) 6= 0, gilt:
√
d
n(θbn − θ) → N (0, V (θ)) ⇒
√
d
n(h(θbn ) − h(θ)) → N (0, [h0 (θ)]2 V (θ))
2. θ vektoriell: Sei
θ = (θ1 , . . . , θp )> 7→ h(θ) = (h1 (θ), . . . , hk (θ))>
mit Funktionalmatrix
(H(θ))ij =
∂hi (θ)
∂θj
mit vollem Rang. Für alle θ, für die h(θ) komponentenweise stetig partiell differenzierbar
ist und jede Zeile von H(θ) ungleich dem Nullvektor ist, gilt:
√
d
n(θbn − θ) → N (0, V (θ)) ⇒
√
d
n(h(θbn ) − h(θ)) → N (0, H(θ)V (θ)H(θ)> ).
Beweisskizze für skalares θ. Taylorentwicklung von h(θbn ) um θ liefert:
h(θn ) = h(θ) + (θbn − θ)h0 (θ) + o(θbn − θ)2 .
Dabei ist für eine Folge von Zufallsvariablen Xn
Xn = o(an )
P
falls Xn /an → 0 für n → ∞.
Also:
h(θbn ) ≈ h(θ) + (θbn − θ)h0 (θ)
bzw.
√
√
n(h(θbn ) − h(θ)) ≈ n(θbn − θ)h0 (θ)
√
√
d
d
Aus n(θbn − θ) → N (0, V (θ)) folgt dann, dass n(h(θbn ) − h(θ)) → N (0, h0 (θ)2 V (θ)).
40
Asymptotische Cramer-Rao Schranke und asymptotische Effizienz
i.i.d.
Seien X1 , . . . , Xn ∼ f (x|θ) und
∂ 2 log f (x|θ)
i(θ) = −E
∂θ∂θ>
die erwartete Fisher-Information einer Beobachtung Xi . Die Information der gesamten Stichprobe X1 , . . . , Xn ist dann
I(θ) = n · i(θ).
Satz 2.28 (Asymptotische Cramer-Rao Ungleichung). Unter Fisher-Regularität sowie leichten Zusatzannahmen gilt:
1. Aus
2. Aus
√
√
d
n(θbn − θ) → N (0, V (θ)) folgt V (θ) ≥ i−1 (θ).
d
n(h(θbn ) − h(θ)) → N (0, D(θ)) folgt
D(θ) ≥ H(θ)i−1 (θ)H(θ)>
mit ”≥” Löwner-Ordnung (und den Bezeichnungen aus der Delta-Regel, Satz 2.27).
Definition 2.29 (Bester asymptotisch normaler (BAN)-Schätzer). θbn heißt BAN-Schätzer,
falls in 1. oben gilt:
V (θ) = i−1 (θ).
Mit der Delta-Regel folgt unmittelbar:
Satz 2.30 (Transformation von BAN-Schätzern). Ist θbn BAN-Schätzer für θ, so ist h(θbn )
BAN-Schätzer für h(θ).
Bemerkung. Das Konzept der asymptotischen Effizienz lässt sich auf die Matrix-Normierung
übertragen: θb ist BAN-Schätzer für θ genau dann, wenn
d
I 1/2 (θ)(θbn − θ) → N (0, I)
a
bzw. θbn ∼ N (θ, I −1 (θbn )), mit I 1/2 (θ) Wurzel der Fisher-Information I(θ) der Stichprobe
X1 , . . . , Xn . Anstelle der erwarteten kann auch die beobachtete Fisher-Information J (θ) verwendet werden.
2.2
Klassische Testtheorie
Ziel: Finde Test zum Niveau α mit optimaler Güte (Power) für θ ∈ Θ1 . Dabei ist n finit.
41
2.2.1
Problemstellung
• Sei Θ der Parameterraum; die Hypothesen seien
H0 : θ ∈ Θ0
vs. H1 : θ ∈ Θ1 ,
mit Θ0 ∩ Θ1 = ∅, d.h. Θ0 und Θ1 sind disjunkt. Möglicherweise, jedoch nicht notwendigerweise, gilt Θ0 ∪ Θ1 = Θ.
• Eine Nullhypothese heißt einfach, wenn sie aus einem einzelnen Element aus Θ besteht,
d.h. Θ0 = {θ0 }. Ansonsten spricht man von zusammengesetzten Hypothesen. Dabei ist
Folgendes zu beachten: Etliche Nullhypothesen sind scheinbar einfach, aber tatsächlich
zusammengesetzt. Dies ist häufig dann der Fall, wenn Nuisanceparameter auftauchen.
Beispiel: Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) mit µ und σ 2 unbekannt. Die Nullhypothese
H0 : µ = 0 ist eine zusammengesetzte Hypothese, da
Θ = {(µ, σ 2 ) : −∞ < µ ≤ ∞, 0 < σ 2 < ∞}
und
Θ0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < ∞}.
• Ergebnisse/Aktionen:
A0 :
H0 wird nicht abgelehnt
A1 :
H0 wird abgelehnt
• Test zum Niveau α:
Pθ (A1 ) ≤ α,
für alle θ ∈ Θ0
• Testfunktionen (vgl. Abschnitt 1.2.1): Tests werden oft folgendermaßen formuliert:
Wähle eine Teststatistik T (X), eine Stichprobe X und einen kritischen Bereich Cα .
Dann lautet der Test
1 , falls T (x) ∈ Cα
(H0 ablehnen),
φ(x) =
0 , falls T (x) ∈
/ Cα
(H0 nicht ablehnen).
• Für die Testtheorie dieses Abschnitts werden solche Testfunktionen φ(x) ∈ {0, 1} erweitert zu randomisierten Testfunktionen φ(x) ∈ [0, 1]:
1. Für gegebene Daten X = x ist φ(x) ∈ [0, 1].
2. Ziehe eine (davon unabhängige) Bernoullivariable W ∼ Bin(1, φ(x)).
3. Lehne H0 genau dann ab, wenn W = 1.
Interpretation: φ(x) ist die Wahrscheinlichkeit für die Ablehnung von H0 gegeben die
Beobachtung X = x. Im Spezialfall φ(x) ∈ {0, 1} reduziert sich ein randomisierter
Test auf einen üblichen, nicht randomisierten Test. Randomisierte Tests sind (für die
Theorie) vor allem bei diskreten Teststatistiken relevant.
42
Beispiel 2.21 (Randomisierter Binomialtest). Sei X ∼ Bin(10, π) und
1
H0 : π ≤ ,
2
1
H1 : π > .
2
Test: H0 ablehnen ⇔ X ≥ kα , wobei kα so, dass
Pπ (X ≥ kα ) ≤ α
Es ist
1
für π = .
2


0.00098



0.01074
P0.5 (X ≥ k) =

0.05469



. . .
, k = 10
,k = 9
,k = 8
Für α = 0.05 würde die Wahl kα = 8 wegen 0.054 > 0.05 nicht möglich sein. Wählt man
aber kα = 9, so schöpft man α = 0.05 bei weitem nicht aus, d.h. der Test ist sehr konservativ.
Die Lösung ist ein randomisierter Test


, x ∈ {9, 10}
1
φ(x) = 67/75 , x = 8


0
, x ≤ 7,
d.h. ziehe bei x = 8 eine bernoulliverteilte Zufallsvariable mit Wahrscheinlichkeit 67/75.
Wird 1 realisiert, so wird H0 abgelehnt.
Die Randomisierung ist ein künstlicher Vorgang, um das Signifikanzniveau α auszuschöpfen,
d.h.
Pθ (A1 ) = α
für dasjenige θ auf dem Rand zwischen Θ0 und Θ1 zu erreichen. Ein randomisierter Test
besitzt in der Regel folgende Struktur:


, x ∈ B1
1
φ(x) = γ(x) , x ∈ B10


0
, x ∈ B0 .
Der Stichprobenraum wird also in drei Teile zerlegt:
B1 strikter Ablehnungsbereich von H0 , d.h. x ∈ B1 ⇒ Aktion A1 .
B0 strikter Annahmebereich, d.h. x ∈ B0 ⇒ Aktion A0 .
B10 Randomisierungsbereich, d.h. x ∈ B10 führt mit Wahrscheinlichkeit γ(x) zur Ablehnung
und mit Wahrscheinlichkeit 1 − γ(x) zur Annahme von H0 . B10 kann als Indifferenzbereich interpretiert werden.
43
In der Regel wird ein Test mit einer Teststatistik T = T (X) formuliert. Dann haben randomisierte Tests oft die Form:


1, T (x) > c
φ(x) = γ, T (x) = c


0, T (x) < c .
Falls T (X) eine stetige Zufallsvariable ist, gilt P(T (X) = c) = 0, d.h. für stetige T reduziert
sich φ(x) zu
(
1, T (x) ≥ c
φ(x) =
0, T (x) < c .
Bei diskreten Teststatistiken T wie beim exakten Binomialtest ist γ = P(T (X) = c) > 0. Der
Wert c ist an der Entscheidungsgrenze” zwischen A1 und A0 . Dass man die Entscheidung
”
durch eine zufällige Prozedur herbeiführt, stößt in der Praxis auf Bedenken.
Die (frequentistische) Theorie zeigt, dass die Priori-Wahrscheinlichkeit
Z
Pθ (A1 ) =
P(A1 |x) f (x|θ)dx = Eθ [φ(X)], θ ∈ Θ1
X | {z } | {z }
φ(x)
dPθ
bei Randomisierung maximiert werden kann (φ(x) ist die bedingte Wahrscheinlichkeit, a
posteriori, d.h. bei gegebener Stichprobe, für A1 zu entscheiden). Maximal” bezieht sich auf
”
durchschnittliche” Optimalität des Tests bei wiederholter Durchführung.
”
Subjektive Sichtweise: Man wird bei T (x) = c bzw. x ∈ B10 eher noch keine Entscheidung
treffen ( Indifferenzbereich”).
”
Für n → ∞ geht (in der Regel) P(T (X) = c) gegen 0, d.h. für großes n wird der Randomisierungsbereich B10 immer kleiner. Idee: Bei T (x) = c zusätzliche Daten erheben.
Güte, Gütefunktion (power, power function)
Bei einer Testentscheidung gibt es folgende Möglichkeiten:
H0 trifft zu
H1 trifft zu
A0 : H0 beibehalten
richtige Aussage
Fehler 2. Art
A1 : H1 ist signifikant
Fehler 1. Art
richtige Aussage
Es ist φ(x) = P(A1 |x) die bedingte Wahrscheinlichkeit für A1 gegeben die Stichprobe x. Ist
Pθ (A1 ) die unbedingte Wahrscheinlichkeit / Priori-Wahrscheinlichkeit, dann gilt (wie oben)
Z
Z
Pθ (A1 ) =
P(A1 |x)f (x|θ) dx = φ(x)f (x|θ) dx = Eθ [φ(X)]
X
und somit auch Pθ (A0 ) = Eθ (1 − φ(X)) für θ ∈ Θ.
44
Definition 2.31 (Gütefunktion eines Tests φ).
1. Die Abbildung gφ (θ) = Eθ [φ(X)] = Pθ (A1 ), θ ∈ Θ, heißt Gütefunktion des Tests φ.
gφ (θ) = Pθ (A1 )
Wahrscheinlichkeit für Fehler 1. Art, θ ∈ Θ0
1 − gφ (θ) = Pθ (A0 )
Wahrscheinlichkeit für Fehler 2. Art, θ ∈ Θ1
Außerdem:
gφ (θ) = Pθ (A1 )
Macht (power) des Tests, θ ∈ Θ1
2. Die Größe
α(φ) = sup Pθ (A1 ) = sup gφ (θ)
θ∈Θ0
θ∈Θ0
heißt (tatsächliches) Niveau (level, size) von φ und ist die supremale Wahrscheinlichkeit
für den Fehler 1. Art.
β(φ) = sup Pθ (A0 ) = 1 − inf gφ (θ)
θ∈Θ1
θ∈Θ1
ist die supremale Wahrscheinlichkeit für den Fehler 2. Art.
• Bei den üblichen” Tests gilt wegen der Monotonie und Stetigkeit von gφ (θ)
”
α(φ) + β(φ) = 1,
d.h. α(φ) kann nur auf Kosten von β(φ) klein gehalten werden (und umgekehrt).
Allgemein gilt dagegen nur
α(φ) + β(φ) ≥ 1,
zum Beispiel beim einseitigen Gauß-Test.
• Programm der klassischen Testtheorie: Maximiere unter Beschränkung
gφ (θ) ≤ α für alle θ ∈ Θ0
bei fest vorgegebenem α > 0 die Güte für θ ∈ Θ1 , d.h.
gφ (θ) ≥ max gφe(θ)
für θ ∈ Θ1
e
φ
e H0 und H1 werden also unsymmetrisch betrachtet.
bei konkurrierenden” Tests φ.
”
• Wegen der Beziehung α(φ) + β(φ) = 1 muss dabei das vorgegebene Signifikanzniveau α
ausgeschöpft werden, d.h.
α(φ) = α
gelten. Bei α(φ) < α wird automatisch
β(φ) = 1 − inf gθ (φ)
θ∈Θ1
für θ ∈ Θ1 größer als notwendig, d.h. die Güte des Tests schlechter.
45
• Folgende Problemstellungen werden nach diesem Konzept betrachtet:
1. Einfaches H0 vs. einfaches H1 : Neyman-Pearson-Theorem zeigt, wie bester Test
zu konstruieren ist.
2. Einfaches H0 vs. zusammengesetztes H1 : Basierend auf dem Neyman-PearsonTheorem kann für bestimmte Fälle ein gleichmäßig bester Test” (UMP, uniformly
”
most powerful test) konstruiert werden. In anderen Fällen existiert — zumindest
ohne weitere Restriktionen — kein UMP-Test.
3. Zusammengesetztes H0 vs. zusammengesetztes H1 : Suche nach einem UMP-Test
ist noch schwieriger.
2.2.2
Satz von Neyman-Pearson
Problemstellung: Einfache Nullhypothese vs. einfache Alternativhypothese, also
H0 : θ = θ0 ,
vs. H1 : θ = θ1
mit θ0 6= θ1 . Sei f0 (x) = f (x|θ0 ), f1 (x) = f (x|θ1 ). Dann heißt
Λ(x) =
f1 (x)
f0 (x)
Likelihood-Quotient. Ein (bester) Test hat nach Neyman-Pearson die Form:
H0 ablehnen ⇔ Λ(x) > kα
mit kα so gewählt, dass der Test das Niveau α einhält. Aber: Falls Λ(x) diskret ist, gibt es
ein theoretisches Problem. Dies führt zu
Definition 2.32 (Randomisierter LQ-Test). Ein Test φ∗ (x) heißt randomisierter Likelihooddef
Quotienten-Test, kurz LQ-Test (likelihood ratio test, LRT) ⇔ φ∗ (x) hat die Struktur


, f1 (x) > kf0 (x) ⇔ Λ(x) > k
1
∗
φ (x) = γ(x) , f1 (x) = kf0 (x) ⇔ Λ(x) = k


0
, f1 (x) < kf0 (x) ⇔ Λ(x) < k
mit Konstante k > 0 und 0 < γ(x) < 1. Falls Λ(X) stetig ist, gilt Pθ (Λ(X) = k) = 0. Dann
reicht ein nicht-randomisierter Test
(
1, f1 (x) > kf0 (x) ⇔ Λ(x) > k
φ∗ (x) =
0, sonst.
Satz 2.33 (Neyman-Pearson, Fundamentallemma).
1. Optimalität: Für jedes k und γ(x) hat der Test φ∗ maximale Macht unter allen Tests,
deren Niveau höchstens gleich dem Niveau von φ∗ ist.
2. Existenz: Zu vorgegebenem α ∈ (0, 1) existieren Konstanten k ∗ und γ ∗ , so dass der
LQ-Test φ∗ mit diesem k ∗ und γ(x) = γ ∗ für alle x exakt das Niveau α besitzt.
46
3. Eindeutigkeit: Falls ein Test φ mit Niveau α maximale Macht (= kleinsten Fehler 2. Art)
unter allen anderen Tests mit Niveau α besitzt, dann ist φ ein LQ-Test (eventuell mit
Ausnahme einer Nullmenge X0 ⊂ X von Stichproben x, d.h. Pθ0 (X0 ) = Pθ1 (X0 ) = 0).
Beweis.
1. Sei φ ein Test mit
Eθ0 [φ(X)] ≤ Eθ0 [φ∗ (X)]
(2.2)
und
U (x) = (φ∗ (x) − φ(x))(f1 (x) − kf0 (x)).
– Für
f1 (x) − kf0 (x) > 0
ist
φ∗ (x) = 1, also U (x) ≥ 0.
– Für
f1 (x) − kf0 (x) < 0
ist
φ∗ (x) = 0, also U (x) ≥ 0.
– Für
f1 (x) = kf0 (x) = 0
ist
U (x) = 0.
Also: U (x) ≥ 0 für alle x. Somit:
Z
0 ≤
U (x)dx
Z
=
(φ∗ (x) − φ(x))(f1 (x) − kf0 (x)) dx
Z
Z
Z
Z
∗
∗
=
φ (x)f1 (x) dx − φ(x)f1 (x) dx + k
φ(x)f0 (x) dx − φ (x)f0 (x) dx
= Eθ1 [φ∗ (X)] − Eθ1 [φ(X)] + k(Eθ0 [φ(X)] − Eθ0 [φ∗ (X)])
|
{z
}
≤0 wegen (2.2)
⇒ Eθ1 [φ∗ (X)] ≥ Eθ1 [φ(X)], d.h. die Macht von φ∗ ist größer als die Macht von φ.
2. Die Verteilungsfunktion G(k) = Pθ0 (Λ(x) ≤ k) ist monoton steigend in k. Sie ist ferner
rechtsstetig, d.h.
G(k) = lim G(y) für alle k.
y↓k
Betrachtet man die Gleichung
G(k ∗ ) = 1 − α
und versucht diese bezüglich k ∗ zu lösen, so gibt es zwei Möglichkeiten:
(i) Entweder ein solches k ∗ existiert,
(ii) oder die Gleichung kann nicht exakt gelöst werden, aber es existiert ein k ∗ , so dass
G− (k ∗ ) = Pθ0 (Λ(X) < k ∗ ) ≤ 1 − α < G(k ∗ )
(das entspricht der Niveaubedingung”).
”
Im ersten Fall setzt man γ ∗ = 0, im zweiten
γ∗ =
G(k ∗ ) − (1 − α)
.
G(k ∗ ) − G− (k ∗ )
47
In diesem Fall hat der Test genau das Niveau α, wie behauptet, denn:
f1 (X)
G(k ∗ ) − 1 + α
f1 (X)
∗
∗
Eθ0 [φ(X)] = Pθ0
>k +
Pθ
=k
f0 (X)
G(k ∗ ) − G− (k ∗ ) 0 f0 (X)
G(k ∗ ) − 1 + α
= (1 − G(k ∗ )) +
(G(k ∗ ) − G− (k ∗ ))
G(k ∗ ) − G− (k ∗ )
= α.
3. Sei φ∗ der LQ-Test definiert durch eine Konstante k und eine Funktion γ(x) und man
nehme an, φ ist ein anderer Test mit gleichem Niveau α und der gleichen
Macht wie φ∗ .
R
Definiert man U (x) wie in 1., dann ist U (x) ≥ 0 für alle x und U (x) dx = 0, da
Eθ1 [φ∗ (X)] − Eθ1 [φ(X)] = 0 und Eθ0 [φ∗ (X)] − Eθ0 [φ(X)] = 0 nach Annahme. Daraus,
dass U nicht-negativ mit Integral 0 ist, folgt, dass U (x) = 0 für fast alle x. Dies wiederum
bedeutet, dass φ(x) = φ∗ (x) oder f1 (x) = kf0 (x), d.h. φ(x) ist ein LQ-Test.
Bemerkung. Für einfache Hypothesen H0 und H1 sind klassische Testtheorie und LikelihoodQuotienten-Test noch identisch. Für zusammengesetzte Hypothesen (der Praxisfall) trennen
sich die Konzepte:
• Klassische Testtheorie sucht weiter nach optimalen Tests (für finite Stichproben).
• Likelihoodbasierte Tests verallgemeinern Λ(x) bzw. sind quadratische Approximationen
von Λ(x), deren Verteilungsfunktion (unter H0 ) nur asymptotisch (n → ∞) gilt.
Beispiel 2.22 (Binomialtest). Betrachte
H0 : π = π0
vs.
H1 : π = π1
mit 0 < π0 < π1 < 1. Die Dichte (Wahrscheinlichkeitsfunktion) der i.i.d. Stichprobe
X = (X1 , . . . , Xn )> lautet
f (x|π) = π z (1 − π)n−z
mit
z=
n
X
xi ,
i=1
der Likelihood-Quotient
π z (1 − π1 )n−z
Λ(x) = 1z
=
π0 (1 − π0 )n−z
1 − π1
1 − π0
n π1 (1 − π0 ) z
·
:= Λ(z).
π0 (1 − π1 )
Da Λ(x) = Λ(z) streng monoton in z ist, lässt sich Λ(z) > k äquivalent umformen in
z > Λ−1 (k) =: c. Der Likelihood-Quotienten-Test φ∗ mit kritischer Zahl k und (konstanter) Randomisierung γ ∗ hat dann die Form


, Z = Z(x) > c
1
∗
∗
φ (x) = γ
, Z = Z(x) = c


0
, Z = Z(x) < c
mit der Teststatistik” Z. Dabei können wir uns (wegen des Wertebereichs von Z) auf
”
c ∈ {0, 1, . . . , n} beschränken. γ ∗ ist aus der Niveaubedingung
!
Pπ0 (Z > c) + γ ∗ Pπ0 (Z = c) = α
zu bestimmen. Der Test φ∗ hängt von π0 ab, jedoch nicht von π1 !
48
Bemerkung. Falls H1 wahr ist, dann bestimmt π1 die Wahrscheinlichkeit für den reali”
sierten” Fehler 2. Art Pπ1 (A0 ). Je weiter π1 von π0 entfernt ist, umso kleiner ist die Wahrscheinlichkeit für den Fehler 2. Art und umso größer ist die Power an der Stelle π = π1 .
2.2.3
Gleichmäßig beste Tests
Definition 2.34 (Gleichmäßig bester (UMP, uniformly most powerful) Test). Ein Niveaudef
α-Test φ∗ heißt gleichmäßig bester oder UMP Test zum Niveau α ⇔
1. Eθ [φ∗ (X)] ≤ α für alle θ ∈ Θ0 .
2. Für jeden anderen Niveau-α-Test φ mit Eθ [φ(X)] ≤ α für alle θ ∈ Θ0 gilt:
Eθ [φ∗ (X)] ≥ Eθ [φ(X)] für alle θ ∈ Θ1 .
Bemerkung. Der Begriff gleichmäßig” in obiger Definition bezieht sich auf die Gleichmäßig”
keit der Eigenschaft gφ∗ ≥ gφ auf Θ1 für jeden anderen Test φ.
Beste einseitige Tests bei skalarem θ
In Beispiel 2.22 (Binomialtest für einfache Hypothesen) hing die Power nicht vom speziellen
π1 (≡ H1 ) > π0 (≡ H0 ) ab. Daraus folgt, dass φ∗ für alle π1 > π0 besser ist als ein anderer
Test φ. Entscheidend dafür ist, dass der Dichte- bzw. Likelihood-Quotient monoton in z ist.
Dies gilt allgemeiner und führt zu folgender Definition.
Definition 2.35 (Verteilungen mit monotonem Dichtequotienten). Die Verteilungsfamilie
{f (x|θ), θ ∈ Θ ⊆ R} mit skalarem Parameter θ besitzt monotonen Dichte- bzw. Likelihooddef
Quotienten (kurz: MLQ) ⇔ es existiert eine Statistik T , so dass
Λ(x) =
f (x|θ1 )
f (x|θ0 )
monoton wachsend in T (x) für je zwei θ0 , θ1 ∈ Θ mit θ0 ≤ θ1 ist.
49
Bemerkung.
1. Monoton wachsend ist keine echte Einschränkung; ist Te(x) monoton fallend, so definiert man T (x) = −Te(x).
2. Jede einparametrische Exponentialfamilie in T (x) und γ(θ) besitzt monotonen Dichtequotienten, wenn γ(θ) monoton in θ ist. Letzteres gilt für die natürliche Parametrisierung γ(θ) = θ.
Satz 2.36 (UMP-Test bei MLQ). Gegeben sei Pθ = {f (x|θ) : θ ∈ Θ ⊆ R} mit MLQ in T (x)
und die Hypothesen
H0 : θ ≤ θ0 vs. H1 : θ > θ0 .
1. Existenz: Es gibt einen UMP-Test φ∗ zum Niveau α, nämlich


1, T (x) > c
∗
φ (x) = γ, T (x) = c


0, T (x) < c.
Dabei sind c und γ eindeutig bestimmt durch die Niveaubedingung
Pθ0 (T (X) > c) + γPθ0 (T (X) = c) = α.
2. Die Gütefunktion gφ∗ (θ) ist monoton wachsend in θ und sogar streng monoton wachsend
für alle θ mit 0 < gφ∗ (θ) < 1. Die maximale Wahrscheinlichkeit für den Fehler 1. Art
ist gφ∗ (θ0 ) = α.
3. φ∗ besitzt auch gleichmäßig minimale Wahrscheinlichkeiten für den Fehler 2. Art unter
allen Tests φ für H0 vs. H1 mit gφ (θ0 ) = α.
4. φ∗ ist (mit Wahrscheinlichkeit 1) eindeutig bestimmt.
Bemerkung. Es gilt weiterhin: Ist φ∗ der beste Test für das einfache Alternativproblem
H0 : θ = θ0
vs.
H1 : θ = θ1 ,
so ist φ∗ auch der UMP-Test zum Niveau α für zusammengesetzte Hypothesen
H0 : θ ∈ Θ0
vs.
H1 : θ ∈ Θ1 ,
wenn φ∗ nicht von dem speziellen Wert θ1 ∈ H1 abhängt und für alle θ ∈ H0 das Niveau α
einhält.
Beispiel 2.23.
1. Binomialtest mit H0 : π ≤ π0 gegen H1 : π > π0 hat MLQ in Z(x) = ”Anzahl der Erfolge”
(vgl. obiges Beispiel und Bemerkung). Der Binomialtest ist also UMP-Test.
2. Gleichverteilung
3. Gauß-Test
50
4. Exponentialverteilung
5. Poissonverteilung
Bemerkung. Oft existiert zwar kein UMP-Test, jedoch ein lokal bester (einseitiger) Test:
def
φlok heißt lokal bester Niveau α-Test ⇔
0
gφlok (θ0 ) =
d
d
gφlok (θ0 ) ≥
gφ (θ0 ),
dθ
dθ
wobei gφlok (θ0 ) = gφ (θ0 ) = α gilt.
Beste unverfälschte zweiseitige Tests bei skalarem θ
Für zweiseitige Testprobleme der Form
H0 : θ = θ 0
vs. H1 : θ 6= θ0
gibt es in der Regel keinen UMP-Test, insbesondere auch dann nicht, wenn MLQ vorliegt.
Deshalb wird eine Restriktion auf eine kleinere Klasse von konkurrierenden Tests notwendig.
Definition 2.37 (Unverfälschter Niveau-α-Test). Ein Test φ für H0 vs. H1 heißt unverfälschdef
ter (unbiased) Niveau-α-Test ⇔
gφ (θ) ≤ α für alle θ ∈ Θ0 ,
gφ (θ) ≥ α für alle θ ∈ Θ1 .
Satz 2.38 (Zweiseitige UMPU (uniformly most powerful unbiased) Tests). Sei
f (x|θ) = c(θ) exp(θT (x))h(x)
eine einparametrische Exponentialfamilie mit natürlichem Parameter θ ∈ Θ (Θ sei ein offenes
Intervall) und Statistik T (x). Dann ist


1 , T (x) < c1





γ1 , T (x) = c1
∗
φ (x) = 0 , c1 < T (x) < c2



γ2 , T (x) = c2




1 , T (x) > c2
ein UMPU-Test zum Niveau α unter allen unverfälschten Tests φ zum Niveau α. Dabei werden c1 , c2 , γ1 , γ2 aus
Eθ0 [φ∗ (X)] = α,
Eθ0 [φ∗ (X)T (X)] = αEθ0 [T (X)]
bestimmt.
Beispiel 2.24.
1. Zweiseitiger Binomial-Test
H0 : π = π0
ist UMPU-Test.
51
vs.
H1 : π 6= π0
i.i.d.
∼ N (µ, σ 2 ), σ 2 bekannt, ist für
2. Zweiseitiger Gauß-Test mit X1 , . . . , Xn
H0 : µ = µ0
vs.
H1 : µ 6= µ0
UMPU-Test.
i.i.d.
3. Zweiseitiger Poisson-Test: Bei X1 , . . . , Xn ∼ Po(λ)
H0 : λ = λ0
vs.
H1 : λ 6= λ0
liegt eine einparametrische Exponentialfamilie mit natürlichem Parameter θ = log λ vor.
Äquivalente Hypothesen in θ sind
H0 : θ = θ0
vs.
H1 : θ 6= θ0 .
Bestimmung der Prüfgröße:
f (xi |θ) = h(xi )c(θ) exp (θxi )
n
X
xi
f (x|θ) = f (x1 |θ) · . . . · f (xn |θ) ∝ exp θ
|i=1
{z }
T (x)
und somit


1




γ1

∗
φ (x) = 0



γ2




1
,
,
,
,
,
Pn
xi < c1
Pi=1
n
i=1 xi = c1
P
c1 < ni=1 xi < c2
Pn
xi = c2
Pi=1
n
i=1 xi > c2 .
i.i.d.
4. Zweiseitiger χ2 -Test auf die Varianz: Seien X1 , . . . , Xn ∼ N (µ, σ 2 ), µ bekannt. Getestet wird
H0 : σ 2 = σ02 vs. H1 : σ 2 6= σ02 .
Mehrparametrische Verteilungsannahme
• Bislang: θ skalar.
⇒ θ = (µ, σ 2 ) ist bei N (µ, σ 2 ) Verteilung nicht in der Theorie optimaler Tests enthalten.
⇒ t-Test auf µ (bei unbekanntem σ 2 ) und andere sind nicht erfasst.
• Idee: Optimale” Tests lassen sich (noch) für eine skalare Komponente η von
”
θ = (η, ξ), wobei ξ mehrdimensional sein darf, konstruieren. ξ ist als Stör-/Nuisanceparameter zu betrachten.
• Voraussetzung an Verteilungsfamilie: {f (x|θ), θ ∈ Θ ⊆ Rk } ist eine (strikt)
k-parameterische Exponentialfamilie mit natürlichem Parameter θ = (η, ξ) und
T = (U, V ), U skalar. Dies führt auf die Theorie bedingter Tests.
52
• Passend zum Beispiel für
– t-Test: Vergleich von µ1 , µ2 bei unabhängigen Stichproben nur, falls σ12 = σ22 = σ 2
ist.
– Test auf Signifikanz von β1 in linearer Einfachregression.
• Bereits nicht mehr anwendbar für
– Vergleich von µ1 , µ2 bei σ12 6= σ22 (Behrens-Fisher-Problem).
– Test auf Signifikanz von β1 im Logit- oder Poisson-Regressionsmodell.
⇒ (asymptotische) Likelihood-Theorie, Bayes-Inferenz.
2.3
2.3.1
Bereichsschätzungen und Konfidenzintervalle
Definition und Beurteilung der Güte
Definition 2.39 (Bereichsschätzung). Eine Bereichsschätzung (ein Konfidenzbereich) C
für τ (θ) zum (vorgegebenen) Vertrauensgrad ( Konfidenzniveau) 1 − α ist eine Abbildung des
Stichprobenraums X in die σ-Algebra Lm des Rm , also x → C(x)(⊆ Rm ) ∈ Lm , mit
Pθ (τ (θ) ∈ C(X)) ≥ 1 − α für alle θ.
Dabei sei τ (θ) m-dimensionaler Parameter.
C(X) ist ein zufälliger Bereich im Rm . Nach Beobachtung der Stichprobe X = x ist C(x)
gegeben. Der Aussage
!
τ (θ) ∈ C(x) (richtig oder falsch)
wird der Vertrauensgrad 1 − α zugeordnet. Dabei gilt die bekannte Häufigkeitsinterpretation. Ist C(x) für jedes x ein Intervall, so heißt C(x) Konfidenzintervall und C eine Intervallschätzung.
Eine Wahrscheinlichkeitsaussage zu
τ (θ) ∈ C(x)
bei gegebenem x ist im Rahmen der Bayes-Inferenz (ohne logische Probleme) möglich.
Die Präzision” von C(X) wird gemessen durch die erwartete Größe des Bereichs bzw. durch
”
die Länge des Konfidenzintervalls.
i.i.d.
Beispiel 2.25. Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) und
α S α S
√ , X̄ + tn−1
√
C(X) = X̄ − tn−1
2
2
n
n
ein Konfidenzintervall für µ. Die Länge
L = 2 tn−1
α S
√
2
n
53
von C(X) ist zufällig mit Erwartungswert
α σ r 2
α 1
Γ(n/2)
√ E(S) = 2 tn−1
√
E(L) = 2 tn−1
.
2
2
n
n n − 1 Γ((n − 1)/2)
Es gilt:
1 − α größer
→
E(L) größer,
n größer
→
E(L) kleiner.
Bei der Beurteilung der Präzision eines Konfidenzintervalls durch die Länge ist ein Konfidenzintervall umso besser, je kürzer seine erwartete Länge ist. Allgemein wird ein Konfidenzbereich C durch die mittlere Größe” beurteilt. Dazu sei π eine Verteilung (oder ein
”
Maß) auf Θ. Dann ist
π(C(x))
die Größe von C(x). Bei Konfidenzintervallen ergibt sich die Länge, wenn π das Lebesgue-Maß
ist. Dann ist
Eθ (π(C(X)))
die zu erwartende Größe. Zur Beurteilung der Güte reicht die erwartete Länge bzw. Größe
allein nicht aus.
Definition 2.40 (Kennfunktion eines Konfidenzbereichs). Eine Kennfunktion ist definiert
als eine Funktion
0
0
kC (θ, θ ) := Pθ (C(x) 3 τ (θ )).
Dabei ist θ der wahre” Wert und θ0 irgendein Wert in Θ.
”
0
0
Für θ = θ ist C(x) 3 τ (θ )” eine Aussage, deren Wahrscheinlichkeit möglichst groß sein
0”
0
0
soll. Für θ 6= θ mit τ (θ ) 6= τ (θ) ist C(x) 3 τ (θ )” eine Aussage, deren Wahrscheinlichkeit
”
möglichst klein gehalten werden soll.
Im Weiteren betrachten wir den Spezialfall τ (θ) = θ mit skalarem θ. Dann ist
0
0
kC (θ, θ ) = Pθ (C(x) 3 θ ).
Definition 2.41.
def
1. Ein Konfidenzintervall besitzt den Vertrauensgrad 1 − α : ⇔
0
kC (θ, θ0 ) ≥ 1 − α für alle θ = θ.
def
2. Ein Konfidenzintervall zum Vertrauensgrad 1 − α heißt unverfälscht : ⇔
0
kC (θ, θ0 ) ≤ 1 − α für θ 6= θ.
3. Ein Konfidenzbereich C0 zum Vertrauensgrad 1 − α heißt gleichmäßig bester (trenndef
0
scharfer) [bzw. gleichmäßig bester unverfälschter] Konfidenzbereich : ⇔ für alle θ 6= θ
und alle [unverfälschten] Konfidenzbereiche C zum Vertrauensgrad 1 − α gilt
0
0
kC0 (θ, θ ) ≤ kC (θ, θ ).
54
Lemma 2.42. Jeder gleichmäßig beste Konfidenzbereich besitzt auch die kleinste zu erwartende Größe (aber nicht umgekehrt).
Beweis.
Z Z
Z
0
0
IC(x) (θ )dπ(θ )dPθ (x)
π(C(x))dPθ (x) =
X Θ
X
Z Z
0
0
IC(x) (θ )dPθ (x)dπ(θ )
=
(Fubini)
X Θ
Z
=
Θ
0
kC (θ,θ0 )
Für jedes wahre” θ gilt also
”
Z
π(C(x))dPθ (x) =
Z
2.3.2
0
0
kC (θ, θ )dπ(θ )
X
|
0
Pθ ({x : C(x) 3 θ }) dπ(θ ).
|
{z
}
.
Θ
{z
erwartete Größe
}
|
{z
}
erwarteter Wert der Kennfunktion des Konfidenzbereichs
Dualität zwischen Konfidenzbereichen und Tests
Wir legen den oben beschriebenen Spezialfall τ (θ) = θ mit skalarem θ zugrunde.
Zu jedem festen θ betrachten wir einen Niveau-α-Test φθ (x) für die Nullhypothese H0 = {θ}
gegen die Alternative H1 = Θ\H0 . Die Tests sollen nicht randomisiert sein, so dass sie durch
die Festlegung einer Prüfgröße Tθ = Tθ (x) und eines kritischen Bereichs (Ablehnbereichs) Kθ
bestimmt werden:
(
1 für Tθ (x) ∈ Kθ ,
φθ (x) =
0 sonst.
Die Nullhypothese Der unbekannte Parameter hat den Wert θ” wird nach Beobachtung
”
von X = x genau dann nicht abgelehnt — durch die Beobachtung bestätigt” — wenn
”
Tθ (x) ∈ K̄θ = Annahmebereich des Tests φθ
gilt. Daher ist es naheliegend, als einen Konfidenzbereich nach der Beobachtung X = x den
Bereich
C(x) := {θ ∈ Θ : Tθ (x) ∈ K̄θ }
zu definieren; dem entspricht vor der Beobachtung der zufällige Bereich
C(X) = {θ ∈ Θ : Tθ (X) ∈ K̄θ }
bzw.
C(X) = {θ ∈ Θ : φθ (X) = 0}
Eine Bestätigung dieser Vorgangsweise ist der folgende Satz.
55
Satz 2.43 (Korrespondenzsatz).
1. Ist {φθ } eine Menge von Tests φθ für H0 = {θ} gegen H1 = Θ\{θ} zum Niveau α, so
ist C(X) := {θ ∈ Θ : φθ (X) = 0} ein Konfidenzbereich zum Vertrauensgrad γ = 1 − α.
2. Ist {φθ } eine Menge gleichmäßig bester [unverfälschter] Tests, so ist auch C(X) ein
gleichmäßig bester [unverfälschter] Konfidenzbereich.
Beweis. Der Beweis zu 1. ergibt sich aus
Pθ (C(X) 3 θ) = Pθ (φθ (X) = 0) = 1 − α für alle θ ∈ Θ,
derjenige für 2. aus der Beziehung
0
0
kC (θ, θ ) = Pθ (C(X) 3 θ ) = Pθ (φθ0 (X) = 0)
= 1 − Pθ (φθ0 (X) = 1) = 1 − gφ 0 (θ)
θ
0
für alle θ, θ ∈ Θ. Dabei bezeichnet gφ
θ
0
die Gütefunktion des Tests φθ0 .
Der Korrespondenzsatz lässt sich verallgemeinern auf die Situation, in der man gegenüber
bestimmten Fehlschätzungen besonders empfindlich ist; man hat dazu eine Testfamilie solcher
Tests zugrunde zu legen, die die entsprechenden Hypothesen testen, also nicht mehr Tests mit
zweiseitiger Fragestellung. Darüber hinaus gilt der im Korrespondenzsatz enthaltene Zusammenhang zwischen Tests und einem Konfidenzbereich auch dann, wenn randomisierte Tests
zugelassen werden, so dass man auf diese Weise zu einem randomisierten Konfidenzbereich
kommt: C(x) ist die Menge aller θ, die bei der Beobachtung x von dem Test φθ (auch nach
Randomisierung) nicht abgelehnt werden.
Auf diese Weise lässt sich die Theorie der Bereichsschätzungen auf die Testtheorie zurückführen bis auf das folgende Problem: Damit ein vernünftiger” Konfidenzbereich (vernünftig
”
im topologischen Sinn, also zum Beispiel ein Konfidenzintervall) aus der Testfamilie konstruierbar ist, muss die Testfunktion φθ (x), besser noch die Prüfgröße Tθ (x) als Funktion in
θ (für jedes feste θ) gutartig” sein (im Idealfall monoton in θ); außerdem darf die Vertei”
lung von Tθ (X) nicht von θ abhängen, zusammen bedeutet dies: Tθ (X) muss eine Pivotgröße
sein, die auf einfache” (zum Beispiel monotone) Weise von θ abhängt: Gesucht sind einfach
”
strukturierte Pivotgrößen.
2.4
Multiples Testen
Literatur:
• Lehmann & Romano, Kapitel 9
• Dudoit, Shaffer & Boldrick (2003): Multiple Hypothesis Testing in Microarray Experiments, Statistical Science (18), Seiten 71-103
Problem: Eine endliche Menge von (Null-) Hypothesen H1 , ..., Hm soll mit Hilfe eines Datensatzes simultan getestet werden.
56
Beispiele:
• Varianzanalyse: Vergleich mehrerer Behandlungsarten mit Kontrolle (zum Beispiel
Placebo oder übliche” Therapie). Ein simultaner Test der Form
”
H0 : θ1 = . . . = θm = 0
vs. Halter : wenigstens ein θj 6= 0
ist oft nicht ausreichend: Wenn H0 abgelehnt wird, möchte man wissen, welche
θj ’s signifikant von 0 verschieden sind. Hierzu können (simultan) die einzelnen
Hypothesen
Hj := H0j : θj = 0
für j = 1, . . . , m getestet werden. In der Regel ist m vergleichsweise klein; es
können klassische” multiple Testverfahren verwendet werden.
”
• Microarray-Experimente: Seien X1 , . . . , Xm (normalisierte log-) Expressionen von
a
Genen 1, . . . , m auf Microarrays, Xj ∼ N (µj , σj ) für j = 1, . . . , m und m von
der Größenordnung 1000 bis 10000. Es soll untersucht werden, welche Gene signifikanten Einfluss auf einen Phänotyp, zum Beispiel eine bestimmte Krankheit,
haben. In einem naiven Ansatz könnte dies wie oben durch simultane Tests untersucht werden. Wenn m und die Anzahl m0 richtiger Hypothesen jedoch groß ist,
werden mit hoher Wahrscheinlichkeit eine oder mehr Hypothesen fälschlicherweise
abgelehnt. Für unabhängige Teststatistiken T1 , . . . , Tm gilt zum Beispiel folgende
Tabelle.
m
P(mindestens eine falsche Ablehnung)
1
0.05
2
0.10
5
0.23
10
0.40
50
0.92
Es werden neue” multiple Testverfahren gesucht, um Fehlerraten zu kontrollieren.
”
2.4.1
Fehlerraten
Die Situation bei m vorgegebenen Hypothesen kann wie folgt beschrieben werden:
Anzahl richtiger
Nullhypothesen
Anzahl falscher
Nullhypothesen
Anzahl nicht abgelehnter Nullhypothesen
Anzahl abgelehnter Nullhypothesen
U
T
m−R
V
S
R
Dabei sind
• m0 die (unbekannte) Anzahl richtiger Nullhypothesen,
• m1 = m − m0 die (unbekannte) Anzahl falscher Nullhypothesen,
• R eine beobachtbare Zufallsvariable,
• S, T, U, V unbeobachtbare Zufallsvariablen (ruft nach Bayes!).
57
m0
m1
In der Microarray-Analyse bedeutet das Ablehnen von Hj , dass das Gen j differentiell ex”
primiert” ist.
Idealerweise: Minimiere
• Anzahl V von Fehlern 1. Art (falsch positiv),
• Anzahl T von Fehlern 2. Art (falsch negativ).
Klassische Testtheorie (m = 1):
P(Fehler 1. Art)
≤
α
P(Fehler 2. Art) → min
Verschiedene Verallgemeinerungen zur Kontrolle der Fehlerraten sind bei multiplem Testen
möglich.
Fehlerraten 1. Art (type I error rates)
• PCER (per-comparison error rate):
PCER =
E(V )
m
Das ist die relative Anzahl erwarteter Fehler 1. Art.
• PFER (per-family error rate):
PFER = E(V )
Das ist die absolute Anzahl erwarteter Fehler 1. Art.
• FWER (family-wise error rate):
FWER = P(V ≥ 1)
Das ist die Wahrscheinlichkeit für mindestens einen Fehler 1. Art.
• FDR (false discovery rate; Benjamini & Hochberg, 1995):
(
V
für R > 0,
FDR = E(Q)
mit
Q= R
0 für R = 0.
Das ist die erwartete relative Häufigkeit von Fehlern 1. Art unter den R abgelehnten
Hypothesen.
Starke und schwache Kontrolle
Typischerweise gilt: Für eine unbekannte Teilmenge
Λ0 ⊆ {1, . . . , m}
58
sind die Hypothesen Hj , j ∈ Λ0 , richtig, für den Rest falsch. Starke Kontrolle liegt vor, wenn
eine Fehlerrate für jede Teilmenge Λ0 nach oben durch α beschränkt wird, zum Beispiel
FWER ≤ α
gilt. Schwache Kontrolle liegt vor, wenn alle Nullhypothesen richtig sind.
Klassische Ansätze (zum Beispiel Bonferroni- und Holm-Prozedur, siehe folgender Abschnitt)
kontrollieren stark. Der FDR-Ansatz von Benjamini und Hochberg kontrolliert die FDR
schwach und ist (deshalb) weniger konservativ.
2.4.2
Multiple Testprozeduren
Bonferroni-Prozedur
Lehne für j = 1, . . . , m die Hypothesen Hj ab, falls für den p-Wert gilt: pj ≤
FWER ≤ α
d.h.
α
m.
Es gilt:
stark,


\
P V ≥ 1 Hj  ≤ α.
j∈Λ0
Nachteil: Das Niveau α/m der individuellen Tests wird bei großem m und üblichem α extrem klein. Bei Microarrays bleiben relevante Gene deshalb mit hoher Wahrscheinlichkeit
unentdeckt.
Holm-Prozedur
Ordne die p-Werte pj , j = 1, . . . , m, der individuellen Tests H1 , . . . , Hm der Größe nach an.
Dann ist
p(1) ≤ . . . ≤ p(m)
mit den entsprechend sortierten Hypothesen H(1) , . . . , H(m) . Als nächstes erfolgt schrittweise
folgende Prozedur:
Schritt 1. Falls p(1) ≥
α
m,
α
m,
Falls p(1) <
α
Niveau m−1
.
akzeptiere H1 , . . . , Hm .
lehne H(1) ab und teste die verbleibenden m − 1 Hypothesen zum
α
α
m , aber p(2) ≥ m−1 , akzeptiere H(2) , . . . , H(m)
α
α
Falls p(1) < m
und p(2) < m−1
, lehne nach H(1) auch
α
verbleibenden m − 2 Hypothesen zum Niveau m−2
.
Schritt 2. Falls p(1) <
Schritt 3. usw.
59
und stoppe.
H(2) ab und teste die
Es gilt:
FWER ≤ α
stark.
Die Holm-Prozedur ist eine spezielle Form folgender Step-Down-Prozeduren:
Step-Down-Prozeduren
Allgemeine Struktur: Sei
α1 ≤ α2 ≤ . . . ≤ αm .
Falls p(1) ≥ α1 , akzeptiere alle Hypothesen. Sonst lehne für r = 1, . . . , s die Hypothesen
H(1) , . . . , H(r) ab, falls
p1 < α1 , . . . , pr < αr .
Eine Alternative sind:
Step-Up-Prozeduren
Falls p(m) < αm , verwerfe alle Hypothesen. Sonst lehne für r = 1, . . . , s die Hypothesen
H(1) , . . . , H(r) ab, falls
p(s) ≥ αs , . . . , p(r+1) ≥ αr+1 ,
aber p(r) < αr .
Bemerkung.
• Aussagen über starke Kontrolle finden sich zum Beispiel in Lehmann & Romano.
• Für m ∼ 100, 1000 und größer: Immer noch Ablehnung fast aller Hypothesen. Benjamini
& Hochberg (1995) raten, die false discovery rate FDR zu kontrollieren. Untersuchung
der Eigenschaften ist Gegensatz aktueller Forschung.
• Die diversen Prozeduren lassen sich teils günstig mit Hilfe von adjustierten p-Werten pej
formulieren, siehe Dudoit, Shaffer & Boldrick (2003).
• Resampling Methoden (Bootstrap, Permutationen, ...) sind notwendig, um (adjustierte)
p-Werte zu berechnen.
• Software: R-Package multtest, www.bioconductor.org.
60
Herunterladen