3 Exponentielle Familien - Ruhr

Werbung
3
Exponentielle Familien
In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei
denen u.a. in der Cramér-Rao-Ungleichung das Gleichheitszeichen gelten muss. Dazu
betrachten wir die Situation aus Satz 2.38 (d.h. Θ ⊂ R) und nehmen an, dass die
Regularitätsvorausstzungen erfüllt sind. Grundlegend für den Beweis der Informationsungleichung von Cramér-Rao ist die Cauchy-Schwarz-Ungleichung
o2
n
∂
∂
log fθ (X) ≤ Varθ (T (X)) Varθ
log fθ (X) .
Covθ (T (X),
∂θ
∂θ
In dieser gilt das Gleichheitszeichen, falls für jedes θ ∈ Θ Konstanten a1 (θ), a2 (θ) existieren, für die gilt
Pθ
∂
log fθ (X) = a1 (θ)T (X) + a2 (θ) = 1.
∂θ
Die Integration bezüglich θ liefert
Pθ fθ (X) = exp{c(θ)T (X) + d(θ) + S(X)} = 1,
wobei c und d die Stammfunktionen von a1 und a2 bezeichnen und S(X) eine weitere
Zufallsvariable ist (die nicht von θ abhängt).
Definition 3.1: Eine Familie von Verteilungen
P = {fθ | θ ∈ Θ}
auf X heißt k-parametrige exponentielle Familie, falls die Lebesgue- bzw. Zähldichten
von P in der Form
fθ (x) = c(θ)h(x) exp
k
X
Qj (θ)Tj (x) IA (x)
j=1
geschrieben werden können, wobei die Menge A ⊂ X unabhängig von θ ist [man beachte,
dass für k 0 ≥ k eine k-parametrige exponentielle Familie auch immer eine k 0 -parametrige
exponentielle Familie ist und wir implizit von dem kleinstmöglichen k mit der obigen
Darstellung sprechen].
Beispiele 3.2:
(1) (Binomialverteilung) Es sei X ∼ Bin(n, θ) mit θ ∈ (0, 1). Dann gilt für x ∈
{0, . . . , n}
n
n x
θ o
n−x
n n
fθ (x) =
θ (1 − θ)
= (1 − θ)
exp x log
x
x
1−θ
1
und die Verteilungsfamilie
P = {fθ | θ ∈ (0, 1)]
bildet eine einparametrige exponentielle Familie mit
n
h(x) =
, c(θ) = (1 − θ)n ,
x
Q1 (θ) = log(θ/(1 − θ))
und
T1 (x) = x.
(2) (Normalverteilung) Es sei X ∼ N1 (µ, σ 2 ) mit θ = (µ, σ 2 ) ∈ R × R+ , dann gilt für
die Lebesgue-Dichte von X
h (x − µ)2 i
exp −
2σ 2
2πσ 2
h x2
µ2 1
µ i
= √
exp − 2 exp − 2 + 2 x
2σ
2σ
σ
2πσ 2
fθ (x) = √
1
und die Familie von Verteilungen
P = {fθ : R → R+ | θ = (µ, σ 2 ) ∈ R × R+ }
bildet eine zweiparametrige exponentielle Familie mit
Q1 (θ) = σµ2 ; T1 (x) = x
Q2 (θ) = − 2σ1 2 ; T2 (x) = x2 .
(3) (Poissonverteilung) X ∼ Po (λ) mit λ > 0, dann gilt für die Zähldichte von X
fθ (x) =
λx e−λ
1
IN0 (x) = e−λ exp(x log λ)IN0 (x)
x!
x!
und es liegt eine einparametrige exponentielle Familie vor mit
c(λ) := e−λ ; h(x) = 1/x!, T1 (x) = x
und
Q1 (λ) = log λ.
Bemerkungen 3.3:
2
(1)
(1) Es sei P = {fθ | θ ∈ Θ} eine k-parametrige exponentielle Familie mit Statistiken
T1 , . . . , Tk und für x = (x1 , . . . , xn ) sei
fθ (x) =
n
Y
(1)
fθ (xj )
j=1
eine Dichte auf X n (man beachte, dass fθ die gemeinsame Dichte von n Zufallsvari(1)
ablen X1 , . . . , Xn i.i.d. ∼ fθ ist).
Dann ist P ⊗ = {fθ | θ ∈ Θ} ebenfalls eine k-parametrige exponentielle Familie mit
den Statistiken
n
n
X
X
T1 (xj ), . . . ,
Tk (xj ).
j=1
j=1
(2) Aus dem Faktorisierungskriterium von Neyman [Satz 2.5] folgt unmittelbar, dass in
einer k-parametrigen exponentiellen Familie die Statistik T = (T1 , . . . , Tk ) suffizient
für den Parameter θ ist.
Beispiel 3.4: Es seien X1 , . . . , Xn i.i.d. ∼ N1 (µ, σ 2 ), dann bilden nach Beispiel 3.2 und
Bemerkung 3.3(1) die gemeinsamen Verteilungen des Vektors X = (X1 , . . . , Xn )T eine
2-parametrige exponentielle Familie mit Statistiken
!
!
Pn
x
T1 (x)
Pnj=1 2j .
T (x) =
=
T2 (x)
j=1 xj
Nach Bemerkung 3.3 (2) ist die Statistik T suffizient für den Parameter θ = (µ, σ 2 ).
Bemerkung 3.5: Man beachte, dass in der Definition der exponentiellen Familie die Konstante c(θ) ,,nur“ ein Normierungsfaktor ist, der von θ nur über Q(θ) = (Q1 , (θ), . . . , Qk (θ))T
abhängt. So erhält man z.B. im stetigen Fall aus der Bedingung
Z
Z
n
X
1=
fθ (x)dx = c(θ) ·
exp
Qj (θ)Tj (x) dx
X
A
j=1
die Darstellung
c(θ) =
nZ
n
X
o−1
exp
Qj (θ)Tj (x) dx
,
A
j=1
und ein analoges Resultat gilt für diskrete Verteilungen, indem man die Integration durch
Summation ersetzt.
Durch das Einführen neuer Koordinaten
ξ = Q(θ) = (Q1 (θ), . . . , Qk (θ))
3
erhält man dann eine Darstellung der Form
fξ (x) = c(ξ)h(x) exp
k
X
ξj Tj (x) IA (x)
j=1
für die Dichte fθ , wobei die Konstante durch die Bedingung c(ξ) = 1/k(ξ) mit
P
 R
k

h(x)
exp
ξ
T
(x)
dx falls fθ Lebesgue-Dichte
 A
j=1 j j

k(ξ) =
P


k
P
h(x) exp
ξj Tj (x) falls fθ Zähl-Dichte .
x∈A
j=1
definiert ist (man beachte, dass k(ξ) auch unendlich sein kann!).
Der Parameter ξ ∈ Z := Q(Θ) heißt natürlicher Parameter und die Menge
Z ∗ = {ξ ∈ Rk | k(ξ) < ∞}
heißt natürlicher Parameterbereich der exponentiellen Familie (man beachte, dass
Z = Q(Θ) ⊂ Z ∗
6=
gelten kann).
Beispiel 3.6: (Fortsetzung von Beispiel 3.2)
(1) Es sei X ∼ Bin(n, θ) mit θ ∈ (0, 1), dann ist
ξ = Q1 (θ) = log
θ
1−θ
der natürliche Parameter, Z = Q1 (Θ) = R,
n X
n
k(ξ) =
exp(ξx) = (eξ + 1)n
x
x=0
und damit ist Z ∗ = Z = R der natürliche Parameterraum Mit diesen neuen Koordinaten kann die Zähldichte der Bionomialverteilung als
n ξx
fξ (x) = c(ξ)
e I{0,...,n} (x)
x
dargestellt werden wobei c(ξ) = 1/k(ξ) die entsprechende Normierungskonstante
darstellt.
(2) Es sei X ∼ N1 (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R × R+ , dann ist
µ
1
,
−
ξ = (ξ1 , ξ2 ) =
σ2 σ2
4
der natürliche Parameter und damit Z = R × R− . Für die Dichte erhalten wir die
Darstellung
fξ (x) = c(ξ) exp(ξ1 x + ξ2 x2 ),
wobei c(ξ) = 1/k(ξ) ist mit
Z
k(ξ) =
exp(ξ1 x + ξ2 x2 )dx.
R
Da für ξ2 < 0 die Ungleichung k(ξ) < ∞ gilt, erhalten wir als natürlichen Parameterbereich Z ∗ = Z = R × R− .
(3) Für die Poissonverteilung X ∼ P0 (λ) erhält man für den natürlichen Parameter
ξ = log λ und für den natürlichen Parameterraum Z ∗ = Z = R.
Übung 3.7: Man zeige, dass mit den Bezeichnungen aus 3.5 gilt: Z ∗ ist konvex und Z ∗
hat nichtleeres Inneres.
Satz 3.9: Es sei P = {fξ | ξ ∈ Z} eine k-parametrige exponentielle Familie mit
natürlicher Parametrisierung und Lebesgue- oder Zähldichten
fξ (x) = c(ξ)h(x) exp
k
nX
o
ξj Tj (x) IA (x),
j=1
ϕ : X → R eine (messbare und) beschränkte Funktion und Z ∗∗ ⊂ Z ∗ eine offene Menge,
so dass für alle ξ ∈ Z ∗∗ mit X ∼ fξ der Erwartungswert Eξ [ϕ(X)] existiert. Dann ist die
Funktion
( ∗∗
Z → Rh
o
i R
nP
β:
k
ξ
→ Eξ ϕ(X)
ξ
T
(x)
dx
=
ϕ(x)h(x)
exp
j=1 j j
c(ξ)
A
beliebig oft differenzierbar und es gilt:
∂ `1
∂ `k
h ϕ(x)
i
(∗)
β(ξ) = Eξ
T1`1 (X) . . . Tk`k (X) .
...
∂ξ1
∂ξk
c(ξ)
Man beachte, dass im stetigen Fall die Gleichung (∗) äquivalent zu der Darstellung
k
∂ `k Z
X
∂ `1
...
h(x)ϕ(x) exp
ξj Tj (x) dx
∂ξ1
∂ξk
A
j=1
Z
k
X
ξj Tj (x) dx
=
h(x)ϕ(x)T1`1 (x) . . . Tk`k (x) exp
A
j=1
5
und bedeutet, dass Differentiation und Integration vertauscht werden dürfen. Eine entsprechende Deutung erhalten wir im diskreten Fall, wobei die Integration durch Summation ersetzt werden muss.
Übung 3.10: Es sei P = {fξ | ξ ∈ Z} eine einparametrige exponentielle Familie mit
natürlicher Parametrisierung und Dichten
fξ (x) = c(ξ)h(x) exp(ξT1 (x)).
Man zeige für die Zufallsvariablen X ∼ fξ
Eξ [T (X)] = −(log c(ξ))0
Varξ (T (X)) = −(log c(ξ))00 .
Bestimmen Sie die Fisher-Information von P bzgl. ξ. Nimmt T (X) die untere Schranke der
Crámer-Rao-Ungleichung an? Man formuliere und beweise ein entsprechendes Ergebnis
für k-parametrige exponentielle Familien.
Beispiel 3.11: (Fortsetzung von Beispiel 3.6)
θ
(1) Falls X ∼ Bin(n, θ), dann ist T1 (X) = X, ξ = log 1−θ
, c(ξ) = (1 + eξ )−n und wir
erhalten
eξ
= nθ
1 + eξ
eξ
−(log c(ξ))00 = n
= nθ(1 − θ).
(1 + eξ )2
−(log c(ξ))0 = n
ξ
(2) Fall X ∼ P0 (λ), dann ist ξ = log λ, c(ξ) = e−e , T (X) = X und wir erhalten
−(log c(ξ))0 = eξ = λ
−(log c(ξ))00 = eξ = λ.
Satz 3.12: Es sei P = {fθ | θ ∈ Θ} eine k-parametrige exponentielle Familie mit Dichten
fθ (x) = c(ξ) exp
k
X
Qj (θ)Tj (x) h(x)IA (x)
j=1
und das Innere von Z = Q(Θ) sei nicht leer, dann ist die Statistik T = (T1 , . . . , Tk )
vollständig für θ.
6
Übung 3.13: Es sei P = {fθ | θ ∈ Θ} und T : X → τ eine suffiziente und vollständige
Statistik für den Parameter θ. Ist h : τ → τ bijektiv, so ist auch die Statistik T̃ = h◦T suffizient und vollständig für θ. [Man beachte, dass eine mathematisch exakte Formulierung
eine zugehörige Bedingung an die zugehörigen σ-Algebren benötigt (vgl. Witting, S. 354)].
Beispiele 3.14: Bei Vorliegen einer exponentiellen Familie erhalten wir UMVU-Schätzer
direkt mit dem Satz von Lehmann Scheffé.
(1) Es sei X ∼ Bin(n, θ), dann ist T1 (X) = X suffizient und vollständig für θ (vgl.
Beispiel 3.2) und nach 3.10(1) Eθ [X/n] = θ. Damit ist
T ∗ (X) = Eθ
i X
| T1 (X) =
n
n
hX
UMVU-Schätzer für θ.
(2) Es seien X1 , . . . , Xn i.i.d. ∼ N1 (µ, σ 2 ). Nach Beispiel 3.4 und Satz 3.12 ist
T (X) =
n X
Xi
i=1
Xi2
suffizient und vollständig für den Parameter θ = (µ, σ 2 ). Die Übung 3.13 zeigt, dass
auch die Statistik
!
Pn
X
i
Pi=1
T̃ (X) =
n
2
i=1 (Xi − X̄n )
suffizient und vollständig für den Parameter (µ, σ 2 ) ist. Nach Beispiel 2.27 ist
n
(X̄n , Ŝn2 )T
1 X
= (X̄n ,
(Xi − X̄n )2 )T
n − 1 i=1
erwartungstreu für (µ, σ 2 ) und somit die Komponenten von
hX̄ i X̄ n
n
∗
| T̃ (X) =
T (X) = E
2
2
Ŝn
Ŝn
UMVU-Schätzer für die jeweiligen Parameter µ und σ 2 .
Beispiel 3.15: (zweifaktorielle Kontingenztafeln) Es sollen Objekte (z.B. Schüler)
mit zwei Merkmalen (z.B. Geschlecht und Note in Mathematik) untersucht werden. Von
Interesse sind hier die Wahrscheinlichkeiten für eine bestimmte Merkmalskombination
(z.B. ein männlicher Schüler hat eine 2). Die Merkmale werden auch oft Faktoren genannt
und mit A und B bezeichnet. Die verschiedenen Möglichkeiten für ein Merkmal heißen
Stufen , wobei der Faktor A die r ≥ 2 Stufen A1 , . . . , Ar und der Faktor die s ≥ 2 Stufen
7
B1 , . . . , Br haben soll (z.B. hat der Faktor Geschlecht 2 Stufen und der Faktor Note 6
Stufen). Die mathematische Modellierung dieses Experiments erfolgt durch Zufallsvariable Y1 , . . . , Yn mit
Yk ∼ (X11k , X12k , . . . , Xrsk )T ∼ M(1, p11 , . . . , prs ),
wobei die Wahrscheinlichkeiten pij für die Faktorkombination (Ai , Bj ) (i = 1, . . . , r; j =
1, . . . , s) positiv sind und
r X
s
X
pij = 1
i=1 j=1
gilt. Man beachte, dass Yk ein Vektor ist, in dem genau an einer Stelle eine 1 und sonst
Nullen stehen. Ist Xijk die entsprechende Komponente mit der 1, so bedeutet das, dass bei
Yk für den Faktor A die Stufe i und für den Faktor B die Stufe j auftritt. Wir definieren
Xij =
n
X
Xijk
k=1
als die Anzahl der Objekte in der Stichprobe mit der Faktorkombination (Ai , Bj ) für
Faktor A und Faktor B und erhalten nach Definition der Multinomialverteilung
Y =
n
X
Yk = (X11 , . . . , Xrs )T ∼ M(n, p11 , . . . , prs ).
k=1
Als Messwertschema ergibt sich dann die folgende r × s Kontingenztafel
A\B
A1
A2
..
.
B1
X11
X21
..
.
B2
X12
X22
..
.
. . . Bs
. . . X1s
. . . X2s
..
.
X1·
X2·
..
.
Ar
Xr1
X·1
Xrs
X·2
...
...
Xr·
n
wobei
Xi· =
s
X
Xij ;
X·j =
j=1
Xrs
X·s
r
X
Xij
i=1
die Zeilen- bzw. Spaltensummen in dieser Tafel bezeichnet. Aus Beispiel 1.5 erkennt
man,PdassPdie Multinomialverteilungen mit (Zähl-)Dichten [θ = (p11 , . . . , pr,s−1 ); prs =
1 − ri=1 s−1
j=1 pij ]
r
s
o
YY x n
X
n!
fθ (x) =
pijij I xij ∈ {0, . . . , n},
xij = n
x11 ! . . . xrs ! i=1 j=1
i,j
8
eine rs − 1 parametrige exponentielle Familie bilden und daher die Statistik
Ỹ = (X11 , X12 , . . . , Xr,s−1 )T
vollständige und suffiziente Statistik für θ is [vgl. Satz 3.12]. Man beachte, dass wegen
der Beziehung
r X
s−1
X
Xrs =
Xij
i=1 j=1
die letzte Koordinate von Y durch Ỹ bestimmt ist und eine entsprechende Aussage für
die zugehörige Wahrscheinlichkeit prs gilt. Wegen
E
hX i
ij
n
= pij
i = 1, . . . , r; j = 1, . . . , s
ist nach dem Satz von Lehmann-Scheffé für i = 1, . . . , r; j = 1, . . . , s
p̂ij =
Xij
n
ein UMVU-Schätzer für den Parameter pij . Man beachte, dass man die Zellhäufigkeiten
als Schätzer benutzt, und diese Statistiken auch sofort durch ein heuristisches Argument
gewonnen werden können. Die obige Argumentation weist aber gleichzeitig die Optimalität dieser Schätzungen nach.
Beispiel 3.16: Wir nehmen zusätzlich in Beispiel 3.15 an, dass die Faktoren A und B
unabhängig sind (z.B. dass das Geschlecht und die Noten im Unterricht unabhängig sind),
d.h. es gilt
pij = P (Ai ∩ Bj ) = P (Ai )P (Bj ) = pi· p·j
mit
pi· =
s
X
pij ; p·j =
j=1
r
X
pij
(i = 1, . . . , r; j = 1, . . . , s).
i=1
Für die Dichten erhält man dann
r
fθ (x) =
=
s
n
o
YY
X
n!
(pi· p·j )xij I{xij ∈ 0, . . . , n},
xij = n
x11 ! . . . xrs ! i=1 j=1
i,j
r
s
n
o
Y
Y
X
n!
x
pxi·i·
p·j·j I xij ∈ {0, . . . , n};
xij = n
x11 ! . . . xrs ! i=1
j=1
ij
und es liegtP
eine r+s−2
exponentielle Familie vor (man beachte die NebenbePparametrige
r
s
dingungen i=1 pi· = j=1 p·j = 1) mit suffizienter und vollständiger Statistik
(X1· , . . . , Xr−1,· , X·1 , . . . , X·,s−1 )T
9
(man beachte, dass die Zufallsvariablen X·s und Xr· durch die Relation
X·s = n −
r−1
X
X·j ; Xr· = n −
j=1
r−1
X
Xi·
i=1
bestimmt sind. Unter der obigen Annahme der Unabhängigkeit erhält man dann
p̂ij =
Xi· X·j
n2
i = 1, . . . , r;
j = 1, . . . , s
als UMVU-Schätzer für die Wahrscheinlichkeiten pij = pi· p·j .
4
Asymptotische Eigenschaften von Schätzern
In diesem Abschnitt sei X = (X1 , . . . , Xn )T eine Zufallsvariable mit mit Werten in Dn
und Dichte fθ , wobei der Parameter θ [oder allgemeiner ein Funktional γ(θ)] aus den
Daten geschätzt werden soll. Eine Minimalvoraussetzung für eine sinnvolle Schätzmethode
ist, dass bei wachsendem Stichprobenumfang die Genauigkeit der Schätzungen verbessert
werden sollte.
Definition 4.1: Es γ : Θ → Γ ⊂ R` ein Funktional. Ein Schätzer Tn : Xn → Γ heißt
konstent für γ(θ), genau dann, wenn für alle θ ∈ Θ und für alle ε > 0 gilt
(∗)
lim Pθ (kTn (X) − γ(θ)k > ε) = 0.
n→∞
Dabei bezeichnet k · k eine beliebige Norm auf R` . Schreibweise:
P
θ
Tn (X) −→
γ(θ)
bzw.
P
θ
Tn −→
γ(θ) ∀ θ ∈ Θ,
man sagt auch die Zufallsvariable Tn (X) konvergiert stochastisch gegen den Parameter γ(θ).
Der Schätzer Tn heißt asymptotisch erwartungstreu für den Parameter γ(θ), falls für alle
θ ∈ Θ gilt
lim Eθ [Tn (X)] = γ(θ)
n→∞
(natürlich setzen wir in diesem Fall die Existenz des Erwartungswerts voraus).
Bemerkung 4.2:
(1) Anschaulich bedeutet die Gleichung (∗), dass bei großem Stichprobenumfang der
Schätzer Tn (X) mit großer Wahrscheinlichkeit nahe bei dem unbekannten Parameter
γ(θ) liegt. Diese Aussage ist natürlich nicht besonders präzise, da keine Aussage
über die Konvergenzgeschwindigkeit gemacht wird.
10
(2) Eine typische Methode zum Nachweis der Konsistenz im Fall ` = 1 ist die Markov-Ungleichung, nach der für jede reellwertige Zufallsvariable Z und jede konvexe Funktion
ϕ : R0 → R0 gilt
E[ϕ(Z)]
P (|Z| > ε) ≤
.
ϕ(ε)
Für die spezielle Wahl Z = Tn (X) − γ(θ) (P = Pθ ) erhält man dann
Pθ (|Tn (X) − γ(θ)| > ε) ≤
Eθ [ϕ(|Tn (X) − γ(θ)|)]
,
ϕ(ε)
+
k
wobei ϕ : R+
0 → R0 eine beliebige konvexe Funktion ist (oft wird ϕ(X) = |x|
benutzt). Man beachte, dass diese Ungleichung für ϕ(x) = x2 und erwartungstreue
Schätzer für den Parameter γ(θ) die Chebyshev-Ungleichung ergibt:
Pθ (|Tn (X) − γ(θ)| > ε) ≤
Varθ (Tn (X))
.
ε2
(3) Der Begriff der Konsistenz kann immer dann definiert werden, sobald ein Abstandsmaß auf dem interessierenden Parameterbereich Γ erklärt ist. In Definition 4.1 ist
Γ Teilmenge eines normierten linearen Raums. Man könnte aber auch allgemeiner
Teilmengen metrischer Räume betrachten (siehe Vorlesung statistik II).
Beispiele 4.3:
(1) Es seien X1 , . . . , Xn i.i.d. ∼ N1 (µ, σ 2 ), dann ist X̄n konsistenter Schätzer für den
Parameter µ und
n
σ̂n2
1X
(Xi − X̄n )2 ;
=
n i=1
n
Ŝn2
1 X
=
(Xi − X̄n )2
n − 1 i=1
sind konsistente Schätzer für den Parameter σ 2 . Dabei ist Ŝn2 erwartungstreu für σ 2
und σ̂n2 asymptotisch erwartungstreu für σ 2 (vgl. Beispiel 2.27).
P
(2) Es seien X1 , . . . , Xn i.i.d. ∼ M(1, θ1 , . . . , θs ) θ1 , . . . , θs > 0, si=1 , θi = 1), dann ist
der Schätzer
n
1X
Tn (X) =
Xi
n i=1
erwartungstreuer und konsistenter Schätzer für θ = (θ1 , . . . , θs )T .
Übung 4.4: Man zeige:
11
(1) Für i = 1, . . . , ` sei Tni : X → R Schätzer für den Parameter γi (θ), dann gilt: Der
Schätzer
Tn (X) = (Tn1 (X), . . . , Tn` (X))T
ist genau dann konsistent für den Parameter γ(θ) = (γ1 (θ), . . . , γ` (θ))T falls jede
Komponente Tni (X) konsistent für γi (θ) ist (i = 1, . . . , `).
˜
(2) Es sei Tn (X) ein konsistenter Schätzer für γ(θ) und g : Γ → Γ̃ ⊂ R` eine stetige
Funktion, dann ist auch g(Tn (X)) konsistenter Schätzer für g(γ(θ)).
Bemerkung 4.5: Die mit dem Schätzprinzip der Momentenmethode erhaltenen Schätzer
(vgl. Bemerkung 2.13) sind konsistent. Genauer sind X1 , . . . , Xn i.i.d. ∼ fθ ;
mj (θ) = Eθ [Xij ] (j = 1, . . . , k)
und existiert für das interessierende Funktional des Parameters eine Darstellung der Form
γ(θ) = g(m1 (θ), . . . , mk (θ))
mit einer stetigen Funktion g : Rk → R` , dann ist im Fall der Existenz der Momente
E[Xi2k ] der Schätzer
n
n
1 X
1 X k
Xi , . . . ,
X
Tn (X) = g
n i=1
n i=1 i
konsistent für den Parameter γ(θ).
Im Folgenden wollen wir ein entsprechendes Resultat für die Maximum-Likelihood-Schätzung
herleiten. Die Schwierigkeit ist hier, dass im allgemeinen Fall weder die Existenz noch
Eindeutigkeit der Lösung der Maximum-Likelihood-Gleichungen gewährleistet ist, da eine
explizite Auflösung der Gleichung
∂
log f (x, θ) = 0
∂θ
nur in den seltensten Fällen möglich ist. Wir betrachten hier nur den Fall von unabhängig
identisch verteilten Beobachtungen und verweisen für ein allgemeineres Resultat auf das
Lehrbuch von Pruscha.
(1)
Satz 4.6: Es seien X1 , . . . , Xn i.i.d. ∼ fθ ; θ ∈ Θ; Θ ⊂ Rk offen und es seien die
Annahmen (i) – (iii) aus Bemerkung 2.42 erfüllt. Gilt zusätzlich, dass für jedes x ∈ Mf
die Funktion
(1)
θ → log fθ (x)
zweimal stetig differenzierbar ist und für i, j = 1, . . . , k die stochastische Konvergenz
n
h ∂
i
1 X ∂2
∂
Pθ
(1)
(1)
(1)
log fθn∗ (X` ) −→
−Eθ
log fθ (X` )
log fθ (X` ) =: −(iθ )ij
n `=1 ∂θi ∂θj
∂θi
∂θj
12
P
θ
für jeden Schätzer θn∗ mit der Eigenschaft θn∗ −→
θ; dann gilt mit einer Pθ -Wahrscheinlichkeit,
die gegen 1 konvergiert:
(1) Es existiert eine Lösung θ̂n = θ̂n (X) der Maximum-Likelihood-Gleichungen
n
X ∂
∂
(1)
log fθ (X) =
log fθ (Xj ) = 0
∂θ
∂θ
j=1
Man beachte, dass für die Dichte von fθ von X = (X1 , . . . , Xn )T gilt
fθ (X) =
n
Y
(1)
fθ (Xj ).
j=1
(2) Im Punkt θ̂n nimmt die Funktion log fθ (X) (als Funktion von θ) ein lokales Maximum an und θ̂n (X) is konsistenter Schätzer für den Parameter θ.
Bemerkung 4.7:
(1) Wie bei der Cramér-Rao-Ungleichung werden diese Voraussetzungen bei der konkreten
Anwendung der Maximum-Likelihood-Methode nur selten überprüft. Der Satz
4.6 zeigt aber, dass unter Regularitätsvoraussetzungen die ML-Schätzung als universelles Schätzprinzip konsistent ist.
(2) Man beachte, dass unter der Annahme der Vertauschbarkeit von Differentiation und
Integration gilt (Übung)
h ∂2
i
i
h ∂
∂
(1)
(1)
(1)
log fθ (X1 ) = −Eθ
log fθ (X1 ) log fθ (X1 )
Eθ
∂θi ∂θj
∂θi
∂θ
und daher die Voraussetzung (∗) aus Stetigkeitsgründen wegen des schwachen Gesetzes der großen Zahlen in vielen Fällen erfüllt ist.
Bemerkung: Der Beweis des höherdimensionalen Falls unterscheidet sich nur dadurch,
dass man für den Nachweis der Existenz der Nullstelle von g den Fixpunktsatz von
Brouwer verwendet.
Beispiel 4.8: (ML-Schätzung bei Gamma-Verteilung) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit der Dichte
(1)
fθ (x1 ) =
λα α−1 −λx1
I(0,∞) (x1 )
x e
Γ(α) 1
13
θ = (λ, α)T ∈ (0, ∞)2 . Die Verteilung der Zufallsvariablen Xi heißt Gamma-Verteilung
mit Parametern (λ, α); als Schreibweise verwenden wir: X1 , . . . , Xn i.i.d. ∼ Γ(λ, α).
Um die ML-Gleichungen aufzustellen, bestimmen wir die gemeinsame Dichte von X =
(X1 , . . . , Xn ) und erhalten mit x = (x1 , . . . , xn )T
n
n
λnα Y α−1 −λ Pni=1 xi
fθ (x) =
x
e
I
min
x
i .
(0,∞)
i=1
(Γ(α))n i=1 i
Differenzieren bzgl. (λ, α)T liefert die Maximum-Likelihood-Gleichungen
n
nα X
∂
log fθ (x) =
−
xi = 0,
∂λ
λ
i=1
n
X
∂
nΓ0 (α)
log fθ (x) = n log λ +
log xi −
= 0,
∂α
Γ(α)
i=1
und wir erhalten die Maximum-Likelihood-Schätzungen (λ̂, α̂) als Lösung des (nichtlinearen) Gleichungssystems
n
1 X
−1
λ̂ =
Xi
nα̂ i=1
n
1X
Γ0 (α̂)
− log λ̂ =
Xi .
Γ(α̂)
n i=1
Satz 4.6 besagt, dass mit einer Wahrscheinlichkeit, die für n → ∞ gegen 1 konvergiert, eine
konsistente Lösung dieser Gleichungen existiert. Die Überprüfung der Voraussetzungen
(i) – (iii) aus Bemerkung 2.42 überlassen wir dem Leser. Zum Nachweis der Bedingungen
(∗) berechnen wir die Fisher-Informationsmatrix und erhalten (Übung)
h ∂
2 i
∂
(1)
(1)
log fθ (X1 )
log fθ (X1 )
I(θ) = (iθ )2i,j=1 = Eθ
∂θi
∂θj
i,j=1


α
− λ1
λ2
=  1 Γ00 (α) Γ0 (α) 2 
− λ Γ(α) − Γ(α)
und die Eigenschaft (∗) folgt direkt durch Übung 4.4(2) und Berechnung der zweiten
Ableitungen
α ∂2
1
∂2
(1)
(1)
log
f
(x
)
=
−
log fθ (x1 ) =
1
θ
2
2
∂ λ
λ ∂α∂λ
λ
Γ0 (α) 2
00
∂2
Γ
(α)
(1)
log fθ (x1 ) = −
+
,
∂2α
Γ(α)
Γ(α)
die offensichtlich stetig sind.
In den vorigen Betrachtungen haben wir gesehen, dass unter Regularitätsvoraussetzungen
der Maximum-Likelihood-Schätzer stochastisch gegen den ,,wahren“ Parameter konvergiert.
14
Allerdings gibt dieses Resultat keine Auskunft über die Konvergenzgeschwindigkeit. Z.B.
ist in Beispiel 4.6 die untere Schranke für die Varianz eines erwartungstreuen Schätzers
für den Parameter λ durch λ2 /αn gegeben, aber es ist nicht klar, ob die ML-Methode eine
erwartungstreue Schätzung mit einer Varianz von derselben Größenordnung liefert. Um
eine solche Eigenschaft für die ML-Schätzungen nachzuweisen, führen die Prinzipien der
Verteilungskonvergenz und asymptotischen Effizienz ein [vgl. auch Vorlesung Wahrscheinlichkeitstheorie I].
Definition 4.9: Es sei (Z (n) )n∈N eine Folge von d-dimensionalen Zufallsvariablen (Z (n) =
(Zn1 , . . . , Znd )T ) mit Verteilungsfunktionen
P (Zn1 ≤ t1 , . . . , Znd ≤ td ) = Fn (t1 , . . . , td )
und Z = (Z1 , . . . , Zd )T d-dimensionale Zufallsvariable mit Verteilungsfunktion
P (Z1 ≤ t1 , . . . , Zd ≤ td ) = F (t1 , . . . , td ).
Die Folge (Zn )n∈N konvergiert in Verteilung gegen Z (bzw. konvergiert schwach gegen Z),
falls in jedem Stetigkeitspunkt (t1 , . . . , td )T der Verteilungsfunktion F gilt:
lim Fn (t1 , . . . , td ) = F (t1 , . . . , td ).
n→∞
Als Schreibweise verwenden wir:
D
D
Zn −→ Z; Zn −→ F
(dabei steht das D für distribution). Ist Z ∼ Nd (µ, Σ), so heißt (Zn )n∈N asymptotisch normalverteilt und man schreibt
D
Zn −→ Nd (µ, Σ).
Bemerkungen 4.10:
(1) Liegt Verteilungskonvergenz vor, so können für großes n ∈ N die Wahrscheinlichkeiten
P (Zn ∈ B)
durch die Wahrscheinlichkeiten
P (Z ∈ B)
approximiert werden.
(2) Es seien X1 , . . . , Xn unabhängig
identisch verteilte Zufallsvariable mit X1 ∼ Bin(1, θ);
Pn
1
θ ∈ (0, 1) and Zn = n i=1 Xi , dann gilt:
√
D
n(Zn − θ) −→ N1 (0, θ(1 − θ))
[Satz von Moivre Laplace]
15
D
(3) Es gilt Z (n) = (Zn1 , . . . , Znd )T −→ Z = (Z1 , . . . , Zd )T genau dann, wenn für alle
Vektoren a ∈ Rd gilt
D
aT Z (n) −→ aT Z.
D
(4) Es sei a ∈ Rd und es gelte Z (n) −→ a, dann gilt auch
P
Z (n) −→ a.
Satz 4.11: (Zentraler Grenzwertsatz) Es seien X1 , . . . , Xn unabhängig identisch
P
verteilte d-dimensionale Zufallsvariable
mit E[Xk ] = µ ∈ Rd und Cov(Xi ) =
> 0,
P
dann gilt für den Mittelwert Z (n) = n1 ni=1 Xi
√
D
n(Z (n) − µ) −→ Ns−1 (0, Σ).
n→∞
Beispiel 4.12: Es sei
X = (X1 , . . . , Xs )T ∼ M(n, p1 , . . . , ps )
mit p1 , . . . , ps > 0,
Ps
i=1
pi = 1 und Z (n) = n1 (X1 , . . . , Xs−1 )T für n → ∞
√
D
n(Z (n) − p) −→ Ns (0, Σ),
n→∞
wobei p = (p1 , . . . , ps−1 )T und die Matrix Σ = (Σij )s−1
i,j=1 durch
(
pi (1 − pi ) für i = j
Σij =
−pi pj für i 6= j
definiert ist. Diese Aussage ergibt sich unmittelbar aus der Definition der Multinomialverteilung [vgl. Beispiel 1.5], Übung 1.23 und Satz 4.11.
Lemma 4.13:
(1) (Lemma von Slutsky) Es seien (Z (n) )n∈N und (Y (n) )n∈N Folgen d-dimensionaler Zufallsvariablen, für die gilt
D
Z (n) −→ Z;
P
Y (n) −→ y0
wobei y0 ∈ Rd einen d-dimensionalen Vektor und Z eine dimensionale Zufallsvariable
bezeichne. Dann gilt:
D
YnT Z (n) −→ y0T Z
D
Z (n) + Y (n) −→ Z + y0 .
16
(2) (δ-Methode) Es sei (Z (n) )n∈N Folge von d-dimensionalen Zufallsvariablen, Z Zufallsvariable, b ∈ Rd , (Σn )n∈N ⊂ Rd×d eine Folge invertierbare Matrizen, so dass
D
(n)
Σ−1
− b) −→ Nd (0, S)
n (Z
mit einer positiven definiten Matrix S ∈ Rd×d gilt. Ist dann g : Rd → R` differenzierbare Funktion, so dass die Ableitung
g 0 (·) ∈ R`×d
im Punkt b stetig ist und (die Matrix g 0 ⊂ b) Rang ` hat, dann gilt
(n)
Σ−1
) − g(b)) → N` (0, g 0 (b)S(g 0 (b))T )
n (g(Z
Beispiel 4.14:
(1) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ Bin(1, θ),
dann gilt nach dem Satz von Moivre-Laplace
√
D
n(X̄n − θ) −→ N1 (0, θ(1 − θ))
und wegen des schwachen Gesetzes der großen Zahlen
P
θ
X̄n −→
θ.
Nach dem Lemma von Slutksy gilt dann auch
√
n(X̄n − θ) D
p
−→ N1 (0, 1),
X̄n (1 − X̄n )
und damit erhält man auf der rechten Seite eine von θ unabhängige Verteilung.
Alternativ kann man auch eine Transformation mit der Funktion g benutzen, die
die Differentialgleichung
p
g 0 (θ) = 1/ θ(1 − θ)
erfüllt, d.h.
√
g(θ) = 2 arcsin θ.
Dann gilt nach der δ-Methode
p
√
D
2 n(arcsin X̄n − arcsin θ) −→ N1 (0, 1).
Eine solche Transformation nennt man auch varianzstabilisierende Transformation.
17
(2) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ N1 (µ, σ 2 ),
dann ist nach Satz 4.11
o
√ n 1 Xi
µ
D
n
−
−→ N2 (0, Σ)
n Xi2
µ2 + σ 2
wobei die asymptotische Kovarianzmatrix durch
!
Var(X1 )
Cov(X1 , X12 )
=
Σ=
Cov(X1 , X12 ) Var(X12 )
σ2
2µσ 2
2µσ 2 2σ 4 + 4µ2 σ 2
!
gegeben ist. Mit der Transformation g(x1 , x2 ) = −x21 + x2 erhalten wir
g(µ, µ2 + σ 2 ) = σ 2 , g 0 (x1 , x2 ) = (−2x1 , 1),
g 0 (µ, σ 2 )Σ(g 0 (µ, σ 2 ))T = 2σ 4
und nach Satz 4.13 (2) gilt für den Schätzer
n
σ̂n2
n
n
n
n
1 X
1X
1 X 2 1 X 2
1 X 2
2
=
(Xi − X̄n ) =
X −
Xi = g
Xi ,
X
n i=1
n i=1 i
n i=1
n i=1
n i=1 i
die asymptotische Normalität, d.h.
√
n(σ̂n2
n
n
√ 1 X
1 X 2
D
2
−σ )= n g
Xi ,
Xi − g(µ, σ ) −→ N1 (0, 2σ 4 ).
n i=1
n i=1
2
Bemerkung 4.15: Die Aussage der Verteilungskonvergenz eines Schätzers für θ
(∗)
√
D
θ
n(θ̂n (X) − θ) −→
Z
legt die Vermutung nahe, dass θ̂n (X) asymptotisch erwartungstreu für θ ist, falls die
Grenzverteilung Erwartungswert 0 hat, d.h. E[Z] = 0 gilt. Diese Schlussweise ist aber
im allgemeinen nicht korrekt und erfordert zusätzliche Voraussetzungen. Allerdings folgt
nach dem Satz von Slutsky aus der Annahme (∗)
1 √
Dθ
n(θ̂n (X) − θ) −→
0·Z =0
θ̂n (X) − θ = √
n
und aus Bemerkung 4.10 (4) die Konsistenz des Schätzers θ̂n (X) für den Parameter θ d.h.
P
θ
θ̂n (X) −→
θ.
Definition 4.16: Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit
(1)
Dichte ∼ fθ ; θ ∈ Θ; Θ ⊂ Rk offen und es gelten die Annahmen aus Bemerkung 2.42.
18
Ein Schätzer Tn (X) für den Parameter θ heißt asymptotisch effizient, falls für n → ∞ die
Verteilungskonvergenz
√
Dθ
n(Tn (X) − θ) −→
Nk (0, I −1 (θ))
gilt, wobei die k × k-Matrix
h ∂
ik
∂
(1)
(1)
I(θ) = Eθ
log fθ (X1 )
log fθ (X1 )
∂θi
∂θj
i,j=1
(1)
die Fisher-Informationsmatrix von fθ
bezeichnet.
Man beachte, dass aus der Eigenschaft der asymptotischen Effizienz die Konsistenz des
Schätzers Tn (X) für den Parameter θ folgt und außerdem Tn (X) asymptotisch die untere Schranke in der Cramér-Rao-Ungleichung annimmt, die unter den obigen Annahmen
durch
1
In−1 (θ) = I −1 (θ)
n
gegeben ist [vgl. Bemerkung 2.39].
Beispiel 4.17: Es seien X1 , . . . , Xn ∼ N1 (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariable, dann ist der Schätzer
n
Tn (X) = (X̄n ,
1X
(Xi − X̄n )2 )T
n i=1
asymptotisch effizient für den Parameter θ = (µ, σ 2 ), denn ein analoges Argument wie in
Beispiel 4.14 (2) zeigt, dass für den Schätzer
Tn (X) =
gilt
1 X
n
n
n
n
n
1 X
1 X 2 1 X 2 T
1 X 2
Xi ,
X −
Xi
=g
Xi ,
X
n i=1 i
n i=1
n i=1
n i=1 i
√
D
θ
n(Tn (X) − (µ, σ 2 )T ) −→
N2 (0, Σ(θ))
wobei die Kovarianzmatrix durch
2
Σ(θ) =
σ 0
0 2σ 4
!
= I −1 (θ)
gegeben ist [vgl. Beispiel 2.43].
Satz 4.18: (Unter Regularitätsvoraussetzungen sind Maximum-Likelihood-Schätzungen
asymptotisch effizient). Unter den Annahmen aus Satz 4.6 gilt für den nach diesem Satz
existierenden Maximum-Likelihood-Schätzer θ̂n (X) :
√
Dθ
n(θ̂n (X) − θ) −→
Nk (0, I −1 (θ)),
19
wobei die k × k-Matrix
h ∂
ik
∂
(1)
(1)
I(θ) = Eθ
log fθ (X` )
log fθ (X` )
∂θi
∂θj
i,j=1
(1)
die Fisher Informationsmatrix von fθ
bezeichnet.
Beispiele 4.19:
(1) Für den in Beispiel 4.8 implizit definierten ML-Schätzer (λ̂n , α̂n ) für die Parameter
der Gamma-Verteilung gilt
√ λ̂n
λ
D
n
−
−→ N2 (0, Σ(λ, α))
α̂n
α
mit der Kovarianzmatrix

Σ(λ, α) = 
α
λ2
− λ1
− λ1
0 2
Γ00(α)
(α)
− ΓΓ(α)
Γ(α)
−1

.
(2) Es seien X, Y eindimensionale Zufallsvariable, dann heißt die Größe
Corr(X) = p
Cov(X, Y )
Var(X)Var Y
Korrelationskoeffizient und ist ein Maß für die Abhängigkeit von X und Y. Man
beachte die Ungleichung
|Corr(X, Y )| ≤ 1.
Das Gleichheitszeichen in dieser Ungleichung gilt genau dann, wenn Konstanten
a, b, c ∈ R mit
P (aX + bY = c) = 1,
existieren. Es seien
µ σ 2 ρστ X1
Xn
1
,...,
i.i.d. ∼ N2
,
,
Y1
Yn
µ2
ρστ τ 2
dann gilt offensichtlich ρ = Corr(X1 , Y1 ) und mit der Bezeichnung θ = (µ1 , µ2 , σ 2 , τ 2 , ρ)
erhält man für die Dichte von (X1 , Y1 )
n τ 2 (x − µ )2 − 2στ (x − µ )(y − µ ) + τ 2 (y − µ )2 o
1
1
1
1
1
1
2
1
2
(1)
p
fθ (X1 , Y1 ) =
exp −
2 τ 2 (1 − ρ2 )
2
2σ
2πστ 1 − ρ
Damit ergibt sich mit der Bezeichnung (x, y)T = ((x1 , y1 )T , . . . , (x1 , yn ))T für die
Log-Likelihood-Funktion
`n (θ) = log fθ (x, y) =
n
X
i=1
20
(1)
log fθ (xi , yi ).
Für die Maximum-Likelihood-Gleichungen erhalten wir durch eine direkte Rechnung
das (nichtlineare) Gleichungssystem
P
P
τ 2 ni=1 (xi − µ1 ) − στ ρ ni=1 (yi − µ2 )
∂
`n (θ) =
=0
∂µ1
σ 2 τ 2 (1 − ρ2 )
P
P
σ 2 ni=1 (yi − µ2 ) − στ ρ ni=1 (xi − µ1 )
∂
`n (θ) =
=0
∂µ2
σ 2 τ 2 (1 − ρ2 )
P
Pn
2
ρ ni=1 (xi − µ1 )(yi − µ2 )
∂
n
i=1 (xi − µ1 )
−
=0
`n (θ) = − 2 +
∂σ 2
2σ
2σ 4 (1 − ρ2 )
2(σ 2 )3/2 τ (1 − ρ2 )
P
Pn
2
ρ ni=1 (xi − µi )(yi − µ2 )
∂
n
i=1 (yi − µ2 )
−
=0
`n (θ) = − 2 +
∂τ 2
2τ
2τ 4 (1 − ρ2 )
2(τ 2 )3/2 σ(1 − ρ2 )
n
n
n X
o
X
∂
nρ
ρ
2
2
2
2
`n (θ) =
τ
−
(x
−
µ
)
+
σ
(y
−
µ
)
i
1
i
2
∂ρ
1 − ρ2 (1 − ρ2 )2 σ 2 − τ 2
i=1
i=1
n
1 + ρ2 X
(xi − µ1 )(yi − µ2 ) = 0,
+
(1 − ρ2 )2 στ i=1
und die Lösung dieser Gleichungen ergibt für den Maximum-Likelihood-Schätzer
µ̂1 = X̄n ; µ̂2 = Ȳn
n
n
1X
1X
σ̂n2 =
(Xi − X̄n )2 ; τ̂n2 =
(Yi − Ȳn )2
n i=1
n i=1
Pn
(Xi − X̄n )(Yi − Ȳn )
.
ρ̂n = pPn i=1
Pn
2
2
i=1 (Yi − Ȳn )
i=1 (Xi − X̄n )
Der Schätzer ρ̂n heißt empirischer Korrelationskoeffizient und nach Satz 4.18 gilt
√
D
n(ρ̂n − ρ) −→ N (0, (1 − ρ2 )2 ),
wobei sich die asymptotische Varianz als Element (I(θ)−1 )55 der Fisher-Informationsmatrix


τ 2 −ρστ
0
0
0






 −ρστ σ 2

0
0
0






2
2
2
1


τ (2−ρ S)
ρ
ρ 2
−
0
0
−
τ
I(θ) = 2 2


4σ 2
4
2

σ τ (1 − ρ2 ) 




2 (2−ρ2 )
2
σ
ρ
ρ
2
 0

0
−4
−
σ
2


4τ
2




σ 2 τ 2 (1+ρ2 )
ρ 2
ρ 2
0
0
−2τ
−2σ
1−ρ2
ergibt [die Berechnung dieser Matrix sei dem Leser als Übung überlassen].
21
5
Konfidenzbereiche
Die Angabe eines Punktschätzers gibt keine Auskunft über Genauigkeit der Schätzung
und sollte daher immer durch die Angabe eines Fehlermaßes (wie z.B. Varianz oder MSE)
ergänzt werden. Als Alternative bieten sich Bereiche an, in denen der unbekannte Parameter mit ,,großer“ Wahrscheinlichkeit liegt. Solche Mengen nennt man Konfidenzbereiche.
Beispiel 5.1: In einem Experiment wurden die Daten
x1 = 3.45, x2 = 2.37, x3 = 4.13, x4 = 5.23
beobachtet. Unter der Annahme unabhängiger Daten
X1 , . . . , Xn ∼ N (µ, 1)
erhält man als UMVU-Schätzer für µ; man beachte (n = 4) :
µ̂n = x̄n = 3.795.
Für die Berechnung eines Bereichs, in dem der unbekannte Parameter µ mit großer
Wahrscheinlichkeit liegt, bezeichne
Z x
1
2
Φ(x) = √
e−t /2 dt
2π −∞
die Verteilungsfunktion der Standardnormalverteilung und für den Parameter β ∈ (0, 1)
uβ := Φ−1 (β)
das β-Quantil der Standard-Normalverteilung (man beachte, dass für Z ∼ N (0, 1) die
Identität P (Z ≤ uβ ) = Φ(β) = β gilt). Für die ,,zufälligen“ Grenzen
1
1
µ+
µ−
n (X) = X̄n + √ u1−α/2 ;
n = X̄n − √ u1−α/2
n
n
√
mit α ∈ (0, 1) gilt dann [man beachte n(X̄n − µ) ∼ N (0, 1)]
√
+
Pµ (µ−
n(X̄n − µ) < u1−α/2 )
n (X) < µ < µn (X)) = Pµ (−u1−α/2 <
= Φ(u1−α/2 ) − Φ(−u1−α/2 ) = 2Φ(u1−α/2) − 1 = 1 − α,
wobei die Identität Φ(x) = 1 − Φ(−x) verwendet wurde (man beachte, dass diese Ungleichung für jede Verteilungsfunktion mit symmetrischer Dichte gilt). In anderen Worten:
das Intervall (µ− (X), µ+ (X)) enthält den unbekannten Parameter µ mit Wahrscheinlichkeit 1 − α. Für die speziellen Daten ergibt sich z.B. für α = 5% das Intervall
(2.815, 4.775)
als 95%-Konfidenzintervall. Eine exakte Definition dieses Begriffes liefert die folgende
Definition.
22
Definition 5.2: Es sei X eine Zufallsvariable mit Werten in X und Verteilung Pθ (stetig
oder diskret) und C eine Familie von Untermengen von Θ. Eine Abbildung
c:X →C
heißt Konfidenzbereich für θ (Vertrauensbereich, Bereichsschätzer). Für α ∈ (0, 1) heißt
c Konfidenzbereich für θ zum Niveau 1 − α, falls für alle θ ∈ Θ gilt:
Pθ (θ ∈ c(X)) = Pθ ({x ∈ X | θ ∈ c(x)) ≥ 1 − α.
Die Zahl
inf Pθ (θ ∈ c(X))
θ∈Θ
heißt effektives Konfidenzniveau von c.
Bemerkung 5.3:
(1) Oft wird für das Mengensystem C die Potenzmenge von Θ verwendet. Besteht C im
Fall Θ ⊂ R nur aus Intervallen, so nennt man die Abbildung c auch Konfidenzintervall.
Entsprechend spricht man für Θ ⊂ Rk von Konfidenzrechtecken, Konfidenzellipsoiden
etc.
(2) Bezeichnet x ∈ X den Datenvektor, so wird oft auch c(x) als Konfidenzbereich
bezeichnet (genauer heißt c(x) konkreter Konfidenzbereich).
(3) Ist γ : Θ → Γ ein Funktional, so werden Konfidenzbereiche für γ(θ) analog definiert.
(4) Man beachte, dass im Fall der Lebesgue-Dichte die Menge {x ∈ X | θ ∈ c(x)}
messbar sein muss.
(5) Man beachte die folgende Interpretation des Begriffs Konfidenzbereich: Die ,,zufällige“
Menge c(X) enthält den unbekannten Parameter θ mit Wahrscheinlichkeit 1 − α.
Das bedeutet nicht, dass für die konkret vorliegenden Daten x ∈ X die Menge c(x)
den Parameter θ mit Wahrscheinlichkeit 1 − α enthält [diese Aussage ist entweder
richtig oder falsch - auch wenn man sie nicht überprüfen kann], sondern dass bei
häufiger Wiederholung des Experiments in mindestens (1 − α) 100% der Fälle der
unbekannte Parameter in den erhaltenen Bereichen liegen würde.
(6) Im Beispiel 5.1 ist C die Menge der Intervalle, X = Rn , n = 4
(
X → C
c:
x → [x̄n − √1n u1−α/2 , x̄n + √1n u1−α/2 ]
(7) Wünschenswert wäre ein möglichst großes Konfidenzniveau 1 − α (d.h. α → 0) und
gleichzeitig ein möglichst kleiner Konfidenzbereich. Offensichtlich ist eine solche
simultane Optimierung nicht möglich [man denke z.B. an die Abbildung c(x) =
Θ ∀ x ∈ X , die Konfidenzniveau 1 besitzt.].
23
(8) Es bezeichne A(θ) := {x ∈ X | θ ∈ c(x)}, dann gilt offensichtlich:
x ∈ A(θ) ⇐⇒ θ ∈ c(x),
d.h. c ist Konfidenzbereich zum Niveau 1 − α falls
Pθ (A(θ)) ≥ 1 − α ∀ θ ∈ Θ
gilt. D.h. für die Angabe von c sind die Mengen A(θ) festzulegen. Damit c kleine
Bereiche liefert, sollte daher die Menge A(θ) möglichst wenig Punkte enthalten. Im
diskreten Fall würde man daher der Menge A(θ) diejenigen Werte x ∈ X zuordnen,
für die die Wahrscheinlichkeiten Pθ (X = x} am größten werden.
Beispiel 5.3: Es seien X1 , . . . , Xn ∼ B(1, θ), unabhängig identisch verteilte Zufallsvariable, dann ist
n
X
B=
Xi ∼ B(n, θ)
i=1
suffiziente Statistik für den Parameter θ und wegen der Ungleichung
n−x+1 θ
Pθ (B = x)
=
≤ 1 ⇐⇒ (n + 1)θ ≤ x
Pθ (B = x − 1)
x
1−θ
sollte man die Menge A(θ) in der Form
A(θ) ∈ {x ∈ {0, . . . , n} | a(θ) ≤ x ≤ A(θ)}
wählen, so dass für alle θ ∈ Θ
A(θ) X
n x
Pθ (A(θ)) =
θ (1 − θ)n−x ≥ 1 − α
x
x=a(θ)
gilt. Man beachte, dass durch diese Ungleichung die Grenzen a(θ) und A(θ) nicht eindeutig
festgelegt sind. Wir wählen die Grenzen ,,symmetrisch“, d.h.
a(θ) = max{k ∈ {0, . . . , n} |
k−1 X
n
θ(1 − θ)n−j ≤
α
}
2
j
n j
α
A(θ) = min{k ∈ {0, . . . , n} |
θ (1 − θ)n−j ≤ }.
2
j
j=k+1
j=0
n
X
Durch Vergleich der Ableitung bezüglich θ zeigt man leicht die Identität
Z θ
n X
n j
n!
n−j
(∗),
θ (1 − θ)
=
tx−1 (1 − t)n−x dt
j
(x
−
1)!(n
−
x)!
0
j=x
24
und wir erhalten, dass A(θ) und a(θ) monoton wachsende Funktionen in θ sind [man
beachte außerdem, dass a(θ) ≤ A(θ) gilt]. Damit ergibt sich
a(θ) ≤ x ⇐⇒ θ ≤ L(x) := sup{θ ∈ Θ | a(θ) = x}
A(θ) ≥ x ⇐⇒ θ ≥ `(x) := inf{θ ∈ Θ | A(θ) = x},
und man erhält als Konfidenzintervall zum Niveau 1 − α
(`(x), L(x))
Mit der Substitution
uα
x
; α=
1 + uα
n−x+1
erhält man für die Wahrscheinlichkeiten in (∗)
Z g(θ)
n X
n j
n−j
θ (1 − θ)
=
f2x,2(n−x+1) (u)du,
j
0
j=x
t=
wobei f2x,2(n−x+1) die in Beispiel 1.17 (3) definierte Dichte der F -Verteilung mit
(2x, 2(n − x + 1))
Freiheitsgraden ist und die Funktion g durch
g(θ) =
θ n−x+1
θ 1
=
1−θα
1−θ
x
definiert ist. Bezeichnet nun F (· | m, n) die Verteilungsfunktion der F -Verteilung mit
(m, n)-Freiheitsgraden und für β ∈ (0, 1)
Fm,n,β = F −1 (β | m, n)
das β-Quantil der F -Verteilung mit (m, n)-Freiheitsgraden, so gilt nach Definition der
F -Verteilung (Übung)
Fm,n,β = 1/Fn,m,1−β
und wir erhalten für die Grenzen
x
x
=
`(x) =
x + (n − x + 1)F2x,2(n−x+1)α/2
x + (n − x + 1)F2(n−x+1),2x,1−α/2
L(x) =
(x + 1)F2x+2,2(n−x),1−α/2
.
(x + 1)F2x+2,2(n−x),1−α/2 + n − x
Man beachte, dass L(x) Lösung der Gleichung
x X
n j
α
θ (1 − θ)n−j =
j
2
j=0
25
und `(x) Lösung der Gleichung
n X
n
j=x
j
θj (1 − θ)n−j =
α
2
ist. Die Quantile der F -Verteilung sind tabelliert und die Größen `(x) und L(x) heißen
Clopper-Pearson-Schranken für den Parameter θ.
Beispiel 5.4: (Konfidenzbereiche bei Normalverteilung) Es seien X1 , . . . , Xn i.i.d.
∼ N (µ, σ 2 ), dann sind
n
X̄n =
1X
Xj
n j=1
Ŝn2 =
1 X
(Xj − X̄n )2
n − 1 j=1
n
UMVU-Schätzer für die Parameter µ und σ 2 [vgl. Beispiel 3.14)]. Nach Beispiel 1.19 (3)
gilt für
√
n(X̄n − µ)
∼ tn−1 .
T =
Ŝn
Es bezeichne
t(x | n − 1) = P (T ≤ x) = 1 − t(−x | n − 1)
die Verteilungsfunktion der t-Verteilung mit (n − 1)-Freiheitsgraden und für β ∈ (0, 1)
tn−1,β = t−1 (β | n − 1)
das β-Quantil der t-Verteilung mit (n − 1) Freiheitsgraden. Dann gilt wegen der Eigenschaft (Übung) tn−1,β = −tn−1,1−β
Ŝn
Ŝn
Pθ (X̄n − √ tn−1,1−α/2 < µ < X̄n + √ tn−1,1−α/2 )
n
n
= Pθ (−tn−1,1−α/2 < T < tn−1,1−α/2 )
= t(tn−1,1−α/2 | n − 1) − t(−tn−1,1−α/2 | n − 1) = 1 − α,
und damit ist das Intervall
Ŝn
Ŝn
Inµ := (X̄n − √ tn−1,1−α/2 , X̄n + √ tn−1,1−α/2 )
n
n
ein (1 − α)-Konfidenzintervall für den Parameter µ. Bezeichnet entsprechend für β ∈
(0, 1) χ2n−1,β das β-Quantil der χ2 -Verteilung mit (n − 1)-Freiheitsgraden [d.h. für Z ∼
χ2n−1 gilt P (Z ≤ χ2n−1,β ) = β], so gilt wegen
Ŝn2 ∼
σ2 2
χ
n − 1 n−1
26
(vgl. Beispiel 1.19 (1))
Pθ
=
Ŝ 2 (n − 1)
n
χ2n−1,1−α/2
2
Pθ Xn−1,α/2
< σ2 <
Ŝn2 (n − 1) χ2n−1,α/2
n−1 2
α α
2
<
Ŝn < χn−1,1−α/2 = 1 − − = 1 − α.
2
σ
2
2
Damit ist
2
Inσ :=
Ŝ 2 (n − 1) Ŝ 2 (n − 1) n
, n
χ2n−1,1−α/2 χ2n−1,α/2
ein (1 − α) Konfidenzintervall für den Parameter σ 2 .
2
Übung 5.5: Man zeige, dass für die Längen λ(Inµ ) und λ(Inσ ) der in Beispiel 5.4
definierten Konfidenzbereiche gilt [θ = (µ, σ 2 )]
P
θ
0
λ(Inµ ) −→
n→∞
2
Pθ
λ(Inσ ) −→
0.
n→∞
D.h. bei wachsendem Stichprobenumfang und konstanten Konfidenzniveau werden die
Intervalle beliebig klein.
In den obigen Beispielen ging man von einer ,,naheliegenden Form“ des Konfidenzbereichs aus und bestimmte dann durch elementare Umformungen das Konfidenzintervall. In
vielen Fällen ist aber eine solche Vorgehensweise unmöglich. Man kann aber dennoch oft
Konfidenzbereiche bestimmen, die zumindest näherungsweise das Niveau (1 − α) liefern.
Definition 5.6: Für n ∈ N sei X (n) ∼ fθ eine Zufallsvariable mit Werten in Xn ,
cn : Xn → C ein Konfidenzbereich für θ ∈ Θ. Die Folge (cn )n∈N heißt asymptotischer
Konfidenzbereich zum Niveau α, falls für alle θ ∈ Θ gilt:
lim Pθ (θ ∈ cn (X (n) )) ≥ 1 − α
n→∞
(in den wichtigsten Fällen ist der lim ein lim und das , , ≥ “ ein , , = “).
Beispiel 5.7: (asymptotisches Konfidenzintervall bei Binomialverteilung) Es
seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ B(1, θ), dann
gilt nach Beispiel 4.14
√
n(X̄n − θ) D
−→ N (0, 1).
Zn := p
X̄n (1 − X̄n )
27
Mit
q
u1−α/2
= X̄n − √
X̄n (1 − X̄n )
n
q
u1−α/2
+
X̄n (1 − X̄n )
θn (X) = X̄n + √
n
θn− (X)
gilt daher
lim Pθ (θn− (X) < θ < θn+ (X)) = lim P (−u1−α/2 < Zn < u1−α/2 )
n→∞
n→∞
= Φ(u1−α/2 ) − Φ(−u1−α/2 ) = 1 − α
und damit ist (θn− (X), θn+ (X)) ein asymptotisches (1 − α) Konfidenzintervall für den Parameter θ.
Bemerkung 5.8: (ein allgemeines Prinzip zur Konstruktion von asymptotischen Konfidenzbereichen mit der ML-Methode) Es seien X1 , . . . , Xn unabhängig
(1)
identisch verteilte Zufallsvariable mit Dichte fθ ; θ ∈ Θ ⊂ R, dann gilt unter den Annahmen aus Satz 4.6 und 4.18 für einen Maximum-Likelihood-Schätzer θ̂n = θ̂n (X) :
P
θ
θ̂n −→
θ
√
Dθ
n(θ̂n − θ) −→
N1 (0,
wobei
I1 (θ) = Eθ
1
)
I1 (θ)
h ∂
2 i
(1)
log fθ (X1 )
∂θ
(1)
die Fisher-Information der Dichte fθ bezeichnet. Unter Stetigkeitsvoraussetzungen gilt
auch
D
I1 (θ̂n ) −→ I1 (θ) (∀ θ ∈ Θ),
und man erhält mit dem Lemma von Slutsky
q
Dθ
nI1 (θ̂n )(θ̂n − θ) −→
N1 (0, 1).
Daher ergibt sich
h
u1−α/2 i
u1−α/2
θ̂n − q
, θ̂n + q
nI1 (θ̂n )
nI1 (θ̂n )
als asymptotisches (1 − α)-Konfidenzintervall für den Parameter θ. Man beachte, dass wir
diese Methode in Beispiel 5.7 verwendet haben.
Beispiel 5.9: Es seien X1 , . . . , Xn unabhängig identisch exponential-verteilte Zufallsvari(1)
able mit Parameter λ, d.h. für die Dichte fλ von X1 gilt
(1)
fλ (t) =
1 −t/λ
e
I[0,∞) (t),
λ
28
λ > 0.
Man zeigt leicht, dass
λ̂n = X̄n
der Maximum-Likelihood-Schätzer für den Parameter λ ist und aus Beispiel 2.41 erhalten
(1)
wir für die Fisher-Information von fλ
I1 (λ) =
1
.
λ2
Offensichtlich ist die Fisher-Information I1 (als Funktion von λ stetig. Damit gilt
√
n
Dλ
(λ̂n − λ) −→
N (0, 1)
λ̂n
und
h
u1−α/2
u1−α/2 i
λ̂n (1 − √ ), λ̂n 1 + √
n
n
ist asymptotisches (1 − α)-Konfidenzintervall für den Parameter λ.
Bemerkung 5.10 (konservative Konfidenzbereiche für Parametervektoren) Es
sei X ∼ fθ eine Zufallsvariable, θ = (θ1 , . . . , θd )T ∈ Θ = Θ1 × . . . × Θd und für jedes
i = 1, . . . , d; ci : X → Θi ein 1 − αi -Konfidenzbereich für θi , d.h.
Pθ (θi ∈ ci (X)) ≥ 1 − α ∀ θ ∈ Θ.
Dann ist
(
c:
X → Θ
x → c1 (x) × . . . × cd (x)
ein Konfidenzbereich für den Vektor θ = (θ1 , . . . , θd ) zum Niveau 1 −
entsprechende Aussage gilt für asymptotische Konfidenzbereiche.
Pd
i=1
αi . Eine
Beispiel 5.11: Es seien X1 , . . . , Xn ∼ γ(α, λ) unabhängig identisch verteilte Zerfallsvariable mit θ = (α, λ) ∈ (0, ∞)2 [vgl. Beispiel 4.8]. In Beispiel 4.19 haben wir für den
Maximum-Likelihood-Schätzer (λ̂n , α̂n )T gezeigt
!
√
λ̂n
λ
Dθ
n
−
−→
N2 (0, Σ(λ, α)),
α̂n
α
wobei die Kovarianzmatrix durch

Σ(λ, α) = 
α
λ2
− λ1
Γ00 (α)
Γ(α)
29
−1
− λ1
0 2 
(α)
− ΓΓ(α)
gegeben ist. Mit Lemma 4.13(2) und Beispiel 1.15 gilt dann
√
n
(λ̂n − λ) → N (0, 1)
d11 (λ̂n , α̂n )
√
n
(α̂n − α) → N (0, 1),
d22 (λ̂n , α̂n )
wobei d2ii (λ, α) das i-te Diagonalelement der Matrix Σ(λ, α) bezeichnet. Damit sind
h
d11 (λ̂n , α̂n )
d11 (λ̂n , α̂n ) i
√
√
c1 (x) = λ̂n − u1−γ/2
, λ̂n + u1−γ/2
n
n
h
d22 (λ̂n , α̂n )
d22 (λ̂n , α̂n ) i
√
√
c2 (x) = α̂n − u1−γ/2
, α̂n + u1−γ/2
n
n
jeweils asymptotische Konfidenzintervall e zum Niveau 1 − γ und
c1 (x) × c2 (x)
ein asymptotisches Konfidenzrechteck für den Vektor (λ, α) zum Niveau 1 − 2γ.
6
Grundbegriffe statistischer Tests
Beispiel 6.1: In diesem Abschnitt sollen Hypothesen über den unbekannten Parameter
θ ∈ Θ in einem statistischen Experiment (X , P);
P = {fθ | θ ∈ Θ}
untersucht werden. Man betrachte dazu als einfachstes Beispiel ein lang erprobtes Medikament A mit einer Heilungswahrscheinlichkeit θ0 = 0.65. Ein neues Medikament B wurde
an 100 Patienten getestet und es ergaben sich dabei 90 erfolgreiche Therapien. Die
grundsätzliche Frage ist, ob das neue Medikament B besser als das Medikament A ist,
oder ob dieses Ergebnis zufallsbedingt zu Stande gekommen ist. Bezeichnet der Parameter θ die (unbekannte) Heilungswahrscheinlichkeit von Medikament B, so sind auf Basis
der gegebenen Stichprobe die Hypothesen
H : θ ≤ θ0 = 0.65 K : θ > θ0
zu prüfen.
Definition 6.2: Es sei X ∼ fθ ; eine Zufallsvariable θ ∈ Θ und
Θ = ΘH ∪ Θk
eine disjunkte Zerlegung des Parameterbereichs. Ein randomisierter Test ist eine (messbare) Abbildung
ϕ : X → [0, 1].
30
Dabei gibt ϕ(x) die Wahrscheinlichkeit für die Entscheidung K : θ ∈ Θk an, falls x = X(ω)
beobachtet wurde. Die Menge ΘH heißt Nullhypothese und die Menge ΘK Alternative.
Mit Φ bezeichnen wir die Menge aller Tests, für ϕ ∈ Φ heißt die Menge
K := {x ∈ X | ϕ(x) = 1}
kritischer Bereich und die Menge
R := {x ∈ X | 0 < ϕ(x) < 1} ⊂ X
Randomisierungsbereich. Ein Test ϕ heißt nichtrandomisiert, falls
R = ∅ ⇐⇒ ϕ(X ) = {0, 1}
gilt.
Beispiel 6.3: In Beispiel 6.1 ist Θ = (0, 1), ΘH = (0, 0.65], ΘK = (0.65, 1), wobei θ
die unbekannte Wahrscheinlichkeit für einen Therapieerfolg bezeichnet. Eine geeignet
stochastische Modellierung erhält man, indem man die Versuchsausgänge für die einzelnen
Experimente durch unabhängige identisch verteilte Zufallsvariable X1 , . . . , Xn mit X1 ∼
B(1, θ) modelliert. Dabei bedeutet Xi = 1, dass der i-te Patient durch das Medikament
B geheilt wurde, θ bezeichnet die Wahrscheinlichkeit für einen Therapieerfolg und der
Stichprobenumfang ist n = 100.
Da X̄n ein UMVU-Schätzer für den Parameter θ ist, ist es naheliegend, für ,,große“ Werte
von X̄n für die Alternative K : θ > 0.65 zu entscheiden. Ein ,,typischer“ Test für diese
Fragestellung ist die Abbildung ϕ : {0, 1}n → [0, 1], die durch
(
( )
)
>
1
ϕ(x) :=
falls x̄n
0.7
≤
0
definiert ist. Offensichtlich ist der Test ϕ nichtrandomisiert.
Bemerkung 6.4: Bei der Anwendung eines Tests können zwei Fehler auftreten. Man
spricht von einem Fehler erster Art, falls der Test für die Alternative θ ∈ ΘK entscheidet,
aber in Wirklichkeit θ ∈ ΘH gilt, und von einem Fehler zweiter Art, falls der Test für die
Nullhypothese θ ∈ ΘH entscheidet, aber in Wirklichkeit θ ∈ ΘK gilt. Beide Fehler treten
mit bestimmten Wahrscheinlichkeiten auf und die Aufgabe der schließenden Statistik
besteht darin, diese Wahrscheinlichkeiten für dieses Auftreten zu quantifizieren. Man
beachte, dass man nicht feststellen kann, ob ein Fehler erster oder zweiter Art aufgetreten
ist, da der ,,wahre“ Parameter θ nicht bekannt ist.
Test
ΘH
ΘK
Wirklichkeit
ΘH
korrekt
Fehler 1-ter Art
31
ΘK
Fehler 2-ter Art
korrekt
Beispiel 6.5: (Fortsetzung von Beispiel 6.1 und 6.3) Für den Test aus Beispiel 6.3
erhält man
Pθ (ϕ(X) = 1) = Pθ (X̄n > 0.7)
√
√n(X̄ − θ)
n(0.7 − θ) n
= Pθ p
>p
X̄n (1 − X̄n )
X̄n (1 − X̄n )
√n(0.7 − θ) ,
≈ 1−Φ p
X̄n (1 − X̄n )
wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet und sich die
Approximation aus dem Satz von Moivre-Laplace und dem Lemma von Slutsky ergibt
[vgl. Bsp. 4.14 (1)]. Für die konkret vorliegenden Daten (n = 100, X̄n = 0.8) erhalten
wir dann
10(θ − 0.7) Pθ (ϕ(X) = 1) ≈ Φ
0.4
und Monotonie-Betrachtungen ergeben für die Fehlerwahrscheinlichkeiten näherungsweise


≈0
falls θ = 0.5


falls θ = 0.6
Pθ (Fehler erster Art) ≈ 0.006


 ≤ sup Pθ (ϕ(X) = 1) ≈ 0.106
θ∈(0,0.65)

≈0




 ≈ 0.006
Pθ (Fehler zweiter Art) ≈ 0.5




 ≤ sup
falls θ = 0.9
falls θ = 0.8
falls θ = 0.7
Pθ (ϕ(X) = 0) ≈ 0.894
θ∈(0.65,1)
Bemerkung 6.6: Offensichtlich hängen in Beispiel 6.5 die Fehlerwahrscheinlichkeiten
von dem unbekannten Parameter θ ab. Wünschenswert wäre eine simultane Minimierung
der Wahrscheinlichkeiten für Fehler erster und zweiter Art durch geeignete Wahl des
Testverfahrens ϕ. Durch Betrachtung der konstanten Abbildungen ϕ1 (x) ≡ 1 und ϕ0 (x) ≡
0 sieht man allerdings sofort, dass eine solche Minimierung unmöglich ist.
Man geht daher pragmatisch vor und legt eine Schranke α ∈ (0, 1) für eine noch tolerierbare Wahrscheinlichkeit für den Fehler erster Art fest [üblich sind Werte α ∈ [0.01, 0.1]
und versucht dann optimale Testverfahren zu konstruieren, die die Wahrscheinlichkeit für
den Fehler 2-ter Art minimieren. Man beachte, dass durch diese Vorgehensweis das ursprünglich symmetrische Entscheidugnsproblem unsymmetrisch wird. Man wird daher in
der Alternative immer diejenige Entscheidung formulieren, die die schwerwiegenden Konsequenzen hat (da man bei einer Entscheidung für ΘK entweder keinen Fehler gemacht
oder die Wahrscheinlichkeit für diesen Fehler (erster Art) kontrolliert hat).
32
Definition 6.7: Es sei X eine Zufallsvariable mit Dichte fθ und ϕ ein Test für die
Hypothesen H : θ ∈ ΘH ; K : θ ∈ ΘK , dann heißt die Funktion
(
Θ → [0, 1]
βϕ :
θ → βϕ (θ) := Eθ [ϕ(X)]
Gütefunktion von ϕ. Ein Test ϕ ∈ Φ heißt Test zum Niveau α ∈ (0, 1), falls
sup βϕ (θ) ≤ α
θ∈ΘH
gilt, und Φα bezeichne die Menge aller Tests zum Niveau α. Die Größe α heißt Irrtumswahrscheinlichkeit. Ein Test ϕ ∈ Φ heißt unverfälscht zum Niveau α, falls gilt
ϕ ∈ Φα
(d.h. ϕ ist Test zum Niveau α) und
inf βϕ (θ) ≥ α
θ∈ΘK
gilt; Φαα bezeichne die Menge aller unverfälschten Tests zum Niveau α.
Bemerkungen 6.8:
(1) βϕ (θ) gibt die Wahrscheinlichkeit an, für die Alternative ΦK zu entscheiden, falls θ
der ,,wahre“ Parameter ist. Für θ ∈ ΘH ist also βϕ (θ) die Wahrscheinlichkeit für
einen Fehler erster Art, während 1 − βϕ (θ) für θ ∈ ΘK die Wahrscheinlichkeit für
einen Fehler zweiter Art angibt. Z.B. gilt nämlich im diskreten Fall für θ ∈ ΘH
X
Pθ (Entscheidung für ΘK | X = x)Pθ (X = x)
Pθ (Fehler erster Art) =
x
=
X
ϕ(x)Pθ (X = x) = Eθ [ϕ(X)] = βϕ (θ)
x
und analoge Darstellungen ergeben sich für die anderen Fälle.
(2) Ist ϕ Test zum Niveau α ∈ (0, 1), dann gilt für alle Parameterwerte θ ∈ ΘH
Pθ (Fehler erster Art) ≤ α,
d.h. die Wahrscheinlichkeit für einen Fehler erster Art ist maximal α.
(3) Ist ϕ unverfälscht, so soll für Parameterwerte θ ∈ ΘK die Wahrscheinlichkeit, für
ΘK zu entscheiden, nicht kleiner sein als für Parameterwerte θ ∈ ΘH .
Beispiel 6.9: (approximative Berechnung der Gütefunktion im Beispiel 6.5)
Mit den Bezeichnungen aus Beispiel 6.3 und Beispiel 6.5 gilt für die Gütefunktion des
Tests aus Beispiel 6.3 näherungsweise
(
[0, 1] → [0, 1]
βϕ :
10(θ−0.7)
θ
→ βϕ (θ) ≈ Φ
0.4
33
(4) Wünschenswert ist also für θ ∈ ΘH : βϕ (θ) ≈ 0 und für θ ∈ ΘK : βϕ (θ) ≈ 1 zu
erreichen!
Definition 6.10:
(1) Ein Test ϕ∗ ∈ Φα heißt gleichmäßig bester Test zum Niveau α bzw. UMP-Test
(uniformly most powerful), falls für alle Parameterwerte θ ∈ ΘK gilt:
βϕ∗ (θ) = sup βϕ (θ).
ϕ∈Φα
In anderen Worten: für alle θ ∈ ΘK minimiert ϕ∗ die Wahrscheinlichkeit für einen
Fehler 2-ter Art in der Klasse aller Tests zum Niveau α.
(2) Ein Test ϕ∗ ∈ Φαα heißt gleichmäßig bester unverfälschter Test zum Niveau α bzw.
UMPU-Test (uniformly most powerful unbiased), falls für alle θ ∈ ΘK gilt:
βϕ∗ (θ) = sup βϕ (θ).
ϕ∈Φαα
Satz 6.11: Es sei X eine Zufallsvariable mit Dichte fθ ; ϕ : X → [0, 1] ein Test für die
Hypothesen H : θ ∈ ΘH ; K : θ ∈ ΘK und T : X → τ eine suffiziente Statistik für den
Parameter θ. Dann existiert ein Test der Form ψ ◦ T (mit ψ : τ → [0, 1]), der dieselbe
Gütefunktion wie ϕ hat, nämlich
(ψ ◦ T )(X) = Eθ [ϕ(X) | T (X)]
(man beachte, dass der Erwartungswert wegen der Suffizienz der Statistik T unabhängig
von dem Parameter θ ist).
Bemerkung 6.12: Satz 6.11 zeigt dass man sich bei der Konstruktion von Tests auf
Verfahren beschränken kann, die nur von der suffizienten Statistik abhängen. Für die
Konstruktion optimaler Tests ist zunächst ein genaues Verständnis des einfachsten (aber
nicht unbedingt praxisrelevanten) Falls von einfachen Hypothesen
Θ = {θ0 , θ1 };
ΘH = {θ0 };
ΘK = {θ1 }
erforderlich. In diesem Fall ist die Statistik
Lθ0 ,θ1 (x) :=
fθ1 (x)
fθ0 (x)
(nach dem Neyman-Kriterium 2.5) suffizient für den Parameter θ (falls fθ0 (x) = fθ1 (x) = 0
definieren wir den Quotienten beliebig, falls fθ0 (x) = 0 und fθ1 (x) > 0 als ∞). Die Statistik
34
Lθ0 ,θ1 (x) heißt Likelihood-Quotient und ein UMP-Test zum Niveau α für die Hypothesen
H : θ = θ0 ; K : θ = θ1 maximiert
βϕ (θ1 ) = Eθ1 [ϕ(x)]
bzgl. der Wahl von ϕ unter der Nebenbedingung
βϕ (θ0 ) = Eθ0 [ϕ(x)] ≤ α.
Definition 6.13: Mit den Bezeichnungen aus Bemerkung 6.12 heißt ein Test ϕ ∈ Φ ein
Neyman-Pearson-Test, falls es ein c ∈ [0, ∞] gibt, so dass für alle x ∈ X gilt:
( )
(
)
1
>
ϕ(x) =
falls fθ1 (x)
cfθ0 (x)
0
<
(man beachte, dass keine Aussage über den Fall fθ1 (x) = cfθ0 (x) gemacht wird).
Satz 6.14: (Neyman-Pearson-Lemma)
(1) Ein Neyman-Pearson-Test ϕ∗ ist UMP-Test zum Niveau α = Eθ0 [ϕ∗ (X)] für die
Hypothesen H : θ = θ0 ; K : θ = θ1 .
(2) Für alle α ∈ [0, 1] existiert ein Neyman-Pearson-Test ϕ für die Hypothesen
H : θ = θ0 ; K : θ = θ1 mit Eθ0 [ϕ(x)] = α.
(3) Ist ϕ ein UMP-Test für die Hypothesen H : θ = θ0 ; K : θ = θ1 zum Niveau α, dann
ist ϕ vom Neyman-Pearson-Typ, d.h. es existiert ein c ∈ [0, ∞] und eine Funktion
γ : χ → [0, 1], so dass
ϕ(x) = I{fθ1 (x) > cfθ0 (x)} + γ(x)I{fθ1 (x) = cfθ0 (x)}
für alle x ∈ {z | fθ0 (z) + fθ1 (z) > 0} gilt.
Beachte: Teil (1) und Teil (2) aus Satz 6.14 liefern die Existenz eines UMP=Tests zu
gegebenem Niveau α ∈ [0, 1] für einfache Hypothesen. Teil (3) dieses Satzes zeigt, dass
der UMP-Test im wesentlichen eindeutig bestimmt ist. Ist die Funktion α aus dem obigen
Beweis stetig, so kann in der Konstruktion des UMP-Tests ϕ∗ zum Niveau α ∈ [0, 1] für
die Hypothesen H : θ = θ0 ; θ = θ1 stets γ ∗ = 0 gewählt werden.
Beispiel 6.15: Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit
X1 ∼ N1 (µ, σ 2 ), wobei der Parameter σ 2 als bekannt angenommen wird. Für die Bestimmung des UMP-Tests für die Hypothesen
H : µ = µ0
K : µ = µ1
35
(µ0 < µ1 gegeben) berechnen wir die gemeinsame Dichte der Zufallsvariablen X1 , . . . , Xn
n
n
n 1 X
o
X
x2` − 2µj
x` + nµ2j k(µ0 , µ1 , σ 2 ) j = 1, 2
fµj (x) = (2πσ 2 )−n/2 exp − 2
2σ `=1
`=1
und erhalten für den Likelihood-Quotienten
n
n1 X
o
fµ1 (x)
= exp 2
x` (µ1 − µ0 ) k(µ0 , µ1 , σ 2 )
Lµ0 ,µ1 (x) =
fµ0 (x)
σ `=1
mit der von den Daten unabhängigen Konstanten
n
k(µ0 , µ1 , σ 2 ) = exp − 2 (µ21 − µ20 ) .
2σ
Damit ist die Ungleichung Lµ0 ,µ1 (x) > c̃ äquivalent zu der Ungleichung (man beachte
µ1 > µ 0 )
n
1X
xi > c
n i=1
und wir erhalten für die Funktion α(·) aus dem Beweis von Satz 6.14(2)
α(c) = Pµ0
n
1 X
n
Xi > c) = 1 − Φ
i=1
√n
σ
(c − µ0 ) .
Diese Funktion ist offensichtlich
stetig und für α ∈ (0, 1) ergibt die Bedingung α(c) = α
√
die Gleichung c = µ0 + σ/ nu1−α . Der UMP-Test für die obigen Hypothesen lautet damit
( )
(
)
σ
1
>
ϕ(x) =
falls x̄n
µ0 + √ u1−α
n
0
≤
P
(man beachte, dass die Zufallsvariable n1 ni=1 Xi eine stetige Verteilungsfunktion besitzt
und daher die Konstante γ ∗ = 0 gewählt werden kann).
Übung 6.16: Man zeige für die Situation aus Beispiel 6.15 mit bekannten µ ∈ R und
unbekanntem σ 2 > 0, dass der Test
(
)
( )
n
X
>
1
ϕ(x) =
falls
(xj − µ)2
σ02 χ2n,1−α
0
≤
j=1
einen UMP-Test für die Hypothesen
H : σ 2 = σ02
K : σ 2 = σ12
definiert (dabei sei σ02 < σ12 gegeben und χ2n,β bezeichne das β-Quantil der χ2 -Verteilung
mit n Freiheitsgraden).
36
Das Neyman-Pearson-Lemma ist ein wichtiges Hilfsmittel für die Konstruktion von optimalen Tests für kompliziertere Hypothesen. UMP-Tests existieren im wesentlichen nur
für einfache Hypothesen und im Fall Θ ⊂ R für einseitige Hypothesen der Form
H : θ ≤ θ0
K : θ > θ0 ,
falls die zugehörige Verteilungsfamilie die Eigenschaft des isotonen Dichtequotienten besitzt, die in der folgenden Definition erläutert wird.
Definition 6.17: Es sei X ∼ fθ eine n-dimensionale Zufallsvariable, θ ⊂ R und T : X →
R eine Statistik. Die Familie von Verteilungen
P = {fθ | θ ∈ Θ}
heißt Klasse mit (strikt) isotonem Dichtequotienten in der Statistik T, falls für alle θ0 , θ1 ∈
Θ mit θ0 < θ1 eine strikt isotone Funktion
Hθ0 ,θ1 : R → [0, ∞]
existiert, so dass der Likelihood-Quotient die Darstellung
fθ1 (x)
= Hθ0 ,θ1 (T (x))
fθ0 (x)
für alle
x ∈ {z ∈ X | fθ0 (z) + fθ1 (z) > 0}
besitzt.
P
Beispiel 6.18: In der Situation von Beispiel 6.15 ist T (x) = n`=1 x` und
nµ − µ o
1
0
t
Hµ0 ,µ1 (t) = k(µ0 , µ1 , σ 2 ) exp
σ2
streng monoton wachsende Funktion (man beachte µ0 < µ1 ), so dass gilt
Lµ0 ,µ1 (x) = Hµ0 ,µ1 (T (x)).
Damit hat die zugehörige
P Verteilungsfamilie einen strikt isotonen Dichte-Quotienten in
der Statistik T (x) = ni=1 xi .
Übung 6.19: Es sei P = {fθ | θ ∈ Θ} eine Verteilungsfamilie mit Θ ⊂ R,
fθ (x) = c(θ)h(x) exp(Q(θ)T (x))IA (x)
eine einparametrige exponentielle Familie mit monoton wachsender Funktion Q. Man
zeige: die Verteilungsfamilie P besitzt einen isotonen Dichte-Quotienten in der Statistik
T.
37
Satz 6.20: Es sei X ∼ fθ eine n-dimensionale Zufallsvariable und für die Statistik
T : X → R besitze die Familie von Verteilungen
P = {fθ | θ ∈ Θ}
(Θ ⊂ R) einen isotonen Dichte-Quotienten. Für α ∈ (0, 1) und θ0 ∈ Θ gilt für den durch
ϕ∗ (x) := I{T (x) > c} + γI{T (x) = c}
mit
c := inf{t | Pθ0 (T (X) > t) ≤ α}
(
γ :=
α−Pθ0 (T (X)>c)
Pθ0 (T (X))=c)
falls Pθ0 (T (X) = c) > 0
0
falls Pθ0 (T (X) = c) = 0
definierten Test:
(1) ϕ∗ ist UMP-Test zum Niveau α für die einseitigen Hypothesen
H : θ ≤ θ0 ;
K : θ > θ0 .
(2) Für alle θ < θ0 gilt:
βϕ∗ (θ) = inf{βϕ (θ) | ϕ ∈ Φ; βϕ (θ0 ) = α}.
D.h. ϕ∗ minimiert auch gleichmäßig die Wahrscheinlichkeit für einen Fehler erster
Art unter allen Tests, die für θ = θ0 als Wahrscheinlichkeit für einen Fehler erster
Art exakt α liefern.
(3) Die Gütefunktion
(
βϕ∗ :
Θ → [0, 1]
θ → βϕ∗ (θ) = Eθ [ϕ∗ (X)]
ist strikt isoton auf dem Urbild βϕ−1∗ ((0, 1)).
Beispiel 6.21: In der Situation aus Beispiel 6.15 hat (vgl. Beispiel 6.18) die zugehörige
Verteilungsfamilie einen isotonen Dichtequotienten in der Statistik
n
T (X) =
1X
Xi ∼ N (µ, σ 2 ),
n i=1
und wie in Beispiel 6.15 zeigt man für µ0 ∈ R
n
n
1 X
o
σ
Xi > t ≤ α = µ0 + √ u1−α .
c = inf t | Pµ0
n i=1
n
38
Damit definiert
σ
ϕ∗ (x) = I{x̄n > µ0 + √ u1−α }
n
einen UMP-Test zum Niveau α für die Hypothesen
H : µ ≤ µ0 ; K : µ > µ 0
Dieser Test heißt einseitiger Gaußtest und kann auch leicht heuristisch hergeleitet werden.
(man beachte, dass σ 2 als bekannt vorausgestzt wird). Da X̄n UMVU-Schätzer für µ ist,
liegt es nahe, die Hypothese H für ,,große“ Werte von X̄n zu verwerfen und bei ,,kleinen“
Werten für die Nullhypothese H zu entscheiden. D.h. ein sinnvoller Test die Form
ϕ∗ (x) = I{x̄n > c}
besitzen, wobei die Konstante c durch die vorgegebene Irrtumswahrscheinlichkeit festgelegt wird. Wegen
√ µ − c X̄ − µ
c − µ
n
=Φ n
βϕ (µ) = Pµ (X̄n > c) = Pµ q
> q
σ
σ2
σ2
n
gilt
n
√n(µ − c) 0
≤ α.
sup βϕ∗ (µ) = βϕ∗ (µ0 ) = Φ
σ
µ≤µ0
Will man die vorgegebene Irrtumswahrscheinlichkeit voll ausschöpfen, so erhält man aus
der Gleichung supµ≤µ0 βϕ∗ (µ) = α die Darstellung c = µ0 + √σn u1−α und damit den obigen
Gauß-Test.
Man beachte, dass dieses heuristische Prinzip auch leicht im Fall unbekannter Varianz
anwendbar ist. In diesemPFall ersetzt man σ 2 in der obigen Rechnung durch seinen
n
1
2
UMVU-Schätzer Ŝn2 = n−1
j=1 (Xj − X̄n ) und erhält mit Übung 1.19 (4)
βϕ (µ) = Pµ
√n(X̄ − µ)
n
Ŝn
√
>
n
Ŝn
(c − µ) .
Man beachte, dass die Zufallsvariable
√
n(X̄n − µ)
Ŝn
eine t-Verteilung mit (n − 1)-Freiheitsgraden besitzt. Man erkennt wieder, dass die Funktion µ → βϕ (µ) monoton wachsend in µ ist und dass man mit der Wahl
Ŝn
c = µ0 + √ tn−1,1−α
n
die Gleichung
sup βϕ (µ) = α
µ≤µ0
39
erfüllt ist. Damit erhält man
n
o
Ŝn
ϕ∗∗ (x) = I X̄n > µ0 + √ tn−1,1−α
n
als Test zum Niveau α für die Hypothesen H : µ ≤ µ0 ; K : µ > µ0 bei normalverteilten
Daten mit unbekannter Varianz σ 2 . Dieser Test heißt einseitiger (Einstichproben) t-Test
und die Vorgehensweise σ 2 durch seinen Schätzer Ŝn2 zu ersetzen, nennt man ,,studentisieren“.
Die Optimalität dieses Verfahrens wird in Beispiel 6.29 geklärt.
Bemerkung 6.22 : Für Hypothesen der Form
(∗)
H : θ = θ0 ;
K : θ 6= θ0
existieren im allgemeinen keine UMP-Tests, da ein solcher Test für alle Hypothesen der
Form
(∗∗)
H : θ = θ0 ;
K : θ = θ1
mit θ0 6= θ1 optimal sein müsste. Für solche Hypothesen ist aber der Neyman-PearsonTest optimal und man kann zeigen, dass jeder UMP-Test für die Hypothesen in (∗∗) vom
Neyman-Pearson-Typ ist (vgl. 6.14(3)). Damit müsste ein UMP-Test für die Hypothesen
(∗∗) im Fall θ1 > θ0 die Darstellung
ϕ(x) = I{T (x) > c} + γ(x)I{T (x) = c}
und im Fall θ1 < θ0 die Darstellung
ϕ(x) = I{T (x) < c̃} + γ(x)I{T (x) = c̃}
besitzen, was einen Widerspruch ergibt. In diesen Fällen erhält man optimale Tests, in
dem man sich auf die Klasse der unverfälschten Tests beschränkt und einparametrige
exponentielle Familien betrachtet.
Satz 6.23: Es sei X ∼ fθ , θ ∈ Θ ⊂ R eine n-dimensionale Zufallsvariable und, so dass
die Familie P = {fθ | θ ∈ Θ} eine einparametrige exponentielle Familie (vgl. Übung 6.19)
mit monoton wachsender Funktion Q(θ) bildet θ0 , θ1 , θ2 ∈ Θ; θ1 < θ2 .
(1) Es existiert ein UMP-Test zum Niveau α ∈ (0, 1) für die Hypothesen
H : θ 6∈ (θ1 , θ2 );
K : θ ∈ (θ1 , θ2 ),
nämlich ein Test der Form






1


 ∈ (c1 , c2 )
∗
ϕ (x) =
falls T (x) = ci i = 1, 2
γi


 0

 6∈ [c , c ]
1 2
40
wobei die Konstanten c1 , c2 , γ1 , γ2 aus den Bedingungen
βϕ∗ (θ1 ) = βϕ∗ (θ2 ) = α
bestimmt werden.
(2) Es existiert ein UMPU-Test zum Niveau α ∈ (0, 1) für die Hypothesen
H : θ ∈ [θ1 , θ2 ];
K : θ 6∈ [θ1 , θ2 ],
nämlich ein Test der Form





 1

 6∈ [c1 , c2 ]
∗
(∗) ϕ (x) =
falls T (x) = ci i = 1, 2
γi


 0

 ∈ (c , c )
1 2
wobei die Konstanten c1 , c2 , γ1 , γ2 durch die Bedingungen
βϕ∗ (θ1 ) = βϕ∗ (θ2 ) = α
bestimmt werden.
(3) Es existiert ein UMPU-Test zum Niveau α ∈ (0, 1) für die Hypothesen
H : θ = θ0 ;
K : θ 6= θ0 ,
nämlich ein Test der Form (∗), wobei die Konstanten c1 , c2 , γ1 , γ2 durch die Bedingungen
βϕ∗ (θ0 ) = α
βϕ0 (θ0 ) = 0 ⇐⇒ Eθ0 [T (X)ϕ∗ (X)] = αEθ [T (X)]
festgelegt werden.
Beispiel 6.24: Es seien X1 , . . . , Xn ∼ N (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariable und σ 2 bekannt und es soll ein Test für die Hypothesen
H : µ ∈ [−ε, ε];
K : µ 6∈ [−ε, ε]
konstruiert werden ( man spricht vom Testen auf einen relevanten Unterschied).
gemeinsamen Dichten
fµ (x) =
√
2πσ 2
−n
Die
n
n
nµ2 µ X
1 X 2
exp − 2
xj exp − 2 exp 2
xj
2σ j=1
2σ
σ j=1
P
bilden eine einparametrige exponentielle Familie mit T (x) = n1 nj=1 xj und Q(µ) = nµ/σ 2
(man beachte, dass der Parameter σ 2 als bekannt vorausgesetzt wurde). Da die Verteilung
der Zufallsvariablen
n
1X
T (X) =
Xj
n j=1
41
stetig ist, können die Konstanten γ1 , γ2 als 0 gewählt werden und im Fall ε > 0 hat ein
UMPU-Test die Gestalt
( )
(
1
6∈ (c1 , c2 )
(∗) ϕ∗ =
falls T (x)
,
0
∈ [c1 , c2 ]
wobei die Konstanten c1 , c2 durch die Bedingung
n
1X
α = βϕ∗ (µ) = Eµ [ϕ (X)] = 1 − Pµ c1 ≤
Xi ≤ c2
n i=1
√
√
√
n(c − µ)
n(X̄n − µ)
n(c2 − µ) 2
≤
≤
= 1 − Pµ
σ
σ
σ
√n(c − µ) √n(c − µ) 2
1
+Φ
= 1−Φ
σ
σ
∗
für µ = ∓ε festgelegt werden. Wegen der Symmetrie des Problems bietet sich die Wahl
c1 = −c2 < 0 an und wir erhalten für beide Gleichungen
√n(c − ε) √n(−c − ε) 2
2
α=1−Φ
+Φ
= h(c2 ).
σ
σ
Durch Differenzieren zeigt man, dass diese Gleichung genau eine Lösung hat, die numerisch
ermittelt werden muss.
Für ε = 0 erhalten wir aus Satz 6.23(3) die Gleichungen
√n √n c2 + Φ
c1
α = βϕ∗ (0) = 1 − Φ
σ
√
√ n σ√
n o
n
n 0
ϕ
c2 − ϕ
c1 ,
0 = βϕ∗ (0) =
σ
σ
σ
wobei
1
2
ϕ(t) = √ e−t
2π
die Dichte der Standardnormalverteilung bezeichnet. Das liefert als explizite Lösung
σ
c2 = −c1 = √ u1−α/2 ,
n
und mit diesen kritischen Werten aus (∗) einen UMPU-Test für die Hypothesen
K : µ 6= 0.
H : µ = 0;
Dieser Test heißt zweiseitiger Gauß-Test.
Wir bemerken abschließend, dass durch Translation jedes Testproblem für die Hypothesen
H : µ ∈ [µ1 , µ2 ];
K : µ 6∈ [µ1 , µ2 ]
mit µ1 ≤ µ2 auf die obige Form transformiert werden kann [man betrachte statt der
Zufallsvariablen X̃i = Xi die Zufallsvariablen X̃ := Xi − (µ1 + µ2 )/2].
42
Übung 6.25: Wie in Beispiel 6.21 leite man den zweiseitigen Gauß-Test für die Hypothesen
H : µ = µ0 ; K : µ 6= µ0
mit einem heuristischen Argument her. Man zeige dann, dass bei unbekannter Varianz
der Test
n
o
ŝn
ϕ(x) = I |x̄n − µ0 | > √ tn−1,1−α/2
n
das Niveau α besitzt, wobei tn−1,β das β-Quantil der t-Verteilung mit n−1 Freiheitsgraden
bezeichnet. Dieser Test heißt zweiseitiger t-Test.
Übung 6.26: (Varianztest bei Normalverteilung) Es seien X1 , . . . , Xn ∼ N (µ, σ 2 )
unabhängig identisch verteilte Zufallsvariable und µ bekannt. Die Verteilungen von
(X1 , . . . , Xn ) bilden eine einparametrige exponentielle Familie
2 −n/2
fσ2 (x) = (2πσ )
n
1 X
exp − 2
(xj − µ)2
2σ i=1
mit isotoner Funktion Q(σ 2 ) = − σ12 und Statistik T (x) =
6.19 und Satz 6.20 liefert
ϕ(x) = I{T (x) > c}
Pn
j=1 (xj
− µ)2 . Wegen Übung
einen UMP-Test zum Niveau α ∈ (0, 1) für die Hypothesen
H : σ 2 ≤ σ02 ;
K : σ 2 > σ02 ,
falls die Konstante c durch die Bedingung
α=
βϕ (σ02 )
= Pσ02
n
X
(Xj − µ)2 > c
j=1
festgelegt ist. Falls σ 2 = σ02 ist, gilt
n
X
(Xj − µ)2 ∼ σ02 χ2n
j=1
und wir erhalten c = σ02 χ2n,1−α , wobei χ2n,1−α das (1 − α)-Quantil der χ2 -Verteilung mit n
Freiheitsgraden bezeichnet. Damit ist
ϕ(x) = I
n
nX
(xj − µ)2 > σ02 χ2n,1−α
o
j=1
ein UMP-Test zum Niveau α für die Hypothesen H : σ 2 ≤ σ02 ; K : σ 2 > σ02 . Für die
Hypothesen
H : σ 2 = σ02 ; K : σ 2 6= σ02
43
ist
ϕ(x) = I{T (x) 6∈ [c1 , c2 ]}
ein UMPU-Test zum Niveau α [vgl. Satz 6.23 (3)], wobei die Konstanten c1 , c2 durch die
Bedingungen
c c 1
2
2
α = βϕ (σ0 ) = 1 − Fχ2n 2 + Fχ2n 2
σ0
σ0
c c o
n
1
2
1
0 = βϕ0 (σ02 ) = 4 c2 Fχ0 2n 2 − c1 Fχ0 2n 2
σ0
σ0
σ0
festgelegt werden und Fχ2n (·) die Verteilungsfunktion der χ2 -Verteilung mit n Freiheitsgraden bezeichnet. Die Lösung dieser Gleichungen muss numerisch erfolgen ( man kann
zeigen, dass es eine eindeutige Lösung gibt). In der Praxis ignoriert man oft die zweite
Gleichung und setzt c2 = σ02 χ2n,1−α/2 , c1 = σ02 χ2n,α/2 und erhält als Test
ϕ(x) = I{T (x) > σ02 · χ2n,1−α/2 } + I{T (x) < σ02 · χ2n,α/2 }
als Test zum Niveau α für die obigen Hypothesen (der dann nicht notwendig UMPU-Test
ist). IstPder Parameter µ unbekannt, so wird dieser mit x̄n geschätzt und wir erhalten
wegen nj=1 (xj − x̄n )2 ∼ σ 2 χ2n−1 als einen Test zum Niveau α für die die Hypothesen
H : σ 2 = σ02 ; K : σ 2 6= σ02
n
nX
o
2
2 2
ϕ(x) = I
(xj − x̄n ) > σ0 χn−1,1−α/2
j=1
+I
n
nX
2
(xj − x̄n ) <
σ02 χ2n−1,α/2
o
.
j=1
Die Optimalität dieses Verfahrens wird in Beispiel 6.29 geklärt. Dieser Test heißt χ2 -Test
für die Varianz bei Normalverteilung.
Bemerkung 6.27: Mit der bis jetzt besprochenen Theorie können nur optimale Tests
für Hypothesen in einparametrigen Verteilungsfamilien hergeleitet werden. Viele für die
Anwendungen wichtige Beispiele basieren aber auf mehrparametrigen Verteilungsfamilien
(man denke an Beispiel 6.21 und 6.26, in denen bei Kenntnis eines Parameters optimale
Tests bestimmt werden können, die Optimalität der Tests mit geschätzten Nebenparameter aber nicht klar ist). In diesem Fall kann dennoch die Optimalität von vielen Tests
nachgewiesen werden. Wir wollen im Folgenden die prinzipielle Vorgehensweise erläutern
und an zwei wichtigen Beispielen illustrieren. Dazu betrachten wir eine zweiparametrige
exponentielle Familie mit natürlicher Parametrisierung
fηξ (x) = c(ξ, η)h(x) exp(ηU (x) + ξV (x))IA (x),
in der die Hypothesen bzgl. des Parameters η getestet werden sollen (d.h. der Parameter
ξ wird als Nebenparameter behandelt). Man kann dann (mit einem maßtheoretischen
Argument) zeigen, dass die bedingten Verteilungen
U |V =v
Pηξ
44
eine einparametrige exponentielle Familie bilden, deren Verteilungen nicht von dem Parameter ξ abhängen [siehe z.B. Witting (1985), Seite 159-162]. Damit sind bedingt
auf V = v UPM-Tests und UMPU-Tests für die besprochenen Hypothesen (wie z.B.
H : η ≤ η0 ; K : η > η0 ) konstruierbar, und man kann zeigen, dass diese Tests dann auch
UMPU-Tests für diese Hypothesen im unbedingten Fall sind. In vielen Fällen kann man
durch eine geeignet Transformation von den bedingten zu unbedingten Tests übergehen.
Man beachte, dass durch dieses Prinzip ,,nur“ UMPU-Tests erhalten werden [vgl. Witting
(1985); Kapitel 3.3].
Beispiel 6.28: (der exakte Test von Fisher zum Vergleich von Binomialverteilungen) Es seien X ∼ Bin(n1 , π1 ), Y ∼ Bin(n2 , π2 ) unabhängige Zufallsvariable (man denke
an den Vergleich des Therapieerfolgs von zwei Medikamenten, die jeweils an n1 und n2
verschiedenen Patienten getestet werden). Gesucht ist ein Test für die Hypothesen
H : π1 ≤ π2 ;
K : π1 > π 2 .
Mit θ = (π1 , π2 ) ∈ (0, 1)2 erhalten wir für die gemeinsame Verteilung von X und Y
n1 k
n1 −k n2
Pθ (X = k, Y = `) =
π1 (1 − π − 1)
π2` (1 − π2 )n2 −`
k
`
o
n
π2
n1
n2
π1 1 − π2
k + log
(k + `)
=
(1 − π1 )n1 (1 − π2 )n2 exp log
1 − π1 π2
1 − π2
k
`
[k ∈ {0, . . . , n1 }; ` ∈ {0, . . . , n2 }], und daher liegt eine zweiparametrige exponentielle
Familie mit Parametern
π2
π2
π1
− log
; ξ = log
η = log
1 − π1
1 − π2
1 − π2
und Statistiken
U (x) = x;
V (x) = x + y
vor. Die obigen Hypothesen können in dieser Parametrisierung geschrieben werden als
H : η ≤ η0 := 0;
U |X=v
K : η > η0 .
X|X+Y =v
Die bedingten Verteilungen Pηξ
= Pηξ
bilden eine einparametrige exponentielle
Familie mit Parameter η und Statistik u = u(x) [man beachte, dass wir diese Aussage
nicht bewiesen haben; vgl. Witting (1985), Seite 159-162] und wir erhalten aus Satz 6.20
und Übung 6.19, dass bei gegebenem V = X + Y = v ∈ {0, . . . , n1 + n2 ] ein UMP-Test
für H : η ≤ η0 ; K : η > η0 zum Niveau α existiert, nämlich








1
>




∗
ϕ (u, v) =
falls u
γ(v)
= c(v),


 0 

 <

wobei die Konstanten c(v) und γ(v) durch die Bedingung
Eη0 [ϕ∗ (U, V ) | V = v] = α
45
festgelegt werden. Für die bedingte Verteilung erhalten wir (man beachte, dass η = η0 = 0
genau dann gilt, wenn π1 = π2 erfüllt ist)
Pη0 ξ (X = u | X + Y = v) =
Pπ1 (X = u)Pπ1 (Y = v − u)
P (X + Y = v)
n2π1
n1
u
v−u
n1 +n2
v
=
=: hv (u)
falls v ∈ {0, . . . , n1 + n2 }, u ∈ {0, . . . , v} und 0 sonst (d.h. es liegt eine hypergeometrische
Verteilung vor). Die Konstanten c(v) und γ(v) können für gegebenes v jetzt aus der
Gleichung
v
X
α = Eη0 ξ [ϕ(U, V ) | V = v] =
hv (u) + γ(v)hv (c(v))
u=c(v)+1
bestimmt werden. Der so durchgeführte bedingte Test ist UMPU-Test für die Hypothesen
H : η ≤ η0 ;
K : η > η0 ⇐⇒ H : π1 ≤ π2 ;
K : π1 > π 2
[vgl. Witting (1985), Seite 376].
Als Anwendungsbeispiel betrachten wir den Vergleich von 2 Medikamenten A1 und A2
die jeweils an n1 = 10 und n2 = 10 Patienten getestet wurden. Intuitiv würde man die
Hypothese H : π1 ≤ π2 zu Gunsten von K : π1 > π2 ablehnen, falls bedingt auf die Anzahl
der Therapieerfolge in der Gesamtstichprobe die Anzahl der Therapieerfolge in der ersten
Stichprobe (Behandlung unter Medikament A1 ) unverhältnismäßig groß ist, und genau
das macht der oben konstruierte UMPU-Test. Bei 2 Erfolgen in Gruppe 1 und 4 Erfolgen
in Gruppe 2 erhalten wir: x = 2; y = 4; u = 2, v = 6 und für α = 10% wegen
10 10
h6 (u) =
u
6−u
2
6
u = 0, . . . , 6
aus der obigen Gleichung
c(6) = 5, γ(6) = 0.1213.
Damit wird wegen u = 2 ≤ c(6) = 4 die Hypothese H : π1 ≤ π2 nicht verworfen. Wir
bemerken abschließend, dass in der Praxis oft auf die Randomisierung verzichtet wird und
γ(v) = 0 gesetzt wird. Man erhält dann natürlich einen Test mit kleinerem Niveau als
die vorgegebene Irrtumswahrscheinlichkeit α.
Beispiel 6.29: (Optimalität von Einstichprobentests bei Normalverteilung) Es
seien X1 , . . . , Xn ∼ N (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariable, wobei beide
Parameter als nicht bekannt vorausgesetzt werden. Für die gemeinsame Dichte erhalten
wir wegen
n
n
1 X
µ X
nµ2 2
2 −n/2
xi exp 2
xi
(2πσ )
exp − 2 exp − 2
2σ
2σ i=1
σ i=1
46
eine zweiparametrige exponentielle Familie mit natürlichen Parametern
η=−
und Statistiken
u(x) =
n
X
1
2σ 2
x2i
ξ=
µ
σ2
v(x) =
i=1
n
X
xi .
i=1
(1) Für das Testen der Hypothesen
H : σ 2 ≤ σ02 ;
K : σ 2 > σ02 ⇐⇒ H : η ≤ η0 ;
K : η > η0
(wobei η0 = −1/σ02 gegeben ist) erhalten wir als bedingten UMPU-Test für gegebenes
V =v






 1 

 >

∗
ϕ (u, v) =
falls u
γ(v)
= c(v),


 0 

 0

wobei die Konstanten c(v) und γ(v), durch die Gleichung
α = Eη0 ξ [ϕ∗ (u, v) | V = v]
bestimmt werden. In diesem Fall können wird durch eine einfache Transformation
zu einem unbedingten Test gelangen. Für festes v ist nämlich die Abbildung
u → h(u, v) :=
v2
1
(u
−
)
σ02
n
monoton wachsend und damit der Test ϕ∗ äquivalent






1



∗
ψ (u, v) =
falls h(u, v)
γ̃(v)


 0 


zu dem Test

>

= c̃(v),

<
wobei die Konstanten γ̃(v), c̃(v) durch die Gleichung
α = Eη0 ξ [ψ ∗ (U, V ) | V = v]
festgelegt werden. Nach Übung 1.19 gilt aber, dass die Zufallsvariablen
P
2
n
n
n
o
n
i=1 Xi
1 X
1 X 2
X −
= 2
(Xi − X̄n )2 ∼ χ2n−1
h(U, V ) = 2
σ0 i=1 i
n
σ0 i=1
und V =
Pn
i=1
Xi stochastisch unabhängig sind und wir erhalten
α = Eη0 ξ [ψ ∗ (U, V ) | V = v] = Pη0 ξ (h(U, V ) > c̃(v)) = 1 − Fχ2n−1 (c(v)).
47
Damit kann c(v) = χ2n−1,1−α unabhängig von v gewählt werden und es ergibt sich
als unbedingter UMPU-Test für die Hypothesen
H : σ 2 ≤ σ02 ;
der Test
∗
ψ (x) = I
n
nX
K : σ 2 > σ02
2
(xi − x̄n ) >
σ02 χ2n−1,1−α
o
,
i=1
wobei χ2n−1,1−α das (1 − α) Quantil der χ2 -Verteilung mit n Freiheitsgraden bezeichnet (die Optimalität folgt dabei wiederum aus dem allgemeinen Prinzip: Witting
(1985), Seite 376).
(2) In ähnlicher Weise erhält man einen UMPU-Test für die Hypothesen
H : µ ≤ µ0
K : µ > µ0 ⇐⇒ H : ξ ≤ ξ0 ;
K : ξ > ξ0
(wobei ξ0 = µ0 /σ 2 gegeben ist). Als bedingten UMPU-Test ergibt sich für gegebenes
U =u






 1 

 >

∗
ϕ (u, v) =
falls v
γ(u)
= c(u)


 0 

 <

ist. Mit der für festes u streng monotonen Abbildung
√
n v/n − µ0
q
h(u, v) = q
1
u − n1 v 2
n−1
ist dieser Test äquivalent zu dem Test
ψ ∗ (u, v) = I{h(u, v) > c̃(u)} + γ̃(u)I{h(u, v) = c̃(u)},
wobei die Konstanten c̃(u) und γ̃(u) durch die Bedingung
Eηξ0 [ψ ∗ (U, V ) | U = u] = α
festgelegt werden. Man kann zeigen, dass die Statistiken
√
n(X̄n − µ0 )
∼ tn−1
h(U, V ) = T (X) = q
P
n
1
2
(X
−
X̄
)
i
n
i=1
n−1
V =
n
X
Xi2
i=1
stochastisch unabhängig sind [das geht entweder direkt mit der Transformationsformel oder mit dem Satz von Basu (vgl. Lehmann, Testing Statistical Hypotheses,
Seite 191] und wir erhalten für alle u : γ(u) = 0, c(u) = tn−1,1−α , d.h.
ψ ∗ (x) = I{T (x) > tn−1,1−α }
ist ein UMPU-Test für die oben genannten Hypothesen.
48
Bemerkung 6.30: Wendet man das in Bemerkung 6.28 und Beispiel 6.29 erläuterte
Prinzip auf Hypothesen der Form H : η = η0 ; K : η 6= η0 , so muss die Abbildung h in
dem entsprechenden Argument streng wachsend und linear sein.
7
Likelihood-Quotienten-Tests und asymptotische Eigenschaften von Tests
Bemerkung 7.1: Ein allgemeines Prinzip für die Konstruktion eines Tests für die Hypothesen
H : θ ∈ ΘH ; K : θ ∈ ΘK
in einem statistischen Experiment ist die Likelihood-Quotienten-Methode. Dabei bildet
man bei Vorliegen einer Realisierung x = X(ω) einer Zufallsvariablen X ∼ Pθ den
Likelihood-Quotienten
sup{fθ (x) | θ ∈ ΘH }
λ(x) =
sup{fθ (x) | θ ∈ Θ}
und lehnt die Nullhypothese für kleine Werte von λ(x) ab (da man unter der Alternative
K einen kleinen Wert von λ(x) erwarten würde). Damit lautet die Entscheidungsregel
ϕ(x) = I{λ(x) < c} + γI{λ(x) = c},
wobei die Konstante c ∈ (0, 1), so festzulegen ist, dass dieser Test das Niveau α hat, d.h.
sup Eθ [ϕ(X)] ≤ α
θ∈ΘH
gilt.
Beispiel 7.2: (F -Test für den Varianzquotienten) Es seien X1 , . . . , Xm ∼ N1 (µ, σ 2 )
unabhängig identisch verteilte Zufallsvariablen und Y1 , . . . , Yn ∼ N1 (v, τ 2 ). unabhängig
identisch verteilte Zufallsvariable. Außerdem seien die Zufallsvariablen X1 , . . . , Xm und
Y1 , . . . , Yn stochastisch unabhängig (man spricht von unabhängigen Stichproben). Gesucht
ist ein Test für die Hypothesen
H : σ2 = τ 2;
K : σ 2 6= τ 2 .
In diesem Beispiel ist Θ = R × R × R+ × R+ , θ = (µ, v, σ 2 , τ 2 ) und
ΘH = {(µ, v, σ 2 , σ 2 ) | µ, v ∈ R, σ 2 ∈ R+ }.
Die gemeinsame Dichte der Beobachtungen X1 , . . . , Xm , Y1 , . . . , Yn lautet
m
n
n 1 X
o
1 m2 1 n2
1 X
2
2
exp
−
(x
−
µ)
−
(y
−
v)
.
fθ (x, y) =
i
j
2πσ 2
2πτ 2
2σ 2 i=1
2τ 2 j=1
49
Für die Berechnung des Supremums im Nenner sind die Maximum-Likelihood-Schätzungen
zu berechnen und wir erhalten mit
m
θ̂n =
2
, τ̂n2 )T
(µ̂m , ν̂n , σ̂m
n
1X
1 X
= (x̄n , ȳn ,
(xi − x̄m )2 ,
(yj − ȳn )2 )T
n i=1
m j=1
für den Nenner
sup fθ (x, y) = fθ̂n (x, y) = (2π)−
m+n
2
e
m+n
2
θ∈Θ
n
m
2 −2
(σ̂m
) (τ̂n2 )− 2 .
Für die Berechnung des Supremums im Zähler bestimmen wir die Maximum-LikelihoodSchätzungen unter der Nebenbedingung σ 2 = τ 2 und erhalten
2
2
θ̃n = (µ̂m , ν̂n , σ̂m,n
, σ̂m,n
)T ,
wobei für den Varianzschätzer
m
2
σ̂m,n
n
o
X
1 nX
=
(xi − x̄m )2 +
(yj − ȳn )2
m + n i=1
j=1
gilt. Das liefert für den Zähler
− m+n
− m+n
2
2
sup fθ (x, y) = fθ̃n (x, y) = (2π)
e
θ∈ΘH
2
σ̂m,n
− m+n
2
,
und für den Likelihood-Quotienten
m/2 n/2
2
− n2
τ̂n2
σ̂m
1 − m2 λ(x, y) =
= cm,n 1 +
1 + Hm,n
,
m+n
Hm,n
2
σ̂m,n
2
wobei die Konstante cm,n durch
cm,n =
m + n m/2 m + n n/2
m
n
definiert ist und die Statistik Hm,n durch
Pm
(xi − x̄m )2
Hm,n (x, y) = Pi=1
n
2
j=1 (yj − ȳn )
gegeben ist. Man zeigt leicht, dass die Funktion
H → (1 +
n
1 −m
) 2 (1 + H)− 2
H
auf R+ genau ein Maximum besitzt und das diese Funktion für H → 0, H → ∞ gegen 0
konvergiert. Damit erhält man die Äquivalenz
λ(x, y) ≤ c ⇐⇒ Hm,n (x, y) 6∈ [c1 , c2 ]
50
für geeignete Konstanten 0 ≤ c1 < c2 ≤ ∞. Nach Übung 1.19 (1) und Definition 1.17(3)
ist unter der Nullhypothese H : σ 2 = τ 2
Pm
1
2
n−1
i=1 (Xi − X̄m )
m−1
∼ Fm−1,n−1
Hm,n (X, Y ) = 1 Pn
F (X, Y ) =
2
m−1
j=1 (Yj − Ȳn )
n−1
F -verteilt mit (m − 1, n − 1) Freiheitsgraden. Damit erhält man durch
n
o
ϕ(x, y) = 1 − I Fm−1,n−1,α/2 < F (x, y) < Fm−1,ns−1,1−α/2
einen Likelihood-Quotiententest zum Niveau α, wobei Fm,n,β das β-Quantil der F -Verteilung
mit m, n Freiheitsgraden bezeichnet. Man beachte, dass eine Randomisierung nicht
notwendig ist (d.h. γ = 0 kann gewählt werden) und das
EH0 [ϕ(X, Y )] = 1 − PH0 Fm−1,n−1,α/2 < F (X, Y ) < Fm−1,n−1,1−α/2
= 1 − (1 − α/2) + α/2 = α
gilt. Mit diesem Argument kann man auch andere Quantile wählen, um einen Test zum
Niveau α zu erhalten, z.B. Fm−1,n−1,β und Fm−1n−1,1−γ , wobei β + γ = α gilt.
Beispiel 7.3: (Zwei Stichproben t-Test) In der Situation aus Beispiel 7.2 setzen wir
zusätzlich σ 2 = τ 2 voraus und suchen einen Test für die Hypothesen
K : µ 6= ν.
H : µ = ν;
In diesem Beispiel ist Θ = R × R × R+ und
ΘH = {θ = (µ, v, σ 2 ) | µ = v}.
Für das Supremum im Zähler des Likelihood-Quotienten erhält man mit einfacher Rechnung
m+n
m+n
sup fθ (x, y) = (2πŝ2 )− 2 exp(−
),
2
θ∈ΘH
wobei Ŝ 2 durch
m
n
o
X
1 nX
ŝ =
(xi − m̂)2 +
(Yj − m̂)2
m + n i=1
j=1
2
mit
m
m̂2 =
n
X o
1 nX
m
n
xi +
yj =
x̄m +
ȳn
m + n i=1
m
+
n
m
+
n
j=1
definiert ist. Das Supremum des Nenners haben wir in Beispiel 7.2 als
sup fθ (x, y) = (2π)
m+n
2
θ∈Θ
51
e−
m+n
2
2
(σ̂m,n
)−
m+n
2
bestimmt, und damit erhält man für den Likelihood-Quotienten
2
m+n
sup{fθ (x, y) | θ ∈ ΘH } σ̂m,n
2
=
.
λ(x, y) =
2
sup{fθ (x, y) | θ ∈ Θ}
ŝ
Wegen
m
n
(x̄m − m̂)2 +
(ȳn − m̂)2
m+n
m+n
mn
2
= σ̂m,n
+
(x̄m − ȳn )2
(m + n)2
2
ŝ2 = σ̂m,n
+
erhalten wir
λ(x, y) =
wobei die Statistik T (x, y) durch
r
mn
r
T (x, y) =
m+n
o m+n
2
1
n
1+
1
T 2 (x, y)
(m+n)(m+n−2)
,
x̄m − ȳn
1
m+n−2
nP
m
i=1 (xi
− x̄m )2 +
Pn
j=1 (yj
− ȳn )2
definiert ist. Wegen der Unabhängigkeit der Stichproben erhalten wir unter der Annahme
µ=ν
r
mn
(X̄m − Ȳn ) ∼ σ · N (0, 1)
m+n
m
n
X
X
2
(Xi − X̄m ) +
(Yn − Ȳn )2 ∼ σ 2 χ2m+n−2 .
i=1
j=1
Pn
P
2
2
Außerdem sind die Zufallsvariablen X̄m , Ȳn , m
j=1 (Yj − Ȳn ) stochastisch
i=1 (Xi − X̄m ) ,
unabhängig und damit Zähler und Nenner in T (X, Y ) ebenfalls stochastisch unabhängig.
Daher gilt unter der Nullhypothese H : µ = ν
T (X, Y ) ∼ tm+n−2
und wegen der Monotonie der Abbildung
t→
1 m+n
2
2
1 + at
(für positives a) lautet ein Likelihood-Quotiententest zum Niveau α für die Hypothesen
H : µ = ν;
K:µ=ν
ϕ(x, y) = I{|T (x, y)| > tm+n−2,1−α/2 ,
wobei tr,β das Quantil der t-Verteilung mit r Freiheitsgraden bezeichnet. Der obige Test
heißt Zwei-Stichproben t-Test. Man beachte, dass dieser Test gleiche Varianzen in beiden
52
Stichproben voraussetzt und diese Annahme zunächst überprüft werden muss (z.B. mit
dem F -Test aus Beispiel 7.2 mit einem relativ hohen Niveau).
Bemerkung 7.4:
(1) Mit ähnlichen Argumenten erhält man in Beispiel 7.2 und 7.3 Tests für einseitige
Hypothesen. Z.B. lautet der Likelihood-Quotiententest für die Hypothesen
H : σ12 ≤ σ22 ;
K : σ12 > σ22
in der Situation von Beispiel 7.2
ϕ(x, y) = I{F (x, y) > Fm−1,n−1,1−α }
und der Zwei-Stichproben t-Test für die Hypothesen
H : µ ≤ ν; K : µ > ν
ϕ(x, y) = I{T (x, y) > tm+n−2,1−α }.
(2) Für die so bestimmten Tests kann mit der Argumentation aus Bemerkung 6.27 (vgl.
auch Beispiel 6.28, 6.29) die UMPU-Eigenschaft nachweisen.
Übung 7.5: Es seien X1 , . . . , Xn ∼ N1 (µ, σ 2 )unabhängig identisch verteilte Zufallsvariable. Man bestimme den Likelihood-Quotienten-Test für die Hypothesen
H : µ = µ0 ; K : µ 6= µ0
H : σ 2 = σ02 ; K : σ 2 6= σ02
und zeige, dass sich analoge Testverfahren wie in Beispiel 6.29 ergeben (dort wurden
einseitige Hypothesen betrachtet).
In den vorigen Beispielen erkennt man, dass die Berechnung des Likelihood-Quotienten
prinzipiell kein Problem darstellt (obwohl diese in den meisten Fällen numerisch erfolgen
muss). Die Schwierigkeit besteht in der Festlegung des kritischen Werts c, so dass die
Ablehnung der Nullhypothese im Fall λ(x) < c einen Test zum Niveau α liefert. In den
obigen Beispielen konnten wir durch eine Transformation von λ(X) eine Zufallsvariable
mit bekannter Verteilung erhalten. In den meisten Fällen ist eine solche Transformation
nicht möglich! Dennoch können bei großem Stichprobenumfang die Wahrscheinlichkeiten
Pθ (λ(X) ≤ c)
für θ ∈ ΘH zumindest näherungsweise bestimmt werden. Wir betrachten dazu eine Stich(1)
probe X1 , . . . , Xn von unabhängigen Zufallsvariablen mit Dichte ∼ fθ ; θ ∈ Θ.
Bezeichnungen und Annahmen 7.6:
53
(A1) Es sei Θ ⊂ Rd ∆ ⊂ Rc offen, c < d, und h : ∆ → Θ eine Abbildung mit h(∆) = ΘH ,
die zweimal stetig differenzierbar ist und deren Jacobi-Matrix h0 (η) für alle η ∈ ∆
vollen Rang hat (Parametrisierung der Nullhypothese).
(A2) Für die Verteilungsfamilie
(1)
(1)
Ph := {fh(η) | η ∈ ∆} ⊂ P = {fθ
| θ ∈ Θ}
gelten die Annahmen aus Satz 4.6. Mit diesen Bezeichnung kann der LikelihoodQuotient dann geschrieben werden als
λ(x) =
sup{fh(η) (x) | η ∈ ∆}
fh(η̂n ) (x)
=
,
sup{fθ (x) | θ ∈ ∆}
fθ̂n (x)
wobei θ̂n der Maximum-Likelihood-Schätzer in P ⊗ ist und η̂n der Maximum-LiklihoodSchätzer in Ph⊗ ist (Schätzer unter Nullhypothese).
Beispiel 7.7: Wir betrachten die Situation aus Beispiel 7.3. Dann ist θ = (µ, ν, σ 2 )
Θ = R × R × R+ ⊂ R3
ΘH = {θ = (µ, ν, σ 2 ) | µ = ν}.
Die Parametrisierung der Nullhypothese erfolgt mit der Abbildung
(
∆ →
Θ
h:
,
2
(µ, σ ) → (µ, µ, σ 2 )
wobei die Menge ∆ durch
∆ = {(µ, σ 2 ) | µ ∈ R, σ 2 ∈ R+ } = R × R+
definiert ist. Da h linear ist, ist h zweimal stetig differenzierbar und die Ableitung


1 0


h0 (η) =  1 0 
0 1
hat vollen Rang c = 2 für alle η ∈ ∆. Die Maximum-Likelihood-Schätzer lauten


X̄n


θ̂n =  Ȳn 
2
σ̂m,n
(vgl. Beispiel 7.3) und in der Teilfamilie Ph⊗ erhält man als Maximum-Likelihood-Schätzer
!
n
m
X̄
+
Ȳ
m+n m
m+n n
η̂n =
Ŝ 2
54
(vgl. Beispiel 7.3).
Satz 7.8: Unter den Annahmen aus Satz 4.6 und 7.6 gilt für jedes θ ∈ ΘH = h(∆)
D
Tn := −2 log λ(X) = 2{log fθ̂n (X) − log fh(η̂n ) (X)} −→ χ2d−c
n→∞
d.h. für großen Stichprobenumfang können die Wahrscheinlichkeiten Pθ (Tn > c) mit der
Verteilungsfunktion der χ2 -Verteilung mit (d − c)-Freiheitsgraden berechnet werden.
Beispiel 7.9: (Unabhängigkeitstest in r × s Kontingenztafel) Wir betrachten die
Situation aus Beispiel 3.15: Y1 , . . . , Yn i.i.d. ∼ M(1, p11 , p12 , . . . , prs )
Y =
n
X
Yj = (X11 , . . . , Xrs )T ∼ M(n, p11 , . . . , prs ).
j=1
Wir wollen untersuchen, ob die Faktoren A und B unabhängig sind, d.h.
H : pij = P (Ai ∩ Bj ) = P (Ai )P (Bj ) = pi· p·j
mit
pi· =
s
X
pij
p·j =
j=1
r
X
pij .
i=1
Die gemeinsame Dichte von Y lautet
fp (x) = Pp (Xij = xij ∀ i, j)
r Y
s
X
Y
n!
x
xij = n}
pijij I{xij ∈ {0, . . . , n};
= Qr Qs
j=1 xij ! i=1 j=1
i=1
ij
und es ist
T
Θ = {p = (p11 , . . . , prs ) |
r X
s
X
pij = 1} ⊂ Rd
∼
i=1 j=1
mit d = rs − 1,
ΘH = {p ∈ Θ | pij = pi· p·j } ⊂ Rc
∼
Pr
Ps
mit c = r + s − 2 (man beachte, dass i=1 pi· = j=1 p·j = 1 gilt). Man rechnet leicht
nach, dass die Maximum-Likelihood-Schätzung im allgemeinen Modell durch
p̂ij =
Xij
n
i, j = 1, . . . , n
gegeben ist und erhält für das Supremum im Nenner
sup{fp (x) | p ∈ Θ} = Qr
i=1
n!
Qs
j=1
55
r Y
s Y
xij xij
xij !
i=1 j=1
n
I{. . .}.
Um die Maximum-Likelihood-Schätzung unter Nullhypothese zu berechnen beachte man,
dass für p ∈ ΘH gilt
r
Y
n!
Qs
fp (x) = Qr
i=1
j=1
xij !
pxi·i·
i=1
s
Y
x
p·j·j I{. . .},
j=1
Pr
Pr
wobei xi· =
j=1 xij und x·j =
i=1 xij gilt. Das liefert als Maximum-LikelihoodSchätzung unter der Nullhypothese
p̃ij = p̂i· p̂·j
mit
x·j
xi·
; p̂·j =
,
n
n
und wir erhalten für das Supremum im Zähler
p̂i· =
sup{fp (x) | p ∈ ΘH } = Qr
i=1
r s
Y
xi· xi· Y x·j x·j
n!
Qs
j=1
Das liefert dann
−2 log λ(x) = 2
xij !
r Y
s
Y
i=1
n
xij log
i=1 j=1
j=1
n
I{. . .}.
x ij
xi· x·j
n
und nach Satz 7.8 [d−c = rs −1−(r +s−2) = (r −1)(s−1)] gilt unter der Nullhypothese
Zn = −2 log λ(X) = 2
r X
s
X
Xij log
X ij
i=1 j=1
Xi· X·j
n
D
−→ χ2(r−1)(s−1) .
Mit der Approximation log x ≈ (x − 1) − 21 (x − 1)2 kann man dann zeigen, dass
P
Zn − Tn −→ 0,
wobei für die Zufallsvariable
Tn =
r X
s
X
i=1 j=1
Xij −
Xi· X·j
n
Xi· X·j
n
2
D
−→ χ2(r−1)(s−1)
gilt. Damit verwirft der Likelihood-Quotiententest die Hypothese der Unabhängigkeit,
falls
Tn > χ2(r−1)(s−1),1−α
gilt. Dieser Test heißt Unabhängigkeitstest von Pearson und Fisher. Wegen der obigen
Verteilungskonvergenz gilt für alle θ ∈ H
lim Pθ (Tn > χ2(r−1)(s−1),1−α ) = 1 − (1 − α) = α,
n→∞
56
d.h. bei großem Stichprobenumfang hat der Test näherungsweise das Niveau α. Man
beachte die anschauliche Interpretation der Teststatistik Tn . Man vergleicht die gefundenen Klassenhäufigkeiten mit den Häufigkeiten, die man unter der Nullhypothese der
Unabhängigkeit erwarten würde und verwirft die Unabhängigkeitshypothese für große
Werte des Abstandsmaßes.
(n)
Definition 7.10: Es sei X (n) ∼ (X1 , . . . , Xn ) ∼ fθ eine n-dimensionale Zufallsvariable
mit Werten in Xn und für n ∈ N
(
Xn → [0, 1]
ϕn :
x(n) → ϕn (x(n) )
ein Test für die Hypothesen
H : θ ∈ ΘH ;
K : θ ∈ ΘK .
(1) Die Folge von Tests (ϕn )n∈N besitzt asymptotisch das Niveau α, falls
limn→∞ sup βϕn (θ) ≤ α.
θ∈ΘH
(2) Die Folge von Tests (ϕn )n∈N heißt konsistent (für H gegen K) falls für alle θ ∈ ΘK
gilt
lim βϕn (θ) = 1.
n→∞
Man beachte, dass bei großem Stichprobenumfang (n → ∞) ein asymptotischer
Niveau α-Test ϕn näherungsweise das Niveau α hat und dass für einen konsistenten
Test die Wahrscheinlichkeit für einen Fehler zweiter Art bei wachsendem Stichprobenumfang gegen Null konvergiert.
Bemerkungen 7.11:
(1) Man spricht abkürzend von einem asymptotischen Test zum Niveau α und von einem
konsistenten Test.
(2) Wie im Fall des Schätzens ist die Konsistenz eine Minimalforderung an einen statistischen Test.
Beispiele 7.12:
(1) Unter den Annahmen aus Satz 4.6 und 7.7 besitzt der Test
ϕn (x(n) ) = I{−2 log λ(x(n) ) > χ2d−c,1−α }
57
asymptotisch das Niveau α, denn nach Satz 7.8 gilt für alle θ ∈ ΘH
lim Pθ (Tn > χ2d−c,1−α ) = 1 − (1 − α) = α.
n→∞
Man kann auch zeigen, dass dieser Test konsistent ist (Lit. D. Morgenstern: Einführung
in die Wahrscheinlichkeitstheorie und Mathematische Statistik).
Für den Unabhängigkeitstest von Pearson-Fisher kann man die Konsistenz auch
direkt einsehen. Wegen
Xij P
−→ pij ;
n
Xi· P
X·j P
−→ pi· ;
−→ p·j
n
n
gilt nämlich
1
Tn =
n
r X
s
X
Xij
n
−
Xi· X·j
n n
2
Xi· X·j
n n
i=1 j=1
r X
s
X
(pij − pi· p·j )2
−→
=: ∆
p
p
i·
·j
i=1 j=1
P
und ∆ > 0, falls die Nullhypothese der Unabhängigkeit nicht gilt. Damit erhalten
wir für die Gütefunktion
1
h n
oi
1
Eθ I Tn > χ2(r−1)(s−1),1−α = Pθ Tn > χ2(r−1)(s−1),1−α −→ 1.
n→∞
n
n
(2) Es seien X1 , . . . , XM i.i.d. ∼ N1 (µ, σ 2 ) und Y1 , . . . , Yn ∼ N1 (µ, τ 2 ) i.i.d. unabhängige Stichproben. Unter der Annahme σ 2 = τ 2 ist der Zwei-Stichprobentest
aus Beispiel 7.3 ein unverfälschter Test zum Niveau α. für die Hypothesen
H : µ = ν;
K : µ 6= ν
(Dieser Test ist sogar gleichmäßig bester unverfälschter Test). Falls man diese Annahme nicht mehr machen kann, ist die Konstruktion eines solchen Tests unmöglich
und man bezeichnet dieses Problem als Behrens-Fisher-Problem. Die Konstruktion
eines asymptotischen Niveau-α-Tests bereitet weniger Schwierigkeiten. Dazu setzen
wir
X̄m − Ȳn
∗
Tn,m
(X, Y ) = q
P
Pn
m
1 1
1 1
2
2
j=1 (Xj − X̄m ) + n n−1
j=1 (Yj − Ȳn )
m m−1
und definieren durch
∗
ϕ(x, y) = I{|Tn,m
(x, y)| > u1−α/2 )
einen Test, wobei u1−α das (1−α)-Quantil der Standardnormalverteilung ist. Wegen
X̄m ∼ N (µ,
σ2
τ2
), Ȳn ∼ N (v, )
m
n
∗
gilt für den Zähler der Statistik Tm,n
σ2
m
+
τ 2 −1/2
(X̄m − Ȳn − (µ − ν)) ∼ N (0, 1)
n
58
und
m
1 X
P
(Xi − X̄m )2 −→ σ 2
n→∞
m − 1 i=1
n
1 X
P
(Yj − Ȳn )2 −→ τ 2 .
n→∞
n − 1 j=1
Die letzte Aussage erhält man entweder mit Satz 4.6, da diese Schätzer bis auf die
m
n
Faktoren m−1
und n−1
mit den Maximum-Likelihood-Schätzern übereinstimmen,
oder mit Bemerkung 4.5, da sich diese Schätzer auch mit der Momentenmethode
ergeben [vgl. auch Beispiel 4.3(1)]. Damit erhalten wir mit
m
2
Sm,n
=
n
1 1 X
1 1 X
(Xi − X̄m )2 +
(Xj − X̄n )2
m m − 1 i=1
n n − 1 j=1
die stochastische Konvergenz
τ 2 −1 2
P
Sm,n −→ 1,
m
n
falls m → ∞, n → ∞ und m/n → κ ∈ [0, ∞] gilt. Für die Gütefunktion mit
θ = (µ, v, σ 2 , τ 2 ) ergibt sich dann
σ2
+
∗
βϕ (θ) = Eθ [ϕ(X, Y )] = Pθ (|Tm,n
(X, Y )| > u1−α/2 )
1 − Pθ
µ − ν
sm,n
(
−→
m,n→∞
m/n→∞
− u1−α/2
X̄m − Ȳn − (µ − ν)
µ − ν
<
< u1−α/2 −
Sm,n
Sm,n
α falls µ = ν
,
1 falls µ 6= ν
da nach dem Lemma von Slutsky
X̄m − Ȳn − (µ − ν) D
−→ N (0, 1)
Sm,n
gilt und für µ 6= ν
|µ − ν| P
−→ ∞
Sm,n
gilt. Daher ist der Test ϕ konsistent und hat asymptotisch das Niveau α. Man
beachte, dass sich dieser Test auch mit dem Likelihood-Quotienten-Prinzip ergibt.
Beispiel 7.13: (Bartlett-Bartlett-Test auf Varianzhomogenität) Es seien Xij ∼
N1 (µi , σi2 ) i = 1, . . . , r; j = 1, . . . , ni unabhängige Zufallsvariable (man denke an r Gruppen, mit je ni -Objekten). Wir bestimmen den Likelihood-Quotienten-Test für die Hypothesen
H : σ12 = . . . = σr2 ; K : σi2 6= σj2 (∃ i 6= j)
59
(man beachte, dass d = 2r und c = r + 1 gilt). Die gemeinsame Dichte von X11 , . . . , Xr,nr
lautet
ni
r 1 X
Y
1 ni
2
p
fθ (x) =
exp
−
(x
−
µ
)
,
ij
i
2
2
2σ
2πσ
i
i
j=1
i=1
2
2
r
+ r
n
wobei
Pθr = (µ1 , . . . , µr , σ1 , . . . , σr ) ∈ R × (R ) ist und x = (x11 , . . . , xrnr ) ∈ R mit
n = i=1 ni gesetzt wird. Man sieht sofort, dass die Statistiken
ni
σ2
1 X
Xij ∼ N1 (µi , i ) i = 1, . . . , r
X̄i· =
ni j=1
ni
(i-tes Gruppenmittel) und
σ̂i2 =
ni
1 X
σ2
(Xij − X̄i· )2 ∼ i χ2ni −1
ni j=1
ni
i = 1, . . . , r
(Streuung in der i-ten Gruppe) die Maximum-Likelihood-Schätzer für die Parameter
µ1 , . . . , µr und σ12 , . . . , σr2 liefern.
Die Maximum-Likelihood-Schätzer unter Null-Hypothese lauten
µ̂i = X̄i·
ni
r
r
X
1 XX
ni 2
2
2
σ̂ =
σ̂
(Xij − X̄i· ) =
n i=1 j=1
n i
i=1
und für den Likelihood-Quotienten erhält man
r
Y σ̂ 2 ni /2
sup{fθ (x) | θ ∈ ΘH }
(2πσ̂ 2 )−n/2 exp(−n/2)
i
=
λ(X) =
= Qr
.
2 −ni /2
2
(2πσ̂
)
exp(−n
/2)
sup{fθ (x) | θ ∈ Θ}
σ̂
i
i
i=1
i=1
Mit einer Verallgemeinerung von Satz 7.8 kann man dann zeigen, dass für ni → ∞(i =
1, . . . , r); ni /n → κi ∈ (0, 1) gilt
2
T (X) = −2 log λ(X) = n log σ̂ −
r
X
D
ni log σ̂i2 −→ χ2r−1
i=1
(man beachte d − c = 2r − (r + 1) = r − 1) und damit ist der Test
ϕ(x) = I{T (x) > χ2r−1,1−α }
ein asymptotischer Niveau-α-Test. Wegen
r
r
X
X ni
1
P
T (X) = log σ̂ 2 −
log σ̂i2 −→ log σ 2 −
κi log σi2 = ∆
n
n
i=1
i=1
mit
2
σ =
n
X
i=1
60
κi σi2
konvergiert n1 T (X) gegen eine Größe ∆ ≥ 0, die genau dann positiv ist, wenn die Nullhypothese gleicher Varianzen nicht gilt. Damit erhalten wir für ∆ > 0 (d.h. unter der
Alternative der Inhomogenität)
βϕ (θ) = Eθ [ϕ(X)] = Pθ (T (X) > χ2r−1,1−α )
1
1
= Pθ T (X) > χ2r−1,1−α −→ 1
n→∞
n
n
und der obige Test ist konsistent. Dieser Test heißt Bartlett-Test auf Varianzhomogenität.
Bemerkung 7.14: Die Konsistenz eines Tests bedeutet, dass der Test bei beliebig großem
Stichprobenumfang auch beliebig kleine Abweichungen von der Nullhypothese aufdeckt.
Wir bemerken abschließend, dass man mit der Interpretation eines solchen Ergebnisses
sorgfältig umgehen sollte, da man in der Regel an beliebig kleinen Abweichungen nicht interessiert sein wird. Dazu betrachten wir als Beispiel eine zweifaktorielle Kontingenztafel,
die verschiedene Haushalte nach Jahreseinkommen und Anzahl der Kinder klassifiziert.
Anzahl der
Kinder
0
1
2
3
≥4
Summe
Jahreseinkommen
0
1
2
3
2161 3577 2184 1636
2755 5081 2222 1052
936 1753 640 306
2255 419
96
38
39
98
31
14
6116 10928 5173 3046
Summe
9558
11110
3635
778
182
25263
Wir wollen die Frage untersuchen, ob die Faktoren Jahreseinkommen und Anzahl der
Kinder unabhängig sind (vgl. Beispiel 7.9). Dazu beachten wir, dass r = 5, s = 4 gilt und
berechnen für die konkret vorliegenden Daten die Pearson-Fisher-Statistik
Tn (x) =
r X
s
X
(xij − xi· x·j /n)2
i=1 j=1
xi· x·j
n
= 568, 566.
Für einen (asymptotischen) Test zum Niveau α = 0.05 findet man in einer Tabelle (oder
mit Software) χ23·4,0.95 ≈ 21.026 und wegen Tn (x) > 568, 566 wird die Hypothese der
Unabhängigkeit klar verworfen. Wir schließen also, dass die Faktoren Anzahl der Kinder
und Jahreseinkommen abhängig sind. Allerdings haben wir mit dieser Testentscheidung
keine Information über die Stärke dieser Abhängigkeit. Als Maß für die Abhängigkeit
verwendet man oft
s
Tn (X)
,
Vn = Vn (X) =
n min{r, s} − 1
61
denn es gilt (vgl. Beispiel 7.12(1))
v
u
r X
s
X
1
(pij − pi· p·j )2
P u
t
Vn −→
.
min{r, s} − 1 i=1 j=1
pi· p·j
Für die konkret vorliegenden Daten erhält man
Vn (x) ≈ 0.087,
d.h. es liegt nur eine schwache Abhängigkeit vor, die unser Test nur deshalb entdeckt hat,
da eine sehr große Anzahl von Daten vorliegt (nämlich n = 25263).
Als Konsequenz dieses Beispiels bemerken wir, dass man eine Testentscheidung möglichst
immer mit einem Maß für die Abweichung von der Nullhypothese angeben sollte. Leider
wird das in der statistischen Praxis fast nie gemacht.
62
Herunterladen