3 Exponentielle Familien - Ruhr

3
Exponentielle Familien
In diesem Kapitel wollen wir spezielle Klassen von Verteilungsfamilien untersuchen, bei
denen u.a. in der Cramér-Rao-Ungleichung das Gleichheitszeichen gelten muss. Dazu
betrachten wir die Situation aus Satz 2.38 (d.h. Θ ⊂ R) und nehmen an, dass die
Regularitätsvorausstzungen erfüllt sind. Grundlegend für den Beweis der Informationsungleichung von Cramér-Rao ist die Cauchy-Schwarz-Ungleichung
o2
n
∂
∂
log fθ (X) ≤ Varθ (T (X)) Varθ
log fθ (X) .
Covθ (T (X),
∂θ
∂θ
In dieser gilt das Gleichheitszeichen, falls für jedes θ ∈ Θ Konstanten a1 (θ), a2 (θ) existieren, für die gilt
Pθ
∂
log fθ (X) = a1 (θ)T (X) + a2 (θ) = 1.
∂θ
Die Integration bezüglich θ liefert
Pθ fθ (X) = exp{c(θ)T (X) + d(θ) + S(X)} = 1,
wobei c und d die Stammfunktionen von a1 und a2 bezeichnen und S(X) eine weitere
Zufallsvariable ist (die nicht von θ abhängt).
Definition 3.1: Eine Familie von Verteilungen
P = {fθ | θ ∈ Θ}
auf X heißt k-parametrige exponentielle Familie, falls die Lebesgue- bzw. Zähldichten
von P in der Form
fθ (x) = c(θ)h(x) exp
k
X
Qj (θ)Tj (x) IA (x)
j=1
geschrieben werden können, wobei die Menge A ⊂ X unabhängig von θ ist [man beachte,
dass für k 0 ≥ k eine k-parametrige exponentielle Familie auch immer eine k 0 -parametrige
exponentielle Familie ist und wir implizit von dem kleinstmöglichen k mit der obigen
Darstellung sprechen].
Beispiele 3.2:
(1) (Binomialverteilung) Es sei X ∼ Bin(n, θ) mit θ ∈ (0, 1). Dann gilt für x ∈
{0, . . . , n}
n
n x
θ o
n−x
n n
fθ (x) =
θ (1 − θ)
= (1 − θ)
exp x log
x
x
1−θ
1
und die Verteilungsfamilie
P = {fθ | θ ∈ (0, 1)]
bildet eine einparametrige exponentielle Familie mit
n
h(x) =
, c(θ) = (1 − θ)n ,
x
Q1 (θ) = log(θ/(1 − θ))
und
T1 (x) = x.
(2) (Normalverteilung) Es sei X ∼ N1 (µ, σ 2 ) mit θ = (µ, σ 2 ) ∈ R × R+ , dann gilt für
die Lebesgue-Dichte von X
h (x − µ)2 i
exp −
2σ 2
2πσ 2
h x2
µ2 1
µ i
= √
exp − 2 exp − 2 + 2 x
2σ
2σ
σ
2πσ 2
fθ (x) = √
1
und die Familie von Verteilungen
P = {fθ : R → R+ | θ = (µ, σ 2 ) ∈ R × R+ }
bildet eine zweiparametrige exponentielle Familie mit
Q1 (θ) = σµ2 ; T1 (x) = x
Q2 (θ) = − 2σ1 2 ; T2 (x) = x2 .
(3) (Poissonverteilung) X ∼ Po (λ) mit λ > 0, dann gilt für die Zähldichte von X
fθ (x) =
λx e−λ
1
IN0 (x) = e−λ exp(x log λ)IN0 (x)
x!
x!
und es liegt eine einparametrige exponentielle Familie vor mit
c(λ) := e−λ ; h(x) = 1/x!, T1 (x) = x
und
Q1 (λ) = log λ.
Bemerkungen 3.3:
2
(1)
(1) Es sei P = {fθ | θ ∈ Θ} eine k-parametrige exponentielle Familie mit Statistiken
T1 , . . . , Tk und für x = (x1 , . . . , xn ) sei
fθ (x) =
n
Y
(1)
fθ (xj )
j=1
eine Dichte auf X n (man beachte, dass fθ die gemeinsame Dichte von n Zufallsvari(1)
ablen X1 , . . . , Xn i.i.d. ∼ fθ ist).
Dann ist P ⊗ = {fθ | θ ∈ Θ} ebenfalls eine k-parametrige exponentielle Familie mit
den Statistiken
n
n
X
X
T1 (xj ), . . . ,
Tk (xj ).
j=1
j=1
(2) Aus dem Faktorisierungskriterium von Neyman [Satz 2.5] folgt unmittelbar, dass in
einer k-parametrigen exponentiellen Familie die Statistik T = (T1 , . . . , Tk ) suffizient
für den Parameter θ ist.
Beispiel 3.4: Es seien X1 , . . . , Xn i.i.d. ∼ N1 (µ, σ 2 ), dann bilden nach Beispiel 3.2 und
Bemerkung 3.3(1) die gemeinsamen Verteilungen des Vektors X = (X1 , . . . , Xn )T eine
2-parametrige exponentielle Familie mit Statistiken
!
!
Pn
x
T1 (x)
Pnj=1 2j .
T (x) =
=
T2 (x)
j=1 xj
Nach Bemerkung 3.3 (2) ist die Statistik T suffizient für den Parameter θ = (µ, σ 2 ).
Bemerkung 3.5: Man beachte, dass in der Definition der exponentiellen Familie die Konstante c(θ) ,,nur“ ein Normierungsfaktor ist, der von θ nur über Q(θ) = (Q1 , (θ), . . . , Qk (θ))T
abhängt. So erhält man z.B. im stetigen Fall aus der Bedingung
Z
Z
n
X
1=
fθ (x)dx = c(θ) ·
exp
Qj (θ)Tj (x) dx
X
A
j=1
die Darstellung
c(θ) =
nZ
n
X
o−1
exp
Qj (θ)Tj (x) dx
,
A
j=1
und ein analoges Resultat gilt für diskrete Verteilungen, indem man die Integration durch
Summation ersetzt.
Durch das Einführen neuer Koordinaten
ξ = Q(θ) = (Q1 (θ), . . . , Qk (θ))
3
erhält man dann eine Darstellung der Form
fξ (x) = c(ξ)h(x) exp
k
X
ξj Tj (x) IA (x)
j=1
für die Dichte fθ , wobei die Konstante durch die Bedingung c(ξ) = 1/k(ξ) mit
P
 R
k

h(x)
exp
ξ
T
(x)
dx falls fθ Lebesgue-Dichte
 A
j=1 j j

k(ξ) =
P


k
P
h(x) exp
ξj Tj (x) falls fθ Zähl-Dichte .
x∈A
j=1
definiert ist (man beachte, dass k(ξ) auch unendlich sein kann!).
Der Parameter ξ ∈ Z := Q(Θ) heißt natürlicher Parameter und die Menge
Z ∗ = {ξ ∈ Rk | k(ξ) < ∞}
heißt natürlicher Parameterbereich der exponentiellen Familie (man beachte, dass
Z = Q(Θ) ⊂ Z ∗
6=
gelten kann).
Beispiel 3.6: (Fortsetzung von Beispiel 3.2)
(1) Es sei X ∼ Bin(n, θ) mit θ ∈ (0, 1), dann ist
ξ = Q1 (θ) = log
θ
1−θ
der natürliche Parameter, Z = Q1 (Θ) = R,
n X
n
k(ξ) =
exp(ξx) = (eξ + 1)n
x
x=0
und damit ist Z ∗ = Z = R der natürliche Parameterraum Mit diesen neuen Koordinaten kann die Zähldichte der Bionomialverteilung als
n ξx
fξ (x) = c(ξ)
e I{0,...,n} (x)
x
dargestellt werden wobei c(ξ) = 1/k(ξ) die entsprechende Normierungskonstante
darstellt.
(2) Es sei X ∼ N1 (µ, σ 2 ), θ = (µ, σ 2 ) ∈ R × R+ , dann ist
µ
1
,
−
ξ = (ξ1 , ξ2 ) =
σ2 σ2
4
der natürliche Parameter und damit Z = R × R− . Für die Dichte erhalten wir die
Darstellung
fξ (x) = c(ξ) exp(ξ1 x + ξ2 x2 ),
wobei c(ξ) = 1/k(ξ) ist mit
Z
k(ξ) =
exp(ξ1 x + ξ2 x2 )dx.
R
Da für ξ2 < 0 die Ungleichung k(ξ) < ∞ gilt, erhalten wir als natürlichen Parameterbereich Z ∗ = Z = R × R− .
(3) Für die Poissonverteilung X ∼ P0 (λ) erhält man für den natürlichen Parameter
ξ = log λ und für den natürlichen Parameterraum Z ∗ = Z = R.
Übung 3.7: Man zeige, dass mit den Bezeichnungen aus 3.5 gilt: Z ∗ ist konvex und Z ∗
hat nichtleeres Inneres.
Satz 3.9: Es sei P = {fξ | ξ ∈ Z} eine k-parametrige exponentielle Familie mit
natürlicher Parametrisierung und Lebesgue- oder Zähldichten
fξ (x) = c(ξ)h(x) exp
k
nX
o
ξj Tj (x) IA (x),
j=1
ϕ : X → R eine (messbare und) beschränkte Funktion und Z ∗∗ ⊂ Z ∗ eine offene Menge,
so dass für alle ξ ∈ Z ∗∗ mit X ∼ fξ der Erwartungswert Eξ [ϕ(X)] existiert. Dann ist die
Funktion
( ∗∗
Z → Rh
o
i R
nP
β:
k
ξ
→ Eξ ϕ(X)
ξ
T
(x)
dx
=
ϕ(x)h(x)
exp
j=1 j j
c(ξ)
A
beliebig oft differenzierbar und es gilt:
∂ `1
∂ `k
h ϕ(x)
i
(∗)
β(ξ) = Eξ
T1`1 (X) . . . Tk`k (X) .
...
∂ξ1
∂ξk
c(ξ)
Man beachte, dass im stetigen Fall die Gleichung (∗) äquivalent zu der Darstellung
k
∂ `k Z
X
∂ `1
...
h(x)ϕ(x) exp
ξj Tj (x) dx
∂ξ1
∂ξk
A
j=1
Z
k
X
ξj Tj (x) dx
=
h(x)ϕ(x)T1`1 (x) . . . Tk`k (x) exp
A
j=1
5
und bedeutet, dass Differentiation und Integration vertauscht werden dürfen. Eine entsprechende Deutung erhalten wir im diskreten Fall, wobei die Integration durch Summation ersetzt werden muss.
Übung 3.10: Es sei P = {fξ | ξ ∈ Z} eine einparametrige exponentielle Familie mit
natürlicher Parametrisierung und Dichten
fξ (x) = c(ξ)h(x) exp(ξT1 (x)).
Man zeige für die Zufallsvariablen X ∼ fξ
Eξ [T (X)] = −(log c(ξ))0
Varξ (T (X)) = −(log c(ξ))00 .
Bestimmen Sie die Fisher-Information von P bzgl. ξ. Nimmt T (X) die untere Schranke der
Crámer-Rao-Ungleichung an? Man formuliere und beweise ein entsprechendes Ergebnis
für k-parametrige exponentielle Familien.
Beispiel 3.11: (Fortsetzung von Beispiel 3.6)
θ
(1) Falls X ∼ Bin(n, θ), dann ist T1 (X) = X, ξ = log 1−θ
, c(ξ) = (1 + eξ )−n und wir
erhalten
eξ
= nθ
1 + eξ
eξ
−(log c(ξ))00 = n
= nθ(1 − θ).
(1 + eξ )2
−(log c(ξ))0 = n
ξ
(2) Fall X ∼ P0 (λ), dann ist ξ = log λ, c(ξ) = e−e , T (X) = X und wir erhalten
−(log c(ξ))0 = eξ = λ
−(log c(ξ))00 = eξ = λ.
Satz 3.12: Es sei P = {fθ | θ ∈ Θ} eine k-parametrige exponentielle Familie mit Dichten
fθ (x) = c(ξ) exp
k
X
Qj (θ)Tj (x) h(x)IA (x)
j=1
und das Innere von Z = Q(Θ) sei nicht leer, dann ist die Statistik T = (T1 , . . . , Tk )
vollständig für θ.
6
Übung 3.13: Es sei P = {fθ | θ ∈ Θ} und T : X → τ eine suffiziente und vollständige
Statistik für den Parameter θ. Ist h : τ → τ bijektiv, so ist auch die Statistik T̃ = h◦T suffizient und vollständig für θ. [Man beachte, dass eine mathematisch exakte Formulierung
eine zugehörige Bedingung an die zugehörigen σ-Algebren benötigt (vgl. Witting, S. 354)].
Beispiele 3.14: Bei Vorliegen einer exponentiellen Familie erhalten wir UMVU-Schätzer
direkt mit dem Satz von Lehmann Scheffé.
(1) Es sei X ∼ Bin(n, θ), dann ist T1 (X) = X suffizient und vollständig für θ (vgl.
Beispiel 3.2) und nach 3.10(1) Eθ [X/n] = θ. Damit ist
T ∗ (X) = Eθ
i X
| T1 (X) =
n
n
hX
UMVU-Schätzer für θ.
(2) Es seien X1 , . . . , Xn i.i.d. ∼ N1 (µ, σ 2 ). Nach Beispiel 3.4 und Satz 3.12 ist
T (X) =
n X
Xi
i=1
Xi2
suffizient und vollständig für den Parameter θ = (µ, σ 2 ). Die Übung 3.13 zeigt, dass
auch die Statistik
!
Pn
X
i
Pi=1
T̃ (X) =
n
2
i=1 (Xi − X̄n )
suffizient und vollständig für den Parameter (µ, σ 2 ) ist. Nach Beispiel 2.27 ist
n
(X̄n , Ŝn2 )T
1 X
= (X̄n ,
(Xi − X̄n )2 )T
n − 1 i=1
erwartungstreu für (µ, σ 2 ) und somit die Komponenten von
hX̄ i X̄ n
n
∗
| T̃ (X) =
T (X) = E
2
2
Ŝn
Ŝn
UMVU-Schätzer für die jeweiligen Parameter µ und σ 2 .
Beispiel 3.15: (zweifaktorielle Kontingenztafeln) Es sollen Objekte (z.B. Schüler)
mit zwei Merkmalen (z.B. Geschlecht und Note in Mathematik) untersucht werden. Von
Interesse sind hier die Wahrscheinlichkeiten für eine bestimmte Merkmalskombination
(z.B. ein männlicher Schüler hat eine 2). Die Merkmale werden auch oft Faktoren genannt
und mit A und B bezeichnet. Die verschiedenen Möglichkeiten für ein Merkmal heißen
Stufen , wobei der Faktor A die r ≥ 2 Stufen A1 , . . . , Ar und der Faktor die s ≥ 2 Stufen
7
B1 , . . . , Br haben soll (z.B. hat der Faktor Geschlecht 2 Stufen und der Faktor Note 6
Stufen). Die mathematische Modellierung dieses Experiments erfolgt durch Zufallsvariable Y1 , . . . , Yn mit
Yk ∼ (X11k , X12k , . . . , Xrsk )T ∼ M(1, p11 , . . . , prs ),
wobei die Wahrscheinlichkeiten pij für die Faktorkombination (Ai , Bj ) (i = 1, . . . , r; j =
1, . . . , s) positiv sind und
r X
s
X
pij = 1
i=1 j=1
gilt. Man beachte, dass Yk ein Vektor ist, in dem genau an einer Stelle eine 1 und sonst
Nullen stehen. Ist Xijk die entsprechende Komponente mit der 1, so bedeutet das, dass bei
Yk für den Faktor A die Stufe i und für den Faktor B die Stufe j auftritt. Wir definieren
Xij =
n
X
Xijk
k=1
als die Anzahl der Objekte in der Stichprobe mit der Faktorkombination (Ai , Bj ) für
Faktor A und Faktor B und erhalten nach Definition der Multinomialverteilung
Y =
n
X
Yk = (X11 , . . . , Xrs )T ∼ M(n, p11 , . . . , prs ).
k=1
Als Messwertschema ergibt sich dann die folgende r × s Kontingenztafel
A\B
A1
A2
..
.
B1
X11
X21
..
.
B2
X12
X22
..
.
. . . Bs
. . . X1s
. . . X2s
..
.
X1·
X2·
..
.
Ar
Xr1
X·1
Xrs
X·2
...
...
Xr·
n
wobei
Xi· =
s
X
Xij ;
X·j =
j=1
Xrs
X·s
r
X
Xij
i=1
die Zeilen- bzw. Spaltensummen in dieser Tafel bezeichnet. Aus Beispiel 1.5 erkennt
man,PdassPdie Multinomialverteilungen mit (Zähl-)Dichten [θ = (p11 , . . . , pr,s−1 ); prs =
1 − ri=1 s−1
j=1 pij ]
r
s
o
YY x n
X
n!
fθ (x) =
pijij I xij ∈ {0, . . . , n},
xij = n
x11 ! . . . xrs ! i=1 j=1
i,j
8
eine rs − 1 parametrige exponentielle Familie bilden und daher die Statistik
Ỹ = (X11 , X12 , . . . , Xr,s−1 )T
vollständige und suffiziente Statistik für θ is [vgl. Satz 3.12]. Man beachte, dass wegen
der Beziehung
r X
s−1
X
Xrs =
Xij
i=1 j=1
die letzte Koordinate von Y durch Ỹ bestimmt ist und eine entsprechende Aussage für
die zugehörige Wahrscheinlichkeit prs gilt. Wegen
E
hX i
ij
n
= pij
i = 1, . . . , r; j = 1, . . . , s
ist nach dem Satz von Lehmann-Scheffé für i = 1, . . . , r; j = 1, . . . , s
p̂ij =
Xij
n
ein UMVU-Schätzer für den Parameter pij . Man beachte, dass man die Zellhäufigkeiten
als Schätzer benutzt, und diese Statistiken auch sofort durch ein heuristisches Argument
gewonnen werden können. Die obige Argumentation weist aber gleichzeitig die Optimalität dieser Schätzungen nach.
Beispiel 3.16: Wir nehmen zusätzlich in Beispiel 3.15 an, dass die Faktoren A und B
unabhängig sind (z.B. dass das Geschlecht und die Noten im Unterricht unabhängig sind),
d.h. es gilt
pij = P (Ai ∩ Bj ) = P (Ai )P (Bj ) = pi· p·j
mit
pi· =
s
X
pij ; p·j =
j=1
r
X
pij
(i = 1, . . . , r; j = 1, . . . , s).
i=1
Für die Dichten erhält man dann
r
fθ (x) =
=
s
n
o
YY
X
n!
(pi· p·j )xij I{xij ∈ 0, . . . , n},
xij = n
x11 ! . . . xrs ! i=1 j=1
i,j
r
s
n
o
Y
Y
X
n!
x
pxi·i·
p·j·j I xij ∈ {0, . . . , n};
xij = n
x11 ! . . . xrs ! i=1
j=1
ij
und es liegtP
eine r+s−2
exponentielle Familie vor (man beachte die NebenbePparametrige
r
s
dingungen i=1 pi· = j=1 p·j = 1) mit suffizienter und vollständiger Statistik
(X1· , . . . , Xr−1,· , X·1 , . . . , X·,s−1 )T
9
(man beachte, dass die Zufallsvariablen X·s und Xr· durch die Relation
X·s = n −
r−1
X
X·j ; Xr· = n −
j=1
r−1
X
Xi·
i=1
bestimmt sind. Unter der obigen Annahme der Unabhängigkeit erhält man dann
p̂ij =
Xi· X·j
n2
i = 1, . . . , r;
j = 1, . . . , s
als UMVU-Schätzer für die Wahrscheinlichkeiten pij = pi· p·j .
4
Asymptotische Eigenschaften von Schätzern
In diesem Abschnitt sei X = (X1 , . . . , Xn )T eine Zufallsvariable mit mit Werten in Dn
und Dichte fθ , wobei der Parameter θ [oder allgemeiner ein Funktional γ(θ)] aus den
Daten geschätzt werden soll. Eine Minimalvoraussetzung für eine sinnvolle Schätzmethode
ist, dass bei wachsendem Stichprobenumfang die Genauigkeit der Schätzungen verbessert
werden sollte.
Definition 4.1: Es γ : Θ → Γ ⊂ R` ein Funktional. Ein Schätzer Tn : Xn → Γ heißt
konstent für γ(θ), genau dann, wenn für alle θ ∈ Θ und für alle ε > 0 gilt
(∗)
lim Pθ (kTn (X) − γ(θ)k > ε) = 0.
n→∞
Dabei bezeichnet k · k eine beliebige Norm auf R` . Schreibweise:
P
θ
Tn (X) −→
γ(θ)
bzw.
P
θ
Tn −→
γ(θ) ∀ θ ∈ Θ,
man sagt auch die Zufallsvariable Tn (X) konvergiert stochastisch gegen den Parameter γ(θ).
Der Schätzer Tn heißt asymptotisch erwartungstreu für den Parameter γ(θ), falls für alle
θ ∈ Θ gilt
lim Eθ [Tn (X)] = γ(θ)
n→∞
(natürlich setzen wir in diesem Fall die Existenz des Erwartungswerts voraus).
Bemerkung 4.2:
(1) Anschaulich bedeutet die Gleichung (∗), dass bei großem Stichprobenumfang der
Schätzer Tn (X) mit großer Wahrscheinlichkeit nahe bei dem unbekannten Parameter
γ(θ) liegt. Diese Aussage ist natürlich nicht besonders präzise, da keine Aussage
über die Konvergenzgeschwindigkeit gemacht wird.
10
(2) Eine typische Methode zum Nachweis der Konsistenz im Fall ` = 1 ist die Markov-Ungleichung, nach der für jede reellwertige Zufallsvariable Z und jede konvexe Funktion
ϕ : R0 → R0 gilt
E[ϕ(Z)]
P (|Z| > ε) ≤
.
ϕ(ε)
Für die spezielle Wahl Z = Tn (X) − γ(θ) (P = Pθ ) erhält man dann
Pθ (|Tn (X) − γ(θ)| > ε) ≤
Eθ [ϕ(|Tn (X) − γ(θ)|)]
,
ϕ(ε)
+
k
wobei ϕ : R+
0 → R0 eine beliebige konvexe Funktion ist (oft wird ϕ(X) = |x|
benutzt). Man beachte, dass diese Ungleichung für ϕ(x) = x2 und erwartungstreue
Schätzer für den Parameter γ(θ) die Chebyshev-Ungleichung ergibt:
Pθ (|Tn (X) − γ(θ)| > ε) ≤
Varθ (Tn (X))
.
ε2
(3) Der Begriff der Konsistenz kann immer dann definiert werden, sobald ein Abstandsmaß auf dem interessierenden Parameterbereich Γ erklärt ist. In Definition 4.1 ist
Γ Teilmenge eines normierten linearen Raums. Man könnte aber auch allgemeiner
Teilmengen metrischer Räume betrachten (siehe Vorlesung statistik II).
Beispiele 4.3:
(1) Es seien X1 , . . . , Xn i.i.d. ∼ N1 (µ, σ 2 ), dann ist X̄n konsistenter Schätzer für den
Parameter µ und
n
σ̂n2
1X
(Xi − X̄n )2 ;
=
n i=1
n
Ŝn2
1 X
=
(Xi − X̄n )2
n − 1 i=1
sind konsistente Schätzer für den Parameter σ 2 . Dabei ist Ŝn2 erwartungstreu für σ 2
und σ̂n2 asymptotisch erwartungstreu für σ 2 (vgl. Beispiel 2.27).
P
(2) Es seien X1 , . . . , Xn i.i.d. ∼ M(1, θ1 , . . . , θs ) θ1 , . . . , θs > 0, si=1 , θi = 1), dann ist
der Schätzer
n
1X
Tn (X) =
Xi
n i=1
erwartungstreuer und konsistenter Schätzer für θ = (θ1 , . . . , θs )T .
Übung 4.4: Man zeige:
11
(1) Für i = 1, . . . , ` sei Tni : X → R Schätzer für den Parameter γi (θ), dann gilt: Der
Schätzer
Tn (X) = (Tn1 (X), . . . , Tn` (X))T
ist genau dann konsistent für den Parameter γ(θ) = (γ1 (θ), . . . , γ` (θ))T falls jede
Komponente Tni (X) konsistent für γi (θ) ist (i = 1, . . . , `).
˜
(2) Es sei Tn (X) ein konsistenter Schätzer für γ(θ) und g : Γ → Γ̃ ⊂ R` eine stetige
Funktion, dann ist auch g(Tn (X)) konsistenter Schätzer für g(γ(θ)).
Bemerkung 4.5: Die mit dem Schätzprinzip der Momentenmethode erhaltenen Schätzer
(vgl. Bemerkung 2.13) sind konsistent. Genauer sind X1 , . . . , Xn i.i.d. ∼ fθ ;
mj (θ) = Eθ [Xij ] (j = 1, . . . , k)
und existiert für das interessierende Funktional des Parameters eine Darstellung der Form
γ(θ) = g(m1 (θ), . . . , mk (θ))
mit einer stetigen Funktion g : Rk → R` , dann ist im Fall der Existenz der Momente
E[Xi2k ] der Schätzer
n
n
1 X
1 X k
Xi , . . . ,
X
Tn (X) = g
n i=1
n i=1 i
konsistent für den Parameter γ(θ).
Im Folgenden wollen wir ein entsprechendes Resultat für die Maximum-Likelihood-Schätzung
herleiten. Die Schwierigkeit ist hier, dass im allgemeinen Fall weder die Existenz noch
Eindeutigkeit der Lösung der Maximum-Likelihood-Gleichungen gewährleistet ist, da eine
explizite Auflösung der Gleichung
∂
log f (x, θ) = 0
∂θ
nur in den seltensten Fällen möglich ist. Wir betrachten hier nur den Fall von unabhängig
identisch verteilten Beobachtungen und verweisen für ein allgemeineres Resultat auf das
Lehrbuch von Pruscha.
(1)
Satz 4.6: Es seien X1 , . . . , Xn i.i.d. ∼ fθ ; θ ∈ Θ; Θ ⊂ Rk offen und es seien die
Annahmen (i) – (iii) aus Bemerkung 2.42 erfüllt. Gilt zusätzlich, dass für jedes x ∈ Mf
die Funktion
(1)
θ → log fθ (x)
zweimal stetig differenzierbar ist und für i, j = 1, . . . , k die stochastische Konvergenz
n
h ∂
i
1 X ∂2
∂
Pθ
(1)
(1)
(1)
log fθn∗ (X` ) −→
−Eθ
log fθ (X` )
log fθ (X` ) =: −(iθ )ij
n `=1 ∂θi ∂θj
∂θi
∂θj
12
P
θ
für jeden Schätzer θn∗ mit der Eigenschaft θn∗ −→
θ; dann gilt mit einer Pθ -Wahrscheinlichkeit,
die gegen 1 konvergiert:
(1) Es existiert eine Lösung θ̂n = θ̂n (X) der Maximum-Likelihood-Gleichungen
n
X ∂
∂
(1)
log fθ (X) =
log fθ (Xj ) = 0
∂θ
∂θ
j=1
Man beachte, dass für die Dichte von fθ von X = (X1 , . . . , Xn )T gilt
fθ (X) =
n
Y
(1)
fθ (Xj ).
j=1
(2) Im Punkt θ̂n nimmt die Funktion log fθ (X) (als Funktion von θ) ein lokales Maximum an und θ̂n (X) is konsistenter Schätzer für den Parameter θ.
Bemerkung 4.7:
(1) Wie bei der Cramér-Rao-Ungleichung werden diese Voraussetzungen bei der konkreten
Anwendung der Maximum-Likelihood-Methode nur selten überprüft. Der Satz
4.6 zeigt aber, dass unter Regularitätsvoraussetzungen die ML-Schätzung als universelles Schätzprinzip konsistent ist.
(2) Man beachte, dass unter der Annahme der Vertauschbarkeit von Differentiation und
Integration gilt (Übung)
h ∂2
i
i
h ∂
∂
(1)
(1)
(1)
log fθ (X1 ) = −Eθ
log fθ (X1 ) log fθ (X1 )
Eθ
∂θi ∂θj
∂θi
∂θ
und daher die Voraussetzung (∗) aus Stetigkeitsgründen wegen des schwachen Gesetzes der großen Zahlen in vielen Fällen erfüllt ist.
Bemerkung: Der Beweis des höherdimensionalen Falls unterscheidet sich nur dadurch,
dass man für den Nachweis der Existenz der Nullstelle von g den Fixpunktsatz von
Brouwer verwendet.
Beispiel 4.8: (ML-Schätzung bei Gamma-Verteilung) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit der Dichte
(1)
fθ (x1 ) =
λα α−1 −λx1
I(0,∞) (x1 )
x e
Γ(α) 1
13
θ = (λ, α)T ∈ (0, ∞)2 . Die Verteilung der Zufallsvariablen Xi heißt Gamma-Verteilung
mit Parametern (λ, α); als Schreibweise verwenden wir: X1 , . . . , Xn i.i.d. ∼ Γ(λ, α).
Um die ML-Gleichungen aufzustellen, bestimmen wir die gemeinsame Dichte von X =
(X1 , . . . , Xn ) und erhalten mit x = (x1 , . . . , xn )T
n
n
λnα Y α−1 −λ Pni=1 xi
fθ (x) =
x
e
I
min
x
i .
(0,∞)
i=1
(Γ(α))n i=1 i
Differenzieren bzgl. (λ, α)T liefert die Maximum-Likelihood-Gleichungen
n
nα X
∂
log fθ (x) =
−
xi = 0,
∂λ
λ
i=1
n
X
∂
nΓ0 (α)
log fθ (x) = n log λ +
log xi −
= 0,
∂α
Γ(α)
i=1
und wir erhalten die Maximum-Likelihood-Schätzungen (λ̂, α̂) als Lösung des (nichtlinearen) Gleichungssystems
n
1 X
−1
λ̂ =
Xi
nα̂ i=1
n
1X
Γ0 (α̂)
− log λ̂ =
Xi .
Γ(α̂)
n i=1
Satz 4.6 besagt, dass mit einer Wahrscheinlichkeit, die für n → ∞ gegen 1 konvergiert, eine
konsistente Lösung dieser Gleichungen existiert. Die Überprüfung der Voraussetzungen
(i) – (iii) aus Bemerkung 2.42 überlassen wir dem Leser. Zum Nachweis der Bedingungen
(∗) berechnen wir die Fisher-Informationsmatrix und erhalten (Übung)
h ∂
2 i
∂
(1)
(1)
log fθ (X1 )
log fθ (X1 )
I(θ) = (iθ )2i,j=1 = Eθ
∂θi
∂θj
i,j=1


α
− λ1
λ2
=  1 Γ00 (α) Γ0 (α) 2 
− λ Γ(α) − Γ(α)
und die Eigenschaft (∗) folgt direkt durch Übung 4.4(2) und Berechnung der zweiten
Ableitungen
α ∂2
1
∂2
(1)
(1)
log
f
(x
)
=
−
log fθ (x1 ) =
1
θ
2
2
∂ λ
λ ∂α∂λ
λ
Γ0 (α) 2
00
∂2
Γ
(α)
(1)
log fθ (x1 ) = −
+
,
∂2α
Γ(α)
Γ(α)
die offensichtlich stetig sind.
In den vorigen Betrachtungen haben wir gesehen, dass unter Regularitätsvoraussetzungen
der Maximum-Likelihood-Schätzer stochastisch gegen den ,,wahren“ Parameter konvergiert.
14
Allerdings gibt dieses Resultat keine Auskunft über die Konvergenzgeschwindigkeit. Z.B.
ist in Beispiel 4.6 die untere Schranke für die Varianz eines erwartungstreuen Schätzers
für den Parameter λ durch λ2 /αn gegeben, aber es ist nicht klar, ob die ML-Methode eine
erwartungstreue Schätzung mit einer Varianz von derselben Größenordnung liefert. Um
eine solche Eigenschaft für die ML-Schätzungen nachzuweisen, führen die Prinzipien der
Verteilungskonvergenz und asymptotischen Effizienz ein [vgl. auch Vorlesung Wahrscheinlichkeitstheorie I].
Definition 4.9: Es sei (Z (n) )n∈N eine Folge von d-dimensionalen Zufallsvariablen (Z (n) =
(Zn1 , . . . , Znd )T ) mit Verteilungsfunktionen
P (Zn1 ≤ t1 , . . . , Znd ≤ td ) = Fn (t1 , . . . , td )
und Z = (Z1 , . . . , Zd )T d-dimensionale Zufallsvariable mit Verteilungsfunktion
P (Z1 ≤ t1 , . . . , Zd ≤ td ) = F (t1 , . . . , td ).
Die Folge (Zn )n∈N konvergiert in Verteilung gegen Z (bzw. konvergiert schwach gegen Z),
falls in jedem Stetigkeitspunkt (t1 , . . . , td )T der Verteilungsfunktion F gilt:
lim Fn (t1 , . . . , td ) = F (t1 , . . . , td ).
n→∞
Als Schreibweise verwenden wir:
D
D
Zn −→ Z; Zn −→ F
(dabei steht das D für distribution). Ist Z ∼ Nd (µ, Σ), so heißt (Zn )n∈N asymptotisch normalverteilt und man schreibt
D
Zn −→ Nd (µ, Σ).
Bemerkungen 4.10:
(1) Liegt Verteilungskonvergenz vor, so können für großes n ∈ N die Wahrscheinlichkeiten
P (Zn ∈ B)
durch die Wahrscheinlichkeiten
P (Z ∈ B)
approximiert werden.
(2) Es seien X1 , . . . , Xn unabhängig
identisch verteilte Zufallsvariable mit X1 ∼ Bin(1, θ);
Pn
1
θ ∈ (0, 1) and Zn = n i=1 Xi , dann gilt:
√
D
n(Zn − θ) −→ N1 (0, θ(1 − θ))
[Satz von Moivre Laplace]
15
D
(3) Es gilt Z (n) = (Zn1 , . . . , Znd )T −→ Z = (Z1 , . . . , Zd )T genau dann, wenn für alle
Vektoren a ∈ Rd gilt
D
aT Z (n) −→ aT Z.
D
(4) Es sei a ∈ Rd und es gelte Z (n) −→ a, dann gilt auch
P
Z (n) −→ a.
Satz 4.11: (Zentraler Grenzwertsatz) Es seien X1 , . . . , Xn unabhängig identisch
P
verteilte d-dimensionale Zufallsvariable
mit E[Xk ] = µ ∈ Rd und Cov(Xi ) =
> 0,
P
dann gilt für den Mittelwert Z (n) = n1 ni=1 Xi
√
D
n(Z (n) − µ) −→ Ns−1 (0, Σ).
n→∞
Beispiel 4.12: Es sei
X = (X1 , . . . , Xs )T ∼ M(n, p1 , . . . , ps )
mit p1 , . . . , ps > 0,
Ps
i=1
pi = 1 und Z (n) = n1 (X1 , . . . , Xs−1 )T für n → ∞
√
D
n(Z (n) − p) −→ Ns (0, Σ),
n→∞
wobei p = (p1 , . . . , ps−1 )T und die Matrix Σ = (Σij )s−1
i,j=1 durch
(
pi (1 − pi ) für i = j
Σij =
−pi pj für i 6= j
definiert ist. Diese Aussage ergibt sich unmittelbar aus der Definition der Multinomialverteilung [vgl. Beispiel 1.5], Übung 1.23 und Satz 4.11.
Lemma 4.13:
(1) (Lemma von Slutsky) Es seien (Z (n) )n∈N und (Y (n) )n∈N Folgen d-dimensionaler Zufallsvariablen, für die gilt
D
Z (n) −→ Z;
P
Y (n) −→ y0
wobei y0 ∈ Rd einen d-dimensionalen Vektor und Z eine dimensionale Zufallsvariable
bezeichne. Dann gilt:
D
YnT Z (n) −→ y0T Z
D
Z (n) + Y (n) −→ Z + y0 .
16
(2) (δ-Methode) Es sei (Z (n) )n∈N Folge von d-dimensionalen Zufallsvariablen, Z Zufallsvariable, b ∈ Rd , (Σn )n∈N ⊂ Rd×d eine Folge invertierbare Matrizen, so dass
D
(n)
Σ−1
− b) −→ Nd (0, S)
n (Z
mit einer positiven definiten Matrix S ∈ Rd×d gilt. Ist dann g : Rd → R` differenzierbare Funktion, so dass die Ableitung
g 0 (·) ∈ R`×d
im Punkt b stetig ist und (die Matrix g 0 ⊂ b) Rang ` hat, dann gilt
(n)
Σ−1
) − g(b)) → N` (0, g 0 (b)S(g 0 (b))T )
n (g(Z
Beispiel 4.14:
(1) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ Bin(1, θ),
dann gilt nach dem Satz von Moivre-Laplace
√
D
n(X̄n − θ) −→ N1 (0, θ(1 − θ))
und wegen des schwachen Gesetzes der großen Zahlen
P
θ
X̄n −→
θ.
Nach dem Lemma von Slutksy gilt dann auch
√
n(X̄n − θ) D
p
−→ N1 (0, 1),
X̄n (1 − X̄n )
und damit erhält man auf der rechten Seite eine von θ unabhängige Verteilung.
Alternativ kann man auch eine Transformation mit der Funktion g benutzen, die
die Differentialgleichung
p
g 0 (θ) = 1/ θ(1 − θ)
erfüllt, d.h.
√
g(θ) = 2 arcsin θ.
Dann gilt nach der δ-Methode
p
√
D
2 n(arcsin X̄n − arcsin θ) −→ N1 (0, 1).
Eine solche Transformation nennt man auch varianzstabilisierende Transformation.
17
(2) Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ N1 (µ, σ 2 ),
dann ist nach Satz 4.11
o
√ n 1 Xi
µ
D
n
−
−→ N2 (0, Σ)
n Xi2
µ2 + σ 2
wobei die asymptotische Kovarianzmatrix durch
!
Var(X1 )
Cov(X1 , X12 )
=
Σ=
Cov(X1 , X12 ) Var(X12 )
σ2
2µσ 2
2µσ 2 2σ 4 + 4µ2 σ 2
!
gegeben ist. Mit der Transformation g(x1 , x2 ) = −x21 + x2 erhalten wir
g(µ, µ2 + σ 2 ) = σ 2 , g 0 (x1 , x2 ) = (−2x1 , 1),
g 0 (µ, σ 2 )Σ(g 0 (µ, σ 2 ))T = 2σ 4
und nach Satz 4.13 (2) gilt für den Schätzer
n
σ̂n2
n
n
n
n
1 X
1X
1 X 2 1 X 2
1 X 2
2
=
(Xi − X̄n ) =
X −
Xi = g
Xi ,
X
n i=1
n i=1 i
n i=1
n i=1
n i=1 i
die asymptotische Normalität, d.h.
√
n(σ̂n2
n
n
√ 1 X
1 X 2
D
2
−σ )= n g
Xi ,
Xi − g(µ, σ ) −→ N1 (0, 2σ 4 ).
n i=1
n i=1
2
Bemerkung 4.15: Die Aussage der Verteilungskonvergenz eines Schätzers für θ
(∗)
√
D
θ
n(θ̂n (X) − θ) −→
Z
legt die Vermutung nahe, dass θ̂n (X) asymptotisch erwartungstreu für θ ist, falls die
Grenzverteilung Erwartungswert 0 hat, d.h. E[Z] = 0 gilt. Diese Schlussweise ist aber
im allgemeinen nicht korrekt und erfordert zusätzliche Voraussetzungen. Allerdings folgt
nach dem Satz von Slutsky aus der Annahme (∗)
1 √
Dθ
n(θ̂n (X) − θ) −→
0·Z =0
θ̂n (X) − θ = √
n
und aus Bemerkung 4.10 (4) die Konsistenz des Schätzers θ̂n (X) für den Parameter θ d.h.
P
θ
θ̂n (X) −→
θ.
Definition 4.16: Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit
(1)
Dichte ∼ fθ ; θ ∈ Θ; Θ ⊂ Rk offen und es gelten die Annahmen aus Bemerkung 2.42.
18
Ein Schätzer Tn (X) für den Parameter θ heißt asymptotisch effizient, falls für n → ∞ die
Verteilungskonvergenz
√
Dθ
n(Tn (X) − θ) −→
Nk (0, I −1 (θ))
gilt, wobei die k × k-Matrix
h ∂
ik
∂
(1)
(1)
I(θ) = Eθ
log fθ (X1 )
log fθ (X1 )
∂θi
∂θj
i,j=1
(1)
die Fisher-Informationsmatrix von fθ
bezeichnet.
Man beachte, dass aus der Eigenschaft der asymptotischen Effizienz die Konsistenz des
Schätzers Tn (X) für den Parameter θ folgt und außerdem Tn (X) asymptotisch die untere Schranke in der Cramér-Rao-Ungleichung annimmt, die unter den obigen Annahmen
durch
1
In−1 (θ) = I −1 (θ)
n
gegeben ist [vgl. Bemerkung 2.39].
Beispiel 4.17: Es seien X1 , . . . , Xn ∼ N1 (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariable, dann ist der Schätzer
n
Tn (X) = (X̄n ,
1X
(Xi − X̄n )2 )T
n i=1
asymptotisch effizient für den Parameter θ = (µ, σ 2 ), denn ein analoges Argument wie in
Beispiel 4.14 (2) zeigt, dass für den Schätzer
Tn (X) =
gilt
1 X
n
n
n
n
n
1 X
1 X 2 1 X 2 T
1 X 2
Xi ,
X −
Xi
=g
Xi ,
X
n i=1 i
n i=1
n i=1
n i=1 i
√
D
θ
n(Tn (X) − (µ, σ 2 )T ) −→
N2 (0, Σ(θ))
wobei die Kovarianzmatrix durch
2
Σ(θ) =
σ 0
0 2σ 4
!
= I −1 (θ)
gegeben ist [vgl. Beispiel 2.43].
Satz 4.18: (Unter Regularitätsvoraussetzungen sind Maximum-Likelihood-Schätzungen
asymptotisch effizient). Unter den Annahmen aus Satz 4.6 gilt für den nach diesem Satz
existierenden Maximum-Likelihood-Schätzer θ̂n (X) :
√
Dθ
n(θ̂n (X) − θ) −→
Nk (0, I −1 (θ)),
19
wobei die k × k-Matrix
h ∂
ik
∂
(1)
(1)
I(θ) = Eθ
log fθ (X` )
log fθ (X` )
∂θi
∂θj
i,j=1
(1)
die Fisher Informationsmatrix von fθ
bezeichnet.
Beispiele 4.19:
(1) Für den in Beispiel 4.8 implizit definierten ML-Schätzer (λ̂n , α̂n ) für die Parameter
der Gamma-Verteilung gilt
√ λ̂n
λ
D
n
−
−→ N2 (0, Σ(λ, α))
α̂n
α
mit der Kovarianzmatrix

Σ(λ, α) = 
α
λ2
− λ1
− λ1
0 2
Γ00(α)
(α)
− ΓΓ(α)
Γ(α)
−1

.
(2) Es seien X, Y eindimensionale Zufallsvariable, dann heißt die Größe
Corr(X) = p
Cov(X, Y )
Var(X)Var Y
Korrelationskoeffizient und ist ein Maß für die Abhängigkeit von X und Y. Man
beachte die Ungleichung
|Corr(X, Y )| ≤ 1.
Das Gleichheitszeichen in dieser Ungleichung gilt genau dann, wenn Konstanten
a, b, c ∈ R mit
P (aX + bY = c) = 1,
existieren. Es seien
µ σ 2 ρστ X1
Xn
1
,...,
i.i.d. ∼ N2
,
,
Y1
Yn
µ2
ρστ τ 2
dann gilt offensichtlich ρ = Corr(X1 , Y1 ) und mit der Bezeichnung θ = (µ1 , µ2 , σ 2 , τ 2 , ρ)
erhält man für die Dichte von (X1 , Y1 )
n τ 2 (x − µ )2 − 2στ (x − µ )(y − µ ) + τ 2 (y − µ )2 o
1
1
1
1
1
1
2
1
2
(1)
p
fθ (X1 , Y1 ) =
exp −
2 τ 2 (1 − ρ2 )
2
2σ
2πστ 1 − ρ
Damit ergibt sich mit der Bezeichnung (x, y)T = ((x1 , y1 )T , . . . , (x1 , yn ))T für die
Log-Likelihood-Funktion
`n (θ) = log fθ (x, y) =
n
X
i=1
20
(1)
log fθ (xi , yi ).
Für die Maximum-Likelihood-Gleichungen erhalten wir durch eine direkte Rechnung
das (nichtlineare) Gleichungssystem
P
P
τ 2 ni=1 (xi − µ1 ) − στ ρ ni=1 (yi − µ2 )
∂
`n (θ) =
=0
∂µ1
σ 2 τ 2 (1 − ρ2 )
P
P
σ 2 ni=1 (yi − µ2 ) − στ ρ ni=1 (xi − µ1 )
∂
`n (θ) =
=0
∂µ2
σ 2 τ 2 (1 − ρ2 )
P
Pn
2
ρ ni=1 (xi − µ1 )(yi − µ2 )
∂
n
i=1 (xi − µ1 )
−
=0
`n (θ) = − 2 +
∂σ 2
2σ
2σ 4 (1 − ρ2 )
2(σ 2 )3/2 τ (1 − ρ2 )
P
Pn
2
ρ ni=1 (xi − µi )(yi − µ2 )
∂
n
i=1 (yi − µ2 )
−
=0
`n (θ) = − 2 +
∂τ 2
2τ
2τ 4 (1 − ρ2 )
2(τ 2 )3/2 σ(1 − ρ2 )
n
n
n X
o
X
∂
nρ
ρ
2
2
2
2
`n (θ) =
τ
−
(x
−
µ
)
+
σ
(y
−
µ
)
i
1
i
2
∂ρ
1 − ρ2 (1 − ρ2 )2 σ 2 − τ 2
i=1
i=1
n
1 + ρ2 X
(xi − µ1 )(yi − µ2 ) = 0,
+
(1 − ρ2 )2 στ i=1
und die Lösung dieser Gleichungen ergibt für den Maximum-Likelihood-Schätzer
µ̂1 = X̄n ; µ̂2 = Ȳn
n
n
1X
1X
σ̂n2 =
(Xi − X̄n )2 ; τ̂n2 =
(Yi − Ȳn )2
n i=1
n i=1
Pn
(Xi − X̄n )(Yi − Ȳn )
.
ρ̂n = pPn i=1
Pn
2
2
i=1 (Yi − Ȳn )
i=1 (Xi − X̄n )
Der Schätzer ρ̂n heißt empirischer Korrelationskoeffizient und nach Satz 4.18 gilt
√
D
n(ρ̂n − ρ) −→ N (0, (1 − ρ2 )2 ),
wobei sich die asymptotische Varianz als Element (I(θ)−1 )55 der Fisher-Informationsmatrix


τ 2 −ρστ
0
0
0






 −ρστ σ 2

0
0
0






2
2
2
1


τ (2−ρ S)
ρ
ρ 2
−
0
0
−
τ
I(θ) = 2 2


4σ 2
4
2

σ τ (1 − ρ2 ) 




2 (2−ρ2 )
2
σ
ρ
ρ
2
 0

0
−4
−
σ
2


4τ
2




σ 2 τ 2 (1+ρ2 )
ρ 2
ρ 2
0
0
−2τ
−2σ
1−ρ2
ergibt [die Berechnung dieser Matrix sei dem Leser als Übung überlassen].
21
5
Konfidenzbereiche
Die Angabe eines Punktschätzers gibt keine Auskunft über Genauigkeit der Schätzung
und sollte daher immer durch die Angabe eines Fehlermaßes (wie z.B. Varianz oder MSE)
ergänzt werden. Als Alternative bieten sich Bereiche an, in denen der unbekannte Parameter mit ,,großer“ Wahrscheinlichkeit liegt. Solche Mengen nennt man Konfidenzbereiche.
Beispiel 5.1: In einem Experiment wurden die Daten
x1 = 3.45, x2 = 2.37, x3 = 4.13, x4 = 5.23
beobachtet. Unter der Annahme unabhängiger Daten
X1 , . . . , Xn ∼ N (µ, 1)
erhält man als UMVU-Schätzer für µ; man beachte (n = 4) :
µ̂n = x̄n = 3.795.
Für die Berechnung eines Bereichs, in dem der unbekannte Parameter µ mit großer
Wahrscheinlichkeit liegt, bezeichne
Z x
1
2
Φ(x) = √
e−t /2 dt
2π −∞
die Verteilungsfunktion der Standardnormalverteilung und für den Parameter β ∈ (0, 1)
uβ := Φ−1 (β)
das β-Quantil der Standard-Normalverteilung (man beachte, dass für Z ∼ N (0, 1) die
Identität P (Z ≤ uβ ) = Φ(β) = β gilt). Für die ,,zufälligen“ Grenzen
1
1
µ+
µ−
n (X) = X̄n + √ u1−α/2 ;
n = X̄n − √ u1−α/2
n
n
√
mit α ∈ (0, 1) gilt dann [man beachte n(X̄n − µ) ∼ N (0, 1)]
√
+
Pµ (µ−
n(X̄n − µ) < u1−α/2 )
n (X) < µ < µn (X)) = Pµ (−u1−α/2 <
= Φ(u1−α/2 ) − Φ(−u1−α/2 ) = 2Φ(u1−α/2) − 1 = 1 − α,
wobei die Identität Φ(x) = 1 − Φ(−x) verwendet wurde (man beachte, dass diese Ungleichung für jede Verteilungsfunktion mit symmetrischer Dichte gilt). In anderen Worten:
das Intervall (µ− (X), µ+ (X)) enthält den unbekannten Parameter µ mit Wahrscheinlichkeit 1 − α. Für die speziellen Daten ergibt sich z.B. für α = 5% das Intervall
(2.815, 4.775)
als 95%-Konfidenzintervall. Eine exakte Definition dieses Begriffes liefert die folgende
Definition.
22
Definition 5.2: Es sei X eine Zufallsvariable mit Werten in X und Verteilung Pθ (stetig
oder diskret) und C eine Familie von Untermengen von Θ. Eine Abbildung
c:X →C
heißt Konfidenzbereich für θ (Vertrauensbereich, Bereichsschätzer). Für α ∈ (0, 1) heißt
c Konfidenzbereich für θ zum Niveau 1 − α, falls für alle θ ∈ Θ gilt:
Pθ (θ ∈ c(X)) = Pθ ({x ∈ X | θ ∈ c(x)) ≥ 1 − α.
Die Zahl
inf Pθ (θ ∈ c(X))
θ∈Θ
heißt effektives Konfidenzniveau von c.
Bemerkung 5.3:
(1) Oft wird für das Mengensystem C die Potenzmenge von Θ verwendet. Besteht C im
Fall Θ ⊂ R nur aus Intervallen, so nennt man die Abbildung c auch Konfidenzintervall.
Entsprechend spricht man für Θ ⊂ Rk von Konfidenzrechtecken, Konfidenzellipsoiden
etc.
(2) Bezeichnet x ∈ X den Datenvektor, so wird oft auch c(x) als Konfidenzbereich
bezeichnet (genauer heißt c(x) konkreter Konfidenzbereich).
(3) Ist γ : Θ → Γ ein Funktional, so werden Konfidenzbereiche für γ(θ) analog definiert.
(4) Man beachte, dass im Fall der Lebesgue-Dichte die Menge {x ∈ X | θ ∈ c(x)}
messbar sein muss.
(5) Man beachte die folgende Interpretation des Begriffs Konfidenzbereich: Die ,,zufällige“
Menge c(X) enthält den unbekannten Parameter θ mit Wahrscheinlichkeit 1 − α.
Das bedeutet nicht, dass für die konkret vorliegenden Daten x ∈ X die Menge c(x)
den Parameter θ mit Wahrscheinlichkeit 1 − α enthält [diese Aussage ist entweder
richtig oder falsch - auch wenn man sie nicht überprüfen kann], sondern dass bei
häufiger Wiederholung des Experiments in mindestens (1 − α) 100% der Fälle der
unbekannte Parameter in den erhaltenen Bereichen liegen würde.
(6) Im Beispiel 5.1 ist C die Menge der Intervalle, X = Rn , n = 4
(
X → C
c:
x → [x̄n − √1n u1−α/2 , x̄n + √1n u1−α/2 ]
(7) Wünschenswert wäre ein möglichst großes Konfidenzniveau 1 − α (d.h. α → 0) und
gleichzeitig ein möglichst kleiner Konfidenzbereich. Offensichtlich ist eine solche
simultane Optimierung nicht möglich [man denke z.B. an die Abbildung c(x) =
Θ ∀ x ∈ X , die Konfidenzniveau 1 besitzt.].
23
(8) Es bezeichne A(θ) := {x ∈ X | θ ∈ c(x)}, dann gilt offensichtlich:
x ∈ A(θ) ⇐⇒ θ ∈ c(x),
d.h. c ist Konfidenzbereich zum Niveau 1 − α falls
Pθ (A(θ)) ≥ 1 − α ∀ θ ∈ Θ
gilt. D.h. für die Angabe von c sind die Mengen A(θ) festzulegen. Damit c kleine
Bereiche liefert, sollte daher die Menge A(θ) möglichst wenig Punkte enthalten. Im
diskreten Fall würde man daher der Menge A(θ) diejenigen Werte x ∈ X zuordnen,
für die die Wahrscheinlichkeiten Pθ (X = x} am größten werden.
Beispiel 5.3: Es seien X1 , . . . , Xn ∼ B(1, θ), unabhängig identisch verteilte Zufallsvariable, dann ist
n
X
B=
Xi ∼ B(n, θ)
i=1
suffiziente Statistik für den Parameter θ und wegen der Ungleichung
n−x+1 θ
Pθ (B = x)
=
≤ 1 ⇐⇒ (n + 1)θ ≤ x
Pθ (B = x − 1)
x
1−θ
sollte man die Menge A(θ) in der Form
A(θ) ∈ {x ∈ {0, . . . , n} | a(θ) ≤ x ≤ A(θ)}
wählen, so dass für alle θ ∈ Θ
A(θ) X
n x
Pθ (A(θ)) =
θ (1 − θ)n−x ≥ 1 − α
x
x=a(θ)
gilt. Man beachte, dass durch diese Ungleichung die Grenzen a(θ) und A(θ) nicht eindeutig
festgelegt sind. Wir wählen die Grenzen ,,symmetrisch“, d.h.
a(θ) = max{k ∈ {0, . . . , n} |
k−1 X
n
θ(1 − θ)n−j ≤
α
}
2
j
n j
α
A(θ) = min{k ∈ {0, . . . , n} |
θ (1 − θ)n−j ≤ }.
2
j
j=k+1
j=0
n
X
Durch Vergleich der Ableitung bezüglich θ zeigt man leicht die Identität
Z θ
n X
n j
n!
n−j
(∗),
θ (1 − θ)
=
tx−1 (1 − t)n−x dt
j
(x
−
1)!(n
−
x)!
0
j=x
24
und wir erhalten, dass A(θ) und a(θ) monoton wachsende Funktionen in θ sind [man
beachte außerdem, dass a(θ) ≤ A(θ) gilt]. Damit ergibt sich
a(θ) ≤ x ⇐⇒ θ ≤ L(x) := sup{θ ∈ Θ | a(θ) = x}
A(θ) ≥ x ⇐⇒ θ ≥ `(x) := inf{θ ∈ Θ | A(θ) = x},
und man erhält als Konfidenzintervall zum Niveau 1 − α
(`(x), L(x))
Mit der Substitution
uα
x
; α=
1 + uα
n−x+1
erhält man für die Wahrscheinlichkeiten in (∗)
Z g(θ)
n X
n j
n−j
θ (1 − θ)
=
f2x,2(n−x+1) (u)du,
j
0
j=x
t=
wobei f2x,2(n−x+1) die in Beispiel 1.17 (3) definierte Dichte der F -Verteilung mit
(2x, 2(n − x + 1))
Freiheitsgraden ist und die Funktion g durch
g(θ) =
θ n−x+1
θ 1
=
1−θα
1−θ
x
definiert ist. Bezeichnet nun F (· | m, n) die Verteilungsfunktion der F -Verteilung mit
(m, n)-Freiheitsgraden und für β ∈ (0, 1)
Fm,n,β = F −1 (β | m, n)
das β-Quantil der F -Verteilung mit (m, n)-Freiheitsgraden, so gilt nach Definition der
F -Verteilung (Übung)
Fm,n,β = 1/Fn,m,1−β
und wir erhalten für die Grenzen
x
x
=
`(x) =
x + (n − x + 1)F2x,2(n−x+1)α/2
x + (n − x + 1)F2(n−x+1),2x,1−α/2
L(x) =
(x + 1)F2x+2,2(n−x),1−α/2
.
(x + 1)F2x+2,2(n−x),1−α/2 + n − x
Man beachte, dass L(x) Lösung der Gleichung
x X
n j
α
θ (1 − θ)n−j =
j
2
j=0
25
und `(x) Lösung der Gleichung
n X
n
j=x
j
θj (1 − θ)n−j =
α
2
ist. Die Quantile der F -Verteilung sind tabelliert und die Größen `(x) und L(x) heißen
Clopper-Pearson-Schranken für den Parameter θ.
Beispiel 5.4: (Konfidenzbereiche bei Normalverteilung) Es seien X1 , . . . , Xn i.i.d.
∼ N (µ, σ 2 ), dann sind
n
X̄n =
1X
Xj
n j=1
Ŝn2 =
1 X
(Xj − X̄n )2
n − 1 j=1
n
UMVU-Schätzer für die Parameter µ und σ 2 [vgl. Beispiel 3.14)]. Nach Beispiel 1.19 (3)
gilt für
√
n(X̄n − µ)
∼ tn−1 .
T =
Ŝn
Es bezeichne
t(x | n − 1) = P (T ≤ x) = 1 − t(−x | n − 1)
die Verteilungsfunktion der t-Verteilung mit (n − 1)-Freiheitsgraden und für β ∈ (0, 1)
tn−1,β = t−1 (β | n − 1)
das β-Quantil der t-Verteilung mit (n − 1) Freiheitsgraden. Dann gilt wegen der Eigenschaft (Übung) tn−1,β = −tn−1,1−β
Ŝn
Ŝn
Pθ (X̄n − √ tn−1,1−α/2 < µ < X̄n + √ tn−1,1−α/2 )
n
n
= Pθ (−tn−1,1−α/2 < T < tn−1,1−α/2 )
= t(tn−1,1−α/2 | n − 1) − t(−tn−1,1−α/2 | n − 1) = 1 − α,
und damit ist das Intervall
Ŝn
Ŝn
Inµ := (X̄n − √ tn−1,1−α/2 , X̄n + √ tn−1,1−α/2 )
n
n
ein (1 − α)-Konfidenzintervall für den Parameter µ. Bezeichnet entsprechend für β ∈
(0, 1) χ2n−1,β das β-Quantil der χ2 -Verteilung mit (n − 1)-Freiheitsgraden [d.h. für Z ∼
χ2n−1 gilt P (Z ≤ χ2n−1,β ) = β], so gilt wegen
Ŝn2 ∼
σ2 2
χ
n − 1 n−1
26
(vgl. Beispiel 1.19 (1))
Pθ
=
Ŝ 2 (n − 1)
n
χ2n−1,1−α/2
2
Pθ Xn−1,α/2
< σ2 <
Ŝn2 (n − 1) χ2n−1,α/2
n−1 2
α α
2
<
Ŝn < χn−1,1−α/2 = 1 − − = 1 − α.
2
σ
2
2
Damit ist
2
Inσ :=
Ŝ 2 (n − 1) Ŝ 2 (n − 1) n
, n
χ2n−1,1−α/2 χ2n−1,α/2
ein (1 − α) Konfidenzintervall für den Parameter σ 2 .
2
Übung 5.5: Man zeige, dass für die Längen λ(Inµ ) und λ(Inσ ) der in Beispiel 5.4
definierten Konfidenzbereiche gilt [θ = (µ, σ 2 )]
P
θ
0
λ(Inµ ) −→
n→∞
2
Pθ
λ(Inσ ) −→
0.
n→∞
D.h. bei wachsendem Stichprobenumfang und konstanten Konfidenzniveau werden die
Intervalle beliebig klein.
In den obigen Beispielen ging man von einer ,,naheliegenden Form“ des Konfidenzbereichs aus und bestimmte dann durch elementare Umformungen das Konfidenzintervall. In
vielen Fällen ist aber eine solche Vorgehensweise unmöglich. Man kann aber dennoch oft
Konfidenzbereiche bestimmen, die zumindest näherungsweise das Niveau (1 − α) liefern.
Definition 5.6: Für n ∈ N sei X (n) ∼ fθ eine Zufallsvariable mit Werten in Xn ,
cn : Xn → C ein Konfidenzbereich für θ ∈ Θ. Die Folge (cn )n∈N heißt asymptotischer
Konfidenzbereich zum Niveau α, falls für alle θ ∈ Θ gilt:
lim Pθ (θ ∈ cn (X (n) )) ≥ 1 − α
n→∞
(in den wichtigsten Fällen ist der lim ein lim und das , , ≥ “ ein , , = “).
Beispiel 5.7: (asymptotisches Konfidenzintervall bei Binomialverteilung) Es
seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit X1 ∼ B(1, θ), dann
gilt nach Beispiel 4.14
√
n(X̄n − θ) D
−→ N (0, 1).
Zn := p
X̄n (1 − X̄n )
27
Mit
q
u1−α/2
= X̄n − √
X̄n (1 − X̄n )
n
q
u1−α/2
+
X̄n (1 − X̄n )
θn (X) = X̄n + √
n
θn− (X)
gilt daher
lim Pθ (θn− (X) < θ < θn+ (X)) = lim P (−u1−α/2 < Zn < u1−α/2 )
n→∞
n→∞
= Φ(u1−α/2 ) − Φ(−u1−α/2 ) = 1 − α
und damit ist (θn− (X), θn+ (X)) ein asymptotisches (1 − α) Konfidenzintervall für den Parameter θ.
Bemerkung 5.8: (ein allgemeines Prinzip zur Konstruktion von asymptotischen Konfidenzbereichen mit der ML-Methode) Es seien X1 , . . . , Xn unabhängig
(1)
identisch verteilte Zufallsvariable mit Dichte fθ ; θ ∈ Θ ⊂ R, dann gilt unter den Annahmen aus Satz 4.6 und 4.18 für einen Maximum-Likelihood-Schätzer θ̂n = θ̂n (X) :
P
θ
θ̂n −→
θ
√
Dθ
n(θ̂n − θ) −→
N1 (0,
wobei
I1 (θ) = Eθ
1
)
I1 (θ)
h ∂
2 i
(1)
log fθ (X1 )
∂θ
(1)
die Fisher-Information der Dichte fθ bezeichnet. Unter Stetigkeitsvoraussetzungen gilt
auch
D
I1 (θ̂n ) −→ I1 (θ) (∀ θ ∈ Θ),
und man erhält mit dem Lemma von Slutsky
q
Dθ
nI1 (θ̂n )(θ̂n − θ) −→
N1 (0, 1).
Daher ergibt sich
h
u1−α/2 i
u1−α/2
θ̂n − q
, θ̂n + q
nI1 (θ̂n )
nI1 (θ̂n )
als asymptotisches (1 − α)-Konfidenzintervall für den Parameter θ. Man beachte, dass wir
diese Methode in Beispiel 5.7 verwendet haben.
Beispiel 5.9: Es seien X1 , . . . , Xn unabhängig identisch exponential-verteilte Zufallsvari(1)
able mit Parameter λ, d.h. für die Dichte fλ von X1 gilt
(1)
fλ (t) =
1 −t/λ
e
I[0,∞) (t),
λ
28
λ > 0.
Man zeigt leicht, dass
λ̂n = X̄n
der Maximum-Likelihood-Schätzer für den Parameter λ ist und aus Beispiel 2.41 erhalten
(1)
wir für die Fisher-Information von fλ
I1 (λ) =
1
.
λ2
Offensichtlich ist die Fisher-Information I1 (als Funktion von λ stetig. Damit gilt
√
n
Dλ
(λ̂n − λ) −→
N (0, 1)
λ̂n
und
h
u1−α/2
u1−α/2 i
λ̂n (1 − √ ), λ̂n 1 + √
n
n
ist asymptotisches (1 − α)-Konfidenzintervall für den Parameter λ.
Bemerkung 5.10 (konservative Konfidenzbereiche für Parametervektoren) Es
sei X ∼ fθ eine Zufallsvariable, θ = (θ1 , . . . , θd )T ∈ Θ = Θ1 × . . . × Θd und für jedes
i = 1, . . . , d; ci : X → Θi ein 1 − αi -Konfidenzbereich für θi , d.h.
Pθ (θi ∈ ci (X)) ≥ 1 − α ∀ θ ∈ Θ.
Dann ist
(
c:
X → Θ
x → c1 (x) × . . . × cd (x)
ein Konfidenzbereich für den Vektor θ = (θ1 , . . . , θd ) zum Niveau 1 −
entsprechende Aussage gilt für asymptotische Konfidenzbereiche.
Pd
i=1
αi . Eine
Beispiel 5.11: Es seien X1 , . . . , Xn ∼ γ(α, λ) unabhängig identisch verteilte Zerfallsvariable mit θ = (α, λ) ∈ (0, ∞)2 [vgl. Beispiel 4.8]. In Beispiel 4.19 haben wir für den
Maximum-Likelihood-Schätzer (λ̂n , α̂n )T gezeigt
!
√
λ̂n
λ
Dθ
n
−
−→
N2 (0, Σ(λ, α)),
α̂n
α
wobei die Kovarianzmatrix durch

Σ(λ, α) = 
α
λ2
− λ1
Γ00 (α)
Γ(α)
29
−1
− λ1
0 2 
(α)
− ΓΓ(α)
gegeben ist. Mit Lemma 4.13(2) und Beispiel 1.15 gilt dann
√
n
(λ̂n − λ) → N (0, 1)
d11 (λ̂n , α̂n )
√
n
(α̂n − α) → N (0, 1),
d22 (λ̂n , α̂n )
wobei d2ii (λ, α) das i-te Diagonalelement der Matrix Σ(λ, α) bezeichnet. Damit sind
h
d11 (λ̂n , α̂n )
d11 (λ̂n , α̂n ) i
√
√
c1 (x) = λ̂n − u1−γ/2
, λ̂n + u1−γ/2
n
n
h
d22 (λ̂n , α̂n )
d22 (λ̂n , α̂n ) i
√
√
c2 (x) = α̂n − u1−γ/2
, α̂n + u1−γ/2
n
n
jeweils asymptotische Konfidenzintervall e zum Niveau 1 − γ und
c1 (x) × c2 (x)
ein asymptotisches Konfidenzrechteck für den Vektor (λ, α) zum Niveau 1 − 2γ.
6
Grundbegriffe statistischer Tests
Beispiel 6.1: In diesem Abschnitt sollen Hypothesen über den unbekannten Parameter
θ ∈ Θ in einem statistischen Experiment (X , P);
P = {fθ | θ ∈ Θ}
untersucht werden. Man betrachte dazu als einfachstes Beispiel ein lang erprobtes Medikament A mit einer Heilungswahrscheinlichkeit θ0 = 0.65. Ein neues Medikament B wurde
an 100 Patienten getestet und es ergaben sich dabei 90 erfolgreiche Therapien. Die
grundsätzliche Frage ist, ob das neue Medikament B besser als das Medikament A ist,
oder ob dieses Ergebnis zufallsbedingt zu Stande gekommen ist. Bezeichnet der Parameter θ die (unbekannte) Heilungswahrscheinlichkeit von Medikament B, so sind auf Basis
der gegebenen Stichprobe die Hypothesen
H : θ ≤ θ0 = 0.65 K : θ > θ0
zu prüfen.
Definition 6.2: Es sei X ∼ fθ ; eine Zufallsvariable θ ∈ Θ und
Θ = ΘH ∪ Θk
eine disjunkte Zerlegung des Parameterbereichs. Ein randomisierter Test ist eine (messbare) Abbildung
ϕ : X → [0, 1].
30
Dabei gibt ϕ(x) die Wahrscheinlichkeit für die Entscheidung K : θ ∈ Θk an, falls x = X(ω)
beobachtet wurde. Die Menge ΘH heißt Nullhypothese und die Menge ΘK Alternative.
Mit Φ bezeichnen wir die Menge aller Tests, für ϕ ∈ Φ heißt die Menge
K := {x ∈ X | ϕ(x) = 1}
kritischer Bereich und die Menge
R := {x ∈ X | 0 < ϕ(x) < 1} ⊂ X
Randomisierungsbereich. Ein Test ϕ heißt nichtrandomisiert, falls
R = ∅ ⇐⇒ ϕ(X ) = {0, 1}
gilt.
Beispiel 6.3: In Beispiel 6.1 ist Θ = (0, 1), ΘH = (0, 0.65], ΘK = (0.65, 1), wobei θ
die unbekannte Wahrscheinlichkeit für einen Therapieerfolg bezeichnet. Eine geeignet
stochastische Modellierung erhält man, indem man die Versuchsausgänge für die einzelnen
Experimente durch unabhängige identisch verteilte Zufallsvariable X1 , . . . , Xn mit X1 ∼
B(1, θ) modelliert. Dabei bedeutet Xi = 1, dass der i-te Patient durch das Medikament
B geheilt wurde, θ bezeichnet die Wahrscheinlichkeit für einen Therapieerfolg und der
Stichprobenumfang ist n = 100.
Da X̄n ein UMVU-Schätzer für den Parameter θ ist, ist es naheliegend, für ,,große“ Werte
von X̄n für die Alternative K : θ > 0.65 zu entscheiden. Ein ,,typischer“ Test für diese
Fragestellung ist die Abbildung ϕ : {0, 1}n → [0, 1], die durch
(
( )
)
>
1
ϕ(x) :=
falls x̄n
0.7
≤
0
definiert ist. Offensichtlich ist der Test ϕ nichtrandomisiert.
Bemerkung 6.4: Bei der Anwendung eines Tests können zwei Fehler auftreten. Man
spricht von einem Fehler erster Art, falls der Test für die Alternative θ ∈ ΘK entscheidet,
aber in Wirklichkeit θ ∈ ΘH gilt, und von einem Fehler zweiter Art, falls der Test für die
Nullhypothese θ ∈ ΘH entscheidet, aber in Wirklichkeit θ ∈ ΘK gilt. Beide Fehler treten
mit bestimmten Wahrscheinlichkeiten auf und die Aufgabe der schließenden Statistik
besteht darin, diese Wahrscheinlichkeiten für dieses Auftreten zu quantifizieren. Man
beachte, dass man nicht feststellen kann, ob ein Fehler erster oder zweiter Art aufgetreten
ist, da der ,,wahre“ Parameter θ nicht bekannt ist.
Test
ΘH
ΘK
Wirklichkeit
ΘH
korrekt
Fehler 1-ter Art
31
ΘK
Fehler 2-ter Art
korrekt
Beispiel 6.5: (Fortsetzung von Beispiel 6.1 und 6.3) Für den Test aus Beispiel 6.3
erhält man
Pθ (ϕ(X) = 1) = Pθ (X̄n > 0.7)
√
√n(X̄ − θ)
n(0.7 − θ) n
= Pθ p
>p
X̄n (1 − X̄n )
X̄n (1 − X̄n )
√n(0.7 − θ) ,
≈ 1−Φ p
X̄n (1 − X̄n )
wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet und sich die
Approximation aus dem Satz von Moivre-Laplace und dem Lemma von Slutsky ergibt
[vgl. Bsp. 4.14 (1)]. Für die konkret vorliegenden Daten (n = 100, X̄n = 0.8) erhalten
wir dann
10(θ − 0.7) Pθ (ϕ(X) = 1) ≈ Φ
0.4
und Monotonie-Betrachtungen ergeben für die Fehlerwahrscheinlichkeiten näherungsweise


≈0
falls θ = 0.5


falls θ = 0.6
Pθ (Fehler erster Art) ≈ 0.006


 ≤ sup Pθ (ϕ(X) = 1) ≈ 0.106
θ∈(0,0.65)

≈0




 ≈ 0.006
Pθ (Fehler zweiter Art) ≈ 0.5




 ≤ sup
falls θ = 0.9
falls θ = 0.8
falls θ = 0.7
Pθ (ϕ(X) = 0) ≈ 0.894
θ∈(0.65,1)
Bemerkung 6.6: Offensichtlich hängen in Beispiel 6.5 die Fehlerwahrscheinlichkeiten
von dem unbekannten Parameter θ ab. Wünschenswert wäre eine simultane Minimierung
der Wahrscheinlichkeiten für Fehler erster und zweiter Art durch geeignete Wahl des
Testverfahrens ϕ. Durch Betrachtung der konstanten Abbildungen ϕ1 (x) ≡ 1 und ϕ0 (x) ≡
0 sieht man allerdings sofort, dass eine solche Minimierung unmöglich ist.
Man geht daher pragmatisch vor und legt eine Schranke α ∈ (0, 1) für eine noch tolerierbare Wahrscheinlichkeit für den Fehler erster Art fest [üblich sind Werte α ∈ [0.01, 0.1]
und versucht dann optimale Testverfahren zu konstruieren, die die Wahrscheinlichkeit für
den Fehler 2-ter Art minimieren. Man beachte, dass durch diese Vorgehensweis das ursprünglich symmetrische Entscheidugnsproblem unsymmetrisch wird. Man wird daher in
der Alternative immer diejenige Entscheidung formulieren, die die schwerwiegenden Konsequenzen hat (da man bei einer Entscheidung für ΘK entweder keinen Fehler gemacht
oder die Wahrscheinlichkeit für diesen Fehler (erster Art) kontrolliert hat).
32
Definition 6.7: Es sei X eine Zufallsvariable mit Dichte fθ und ϕ ein Test für die
Hypothesen H : θ ∈ ΘH ; K : θ ∈ ΘK , dann heißt die Funktion
(
Θ → [0, 1]
βϕ :
θ → βϕ (θ) := Eθ [ϕ(X)]
Gütefunktion von ϕ. Ein Test ϕ ∈ Φ heißt Test zum Niveau α ∈ (0, 1), falls
sup βϕ (θ) ≤ α
θ∈ΘH
gilt, und Φα bezeichne die Menge aller Tests zum Niveau α. Die Größe α heißt Irrtumswahrscheinlichkeit. Ein Test ϕ ∈ Φ heißt unverfälscht zum Niveau α, falls gilt
ϕ ∈ Φα
(d.h. ϕ ist Test zum Niveau α) und
inf βϕ (θ) ≥ α
θ∈ΘK
gilt; Φαα bezeichne die Menge aller unverfälschten Tests zum Niveau α.
Bemerkungen 6.8:
(1) βϕ (θ) gibt die Wahrscheinlichkeit an, für die Alternative ΦK zu entscheiden, falls θ
der ,,wahre“ Parameter ist. Für θ ∈ ΘH ist also βϕ (θ) die Wahrscheinlichkeit für
einen Fehler erster Art, während 1 − βϕ (θ) für θ ∈ ΘK die Wahrscheinlichkeit für
einen Fehler zweiter Art angibt. Z.B. gilt nämlich im diskreten Fall für θ ∈ ΘH
X
Pθ (Entscheidung für ΘK | X = x)Pθ (X = x)
Pθ (Fehler erster Art) =
x
=
X
ϕ(x)Pθ (X = x) = Eθ [ϕ(X)] = βϕ (θ)
x
und analoge Darstellungen ergeben sich für die anderen Fälle.
(2) Ist ϕ Test zum Niveau α ∈ (0, 1), dann gilt für alle Parameterwerte θ ∈ ΘH
Pθ (Fehler erster Art) ≤ α,
d.h. die Wahrscheinlichkeit für einen Fehler erster Art ist maximal α.
(3) Ist ϕ unverfälscht, so soll für Parameterwerte θ ∈ ΘK die Wahrscheinlichkeit, für
ΘK zu entscheiden, nicht kleiner sein als für Parameterwerte θ ∈ ΘH .
Beispiel 6.9: (approximative Berechnung der Gütefunktion im Beispiel 6.5)
Mit den Bezeichnungen aus Beispiel 6.3 und Beispiel 6.5 gilt für die Gütefunktion des
Tests aus Beispiel 6.3 näherungsweise
(
[0, 1] → [0, 1]
βϕ :
10(θ−0.7)
θ
→ βϕ (θ) ≈ Φ
0.4
33
(4) Wünschenswert ist also für θ ∈ ΘH : βϕ (θ) ≈ 0 und für θ ∈ ΘK : βϕ (θ) ≈ 1 zu
erreichen!
Definition 6.10:
(1) Ein Test ϕ∗ ∈ Φα heißt gleichmäßig bester Test zum Niveau α bzw. UMP-Test
(uniformly most powerful), falls für alle Parameterwerte θ ∈ ΘK gilt:
βϕ∗ (θ) = sup βϕ (θ).
ϕ∈Φα
In anderen Worten: für alle θ ∈ ΘK minimiert ϕ∗ die Wahrscheinlichkeit für einen
Fehler 2-ter Art in der Klasse aller Tests zum Niveau α.
(2) Ein Test ϕ∗ ∈ Φαα heißt gleichmäßig bester unverfälschter Test zum Niveau α bzw.
UMPU-Test (uniformly most powerful unbiased), falls für alle θ ∈ ΘK gilt:
βϕ∗ (θ) = sup βϕ (θ).
ϕ∈Φαα
Satz 6.11: Es sei X eine Zufallsvariable mit Dichte fθ ; ϕ : X → [0, 1] ein Test für die
Hypothesen H : θ ∈ ΘH ; K : θ ∈ ΘK und T : X → τ eine suffiziente Statistik für den
Parameter θ. Dann existiert ein Test der Form ψ ◦ T (mit ψ : τ → [0, 1]), der dieselbe
Gütefunktion wie ϕ hat, nämlich
(ψ ◦ T )(X) = Eθ [ϕ(X) | T (X)]
(man beachte, dass der Erwartungswert wegen der Suffizienz der Statistik T unabhängig
von dem Parameter θ ist).
Bemerkung 6.12: Satz 6.11 zeigt dass man sich bei der Konstruktion von Tests auf
Verfahren beschränken kann, die nur von der suffizienten Statistik abhängen. Für die
Konstruktion optimaler Tests ist zunächst ein genaues Verständnis des einfachsten (aber
nicht unbedingt praxisrelevanten) Falls von einfachen Hypothesen
Θ = {θ0 , θ1 };
ΘH = {θ0 };
ΘK = {θ1 }
erforderlich. In diesem Fall ist die Statistik
Lθ0 ,θ1 (x) :=
fθ1 (x)
fθ0 (x)
(nach dem Neyman-Kriterium 2.5) suffizient für den Parameter θ (falls fθ0 (x) = fθ1 (x) = 0
definieren wir den Quotienten beliebig, falls fθ0 (x) = 0 und fθ1 (x) > 0 als ∞). Die Statistik
34
Lθ0 ,θ1 (x) heißt Likelihood-Quotient und ein UMP-Test zum Niveau α für die Hypothesen
H : θ = θ0 ; K : θ = θ1 maximiert
βϕ (θ1 ) = Eθ1 [ϕ(x)]
bzgl. der Wahl von ϕ unter der Nebenbedingung
βϕ (θ0 ) = Eθ0 [ϕ(x)] ≤ α.
Definition 6.13: Mit den Bezeichnungen aus Bemerkung 6.12 heißt ein Test ϕ ∈ Φ ein
Neyman-Pearson-Test, falls es ein c ∈ [0, ∞] gibt, so dass für alle x ∈ X gilt:
( )
(
)
1
>
ϕ(x) =
falls fθ1 (x)
cfθ0 (x)
0
<
(man beachte, dass keine Aussage über den Fall fθ1 (x) = cfθ0 (x) gemacht wird).
Satz 6.14: (Neyman-Pearson-Lemma)
(1) Ein Neyman-Pearson-Test ϕ∗ ist UMP-Test zum Niveau α = Eθ0 [ϕ∗ (X)] für die
Hypothesen H : θ = θ0 ; K : θ = θ1 .
(2) Für alle α ∈ [0, 1] existiert ein Neyman-Pearson-Test ϕ für die Hypothesen
H : θ = θ0 ; K : θ = θ1 mit Eθ0 [ϕ(x)] = α.
(3) Ist ϕ ein UMP-Test für die Hypothesen H : θ = θ0 ; K : θ = θ1 zum Niveau α, dann
ist ϕ vom Neyman-Pearson-Typ, d.h. es existiert ein c ∈ [0, ∞] und eine Funktion
γ : χ → [0, 1], so dass
ϕ(x) = I{fθ1 (x) > cfθ0 (x)} + γ(x)I{fθ1 (x) = cfθ0 (x)}
für alle x ∈ {z | fθ0 (z) + fθ1 (z) > 0} gilt.
Beachte: Teil (1) und Teil (2) aus Satz 6.14 liefern die Existenz eines UMP=Tests zu
gegebenem Niveau α ∈ [0, 1] für einfache Hypothesen. Teil (3) dieses Satzes zeigt, dass
der UMP-Test im wesentlichen eindeutig bestimmt ist. Ist die Funktion α aus dem obigen
Beweis stetig, so kann in der Konstruktion des UMP-Tests ϕ∗ zum Niveau α ∈ [0, 1] für
die Hypothesen H : θ = θ0 ; θ = θ1 stets γ ∗ = 0 gewählt werden.
Beispiel 6.15: Es seien X1 , . . . , Xn unabhängig identisch verteilte Zufallsvariable mit
X1 ∼ N1 (µ, σ 2 ), wobei der Parameter σ 2 als bekannt angenommen wird. Für die Bestimmung des UMP-Tests für die Hypothesen
H : µ = µ0
K : µ = µ1
35
(µ0 < µ1 gegeben) berechnen wir die gemeinsame Dichte der Zufallsvariablen X1 , . . . , Xn
n
n
n 1 X
o
X
x2` − 2µj
x` + nµ2j k(µ0 , µ1 , σ 2 ) j = 1, 2
fµj (x) = (2πσ 2 )−n/2 exp − 2
2σ `=1
`=1
und erhalten für den Likelihood-Quotienten
n
n1 X
o
fµ1 (x)
= exp 2
x` (µ1 − µ0 ) k(µ0 , µ1 , σ 2 )
Lµ0 ,µ1 (x) =
fµ0 (x)
σ `=1
mit der von den Daten unabhängigen Konstanten
n
k(µ0 , µ1 , σ 2 ) = exp − 2 (µ21 − µ20 ) .
2σ
Damit ist die Ungleichung Lµ0 ,µ1 (x) > c̃ äquivalent zu der Ungleichung (man beachte
µ1 > µ 0 )
n
1X
xi > c
n i=1
und wir erhalten für die Funktion α(·) aus dem Beweis von Satz 6.14(2)
α(c) = Pµ0
n
1 X
n
Xi > c) = 1 − Φ
i=1
√n
σ
(c − µ0 ) .
Diese Funktion ist offensichtlich
stetig und für α ∈ (0, 1) ergibt die Bedingung α(c) = α
√
die Gleichung c = µ0 + σ/ nu1−α . Der UMP-Test für die obigen Hypothesen lautet damit
( )
(
)
σ
1
>
ϕ(x) =
falls x̄n
µ0 + √ u1−α
n
0
≤
P
(man beachte, dass die Zufallsvariable n1 ni=1 Xi eine stetige Verteilungsfunktion besitzt
und daher die Konstante γ ∗ = 0 gewählt werden kann).
Übung 6.16: Man zeige für die Situation aus Beispiel 6.15 mit bekannten µ ∈ R und
unbekanntem σ 2 > 0, dass der Test
(
)
( )
n
X
>
1
ϕ(x) =
falls
(xj − µ)2
σ02 χ2n,1−α
0
≤
j=1
einen UMP-Test für die Hypothesen
H : σ 2 = σ02
K : σ 2 = σ12
definiert (dabei sei σ02 < σ12 gegeben und χ2n,β bezeichne das β-Quantil der χ2 -Verteilung
mit n Freiheitsgraden).
36
Das Neyman-Pearson-Lemma ist ein wichtiges Hilfsmittel für die Konstruktion von optimalen Tests für kompliziertere Hypothesen. UMP-Tests existieren im wesentlichen nur
für einfache Hypothesen und im Fall Θ ⊂ R für einseitige Hypothesen der Form
H : θ ≤ θ0
K : θ > θ0 ,
falls die zugehörige Verteilungsfamilie die Eigenschaft des isotonen Dichtequotienten besitzt, die in der folgenden Definition erläutert wird.
Definition 6.17: Es sei X ∼ fθ eine n-dimensionale Zufallsvariable, θ ⊂ R und T : X →
R eine Statistik. Die Familie von Verteilungen
P = {fθ | θ ∈ Θ}
heißt Klasse mit (strikt) isotonem Dichtequotienten in der Statistik T, falls für alle θ0 , θ1 ∈
Θ mit θ0 < θ1 eine strikt isotone Funktion
Hθ0 ,θ1 : R → [0, ∞]
existiert, so dass der Likelihood-Quotient die Darstellung
fθ1 (x)
= Hθ0 ,θ1 (T (x))
fθ0 (x)
für alle
x ∈ {z ∈ X | fθ0 (z) + fθ1 (z) > 0}
besitzt.
P
Beispiel 6.18: In der Situation von Beispiel 6.15 ist T (x) = n`=1 x` und
nµ − µ o
1
0
t
Hµ0 ,µ1 (t) = k(µ0 , µ1 , σ 2 ) exp
σ2
streng monoton wachsende Funktion (man beachte µ0 < µ1 ), so dass gilt
Lµ0 ,µ1 (x) = Hµ0 ,µ1 (T (x)).
Damit hat die zugehörige
P Verteilungsfamilie einen strikt isotonen Dichte-Quotienten in
der Statistik T (x) = ni=1 xi .
Übung 6.19: Es sei P = {fθ | θ ∈ Θ} eine Verteilungsfamilie mit Θ ⊂ R,
fθ (x) = c(θ)h(x) exp(Q(θ)T (x))IA (x)
eine einparametrige exponentielle Familie mit monoton wachsender Funktion Q. Man
zeige: die Verteilungsfamilie P besitzt einen isotonen Dichte-Quotienten in der Statistik
T.
37
Satz 6.20: Es sei X ∼ fθ eine n-dimensionale Zufallsvariable und für die Statistik
T : X → R besitze die Familie von Verteilungen
P = {fθ | θ ∈ Θ}
(Θ ⊂ R) einen isotonen Dichte-Quotienten. Für α ∈ (0, 1) und θ0 ∈ Θ gilt für den durch
ϕ∗ (x) := I{T (x) > c} + γI{T (x) = c}
mit
c := inf{t | Pθ0 (T (X) > t) ≤ α}
(
γ :=
α−Pθ0 (T (X)>c)
Pθ0 (T (X))=c)
falls Pθ0 (T (X) = c) > 0
0
falls Pθ0 (T (X) = c) = 0
definierten Test:
(1) ϕ∗ ist UMP-Test zum Niveau α für die einseitigen Hypothesen
H : θ ≤ θ0 ;
K : θ > θ0 .
(2) Für alle θ < θ0 gilt:
βϕ∗ (θ) = inf{βϕ (θ) | ϕ ∈ Φ; βϕ (θ0 ) = α}.
D.h. ϕ∗ minimiert auch gleichmäßig die Wahrscheinlichkeit für einen Fehler erster
Art unter allen Tests, die für θ = θ0 als Wahrscheinlichkeit für einen Fehler erster
Art exakt α liefern.
(3) Die Gütefunktion
(
βϕ∗ :
Θ → [0, 1]
θ → βϕ∗ (θ) = Eθ [ϕ∗ (X)]
ist strikt isoton auf dem Urbild βϕ−1∗ ((0, 1)).
Beispiel 6.21: In der Situation aus Beispiel 6.15 hat (vgl. Beispiel 6.18) die zugehörige
Verteilungsfamilie einen isotonen Dichtequotienten in der Statistik
n
T (X) =
1X
Xi ∼ N (µ, σ 2 ),
n i=1
und wie in Beispiel 6.15 zeigt man für µ0 ∈ R
n
n
1 X
o
σ
Xi > t ≤ α = µ0 + √ u1−α .
c = inf t | Pµ0
n i=1
n
38
Damit definiert
σ
ϕ∗ (x) = I{x̄n > µ0 + √ u1−α }
n
einen UMP-Test zum Niveau α für die Hypothesen
H : µ ≤ µ0 ; K : µ > µ 0
Dieser Test heißt einseitiger Gaußtest und kann auch leicht heuristisch hergeleitet werden.
(man beachte, dass σ 2 als bekannt vorausgestzt wird). Da X̄n UMVU-Schätzer für µ ist,
liegt es nahe, die Hypothese H für ,,große“ Werte von X̄n zu verwerfen und bei ,,kleinen“
Werten für die Nullhypothese H zu entscheiden. D.h. ein sinnvoller Test die Form
ϕ∗ (x) = I{x̄n > c}
besitzen, wobei die Konstante c durch die vorgegebene Irrtumswahrscheinlichkeit festgelegt wird. Wegen
√ µ − c X̄ − µ
c − µ
n
=Φ n
βϕ (µ) = Pµ (X̄n > c) = Pµ q
> q
σ
σ2
σ2
n
gilt
n
√n(µ − c) 0
≤ α.
sup βϕ∗ (µ) = βϕ∗ (µ0 ) = Φ
σ
µ≤µ0
Will man die vorgegebene Irrtumswahrscheinlichkeit voll ausschöpfen, so erhält man aus
der Gleichung supµ≤µ0 βϕ∗ (µ) = α die Darstellung c = µ0 + √σn u1−α und damit den obigen
Gauß-Test.
Man beachte, dass dieses heuristische Prinzip auch leicht im Fall unbekannter Varianz
anwendbar ist. In diesemPFall ersetzt man σ 2 in der obigen Rechnung durch seinen
n
1
2
UMVU-Schätzer Ŝn2 = n−1
j=1 (Xj − X̄n ) und erhält mit Übung 1.19 (4)
βϕ (µ) = Pµ
√n(X̄ − µ)
n
Ŝn
√
>
n
Ŝn
(c − µ) .
Man beachte, dass die Zufallsvariable
√
n(X̄n − µ)
Ŝn
eine t-Verteilung mit (n − 1)-Freiheitsgraden besitzt. Man erkennt wieder, dass die Funktion µ → βϕ (µ) monoton wachsend in µ ist und dass man mit der Wahl
Ŝn
c = µ0 + √ tn−1,1−α
n
die Gleichung
sup βϕ (µ) = α
µ≤µ0
39
erfüllt ist. Damit erhält man
n
o
Ŝn
ϕ∗∗ (x) = I X̄n > µ0 + √ tn−1,1−α
n
als Test zum Niveau α für die Hypothesen H : µ ≤ µ0 ; K : µ > µ0 bei normalverteilten
Daten mit unbekannter Varianz σ 2 . Dieser Test heißt einseitiger (Einstichproben) t-Test
und die Vorgehensweise σ 2 durch seinen Schätzer Ŝn2 zu ersetzen, nennt man ,,studentisieren“.
Die Optimalität dieses Verfahrens wird in Beispiel 6.29 geklärt.
Bemerkung 6.22 : Für Hypothesen der Form
(∗)
H : θ = θ0 ;
K : θ 6= θ0
existieren im allgemeinen keine UMP-Tests, da ein solcher Test für alle Hypothesen der
Form
(∗∗)
H : θ = θ0 ;
K : θ = θ1
mit θ0 6= θ1 optimal sein müsste. Für solche Hypothesen ist aber der Neyman-PearsonTest optimal und man kann zeigen, dass jeder UMP-Test für die Hypothesen in (∗∗) vom
Neyman-Pearson-Typ ist (vgl. 6.14(3)). Damit müsste ein UMP-Test für die Hypothesen
(∗∗) im Fall θ1 > θ0 die Darstellung
ϕ(x) = I{T (x) > c} + γ(x)I{T (x) = c}
und im Fall θ1 < θ0 die Darstellung
ϕ(x) = I{T (x) < c̃} + γ(x)I{T (x) = c̃}
besitzen, was einen Widerspruch ergibt. In diesen Fällen erhält man optimale Tests, in
dem man sich auf die Klasse der unverfälschten Tests beschränkt und einparametrige
exponentielle Familien betrachtet.
Satz 6.23: Es sei X ∼ fθ , θ ∈ Θ ⊂ R eine n-dimensionale Zufallsvariable und, so dass
die Familie P = {fθ | θ ∈ Θ} eine einparametrige exponentielle Familie (vgl. Übung 6.19)
mit monoton wachsender Funktion Q(θ) bildet θ0 , θ1 , θ2 ∈ Θ; θ1 < θ2 .
(1) Es existiert ein UMP-Test zum Niveau α ∈ (0, 1) für die Hypothesen
H : θ 6∈ (θ1 , θ2 );
K : θ ∈ (θ1 , θ2 ),
nämlich ein Test der Form






1


 ∈ (c1 , c2 )
∗
ϕ (x) =
falls T (x) = ci i = 1, 2
γi


 0

 6∈ [c , c ]
1 2
40
wobei die Konstanten c1 , c2 , γ1 , γ2 aus den Bedingungen
βϕ∗ (θ1 ) = βϕ∗ (θ2 ) = α
bestimmt werden.
(2) Es existiert ein UMPU-Test zum Niveau α ∈ (0, 1) für die Hypothesen
H : θ ∈ [θ1 , θ2 ];
K : θ 6∈ [θ1 , θ2 ],
nämlich ein Test der Form





 1

 6∈ [c1 , c2 ]
∗
(∗) ϕ (x) =
falls T (x) = ci i = 1, 2
γi


 0

 ∈ (c , c )
1 2
wobei die Konstanten c1 , c2 , γ1 , γ2 durch die Bedingungen
βϕ∗ (θ1 ) = βϕ∗ (θ2 ) = α
bestimmt werden.
(3) Es existiert ein UMPU-Test zum Niveau α ∈ (0, 1) für die Hypothesen
H : θ = θ0 ;
K : θ 6= θ0 ,
nämlich ein Test der Form (∗), wobei die Konstanten c1 , c2 , γ1 , γ2 durch die Bedingungen
βϕ∗ (θ0 ) = α
βϕ0 (θ0 ) = 0 ⇐⇒ Eθ0 [T (X)ϕ∗ (X)] = αEθ [T (X)]
festgelegt werden.
Beispiel 6.24: Es seien X1 , . . . , Xn ∼ N (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariable und σ 2 bekannt und es soll ein Test für die Hypothesen
H : µ ∈ [−ε, ε];
K : µ 6∈ [−ε, ε]
konstruiert werden ( man spricht vom Testen auf einen relevanten Unterschied).
gemeinsamen Dichten
fµ (x) =
√
2πσ 2
−n
Die
n
n
nµ2 µ X
1 X 2
exp − 2
xj exp − 2 exp 2
xj
2σ j=1
2σ
σ j=1
P
bilden eine einparametrige exponentielle Familie mit T (x) = n1 nj=1 xj und Q(µ) = nµ/σ 2
(man beachte, dass der Parameter σ 2 als bekannt vorausgesetzt wurde). Da die Verteilung
der Zufallsvariablen
n
1X
T (X) =
Xj
n j=1
41
stetig ist, können die Konstanten γ1 , γ2 als 0 gewählt werden und im Fall ε > 0 hat ein
UMPU-Test die Gestalt
( )
(
1
6∈ (c1 , c2 )
(∗) ϕ∗ =
falls T (x)
,
0
∈ [c1 , c2 ]
wobei die Konstanten c1 , c2 durch die Bedingung
n
1X
α = βϕ∗ (µ) = Eµ [ϕ (X)] = 1 − Pµ c1 ≤
Xi ≤ c2
n i=1
√
√
√
n(c − µ)
n(X̄n − µ)
n(c2 − µ) 2
≤
≤
= 1 − Pµ
σ
σ
σ
√n(c − µ) √n(c − µ) 2
1
+Φ
= 1−Φ
σ
σ
∗
für µ = ∓ε festgelegt werden. Wegen der Symmetrie des Problems bietet sich die Wahl
c1 = −c2 < 0 an und wir erhalten für beide Gleichungen
√n(c − ε) √n(−c − ε) 2
2
α=1−Φ
+Φ
= h(c2 ).
σ
σ
Durch Differenzieren zeigt man, dass diese Gleichung genau eine Lösung hat, die numerisch
ermittelt werden muss.
Für ε = 0 erhalten wir aus Satz 6.23(3) die Gleichungen
√n √n c2 + Φ
c1
α = βϕ∗ (0) = 1 − Φ
σ
√
√ n σ√
n o
n
n 0
ϕ
c2 − ϕ
c1 ,
0 = βϕ∗ (0) =
σ
σ
σ
wobei
1
2
ϕ(t) = √ e−t
2π
die Dichte der Standardnormalverteilung bezeichnet. Das liefert als explizite Lösung
σ
c2 = −c1 = √ u1−α/2 ,
n
und mit diesen kritischen Werten aus (∗) einen UMPU-Test für die Hypothesen
K : µ 6= 0.
H : µ = 0;
Dieser Test heißt zweiseitiger Gauß-Test.
Wir bemerken abschließend, dass durch Translation jedes Testproblem für die Hypothesen
H : µ ∈ [µ1 , µ2 ];
K : µ 6∈ [µ1 , µ2 ]
mit µ1 ≤ µ2 auf die obige Form transformiert werden kann [man betrachte statt der
Zufallsvariablen X̃i = Xi die Zufallsvariablen X̃ := Xi − (µ1 + µ2 )/2].
42
Übung 6.25: Wie in Beispiel 6.21 leite man den zweiseitigen Gauß-Test für die Hypothesen
H : µ = µ0 ; K : µ 6= µ0
mit einem heuristischen Argument her. Man zeige dann, dass bei unbekannter Varianz
der Test
n
o
ŝn
ϕ(x) = I |x̄n − µ0 | > √ tn−1,1−α/2
n
das Niveau α besitzt, wobei tn−1,β das β-Quantil der t-Verteilung mit n−1 Freiheitsgraden
bezeichnet. Dieser Test heißt zweiseitiger t-Test.
Übung 6.26: (Varianztest bei Normalverteilung) Es seien X1 , . . . , Xn ∼ N (µ, σ 2 )
unabhängig identisch verteilte Zufallsvariable und µ bekannt. Die Verteilungen von
(X1 , . . . , Xn ) bilden eine einparametrige exponentielle Familie
2 −n/2
fσ2 (x) = (2πσ )
n
1 X
exp − 2
(xj − µ)2
2σ i=1
mit isotoner Funktion Q(σ 2 ) = − σ12 und Statistik T (x) =
6.19 und Satz 6.20 liefert
ϕ(x) = I{T (x) > c}
Pn
j=1 (xj
− µ)2 . Wegen Übung
einen UMP-Test zum Niveau α ∈ (0, 1) für die Hypothesen
H : σ 2 ≤ σ02 ;
K : σ 2 > σ02 ,
falls die Konstante c durch die Bedingung
α=
βϕ (σ02 )
= Pσ02
n
X
(Xj − µ)2 > c
j=1
festgelegt ist. Falls σ 2 = σ02 ist, gilt
n
X
(Xj − µ)2 ∼ σ02 χ2n
j=1
und wir erhalten c = σ02 χ2n,1−α , wobei χ2n,1−α das (1 − α)-Quantil der χ2 -Verteilung mit n
Freiheitsgraden bezeichnet. Damit ist
ϕ(x) = I
n
nX
(xj − µ)2 > σ02 χ2n,1−α
o
j=1
ein UMP-Test zum Niveau α für die Hypothesen H : σ 2 ≤ σ02 ; K : σ 2 > σ02 . Für die
Hypothesen
H : σ 2 = σ02 ; K : σ 2 6= σ02
43
ist
ϕ(x) = I{T (x) 6∈ [c1 , c2 ]}
ein UMPU-Test zum Niveau α [vgl. Satz 6.23 (3)], wobei die Konstanten c1 , c2 durch die
Bedingungen
c c 1
2
2
α = βϕ (σ0 ) = 1 − Fχ2n 2 + Fχ2n 2
σ0
σ0
c c o
n
1
2
1
0 = βϕ0 (σ02 ) = 4 c2 Fχ0 2n 2 − c1 Fχ0 2n 2
σ0
σ0
σ0
festgelegt werden und Fχ2n (·) die Verteilungsfunktion der χ2 -Verteilung mit n Freiheitsgraden bezeichnet. Die Lösung dieser Gleichungen muss numerisch erfolgen ( man kann
zeigen, dass es eine eindeutige Lösung gibt). In der Praxis ignoriert man oft die zweite
Gleichung und setzt c2 = σ02 χ2n,1−α/2 , c1 = σ02 χ2n,α/2 und erhält als Test
ϕ(x) = I{T (x) > σ02 · χ2n,1−α/2 } + I{T (x) < σ02 · χ2n,α/2 }
als Test zum Niveau α für die obigen Hypothesen (der dann nicht notwendig UMPU-Test
ist). IstPder Parameter µ unbekannt, so wird dieser mit x̄n geschätzt und wir erhalten
wegen nj=1 (xj − x̄n )2 ∼ σ 2 χ2n−1 als einen Test zum Niveau α für die die Hypothesen
H : σ 2 = σ02 ; K : σ 2 6= σ02
n
nX
o
2
2 2
ϕ(x) = I
(xj − x̄n ) > σ0 χn−1,1−α/2
j=1
+I
n
nX
2
(xj − x̄n ) <
σ02 χ2n−1,α/2
o
.
j=1
Die Optimalität dieses Verfahrens wird in Beispiel 6.29 geklärt. Dieser Test heißt χ2 -Test
für die Varianz bei Normalverteilung.
Bemerkung 6.27: Mit der bis jetzt besprochenen Theorie können nur optimale Tests
für Hypothesen in einparametrigen Verteilungsfamilien hergeleitet werden. Viele für die
Anwendungen wichtige Beispiele basieren aber auf mehrparametrigen Verteilungsfamilien
(man denke an Beispiel 6.21 und 6.26, in denen bei Kenntnis eines Parameters optimale
Tests bestimmt werden können, die Optimalität der Tests mit geschätzten Nebenparameter aber nicht klar ist). In diesem Fall kann dennoch die Optimalität von vielen Tests
nachgewiesen werden. Wir wollen im Folgenden die prinzipielle Vorgehensweise erläutern
und an zwei wichtigen Beispielen illustrieren. Dazu betrachten wir eine zweiparametrige
exponentielle Familie mit natürlicher Parametrisierung
fηξ (x) = c(ξ, η)h(x) exp(ηU (x) + ξV (x))IA (x),
in der die Hypothesen bzgl. des Parameters η getestet werden sollen (d.h. der Parameter
ξ wird als Nebenparameter behandelt). Man kann dann (mit einem maßtheoretischen
Argument) zeigen, dass die bedingten Verteilungen
U |V =v
Pηξ
44
eine einparametrige exponentielle Familie bilden, deren Verteilungen nicht von dem Parameter ξ abhängen [siehe z.B. Witting (1985), Seite 159-162]. Damit sind bedingt
auf V = v UPM-Tests und UMPU-Tests für die besprochenen Hypothesen (wie z.B.
H : η ≤ η0 ; K : η > η0 ) konstruierbar, und man kann zeigen, dass diese Tests dann auch
UMPU-Tests für diese Hypothesen im unbedingten Fall sind. In vielen Fällen kann man
durch eine geeignet Transformation von den bedingten zu unbedingten Tests übergehen.
Man beachte, dass durch dieses Prinzip ,,nur“ UMPU-Tests erhalten werden [vgl. Witting
(1985); Kapitel 3.3].
Beispiel 6.28: (der exakte Test von Fisher zum Vergleich von Binomialverteilungen) Es seien X ∼ Bin(n1 , π1 ), Y ∼ Bin(n2 , π2 ) unabhängige Zufallsvariable (man denke
an den Vergleich des Therapieerfolgs von zwei Medikamenten, die jeweils an n1 und n2
verschiedenen Patienten getestet werden). Gesucht ist ein Test für die Hypothesen
H : π1 ≤ π2 ;
K : π1 > π 2 .
Mit θ = (π1 , π2 ) ∈ (0, 1)2 erhalten wir für die gemeinsame Verteilung von X und Y
n1 k
n1 −k n2
Pθ (X = k, Y = `) =
π1 (1 − π − 1)
π2` (1 − π2 )n2 −`
k
`
o
n
π2
n1
n2
π1 1 − π2
k + log
(k + `)
=
(1 − π1 )n1 (1 − π2 )n2 exp log
1 − π1 π2
1 − π2
k
`
[k ∈ {0, . . . , n1 }; ` ∈ {0, . . . , n2 }], und daher liegt eine zweiparametrige exponentielle
Familie mit Parametern
π2
π2
π1
− log
; ξ = log
η = log
1 − π1
1 − π2
1 − π2
und Statistiken
U (x) = x;
V (x) = x + y
vor. Die obigen Hypothesen können in dieser Parametrisierung geschrieben werden als
H : η ≤ η0 := 0;
U |X=v
K : η > η0 .
X|X+Y =v
Die bedingten Verteilungen Pηξ
= Pηξ
bilden eine einparametrige exponentielle
Familie mit Parameter η und Statistik u = u(x) [man beachte, dass wir diese Aussage
nicht bewiesen haben; vgl. Witting (1985), Seite 159-162] und wir erhalten aus Satz 6.20
und Übung 6.19, dass bei gegebenem V = X + Y = v ∈ {0, . . . , n1 + n2 ] ein UMP-Test
für H : η ≤ η0 ; K : η > η0 zum Niveau α existiert, nämlich








1
>




∗
ϕ (u, v) =
falls u
γ(v)
= c(v),


 0 

 <

wobei die Konstanten c(v) und γ(v) durch die Bedingung
Eη0 [ϕ∗ (U, V ) | V = v] = α
45
festgelegt werden. Für die bedingte Verteilung erhalten wir (man beachte, dass η = η0 = 0
genau dann gilt, wenn π1 = π2 erfüllt ist)
Pη0 ξ (X = u | X + Y = v) =
Pπ1 (X = u)Pπ1 (Y = v − u)
P (X + Y = v)
n2π1
n1
u
v−u
n1 +n2
v
=
=: hv (u)
falls v ∈ {0, . . . , n1 + n2 }, u ∈ {0, . . . , v} und 0 sonst (d.h. es liegt eine hypergeometrische
Verteilung vor). Die Konstanten c(v) und γ(v) können für gegebenes v jetzt aus der
Gleichung
v
X
α = Eη0 ξ [ϕ(U, V ) | V = v] =
hv (u) + γ(v)hv (c(v))
u=c(v)+1
bestimmt werden. Der so durchgeführte bedingte Test ist UMPU-Test für die Hypothesen
H : η ≤ η0 ;
K : η > η0 ⇐⇒ H : π1 ≤ π2 ;
K : π1 > π 2
[vgl. Witting (1985), Seite 376].
Als Anwendungsbeispiel betrachten wir den Vergleich von 2 Medikamenten A1 und A2
die jeweils an n1 = 10 und n2 = 10 Patienten getestet wurden. Intuitiv würde man die
Hypothese H : π1 ≤ π2 zu Gunsten von K : π1 > π2 ablehnen, falls bedingt auf die Anzahl
der Therapieerfolge in der Gesamtstichprobe die Anzahl der Therapieerfolge in der ersten
Stichprobe (Behandlung unter Medikament A1 ) unverhältnismäßig groß ist, und genau
das macht der oben konstruierte UMPU-Test. Bei 2 Erfolgen in Gruppe 1 und 4 Erfolgen
in Gruppe 2 erhalten wir: x = 2; y = 4; u = 2, v = 6 und für α = 10% wegen
10 10
h6 (u) =
u
6−u
2
6
u = 0, . . . , 6
aus der obigen Gleichung
c(6) = 5, γ(6) = 0.1213.
Damit wird wegen u = 2 ≤ c(6) = 4 die Hypothese H : π1 ≤ π2 nicht verworfen. Wir
bemerken abschließend, dass in der Praxis oft auf die Randomisierung verzichtet wird und
γ(v) = 0 gesetzt wird. Man erhält dann natürlich einen Test mit kleinerem Niveau als
die vorgegebene Irrtumswahrscheinlichkeit α.
Beispiel 6.29: (Optimalität von Einstichprobentests bei Normalverteilung) Es
seien X1 , . . . , Xn ∼ N (µ, σ 2 ) unabhängig identisch verteilte Zufallsvariable, wobei beide
Parameter als nicht bekannt vorausgesetzt werden. Für die gemeinsame Dichte erhalten
wir wegen
n
n
1 X
µ X
nµ2 2
2 −n/2
xi exp 2
xi
(2πσ )
exp − 2 exp − 2
2σ
2σ i=1
σ i=1
46
eine zweiparametrige exponentielle Familie mit natürlichen Parametern
η=−
und Statistiken
u(x) =
n
X
1
2σ 2
x2i
ξ=
µ
σ2
v(x) =
i=1
n
X
xi .
i=1
(1) Für das Testen der Hypothesen
H : σ 2 ≤ σ02 ;
K : σ 2 > σ02 ⇐⇒ H : η ≤ η0 ;
K : η > η0
(wobei η0 = −1/σ02 gegeben ist) erhalten wir als bedingten UMPU-Test für gegebenes
V =v






 1 

 >

∗
ϕ (u, v) =
falls u
γ(v)
= c(v),


 0 

 0

wobei die Konstanten c(v) und γ(v), durch die Gleichung
α = Eη0 ξ [ϕ∗ (u, v) | V = v]
bestimmt werden. In diesem Fall können wird durch eine einfache Transformation
zu einem unbedingten Test gelangen. Für festes v ist nämlich die Abbildung
u → h(u, v) :=
v2
1
(u
−
)
σ02
n
monoton wachsend und damit der Test ϕ∗ äquivalent






1



∗
ψ (u, v) =
falls h(u, v)
γ̃(v)


 0 


zu dem Test

>

= c̃(v),

<
wobei die Konstanten γ̃(v), c̃(v) durch die Gleichung
α = Eη0 ξ [ψ ∗ (U, V ) | V = v]
festgelegt werden. Nach Übung 1.19 gilt aber, dass die Zufallsvariablen
P
2
n
n
n
o
n
i=1 Xi
1 X
1 X 2
X −
= 2
(Xi − X̄n )2 ∼ χ2n−1
h(U, V ) = 2
σ0 i=1 i
n
σ0 i=1
und V =
Pn
i=1
Xi stochastisch unabhängig sind und wir erhalten
α = Eη0 ξ [ψ ∗ (U, V ) | V = v] = Pη0 ξ (h(U, V ) > c̃(v)) = 1 − Fχ2n−1 (c(v)).
47
Damit kann c(v) = χ2n−1,1−α unabhängig von v gewählt werden und es ergibt sich
als unbedingter UMPU-Test für die Hypothesen
H : σ 2 ≤ σ02 ;
der Test
∗
ψ (x) = I
n
nX
K : σ 2 > σ02
2
(xi − x̄n ) >
σ02 χ2n−1,1−α
o
,
i=1
wobei χ2n−1,1−α das (1 − α) Quantil der χ2 -Verteilung mit n Freiheitsgraden bezeichnet (die Optimalität folgt dabei wiederum aus dem allgemeinen Prinzip: Witting
(1985), Seite 376).
(2) In ähnlicher Weise erhält man einen UMPU-Test für die Hypothesen
H : µ ≤ µ0
K : µ > µ0 ⇐⇒ H : ξ ≤ ξ0 ;
K : ξ > ξ0
(wobei ξ0 = µ0 /σ 2 gegeben ist). Als bedingten UMPU-Test ergibt sich für gegebenes
U =u






 1 

 >

∗
ϕ (u, v) =
falls v
γ(u)
= c(u)


 0 

 <

ist. Mit der für festes u streng monotonen Abbildung
√
n v/n − µ0
q
h(u, v) = q
1
u − n1 v 2
n−1
ist dieser Test äquivalent zu dem Test
ψ ∗ (u, v) = I{h(u, v) > c̃(u)} + γ̃(u)I{h(u, v) = c̃(u)},
wobei die Konstanten c̃(u) und γ̃(u) durch die Bedingung
Eηξ0 [ψ ∗ (U, V ) | U = u] = α
festgelegt werden. Man kann zeigen, dass die Statistiken
√
n(X̄n − µ0 )
∼ tn−1
h(U, V ) = T (X) = q
P
n
1
2
(X
−
X̄
)
i
n
i=1
n−1
V =
n
X
Xi2
i=1
stochastisch unabhängig sind [das geht entweder direkt mit der Transformationsformel oder mit dem Satz von Basu (vgl. Lehmann, Testing Statistical Hypotheses,
Seite 191] und wir erhalten für alle u : γ(u) = 0, c(u) = tn−1,1−α , d.h.
ψ ∗ (x) = I{T (x) > tn−1,1−α }
ist ein UMPU-Test für die oben genannten Hypothesen.
48
Bemerkung 6.30: Wendet man das in Bemerkung 6.28 und Beispiel 6.29 erläuterte
Prinzip auf Hypothesen der Form H : η = η0 ; K : η 6= η0 , so muss die Abbildung h in
dem entsprechenden Argument streng wachsend und linear sein.
7
Likelihood-Quotienten-Tests und asymptotische Eigenschaften von Tests
Bemerkung 7.1: Ein allgemeines Prinzip für die Konstruktion eines Tests für die Hypothesen
H : θ ∈ ΘH ; K : θ ∈ ΘK
in einem statistischen Experiment ist die Likelihood-Quotienten-Methode. Dabei bildet
man bei Vorliegen einer Realisierung x = X(ω) einer Zufallsvariablen X ∼ Pθ den
Likelihood-Quotienten
sup{fθ (x) | θ ∈ ΘH }
λ(x) =
sup{fθ (x) | θ ∈ Θ}
und lehnt die Nullhypothese für kleine Werte von λ(x) ab (da man unter der Alternative
K einen kleinen Wert von λ(x) erwarten würde). Damit lautet die Entscheidungsregel
ϕ(x) = I{λ(x) < c} + γI{λ(x) = c},
wobei die Konstante c ∈ (0, 1), so festzulegen ist, dass dieser Test das Niveau α hat, d.h.
sup Eθ [ϕ(X)] ≤ α
θ∈ΘH
gilt.
Beispiel 7.2: (F -Test für den Varianzquotienten) Es seien X1 , . . . , Xm ∼ N1 (µ, σ 2 )
unabhängig identisch verteilte Zufallsvariablen und Y1 , . . . , Yn ∼ N1 (v, τ 2 ). unabhängig
identisch verteilte Zufallsvariable. Außerdem seien die Zufallsvariablen X1 , . . . , Xm und
Y1 , . . . , Yn stochastisch unabhängig (man spricht von unabhängigen Stichproben). Gesucht
ist ein Test für die Hypothesen
H : σ2 = τ 2;
K : σ 2 6= τ 2 .
In diesem Beispiel ist Θ = R × R × R+ × R+ , θ = (µ, v, σ 2 , τ 2 ) und
ΘH = {(µ, v, σ 2 , σ 2 ) | µ, v ∈ R, σ 2 ∈ R+ }.
Die gemeinsame Dichte der Beobachtungen X1 , . . . , Xm , Y1 , . . . , Yn lautet
m
n
n 1 X
o
1 m2 1 n2
1 X
2
2
exp
−
(x
−
µ)
−
(y
−
v)
.
fθ (x, y) =
i
j
2πσ 2
2πτ 2
2σ 2 i=1
2τ 2 j=1
49
Für die Berechnung des Supremums im Nenner sind die Maximum-Likelihood-Schätzungen
zu berechnen und wir erhalten mit
m
θ̂n =
2
, τ̂n2 )T
(µ̂m , ν̂n , σ̂m
n
1X
1 X
= (x̄n , ȳn ,
(xi − x̄m )2 ,
(yj − ȳn )2 )T
n i=1
m j=1
für den Nenner
sup fθ (x, y) = fθ̂n (x, y) = (2π)−
m+n
2
e
m+n
2
θ∈Θ
n
m
2 −2
(σ̂m
) (τ̂n2 )− 2 .
Für die Berechnung des Supremums im Zähler bestimmen wir die Maximum-LikelihoodSchätzungen unter der Nebenbedingung σ 2 = τ 2 und erhalten
2
2
θ̃n = (µ̂m , ν̂n , σ̂m,n
, σ̂m,n
)T ,
wobei für den Varianzschätzer
m
2
σ̂m,n
n
o
X
1 nX
=
(xi − x̄m )2 +
(yj − ȳn )2
m + n i=1
j=1
gilt. Das liefert für den Zähler
− m+n
− m+n
2
2
sup fθ (x, y) = fθ̃n (x, y) = (2π)
e
θ∈ΘH
2
σ̂m,n
− m+n
2
,
und für den Likelihood-Quotienten
m/2 n/2
2
− n2
τ̂n2
σ̂m
1 − m2 λ(x, y) =
= cm,n 1 +
1 + Hm,n
,
m+n
Hm,n
2
σ̂m,n
2
wobei die Konstante cm,n durch
cm,n =
m + n m/2 m + n n/2
m
n
definiert ist und die Statistik Hm,n durch
Pm
(xi − x̄m )2
Hm,n (x, y) = Pi=1
n
2
j=1 (yj − ȳn )
gegeben ist. Man zeigt leicht, dass die Funktion
H → (1 +
n
1 −m
) 2 (1 + H)− 2
H
auf R+ genau ein Maximum besitzt und das diese Funktion für H → 0, H → ∞ gegen 0
konvergiert. Damit erhält man die Äquivalenz
λ(x, y) ≤ c ⇐⇒ Hm,n (x, y) 6∈ [c1 , c2 ]
50
für geeignete Konstanten 0 ≤ c1 < c2 ≤ ∞. Nach Übung 1.19 (1) und Definition 1.17(3)
ist unter der Nullhypothese H : σ 2 = τ 2
Pm
1
2
n−1
i=1 (Xi − X̄m )
m−1
∼ Fm−1,n−1
Hm,n (X, Y ) = 1 Pn
F (X, Y ) =
2
m−1
j=1 (Yj − Ȳn )
n−1
F -verteilt mit (m − 1, n − 1) Freiheitsgraden. Damit erhält man durch
n
o
ϕ(x, y) = 1 − I Fm−1,n−1,α/2 < F (x, y) < Fm−1,ns−1,1−α/2
einen Likelihood-Quotiententest zum Niveau α, wobei Fm,n,β das β-Quantil der F -Verteilung
mit m, n Freiheitsgraden bezeichnet. Man beachte, dass eine Randomisierung nicht
notwendig ist (d.h. γ = 0 kann gewählt werden) und das
EH0 [ϕ(X, Y )] = 1 − PH0 Fm−1,n−1,α/2 < F (X, Y ) < Fm−1,n−1,1−α/2
= 1 − (1 − α/2) + α/2 = α
gilt. Mit diesem Argument kann man auch andere Quantile wählen, um einen Test zum
Niveau α zu erhalten, z.B. Fm−1,n−1,β und Fm−1n−1,1−γ , wobei β + γ = α gilt.
Beispiel 7.3: (Zwei Stichproben t-Test) In der Situation aus Beispiel 7.2 setzen wir
zusätzlich σ 2 = τ 2 voraus und suchen einen Test für die Hypothesen
K : µ 6= ν.
H : µ = ν;
In diesem Beispiel ist Θ = R × R × R+ und
ΘH = {θ = (µ, v, σ 2 ) | µ = v}.
Für das Supremum im Zähler des Likelihood-Quotienten erhält man mit einfacher Rechnung
m+n
m+n
sup fθ (x, y) = (2πŝ2 )− 2 exp(−
),
2
θ∈ΘH
wobei Ŝ 2 durch
m
n
o
X
1 nX
ŝ =
(xi − m̂)2 +
(Yj − m̂)2
m + n i=1
j=1
2
mit
m
m̂2 =
n
X o
1 nX
m
n
xi +
yj =
x̄m +
ȳn
m + n i=1
m
+
n
m
+
n
j=1
definiert ist. Das Supremum des Nenners haben wir in Beispiel 7.2 als
sup fθ (x, y) = (2π)
m+n
2
θ∈Θ
51
e−
m+n
2
2
(σ̂m,n
)−
m+n
2
bestimmt, und damit erhält man für den Likelihood-Quotienten
2
m+n
sup{fθ (x, y) | θ ∈ ΘH } σ̂m,n
2
=
.
λ(x, y) =
2
sup{fθ (x, y) | θ ∈ Θ}
ŝ
Wegen
m
n
(x̄m − m̂)2 +
(ȳn − m̂)2
m+n
m+n
mn
2
= σ̂m,n
+
(x̄m − ȳn )2
(m + n)2
2
ŝ2 = σ̂m,n
+
erhalten wir
λ(x, y) =
wobei die Statistik T (x, y) durch
r
mn
r
T (x, y) =
m+n
o m+n
2
1
n
1+
1
T 2 (x, y)
(m+n)(m+n−2)
,
x̄m − ȳn
1
m+n−2
nP
m
i=1 (xi
− x̄m )2 +
Pn
j=1 (yj
− ȳn )2
definiert ist. Wegen der Unabhängigkeit der Stichproben erhalten wir unter der Annahme
µ=ν
r
mn
(X̄m − Ȳn ) ∼ σ · N (0, 1)
m+n
m
n
X
X
2
(Xi − X̄m ) +
(Yn − Ȳn )2 ∼ σ 2 χ2m+n−2 .
i=1
j=1
Pn
P
2
2
Außerdem sind die Zufallsvariablen X̄m , Ȳn , m
j=1 (Yj − Ȳn ) stochastisch
i=1 (Xi − X̄m ) ,
unabhängig und damit Zähler und Nenner in T (X, Y ) ebenfalls stochastisch unabhängig.
Daher gilt unter der Nullhypothese H : µ = ν
T (X, Y ) ∼ tm+n−2
und wegen der Monotonie der Abbildung
t→
1 m+n
2
2
1 + at
(für positives a) lautet ein Likelihood-Quotiententest zum Niveau α für die Hypothesen
H : µ = ν;
K:µ=ν
ϕ(x, y) = I{|T (x, y)| > tm+n−2,1−α/2 ,
wobei tr,β das Quantil der t-Verteilung mit r Freiheitsgraden bezeichnet. Der obige Test
heißt Zwei-Stichproben t-Test. Man beachte, dass dieser Test gleiche Varianzen in beiden
52
Stichproben voraussetzt und diese Annahme zunächst überprüft werden muss (z.B. mit
dem F -Test aus Beispiel 7.2 mit einem relativ hohen Niveau).
Bemerkung 7.4:
(1) Mit ähnlichen Argumenten erhält man in Beispiel 7.2 und 7.3 Tests für einseitige
Hypothesen. Z.B. lautet der Likelihood-Quotiententest für die Hypothesen
H : σ12 ≤ σ22 ;
K : σ12 > σ22
in der Situation von Beispiel 7.2
ϕ(x, y) = I{F (x, y) > Fm−1,n−1,1−α }
und der Zwei-Stichproben t-Test für die Hypothesen
H : µ ≤ ν; K : µ > ν
ϕ(x, y) = I{T (x, y) > tm+n−2,1−α }.
(2) Für die so bestimmten Tests kann mit der Argumentation aus Bemerkung 6.27 (vgl.
auch Beispiel 6.28, 6.29) die UMPU-Eigenschaft nachweisen.
Übung 7.5: Es seien X1 , . . . , Xn ∼ N1 (µ, σ 2 )unabhängig identisch verteilte Zufallsvariable. Man bestimme den Likelihood-Quotienten-Test für die Hypothesen
H : µ = µ0 ; K : µ 6= µ0
H : σ 2 = σ02 ; K : σ 2 6= σ02
und zeige, dass sich analoge Testverfahren wie in Beispiel 6.29 ergeben (dort wurden
einseitige Hypothesen betrachtet).
In den vorigen Beispielen erkennt man, dass die Berechnung des Likelihood-Quotienten
prinzipiell kein Problem darstellt (obwohl diese in den meisten Fällen numerisch erfolgen
muss). Die Schwierigkeit besteht in der Festlegung des kritischen Werts c, so dass die
Ablehnung der Nullhypothese im Fall λ(x) < c einen Test zum Niveau α liefert. In den
obigen Beispielen konnten wir durch eine Transformation von λ(X) eine Zufallsvariable
mit bekannter Verteilung erhalten. In den meisten Fällen ist eine solche Transformation
nicht möglich! Dennoch können bei großem Stichprobenumfang die Wahrscheinlichkeiten
Pθ (λ(X) ≤ c)
für θ ∈ ΘH zumindest näherungsweise bestimmt werden. Wir betrachten dazu eine Stich(1)
probe X1 , . . . , Xn von unabhängigen Zufallsvariablen mit Dichte ∼ fθ ; θ ∈ Θ.
Bezeichnungen und Annahmen 7.6:
53
(A1) Es sei Θ ⊂ Rd ∆ ⊂ Rc offen, c < d, und h : ∆ → Θ eine Abbildung mit h(∆) = ΘH ,
die zweimal stetig differenzierbar ist und deren Jacobi-Matrix h0 (η) für alle η ∈ ∆
vollen Rang hat (Parametrisierung der Nullhypothese).
(A2) Für die Verteilungsfamilie
(1)
(1)
Ph := {fh(η) | η ∈ ∆} ⊂ P = {fθ
| θ ∈ Θ}
gelten die Annahmen aus Satz 4.6. Mit diesen Bezeichnung kann der LikelihoodQuotient dann geschrieben werden als
λ(x) =
sup{fh(η) (x) | η ∈ ∆}
fh(η̂n ) (x)
=
,
sup{fθ (x) | θ ∈ ∆}
fθ̂n (x)
wobei θ̂n der Maximum-Likelihood-Schätzer in P ⊗ ist und η̂n der Maximum-LiklihoodSchätzer in Ph⊗ ist (Schätzer unter Nullhypothese).
Beispiel 7.7: Wir betrachten die Situation aus Beispiel 7.3. Dann ist θ = (µ, ν, σ 2 )
Θ = R × R × R+ ⊂ R3
ΘH = {θ = (µ, ν, σ 2 ) | µ = ν}.
Die Parametrisierung der Nullhypothese erfolgt mit der Abbildung
(
∆ →
Θ
h:
,
2
(µ, σ ) → (µ, µ, σ 2 )
wobei die Menge ∆ durch
∆ = {(µ, σ 2 ) | µ ∈ R, σ 2 ∈ R+ } = R × R+
definiert ist. Da h linear ist, ist h zweimal stetig differenzierbar und die Ableitung


1 0


h0 (η) =  1 0 
0 1
hat vollen Rang c = 2 für alle η ∈ ∆. Die Maximum-Likelihood-Schätzer lauten


X̄n


θ̂n =  Ȳn 
2
σ̂m,n
(vgl. Beispiel 7.3) und in der Teilfamilie Ph⊗ erhält man als Maximum-Likelihood-Schätzer
!
n
m
X̄
+
Ȳ
m+n m
m+n n
η̂n =
Ŝ 2
54
(vgl. Beispiel 7.3).
Satz 7.8: Unter den Annahmen aus Satz 4.6 und 7.6 gilt für jedes θ ∈ ΘH = h(∆)
D
Tn := −2 log λ(X) = 2{log fθ̂n (X) − log fh(η̂n ) (X)} −→ χ2d−c
n→∞
d.h. für großen Stichprobenumfang können die Wahrscheinlichkeiten Pθ (Tn > c) mit der
Verteilungsfunktion der χ2 -Verteilung mit (d − c)-Freiheitsgraden berechnet werden.
Beispiel 7.9: (Unabhängigkeitstest in r × s Kontingenztafel) Wir betrachten die
Situation aus Beispiel 3.15: Y1 , . . . , Yn i.i.d. ∼ M(1, p11 , p12 , . . . , prs )
Y =
n
X
Yj = (X11 , . . . , Xrs )T ∼ M(n, p11 , . . . , prs ).
j=1
Wir wollen untersuchen, ob die Faktoren A und B unabhängig sind, d.h.
H : pij = P (Ai ∩ Bj ) = P (Ai )P (Bj ) = pi· p·j
mit
pi· =
s
X
pij
p·j =
j=1
r
X
pij .
i=1
Die gemeinsame Dichte von Y lautet
fp (x) = Pp (Xij = xij ∀ i, j)
r Y
s
X
Y
n!
x
xij = n}
pijij I{xij ∈ {0, . . . , n};
= Qr Qs
j=1 xij ! i=1 j=1
i=1
ij
und es ist
T
Θ = {p = (p11 , . . . , prs ) |
r X
s
X
pij = 1} ⊂ Rd
∼
i=1 j=1
mit d = rs − 1,
ΘH = {p ∈ Θ | pij = pi· p·j } ⊂ Rc
∼
Pr
Ps
mit c = r + s − 2 (man beachte, dass i=1 pi· = j=1 p·j = 1 gilt). Man rechnet leicht
nach, dass die Maximum-Likelihood-Schätzung im allgemeinen Modell durch
p̂ij =
Xij
n
i, j = 1, . . . , n
gegeben ist und erhält für das Supremum im Nenner
sup{fp (x) | p ∈ Θ} = Qr
i=1
n!
Qs
j=1
55
r Y
s Y
xij xij
xij !
i=1 j=1
n
I{. . .}.
Um die Maximum-Likelihood-Schätzung unter Nullhypothese zu berechnen beachte man,
dass für p ∈ ΘH gilt
r
Y
n!
Qs
fp (x) = Qr
i=1
j=1
xij !
pxi·i·
i=1
s
Y
x
p·j·j I{. . .},
j=1
Pr
Pr
wobei xi· =
j=1 xij und x·j =
i=1 xij gilt. Das liefert als Maximum-LikelihoodSchätzung unter der Nullhypothese
p̃ij = p̂i· p̂·j
mit
x·j
xi·
; p̂·j =
,
n
n
und wir erhalten für das Supremum im Zähler
p̂i· =
sup{fp (x) | p ∈ ΘH } = Qr
i=1
r s
Y
xi· xi· Y x·j x·j
n!
Qs
j=1
Das liefert dann
−2 log λ(x) = 2
xij !
r Y
s
Y
i=1
n
xij log
i=1 j=1
j=1
n
I{. . .}.
x ij
xi· x·j
n
und nach Satz 7.8 [d−c = rs −1−(r +s−2) = (r −1)(s−1)] gilt unter der Nullhypothese
Zn = −2 log λ(X) = 2
r X
s
X
Xij log
X ij
i=1 j=1
Xi· X·j
n
D
−→ χ2(r−1)(s−1) .
Mit der Approximation log x ≈ (x − 1) − 21 (x − 1)2 kann man dann zeigen, dass
P
Zn − Tn −→ 0,
wobei für die Zufallsvariable
Tn =
r X
s
X
i=1 j=1
Xij −
Xi· X·j
n
Xi· X·j
n
2
D
−→ χ2(r−1)(s−1)
gilt. Damit verwirft der Likelihood-Quotiententest die Hypothese der Unabhängigkeit,
falls
Tn > χ2(r−1)(s−1),1−α
gilt. Dieser Test heißt Unabhängigkeitstest von Pearson und Fisher. Wegen der obigen
Verteilungskonvergenz gilt für alle θ ∈ H
lim Pθ (Tn > χ2(r−1)(s−1),1−α ) = 1 − (1 − α) = α,
n→∞
56
d.h. bei großem Stichprobenumfang hat der Test näherungsweise das Niveau α. Man
beachte die anschauliche Interpretation der Teststatistik Tn . Man vergleicht die gefundenen Klassenhäufigkeiten mit den Häufigkeiten, die man unter der Nullhypothese der
Unabhängigkeit erwarten würde und verwirft die Unabhängigkeitshypothese für große
Werte des Abstandsmaßes.
(n)
Definition 7.10: Es sei X (n) ∼ (X1 , . . . , Xn ) ∼ fθ eine n-dimensionale Zufallsvariable
mit Werten in Xn und für n ∈ N
(
Xn → [0, 1]
ϕn :
x(n) → ϕn (x(n) )
ein Test für die Hypothesen
H : θ ∈ ΘH ;
K : θ ∈ ΘK .
(1) Die Folge von Tests (ϕn )n∈N besitzt asymptotisch das Niveau α, falls
limn→∞ sup βϕn (θ) ≤ α.
θ∈ΘH
(2) Die Folge von Tests (ϕn )n∈N heißt konsistent (für H gegen K) falls für alle θ ∈ ΘK
gilt
lim βϕn (θ) = 1.
n→∞
Man beachte, dass bei großem Stichprobenumfang (n → ∞) ein asymptotischer
Niveau α-Test ϕn näherungsweise das Niveau α hat und dass für einen konsistenten
Test die Wahrscheinlichkeit für einen Fehler zweiter Art bei wachsendem Stichprobenumfang gegen Null konvergiert.
Bemerkungen 7.11:
(1) Man spricht abkürzend von einem asymptotischen Test zum Niveau α und von einem
konsistenten Test.
(2) Wie im Fall des Schätzens ist die Konsistenz eine Minimalforderung an einen statistischen Test.
Beispiele 7.12:
(1) Unter den Annahmen aus Satz 4.6 und 7.7 besitzt der Test
ϕn (x(n) ) = I{−2 log λ(x(n) ) > χ2d−c,1−α }
57
asymptotisch das Niveau α, denn nach Satz 7.8 gilt für alle θ ∈ ΘH
lim Pθ (Tn > χ2d−c,1−α ) = 1 − (1 − α) = α.
n→∞
Man kann auch zeigen, dass dieser Test konsistent ist (Lit. D. Morgenstern: Einführung
in die Wahrscheinlichkeitstheorie und Mathematische Statistik).
Für den Unabhängigkeitstest von Pearson-Fisher kann man die Konsistenz auch
direkt einsehen. Wegen
Xij P
−→ pij ;
n
Xi· P
X·j P
−→ pi· ;
−→ p·j
n
n
gilt nämlich
1
Tn =
n
r X
s
X
Xij
n
−
Xi· X·j
n n
2
Xi· X·j
n n
i=1 j=1
r X
s
X
(pij − pi· p·j )2
−→
=: ∆
p
p
i·
·j
i=1 j=1
P
und ∆ > 0, falls die Nullhypothese der Unabhängigkeit nicht gilt. Damit erhalten
wir für die Gütefunktion
1
h n
oi
1
Eθ I Tn > χ2(r−1)(s−1),1−α = Pθ Tn > χ2(r−1)(s−1),1−α −→ 1.
n→∞
n
n
(2) Es seien X1 , . . . , XM i.i.d. ∼ N1 (µ, σ 2 ) und Y1 , . . . , Yn ∼ N1 (µ, τ 2 ) i.i.d. unabhängige Stichproben. Unter der Annahme σ 2 = τ 2 ist der Zwei-Stichprobentest
aus Beispiel 7.3 ein unverfälschter Test zum Niveau α. für die Hypothesen
H : µ = ν;
K : µ 6= ν
(Dieser Test ist sogar gleichmäßig bester unverfälschter Test). Falls man diese Annahme nicht mehr machen kann, ist die Konstruktion eines solchen Tests unmöglich
und man bezeichnet dieses Problem als Behrens-Fisher-Problem. Die Konstruktion
eines asymptotischen Niveau-α-Tests bereitet weniger Schwierigkeiten. Dazu setzen
wir
X̄m − Ȳn
∗
Tn,m
(X, Y ) = q
P
Pn
m
1 1
1 1
2
2
j=1 (Xj − X̄m ) + n n−1
j=1 (Yj − Ȳn )
m m−1
und definieren durch
∗
ϕ(x, y) = I{|Tn,m
(x, y)| > u1−α/2 )
einen Test, wobei u1−α das (1−α)-Quantil der Standardnormalverteilung ist. Wegen
X̄m ∼ N (µ,
σ2
τ2
), Ȳn ∼ N (v, )
m
n
∗
gilt für den Zähler der Statistik Tm,n
σ2
m
+
τ 2 −1/2
(X̄m − Ȳn − (µ − ν)) ∼ N (0, 1)
n
58
und
m
1 X
P
(Xi − X̄m )2 −→ σ 2
n→∞
m − 1 i=1
n
1 X
P
(Yj − Ȳn )2 −→ τ 2 .
n→∞
n − 1 j=1
Die letzte Aussage erhält man entweder mit Satz 4.6, da diese Schätzer bis auf die
m
n
Faktoren m−1
und n−1
mit den Maximum-Likelihood-Schätzern übereinstimmen,
oder mit Bemerkung 4.5, da sich diese Schätzer auch mit der Momentenmethode
ergeben [vgl. auch Beispiel 4.3(1)]. Damit erhalten wir mit
m
2
Sm,n
=
n
1 1 X
1 1 X
(Xi − X̄m )2 +
(Xj − X̄n )2
m m − 1 i=1
n n − 1 j=1
die stochastische Konvergenz
τ 2 −1 2
P
Sm,n −→ 1,
m
n
falls m → ∞, n → ∞ und m/n → κ ∈ [0, ∞] gilt. Für die Gütefunktion mit
θ = (µ, v, σ 2 , τ 2 ) ergibt sich dann
σ2
+
∗
βϕ (θ) = Eθ [ϕ(X, Y )] = Pθ (|Tm,n
(X, Y )| > u1−α/2 )
1 − Pθ
µ − ν
sm,n
(
−→
m,n→∞
m/n→∞
− u1−α/2
X̄m − Ȳn − (µ − ν)
µ − ν
<
< u1−α/2 −
Sm,n
Sm,n
α falls µ = ν
,
1 falls µ 6= ν
da nach dem Lemma von Slutsky
X̄m − Ȳn − (µ − ν) D
−→ N (0, 1)
Sm,n
gilt und für µ 6= ν
|µ − ν| P
−→ ∞
Sm,n
gilt. Daher ist der Test ϕ konsistent und hat asymptotisch das Niveau α. Man
beachte, dass sich dieser Test auch mit dem Likelihood-Quotienten-Prinzip ergibt.
Beispiel 7.13: (Bartlett-Bartlett-Test auf Varianzhomogenität) Es seien Xij ∼
N1 (µi , σi2 ) i = 1, . . . , r; j = 1, . . . , ni unabhängige Zufallsvariable (man denke an r Gruppen, mit je ni -Objekten). Wir bestimmen den Likelihood-Quotienten-Test für die Hypothesen
H : σ12 = . . . = σr2 ; K : σi2 6= σj2 (∃ i 6= j)
59
(man beachte, dass d = 2r und c = r + 1 gilt). Die gemeinsame Dichte von X11 , . . . , Xr,nr
lautet
ni
r 1 X
Y
1 ni
2
p
fθ (x) =
exp
−
(x
−
µ
)
,
ij
i
2
2
2σ
2πσ
i
i
j=1
i=1
2
2
r
+ r
n
wobei
Pθr = (µ1 , . . . , µr , σ1 , . . . , σr ) ∈ R × (R ) ist und x = (x11 , . . . , xrnr ) ∈ R mit
n = i=1 ni gesetzt wird. Man sieht sofort, dass die Statistiken
ni
σ2
1 X
Xij ∼ N1 (µi , i ) i = 1, . . . , r
X̄i· =
ni j=1
ni
(i-tes Gruppenmittel) und
σ̂i2 =
ni
1 X
σ2
(Xij − X̄i· )2 ∼ i χ2ni −1
ni j=1
ni
i = 1, . . . , r
(Streuung in der i-ten Gruppe) die Maximum-Likelihood-Schätzer für die Parameter
µ1 , . . . , µr und σ12 , . . . , σr2 liefern.
Die Maximum-Likelihood-Schätzer unter Null-Hypothese lauten
µ̂i = X̄i·
ni
r
r
X
1 XX
ni 2
2
2
σ̂ =
σ̂
(Xij − X̄i· ) =
n i=1 j=1
n i
i=1
und für den Likelihood-Quotienten erhält man
r
Y σ̂ 2 ni /2
sup{fθ (x) | θ ∈ ΘH }
(2πσ̂ 2 )−n/2 exp(−n/2)
i
=
λ(X) =
= Qr
.
2 −ni /2
2
(2πσ̂
)
exp(−n
/2)
sup{fθ (x) | θ ∈ Θ}
σ̂
i
i
i=1
i=1
Mit einer Verallgemeinerung von Satz 7.8 kann man dann zeigen, dass für ni → ∞(i =
1, . . . , r); ni /n → κi ∈ (0, 1) gilt
2
T (X) = −2 log λ(X) = n log σ̂ −
r
X
D
ni log σ̂i2 −→ χ2r−1
i=1
(man beachte d − c = 2r − (r + 1) = r − 1) und damit ist der Test
ϕ(x) = I{T (x) > χ2r−1,1−α }
ein asymptotischer Niveau-α-Test. Wegen
r
r
X
X ni
1
P
T (X) = log σ̂ 2 −
log σ̂i2 −→ log σ 2 −
κi log σi2 = ∆
n
n
i=1
i=1
mit
2
σ =
n
X
i=1
60
κi σi2
konvergiert n1 T (X) gegen eine Größe ∆ ≥ 0, die genau dann positiv ist, wenn die Nullhypothese gleicher Varianzen nicht gilt. Damit erhalten wir für ∆ > 0 (d.h. unter der
Alternative der Inhomogenität)
βϕ (θ) = Eθ [ϕ(X)] = Pθ (T (X) > χ2r−1,1−α )
1
1
= Pθ T (X) > χ2r−1,1−α −→ 1
n→∞
n
n
und der obige Test ist konsistent. Dieser Test heißt Bartlett-Test auf Varianzhomogenität.
Bemerkung 7.14: Die Konsistenz eines Tests bedeutet, dass der Test bei beliebig großem
Stichprobenumfang auch beliebig kleine Abweichungen von der Nullhypothese aufdeckt.
Wir bemerken abschließend, dass man mit der Interpretation eines solchen Ergebnisses
sorgfältig umgehen sollte, da man in der Regel an beliebig kleinen Abweichungen nicht interessiert sein wird. Dazu betrachten wir als Beispiel eine zweifaktorielle Kontingenztafel,
die verschiedene Haushalte nach Jahreseinkommen und Anzahl der Kinder klassifiziert.
Anzahl der
Kinder
0
1
2
3
≥4
Summe
Jahreseinkommen
0
1
2
3
2161 3577 2184 1636
2755 5081 2222 1052
936 1753 640 306
2255 419
96
38
39
98
31
14
6116 10928 5173 3046
Summe
9558
11110
3635
778
182
25263
Wir wollen die Frage untersuchen, ob die Faktoren Jahreseinkommen und Anzahl der
Kinder unabhängig sind (vgl. Beispiel 7.9). Dazu beachten wir, dass r = 5, s = 4 gilt und
berechnen für die konkret vorliegenden Daten die Pearson-Fisher-Statistik
Tn (x) =
r X
s
X
(xij − xi· x·j /n)2
i=1 j=1
xi· x·j
n
= 568, 566.
Für einen (asymptotischen) Test zum Niveau α = 0.05 findet man in einer Tabelle (oder
mit Software) χ23·4,0.95 ≈ 21.026 und wegen Tn (x) > 568, 566 wird die Hypothese der
Unabhängigkeit klar verworfen. Wir schließen also, dass die Faktoren Anzahl der Kinder
und Jahreseinkommen abhängig sind. Allerdings haben wir mit dieser Testentscheidung
keine Information über die Stärke dieser Abhängigkeit. Als Maß für die Abhängigkeit
verwendet man oft
s
Tn (X)
,
Vn = Vn (X) =
n min{r, s} − 1
61
denn es gilt (vgl. Beispiel 7.12(1))
v
u
r X
s
X
1
(pij − pi· p·j )2
P u
t
Vn −→
.
min{r, s} − 1 i=1 j=1
pi· p·j
Für die konkret vorliegenden Daten erhält man
Vn (x) ≈ 0.087,
d.h. es liegt nur eine schwache Abhängigkeit vor, die unser Test nur deshalb entdeckt hat,
da eine sehr große Anzahl von Daten vorliegt (nämlich n = 25263).
Als Konsequenz dieses Beispiels bemerken wir, dass man eine Testentscheidung möglichst
immer mit einem Maß für die Abweichung von der Nullhypothese angeben sollte. Leider
wird das in der statistischen Praxis fast nie gemacht.
62