Paragraph 11 (pdf

Werbung
11 Testen von Hypothesen
Ausgehend von einem statistischen Modell (X , B, Pϑ,X ) , ϑ ∈ Θ , interessiert manchmal
nicht der genaue Wert des unbekannten Parameters ϑ , sondern lediglich, ob ϑ in einer
(echten) Teilmenge Θ0 von Θ liegt oder nicht. D.h., es ist eine Entscheidung zu
treffen zwischen zwei Hypothesen
H : ϑ ∈ Θ0 , K : ϑ ∈
/ Θ0 .
Beispiel 11.1. a) Beim n-fachen Münzwurf interessiert z.B., ob die Münze fair“ ist
”
oder nicht, d.h., ob P ( Zahl“) = p = 21 , also
”
1
1
H : p = , K : p 6= .
2
2
Hier : Θ = (0, 1) , Θ0 = { 12 } .
b) Beim Testen eines neuen Heilverfahrens (vgl. Beispiel 8.1) interessiert, ob die
Wahrscheinlichkeit p = P ( Heilerfolg“) kleiner ist als bei einem Standardverfahren
”
oder nicht, also z.B.
H : p ≤ p0 (= 0.65) , K : p > p0 .
Hier : Θ = (0, 1) , Θ0 = (0, p0 ]
0 < p0 < 1, bekannt .
c) Bei einer Qualitätskontrolle (vgl. Beispiel 8.2 ) könnte man fragen, ob die WahrR
scheinlichkeit p = N
, einen fehlerhaften Artikel zu finden, eine vorgegebene Schranke
übersteigt oder nicht, etwa
H : R ≥ R0 , K : R < R0 .
Hier : Θ = {0, 1, . . . , N } , Θ0 = {R0 , R0 + 1, . . . , N }
N, R0 bekannt .
Die Entscheidung ist zu treffen aufgrund einer Beobachtung x = (x1 , . . . , xn ) der ZV.
X = (X1 , . . . , Xn ) , d.h., gesucht ist (formal) eine Abbildung d : X → {dH , dK } ,
wobei
(
dK bedeutet : Entscheidung für K “ ;
”
d(x) =
dH bedeutet : Entscheidung für H “ .
”
Oder anders ausgedrückt : Gesucht ist eine Zerlegung X = S + A , wobei
(
dK , falls x ∈ S ;
d(x) =
dH , falls x ∈ A .
86
Man setzt dK = 1 , dH = 0 , und bezeichnet derartige Zweientscheidungsfunktionen“
”
oft mit ϕ , also
(
1 , falls x ∈ S ;
ϕ(x) =
0 , falls x ∈ A .
Interpretation : ϕ(x) ist die Wahrscheinlichkeit, mit der bei Vorliegen der Beobachtung
x die Entscheidung für K getroffen wird.
Definition 11.1. Eine (messbare ) Abbildung ϕ : X → {0, 1} , d.h. ϕ = IS mit
S ∈ B , heißt nicht-randomisierter Test . S heißt Signifikanzbereich , A heißt
Annahmebereich des Tests ϕ .
Beim Testen von Hypothesen sind Fehlentscheidungen möglich. Man identifiziert üblicherweise H ←→ Θ0 , K ←→ Θ \ Θ0 und unterscheidet folgende Fehlerarten :
Fehler 1. Art : ϑ ∈ H , aber x ∈ S . D.h., der unbekannte Parameter liegt in H ,
aber die Beobachtung x fällt nach S . Letzteres bedeutet ϕ(x) = 1 , also die falsche
Entscheidung für K .
Fehler 2. Art : ϑ ∈ K , aber x ∈ A .
Der Test sollte so konstruiert werden , d.h. S sollte so gewählt werden, dass die
Fehlerwahrscheinlichkeiten möglichst klein sind. Folgende (unsymmetrische) Vorgehensweise ist hierbei üblich und geht zurück auf die Statistiker Neyman und Pearson :
Man kontrolliert den Fehler 1. Art , d.h., man fordert
!
(11.1) Pϑ ϕ(X) = 1 = Pϑ (X ∈ S) ≤ α
∀ ϑ∈H,
wobei α klein“ ist (z.B. α = 0.10, 0.05, 0.01), und wählt unter dieser Nebenbedingung
”
den Test, der die Fehlerwahrscheinlichkeit 2. Art minimiert , d.h.
!
(11.2) Pϑ ϕ(X) = 0 = Pϑ (X ∈ A) = inf
∀ ϑ∈K.
ϕ
Beim nicht-randomisierten Test ϕ = IS ist also wegen Pϑ ϕ(X) = 0 = Pϑ (X ∈ A) =
1 − Pϑ (X ∈ S) der Signifikanzbereich S möglichst groß zu wählen um (11.2) zu
erfüllen , aber so, dass gerade noch die Nebenbedingung (11.1) erfüllt ist.
Folgende Sprechweisen sind üblich : α heißt das Niveau des Tests .
87
Bei beobachtetem Wert x und
ϕ(x) = 1 :
K ist signifikant zum Niveau α “ oder
”
H wird verworfen zum Niveau α “ ;
”
ϕ(x) = 0 :
K ist nicht signifikant zum Niveau α “ oder
”
H kann nicht verworfen werden zum Niveau α “ .
”
( Im letzteren Fall sagt man nicht , dass H signifikant“ ist oder dass K verworfen“
”
”
wird, weil man keine Kontrolle der Fehlerwahrscheinlichkeit 2. Art hat. )
Wir demonstrieren die Konstruktion eines Tests an folgendem
Beispiel 11.2. X1 , . . . , Xn seien i.i.d. B(1, p)-verteilte ZV., p ∈ (0, 1) . Man bestimme
einen Test zum Niveau α (fest, klein ) für die Hypothesen
H : p ≤ p0 , K : p > p0
( 0 < p0 < 1 , bekannt ) .
Ansatz : T (x) = T (x1 , . . . , xn ) = x ist eine gute Schätzung“
”
Parameter p , daher
(
1 , falls x > c ;
ϕ(x) = ϕ(x1 , . . . , xn ) =
0 , falls x ≤ c .
für den unbekannten
Die Beobachtung x = (x1 , . . . , xn ) spricht für K , falls x groß“ ist, andernfalls
”
spricht sie für H .
Wegen nx =
n
X
xi ist die Form des Tests äquivalent zu
i=1
ϕ(x) =




 1,



 0,
falls
falls
n
X
i=1
n
X
i=1
xi > k ;
xi ≤ k .
Um das Niveau α des Tests einzuhalten
so zu wählen, dass gilt :
(11.1’)
Forderung (11.1)
n
X
!
Pp ϕ(X) = 1 = Pp
Xi > k ≤ α
i=1
ist k
∈ {0, 1, . . . , n}
∀ p ≤ p0 .
Um gleichzeitig den Signifikanzbereich S möglichst groß zu machen Forderung (11.2)
muss gelten :
(11.2’)
k möglichst klein unter der Nebenbedingung (11.1’) !
88
Die Forderung (11.1’) ist gleichbedeutend mit
n
X
!
n
p ν (1 − p)n−ν ≤ α ∀ p ≤ p0 .
(11.1”)
ν
ν=k+1
n
X
n
p ν (1 − p)n−ν
Es lässt sich zeigen (z.B durch Differenzieren ), dass p 7−→
ν
ν=k+1
monoton wachsend ist ( in p , bei festem k ), so dass gilt :
n
X
!
n
p0ν (1 − p0 )n−ν ≤ α .
(11.1”)
⇐⇒
ν
ν=k+1
P10
Numerisches Beispiel (vgl. Beispiel 8.1) : n = 10,
i=1 xi = 8, p0 = 0.65, α = 0.10 .
Da die Verteilungsfunktion der B(n, p)-Verteilung i.A. nur für Werte p ≤ 0.5 tabelliert
ist, muss man folgende Symmetriebeziehung benutzen :
n
n
X
X
(1 − Xi ) ≥ n − ℓ
Xi ≤ ℓ = Pp
F (ℓ; n, p) := Pp
i=1
= P1−p
n
X
i=1
i=1
Xi > n − ℓ − 1 = 1 − F (n − ℓ − 1; n, 1 − p) .
Zur Bestimmung des Tests ist also k möglichst klein zu wählen derart , dass
10
X
!
Xi > k
≤ 0.10
P0.65
i=1
⇐⇒
P0.35
10
X
i=1
Xi < 10 − k
!
≤ 0.10 .
Aus der Tabelle erhält man :
10
X
Xi ≤ 1 = 0.0860 ≤ 0.10 ,
P0.35
i=1
P0.35
10
X
i=1
Xi ≤ 2 = 0.2616 > 0.10 ,
d.h. 10 − k = 2 bzw. k = 8 . Folglich lautet der Test :

10
X



xi > 8 ;

 1 , falls
i=1
ϕ(x) =
10
X



xi ≤ 8 .

 0 , falls
i=1
Da
10
X
i=1
”
xi = 8
”
Erfolge“ beobachtet wurden, lautet die Entscheidung :
K ist nicht signifikant zum Niveau α = 0.10 .“
89
Beispiel 11.3. (Gauß-Test ) X1 , . . . , Xn seien i.i.d. N (a, σ02 )-verteilte ZV., a ∈ R
( σ02 bekannt ). Man bestimme einen Test zum Niveau α für die Hypothesen
H : a = a0 , K : a 6= a0
( a0 bekannt ).
Ansatz : T (x) = T (x1 , . . . , xn ) = | x − a0 | ist eine gute Schätzung“ für | a − a0 | ,
”
daher
(
1 , falls | x − a0 | > c ;
ϕ(x) = ϕ(x1 , . . . , xn ) =
0 , falls | x − a0 | ≤ c .
Dabei ist die Konstante c (∈ R+ ) möglichst klein zu wählen (großer Signifikanzbereich)
mit
!
Pa | X − a0 | > c ≤ α für a = a0 ( d.h. unter H ) .
Es gilt : Pa0 | X − a0 | > c
=: P ( | Z | > z0 )
wobei
PZ = N (0, 1) ,
z0
√ | X − a | √ c 0
> n
= Pa0
n
σ0
σ0
!
= 2 P (Z > z0 ) ≤ α ,
√ c
n .
=
σ0
Definition 11.2. Sei Y eine reelle ZV. mit stetiger VF. FY = F . Für
α ∈ (0, 1) heißt y1−α ein (1 − α)-Quantil von Y (bzw. von PY oder von FY ) ,
wenn gilt :
P (Y ≤ y1−α ) = F (y1−α ) = 1 − α .
Beispiel 11.3 (Fortsetzung) Wählt man z0 = z1− α2 , also c = z1− α2
kleinstmöglich und es ergibt sich der folgende (Gauß- ) Test :
ϕ(x) =

1,






0,
σ0
√
n
, so ist c
>
√ | x − a0 |
n
falls
σ0
z1− α2 ,
≤
wobei z1− α2 das (1 − α2 )-Quantil der N (0, 1)-Verteilung bezeichnet.
Bei der Suche nach möglichst guten“ Tests (im Sinne kleiner Fehlerwahrscheinlich”
keiten) reicht es i.A. nicht aus, nur nicht-randomisierte Tests zuzulassen. Daher erweitert
man wie folgt :
90
Definition 11.3. Eine
(randomisierter ) Test .
(messbare )
ϕ : X → [0, 1]
Abbildung
heißt ein
Interpretation : Bei beobachtetem Wert x ist ϕ(x) die (bedingte ) Wahrscheinlichkeit , die Entscheidung für K “ zu treffen.
”
Bezeichnungen : a) ϑ 7−→ β(ϑ) := Eϑ ϕ(X) , ϑ ∈ Θ , heißt die Gütefunktion des
Tests ϕ ;
b) Für ϑ ∈ H heißt β(ϑ) (mittlere ) Fehlerwahrscheinlichkeit 1. Art (an der
Stelle ϑ );
c) Für ϑ ∈ K heißt 1−β(ϑ) = Eϑ 1−ϕ(X) (mittlere ) Fehlerwahrscheinlichkeit
2. Art bzw. β(ϑ) Güte (Schärfe, Trennschärfe ) von ϕ (an der Stelle ϑ ) .
Speziell ergibt sich beim nicht-randomisierten Test ϕ = IS :
a) Gütefunktion
: Pϑ (X
b) Fehlerwahrscheinlichkeit 1. Art : Pϑ (X
c) Fehlerwahrscheinlichkeit 2. Art : Pϑ (X
Güte (Trennschärfe )
: Pϑ (X
∈ S) ,
∈ S) ,
∈ A) ,
∈ S) ,
ϑ ∈ Θ;
ϑ∈H;
ϑ∈K,
ϑ∈K.
Das allgemeine Testproblem ( zu einem Niveau α ) für Hypothesen
H : ϑ ∈ Θ0 , K : ϑ ∈ Θ \ Θ 0 ,
unter Verteilungen Pϑ,X , ϑ ∈ Θ , lässt sich wie folgt formulieren :
Gesucht ist ein Test ϕ∗ : X → [0, 1] mit
!
(11.1∗ ) Eϑ ϕ∗ (X) ≤ α
(11.2∗ ) Eϑ ϕ∗ (X)
∀ ϑ∈H;
= sup {Eϑ ϕ(X) : ϕ ∈ Φα }
∀ ϑ∈K,
wobei Φα = {ϕ | ϕ Test mit Eϑ ϕ(X) ≤ α ∀ ϑ ∈ H} .
Definition 11.4. Ein Test ϕ∗ (für die Hypothesen H, K ) mit (11.1∗ ) und
(11.2∗ ) heißt gleichmäßig bester Test zum Niveau α (im Englischen : Uniformly
”
Most Powerful Test“ , kurz : UMP-Test ).
Wir lösen das obige Testproblem zunächst für den Fall zweier einfacher Hypothesen
H : ϑ = ϑ0 ,
K : ϑ = ϑ1
(ϑ 6= ϑ1 , bekannt ).
91
Dabei seien Pϑ0 ,X bzw. Pϑ1 ,X beide diskret oder beide absolut-stetig mit Dichten f0
bzw. f1 .
Satz 11.1. (Neyman-Pearson-Lemma ) Unter den obigen Voraussetzungen gilt :
a) (Hinreichende Bedingung ) Jeder Test ϕ∗ : X → [0, 1] der Form


 1,
∗
(11.3) ϕ (x) =
γ ∗ , falls


0,
>
f1 (x) = k ∗ f0 (x) ,
<
mit Konstanten 0 ≤ γ ∗ ≤ 1 , 0 ≤ k ∗ ≤ ∞ , ist bester Test zum Niveau
α = Eϑ0 ϕ∗ (X) für H : ϑ = ϑ0 , K : ϑ = ϑ1 .
(Hierbei wird ∞ · 0 := 0 gesetzt, d.h. für k ∗ = ∞ ist
(11.3’) ϕ∗ (x) =
(
1,
0,
falls
falls
f0 (x) = 0 ,
f0 (x) > 0 ,
bester Test zum Niveau α = 0 für H : ϑ = ϑ0 , K : ϑ = ϑ1 .)
b) (Existenz ) Für jedes α ∈ [0, 1] gibt es einen Test ϕ∗ der Form (11.3) bzw.
(11.3’) mit Eϑ0 ϕ∗ (X) = α . Hierbei sind die Konstanten 0 ≤ γ ∗ ≤ 1 und
0 ≤ k ∗ ≤ ∞ zu bestimmen aus
!
(11.4) Eϑ0 ϕ∗ (X) = Pϑ0 (f1 (X) > k ∗ f0 (X)) + γ ∗ Pϑ0 (f1 (X) = k ∗ f0 (X)) = α .
Interpretation des Neyman-Pearson-Ansatzes : Bei beobachtetem x treffe man eine Entscheidung für
K , falls
H , falls
f1 (x)/f0 (x)
groß“ ist ;
”
f1 (x)/f0 (x)
klein“ ist .
”
Falls f1 (x)/f0 (x) = k ∗ , so entscheide man mit Wahrscheinlichkeit γ ∗ für K
(Randomisation ). Um in der Praxis zu randomisieren, wähle man ein Zufallsexperiment
mit möglichen Ereignissen A und Ac , wobei P (A) = γ ∗ . Tritt A ein , so entscheide
man für K “, andernfalls für H “ (z.B. Erzeugen einer R[0, 1]-verteilten ZV. U :
”
”
Falls U ≤ γ ∗ , so treffe man die Entscheidung für K “; andernfalls für H “) .
”
”
92
Beispiel 11.4. X1 , . . . , Xn seien i.i.d. B(1, p)-verteilt, p ∈ {p0 , p1 } . Man bestimme
einen besten Test ϕ∗ zum Niveau α ∈ (0, 1) für die Hypothesen H : p = p0 , K : p = p1 .
Nach Neyman-Pearson betrachten wir den Dichtequotienten
n
t f1 (x1 , . . . , xn )
p1 (1 − p0 )
p1Σxi (1 − p1 )n−Σxi
1 − p1
= Σxi
=
,
f0 (x1 , . . . , xn )
p0 (1 − p1 )
1 − p0
p0 (1 − p0 )n−Σxi
wobei t = T (x) = T (x1 , . . . , xn ) =
n
X
xi . Es gilt :
i=1
p1 (1 − p0 ) >
1
p0 (1 − p1 ) <
⇐⇒
>
p0 .
<
p1
Wir behandeln den Fall p0 < p1 : Wegen
>
= k∗
<
f1 (x)
f0 (x)
⇐⇒
T (x)
>
= c∗ ,
<
ist der Neyman-Pearson-Test von der Form


1,
>

n

X
xi = c ∗ ,
γ ∗ , falls
ϕ∗ (x) =


i=1
 0,
<
∗
wobei Ep0 ϕ (X) = Pp0
n
X
i=1
Xi > c
∗
∗
+ γ Pp0
n
X
i=1
!
Xi = c∗ = α .
Praktische Bestimmung der Konstanten c∗ , γ ∗ :
n
X
n
∗
1.) Wähle c derart, dass
p0k (1 − p0 )n−k
k
k=c∗ +1
n X
n
p0k (1 − p0 )n−k
aber
k
k=c∗
2.)
Wähle γ
∗
>
α;
n
. n ∗
X
n
∗
n−k
k
p0 (1 − p0 )
= α−
p0c (1 − p0 )n−c .
∗
c
k
k=c∗ +1
Vgl. Beispiel 8.1 / 11.1 b) : n = 10, p0 = 0.65, α = 0.10
=⇒
≤ α,
c∗ = 8 , γ ∗ =
0.10 − 0.0860
≈ 0.080 .
0.2616 − 0.0860
Beim Neyman-Test aus Beispiel 11.4 stellt man fest :
93
1.) Die Konstanten c∗ , γ ∗ ( und somit auch ϕ∗ ) hängen nur von p0 ab
ϕ∗ ist gleichmäßig bester Test zum Niveau α für
H : p = p0 ,
=⇒
K : p > p0 ,
denn Ep1 ϕ∗ (X) ≥ Ep1 ϕ(X)
∀ p 1 > p0
und ϕ : Ep0 ϕ(X) ≤ α ;
2.) Die Gütefunktion p 7−→ β ∗ (p) = Ep ϕ(X) ist monoton wachsend (s.u.), d.h., es
gilt noch
Ep ϕ∗ (X) ≤ Ep0 ϕ∗ (X) = α
Mit Φα
Φα,0
∀ p ≤ p0 .
= {ϕ : Ep ϕ(X) ≤ α ∀ p ≤ p0 } ,
= {ϕ : Ep0 ϕ(X) ≤ α}
(⊃ Φα ) ,
bedeutet dies :
(1∗ ) ϕ∗ ∈ Φα ,
(2∗ ) Für p > p0 : Ep ϕ∗ (X)
=
(>)
=
sup {Ep ϕ(X) : ϕ ∈ Φα,0 }
sup {Ep ϕ(X) : ϕ ∈ Φα } .
Ergebnis : ϕ∗ ist gleichmäßig bester Test zum Niveau α für
H : p ≤ p0 ,
K : p > p0 .
Dass es im Beispiel 11.4 möglich ist, aus dem Neyman-Pearson-Test zum Niveau α für
H : p = p0 , K : p = p1 , einen UMP-Test herzuleiten, beruht auf der Tatsache, dass
der Dichtequotient f1 (x)/f0 (x) für beliebige p0 < p1 streng monoton wachsend ist in
P
t = T (x) = ni=1 xi .
Definition 11.5. Sei X : Ω → X Zufallsvariable mit möglicher Verteilung
Pϑ,X , ϑ ∈ Θ ⊂ R1 , also ϑ reell, und (diskreter bzw. absolut-stetiger ) Dichte
fϑ = fϑ (x) . Man sagt :
{Pϑ,X }ϑ∈Θ besitzt monotonen Dichtequotienten in T = T (x)
: ⇐⇒
∃ Statistik T : X → R1 derart , dass für beliebige ϑ0 < ϑ1 der Quotient
fϑ1 (x)/fϑ0 (x) streng monoton wachsend ist in t = T (x) , d.h., aus t = T (x) <
T (x̃) = t̃ folgt fϑ1 (x)/fϑ0 (x) < fϑ1 (x̃)/fϑ0 (x̃) (ϑ0 , ϑ1 ∈ Θ) .
94
Beispiel 11.5. X1 , . . . , Xn seien i.i.d. N (a, σ02 )-verteilt , σ02 bekannt , also ϑ := a ∈ R
=: Θ , X := (X1 , . . . , Xn ) . Die Familie {Pϑ,X }ϑ∈Θ = {N (a, σ02 ) ⊗ · · · ⊗ N (a, σ02 )}a∈R1
P
besitzt monotonen Dichtequotienten in T = T (x) = ni=1 xi , denn
n
1 X
2
p
(xi − a)
fa,σ02 (x) =
exp − 2
2σ0 i=1
2πσ02
n
n
1 n
1 X 2
a X
na2 p
=
exp
−
+
x
x
−
i
2σ02 i=1 i σ02 i=1
2σ02
2πσ02
=⇒
1
n
n
a − a X
fa1 ,σ02 (x)
n(a21 − a20 ) 1
0
x
−
= exp
i
fa0 ,σ02 (x)
σ02 i=1
2σ02
ist streng monoton wachsend in t = T (x) =
Pn
i=1
xi für beliebige a0 < a1 .
Satz 11.2. (UMP-Test bei monotonen Dichtequotienten ) Die Verteilungsklasse
{Pϑ,X }ϑ∈Θ , Θ ⊂ R1 , besitze monotonen Dichtequotienten in T = T (x) . Dann gilt :
a) Für beliebige ϑ0 ∈ Θ , α ∈ (0, 1) , existiert ein Test ϕ∗ der Form


 1,
∗
ϕ (x) =
γ∗ ,


0,
falls
>
T (x) = c∗ ,
<
mit Eϑ0 ϕ∗ (X) = Pϑ0 T (X) > c∗ + γ ∗ Pϑ0 T (X) = c∗ = α .
b) Die Gütefunktion ϑ 7−→ β ∗ (ϑ) = Eϑ ϕ∗ (X) ist monoton wachsend.
c) ϕ∗ ist UMP-Test zum Niveau α für
H : ϑ ≤ ϑ0 ,
K : ϑ > ϑ0 .
Beispiel 11.5 (Fortsetzung) Als UMP-Test zum Niveau α ∈ (0, 1) für
H : a ≤ a0 ,
K : a > a0
( a0 bekannt )
ergibt sich :

1,




γ∗ ,
ϕ∗ (x) =




0,
>
falls
n
X
xi = c ∗ .
i=1
<
95
Pn
∗
= 0 ist , kann γ ∗ ∈ [0, 1] beliebig gewählt werden , z.B. γ ∗ = 0 .
Da Pa0
i=1 Xi = c
Ferner erhält man :
∗
n
X
√ X − a
√ cn − a0 !
0
∗
∗
n
Ea0 ϕ (X) = Pa0
> n
= α,
Xi > c = Pa0
σ0
σ0
i=1
also
√
n
c∗
n
bezeichnet.
− a0 !
= z1−α , wobei z1−α das (1 − α)–Quantil der N (0, 1)-Verteilung
σ0
Ergebnis : Der (Gauß-) Test


 1, √ x − a >
0
∗
n
z1−α ,
ϕ (x) =

σ
0
 0,
≤
ist UMP-Test zum Niveau α für H : a ≤ a0 , K : a > a0 .
Bemerkung 11.1. {Pϑ,X }ϑ∈Θ , Θ ⊂ R1 , besitze monotonen Dichtequotienten in T =
T (x) . Dann ist der Test Ψ∗ der Form


<
 1,
∗
∗
Ψ (x) =
δ , falls T (x) = d∗ ,


0,
>
mit Eϑ0 Ψ∗ (X) = α , UMP-Test zum Niveau α für die Hypothesen
H : ϑ ≥ ϑ0 ,
K : ϑ < ϑ0 .
Bei Hypothesen H : ϑ ≤ ϑ0 , K : ϑ > ϑ0 bzw. H : ϑ ≥ ϑ0 , K : ϑ < ϑ0 (ϑ0 bekannt)
spricht man von einseitigen Testproblemen , für die unter bestimmten Voraussetzungen
( vgl. Satz 11.2 ) UMP-Tests existieren.
Bei zweiseitigen Testproblemen , d.h. Hypothesen der Form H : ϑ = ϑ0 , K : ϑ 6= ϑ0
( ϑ0 bekannt ) existieren i.A. keine UMP-Tests , da die Gütefunktion ϑ 7−→ β(ϑ) =
Eϑ ϕ(X) eines in Frage kommenden zweiseitigen Tests i.d.R. von den Gütefunktionen
der UMP-Tests für die einseitigen Hypothesen
a) H : ϑ ≤ ϑ0 , K : ϑ > ϑ0 ,
bzw.
b) H : ϑ ≥ ϑ0 , K : ϑ < ϑ0 ,
übertroffen wird. Letztere Tests sind jedoch im zweiseitigen Fall nicht sinnvoll, da z.B.
für den UMP-Test ϕ∗ im Fall a) zwar Eϑ0 ϕ∗ (X) = α gilt , also auch für die
(zweiseitige) Nullhypothese H : ϑ = ϑ0 das Niveau α eingehalten wird , aber z.B.
für ϑ < ϑ0 , also ϑ ∈ K , gilt :
Eϑ ϕ∗ (X) ≤ α ,
96
d.h. , die Wahrscheinlichkeit, sich für K : ϑ 6= ϑ0 zu entscheiden, ist viel zu klein,
obwohl K vorliegt.
Unter bestimmten Voraussetzungen existieren jedoch gleichmäßig beste, unverfälschte
Tests für Hypothesen H : ϑ = ϑ0 , K : ϑ 6= ϑ0 ( vgl. Mathematische Statistik ) .
Definition 11.6. Ein Test ϕ zum Niveau α für H : ϑ ∈ Θ0 , K : ϑ ∈
/ Θ0 ,
heißt unverfälscht“ (“ unbiased ”), wenn gilt :
”
Eϑ ϕ(X) ≥ α ∀ ϑ ∈ K .
Interpretation : Die (mittlere) Wahrscheinlichkeit, sich für K zu entscheiden, ist unter
ϑ ∈ K größer als unter ϑ ∈ H .
Ein praktisches Konstruktionsprinzip für zweiseitige Tests basiert auf der folgenden Idee :
Man benutze die Teststatistik T = T (x) , die optimale einseitige Tests liefert und konstruiere einen α2 − α2 -Test“ wie folgt : Setze
”

 1 , falls T (x) < c1 oder T (x) > c2 ,
ϕ(x) =
γi , falls T (x) = ci (i = 1, 2) ,


0 , falls c1 < T (x) < c2 ,
!
wobei
Pϑ0 T (X) < c1 + γ1 Pϑ0 T (X) = c1 = α2
!
und
Pϑ0 T (X) > c2 + γ2 Pϑ0 T (X) = c2 = α2 .
Damit gilt
α α
+ = α,
2
2
d.h. ϕ ist Test zum Niveau α für H : ϑ = ϑ0 , K : ϑ 6= ϑ0 , und
Eϑ0 ϕ(X) =
Eϑ ϕ(X)
groß“ ∀ ϑ 6= ϑ0 ,
”
wegen der Optimalität der einseitigen Tests, aber nicht notwendigerweise
Eϑ ϕ(X) = sup {Eϑ ϕ̃(X) : ϕ̃(X) Test z.N. α} (ϑ 6= ϑ0 ) .
Beispiel 11.5 (Fortsetzung ; zweiseitiger Gauß-Test) X1 , . . . , Xn seien i.i.d. N (a, σ02 )verteilt ( σ02 bekannt ). Man bestimme einen α2 − α2 -Test für die Hypothesen
H : a = a0 ,
K : a 6= a0 ( a0 bekannt ).
√ x − a0
Ansatz : Mit T (x) = n
wähle man
σ0

 1 , falls T (x) < z α oder T (x) > z1− α ,
2
2
ϕ∗ (x) =
 0 , falls z α ≤ T (x) ≤ z α ,
1− 2
2
97
wobei z α2 bzw. z1− α2 das α2 – bzw. (1 − α2 )–Quantil der N (0, 1)-Verteilung bezeichnet.
Wegen der Symmetrie der Verteilung (bzgl. 0) gilt noch z α2 = −z1− α2 , so dass ϕ∗ die
Form hat :


>
 1,
√ |x − a0 |
∗
ϕ (x) =
falls
z1− α2 .
n

σ0
 0,
≤
Man kann zeigen ( vgl. Mathematische Statistik ), dass der zweiseitige Gauß-Test ϕ∗
gleichmäßig bester unverfälschter Test zum Niveau α ist für H : a = a0 , K : a 6= a0
(im Englischen : UMPU-Test , d.h. Uniformly Most Powerful Unbiased Test“ ) .
”
Bisher wurden ausschließlich Testprobleme für reelle Parameter ϑ bzw. einfache Hypothesen H : ϑ = ϑ0 , K : ϑ = ϑ1 , untersucht. Ein allgemeineres Konstruktionsprinzip
für Tests von zusammengesetzten Hypothesen H : ϑ ∈ Θ0 , K : ϑ ∈
/ Θ0 , Θ0 ⊂ Θ (auch
6=
für mehrdimensionale Parameter ϑ ) liefern die (so genannten) Likelihoodquotiententests :
Die möglichen Verteilungen Pϑ,X mögen (diskrete bzw. absolut-stetige) Dichten fϑ
besitzen , ϑ ∈ Θ , und Θ0 ⊂ Θ sei eine bekannte (nicht-triviale) Teilmenge . Der
6=
folgende Ansatz eines Tests zum Niveau α für
H : ϑ ∈ Θ0 ,
K: ϑ∈
/ Θ0 ,
basiert auf der Maximum-Likelihood-Idee und verallgemeinert den Ansatz von Neyman
und Pearson :

1,
>



sup fϑ (x)

ϑ∈Θ
k,
falls q(x) =
ϕ(x) =
sup fϑ (x)



ϑ∈Θ0

0,
≤
!
wobei Eϑ ϕ(X) = Pϑ q(X) > k ≤ α ∀ ϑ ∈ H .
Bemerkung 11.2. Existieren Maximum-Likelihood-Schätzer ϑ̂ bzw. ϑ̂0 für ϑ unter
Θ bzw. Θ0 , so ist der Likelihoodquotient“ q(x) von der Form
”
fϑ̂ (x)
q(x) =
.
fϑ̂0 (x)
Beispiel 11.6. ( Zweiseitiger Student-t-Test ) X1 , . . . , Xn seien i.i.d. N (a, σ 2 )-verteilt,
ϑ := (a, σ 2 ) ∈ R × R+ =: Θ . Man bestimme einen Test zum Niveau α ∈ (0, 1) für die
Hypothesen
H : a = a0 ,
K : a 6= a0
( a0 bekannt ).
98
Nach Beispiel 10.3 erhält man für ϑ die Maximum-Likelihood-Schätzer ( unter Θ ) :
n
1X
b
a = x , σb2 =
(xi − x)2 .
n i=1
Entsprechend , unter ϑ ∈ Θ0 , also a = a0 :
n
1X
σb02 =
(xi − a0 )2 .
n i=1
n
P
1
Mit der Dichte fa,σ2 (x) = √2πσ
exp − 2σ1 2 ni=1 (xi − a)2 ergibt sich :
2
sup fa,σ2 (x)
a,σ 2
= fba,σ2 (x)
sup fa0 ,σ2 (x) = fa
a0 ,σ 2
2 (x)
0 ,σ
0
also
=
=
√1
2π
√1
2π
n P
n
1
(xi − x)2
− n2
n
i=1
n
2
i=1 (xi − a0 )
n P
n
1
n
e− 2 ,
− n2
n
e− 2 ,
Pn
n
(xi − a0 )2 2
i=1
.
q(x) = Pn
2
i=1 (xi − x)
Pn
Pn
2
2
2
Beachtet man, dass
i=1 (xi − a0 ) =
i=1 (xi − x) + n (x − a0 ) , so erhält man :
! n2
1
n (x − a0 )2
Pn
,
q(x) = 1 +
1
2
n − 1 n−1
i=1 (xi − x)
d.h. , q(x) ist streng monoton wachsend in der Statistik
T 2 (x) =
n (x − a0 )2
Pn
.
1
2
i=1 (xi − x)
n−1
Damit ist der Likelihoodquotiententest von der äquivalenten Form


>
 1,
ϕ(x) =
| T (x) |
c.


0,
≤
Nach Satz 9.5 besitzt T = T (X) unter ϑ ∈ Θ0 , d.h. unter Pa0 ,σ2 , eine
tn−1 -Verteilung , so dass c = tn−1,1− α2 zu wählen ist . Man kann zeigen, dass der
zweiseitige Student-t-Test zum Niveau α für H : a = a0 , K : a 6= a0 , also


>
 1,
√ | x − a0 |
ϕ(x) =
n
falls
tn−1,1− α2 ,

s
 0,
≤
Pn
1
2
wobei s2 = n−1
i=1 (xi − x) , ein UMPU-Test ist (unter den obigen Verteilungsannahmen).
99
Für das einseitige Testproblem H : a ≤ a0 , K : a > a0 , erhält man entsprechend als
UMPU-Test zum Niveau α den einseitigen Student-t-Test

 1,
√ x − a0 >
ϕ(x) =
falls
n
tn−1,1−α .

s
0,
≤
In ähnlicher Weise erhält man aufgrund des Likelihoodquotientenprinzips auch Tests für
die Varianz von Normalverteilungen.
Die folgenden Tabellen enthalten einige wichtige Tests für normalverteilte Stichproben :
1. Einstichprobenproblem : X1 , . . . , Xn seien i.i.d. N (a, σ 2 )-verteilt.
H wird zum Niveau α ∈ (0, 1) verworfen , falls
1a)
1b)
1c)
K
a ≤ a0
a > a0
a ≥ a0
a < a0
a = a0
a 6= a0
H
K
2
σ ≤
σ02
σ 2 ≥ σ02
1d)
σ 2 = σ02
H
σ 2 = σ02
2
σ >
√
√
√
n (x − a0 )/σ0 > z1−α
√
n (x − a0 )/σ0 < −z1−α
√
n |x − a0 |/σ0 > z1− α2
a = a0
n
X
σ02
σ 2 < σ02
n
X
i=1
n
X
i=1
2
i=1
n
X
/σ02
>
n (x − a0 )/s < −tn−1,1−α
√
n |x − a0 |/s > tn−1,1− α2
a unbekannt
n
X
χ2n,1−α
(xi − a0 )2 /σ02 < χ2n,α
(xi − a0 )2 /σ02 > χ2n,1− α
2
(xi − a0 )2 /σ02 < χ2n, α
2
100
unbekannt
n (x − a0 )/s > tn−1,1−α
bekannt
(xi − a0 )
i=1
σ 2 6= σ02
σ2
bekannt
oder
(xi − x)2 /σ02 > χ2n−1,1−α
i=1
n
X
i=1
n
X
i=1
n
X
i=1
(xi − x)2 /σ02 < χ2n−1,α
(xi − x)2 /σ02 > χ2n−1,1− α
2
(xi − x)2 /σ02 < χ2n−1, α
2
oder
2. Zweistichprobenproblem : X1 , . . . , Xm ; Y1 , . . . , Yn seien unabhängige ZV. mit
PXi = N (a, σ 2 ) (i = 1, . . . , m) , PYi = N (b, τ 2 ) (j = 1, . . . , n) .
H wird zum Niveau α ∈ (0, 1) verworfen , falls
H
2a)
a≤b
2d)
σ ≤τ
K
2
2
σ >τ
mn
m+n
mn
m+n
p
a 6= b
H
2c)
p
a<b
a=b
2
p
a>b
a≥b
2b)
σ 2 = τ 2 , aber unbekannt
K
v
u
u
(x − y) t
v
u
u
(x − y) t
mn
m+n
σ2 < τ 2
σ2 = τ 2
σ 2 6= τ 2
m
nX
i=1
1
m+n−2
v
u
u
|x − y| t
m
nX
i=1
1
m+n−2
(xi − x) +
(xi − x)2 +
m
nX
i=1
2
2
(xi − x) +
n
X
j=1
n
X
j=1
o
> tm+n−2,1−α
o
(yj − y)2 < −tm+n−2,1−α
n
X
j=1
(yj − y)
2
(yj − y)
2
o
> tm+n−2,1− α2
a , b unbekannt
m
X
.
n
1 X
(yj − y)2 > Fm−1,n−1;1−α
(xi − x)
n
−
1
j=1
i=1
m
n
. 1 X
X
2
1
(xi − x)
(yj − y)2 < Fm−1,n−1;α
m−1
n
−
1
i=1
j=1
1
m−1
2
σ2 ≥ τ 2
1
m+n−2
m
X
2
.
n
1 X
(yj − y)2 > Fm−1,n−1;1− α2
n
−
1
j=1
i=1
m
n
. 1 X
X
2
1
(x
−
x)
(yj − y)2 < Fm−1,n−1; α2
i
m−1
n
−
1
i=1
j=1
1
m−1
(xi − x)2
oder
Bei der Festlegung eines Tests ϕ für Hypothesen H : ϑ ∈ Θ0 , K : ϑ ∈
/ Θ0 , ist jeweils
zu prüfen, ob das Niveau α eingehalten wird , d.h., ob gilt
Eϑ ϕ(X) ≤ α
∀ ϑ∈H.
Hierbei kann für große Stichprobenumfänge n die exakte Bestimmung von Eϑ ϕ(X) =
Eϑ ϕ(X1 , . . . , Xn ) sehr aufwendig sein, so dass gelegentlich dazu übergegangen wird, das
Niveau nur asymptotisch“ einzuhalten.
”
Definition 11.7. Ein Test ϕ = ϕ(X1 , . . . , Xn ) , basierend auf einer Stichprobe
X = (X1 , . . . , Xn ) vom Umfang n , heißt ein asymptotischer Test zum Niveau α
für H : ϑ ∈ Θ0 , K : ϑ ∈
/ Θ0 , wenn gilt :
lim Eϑ ϕ(X1 , . . . , Xn ) ≤ α
n→∞
∀ ϑ∈H.
101
Beispiel 11.7. ( χ2 -Anpassungstest ) X1 , . . . , Xn seien i.i.d. ZV. mit Werten in X .
Ferner seien B1 , . . . , Bk eine Zerlegung von X und pi = P (X1 ∈ Bi ) > 0 , i = 1, . . . , k .
Setzt man
Ni := | {ν ∈ {1, . . . , n} : Xν ∈ Bi } | ,
so besitzt N = (N1 , . . . , Nk ) eine M (n; p1 , . . . , pk )-Verteilung.
Man bestimme einen Test zum Niveau α für
(0)
H : pi = pi
(0)
wobei die pi
∀ i = 1, . . . , k ,
(0)
K : pi 6= pi
∃ i = 1, . . . , k ,
bekannt sind.
Z.B. könnte beim n-fachen Werfen eines Würfels die ZV. Xν die Augenzahl im ν-ten
Wurf sein (ν = 1, . . . , n) und Bi = {i} (i = 1, . . . , 6) , also pi = P (X1 = i) . Hier
interessiert etwa, ob der Würfel fair“ ist , d.h., ob gilt :
”
1
H : pi =
∀ i = 1, . . . , 6 .
6
Da die Verteilung von N = (N1 , . . . , Nk ) unter H vollständig bekannt ist, nämlich
(0)
(0)
eine M (n; p1 , . . . , pk )-Verteilung, kann exakt ein Test ϕ = ϕ(n1 , . . . , nk ) bestimmt
werden, basierend auf einer Realisation (n1 , . . . , nk ) des Häufigkeitsvektors (N1 , . . . , Nk ) .
(0) 2
ist eine gute“ Schätzung für den unbekannten quadratischen
Ansatz : nni − pi
”
(0) 2
. Setze daher
Abstand pi − pi


1,
>

k

X
n
2
i
(0)
ϕ(n1 , . . . , nk ) =
wi
falls X 2 =
c,
− pi

n

i=1

0,
≤
wobei wi > 0 (i = 1, . . . , k)
geeignete“ Gewichte sind.
”
Für große“ Stichprobenumfänge n ist eine exakte Bestimmung des Tests , d.h.
”
des kritischen Wertes c über eine exakte Auswertung der Verteilung von X 2 selbst
bei einfachen Gewichten wi sehr aufwendig. Es besteht allerdings die Möglichkeit eines
asymptotischen Tests , falls
2
X =
k
X
i=1
wi
ni
(0) 2
− pi
n
geeigneten“ wi eine Grenzverteilung ( für n → ∞ ) besitzt.
”
(0)
Es lässt sich zeigen ( z.B. mit Hilfe momenterzeugender Funktionen ), dass für wi = n/pi
(0)
unter H , d.h. für pi = pi ∀ i = 1, . . . , k , gilt :
(0) 2
k
X
Ni − n p i
D
2
X =
−→ χ2k−1 .
(0)
(n→∞)
n pi
i=1
mit
102
Faustregel : Der asymptotische Test ist anwendbar bei Stichprobenumfängen n mit
(0)
n pi
≥ 5
∀ i = 1, . . . , k .
Numerisches Beispiel : Bei 60-maligem Würfeln seien die Augenzahlen i mit folgenden
Häufigkeiten ni aufgetreten :
i
1 2 3 4 5 6 Σ
ni
5 12 6 14 10 13 60
(0)
npi
10 10 10 10 10 10 60
Man teste zum Niveau α = 0.05 , ob der Würfel
X2 =
”
fair“ ist. Es ergibt sich
1
(52 + 22 + 42 + 42 + 02 + 32 ) = 7.0 < 11.07 = χ25;0.95 ,
10
d.h., die Alternative K :
”
∃ i = 1, . . . , 6 mit pi 6= 16 “ ist nicht signifikant .
Der χ2 -Anpassungstest kann z.B. benutzt werden, um Zufallszahlen auf Unabhängigkeit
und identische R[0, 1]-Verteilung zu testen.
1. Test auf R[0, 1]-Verteilung :
Es soll untersucht werden , ob n unabhängige Realisationen von ZV. U1 , . . . , Un
identisch R[0, 1]-verteilt sind.
Wir betrachten die Häufigkeiten
Ni = Anzahl der U1 , . . . , Un
Unter H :
”
hi − 1 i in
, i = 1, . . . , k
,
k k
(k fest) .
U1 , . . . , Un i.i.d. R[0, 1]-verteilt“ gilt :
N = (N1 , . . . , Nk ) ist M (n; k1 , . . . , k1 )-verteilt ,
n
ENi =
(i = 1, . . . , k) .
k
Mit Hilfe der χ2 -Teststatistik
k
n 2
k X
Ni −
X =
n i=1
k
2
kann also überprüft werden , ob die Nullhypothese H
103
”
zu verwerfen ist“.
2. Test auf Unabhängigkeit (Run-Test) :
In einer Folge U1 , U2 , . . . von i.i.d. R[0, 1]-ZV. betrachtet man das Auftreten von
Sequenzen aufsteigender Zahlen“, so genannten Runs“. Für eine Folge
”
”
0.2 | 0.1 0.7 0.9 | 0.4 0.5 0.7 | 0.2 0.8 | 0.1 0.8
findet man z.B.
1
2
2
”
”
”
Run“
der Länge 1 ,
Runs“ der Länge 2 ,
Runs“ der Länge 3 .
Die Wahrscheinlichkeit für einen
”
Run der Länge r “ ergibt sich aus
Lemma 11.1. U1 , U2 , . . . seien i.i.d. R[0, 1]-verteilt
P (R = r) = P (U1 ≤ U2 ≤ . . . ≤ Ur > Ur+1 ) =
Man beachte :
∞
X
P (R = r) =
r=1
∞ X
1
r=1
r!
−
=⇒
r
,
(r + 1)!
r ∈ N.
1 = 1.
(r + 1)!
Run-Test“ : Hat man n unabhängige Run-Längen R1 , . . . , Rn beobachtet, so kann
”
man deren identische Verteilung (gemäß Lemma 11.1) mit Hilfe des χ2 -Anpassungstests
überprüfen. Der Test reagiert empfindlich auf Abweichungen von der Unabhängigkeit der
U1 , U2 , . . . .
Runs“ in der Folge U1 , U2 , . . . sind
Praktische Probleme : Aufeinander folgende
”
abhängig ! Daher streicht man die erste Zahl nach jedem Run . Die verbleibenden Runs
sind unabhängig.
Z.B. liefert die Folge U1 , U2 , . . . ( ohne 0. )
2|1 7 9|4 5 7|2 8|1 8|1 6|2|1 4 5 6 9|3|1 5 6 9|8 2 3
nach Streichung die neue Folge
2| 7 9| 5 7| 8| 8| 6|
1 4 5 6 9|
1 5 6 9| 2 3
und damit die Run-Längen
R1 = 1, R2 = 2, R3 = 2, R4 = 1, R5 = 1, R6 = 1, R7 = 5, R8 = 4, R9 = 2 .
104
Es wäre zu überprüfen , ob die beobachteten Häufigkeiten der Run-Längen mit der theoretischen Verteilung ( gemäß Lemma 11.1 ) in Einklang zu bringen sind :
r
1
2
3
4
5
6
...
P (R = r)
1
2
1
3
1
8
1
30
1
144
1
840
...
Hn (r)
4
9
3
9
0
1
9
1
9
0
...
Man wählt eine endliche Zerlegung N =
pi = P (R ∈ Bi ) , und setzt
Pk
Ni = Anzahl der R1 , . . . , Rn in Bi
i=1
Bi mit npi ≥ 5 (∀ i = 1, . . . , k) , wobei
(i = 1, . . . , k) .
Mit diesen (N1 , . . . , Nk ) wendet man den χ2 -Anpassungstest an. Um eine ausreichende Aussagekraft des Run-Tests zu gewährleisten , benötigt man lange“ Serien von
”
Zufallszahlen ( mindestens 4 000 der Ui ) .
105
Herunterladen