11 Testen von Hypothesen Ausgehend von einem statistischen Modell (X , B, Pϑ,X ) , ϑ ∈ Θ , interessiert manchmal nicht der genaue Wert des unbekannten Parameters ϑ , sondern lediglich, ob ϑ in einer (echten) Teilmenge Θ0 von Θ liegt oder nicht. D.h., es ist eine Entscheidung zu treffen zwischen zwei Hypothesen H : ϑ ∈ Θ0 , K : ϑ ∈ / Θ0 . Beispiel 11.1. a) Beim n-fachen Münzwurf interessiert z.B., ob die Münze fair“ ist ” oder nicht, d.h., ob P ( Zahl“) = p = 21 , also ” 1 1 H : p = , K : p 6= . 2 2 Hier : Θ = (0, 1) , Θ0 = { 12 } . b) Beim Testen eines neuen Heilverfahrens (vgl. Beispiel 8.1) interessiert, ob die Wahrscheinlichkeit p = P ( Heilerfolg“) kleiner ist als bei einem Standardverfahren ” oder nicht, also z.B. H : p ≤ p0 (= 0.65) , K : p > p0 . Hier : Θ = (0, 1) , Θ0 = (0, p0 ] 0 < p0 < 1, bekannt . c) Bei einer Qualitätskontrolle (vgl. Beispiel 8.2 ) könnte man fragen, ob die WahrR scheinlichkeit p = N , einen fehlerhaften Artikel zu finden, eine vorgegebene Schranke übersteigt oder nicht, etwa H : R ≥ R0 , K : R < R0 . Hier : Θ = {0, 1, . . . , N } , Θ0 = {R0 , R0 + 1, . . . , N } N, R0 bekannt . Die Entscheidung ist zu treffen aufgrund einer Beobachtung x = (x1 , . . . , xn ) der ZV. X = (X1 , . . . , Xn ) , d.h., gesucht ist (formal) eine Abbildung d : X → {dH , dK } , wobei ( dK bedeutet : Entscheidung für K “ ; ” d(x) = dH bedeutet : Entscheidung für H “ . ” Oder anders ausgedrückt : Gesucht ist eine Zerlegung X = S + A , wobei ( dK , falls x ∈ S ; d(x) = dH , falls x ∈ A . 86 Man setzt dK = 1 , dH = 0 , und bezeichnet derartige Zweientscheidungsfunktionen“ ” oft mit ϕ , also ( 1 , falls x ∈ S ; ϕ(x) = 0 , falls x ∈ A . Interpretation : ϕ(x) ist die Wahrscheinlichkeit, mit der bei Vorliegen der Beobachtung x die Entscheidung für K getroffen wird. Definition 11.1. Eine (messbare ) Abbildung ϕ : X → {0, 1} , d.h. ϕ = IS mit S ∈ B , heißt nicht-randomisierter Test . S heißt Signifikanzbereich , A heißt Annahmebereich des Tests ϕ . Beim Testen von Hypothesen sind Fehlentscheidungen möglich. Man identifiziert üblicherweise H ←→ Θ0 , K ←→ Θ \ Θ0 und unterscheidet folgende Fehlerarten : Fehler 1. Art : ϑ ∈ H , aber x ∈ S . D.h., der unbekannte Parameter liegt in H , aber die Beobachtung x fällt nach S . Letzteres bedeutet ϕ(x) = 1 , also die falsche Entscheidung für K . Fehler 2. Art : ϑ ∈ K , aber x ∈ A . Der Test sollte so konstruiert werden , d.h. S sollte so gewählt werden, dass die Fehlerwahrscheinlichkeiten möglichst klein sind. Folgende (unsymmetrische) Vorgehensweise ist hierbei üblich und geht zurück auf die Statistiker Neyman und Pearson : Man kontrolliert den Fehler 1. Art , d.h., man fordert ! (11.1) Pϑ ϕ(X) = 1 = Pϑ (X ∈ S) ≤ α ∀ ϑ∈H, wobei α klein“ ist (z.B. α = 0.10, 0.05, 0.01), und wählt unter dieser Nebenbedingung ” den Test, der die Fehlerwahrscheinlichkeit 2. Art minimiert , d.h. ! (11.2) Pϑ ϕ(X) = 0 = Pϑ (X ∈ A) = inf ∀ ϑ∈K. ϕ Beim nicht-randomisierten Test ϕ = IS ist also wegen Pϑ ϕ(X) = 0 = Pϑ (X ∈ A) = 1 − Pϑ (X ∈ S) der Signifikanzbereich S möglichst groß zu wählen um (11.2) zu erfüllen , aber so, dass gerade noch die Nebenbedingung (11.1) erfüllt ist. Folgende Sprechweisen sind üblich : α heißt das Niveau des Tests . 87 Bei beobachtetem Wert x und ϕ(x) = 1 : K ist signifikant zum Niveau α “ oder ” H wird verworfen zum Niveau α “ ; ” ϕ(x) = 0 : K ist nicht signifikant zum Niveau α “ oder ” H kann nicht verworfen werden zum Niveau α “ . ” ( Im letzteren Fall sagt man nicht , dass H signifikant“ ist oder dass K verworfen“ ” ” wird, weil man keine Kontrolle der Fehlerwahrscheinlichkeit 2. Art hat. ) Wir demonstrieren die Konstruktion eines Tests an folgendem Beispiel 11.2. X1 , . . . , Xn seien i.i.d. B(1, p)-verteilte ZV., p ∈ (0, 1) . Man bestimme einen Test zum Niveau α (fest, klein ) für die Hypothesen H : p ≤ p0 , K : p > p0 ( 0 < p0 < 1 , bekannt ) . Ansatz : T (x) = T (x1 , . . . , xn ) = x ist eine gute Schätzung“ ” Parameter p , daher ( 1 , falls x > c ; ϕ(x) = ϕ(x1 , . . . , xn ) = 0 , falls x ≤ c . für den unbekannten Die Beobachtung x = (x1 , . . . , xn ) spricht für K , falls x groß“ ist, andernfalls ” spricht sie für H . Wegen nx = n X xi ist die Form des Tests äquivalent zu i=1 ϕ(x) = 1, 0, falls falls n X i=1 n X i=1 xi > k ; xi ≤ k . Um das Niveau α des Tests einzuhalten so zu wählen, dass gilt : (11.1’) Forderung (11.1) n X ! Pp ϕ(X) = 1 = Pp Xi > k ≤ α i=1 ist k ∈ {0, 1, . . . , n} ∀ p ≤ p0 . Um gleichzeitig den Signifikanzbereich S möglichst groß zu machen Forderung (11.2) muss gelten : (11.2’) k möglichst klein unter der Nebenbedingung (11.1’) ! 88 Die Forderung (11.1’) ist gleichbedeutend mit n X ! n p ν (1 − p)n−ν ≤ α ∀ p ≤ p0 . (11.1”) ν ν=k+1 n X n p ν (1 − p)n−ν Es lässt sich zeigen (z.B durch Differenzieren ), dass p 7−→ ν ν=k+1 monoton wachsend ist ( in p , bei festem k ), so dass gilt : n X ! n p0ν (1 − p0 )n−ν ≤ α . (11.1”) ⇐⇒ ν ν=k+1 P10 Numerisches Beispiel (vgl. Beispiel 8.1) : n = 10, i=1 xi = 8, p0 = 0.65, α = 0.10 . Da die Verteilungsfunktion der B(n, p)-Verteilung i.A. nur für Werte p ≤ 0.5 tabelliert ist, muss man folgende Symmetriebeziehung benutzen : n n X X (1 − Xi ) ≥ n − ℓ Xi ≤ ℓ = Pp F (ℓ; n, p) := Pp i=1 = P1−p n X i=1 i=1 Xi > n − ℓ − 1 = 1 − F (n − ℓ − 1; n, 1 − p) . Zur Bestimmung des Tests ist also k möglichst klein zu wählen derart , dass 10 X ! Xi > k ≤ 0.10 P0.65 i=1 ⇐⇒ P0.35 10 X i=1 Xi < 10 − k ! ≤ 0.10 . Aus der Tabelle erhält man : 10 X Xi ≤ 1 = 0.0860 ≤ 0.10 , P0.35 i=1 P0.35 10 X i=1 Xi ≤ 2 = 0.2616 > 0.10 , d.h. 10 − k = 2 bzw. k = 8 . Folglich lautet der Test : 10 X xi > 8 ; 1 , falls i=1 ϕ(x) = 10 X xi ≤ 8 . 0 , falls i=1 Da 10 X i=1 ” xi = 8 ” Erfolge“ beobachtet wurden, lautet die Entscheidung : K ist nicht signifikant zum Niveau α = 0.10 .“ 89 Beispiel 11.3. (Gauß-Test ) X1 , . . . , Xn seien i.i.d. N (a, σ02 )-verteilte ZV., a ∈ R ( σ02 bekannt ). Man bestimme einen Test zum Niveau α für die Hypothesen H : a = a0 , K : a 6= a0 ( a0 bekannt ). Ansatz : T (x) = T (x1 , . . . , xn ) = | x − a0 | ist eine gute Schätzung“ für | a − a0 | , ” daher ( 1 , falls | x − a0 | > c ; ϕ(x) = ϕ(x1 , . . . , xn ) = 0 , falls | x − a0 | ≤ c . Dabei ist die Konstante c (∈ R+ ) möglichst klein zu wählen (großer Signifikanzbereich) mit ! Pa | X − a0 | > c ≤ α für a = a0 ( d.h. unter H ) . Es gilt : Pa0 | X − a0 | > c =: P ( | Z | > z0 ) wobei PZ = N (0, 1) , z0 √ | X − a | √ c 0 > n = Pa0 n σ0 σ0 ! = 2 P (Z > z0 ) ≤ α , √ c n . = σ0 Definition 11.2. Sei Y eine reelle ZV. mit stetiger VF. FY = F . Für α ∈ (0, 1) heißt y1−α ein (1 − α)-Quantil von Y (bzw. von PY oder von FY ) , wenn gilt : P (Y ≤ y1−α ) = F (y1−α ) = 1 − α . Beispiel 11.3 (Fortsetzung) Wählt man z0 = z1− α2 , also c = z1− α2 kleinstmöglich und es ergibt sich der folgende (Gauß- ) Test : ϕ(x) = 1, 0, σ0 √ n , so ist c > √ | x − a0 | n falls σ0 z1− α2 , ≤ wobei z1− α2 das (1 − α2 )-Quantil der N (0, 1)-Verteilung bezeichnet. Bei der Suche nach möglichst guten“ Tests (im Sinne kleiner Fehlerwahrscheinlich” keiten) reicht es i.A. nicht aus, nur nicht-randomisierte Tests zuzulassen. Daher erweitert man wie folgt : 90 Definition 11.3. Eine (randomisierter ) Test . (messbare ) ϕ : X → [0, 1] Abbildung heißt ein Interpretation : Bei beobachtetem Wert x ist ϕ(x) die (bedingte ) Wahrscheinlichkeit , die Entscheidung für K “ zu treffen. ” Bezeichnungen : a) ϑ 7−→ β(ϑ) := Eϑ ϕ(X) , ϑ ∈ Θ , heißt die Gütefunktion des Tests ϕ ; b) Für ϑ ∈ H heißt β(ϑ) (mittlere ) Fehlerwahrscheinlichkeit 1. Art (an der Stelle ϑ ); c) Für ϑ ∈ K heißt 1−β(ϑ) = Eϑ 1−ϕ(X) (mittlere ) Fehlerwahrscheinlichkeit 2. Art bzw. β(ϑ) Güte (Schärfe, Trennschärfe ) von ϕ (an der Stelle ϑ ) . Speziell ergibt sich beim nicht-randomisierten Test ϕ = IS : a) Gütefunktion : Pϑ (X b) Fehlerwahrscheinlichkeit 1. Art : Pϑ (X c) Fehlerwahrscheinlichkeit 2. Art : Pϑ (X Güte (Trennschärfe ) : Pϑ (X ∈ S) , ∈ S) , ∈ A) , ∈ S) , ϑ ∈ Θ; ϑ∈H; ϑ∈K, ϑ∈K. Das allgemeine Testproblem ( zu einem Niveau α ) für Hypothesen H : ϑ ∈ Θ0 , K : ϑ ∈ Θ \ Θ 0 , unter Verteilungen Pϑ,X , ϑ ∈ Θ , lässt sich wie folgt formulieren : Gesucht ist ein Test ϕ∗ : X → [0, 1] mit ! (11.1∗ ) Eϑ ϕ∗ (X) ≤ α (11.2∗ ) Eϑ ϕ∗ (X) ∀ ϑ∈H; = sup {Eϑ ϕ(X) : ϕ ∈ Φα } ∀ ϑ∈K, wobei Φα = {ϕ | ϕ Test mit Eϑ ϕ(X) ≤ α ∀ ϑ ∈ H} . Definition 11.4. Ein Test ϕ∗ (für die Hypothesen H, K ) mit (11.1∗ ) und (11.2∗ ) heißt gleichmäßig bester Test zum Niveau α (im Englischen : Uniformly ” Most Powerful Test“ , kurz : UMP-Test ). Wir lösen das obige Testproblem zunächst für den Fall zweier einfacher Hypothesen H : ϑ = ϑ0 , K : ϑ = ϑ1 (ϑ 6= ϑ1 , bekannt ). 91 Dabei seien Pϑ0 ,X bzw. Pϑ1 ,X beide diskret oder beide absolut-stetig mit Dichten f0 bzw. f1 . Satz 11.1. (Neyman-Pearson-Lemma ) Unter den obigen Voraussetzungen gilt : a) (Hinreichende Bedingung ) Jeder Test ϕ∗ : X → [0, 1] der Form 1, ∗ (11.3) ϕ (x) = γ ∗ , falls 0, > f1 (x) = k ∗ f0 (x) , < mit Konstanten 0 ≤ γ ∗ ≤ 1 , 0 ≤ k ∗ ≤ ∞ , ist bester Test zum Niveau α = Eϑ0 ϕ∗ (X) für H : ϑ = ϑ0 , K : ϑ = ϑ1 . (Hierbei wird ∞ · 0 := 0 gesetzt, d.h. für k ∗ = ∞ ist (11.3’) ϕ∗ (x) = ( 1, 0, falls falls f0 (x) = 0 , f0 (x) > 0 , bester Test zum Niveau α = 0 für H : ϑ = ϑ0 , K : ϑ = ϑ1 .) b) (Existenz ) Für jedes α ∈ [0, 1] gibt es einen Test ϕ∗ der Form (11.3) bzw. (11.3’) mit Eϑ0 ϕ∗ (X) = α . Hierbei sind die Konstanten 0 ≤ γ ∗ ≤ 1 und 0 ≤ k ∗ ≤ ∞ zu bestimmen aus ! (11.4) Eϑ0 ϕ∗ (X) = Pϑ0 (f1 (X) > k ∗ f0 (X)) + γ ∗ Pϑ0 (f1 (X) = k ∗ f0 (X)) = α . Interpretation des Neyman-Pearson-Ansatzes : Bei beobachtetem x treffe man eine Entscheidung für K , falls H , falls f1 (x)/f0 (x) groß“ ist ; ” f1 (x)/f0 (x) klein“ ist . ” Falls f1 (x)/f0 (x) = k ∗ , so entscheide man mit Wahrscheinlichkeit γ ∗ für K (Randomisation ). Um in der Praxis zu randomisieren, wähle man ein Zufallsexperiment mit möglichen Ereignissen A und Ac , wobei P (A) = γ ∗ . Tritt A ein , so entscheide man für K “, andernfalls für H “ (z.B. Erzeugen einer R[0, 1]-verteilten ZV. U : ” ” Falls U ≤ γ ∗ , so treffe man die Entscheidung für K “; andernfalls für H “) . ” ” 92 Beispiel 11.4. X1 , . . . , Xn seien i.i.d. B(1, p)-verteilt, p ∈ {p0 , p1 } . Man bestimme einen besten Test ϕ∗ zum Niveau α ∈ (0, 1) für die Hypothesen H : p = p0 , K : p = p1 . Nach Neyman-Pearson betrachten wir den Dichtequotienten n t f1 (x1 , . . . , xn ) p1 (1 − p0 ) p1Σxi (1 − p1 )n−Σxi 1 − p1 = Σxi = , f0 (x1 , . . . , xn ) p0 (1 − p1 ) 1 − p0 p0 (1 − p0 )n−Σxi wobei t = T (x) = T (x1 , . . . , xn ) = n X xi . Es gilt : i=1 p1 (1 − p0 ) > 1 p0 (1 − p1 ) < ⇐⇒ > p0 . < p1 Wir behandeln den Fall p0 < p1 : Wegen > = k∗ < f1 (x) f0 (x) ⇐⇒ T (x) > = c∗ , < ist der Neyman-Pearson-Test von der Form 1, > n X xi = c ∗ , γ ∗ , falls ϕ∗ (x) = i=1 0, < ∗ wobei Ep0 ϕ (X) = Pp0 n X i=1 Xi > c ∗ ∗ + γ Pp0 n X i=1 ! Xi = c∗ = α . Praktische Bestimmung der Konstanten c∗ , γ ∗ : n X n ∗ 1.) Wähle c derart, dass p0k (1 − p0 )n−k k k=c∗ +1 n X n p0k (1 − p0 )n−k aber k k=c∗ 2.) Wähle γ ∗ > α; n . n ∗ X n ∗ n−k k p0 (1 − p0 ) = α− p0c (1 − p0 )n−c . ∗ c k k=c∗ +1 Vgl. Beispiel 8.1 / 11.1 b) : n = 10, p0 = 0.65, α = 0.10 =⇒ ≤ α, c∗ = 8 , γ ∗ = 0.10 − 0.0860 ≈ 0.080 . 0.2616 − 0.0860 Beim Neyman-Test aus Beispiel 11.4 stellt man fest : 93 1.) Die Konstanten c∗ , γ ∗ ( und somit auch ϕ∗ ) hängen nur von p0 ab ϕ∗ ist gleichmäßig bester Test zum Niveau α für H : p = p0 , =⇒ K : p > p0 , denn Ep1 ϕ∗ (X) ≥ Ep1 ϕ(X) ∀ p 1 > p0 und ϕ : Ep0 ϕ(X) ≤ α ; 2.) Die Gütefunktion p 7−→ β ∗ (p) = Ep ϕ(X) ist monoton wachsend (s.u.), d.h., es gilt noch Ep ϕ∗ (X) ≤ Ep0 ϕ∗ (X) = α Mit Φα Φα,0 ∀ p ≤ p0 . = {ϕ : Ep ϕ(X) ≤ α ∀ p ≤ p0 } , = {ϕ : Ep0 ϕ(X) ≤ α} (⊃ Φα ) , bedeutet dies : (1∗ ) ϕ∗ ∈ Φα , (2∗ ) Für p > p0 : Ep ϕ∗ (X) = (>) = sup {Ep ϕ(X) : ϕ ∈ Φα,0 } sup {Ep ϕ(X) : ϕ ∈ Φα } . Ergebnis : ϕ∗ ist gleichmäßig bester Test zum Niveau α für H : p ≤ p0 , K : p > p0 . Dass es im Beispiel 11.4 möglich ist, aus dem Neyman-Pearson-Test zum Niveau α für H : p = p0 , K : p = p1 , einen UMP-Test herzuleiten, beruht auf der Tatsache, dass der Dichtequotient f1 (x)/f0 (x) für beliebige p0 < p1 streng monoton wachsend ist in P t = T (x) = ni=1 xi . Definition 11.5. Sei X : Ω → X Zufallsvariable mit möglicher Verteilung Pϑ,X , ϑ ∈ Θ ⊂ R1 , also ϑ reell, und (diskreter bzw. absolut-stetiger ) Dichte fϑ = fϑ (x) . Man sagt : {Pϑ,X }ϑ∈Θ besitzt monotonen Dichtequotienten in T = T (x) : ⇐⇒ ∃ Statistik T : X → R1 derart , dass für beliebige ϑ0 < ϑ1 der Quotient fϑ1 (x)/fϑ0 (x) streng monoton wachsend ist in t = T (x) , d.h., aus t = T (x) < T (x̃) = t̃ folgt fϑ1 (x)/fϑ0 (x) < fϑ1 (x̃)/fϑ0 (x̃) (ϑ0 , ϑ1 ∈ Θ) . 94 Beispiel 11.5. X1 , . . . , Xn seien i.i.d. N (a, σ02 )-verteilt , σ02 bekannt , also ϑ := a ∈ R =: Θ , X := (X1 , . . . , Xn ) . Die Familie {Pϑ,X }ϑ∈Θ = {N (a, σ02 ) ⊗ · · · ⊗ N (a, σ02 )}a∈R1 P besitzt monotonen Dichtequotienten in T = T (x) = ni=1 xi , denn n 1 X 2 p (xi − a) fa,σ02 (x) = exp − 2 2σ0 i=1 2πσ02 n n 1 n 1 X 2 a X na2 p = exp − + x x − i 2σ02 i=1 i σ02 i=1 2σ02 2πσ02 =⇒ 1 n n a − a X fa1 ,σ02 (x) n(a21 − a20 ) 1 0 x − = exp i fa0 ,σ02 (x) σ02 i=1 2σ02 ist streng monoton wachsend in t = T (x) = Pn i=1 xi für beliebige a0 < a1 . Satz 11.2. (UMP-Test bei monotonen Dichtequotienten ) Die Verteilungsklasse {Pϑ,X }ϑ∈Θ , Θ ⊂ R1 , besitze monotonen Dichtequotienten in T = T (x) . Dann gilt : a) Für beliebige ϑ0 ∈ Θ , α ∈ (0, 1) , existiert ein Test ϕ∗ der Form 1, ∗ ϕ (x) = γ∗ , 0, falls > T (x) = c∗ , < mit Eϑ0 ϕ∗ (X) = Pϑ0 T (X) > c∗ + γ ∗ Pϑ0 T (X) = c∗ = α . b) Die Gütefunktion ϑ 7−→ β ∗ (ϑ) = Eϑ ϕ∗ (X) ist monoton wachsend. c) ϕ∗ ist UMP-Test zum Niveau α für H : ϑ ≤ ϑ0 , K : ϑ > ϑ0 . Beispiel 11.5 (Fortsetzung) Als UMP-Test zum Niveau α ∈ (0, 1) für H : a ≤ a0 , K : a > a0 ( a0 bekannt ) ergibt sich : 1, γ∗ , ϕ∗ (x) = 0, > falls n X xi = c ∗ . i=1 < 95 Pn ∗ = 0 ist , kann γ ∗ ∈ [0, 1] beliebig gewählt werden , z.B. γ ∗ = 0 . Da Pa0 i=1 Xi = c Ferner erhält man : ∗ n X √ X − a √ cn − a0 ! 0 ∗ ∗ n Ea0 ϕ (X) = Pa0 > n = α, Xi > c = Pa0 σ0 σ0 i=1 also √ n c∗ n bezeichnet. − a0 ! = z1−α , wobei z1−α das (1 − α)–Quantil der N (0, 1)-Verteilung σ0 Ergebnis : Der (Gauß-) Test 1, √ x − a > 0 ∗ n z1−α , ϕ (x) = σ 0 0, ≤ ist UMP-Test zum Niveau α für H : a ≤ a0 , K : a > a0 . Bemerkung 11.1. {Pϑ,X }ϑ∈Θ , Θ ⊂ R1 , besitze monotonen Dichtequotienten in T = T (x) . Dann ist der Test Ψ∗ der Form < 1, ∗ ∗ Ψ (x) = δ , falls T (x) = d∗ , 0, > mit Eϑ0 Ψ∗ (X) = α , UMP-Test zum Niveau α für die Hypothesen H : ϑ ≥ ϑ0 , K : ϑ < ϑ0 . Bei Hypothesen H : ϑ ≤ ϑ0 , K : ϑ > ϑ0 bzw. H : ϑ ≥ ϑ0 , K : ϑ < ϑ0 (ϑ0 bekannt) spricht man von einseitigen Testproblemen , für die unter bestimmten Voraussetzungen ( vgl. Satz 11.2 ) UMP-Tests existieren. Bei zweiseitigen Testproblemen , d.h. Hypothesen der Form H : ϑ = ϑ0 , K : ϑ 6= ϑ0 ( ϑ0 bekannt ) existieren i.A. keine UMP-Tests , da die Gütefunktion ϑ 7−→ β(ϑ) = Eϑ ϕ(X) eines in Frage kommenden zweiseitigen Tests i.d.R. von den Gütefunktionen der UMP-Tests für die einseitigen Hypothesen a) H : ϑ ≤ ϑ0 , K : ϑ > ϑ0 , bzw. b) H : ϑ ≥ ϑ0 , K : ϑ < ϑ0 , übertroffen wird. Letztere Tests sind jedoch im zweiseitigen Fall nicht sinnvoll, da z.B. für den UMP-Test ϕ∗ im Fall a) zwar Eϑ0 ϕ∗ (X) = α gilt , also auch für die (zweiseitige) Nullhypothese H : ϑ = ϑ0 das Niveau α eingehalten wird , aber z.B. für ϑ < ϑ0 , also ϑ ∈ K , gilt : Eϑ ϕ∗ (X) ≤ α , 96 d.h. , die Wahrscheinlichkeit, sich für K : ϑ 6= ϑ0 zu entscheiden, ist viel zu klein, obwohl K vorliegt. Unter bestimmten Voraussetzungen existieren jedoch gleichmäßig beste, unverfälschte Tests für Hypothesen H : ϑ = ϑ0 , K : ϑ 6= ϑ0 ( vgl. Mathematische Statistik ) . Definition 11.6. Ein Test ϕ zum Niveau α für H : ϑ ∈ Θ0 , K : ϑ ∈ / Θ0 , heißt unverfälscht“ (“ unbiased ”), wenn gilt : ” Eϑ ϕ(X) ≥ α ∀ ϑ ∈ K . Interpretation : Die (mittlere) Wahrscheinlichkeit, sich für K zu entscheiden, ist unter ϑ ∈ K größer als unter ϑ ∈ H . Ein praktisches Konstruktionsprinzip für zweiseitige Tests basiert auf der folgenden Idee : Man benutze die Teststatistik T = T (x) , die optimale einseitige Tests liefert und konstruiere einen α2 − α2 -Test“ wie folgt : Setze ” 1 , falls T (x) < c1 oder T (x) > c2 , ϕ(x) = γi , falls T (x) = ci (i = 1, 2) , 0 , falls c1 < T (x) < c2 , ! wobei Pϑ0 T (X) < c1 + γ1 Pϑ0 T (X) = c1 = α2 ! und Pϑ0 T (X) > c2 + γ2 Pϑ0 T (X) = c2 = α2 . Damit gilt α α + = α, 2 2 d.h. ϕ ist Test zum Niveau α für H : ϑ = ϑ0 , K : ϑ 6= ϑ0 , und Eϑ0 ϕ(X) = Eϑ ϕ(X) groß“ ∀ ϑ 6= ϑ0 , ” wegen der Optimalität der einseitigen Tests, aber nicht notwendigerweise Eϑ ϕ(X) = sup {Eϑ ϕ̃(X) : ϕ̃(X) Test z.N. α} (ϑ 6= ϑ0 ) . Beispiel 11.5 (Fortsetzung ; zweiseitiger Gauß-Test) X1 , . . . , Xn seien i.i.d. N (a, σ02 )verteilt ( σ02 bekannt ). Man bestimme einen α2 − α2 -Test für die Hypothesen H : a = a0 , K : a 6= a0 ( a0 bekannt ). √ x − a0 Ansatz : Mit T (x) = n wähle man σ0 1 , falls T (x) < z α oder T (x) > z1− α , 2 2 ϕ∗ (x) = 0 , falls z α ≤ T (x) ≤ z α , 1− 2 2 97 wobei z α2 bzw. z1− α2 das α2 – bzw. (1 − α2 )–Quantil der N (0, 1)-Verteilung bezeichnet. Wegen der Symmetrie der Verteilung (bzgl. 0) gilt noch z α2 = −z1− α2 , so dass ϕ∗ die Form hat : > 1, √ |x − a0 | ∗ ϕ (x) = falls z1− α2 . n σ0 0, ≤ Man kann zeigen ( vgl. Mathematische Statistik ), dass der zweiseitige Gauß-Test ϕ∗ gleichmäßig bester unverfälschter Test zum Niveau α ist für H : a = a0 , K : a 6= a0 (im Englischen : UMPU-Test , d.h. Uniformly Most Powerful Unbiased Test“ ) . ” Bisher wurden ausschließlich Testprobleme für reelle Parameter ϑ bzw. einfache Hypothesen H : ϑ = ϑ0 , K : ϑ = ϑ1 , untersucht. Ein allgemeineres Konstruktionsprinzip für Tests von zusammengesetzten Hypothesen H : ϑ ∈ Θ0 , K : ϑ ∈ / Θ0 , Θ0 ⊂ Θ (auch 6= für mehrdimensionale Parameter ϑ ) liefern die (so genannten) Likelihoodquotiententests : Die möglichen Verteilungen Pϑ,X mögen (diskrete bzw. absolut-stetige) Dichten fϑ besitzen , ϑ ∈ Θ , und Θ0 ⊂ Θ sei eine bekannte (nicht-triviale) Teilmenge . Der 6= folgende Ansatz eines Tests zum Niveau α für H : ϑ ∈ Θ0 , K: ϑ∈ / Θ0 , basiert auf der Maximum-Likelihood-Idee und verallgemeinert den Ansatz von Neyman und Pearson : 1, > sup fϑ (x) ϑ∈Θ k, falls q(x) = ϕ(x) = sup fϑ (x) ϑ∈Θ0 0, ≤ ! wobei Eϑ ϕ(X) = Pϑ q(X) > k ≤ α ∀ ϑ ∈ H . Bemerkung 11.2. Existieren Maximum-Likelihood-Schätzer ϑ̂ bzw. ϑ̂0 für ϑ unter Θ bzw. Θ0 , so ist der Likelihoodquotient“ q(x) von der Form ” fϑ̂ (x) q(x) = . fϑ̂0 (x) Beispiel 11.6. ( Zweiseitiger Student-t-Test ) X1 , . . . , Xn seien i.i.d. N (a, σ 2 )-verteilt, ϑ := (a, σ 2 ) ∈ R × R+ =: Θ . Man bestimme einen Test zum Niveau α ∈ (0, 1) für die Hypothesen H : a = a0 , K : a 6= a0 ( a0 bekannt ). 98 Nach Beispiel 10.3 erhält man für ϑ die Maximum-Likelihood-Schätzer ( unter Θ ) : n 1X b a = x , σb2 = (xi − x)2 . n i=1 Entsprechend , unter ϑ ∈ Θ0 , also a = a0 : n 1X σb02 = (xi − a0 )2 . n i=1 n P 1 Mit der Dichte fa,σ2 (x) = √2πσ exp − 2σ1 2 ni=1 (xi − a)2 ergibt sich : 2 sup fa,σ2 (x) a,σ 2 = fba,σ2 (x) sup fa0 ,σ2 (x) = fa a0 ,σ 2 2 (x) 0 ,σ 0 also = = √1 2π √1 2π n P n 1 (xi − x)2 − n2 n i=1 n 2 i=1 (xi − a0 ) n P n 1 n e− 2 , − n2 n e− 2 , Pn n (xi − a0 )2 2 i=1 . q(x) = Pn 2 i=1 (xi − x) Pn Pn 2 2 2 Beachtet man, dass i=1 (xi − a0 ) = i=1 (xi − x) + n (x − a0 ) , so erhält man : ! n2 1 n (x − a0 )2 Pn , q(x) = 1 + 1 2 n − 1 n−1 i=1 (xi − x) d.h. , q(x) ist streng monoton wachsend in der Statistik T 2 (x) = n (x − a0 )2 Pn . 1 2 i=1 (xi − x) n−1 Damit ist der Likelihoodquotiententest von der äquivalenten Form > 1, ϕ(x) = | T (x) | c. 0, ≤ Nach Satz 9.5 besitzt T = T (X) unter ϑ ∈ Θ0 , d.h. unter Pa0 ,σ2 , eine tn−1 -Verteilung , so dass c = tn−1,1− α2 zu wählen ist . Man kann zeigen, dass der zweiseitige Student-t-Test zum Niveau α für H : a = a0 , K : a 6= a0 , also > 1, √ | x − a0 | ϕ(x) = n falls tn−1,1− α2 , s 0, ≤ Pn 1 2 wobei s2 = n−1 i=1 (xi − x) , ein UMPU-Test ist (unter den obigen Verteilungsannahmen). 99 Für das einseitige Testproblem H : a ≤ a0 , K : a > a0 , erhält man entsprechend als UMPU-Test zum Niveau α den einseitigen Student-t-Test 1, √ x − a0 > ϕ(x) = falls n tn−1,1−α . s 0, ≤ In ähnlicher Weise erhält man aufgrund des Likelihoodquotientenprinzips auch Tests für die Varianz von Normalverteilungen. Die folgenden Tabellen enthalten einige wichtige Tests für normalverteilte Stichproben : 1. Einstichprobenproblem : X1 , . . . , Xn seien i.i.d. N (a, σ 2 )-verteilt. H wird zum Niveau α ∈ (0, 1) verworfen , falls 1a) 1b) 1c) K a ≤ a0 a > a0 a ≥ a0 a < a0 a = a0 a 6= a0 H K 2 σ ≤ σ02 σ 2 ≥ σ02 1d) σ 2 = σ02 H σ 2 = σ02 2 σ > √ √ √ n (x − a0 )/σ0 > z1−α √ n (x − a0 )/σ0 < −z1−α √ n |x − a0 |/σ0 > z1− α2 a = a0 n X σ02 σ 2 < σ02 n X i=1 n X i=1 2 i=1 n X /σ02 > n (x − a0 )/s < −tn−1,1−α √ n |x − a0 |/s > tn−1,1− α2 a unbekannt n X χ2n,1−α (xi − a0 )2 /σ02 < χ2n,α (xi − a0 )2 /σ02 > χ2n,1− α 2 (xi − a0 )2 /σ02 < χ2n, α 2 100 unbekannt n (x − a0 )/s > tn−1,1−α bekannt (xi − a0 ) i=1 σ 2 6= σ02 σ2 bekannt oder (xi − x)2 /σ02 > χ2n−1,1−α i=1 n X i=1 n X i=1 n X i=1 (xi − x)2 /σ02 < χ2n−1,α (xi − x)2 /σ02 > χ2n−1,1− α 2 (xi − x)2 /σ02 < χ2n−1, α 2 oder 2. Zweistichprobenproblem : X1 , . . . , Xm ; Y1 , . . . , Yn seien unabhängige ZV. mit PXi = N (a, σ 2 ) (i = 1, . . . , m) , PYi = N (b, τ 2 ) (j = 1, . . . , n) . H wird zum Niveau α ∈ (0, 1) verworfen , falls H 2a) a≤b 2d) σ ≤τ K 2 2 σ >τ mn m+n mn m+n p a 6= b H 2c) p a<b a=b 2 p a>b a≥b 2b) σ 2 = τ 2 , aber unbekannt K v u u (x − y) t v u u (x − y) t mn m+n σ2 < τ 2 σ2 = τ 2 σ 2 6= τ 2 m nX i=1 1 m+n−2 v u u |x − y| t m nX i=1 1 m+n−2 (xi − x) + (xi − x)2 + m nX i=1 2 2 (xi − x) + n X j=1 n X j=1 o > tm+n−2,1−α o (yj − y)2 < −tm+n−2,1−α n X j=1 (yj − y) 2 (yj − y) 2 o > tm+n−2,1− α2 a , b unbekannt m X . n 1 X (yj − y)2 > Fm−1,n−1;1−α (xi − x) n − 1 j=1 i=1 m n . 1 X X 2 1 (xi − x) (yj − y)2 < Fm−1,n−1;α m−1 n − 1 i=1 j=1 1 m−1 2 σ2 ≥ τ 2 1 m+n−2 m X 2 . n 1 X (yj − y)2 > Fm−1,n−1;1− α2 n − 1 j=1 i=1 m n . 1 X X 2 1 (x − x) (yj − y)2 < Fm−1,n−1; α2 i m−1 n − 1 i=1 j=1 1 m−1 (xi − x)2 oder Bei der Festlegung eines Tests ϕ für Hypothesen H : ϑ ∈ Θ0 , K : ϑ ∈ / Θ0 , ist jeweils zu prüfen, ob das Niveau α eingehalten wird , d.h., ob gilt Eϑ ϕ(X) ≤ α ∀ ϑ∈H. Hierbei kann für große Stichprobenumfänge n die exakte Bestimmung von Eϑ ϕ(X) = Eϑ ϕ(X1 , . . . , Xn ) sehr aufwendig sein, so dass gelegentlich dazu übergegangen wird, das Niveau nur asymptotisch“ einzuhalten. ” Definition 11.7. Ein Test ϕ = ϕ(X1 , . . . , Xn ) , basierend auf einer Stichprobe X = (X1 , . . . , Xn ) vom Umfang n , heißt ein asymptotischer Test zum Niveau α für H : ϑ ∈ Θ0 , K : ϑ ∈ / Θ0 , wenn gilt : lim Eϑ ϕ(X1 , . . . , Xn ) ≤ α n→∞ ∀ ϑ∈H. 101 Beispiel 11.7. ( χ2 -Anpassungstest ) X1 , . . . , Xn seien i.i.d. ZV. mit Werten in X . Ferner seien B1 , . . . , Bk eine Zerlegung von X und pi = P (X1 ∈ Bi ) > 0 , i = 1, . . . , k . Setzt man Ni := | {ν ∈ {1, . . . , n} : Xν ∈ Bi } | , so besitzt N = (N1 , . . . , Nk ) eine M (n; p1 , . . . , pk )-Verteilung. Man bestimme einen Test zum Niveau α für (0) H : pi = pi (0) wobei die pi ∀ i = 1, . . . , k , (0) K : pi 6= pi ∃ i = 1, . . . , k , bekannt sind. Z.B. könnte beim n-fachen Werfen eines Würfels die ZV. Xν die Augenzahl im ν-ten Wurf sein (ν = 1, . . . , n) und Bi = {i} (i = 1, . . . , 6) , also pi = P (X1 = i) . Hier interessiert etwa, ob der Würfel fair“ ist , d.h., ob gilt : ” 1 H : pi = ∀ i = 1, . . . , 6 . 6 Da die Verteilung von N = (N1 , . . . , Nk ) unter H vollständig bekannt ist, nämlich (0) (0) eine M (n; p1 , . . . , pk )-Verteilung, kann exakt ein Test ϕ = ϕ(n1 , . . . , nk ) bestimmt werden, basierend auf einer Realisation (n1 , . . . , nk ) des Häufigkeitsvektors (N1 , . . . , Nk ) . (0) 2 ist eine gute“ Schätzung für den unbekannten quadratischen Ansatz : nni − pi ” (0) 2 . Setze daher Abstand pi − pi 1, > k X n 2 i (0) ϕ(n1 , . . . , nk ) = wi falls X 2 = c, − pi n i=1 0, ≤ wobei wi > 0 (i = 1, . . . , k) geeignete“ Gewichte sind. ” Für große“ Stichprobenumfänge n ist eine exakte Bestimmung des Tests , d.h. ” des kritischen Wertes c über eine exakte Auswertung der Verteilung von X 2 selbst bei einfachen Gewichten wi sehr aufwendig. Es besteht allerdings die Möglichkeit eines asymptotischen Tests , falls 2 X = k X i=1 wi ni (0) 2 − pi n geeigneten“ wi eine Grenzverteilung ( für n → ∞ ) besitzt. ” (0) Es lässt sich zeigen ( z.B. mit Hilfe momenterzeugender Funktionen ), dass für wi = n/pi (0) unter H , d.h. für pi = pi ∀ i = 1, . . . , k , gilt : (0) 2 k X Ni − n p i D 2 X = −→ χ2k−1 . (0) (n→∞) n pi i=1 mit 102 Faustregel : Der asymptotische Test ist anwendbar bei Stichprobenumfängen n mit (0) n pi ≥ 5 ∀ i = 1, . . . , k . Numerisches Beispiel : Bei 60-maligem Würfeln seien die Augenzahlen i mit folgenden Häufigkeiten ni aufgetreten : i 1 2 3 4 5 6 Σ ni 5 12 6 14 10 13 60 (0) npi 10 10 10 10 10 10 60 Man teste zum Niveau α = 0.05 , ob der Würfel X2 = ” fair“ ist. Es ergibt sich 1 (52 + 22 + 42 + 42 + 02 + 32 ) = 7.0 < 11.07 = χ25;0.95 , 10 d.h., die Alternative K : ” ∃ i = 1, . . . , 6 mit pi 6= 16 “ ist nicht signifikant . Der χ2 -Anpassungstest kann z.B. benutzt werden, um Zufallszahlen auf Unabhängigkeit und identische R[0, 1]-Verteilung zu testen. 1. Test auf R[0, 1]-Verteilung : Es soll untersucht werden , ob n unabhängige Realisationen von ZV. U1 , . . . , Un identisch R[0, 1]-verteilt sind. Wir betrachten die Häufigkeiten Ni = Anzahl der U1 , . . . , Un Unter H : ” hi − 1 i in , i = 1, . . . , k , k k (k fest) . U1 , . . . , Un i.i.d. R[0, 1]-verteilt“ gilt : N = (N1 , . . . , Nk ) ist M (n; k1 , . . . , k1 )-verteilt , n ENi = (i = 1, . . . , k) . k Mit Hilfe der χ2 -Teststatistik k n 2 k X Ni − X = n i=1 k 2 kann also überprüft werden , ob die Nullhypothese H 103 ” zu verwerfen ist“. 2. Test auf Unabhängigkeit (Run-Test) : In einer Folge U1 , U2 , . . . von i.i.d. R[0, 1]-ZV. betrachtet man das Auftreten von Sequenzen aufsteigender Zahlen“, so genannten Runs“. Für eine Folge ” ” 0.2 | 0.1 0.7 0.9 | 0.4 0.5 0.7 | 0.2 0.8 | 0.1 0.8 findet man z.B. 1 2 2 ” ” ” Run“ der Länge 1 , Runs“ der Länge 2 , Runs“ der Länge 3 . Die Wahrscheinlichkeit für einen ” Run der Länge r “ ergibt sich aus Lemma 11.1. U1 , U2 , . . . seien i.i.d. R[0, 1]-verteilt P (R = r) = P (U1 ≤ U2 ≤ . . . ≤ Ur > Ur+1 ) = Man beachte : ∞ X P (R = r) = r=1 ∞ X 1 r=1 r! − =⇒ r , (r + 1)! r ∈ N. 1 = 1. (r + 1)! Run-Test“ : Hat man n unabhängige Run-Längen R1 , . . . , Rn beobachtet, so kann ” man deren identische Verteilung (gemäß Lemma 11.1) mit Hilfe des χ2 -Anpassungstests überprüfen. Der Test reagiert empfindlich auf Abweichungen von der Unabhängigkeit der U1 , U2 , . . . . Runs“ in der Folge U1 , U2 , . . . sind Praktische Probleme : Aufeinander folgende ” abhängig ! Daher streicht man die erste Zahl nach jedem Run . Die verbleibenden Runs sind unabhängig. Z.B. liefert die Folge U1 , U2 , . . . ( ohne 0. ) 2|1 7 9|4 5 7|2 8|1 8|1 6|2|1 4 5 6 9|3|1 5 6 9|8 2 3 nach Streichung die neue Folge 2| 7 9| 5 7| 8| 8| 6| 1 4 5 6 9| 1 5 6 9| 2 3 und damit die Run-Längen R1 = 1, R2 = 2, R3 = 2, R4 = 1, R5 = 1, R6 = 1, R7 = 5, R8 = 4, R9 = 2 . 104 Es wäre zu überprüfen , ob die beobachteten Häufigkeiten der Run-Längen mit der theoretischen Verteilung ( gemäß Lemma 11.1 ) in Einklang zu bringen sind : r 1 2 3 4 5 6 ... P (R = r) 1 2 1 3 1 8 1 30 1 144 1 840 ... Hn (r) 4 9 3 9 0 1 9 1 9 0 ... Man wählt eine endliche Zerlegung N = pi = P (R ∈ Bi ) , und setzt Pk Ni = Anzahl der R1 , . . . , Rn in Bi i=1 Bi mit npi ≥ 5 (∀ i = 1, . . . , k) , wobei (i = 1, . . . , k) . Mit diesen (N1 , . . . , Nk ) wendet man den χ2 -Anpassungstest an. Um eine ausreichende Aussagekraft des Run-Tests zu gewährleisten , benötigt man lange“ Serien von ” Zufallszahlen ( mindestens 4 000 der Ui ) . 105