12 Serie — Aufgaben zur Statistik Aufgabe 1. Es sei eine parametrische Familie mit der Dichte 2 2ϑ x e−ϑ x , wenn x > 0 fϑ (x) = 0 , wenn x < 0 und dem Parameter ϑ > 0 gegeben. Es wird das Testproblem H0 : ϑ = ϑ0 . H1 : ϑ = ϑ1 mit ϑ0 > ϑ1 betrachtet. Es sei eine Stichprobe Xi (i = 1, . . . , n) gegeben. a) Zeigen Sie, dass der Likelihood-Quotienten-Test den kritischen Bereich tn := ϑ0 n X x2i > k i=1 besitzt. b) Zeigen Sie, dass unter der Nullhypothese die Zufallsgröße ϑ0 Xi2 exponentialverteilt mit dem Parameter 1 ist. Schließen Sie daraus, dass ! n n−1 X X kj 2 P Tn = ϑ0 Xi > k = e−k =: 1 − Gn (k) j! i=1 j=0 gilt. Bestimmen Sie daraus mit R für den Fall n = 20 den kritischen Wert kα für α = 0, 1. Hinweis: Es gilt folgende Aussage: Es seien Wi (i = 1, . . . , n) unabhängige und identisch verteilte Zufallsgrößen, die exponentialverteilt sind mit dem Parameter γ. Dann gilt ! ! n−1 n X (γx)i X −γx =: Gn (γx), x > 0. Wi ≤ x = 1 − e P i! i=0 i=1 c) Zeigen Sie, dass für die Wahrscheinlichkeit für den Fehler zweiter Art kα ϑ1 βn = Gn ϑ0 gilt. Bestimmen Sie daraus mit R für den Fall n = 20 die Wahrscheinlichkeit für den Fehler zweiter Art β für α = 0, 1 und ϑ0 = 1 sowie ϑ1 = 0, 9. d) Bestimmen Sie die Verteilungsfunktion zur der Dichte fϑ und mit Hilfe der Inversionsmethode einen Algorithmus zur Erzeugung von Zufallszahlen zur Dichte fϑ , falls der Parameter ϑ bekannt ist. e) Es sei ϑ0 = 1 und ϑ1 = 0, 9. Bestimmen Sie mit R den kritischen Wert kα für α = 0, 1; sowie für n = 20 und n = 100. Bestimmen Sie die Wahrscheinlichkeit für den Fehler zweiter Art für n = 20 und n = 100. Lösung 1. a) Wir bestimmen zunächst die Maximum-Likelihood-Funktion ! n Y Pn 2 n L(ϑ, xn ) = (2ϑ) xi e−ϑ i=1 xi . i=1 Hieraus ergibt sich der Likelihood-Quotient als n Pn 2 ϑ1 e(ϑ0 −ϑ1 ) i=1 xi L1,0 (xn ) = ϑ0 1 Die Bedingung L1,0 (xn ) > k ′ kann man durch Logarithmieren, Subtraktion der Größen ohne die xi , Division von ϑ0 − ϑ1 > 0 und Multiplikation von ϑ0 auf die Form der Teststatistik tn := ϑ0 n X x2i > k i=1 umschreiben, wobei die Konstante k von k ′ und von den bekannten Parametern ϑ0 , ϑ1 und n abhängt. b) Wir bemerken, dass für die Verteilungsfunktion zu der Dichte fϑ Fϑ (x) = 1 − e−ϑx 2 gilt. Somit ergibt sich unter der Nullhypothese r x 2 P (ϑ0 Xi ≤ x) = P Xi ≤ = 1 − e−x , ϑ0 (1) x>0 und die Zufallsgröße Ai := ϑ0 Xi2 ist exponentialverteilt mit dem Parameter 1. Nach dem Hinweis ergibt sich somit für obige Teststatistik P (Tn > k) = 1 − P (Tn ≤ k) = 1 − Gn (k) und wir erhalten den kritischen Wert kα aus der Relation Gn (kα ) = 1 − α. c) Zur Summe der Zufallsvariablen Bi := ϑ1 Xi2 führen wir Zn ein durch Tn = ϑ0 n X Xi2 i=1 n ϑ0 ϑ0 X 2 X =: ϑ1 Zn = ϑ1 i=1 i ϑ1 Unter der Alternativhypothese ist ϑ1 Xi2 exponentialverteilt mit dem Parameter 1 und somit hat die Zufallsgröße Zn die Verteilungsfunktion Gn . Wir erhalten für die Wahrscheinlichkeit für den Fehler zweiter Art ϑ0 kα ϑ1 kα ϑ1 βn = P (Tn ≤ kα ) = P ( Zn ≤ kα ) = P Zn ≤ = Gn . ϑ1 ϑ0 ϑ0 d) Aufgrund von (1) ergibt sich für die Inverse von Fθ r − ln(1 − u) −1 Fϑ (u) = ϑ Da mit U ∼ (U (0, 1) auch 1 − U ∼ U (0, 1) gilt, folgt der folgende Algorithmus aus der Inversionsmethode: 1. Erzeuge eine Zufallszahl u zur Verteilungsfunktion U (0, 1). 2. Berechne r − ln(u) . x := ϑ e) Es ergibt sich bei einer Stichprobe von n = 20 k0,1 = G−1 n (1 − α) = 25, 4 und βn = Gn kα ϑ1 ϑ0 = 0, 78 was den theoretisch berechneten Werten aus b) und c) gut entspricht, siehe die Hilfe-Files zu R, und bei einer Stichprobe von n = 100 erhält man k0,1 = G−1 n (1 − α) = 113, 01 und βn = Gn kα ϑ1 ϑ0 = 0, 58. Es ist beruhigend, daß der β-Fehler fällt, wenn man die Stichprobe vergrößert. 2 Aufgabe 2. Die folgenden Messreihen ergaben sich bei einem Test von zwei Medikamenten Anzahl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Gruppe1 16,11 20,04 18,00 22,68 23,49 18,15 20,92 20,06 21,39 18,57 19,39 17,17 18,75 18,14 16,84 18,26 17,17 19,48 16,96 18,97 Gruppe 2 21,30 22,84 19,94 15,01 20,24 19,98 22,21 20,22 17,04 17,87 15,69 21,78 18,53 21,32 21,76 21,82 17,48 22,80 19,48 Das Signifikanzniveau sei α = 0, 1. a) Überprüfen Sie mit Hilfe des Kolmogoroff-Smirnoff-Tests, dass beide Variablen normalverteilt sind. b) Überprüfen Sie, ob die Varianzen beider Gruppen gleich sind. c) Überprüfen Sie, ob die Erwartungswerte gleich sind. d) Die empirischen Varianzen werden nun als die theoretischen Varianzen angesehen. Überprüfen Sie unter dieser Voraussetzung die Gleichheit der Erwartungswerte. e) Überprüfen Sie mit dem U-Test, ob beide Grundverteilungen gleich sind. Lösung 2. Zunächst zeigt der Kolmogoroff-Smirnoff-Test, dass beide ZufallsVariablen in guter Näherung normalverteilt sind. Der F-Test oder Levene-Test zeigt im nächsten Schritt, daß die Varianzen beider Variablen gleich sind. Nun lässt sich der zweiseitige t-Test für den Zweistichproben-Fall anwenden und ergibt, dass die beiden Gruppe gleiche Resultate liefern; man vergleiche das HIlfeFile für R. 3