Institut für Mathematische Stochastik Universität Karlsruhe Priv.-Doz. Dr. D. Kadelka WS 2002/2003 10. Februar 2003 Klausur zur Vorlesung Statistik für Biologen Musterlösungen Aufgabe 1 Neun Versuchsfeldern wurden unter sonst gleichen Bedingungen unterschiedliche Mengen von anorganischem Phosphor zugesetzt. Die auf den einzelnen Feldern ausgesäten Getreidepflanzen wurden nach 68 Tagen geerntet und auf ihren Ertrag hin untersucht. Man erhielt die folgenden Werte Phosphor in (ppm) Ertrag (kg) a) 1 4 5 64 71 54 9 13 11 23 23 28 81 93 76 77 95 109 Berechnen Sie die Stichprobenmittel x̄, ȳ, die Stichproben-Standardabweichungen sx , sy und den empirischen Pearson-Korrelationskoeffizienten. Lösung: Direkt aus den Daten ergibt sich gemäß den Abschnitten 2.1, 2.8 und 3.2 des Skriptums unter Ausnützung der Beziehung n X (xj − x̄) · (yj − ȳ) = j=1 n X xj · yj − n · x̄ · ȳ j=1 x̄ = 13 ȳ = 80 sx = 9.579 sy = 16.86 und der empirische Pearson-Korrelationskoeffizient zu rxy = 0.7787. b) Bestimmen Sie die zugehörige Regressionsgerade y = a∗ + b∗ · x von y auf x, und zeichnen Sie sie in die nachfolgende Figur ein. sy Lösung: Nach Abschnitt 3.2 des Skriptums ist y = a∗ + b∗ · x mit b∗ = rxy · und sx a∗ = ȳ − b∗ · x̄ die gesuchte Regressionsgerade, also b∗ = 1.371 a∗ = 62.18 und die Regressionsgerade y = 62.18 + 1.371 · x. Beachtet man, dass die Regressionsgerade die y-Achse an der Stelle a∗ = 62.18 schneidet, so erhält man Punkte und Regressionsgerade y = a∗ + b∗ · x c) Berechnen Sie den Spearman-Rang-Korrelationskoeffizienten. Lösung: Für den Spearman-Rang-Korrelationskoeffizienten ρxy = 1 − n 9 X X 6 6 2 · (j − R ) = 1 − · (j − Rj )2 j n · (n2 − 1) j=1 9 · (92 − 1) j=1 sind die Ränge Rj der yj zu bestimmen, die zum j-kleinsten xj -Wert gehören. j xj yj Rj 1 2 3 1 4 5 64 71 54 2 3 1 4 5 6 7 8 9 9 13 11 23 23 28 81 93 76 77 95 109 6 7 4 5 8 9 Damit ρxy = 1 − 1 · ((1 − 2)2 + (2 − 3)2 + (3 − 1)2 + (4 − 6)2 120 + (5 − 7)2 + (6 − 4)2 + (7 − 5)2 + (8 − 8)2 + (9 − 9)2 ) = 1 − 22 = 0.8167. 120 Aufgabe 2 Es wurden die Flächeninhalte von Blättern eines Apfelbaumes gemessen. Dabei erhielt man folgende Werte (in cm2 ): 24.9 20.6 24.9 19.8 19.1 a) 20.1 20.8 25.9 25.2 27.7 23.1 22.7 25.0 20.1 24.7 18.8 21.3 24.3 24.0 27.9 19.9 21.2 21.4 26.0 27.2 18.0 21.7 24.1 22.0 23.9 26.0 20.7 25.3 20.6 20.0 25.8 23.6 26.9 19.7 25.6 Fertigen Sie eine Stamm- und Blatt-Darstellung an mit der Einheit 1 cm2 . Lösung: Stamm- und Blatt-Darstellung (n = 40, Einheit = 1 cm2 ): Stamm 18 19 20 21 22 23 24 25 26 22 b) Blätter 8 0 9 8 7 1 6 8 3 2 7 7 0 1 6 9 9 9 3 8 9 0 0 9 0 7 9 2 1 7 1 4 6 1 0 3 2 7 6 0 Bestimmen Sie den (empirischen) Median der Stichprobe. Lösung: Da n = 40 eine gerade Zahl ist, ist der empirische Median x̃ = 12 (x(n/2) + x(n/2+1) ) = 12 (x20) + x(21) ). Aus der Stamm- und Blatt-Darstellung lassen sich ablesen: x(20) = 23.1, x(21) = 23.6. Damit erhält man als empirischen Median der Stichprobe 1 x̃ = (x(20) + x(21) ) = 23.35 . 2 c) Geben Sie einen Konfidenzbereich für den Median zur Konfidenzwahrscheinlichkeit 0.95 an. Lösung: Gesucht ist ein Konfidenzbereich für den Median x̃. Für n = 40 und 1 − α = 0.95 kann man aus Tabelle A.5 den Wert k = 13 anlesen. Damit ist der Konfidenzbereich (Skript, S. 125): x(k+1) ≤ x̃ ≤ x(n−k) Aus der Stamm- und Blatt-Darstellung liest man x(14) = 21.2 und x(27) = 24.9 ab. Der gesuchte Konfidenzbereich ist also [21.2, 24.9]. Aufgabe 3 Von einer bestimmten Erbkrankheit sei bekannt, dass sie bei 12% aller männlichen Tiere einer bestimmten Tierpopulation auftritt. a) Bei n = 30 zufällig ausgewählten männlichen Tieren dieser Population wird überprüft, ob sie diese Erbkrankheit haben. Welche Verteilung besitzt die zufällige Anzahl X der erkrankten Tiere unter den 30 untersuchten? Lösung: Es liegt hier ein typisches Zufallsexperiment mit den zwei Möglichkeiten krank“ (Treffer) bzw. nicht krank“ (Niete) vor, beschrieben im Skriptum in Ab” ” schnitt 5.2.1. Da die Trefferwahrscheinlichkeit hier p = 0.12 ist, besitzt X die Verteilung Bin(30, 0.12). b) Bestimmen Sie unter den Voraussetzungen von a) die Wahrscheinlichkeit dafür, dass mindestens 3 männliche Tiere an dieser Erbkrankheit leiden. Lösung: Zu berechnen ist P (X ≥ 3). Um die Berechnung zu vereinfachen, benützen wir P (X ≥ 3) = 1 − P (X ≤ 2) und nach Abschnitt 5.1 und Formel (5.1) im Skriptum P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) 30 30 30 0 30 1 29 = · 0.12 · 0.88 + · 0.12 · 0.88 + · 0.122 · 0.8828 0 1 2 30 · 29 = 0.8830 + 30 · 0.12 · 0.8829 + · 0.122 · 0.8828 = 0.2847 . 2 c) Bestimmen Sie mit einer geeigneten Näherungsformel die Wahrscheinlichkeit dafür, dass unter jetzt n = 400 zufällig ausgewählten männlichen Tieren der Anteil der erkrankten Tiere zwischen 10% und 14% liegt. Lösung: Wir gehen hier wie in Beispiel 9.1 im Skriptum vor und wenden Formel (9.6) an. Definiert man wie dort die Zufallsvariable Xj durch 1 , falls das j-te Tier erkrankt ist, Xj = 0 , falls das j-te Tier nicht erkrankt ist (j = 1, . . . , n), so ist X̄n gerade der Anteil der erkrankten Tiere und mit µ = E(X1 ) = p = 0.12 und σ 2 = V (X1 ) = p(1 − p) = 0.1056 folgt 0.10 − 0.12 √ 0.14 − 0.12 √ √ √ · 400 − Φ · 400 P (0.10 ≤ X̄n ≤ 0.14) ≈ Φ 0.1056 0.1056 Φ(1.2309) − Φ(−1.2309) = Φ(1.2309) − (1 − Φ(1.2309)) = 2 · Φ(1.2309) − 1 ≈ 2 · Φ(1.24) − 1 = 2 · 0.8925 − 1 = 0.785 Aufgabe 4 Die zufällige Flügellänge X (gemessen in mm) der Stubenfliege (musca doméstica) sei näherungsweise N (µ, σ 2 )-verteilt. An 16 zufällig ausgewählten Stubenfliege wurde die Länge des rechten Flügels gemessen. Es ergaben sich die folgenden Werte: 5.3 5.2 5.6 5.6 6.0 6.0 5.4 6.2 4.8 4.7 6.0 6.2 4.9 5.3 5.1 4.6 a) Bestimmen Sie ein Konfidenzintervall für µ zur Konfidenzwahrscheinlichkeit 0.9. Lösung: Zu der Stichprobe der Größe n = 16 muss zunächst der empirische Mittelwert und die empirische Varianz berechnet werden: n 1X 86.9 xi = x̄ = ≈ 5.431 n i=1 16 und 1 s2 = n−1 n X i=1 x2i − nx̄2 ! ≈ 1 (476.29 − 16 · 5.4312 ) = 0.288. 15 √ Die empirische Standardabweichung ist dann s = s2 ≈ 0.536. Das Konfidenzintervall für µ ist wegen Satz 10.18 a) mit dem 1−α/2-Quantil t15,0.95 = 1.75 der tn−1 -Verteilung Untere Schranke: s 0.536 x̄ − √ · tn−1,1−α/2 ≈ 5.431 − √ · 1.75 ≈ 5.1965 n 16 Obere Schranke: s 0.536 x̄ + √ · tn−1,1−α/2 ≈ 5.431 + √ · 1.75 ≈ 5.6655 n 16 Das Konfidenzintervall für µ zum Niveau 0.9 ist also [5.1965, 5.6655] b) Bestimmen Sie ein Konfidenzintervall für σ 2 zur Konfidenzwahrscheinlichkeit 0.9. Lösung: Aus Tabelle A.3 und A.4 entnehmen wir die Werte χ2n−1,1−α/2 = χ215,0.95 = 25.0 und χ2n−1,α/2 = χ215,0.05 = 7.26. Das Konfidenzintervall für σ 2 ist wegen Satz 10.18 c): Untere Schranke: (n − 1)s2 15 · 0.288 ≈ ≈ 0.173 2 χn−1,1−α/2 25.0 Obere Schranke: (n − 1)s2 15 · 0.288 ≈ ≈ 0.595 2 χn−1,α/2 7.26 Das Konfidenzintervall für σ 2 zum Niveau 0.9 ist also [0.173, 0.595]. c) Testen Sie zum Niveau α = 0.05 die Hypothese, dass die mittlere Flügellänge nicht größer als 4.8 mm ist. Lösung: Zu testen ist H0 : µ ≤ µ0 = 4.8 gegen H1 : µ > 4.8. Dazu verwenden wir den einseitigen Einstichproben-t-Test aus 12.2.2. H0 wird abgelehnt, wenn √ n · (x̄ − µ0 ) ≥ tn−1,1−α . T = s √ Hier ist tn−1,1−α = t15,0.95 = 1.75, also T = H0 ist also abzulehnen. 16·(5.431−4.8) 0.536 = 4.71 > 1.75. Die Hypothese Aufgabe 5 In einer Klinik wurden 16 magenkranke Patienten behandelt. Bei 6 der Patienten wurde eine psychogene Ursache des Leidens angenommen, weil sich kein objektiver Befund nachweisen ließ und die Patienten nicht auf die Behandlung ansprachen. Mit allen 16 Patienten wurde unter einem Vorwand ein Reaktionstest durchgeführt, bei dem erfahrungsgemäß die Reaktionszeit bei den Patienten mit psychogener Ursache des Leidens etwas größer ist. Die Reaktionszeiten (für jede Person) wurden gemessen. Das Ergebnis (in 1/100 Sekunden) ist in der folgenden Tabelle enthalten. xi (psychogene Kranke) yi (somatogene Kranke) a) 18 23 23 26 41 43 13 14 17 17 20 21 24 27 32 37 Nehmen Sie an, dass die Daten xi aus einer N (µ, σ 2 )-verteilten Grundgesamtheit und die yj aus einer N (ν, σ 2 )-verteilten Grundgesamtheit stammen. Kann die Alternative H1 : µ > ν zum Niveau α = 0.05 statistisch gesichert werden? Hat die Gestalt der Hypothese H0 : µ = ν oder H0 : µ ≤ ν einen Einfluss auf die Entscheidung? Lösung: Es handelt sich hier um ein Zwei-Stichproben-Problem. Die erste Stichprobe sind die Werte x1 , . . . , x6 , die zweite Stichprobe sind die Werte y1 , . . . , y10 . Die xi stammen aus einer N (µ, σ 2 )-, die yi aus einer N (ν, σ 2 )-Verteilung. Zu testen ist H0 : µ = ν gegen H1 : µ > ν, wobei hier auch die Hypothese H0 : µ ≤ ν zur gleichen Entscheidung führt. Für diese Situation ist der einseitige Zwei-Stichproben-t-Test aus 13.1.2 geeignet. Er hat die Prüfgröße (mit x̄ = 29, s2x = 108.4, ȳ = 22.2, s2y = 61.51) T =q q 1 m+n−2 m·n m+n · (x̄ − ȳ) · ((n − 1) · s2x + (m − 1) · s2y ) ≈q q 1 14 60 16 · (29.0 − 22.2) · (5 · 108.4 + 9 · 61.51) Der kritische Wert ist nach Tabelle A.2 tm+n−2,1−α = t14,0.95 ≈ 1.76. Wegen T < tm+n−2,1−α kann die Hypothese nicht abgelehnt werden. ≈ 1.489. b) Verzichten Sie jetzt auf die Normalverteilungsannahme, und nehmen Sie statt dessen nur noch an, dass die beiden Verteilungen je eine Dichte besitzen, die durch (eventuelle) Verschiebung auseinander hervorgehen. Testen Sie jetzt zum Niveau α = 0.05 die Hypothese, dass die beiden Verteilungen übereinstimmen. Lösung: Wenn keine Normalverteilungsannahme vorliegt, sollte der t-Test nicht verwendet werden. Für dieses Problem ist der Mann-Whitney-U -Test geeignet. Die Hypothese H0 lautet: Die Verteilungsfunktion F der ersten Stichprobe und die Verteilungsfunktion G der zweiten Stichprobe sind gleich, also H0 : F = G. Aus den Daten folgt, dass keine Bindungen zwischen den x- und den y-Werten auftreten, so dass der unmodifizierte Mann-Whitney-U -Test verwendet werden kann. Zunächst werden zu den gegebenen 16 Daten die Ränge bestimmt. Nachfolgend sind die Ränge in Klammer nach dem jeweiligen Messwert angegeben: xi yi 18(5) 23(8.5) 23(8.5) 26(11) 41(15) 43(16) 13(1) 14(2) 17(3.5) 17(3.5) 20(6) 21(7) 24(10) 27(12) 32(13) 37(14) Nun müssen die Ränge der xi aufaddiert werden: W = 5 + 8.5 + 8.5 + 11 + 15 + 16 = 64 Die Prüfgröße des Mann-Whitney-U -Tests ist U =W− n(n + 1) 6·7 = 64 − = 43. 2 2 Der Mann-Whithney-U -Test lehnt die Hypothese ab, wenn eine der beiden Ungleichungen U ≥ Um,n,1−α/2 oder U ≤ m · n − Um,n,1−α/2 erfüllt ist, wobei hier n = 6 und m = 10. Aus Tabelle A.6 kann man ablesen: Um,n,1−α/2 = U10,6,0.975 = 49. Es gilt weder U ≥ Um,n,1−α/2 noch U ≤ m · n − Um,n,1−α/2 = 60 − 49 = 11, also lehnt auch der Mann-Whitney-U -Test die Hypothese nicht ab. Aufgabe 6 In einer kontrollierten Studie sollte untersucht werden, ob die Einnahme eines neu entwickelten Grippe-Medikamentes den Krankheitsverlauf so beeinflusst, dass die Kranken nach 6 Tagen symptomfrei sind. Bei einer Grippe-Epidemie wurden insgesamt 400 Kranke beobachtet. Im Rahmen einer kontrollierten Studie wurde eine Gruppe von 200 Patienten nur mit einem Placebo-Medikament, die restlichen 200 Patienten mit dem Medikament behandelt. Die Studie ergab folgendes Ergebnis: symptomfrei Ja Nein 104 96 83 117 Gruppe Medikament Placebo Gesamt 200 200 Die Wahrscheinlichkeiten p1 und p2 , mit bzw. ohne neues Medikament nach 6-Tagen symptomfrei zu sein, seien unbekannt. a) Testen Sie auf dem 5%-Niveau, ob die Wahrscheinlichkeit für Symptomfreiheit p1 signifikant größer als p2 ist. Lösung: In der Gruppe der medikamentös behandelten Patienten liegen n1 = 200 Daten vor, a1 = 104 Patienten sind nach 6 Tagen symptomfrei. In der Gruppe der mit einem Placebo behandelten Patienten liegen n2 = 200 Daten vor, a2 = 83 davon sind nach 6 Tagen symptomfrei. Schätzwerte für die unbekannten Wahrscheinlichkeiten sind p̂1 = a1 104 = = 0.52, n1 200 p̂2 = a2 83 = = 0.415. n2 200 Weiter ist p̂ = a1 + a2 187 = = 0.4675. n1 + n2 400 Es soll die Hypothese H0 : p 1 = p 2 (oder auch H0 · p1 ≤ p2 ) getestet werden zum Niveau α = 0.05 gegen die Alternative H1 : p 1 > p 2 . Es ist hier der Zweistichproben-Test zum Vergleich von zwei Wahrscheinlichkeiten angebracht (S. 156-158 im Skript). Da n1 + n2 = 400 ≥ 20, a1 = 104 ≥ 4, a2 = 83 ≥ 4, n1 − a1 ≥ 4, n2 − a2 ≥ 4 ist, kann die Prüfgröße r n1 · n2 p̂1 − p̂2 0.52 − 0.415 ·p = 10 · √ T = ≈ 2.104 n1 + n2 0.4675 · 0.5325 p̂ · (1 − p̂) angewendet werden. Der kritische Wert ist c1−α = c0.95 ≈ 1.645, das (1 − α)-Quantil der Standardnormalverteilung (S. 78, Beispiel 6.3). Wegen T ≥ c1−α lehnt der Test die Hypothese zum Niveau α = 0.05 ab. b) Geben Sie ein Konfidenzintervall für den Unterschied der beiden Wahrscheinlichkeiten p1 und p2 zur Konfidenzwahrscheinlichkeit 0.95 an. Lösung: Nach Abschnitt 10.10 ist mit c0.975 = 1.96 eine (approximative) untere Konfidenzgrenze für p1 − p2 s n1 + n2 p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) p̂1 − p̂2 − − c1−α/2 · + 2 · n1 · n2 n1 n2 r 400 0.52 · 0.48 0.415 · 0.585 = 0.52 − 0.415 − − c0.975 · + = 0.00275 2 · 200 · 200 200 200 und eine (approximative) obere Konfidenzgrenze für p1 − p2 s p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + n1 n2 r 400 0.52 · 0.48 0.415 · 0.585 = 0.52 − 0.415 − − c0.975 · + = 0.2072 . 2 · 200 · 200 200 200 p̂1 − p̂2 + n1 + n2 + c1−α/2 · 2 · n1 · n2 Daher ist [0.00275, 0.2072] das gesuchte Konfidenzintervall.