Institut für Mathematische Stochastik Universität Karlsruhe Priv.-Doz. Dr. D. Kadelka WS 2003/2004 30. April 2004 Nachklausur zur Vorlesung Statistik für Biologen Musterlösungen Aufgabe 1 Gemessen wurde bei 20 Kindern der Horizontaldurchmesser der Hornhaut des rechten Auges in mm: 12.54, 12.36, 12.18, 12.00, 11.95, 11.95, 11.81, 11.77, 11.74, 11.73, 11.58, 12.01, 11.53, 11.12, 12.18, 11.09, 11.07, 10.88, 10.41, 10.21. a) Fertigen Sie eine Stamm- und Blatt-Darstellung mit der Einheit 1 mm an. Lösung: Stamm- und Blatt-Darstellung (n = 20, Einheit = 1 mm): Stamm 10 11 12 Blätter 88 41 21 95 95 81 54 36 18 77 00 74 01 73 18 58 53 12 09 07 b) Geben Sie die geordnete Stichprobe an. Lösung: Die geordnete Stichprobe ist x() = (10.21, 10.41, 10.88, 11.07, 11.09, 11.12, 11.53, 11.58, 11.73, 11.74, 11.77, 11.81, 11.95, 11.95, 12.00, 12.01, 12.18, 12.18, 12.36, 12.54) c) Bestimmen Sie das empirische 0.66-Quantil und bestimmen Sie den Quartilsabstand. Lösung: Da 20 · 0.66 = 13.2 nicht ganzzahlig ist, ist das 0.66-Quantil x̃0.66 = x([20·0.66+1]) = x([14.2]) = x(14) = 11.95 Für den Quartilsabstand benötigen wir das obere Quartil x̃0.25 und das untere Quartil x̃0.75 . Da 20 · 0.25 = 5 ganzzahlig ist, gilt x̃0.25 = ¢ 1 1¡ x(5) + x(6) = (11.09 + 11.12) = 11.105 2 2 und analog x̃0.75 = ¢ 1 1¡ x(15) + x(16) = (12.00 + 12.01) = 12.005 . 2 2 Der Quartilsabstand ist also x̃0.75 − x̃0.25 = 12.005 − 11.105 = 0.9. d) Geben Sie einen Konfidenzbereich für den Median zur Sicherheitswahrscheinlichkeit 0.9 an. Lösung: Gemäß Skriptum 10.9 ist ein Konfidenzintervall für den unbekannten Median M das Intervall mit dem linken Endpunkt x(k+1) und dem rechten Endpunkt x(n−k) , wobei für die Sicherheitswahrscheinlichkeit 1 − α = 0.9 und n = 20 sich der Wert k = 5 ergibt. Damit ist [x(6) , x(15) ] = [11.12, 12.00] das gesuchte Konfidenzintervall. Aufgabe 2 Ein Verfahren zur Bestimmung des Blutzuckerwertes liefere einen falschen Wert mit der Wahrscheinlichkeit p = 0.02. In einem Labor werden an einem Tag n = 100 Bestimmungen durchgeführt, wobei davon ausgegangen werden kann, dass sich die einzelnen Bestimmungen nicht gegenseitig beeinflussen. a) Welche Verteilung hat X, die zufällige Anzahl der fehlerhaften Werte? Lösung: Es liegt hier ein Treffer-Niete-Experiment vor mit n = 100 Versuchen und der Treffer-Wahrscheinlichkeit p = 0.02. (Ein Treffer liegt hier vor, wenn das Verfahren einen falschen Wert liefert.) Gemäß 5.2.1 hat also X, die zufällige Anzahl der Treffer, die Binomialverteilung Bin(n, p) = Bin(100, 0.02) . b) Beschreiben Sie das Ereignis {X = 3}. Lösung: {X = 3} ist das Ereignis, dass das Verfahren an einem Tag genau 3 falsche Werte liefert. c) Bestimmen Sie die Wahrscheinlichkeit, dass höchstens zwei der Werte falsch sind. Lösung: Gesucht ist die Wahrscheinlichkeit P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2) µ ¶ µ ¶ µ ¶ 100 100 100 0 100 1 99 = · 0.02 · 0.98 + · 0.02 · 0.98 + · 0.022 · 0.9898 0 1 2 100 · 99 · 0.022 · 0.9898 = 0.6767 . = 1 · 1 · 0.98100 + 100 · 0.02 · 0.9899 + 2 d) Bestimmen Sie den Erwartungswert und die Varianz von X. Lösung: Allgemein gilt nach den Tabellen in 6.1.1 und 6.2.1, dass Bin(n, p) den Erwartungswert n · p und die Varianz n · p · (1 − p) hat. Der Erwartungswert von X ist also 100 · 0.02 = 2 und die Varianz 100 · 0.02 · 0.98 = 1.96. e) Die Zufallsvariable X besitzt näherungsweise eine Poisson-Verteilung P o(λ) mit einem Parameter λ > 0. Wie groß ist λ zu wählen? Lösung: Nach den Überlegungen in 5.2.3 tritt die Poisson-Verteilung P o(λ) mit λ = n · p bei großem n und kleinem p als Approximation von Bin(n, p) auf. Diese Voraussetzungen sind hier erfüllt mit λ=n·p=2 . Aufgabe 3 Der zufällige Wirkstoffgehalt X (gemessen in mg) einer Tablette sei produktionsbedingt eine N (200, 25)-verteilte Zufallsvariable. a) Mit welcher Wahrscheinlichkeit liegt der Wirkstoffgehalt X einer Tablette unterhalb von 190 mg und mit welcher Wahrscheinlichkeit oberhalb von 190 mg? Lösung: Nach Voraussetzung gilt X ∼ N (200, 25) = N (200, 52 ). Gesucht ist zuerst P (X ≤ 190). Wegen Abschnitt 5.1.1 gilt µ P (X ≤ 190) = Φ200,52 (190) = Φ 190 − 200 5 ¶ = Φ(−2) = 1 − Φ(2) = 1 − 0.9772 = 0.0228 . Hieraus folgt für die zweite gesuchte Wahrscheinlichkeit P (X > 190) = 1 − P (X ≤ 190) = 1 − 0.0228 = 0.9772 . b) Wie groß ist die Wahrscheinlichkeit, dass der Wirkstoffgehalt X um mehr als 12 mg vom Sollgehalt 200 mg abweicht? Lösung: Gesucht ist P (|X − 200| > 12) = 1 − P (|X − 200| ≤ 12. Hier lässt sich Beispiel 5.6 aus dem Skriptum anwenden (k · σ-Bereiche der Normalverteilung). Mit k = 2.4 und σ = 5 ist k · σ = 2.4 · 5 = 12, also P (|X − 200| ≤ 12) = P (|X − 200| ≤ k · σ) = Φ(k) = Φ(2.4) = 0.9918 und damit die gesuchte Wahrscheinlichkeit P (|X − 200| > 12) = 1 − 0.9918 = 0.0082 . c) Ein Tablettenröhrchen enthält 8 Tabletten. Wie groß ist die Wahrscheinlichkeit, dass alle 8 Tabletten mehr als 190 mg Wirkstoffgehalt haben? (Setzen Sie voraus, dass die Wirkstoffgehalte der einzelnen Tabletten unabhängig voneinander sind.) Hinweis: Verwenden Sie das Resultat aus a). Lösung: Sei Y die zufällige Anzahl der Tabletten, die einen Wirkstoffgehalt von mehr als 190 mg haben. Nach Voraussetzung liegt hier ein Treffer-Niete Experiment mit n = 8 Versuchen und einer Trefferwahrscheinlichkeit p = 0.9772 vor. Die Zufallsvariable Y hat also die Verteilung Bin(n, p) = Bin(8, 0.9772) und die gesuchte Wahrscheinlichkeit ergibt sich zu µ ¶ 8 P (Y = 8) = · p8 · (1 − p)0 = 1 · 0.97728 · 1 = 0.8315 . 8 Aufgabe 4 Man vermutet, dass bei Personen, die zu Herzinfarkt neigen, der Eisengehalt des Serums im allgemeinen höher ist als bei gesunden Personen. Aus umfangreichen Untersuchungen ist bekannt, dass der Median des Eisengehalts bei gesunden Männern 1.15 µg/l (Mikrogramm pro Milliliter) beträgt. Bei n = 16 Männern, die schon einen Infarkt überlebt haben und nach wie vor infarktgefährdet sind, misst man folgende Werte: 0.97, 1.29, 1.19, 1.64, 0.87, 1.32, 1.21, 1.33, 1.41, 1.23, 1.36, 1.12, 1.19, 1.58, 1.19, 1.39 a) Testen Sie auf dem 0.05-Niveau die Hypothese, dass der (wahre) Median des Eisengehalts bei infarktgefährdeten Männern gleich 1.15 (µg/l) ist. Lösung: Das Testproblem lautet: Teste H0 : M = 1.15 gegen H1 : M 6= 1.15, wobei M den unbekannten Median der zugrundeliegenden Verteilung bezeichnet. Wir verwenden den Median-Vorzeichentest mit der Prüfgröße N+ = Anzahl der Stichprobenwerte, die größer als 1.15 sind. Aus den Daten folgt N+ = 13. Der Median-Vorzeichentest lehnt zum Niveau α die Hypothese H0 genau dann ab, wenn N+ ≤ k oder N+ ≥ n − k mit k aus Tabelle A.5 gilt. Hier ist α = 0.05 und n = 16 und damit k = 3. Wegen N+ = 13 ≥ 16 − 3 = 13 wird H0 zum Niveau α = 0.05 abgelehnt. b) Nehmen Sie nun an, dass bei infarktgefährdeten Männern der Eisengehalt des Serums eine Normalverteilung mit unbekannten Parametern µ und σ 2 besitzt. Testen Sie auf dem Niveau α = 0.05 die Hypothese H0 : µ = 1.15 (µg/l). Hinweis: Für die obigen 16 Werte gilt: x̄16 = 1.2681, sx = 0.1964. Lösung: Das Testproblem lautet jetzt: Teste H0 : µ = µ0 := 1.15 gegen H1 : √ µ 6= 1.15. Wir n · (x − µ0 ) verwenden den zweiseitigen Einstichproben-t-Test mit der Prüfgröße T = . sx Aus den Daten folgt gemäß Hinweis n = 16, und damit √ T = x = 1.2681, sx ≈ 0.1964, 16 · (1.2681 − 1.15) √ ≈ 2.4053 . 0.1964 Weiter gilt für α = 0.05 mit 1 − α/2 = 0.975 nach Tabelle A.2 tn−1,1−α/2 = t15,0.975 ≈ 2.13 . H0 wird zum Niveau α genau dann verworfen, wenn |T | ≥ tn−1,1− α2 . Wegen |T | = 2.4053 > 2.13 = t15,0.975 wird also die Hypothese H0 zum Niveau α = 0.05 verworfen. c) Bestimmen Sie unter den Voraussetzungen von b) einen 0.95-Vertrauensbereich für µ. Lösung: Gemäß Satz 10.18 ist ein Konfidenzintervall für µ zur Konfidenzwahrscheinlichkeit 1 − α = 0.05 · ¸ sx sx x̄ − √ · tn−1,1−α/2 , x̄ + √ · tn−1,1−α/2 n n Einsetzen der Werte aus b) ergibt · ¸ 0.1964 0.1964 1.2681 − · 2.13, 1.2681 + · 2.13 = [1.1635, 1.3727] . 4 4 Aufgabe 5 Ein Imker hat zu Beginn einer Tracht 18 etwa gleichstarke Völker; 7 davon gehören zur Rasse A, die restlichen 11 zur Rasse B. Er möchte herausfinden, ob sich die beiden Rassen bei den gegebenen Verhältnissen hinsichtlich ihres Honigertrags unterscheiden. Bei der Schleuderung am Ende der Tracht erhält er von den Völkern der Rasse A die Mengen x1 , . . . , x7 an Honig, von den Völkern der Rasse B die Mengen y1 , . . . , y11 (gemessen jeweils in kg): Rasse A: Rasse B: 14.1, 16.9, 7.5, 8.6, 17.6, 19.3, 20.2, 20.8, 21.5, 11.7, 13.5, 13.7, 14.2, 16.0, 17.4, Man erhält daraus: x̄7 = 18.63, s2x = 6.74, ȳ11 = 14.86, s2y = 20.57. 19.2, 20.4, 21.3 . a) Nehmen Sie an, dass die xi aus einer N (µ, σ 2 )-verteilten Grundgesamtheit und die yj aus einer N (ν, σ 2 )-verteilten Grundgesamtheit stammen. Testen Sie zum Niveau α = 0.05 die Hypothese H0 : µ = ν. Lösung: Es handelt sich hier um ein Zwei-Stichproben-Problem. Die erste Stichprobe sind die n = 7 Werte x1 , . . . , x7 (Rasse A), die zweite Stichprobe die m = 11 Werte y1 , . . . , y11 (Rasse B). Zu testen ist H0 : µ = ν gegen H1 : µ 6= ν. Für diese Situation ist der Zwei-Stichproben-t-Test geeignet. Er hat die Prüfgröße q m·n · (x̄ − ȳ) m+n 2.068 · 3.76 T =q ≈q ≈ 1.982. 1 1 2 + (m − 1) · s2 ) · ((n − 1) · s · (6 · 6.74 + 10 · 20.57) x y m+n−2 16 Der kritische Wert ist nach Tabelle A.2 tm+n−2,1−α/2 = t16,0.975 ≈ 2.12. Wegen |T | < tm+n−2,1−α/2 kann die Hypothese nicht abgelehnt werden. b) Verzichten Sie jetzt auf die Normalverteilungsannahme, und nehmen Sie statt dessen nur noch an, dass die beiden Verteilungen stetig sind. Testen Sie jetzt auf dem Niveau α = 0.05 die Hypothese, dass die beiden Verteilungen übereinstimmen. Lösung: Wenn keine Normalverteilungsannahme vorliegt, sollte der t-Test nicht verwendet werden. Für dieses Problem ist der Mann-Whitney-U -Test geeignet. Die Hypothese H0 lautet: Die Verteilungsfunktion F der ersten Stichprobe und die Verteilungsfunktion G der zweiten Stichprobe sind gleich, also H0 : F = G. Zunächst werden zu den gegebenen 18 Daten die Ränge bestimmt. Wir ergänzen dazu die obige Tabelle durch die Ränge der einzelnen Werte. Rasse A: 14.1, 6 Rasse B: 7.5, 1 16.9, 9 8.6, 2 17.6, 19.3, 20.2, 20.8, 21.5, 11 13 14 16 18 11.7, 13.5, 13.7, 14.2, 16.0, 3 4 5 7 8 17.4, 10 19.2, 12 20.4, 15 21.3 17 Nun müssen die Ränge der xi aufaddiert werden: W = 6 + 9 + 11 + 13 + 14 + 16 + 18 = 87. Die Prüfgröße des Mann-Whitney-U -Tests ist U =W− 7·8 n(n + 1) = 87 − = 59. 2 2 Der Mann-Whithney-U -Test lehnt die Hypothese ab, wenn eine der beiden Ungleichungen U ≥ Um,n,1−α/2 oder U ≤ m · n − Um,n,1−α/2 erfüllt ist. Aus Tabelle A.6 kann man ablesen: Um,n,1−α/2 = U7,11,0.975 = U11,7,0.975 = 61. Weil weder U ≤ m · n − Um,n,1−α/2 = 77 − 61 = 16 noch U ≥ Um,n,1−α/2 = 61 gilt, lehnt der Mann-Whitney-U -Test die Hypothese nicht ab. Aufgabe 6 Bei einer Virus-Epidemie wurden insgesamt 400 Kranke beobachtet. Eine Gruppe von n1 = 200 Patienten konnte nur symptomatisch, die restlichen n2 = 200 Patienten zusätzlich mit einem neuen Medikament A behandelt werden. Die Anzahl der geheilten und nicht geheilten Personen wurden nach Behandlungsmethode in einer Kontingenztafel eingetragen: geheilt ja nein Σ Methode symptomatisch 103 medikamentös 200 63 200 Σ a) Die Kontingenztafel ist hier nur unvollständig angegeben. Ergänzen Sie diese. Lösung: Da die Zeilensummen hier jeweils n1 = 200 bzw. n2 = 200 sind, ergänzt sich die Kontingenztafel zu geheilt ja nein Σ symptomatisch 103 97 200 medikamentös 137 63 200 Σ 240 160 400 Methode b) Testen Sie zum Niveau α = 0.05 die Hypothese H0 , dass die Heilungswahrscheinlichkeiten p1 der symptomatischen und p2 der medikamentösen Behandlungsmethoden gleich sind. Lösung: In der Gruppe der symptomatisch behandelten Patienten liegen n1 = 200 Daten vor, davon werden a1 = 103 Patienten geheilt. In der Gruppe der medikamentös behandelten Patienten liegen ebenfalls n2 = 200 Daten vor, davon werden a2 = 137 geheilt. Schätzwerte für die unbekannten Wahrscheinlichkeiten sind p̂1 = 103 a1 = = 0.515, n1 200 p̂2 = a2 137 = = 0.685. n2 200 Weiter ist p̂ = a1 + a2 240 = = 0.600. n1 + n2 400 Es soll die Hypothese H0 : p1 = p2 getestet werden zum Niveau α = 0.05 gegen die Alternative H1 : p1 6= p2 . Es ist hier der Zweistichproben-Test zum Vergleich von zwei Wahrscheinlichkeiten angebracht (S. 156-158 im Skript). Da n1 + n2 = 400 ≥ 20, a1 = 104 ≥ 4, a2 = 83 ≥ 4, n1 − a1 ≥ 4, n2 − a2 ≥ 4 ist, kann die Prüfgröße T = n1 · n2 (p̂1 − p̂2 )2 (0.515 − 0.685)2 · = 100 · ≈ 12.04 n1 + n2 p̂ · (1 − p̂) 0.6 · 0.4 angewendet werden. Der kritische Wert ist χ21,1−α ≈ 3.84, das (1 − α)-Quantil der χ21 Verteilung (Anhang A.3). Wegen T ≥ χ21,1−α wird die Hypothese zum Niveau α = 0.05 abgelehnt. c) Bestimmen Sie einen 0.95-Vertrauensbereich für p1 − p2 . Lösung: Nach Abschnitt 10.10 ist mit c0.975 = 1.96 eine (approximative) untere Konfidenzgrenze für p1 − p2 s p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + n1 n2 r 0.515 · 0.485 0.685 · 0.315 400 − c0.975 · + = 0.515 − 0.685 − 2 · 200 · 200 200 200 = −0.170 − 0.100 = −0.270 p̂1 − p̂2 − n1 + n2 − c1−α/2 · 2 · n1 · n2 und eine (approximative) obere Konfidenzgrenze für p1 − p2 s p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + n1 n2 r 400 0.515 · 0.485 0.685 · 0.315 = 0.515 − 0.685 + + c0.975 · + 2 · 200 · 200 200 200 = −0.170 + 0.100 = −0.070 p̂1 − p̂2 + n1 + n2 + c1−α/2 · 2 · n1 · n2 Daher ist [−0.270, −0.070] das gesuchte Konfidenzintervall.