Institut für Mathematische Stochastik Universität Karlsruhe Dr. Bernhard Klar Sebastian Müller SS 2005 25. April 2005 Nachklausur zur Vorlesung Statistik für Biologen Musterlösungen Aufgabe 1: (15 Punkte) Bei 20 Ähren der Winterroggensorte Pluto wurde die Ährenlänge in cm gemessen: 6.5 7.0 8.8 4.5 9.1 7.2 5.4 6.3 9.3 8.3 6.2 7.7 5.6 9.0 8.4 7.1 7.3 5.3 8.6 9.5 a) Fertigen Sie eine Stamm- und Blatt-Darstellung mit der Einheit 1cm an. b) Geben Sie die geordnete Stichprobe an. c) Bestimmen Sie das empirische 0.60−Quantil und bestimmen Sie den Quartilsabstand. d) Geben Sie einen Konfidenzbereich für den Median zur Konfidenzwahrscheinlichkeit 0.9 an. Lösung: a) Stamm- und Blatt-Darstellung (n = 20, Einheit = 1 cm): Stamm 4 5 6 7 8 9 Blätter 5 6 4 3 5 3 2 0 3 2 8 3 4 3 1 0 7 6 5 1 b) Die geordnete Stichprobe ist: j x(j) 1 4.5 2 3 4 5.3 5.4 5.6 5 6.2 6 6.3 7 6.5 8 7.0 9 7.1 10 7.2 j 11 7.3 12 13 14 7.7 8.3 8.4 15 8.6 16 8.8 17 9.0 18 9.1 19 9.3 20 9.5 x(j) 1 c) Empirisches 60%-Quantil: 0.6 · 20 = 12 ist eine natürliche Zahl, also x̃0.6 = 21 (x(12) + x(13) ) = 8.0. Quartilsabstand q̃: Das untere Quartil lautet x̃0.25 = 12 (x(5) + x(6) ) = 6.25, das obere Quartil ist x̃0.75 = 21 (x(15) + x(16) ) = 8.7. Es gilt also q̃ = x̃0.75 − x̃0.25 = 2.55. d) Konfidenzbereich: Gemäß Skriptum 10.9 ist ein Konfidenzintervall für den Median M das Intervall mit dem linken Endpunkt x(k+1) und dem rechten Endpunkt x(n−k) ,wobei sich für die Konfidenzwahrscheinlichkeit 1 − α = 0.9 und n = 20 der Wert k = 5 ergibt. Damit ist [x(6) , x(15) ] = [6.3, 8.6] das gesuchte Konfidenzintervall. 2 Aufgabe 2: (16 Punkte) Bei Kartoffelpflanzen wurde das Gewicht X (in Gramm) und Y , die Menge von flüchtigen Verbindungen (in 0.01 Nanogramm), die die Pflanzen emittieren, bestimmt. Vorausgesetzt wird, dass X, Y zweidimensional normalverteilt sind. Bei n = 11 Pflanzen ergaben sich die folgenden Werte xj und yj j xj yj 1 57 8.0 2 85 22.0 3 4 57 65 10.5 13.5 5 52 12.0 6 7 67 62 11.5 7.5 8 80 13.0 9 10 77 53 16.5 10.0 11 68 12.0 und die folgende Punktwolke: 22 20 18 y 16 14 12 10 8 6 50 55 60 65 70 75 80 85 x a) Berechnen Sie den empirischen Pearson-Korrelationskoeffizienten von (x1 , y1 ), . . . , (x11 , y11 ). b) Bestimmen Sie die Regressionsgerade von y auf x und zeichnen Sie diese in das obige Schaubild ein. c) Geben Sie ein Vertrauensintervall für den Korrelationskoeffizienten ρ von X und Y zur Vertrauenswahrscheinlichkeit 0.95 an. Hinweis: Sie können folgende Angaben verwenden: x̄ = 65.73, sx = 11.07, ȳ = 12.41, sy = 4.05, 11 X xj yj = 9318. j=1 Lösung: a) Empirischer Pearson-Korrelationskoeffizient rxy : ´ ³P n 1 1 x · y − n · x̄ · ȳ j j=1 j (9318 − 11 · 65.73 · 12.41) n−1 10 = ≈ 0.770. rxy = sx · sy 11.07 · 4.05 3 b) Die Parameter a∗ und b∗ in der Regressionsgeraden y = a∗ + b∗ x berechnen sich wie folgt: sy 4.05 ≈ 0.77 · ≈ 0.282, sx 11.07 = ȳ − b∗ · x̄ ≈ 12.41 − 0.282 · 65.73 ≈ −6.13. b∗ = rxy · a∗ 22 20 18 y 16 14 12 10 8 6 50 55 60 65 70 75 80 85 x c) Ein Vertrauensbereich für ρ kann nach S. 171 im Skript berechnet werden. Zunächst wird die Fishersche z-Transformation gebildet: z= 1 1 + rxy ln = 1.020 2 1 − rxy Mit dem (1 − α/2)-Quantil der N (0, 1)-Verteilung c1−α/2 = c0.975 = 1.96 setzt man c1−α/2 1.96 zu = z − √ ≈ 1.02 − √ = 0.327, n−3 8 c1−α/2 1.96 zo = z + √ ≈ 1.02 + √ = 1.713 n−3 8 und erhält die Grenzen des Vertrauensbereichs durch e2zu − 1 ≈ 0.316, e2zu + 1 e2zo − 1 = 2zo ≈ 0.937. e +1 ρu = ρo Damit ist ein Vertrauensbereich für ρ zur Vertrauenswahrscheinlichkeit 0.99 gegeben durch [ρu , ρo ] = [0.316, 0.937]. 4 Aufgabe 3: (15 Punkte) Die Größe (in cm) eines ausgewachsenen Mannes sei N (µ, σ 2 )−verteilt mit Parametern µ = 177 und σ 2 = 100. a) Berechnen Sie die Wahrscheinlichkeit, dass die Größe eines zufällig ausgewählten Mannes größer als 200cm ist. b) Wie groß ist die Wahrscheinlichkeit, dass unter 4 zufällig ausgewählten Männern mindestens einer größer als 200cm ist? c) Wie groß ist die Wahrscheinlichkeit, dass die durchschnittliche Größe von 10 zufällig ausgewählten Männern größer als 180cm ist? Lösung: Sei Y ∼ N (0, 1). a) Sei X die Größe eines ausgewachsenen Mannes mit X ∼ N (177, 100). Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Mann größer als 200cm ist, beträgt: µ ¶ X − 177 200 − 177 √ P (X > 200) = P > √ 100 100 = P (Y > 2.3) = 1 − P (Y ≤ 2.3) = 1 − Φ(2.3) = 1 − 0.9893 (Tabelle A.1) = 0.0107 b) Seien X1 , X2 , X3 , X4 die Körpergrößen von 4 zufällig ausgewählten Männern, so sind die Xi unabhängig identisch verteilt mit Verteilung N (177, 100). Die Wahrscheinlichkeit, dass unter 4 zufällig ausgewählten Männern mindestens einer größer als 200cm ist, beträgt: P (Xi > 200, für ein i = 1, 2, 3, 4) = 1 − P (Xi ≤ 200, i = 1, 2, 3, 4) = 1 − P (X1 ≤ 200) · P (X2 ≤ 200) · · · P (X4 ≤ 200) (unabh.) = 1 − P (X1 ≤ 200)4 (gleich verteilt) a) = 1 − (0.9893)4 = 0.042. c) Die X1 , . . . , X10 sind identisch und unabhängig verteilt. Somit gilt 10 X Xi ∼ N (10 · 177, 10 · 100) = N (1770, 1000). i=1 Für die Wahrscheinlichkeit, dass die durchschnittliche Größe von 10 zufällig ausgewählten Männern größer als 180 ist, erhält man somit: 10 10 X 1 X Xi > 1800) Xi > 180) = P ( P( 10 i=1 i=1 ÃP ! 10 X − 1770 1800 − 1770 i i=1 √ √ = P > 1000 1000 30 30 = P (Y > √ ) = 1 − P (Y ≤ √ ) 1000 1000 = 1 − P (Y ≤ 0.95) ≈ 1 − 0.83 = 0.17. 5 Aufgabe 4: (12 Punkte) Bei Mäusen wurde in n = 100 Würfen zu je 4 Tieren jeweils die Anzahl k der weiblichen Tiere festgestellt. Die absoluten Häufigkeiten hk , die sich aus den Daten ergaben, sind in der folgenden Tabelle angegeben: k hk 0 1 2 7 32 33 3 4 24 4 Die Zufallsvariable X beschreibe die Anzahl der weiblichen Tiere pro Wurf. Man kann annehmen, dass X eine Bin(4, p)−verteilte Zufallsvariable ist. a) Berechnen Sie den arithmetischen Mittelwert des obigen Datensatzes. b) Nehmen Sie an, dass p = 0.5 ist und somit X ∼ Bin(4, 0.5) gilt. Berechnen Sie unter dieser Annahme den Erwartungswert von X und die Wahrscheinlichkeit, dass genau 2 Tiere eines Wurfes weiblich sind. c) Nehmen Sie nun an, dass p unbekannt ist. Geben Sie mit Hilfe der obigen Daten einen Schätzwert für p an. Lösung: a) Der arithmetische Mittelwert ist x̄ = 1 (0 · 7 + 1 · 32 + 2 · 33 + 3 · 24 + 4 · 4) = 1.86. 100 b) Für den Erwartungswert von X ergibt sich: EX = 4 · p = 4 · 0.5 = 2. Für die Wahrscheinlichkeit, dass genau zwei Tiere eines Wurfes weiblich sind, erhält man: µ ¶ 4 3 (0.5)4 = . P (X = 2) = 2 8 c) Es wurden insgesamt 400 Mäuse untersucht, darunter befanden sich 32 · 1 + 33 · 2 + 24 · 3 + 4 · 4 = 186 weibliche Tiere. Der relative Anteil 186/400 = 0.465 ist also ein naheliegender Schätzer für p. Auf diesen Schätzer kann man auch folgendermaßen kommen: Es gilt EX = 4 · p. Der arithmetische Mittelwert x̄ ist ein Schätzwert für den Erwartunsgwert einer Verteilung. Somit ist x̄/4 = 0.465 ein Schätzwert für p. 6 Aufgabe 5: (16 Punkte) Die folgende Tabelle zeigt die Wirksamkeit von Orangensaft und synthetischem Vitamin C (je 0.5 mg Vitamin C täglich) auf 15 Meerschweinchen, die zufällig in zwei Gruppen eingeteilt wurden. Gemessen wurde nach 6 Wochen das Wachstum der Odontoblasten der Schneidezähne, die Zahnschmelz absondern. Die Werte xi und yi sind in Mikron-20 ausgedrückt. Orangensaft Synthetisches Vitamin C xi yj 8.2 4.2 9.4 9.6 5.2 5.8 9.7 6.4 10.1 7.0 14.5 14.8 7.3 10.0 11.2 a) Es wird vorausgesetzt, dass die Werte xi aus einer N (µ, σ 2 )−verteilten Grundgesamtheit und die Werte yj aus einer N (ν, σ 2 )−verteilten Grundgesamtheit stammen. Testen Sie die Hypothese, dass die Wirkung nicht von der Herkunft des Vitamin C abhängt zum Niveau α = 0.05. b) Verzichten Sie nun auf die Normalverteilungsannahme. Es wird nur noch vorausgesetzt, dass das Wachstum der Odontoblasten unter Verabreichung von Orangensaft bzw. von synthetischem Vitamin C jeweils eine unbekannte stetige Verteilung besitzt. Diese Verteilungen unterscheiden sich nur in der Lage. Testen Sie auch für diesen Fall die Hypothese, dass die Wirkung nicht von der Herkunft des Vitamin C abhängt zum Niveau α = 0.05. Hinweis: Sie können folgende Angaben verwenden: x̄ = 10.90, s2x = 6.91, ȳ = 7.14 und s2y = 5.64. Lösung: Es handelt sich hier um ein Zwei-Stichproben-Problem. Die erste Stichprobe sind die Werte mit Orangensaft x1 , . . . , x7 (n = 7), die zweite Stichprobe sind die Werte mit synthetischem Vitamin C y1 , . . . , y8 (m = 8). a) Die xi stammen aus einer N (µ, σ 2 )-, die yj aus einer N (ν, σ 2 )-Verteilung. Zu testen ist H0 : µ = ν gegen H1 : µ 6= ν. Für diese Situation ist der Zwei-Stichproben-t-Test geeignet. Er hat die Prüfgröße q m·n · (x̄ − ȳ) m+n 1.93 · 3.76 =q T =q ≈ 2.91. 1 1 2 + (m − 1) · s2 ) · ((n − 1) · s · (6 · 6.91 + 7 · 5.64) y x m+n−2 13 Der kritische Wert ist nach Tabelle A.2 tm+n−2,1−α/2 = t13,0.975 = 2.16. Wegen |T | ≥ tm+n−2,1−α/2 wird die Hypothese abgelehnt. b) Wenn keine Normalverteilungsannahme vorliegt, sollte der t-Test nicht verwendet werden. Unter der Voraussetzung, dass die Verteilungen je eine Dichte besitzen und sich nur in der Lage unterscheiden, ist der Mann-Whitney-U -Test geeignet. Die Hypothese 7 H0 lautet: Die Verteilungsfunktion F der ersten Stichprobe und die Verteilungsfunktion G der zweiten Stichprobe sind gleich, also H0 : F = G. Zunächst werden zu den gegebenen 15 Daten die Ränge bestimmt. Nachfolgend sind die Ränge in Klammern nach dem jeweiligen Messwert angegeben: xi yi 8.2 (7) 4.2 (1) 9.4 (8) 5.2 (2) 9.6 (9) 5.8 (3) 9.7 (10) 10.1 (12) 6.4 (4) 7.0 (5) 14.5 (14) 14.8 (15) 7.3 (6) 10.0 (11) 11.2 (13) Nun müssen die Ränge der xi aufaddiert werden: W = 7 + 8 + 9 + 10 + 12 + 14 + 15 = 75. Die Prüfgröße des Mann-Whitney-U -Tests ist U =W− n(n + 1) 7·8 = 75 − = 47. 2 2 Der Mann-Whithney-U -Test lehnt die Hypothese ab, wenn eine der beiden Ungleichungen U ≥ Um,n,1−α/2 oder U ≤ m · n − Um,n,1−α/2 erfüllt ist. Aus Tabelle A.6 kann man ablesen: Um,n,1−α/2 = U8,7,0.975 = 46. Wegen U > 46 lehnt der Mann-Whitney-U -Test die Hypothese ab. 8 Aufgabe 6: (16 Punkte) Bis fast gegen Ende des 19. Jahrhunderts war die Sterblichkeit bei chirurgischen Eingriffen extrem hoch. Dann begann der Arzt Joseph Lister Karbolsäure zum Sterilisieren zu verwenden. In der folgenden Kontingenztafel sind die Daten von 75 Amputationen eingetragen: P überlebt nicht überlebt mit Karbolsäure 34 19 ohne Karbolsäure 6 P a) Die Kontingenztafel ist hier unvollständig angegeben. Ergänzen Sie diese. b) Testen Sie zum Niveau α = 0.01 die Hypothese, dass die Überlebenswahrscheinlichkeit p1 bei Verwendung von Karbolsäure und die Überlebenswahrscheinlichkeit p2 ohne die Verwendung von Karbolsäure gleich sind. c) Bestimmen Sie ein Vertrauensintervall für p1 − p2 zur Vertrauenswahrscheinlichkeit 0.99. Lösung: a) Als vollständige Kontingenztafel ergibt sich: überlebt nicht überlebt mit Karbolsäure 34 19 ohne Karbolsäure 6 16 P 40 35 P 53 22 75 Es sei (Überleben wird als Treffer aufgefasst) a1 = 34, a2 = 6, n1 = 53, n2 = 22 und a +a2 n = n1 + n2 . Weiter sei p̂j = njj (j = 1, 2) und p̂ = na11 +n . 2 b) Es soll ein zweiseitiger Test durchgeführt werden, d.h. die Hypothese H0 : p1 = p2 soll zum Niveau α = 0.01 gegen die Alternative H1 : p1 6= p2 getestet werden. Es ist n1 + n2 > 60, somit lautet die Testgröße T = n1 · n2 (p̂1 − p̂2 )2 · ≈ 8.5. n1 + n2 p̂(1 − p̂) H0 wird abgelehnt, falls T ≥ χ21,1−α . In unserem Fall ist χ21,0.99 ≈ 6.63, und somit wird die Hypothese verworfen. 9 c) Nach Abschnitt 10.10 ist mit c0.995 = 2.576 eine approximative untere Konfidenzgrenze für p1 − p2 gegeben durch: s n1 + n2 p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) u := p̂1 − p̂2 − − c1−α/2 · + 2 · n1 · n2 n1 n2 r 75 0.641 · 0.359 0.273 · 0.727 − 2.576 · + = 0.039. = 0.3688 − 2 · 53 · 22 53 22 Die obere Konfidenzgrenze ist dann gegeben durch: s n1 + n2 p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + c1−α/2 · + o := p̂1 − p̂2 + 2 · n1 · n2 n1 n2 r 75 0.641 · 0.359 0.273 · 0.727 = 0.3688 + + 2.576 · + = 0.699. 2 · 53 · 22 53 22 Wir erhalten somit mit [0.039, 0.699] das gesuchte Konfidenzintervall. 10