Klausur zur Vorlesung Statistik für Biologen - KIT

Werbung
Institut für Mathematische Stochastik
Universität Karlsruhe
Priv.-Doz. Dr. D. Kadelka
WS 2002/2003
10. Februar 2003
Klausur zur Vorlesung
Statistik für Biologen
Musterlösungen
Aufgabe 1
Neun Versuchsfeldern wurden unter sonst gleichen Bedingungen unterschiedliche Mengen
von anorganischem Phosphor zugesetzt. Die auf den einzelnen Feldern ausgesäten Getreidepflanzen wurden nach 68 Tagen geerntet und auf ihren Ertrag hin untersucht.
Man erhielt die folgenden Werte
Phosphor in (ppm)
Ertrag (kg)
a)
1
4
5
64 71 54
9
13 11 23
23
28
81 93 76 77 95 109
Berechnen Sie die Stichprobenmittel x̄, ȳ, die Stichproben-Standardabweichungen sx ,
sy und den empirischen Pearson-Korrelationskoeffizienten.
Lösung: Direkt aus den Daten ergibt sich gemäß den Abschnitten 2.1, 2.8 und 3.2 des
Skriptums unter Ausnützung der Beziehung
n
X
(xj − x̄) · (yj − ȳ) =
j=1
n
X
xj · yj − n · x̄ · ȳ
j=1
x̄ = 13
ȳ = 80
sx = 9.579
sy = 16.86
und der empirische Pearson-Korrelationskoeffizient zu rxy = 0.7787.
b)
Bestimmen Sie die zugehörige Regressionsgerade y = a∗ + b∗ · x von y auf x, und
zeichnen Sie sie in die nachfolgende Figur ein.
sy
Lösung: Nach Abschnitt 3.2 des Skriptums ist y = a∗ + b∗ · x mit b∗ = rxy ·
und
sx
a∗ = ȳ − b∗ · x̄ die gesuchte Regressionsgerade, also
b∗ = 1.371
a∗ = 62.18
und die Regressionsgerade y = 62.18 + 1.371 · x. Beachtet man, dass die Regressionsgerade die y-Achse an der Stelle a∗ = 62.18 schneidet, so erhält man
Punkte und Regressionsgerade y = a∗ + b∗ · x
c)
Berechnen Sie den Spearman-Rang-Korrelationskoeffizienten.
Lösung: Für den Spearman-Rang-Korrelationskoeffizienten
ρxy = 1 −
n
9
X
X
6
6
2
·
(j
−
R
)
=
1
−
·
(j − Rj )2
j
n · (n2 − 1) j=1
9 · (92 − 1) j=1
sind die Ränge Rj der yj zu bestimmen, die zum j-kleinsten xj -Wert gehören.
j
xj
yj
Rj
1 2 3
1 4 5
64 71 54
2 3 1
4 5 6 7 8
9
9 13 11 23 23 28
81 93 76 77 95 109
6 7 4 5 8
9
Damit
ρxy = 1 −
1
· ((1 − 2)2 + (2 − 3)2 + (3 − 1)2 + (4 − 6)2
120
+ (5 − 7)2 + (6 − 4)2 + (7 − 5)2 + (8 − 8)2 + (9 − 9)2 ) = 1 −
22
= 0.8167.
120
Aufgabe 2
Es wurden die Flächeninhalte von Blättern eines Apfelbaumes gemessen. Dabei erhielt man
folgende Werte (in cm2 ):
24.9
20.6
24.9
19.8
19.1
a)
20.1
20.8
25.9
25.2
27.7
23.1
22.7
25.0
20.1
24.7
18.8
21.3
24.3
24.0
27.9
19.9
21.2
21.4
26.0
27.2
18.0
21.7
24.1
22.0
23.9
26.0
20.7
25.3
20.6
20.0
25.8
23.6
26.9
19.7
25.6
Fertigen Sie eine Stamm- und Blatt-Darstellung an mit der Einheit 1 cm2 .
Lösung: Stamm- und Blatt-Darstellung (n = 40, Einheit = 1 cm2 ):
Stamm
18
19
20
21
22
23
24
25
26
22
b)
Blätter
8 0
9 8 7
1 6 8
3 2 7
7 0
1 6 9
9 9 3
8 9 0
0 9 0
7 9 2
1
7 1
4
6
1 0
3 2
7
6
0
Bestimmen Sie den (empirischen) Median der Stichprobe.
Lösung: Da n = 40 eine gerade Zahl ist, ist der empirische Median x̃ = 12 (x(n/2) +
x(n/2+1) ) = 12 (x20) + x(21) ). Aus der Stamm- und Blatt-Darstellung lassen sich ablesen:
x(20) = 23.1,
x(21) = 23.6.
Damit erhält man als empirischen Median der Stichprobe
1
x̃ = (x(20) + x(21) ) = 23.35 .
2
c)
Geben Sie einen Konfidenzbereich für den Median zur Konfidenzwahrscheinlichkeit 0.95
an.
Lösung: Gesucht ist ein Konfidenzbereich für den Median x̃. Für n = 40 und 1 − α =
0.95 kann man aus Tabelle A.5 den Wert k = 13 anlesen. Damit ist der Konfidenzbereich (Skript, S. 125):
x(k+1) ≤ x̃ ≤ x(n−k)
Aus der Stamm- und Blatt-Darstellung liest man x(14) = 21.2 und x(27) = 24.9 ab. Der
gesuchte Konfidenzbereich ist also [21.2, 24.9].
Aufgabe 3
Von einer bestimmten Erbkrankheit sei bekannt, dass sie bei 12% aller männlichen Tiere
einer bestimmten Tierpopulation auftritt.
a)
Bei n = 30 zufällig ausgewählten männlichen Tieren dieser Population wird überprüft,
ob sie diese Erbkrankheit haben. Welche Verteilung besitzt die zufällige Anzahl X der
erkrankten Tiere unter den 30 untersuchten?
Lösung: Es liegt hier ein typisches Zufallsexperiment mit den zwei Möglichkeiten
krank“ (Treffer) bzw. nicht krank“ (Niete) vor, beschrieben im Skriptum in Ab”
”
schnitt 5.2.1. Da die Trefferwahrscheinlichkeit hier p = 0.12 ist, besitzt X die Verteilung
Bin(30, 0.12).
b)
Bestimmen Sie unter den Voraussetzungen von a) die Wahrscheinlichkeit dafür, dass
mindestens 3 männliche Tiere an dieser Erbkrankheit leiden.
Lösung: Zu berechnen ist P (X ≥ 3). Um die Berechnung zu vereinfachen, benützen
wir P (X ≥ 3) = 1 − P (X ≤ 2) und nach Abschnitt 5.1 und Formel (5.1) im Skriptum
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
30
30
30
0
30
1
29
=
· 0.12 · 0.88 +
· 0.12 · 0.88 +
· 0.122 · 0.8828
0
1
2
30 · 29
= 0.8830 + 30 · 0.12 · 0.8829 +
· 0.122 · 0.8828 = 0.2847 .
2
c)
Bestimmen Sie mit einer geeigneten Näherungsformel die Wahrscheinlichkeit dafür,
dass unter jetzt n = 400 zufällig ausgewählten männlichen Tieren der Anteil der erkrankten Tiere zwischen 10% und 14% liegt.
Lösung: Wir gehen hier wie in Beispiel 9.1 im Skriptum vor und wenden Formel (9.6)
an. Definiert man wie dort die Zufallsvariable Xj durch
1 , falls das j-te Tier erkrankt ist,
Xj =
0 , falls das j-te Tier nicht erkrankt ist
(j = 1, . . . , n), so ist X̄n gerade der Anteil der erkrankten Tiere und mit µ = E(X1 ) =
p = 0.12 und σ 2 = V (X1 ) = p(1 − p) = 0.1056 folgt
0.10 − 0.12 √
0.14 − 0.12 √
√
√
· 400 − Φ
· 400
P (0.10 ≤ X̄n ≤ 0.14) ≈ Φ
0.1056
0.1056
Φ(1.2309) − Φ(−1.2309) = Φ(1.2309) − (1 − Φ(1.2309)) = 2 · Φ(1.2309) − 1
≈ 2 · Φ(1.24) − 1 = 2 · 0.8925 − 1 = 0.785
Aufgabe 4
Die zufällige Flügellänge X (gemessen in mm) der Stubenfliege (musca doméstica) sei näherungsweise N (µ, σ 2 )-verteilt. An 16 zufällig ausgewählten Stubenfliege wurde die Länge des
rechten Flügels gemessen. Es ergaben sich die folgenden Werte:
5.3 5.2 5.6 5.6 6.0 6.0 5.4 6.2
4.8 4.7 6.0 6.2 4.9 5.3 5.1 4.6
a)
Bestimmen Sie ein Konfidenzintervall für µ zur Konfidenzwahrscheinlichkeit 0.9.
Lösung: Zu der Stichprobe der Größe n = 16 muss zunächst der empirische Mittelwert
und die empirische Varianz berechnet werden:
n
1X
86.9
xi =
x̄ =
≈ 5.431
n i=1
16
und
1
s2 =
n−1
n
X
i=1
x2i − nx̄2
!
≈
1
(476.29 − 16 · 5.4312 ) = 0.288.
15
√
Die empirische Standardabweichung ist dann s = s2 ≈ 0.536. Das Konfidenzintervall
für µ ist wegen Satz 10.18 a) mit dem 1−α/2-Quantil t15,0.95 = 1.75 der tn−1 -Verteilung
Untere Schranke:
s
0.536
x̄ − √ · tn−1,1−α/2 ≈ 5.431 − √
· 1.75 ≈ 5.1965
n
16
Obere Schranke:
s
0.536
x̄ + √ · tn−1,1−α/2 ≈ 5.431 + √
· 1.75 ≈ 5.6655
n
16
Das Konfidenzintervall für µ zum Niveau 0.9 ist also [5.1965, 5.6655]
b)
Bestimmen Sie ein Konfidenzintervall für σ 2 zur Konfidenzwahrscheinlichkeit 0.9.
Lösung: Aus Tabelle A.3 und A.4 entnehmen wir die Werte χ2n−1,1−α/2 = χ215,0.95 = 25.0
und χ2n−1,α/2 = χ215,0.05 = 7.26. Das Konfidenzintervall für σ 2 ist wegen Satz 10.18 c):
Untere Schranke:
(n − 1)s2
15 · 0.288
≈
≈ 0.173
2
χn−1,1−α/2
25.0
Obere Schranke:
(n − 1)s2
15 · 0.288
≈
≈ 0.595
2
χn−1,α/2
7.26
Das Konfidenzintervall für σ 2 zum Niveau 0.9 ist also [0.173, 0.595].
c)
Testen Sie zum Niveau α = 0.05 die Hypothese, dass die mittlere Flügellänge nicht
größer als 4.8 mm ist.
Lösung: Zu testen ist H0 : µ ≤ µ0 = 4.8 gegen H1 : µ > 4.8. Dazu verwenden wir den
einseitigen Einstichproben-t-Test aus 12.2.2. H0 wird abgelehnt, wenn
√
n · (x̄ − µ0 )
≥ tn−1,1−α .
T =
s
√
Hier ist tn−1,1−α = t15,0.95 = 1.75, also T =
H0 ist also abzulehnen.
16·(5.431−4.8)
0.536
= 4.71 > 1.75. Die Hypothese
Aufgabe 5
In einer Klinik wurden 16 magenkranke Patienten behandelt. Bei 6 der Patienten wurde
eine psychogene Ursache des Leidens angenommen, weil sich kein objektiver Befund nachweisen ließ und die Patienten nicht auf die Behandlung ansprachen. Mit allen 16 Patienten
wurde unter einem Vorwand ein Reaktionstest durchgeführt, bei dem erfahrungsgemäß die
Reaktionszeit bei den Patienten mit psychogener Ursache des Leidens etwas größer ist. Die
Reaktionszeiten (für jede Person) wurden gemessen. Das Ergebnis (in 1/100 Sekunden) ist
in der folgenden Tabelle enthalten.
xi (psychogene Kranke)
yi (somatogene Kranke)
a)
18 23 23 26 41 43
13 14 17 17 20 21 24 27 32 37
Nehmen Sie an, dass die Daten xi aus einer N (µ, σ 2 )-verteilten Grundgesamtheit und
die yj aus einer N (ν, σ 2 )-verteilten Grundgesamtheit stammen. Kann die Alternative
H1 : µ > ν zum Niveau α = 0.05 statistisch gesichert werden? Hat die Gestalt der
Hypothese H0 : µ = ν oder H0 : µ ≤ ν einen Einfluss auf die Entscheidung?
Lösung: Es handelt sich hier um ein Zwei-Stichproben-Problem. Die erste Stichprobe sind die Werte x1 , . . . , x6 , die zweite Stichprobe sind die Werte y1 , . . . , y10 . Die xi
stammen aus einer N (µ, σ 2 )-, die yi aus einer N (ν, σ 2 )-Verteilung. Zu testen ist
H0 : µ = ν
gegen
H1 : µ > ν,
wobei hier auch die Hypothese H0 : µ ≤ ν zur gleichen Entscheidung führt. Für diese
Situation ist der einseitige Zwei-Stichproben-t-Test aus 13.1.2 geeignet. Er hat die
Prüfgröße (mit x̄ = 29, s2x = 108.4, ȳ = 22.2, s2y = 61.51)
T =q
q
1
m+n−2
m·n
m+n
· (x̄ − ȳ)
· ((n − 1) ·
s2x
+ (m − 1) ·
s2y )
≈q
q
1
14
60
16
· (29.0 − 22.2)
· (5 · 108.4 + 9 · 61.51)
Der kritische Wert ist nach Tabelle A.2
tm+n−2,1−α = t14,0.95 ≈ 1.76.
Wegen T < tm+n−2,1−α kann die Hypothese nicht abgelehnt werden.
≈ 1.489.
b)
Verzichten Sie jetzt auf die Normalverteilungsannahme, und nehmen Sie statt dessen
nur noch an, dass die beiden Verteilungen je eine Dichte besitzen, die durch (eventuelle)
Verschiebung auseinander hervorgehen.
Testen Sie jetzt zum Niveau α = 0.05 die Hypothese, dass die beiden Verteilungen
übereinstimmen.
Lösung: Wenn keine Normalverteilungsannahme vorliegt, sollte der t-Test nicht verwendet werden. Für dieses Problem ist der Mann-Whitney-U -Test geeignet. Die Hypothese H0 lautet: Die Verteilungsfunktion F der ersten Stichprobe und die Verteilungsfunktion G der zweiten Stichprobe sind gleich, also
H0 : F = G.
Aus den Daten folgt, dass keine Bindungen zwischen den x- und den y-Werten auftreten, so dass der unmodifizierte Mann-Whitney-U -Test verwendet werden kann.
Zunächst werden zu den gegebenen 16 Daten die Ränge bestimmt. Nachfolgend sind
die Ränge in Klammer nach dem jeweiligen Messwert angegeben:
xi
yi
18(5) 23(8.5) 23(8.5) 26(11) 41(15) 43(16)
13(1) 14(2)
17(3.5) 17(3.5) 20(6) 21(7) 24(10) 27(12) 32(13) 37(14)
Nun müssen die Ränge der xi aufaddiert werden:
W = 5 + 8.5 + 8.5 + 11 + 15 + 16 = 64
Die Prüfgröße des Mann-Whitney-U -Tests ist
U =W−
n(n + 1)
6·7
= 64 −
= 43.
2
2
Der Mann-Whithney-U -Test lehnt die Hypothese ab, wenn eine der beiden Ungleichungen
U ≥ Um,n,1−α/2 oder U ≤ m · n − Um,n,1−α/2
erfüllt ist, wobei hier n = 6 und m = 10. Aus Tabelle A.6 kann man ablesen:
Um,n,1−α/2 = U10,6,0.975 = 49.
Es gilt weder U ≥ Um,n,1−α/2 noch U ≤ m · n − Um,n,1−α/2 = 60 − 49 = 11, also lehnt
auch der Mann-Whitney-U -Test die Hypothese nicht ab.
Aufgabe 6
In einer kontrollierten Studie sollte untersucht werden, ob die Einnahme eines neu entwickelten Grippe-Medikamentes den Krankheitsverlauf so beeinflusst, dass die Kranken nach 6
Tagen symptomfrei sind. Bei einer Grippe-Epidemie wurden insgesamt 400 Kranke beobachtet. Im Rahmen einer kontrollierten Studie wurde eine Gruppe von 200 Patienten nur mit
einem Placebo-Medikament, die restlichen 200 Patienten mit dem Medikament behandelt.
Die Studie ergab folgendes Ergebnis:
symptomfrei
Ja
Nein
104
96
83
117
Gruppe
Medikament
Placebo
Gesamt
200
200
Die Wahrscheinlichkeiten p1 und p2 , mit bzw. ohne neues Medikament nach 6-Tagen symptomfrei zu sein, seien unbekannt.
a)
Testen Sie auf dem 5%-Niveau, ob die Wahrscheinlichkeit für Symptomfreiheit p1 signifikant größer als p2 ist.
Lösung: In der Gruppe der medikamentös behandelten Patienten liegen n1 = 200
Daten vor, a1 = 104 Patienten sind nach 6 Tagen symptomfrei. In der Gruppe der mit
einem Placebo behandelten Patienten liegen n2 = 200 Daten vor, a2 = 83 davon sind
nach 6 Tagen symptomfrei. Schätzwerte für die unbekannten Wahrscheinlichkeiten sind
p̂1 =
a1
104
=
= 0.52,
n1
200
p̂2 =
a2
83
=
= 0.415.
n2
200
Weiter ist
p̂ =
a1 + a2
187
=
= 0.4675.
n1 + n2
400
Es soll die Hypothese
H0 : p 1 = p 2
(oder auch H0 · p1 ≤ p2 )
getestet werden zum Niveau α = 0.05 gegen die Alternative
H1 : p 1 > p 2 .
Es ist hier der Zweistichproben-Test zum Vergleich von zwei Wahrscheinlichkeiten angebracht (S. 156-158 im Skript). Da n1 + n2 = 400 ≥ 20, a1 = 104 ≥ 4, a2 = 83 ≥
4, n1 − a1 ≥ 4, n2 − a2 ≥ 4 ist, kann die Prüfgröße
r
n1 · n2
p̂1 − p̂2
0.52 − 0.415
·p
= 10 · √
T =
≈ 2.104
n1 + n2
0.4675 · 0.5325
p̂ · (1 − p̂)
angewendet werden. Der kritische Wert ist c1−α = c0.95 ≈ 1.645, das (1 − α)-Quantil
der Standardnormalverteilung (S. 78, Beispiel 6.3). Wegen T ≥ c1−α lehnt der Test die
Hypothese zum Niveau α = 0.05 ab.
b)
Geben Sie ein Konfidenzintervall für den Unterschied der beiden Wahrscheinlichkeiten
p1 und p2 zur Konfidenzwahrscheinlichkeit 0.95 an.
Lösung: Nach Abschnitt 10.10 ist mit c0.975 = 1.96 eine (approximative) untere Konfidenzgrenze für p1 − p2
s
n1 + n2
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
p̂1 − p̂2 −
− c1−α/2 ·
+
2 · n1 · n2
n1
n2
r
400
0.52 · 0.48 0.415 · 0.585
= 0.52 − 0.415 −
− c0.975 ·
+
= 0.00275
2 · 200 · 200
200
200
und eine (approximative) obere Konfidenzgrenze für p1 − p2
s
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+
n1
n2
r
400
0.52 · 0.48 0.415 · 0.585
= 0.52 − 0.415 −
− c0.975 ·
+
= 0.2072 .
2 · 200 · 200
200
200
p̂1 − p̂2 +
n1 + n2
+ c1−α/2 ·
2 · n1 · n2
Daher ist [0.00275, 0.2072] das gesuchte Konfidenzintervall.
Zugehörige Unterlagen
Herunterladen