Klausur zur Vorlesung Statistik für Biologen - KIT

Institut für Mathematische Stochastik
Universität Karlsruhe
Priv.-Doz. Dr. D. Kadelka
WS 2002/2003
10. Februar 2003
Klausur zur Vorlesung
Statistik für Biologen
Musterlösungen
Aufgabe 1
Neun Versuchsfeldern wurden unter sonst gleichen Bedingungen unterschiedliche Mengen
von anorganischem Phosphor zugesetzt. Die auf den einzelnen Feldern ausgesäten Getreidepflanzen wurden nach 68 Tagen geerntet und auf ihren Ertrag hin untersucht.
Man erhielt die folgenden Werte
Phosphor in (ppm)
Ertrag (kg)
a)
1
4
5
64 71 54
9
13 11 23
23
28
81 93 76 77 95 109
Berechnen Sie die Stichprobenmittel x̄, ȳ, die Stichproben-Standardabweichungen sx ,
sy und den empirischen Pearson-Korrelationskoeffizienten.
Lösung: Direkt aus den Daten ergibt sich gemäß den Abschnitten 2.1, 2.8 und 3.2 des
Skriptums unter Ausnützung der Beziehung
n
X
(xj − x̄) · (yj − ȳ) =
j=1
n
X
xj · yj − n · x̄ · ȳ
j=1
x̄ = 13
ȳ = 80
sx = 9.579
sy = 16.86
und der empirische Pearson-Korrelationskoeffizient zu rxy = 0.7787.
b)
Bestimmen Sie die zugehörige Regressionsgerade y = a∗ + b∗ · x von y auf x, und
zeichnen Sie sie in die nachfolgende Figur ein.
sy
Lösung: Nach Abschnitt 3.2 des Skriptums ist y = a∗ + b∗ · x mit b∗ = rxy ·
und
sx
a∗ = ȳ − b∗ · x̄ die gesuchte Regressionsgerade, also
b∗ = 1.371
a∗ = 62.18
und die Regressionsgerade y = 62.18 + 1.371 · x. Beachtet man, dass die Regressionsgerade die y-Achse an der Stelle a∗ = 62.18 schneidet, so erhält man
Punkte und Regressionsgerade y = a∗ + b∗ · x
c)
Berechnen Sie den Spearman-Rang-Korrelationskoeffizienten.
Lösung: Für den Spearman-Rang-Korrelationskoeffizienten
ρxy = 1 −
n
9
X
X
6
6
2
·
(j
−
R
)
=
1
−
·
(j − Rj )2
j
n · (n2 − 1) j=1
9 · (92 − 1) j=1
sind die Ränge Rj der yj zu bestimmen, die zum j-kleinsten xj -Wert gehören.
j
xj
yj
Rj
1 2 3
1 4 5
64 71 54
2 3 1
4 5 6 7 8
9
9 13 11 23 23 28
81 93 76 77 95 109
6 7 4 5 8
9
Damit
ρxy = 1 −
1
· ((1 − 2)2 + (2 − 3)2 + (3 − 1)2 + (4 − 6)2
120
+ (5 − 7)2 + (6 − 4)2 + (7 − 5)2 + (8 − 8)2 + (9 − 9)2 ) = 1 −
22
= 0.8167.
120
Aufgabe 2
Es wurden die Flächeninhalte von Blättern eines Apfelbaumes gemessen. Dabei erhielt man
folgende Werte (in cm2 ):
24.9
20.6
24.9
19.8
19.1
a)
20.1
20.8
25.9
25.2
27.7
23.1
22.7
25.0
20.1
24.7
18.8
21.3
24.3
24.0
27.9
19.9
21.2
21.4
26.0
27.2
18.0
21.7
24.1
22.0
23.9
26.0
20.7
25.3
20.6
20.0
25.8
23.6
26.9
19.7
25.6
Fertigen Sie eine Stamm- und Blatt-Darstellung an mit der Einheit 1 cm2 .
Lösung: Stamm- und Blatt-Darstellung (n = 40, Einheit = 1 cm2 ):
Stamm
18
19
20
21
22
23
24
25
26
22
b)
Blätter
8 0
9 8 7
1 6 8
3 2 7
7 0
1 6 9
9 9 3
8 9 0
0 9 0
7 9 2
1
7 1
4
6
1 0
3 2
7
6
0
Bestimmen Sie den (empirischen) Median der Stichprobe.
Lösung: Da n = 40 eine gerade Zahl ist, ist der empirische Median x̃ = 12 (x(n/2) +
x(n/2+1) ) = 12 (x20) + x(21) ). Aus der Stamm- und Blatt-Darstellung lassen sich ablesen:
x(20) = 23.1,
x(21) = 23.6.
Damit erhält man als empirischen Median der Stichprobe
1
x̃ = (x(20) + x(21) ) = 23.35 .
2
c)
Geben Sie einen Konfidenzbereich für den Median zur Konfidenzwahrscheinlichkeit 0.95
an.
Lösung: Gesucht ist ein Konfidenzbereich für den Median x̃. Für n = 40 und 1 − α =
0.95 kann man aus Tabelle A.5 den Wert k = 13 anlesen. Damit ist der Konfidenzbereich (Skript, S. 125):
x(k+1) ≤ x̃ ≤ x(n−k)
Aus der Stamm- und Blatt-Darstellung liest man x(14) = 21.2 und x(27) = 24.9 ab. Der
gesuchte Konfidenzbereich ist also [21.2, 24.9].
Aufgabe 3
Von einer bestimmten Erbkrankheit sei bekannt, dass sie bei 12% aller männlichen Tiere
einer bestimmten Tierpopulation auftritt.
a)
Bei n = 30 zufällig ausgewählten männlichen Tieren dieser Population wird überprüft,
ob sie diese Erbkrankheit haben. Welche Verteilung besitzt die zufällige Anzahl X der
erkrankten Tiere unter den 30 untersuchten?
Lösung: Es liegt hier ein typisches Zufallsexperiment mit den zwei Möglichkeiten
krank“ (Treffer) bzw. nicht krank“ (Niete) vor, beschrieben im Skriptum in Ab”
”
schnitt 5.2.1. Da die Trefferwahrscheinlichkeit hier p = 0.12 ist, besitzt X die Verteilung
Bin(30, 0.12).
b)
Bestimmen Sie unter den Voraussetzungen von a) die Wahrscheinlichkeit dafür, dass
mindestens 3 männliche Tiere an dieser Erbkrankheit leiden.
Lösung: Zu berechnen ist P (X ≥ 3). Um die Berechnung zu vereinfachen, benützen
wir P (X ≥ 3) = 1 − P (X ≤ 2) und nach Abschnitt 5.1 und Formel (5.1) im Skriptum
P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
30
30
30
0
30
1
29
=
· 0.12 · 0.88 +
· 0.12 · 0.88 +
· 0.122 · 0.8828
0
1
2
30 · 29
= 0.8830 + 30 · 0.12 · 0.8829 +
· 0.122 · 0.8828 = 0.2847 .
2
c)
Bestimmen Sie mit einer geeigneten Näherungsformel die Wahrscheinlichkeit dafür,
dass unter jetzt n = 400 zufällig ausgewählten männlichen Tieren der Anteil der erkrankten Tiere zwischen 10% und 14% liegt.
Lösung: Wir gehen hier wie in Beispiel 9.1 im Skriptum vor und wenden Formel (9.6)
an. Definiert man wie dort die Zufallsvariable Xj durch
1 , falls das j-te Tier erkrankt ist,
Xj =
0 , falls das j-te Tier nicht erkrankt ist
(j = 1, . . . , n), so ist X̄n gerade der Anteil der erkrankten Tiere und mit µ = E(X1 ) =
p = 0.12 und σ 2 = V (X1 ) = p(1 − p) = 0.1056 folgt
0.10 − 0.12 √
0.14 − 0.12 √
√
√
· 400 − Φ
· 400
P (0.10 ≤ X̄n ≤ 0.14) ≈ Φ
0.1056
0.1056
Φ(1.2309) − Φ(−1.2309) = Φ(1.2309) − (1 − Φ(1.2309)) = 2 · Φ(1.2309) − 1
≈ 2 · Φ(1.24) − 1 = 2 · 0.8925 − 1 = 0.785
Aufgabe 4
Die zufällige Flügellänge X (gemessen in mm) der Stubenfliege (musca doméstica) sei näherungsweise N (µ, σ 2 )-verteilt. An 16 zufällig ausgewählten Stubenfliege wurde die Länge des
rechten Flügels gemessen. Es ergaben sich die folgenden Werte:
5.3 5.2 5.6 5.6 6.0 6.0 5.4 6.2
4.8 4.7 6.0 6.2 4.9 5.3 5.1 4.6
a)
Bestimmen Sie ein Konfidenzintervall für µ zur Konfidenzwahrscheinlichkeit 0.9.
Lösung: Zu der Stichprobe der Größe n = 16 muss zunächst der empirische Mittelwert
und die empirische Varianz berechnet werden:
n
1X
86.9
xi =
x̄ =
≈ 5.431
n i=1
16
und
1
s2 =
n−1
n
X
i=1
x2i − nx̄2
!
≈
1
(476.29 − 16 · 5.4312 ) = 0.288.
15
√
Die empirische Standardabweichung ist dann s = s2 ≈ 0.536. Das Konfidenzintervall
für µ ist wegen Satz 10.18 a) mit dem 1−α/2-Quantil t15,0.95 = 1.75 der tn−1 -Verteilung
Untere Schranke:
s
0.536
x̄ − √ · tn−1,1−α/2 ≈ 5.431 − √
· 1.75 ≈ 5.1965
n
16
Obere Schranke:
s
0.536
x̄ + √ · tn−1,1−α/2 ≈ 5.431 + √
· 1.75 ≈ 5.6655
n
16
Das Konfidenzintervall für µ zum Niveau 0.9 ist also [5.1965, 5.6655]
b)
Bestimmen Sie ein Konfidenzintervall für σ 2 zur Konfidenzwahrscheinlichkeit 0.9.
Lösung: Aus Tabelle A.3 und A.4 entnehmen wir die Werte χ2n−1,1−α/2 = χ215,0.95 = 25.0
und χ2n−1,α/2 = χ215,0.05 = 7.26. Das Konfidenzintervall für σ 2 ist wegen Satz 10.18 c):
Untere Schranke:
(n − 1)s2
15 · 0.288
≈
≈ 0.173
2
χn−1,1−α/2
25.0
Obere Schranke:
(n − 1)s2
15 · 0.288
≈
≈ 0.595
2
χn−1,α/2
7.26
Das Konfidenzintervall für σ 2 zum Niveau 0.9 ist also [0.173, 0.595].
c)
Testen Sie zum Niveau α = 0.05 die Hypothese, dass die mittlere Flügellänge nicht
größer als 4.8 mm ist.
Lösung: Zu testen ist H0 : µ ≤ µ0 = 4.8 gegen H1 : µ > 4.8. Dazu verwenden wir den
einseitigen Einstichproben-t-Test aus 12.2.2. H0 wird abgelehnt, wenn
√
n · (x̄ − µ0 )
≥ tn−1,1−α .
T =
s
√
Hier ist tn−1,1−α = t15,0.95 = 1.75, also T =
H0 ist also abzulehnen.
16·(5.431−4.8)
0.536
= 4.71 > 1.75. Die Hypothese
Aufgabe 5
In einer Klinik wurden 16 magenkranke Patienten behandelt. Bei 6 der Patienten wurde
eine psychogene Ursache des Leidens angenommen, weil sich kein objektiver Befund nachweisen ließ und die Patienten nicht auf die Behandlung ansprachen. Mit allen 16 Patienten
wurde unter einem Vorwand ein Reaktionstest durchgeführt, bei dem erfahrungsgemäß die
Reaktionszeit bei den Patienten mit psychogener Ursache des Leidens etwas größer ist. Die
Reaktionszeiten (für jede Person) wurden gemessen. Das Ergebnis (in 1/100 Sekunden) ist
in der folgenden Tabelle enthalten.
xi (psychogene Kranke)
yi (somatogene Kranke)
a)
18 23 23 26 41 43
13 14 17 17 20 21 24 27 32 37
Nehmen Sie an, dass die Daten xi aus einer N (µ, σ 2 )-verteilten Grundgesamtheit und
die yj aus einer N (ν, σ 2 )-verteilten Grundgesamtheit stammen. Kann die Alternative
H1 : µ > ν zum Niveau α = 0.05 statistisch gesichert werden? Hat die Gestalt der
Hypothese H0 : µ = ν oder H0 : µ ≤ ν einen Einfluss auf die Entscheidung?
Lösung: Es handelt sich hier um ein Zwei-Stichproben-Problem. Die erste Stichprobe sind die Werte x1 , . . . , x6 , die zweite Stichprobe sind die Werte y1 , . . . , y10 . Die xi
stammen aus einer N (µ, σ 2 )-, die yi aus einer N (ν, σ 2 )-Verteilung. Zu testen ist
H0 : µ = ν
gegen
H1 : µ > ν,
wobei hier auch die Hypothese H0 : µ ≤ ν zur gleichen Entscheidung führt. Für diese
Situation ist der einseitige Zwei-Stichproben-t-Test aus 13.1.2 geeignet. Er hat die
Prüfgröße (mit x̄ = 29, s2x = 108.4, ȳ = 22.2, s2y = 61.51)
T =q
q
1
m+n−2
m·n
m+n
· (x̄ − ȳ)
· ((n − 1) ·
s2x
+ (m − 1) ·
s2y )
≈q
q
1
14
60
16
· (29.0 − 22.2)
· (5 · 108.4 + 9 · 61.51)
Der kritische Wert ist nach Tabelle A.2
tm+n−2,1−α = t14,0.95 ≈ 1.76.
Wegen T < tm+n−2,1−α kann die Hypothese nicht abgelehnt werden.
≈ 1.489.
b)
Verzichten Sie jetzt auf die Normalverteilungsannahme, und nehmen Sie statt dessen
nur noch an, dass die beiden Verteilungen je eine Dichte besitzen, die durch (eventuelle)
Verschiebung auseinander hervorgehen.
Testen Sie jetzt zum Niveau α = 0.05 die Hypothese, dass die beiden Verteilungen
übereinstimmen.
Lösung: Wenn keine Normalverteilungsannahme vorliegt, sollte der t-Test nicht verwendet werden. Für dieses Problem ist der Mann-Whitney-U -Test geeignet. Die Hypothese H0 lautet: Die Verteilungsfunktion F der ersten Stichprobe und die Verteilungsfunktion G der zweiten Stichprobe sind gleich, also
H0 : F = G.
Aus den Daten folgt, dass keine Bindungen zwischen den x- und den y-Werten auftreten, so dass der unmodifizierte Mann-Whitney-U -Test verwendet werden kann.
Zunächst werden zu den gegebenen 16 Daten die Ränge bestimmt. Nachfolgend sind
die Ränge in Klammer nach dem jeweiligen Messwert angegeben:
xi
yi
18(5) 23(8.5) 23(8.5) 26(11) 41(15) 43(16)
13(1) 14(2)
17(3.5) 17(3.5) 20(6) 21(7) 24(10) 27(12) 32(13) 37(14)
Nun müssen die Ränge der xi aufaddiert werden:
W = 5 + 8.5 + 8.5 + 11 + 15 + 16 = 64
Die Prüfgröße des Mann-Whitney-U -Tests ist
U =W−
n(n + 1)
6·7
= 64 −
= 43.
2
2
Der Mann-Whithney-U -Test lehnt die Hypothese ab, wenn eine der beiden Ungleichungen
U ≥ Um,n,1−α/2 oder U ≤ m · n − Um,n,1−α/2
erfüllt ist, wobei hier n = 6 und m = 10. Aus Tabelle A.6 kann man ablesen:
Um,n,1−α/2 = U10,6,0.975 = 49.
Es gilt weder U ≥ Um,n,1−α/2 noch U ≤ m · n − Um,n,1−α/2 = 60 − 49 = 11, also lehnt
auch der Mann-Whitney-U -Test die Hypothese nicht ab.
Aufgabe 6
In einer kontrollierten Studie sollte untersucht werden, ob die Einnahme eines neu entwickelten Grippe-Medikamentes den Krankheitsverlauf so beeinflusst, dass die Kranken nach 6
Tagen symptomfrei sind. Bei einer Grippe-Epidemie wurden insgesamt 400 Kranke beobachtet. Im Rahmen einer kontrollierten Studie wurde eine Gruppe von 200 Patienten nur mit
einem Placebo-Medikament, die restlichen 200 Patienten mit dem Medikament behandelt.
Die Studie ergab folgendes Ergebnis:
symptomfrei
Ja
Nein
104
96
83
117
Gruppe
Medikament
Placebo
Gesamt
200
200
Die Wahrscheinlichkeiten p1 und p2 , mit bzw. ohne neues Medikament nach 6-Tagen symptomfrei zu sein, seien unbekannt.
a)
Testen Sie auf dem 5%-Niveau, ob die Wahrscheinlichkeit für Symptomfreiheit p1 signifikant größer als p2 ist.
Lösung: In der Gruppe der medikamentös behandelten Patienten liegen n1 = 200
Daten vor, a1 = 104 Patienten sind nach 6 Tagen symptomfrei. In der Gruppe der mit
einem Placebo behandelten Patienten liegen n2 = 200 Daten vor, a2 = 83 davon sind
nach 6 Tagen symptomfrei. Schätzwerte für die unbekannten Wahrscheinlichkeiten sind
p̂1 =
a1
104
=
= 0.52,
n1
200
p̂2 =
a2
83
=
= 0.415.
n2
200
Weiter ist
p̂ =
a1 + a2
187
=
= 0.4675.
n1 + n2
400
Es soll die Hypothese
H0 : p 1 = p 2
(oder auch H0 · p1 ≤ p2 )
getestet werden zum Niveau α = 0.05 gegen die Alternative
H1 : p 1 > p 2 .
Es ist hier der Zweistichproben-Test zum Vergleich von zwei Wahrscheinlichkeiten angebracht (S. 156-158 im Skript). Da n1 + n2 = 400 ≥ 20, a1 = 104 ≥ 4, a2 = 83 ≥
4, n1 − a1 ≥ 4, n2 − a2 ≥ 4 ist, kann die Prüfgröße
r
n1 · n2
p̂1 − p̂2
0.52 − 0.415
·p
= 10 · √
T =
≈ 2.104
n1 + n2
0.4675 · 0.5325
p̂ · (1 − p̂)
angewendet werden. Der kritische Wert ist c1−α = c0.95 ≈ 1.645, das (1 − α)-Quantil
der Standardnormalverteilung (S. 78, Beispiel 6.3). Wegen T ≥ c1−α lehnt der Test die
Hypothese zum Niveau α = 0.05 ab.
b)
Geben Sie ein Konfidenzintervall für den Unterschied der beiden Wahrscheinlichkeiten
p1 und p2 zur Konfidenzwahrscheinlichkeit 0.95 an.
Lösung: Nach Abschnitt 10.10 ist mit c0.975 = 1.96 eine (approximative) untere Konfidenzgrenze für p1 − p2
s
n1 + n2
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
p̂1 − p̂2 −
− c1−α/2 ·
+
2 · n1 · n2
n1
n2
r
400
0.52 · 0.48 0.415 · 0.585
= 0.52 − 0.415 −
− c0.975 ·
+
= 0.00275
2 · 200 · 200
200
200
und eine (approximative) obere Konfidenzgrenze für p1 − p2
s
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+
n1
n2
r
400
0.52 · 0.48 0.415 · 0.585
= 0.52 − 0.415 −
− c0.975 ·
+
= 0.2072 .
2 · 200 · 200
200
200
p̂1 − p̂2 +
n1 + n2
+ c1−α/2 ·
2 · n1 · n2
Daher ist [0.00275, 0.2072] das gesuchte Konfidenzintervall.

Zugehörige Unterlagen

Zusatzaufgaben vom 18.12.06

Klausur zur Vorlesung Statistik für Biologen - KIT

Zugehörige Unterlagen

Produkte

Unterstützung

Klausur zur Vorlesung Statistik für Biologen - KIT

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können