Nachklausur zur Vorlesung Statistik für Biologen - KIT

Werbung
Institut für Mathematische Stochastik
Universität Karlsruhe
Priv.-Doz. Dr. D. Kadelka
WS 2003/2004
30. April 2004
Nachklausur zur Vorlesung
Statistik für Biologen
Musterlösungen
Aufgabe 1
Gemessen wurde bei 20 Kindern der Horizontaldurchmesser der Hornhaut des rechten Auges
in mm:
12.54, 12.36, 12.18, 12.00, 11.95, 11.95, 11.81, 11.77, 11.74, 11.73,
11.58, 12.01, 11.53, 11.12, 12.18, 11.09, 11.07, 10.88, 10.41, 10.21.
a) Fertigen Sie eine Stamm- und Blatt-Darstellung mit der Einheit 1 mm an.
Lösung: Stamm- und Blatt-Darstellung (n = 20, Einheit = 1 mm):
Stamm
10
11
12
Blätter
88 41 21
95 95 81
54 36 18
77
00
74
01
73
18
58
53
12
09
07
b) Geben Sie die geordnete Stichprobe an.
Lösung: Die geordnete Stichprobe ist x() =
(10.21, 10.41, 10.88, 11.07, 11.09, 11.12, 11.53, 11.58, 11.73, 11.74,
11.77, 11.81, 11.95, 11.95, 12.00, 12.01, 12.18, 12.18, 12.36, 12.54)
c) Bestimmen Sie das empirische 0.66-Quantil und bestimmen Sie den Quartilsabstand.
Lösung: Da 20 · 0.66 = 13.2 nicht ganzzahlig ist, ist das 0.66-Quantil
x̃0.66 = x([20·0.66+1]) = x([14.2]) = x(14) = 11.95
Für den Quartilsabstand benötigen wir das obere Quartil x̃0.25 und das untere Quartil
x̃0.75 . Da 20 · 0.25 = 5 ganzzahlig ist, gilt
x̃0.25 =
¢ 1
1¡
x(5) + x(6) = (11.09 + 11.12) = 11.105
2
2
und analog
x̃0.75 =
¢ 1
1¡
x(15) + x(16) = (12.00 + 12.01) = 12.005 .
2
2
Der Quartilsabstand ist also x̃0.75 − x̃0.25 = 12.005 − 11.105 = 0.9.
d) Geben Sie einen Konfidenzbereich für den Median zur Sicherheitswahrscheinlichkeit 0.9
an.
Lösung: Gemäß Skriptum 10.9 ist ein Konfidenzintervall für den unbekannten Median M
das Intervall mit dem linken Endpunkt x(k+1) und dem rechten Endpunkt x(n−k) , wobei
für die Sicherheitswahrscheinlichkeit 1 − α = 0.9 und n = 20 sich der Wert k = 5 ergibt.
Damit ist
[x(6) , x(15) ] = [11.12, 12.00]
das gesuchte Konfidenzintervall.
Aufgabe 2
Ein Verfahren zur Bestimmung des Blutzuckerwertes liefere einen falschen Wert mit der
Wahrscheinlichkeit p = 0.02. In einem Labor werden an einem Tag n = 100 Bestimmungen
durchgeführt, wobei davon ausgegangen werden kann, dass sich die einzelnen Bestimmungen
nicht gegenseitig beeinflussen.
a) Welche Verteilung hat X, die zufällige Anzahl der fehlerhaften Werte?
Lösung: Es liegt hier ein Treffer-Niete-Experiment vor mit n = 100 Versuchen und
der Treffer-Wahrscheinlichkeit p = 0.02. (Ein Treffer liegt hier vor, wenn das Verfahren
einen falschen Wert liefert.) Gemäß 5.2.1 hat also X, die zufällige Anzahl der Treffer, die
Binomialverteilung
Bin(n, p) = Bin(100, 0.02) .
b) Beschreiben Sie das Ereignis {X = 3}.
Lösung: {X = 3} ist das Ereignis, dass das Verfahren an einem Tag genau 3 falsche
Werte liefert.
c) Bestimmen Sie die Wahrscheinlichkeit, dass höchstens zwei der Werte falsch sind.
Lösung: Gesucht ist die Wahrscheinlichkeit
P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2)
µ ¶
µ ¶
µ ¶
100
100
100
0
100
1
99
=
· 0.02 · 0.98 +
· 0.02 · 0.98 +
· 0.022 · 0.9898
0
1
2
100 · 99
· 0.022 · 0.9898 = 0.6767 .
= 1 · 1 · 0.98100 + 100 · 0.02 · 0.9899 +
2
d) Bestimmen Sie den Erwartungswert und die Varianz von X.
Lösung: Allgemein gilt nach den Tabellen in 6.1.1 und 6.2.1, dass Bin(n, p) den Erwartungswert n · p und die Varianz n · p · (1 − p) hat. Der Erwartungswert von X ist also
100 · 0.02 = 2 und die Varianz 100 · 0.02 · 0.98 = 1.96.
e) Die Zufallsvariable X besitzt näherungsweise eine Poisson-Verteilung P o(λ) mit einem
Parameter λ > 0. Wie groß ist λ zu wählen?
Lösung: Nach den Überlegungen in 5.2.3 tritt die Poisson-Verteilung P o(λ) mit λ = n · p
bei großem n und kleinem p als Approximation von Bin(n, p) auf. Diese Voraussetzungen
sind hier erfüllt mit
λ=n·p=2 .
Aufgabe 3
Der zufällige Wirkstoffgehalt X (gemessen in mg) einer Tablette sei produktionsbedingt eine
N (200, 25)-verteilte Zufallsvariable.
a) Mit welcher Wahrscheinlichkeit liegt der Wirkstoffgehalt X einer Tablette unterhalb von
190 mg und mit welcher Wahrscheinlichkeit oberhalb von 190 mg?
Lösung: Nach Voraussetzung gilt X ∼ N (200, 25) = N (200, 52 ). Gesucht ist zuerst
P (X ≤ 190). Wegen Abschnitt 5.1.1 gilt
µ
P (X ≤ 190) = Φ200,52 (190) = Φ
190 − 200
5
¶
= Φ(−2)
= 1 − Φ(2) = 1 − 0.9772 = 0.0228 .
Hieraus folgt für die zweite gesuchte Wahrscheinlichkeit
P (X > 190) = 1 − P (X ≤ 190) = 1 − 0.0228 = 0.9772 .
b) Wie groß ist die Wahrscheinlichkeit, dass der Wirkstoffgehalt X um mehr als 12 mg vom
Sollgehalt 200 mg abweicht?
Lösung: Gesucht ist P (|X − 200| > 12) = 1 − P (|X − 200| ≤ 12. Hier lässt sich Beispiel
5.6 aus dem Skriptum anwenden (k · σ-Bereiche der Normalverteilung). Mit k = 2.4 und
σ = 5 ist k · σ = 2.4 · 5 = 12, also
P (|X − 200| ≤ 12) = P (|X − 200| ≤ k · σ) = Φ(k) = Φ(2.4) = 0.9918
und damit die gesuchte Wahrscheinlichkeit
P (|X − 200| > 12) = 1 − 0.9918 = 0.0082 .
c) Ein Tablettenröhrchen enthält 8 Tabletten. Wie groß ist die Wahrscheinlichkeit, dass
alle 8 Tabletten mehr als 190 mg Wirkstoffgehalt haben? (Setzen Sie voraus, dass die
Wirkstoffgehalte der einzelnen Tabletten unabhängig voneinander sind.)
Hinweis: Verwenden Sie das Resultat aus a).
Lösung: Sei Y die zufällige Anzahl der Tabletten, die einen Wirkstoffgehalt von mehr
als 190 mg haben. Nach Voraussetzung liegt hier ein Treffer-Niete Experiment mit n = 8
Versuchen und einer Trefferwahrscheinlichkeit p = 0.9772 vor. Die Zufallsvariable Y hat
also die Verteilung Bin(n, p) = Bin(8, 0.9772) und die gesuchte Wahrscheinlichkeit ergibt
sich zu
µ ¶
8
P (Y = 8) =
· p8 · (1 − p)0 = 1 · 0.97728 · 1 = 0.8315 .
8
Aufgabe 4
Man vermutet, dass bei Personen, die zu Herzinfarkt neigen, der Eisengehalt des Serums
im allgemeinen höher ist als bei gesunden Personen. Aus umfangreichen Untersuchungen ist
bekannt, dass der Median des Eisengehalts bei gesunden Männern 1.15 µg/l (Mikrogramm
pro Milliliter) beträgt.
Bei n = 16 Männern, die schon einen Infarkt überlebt haben und nach wie vor infarktgefährdet sind, misst man folgende Werte:
0.97,
1.29,
1.19, 1.64,
0.87, 1.32,
1.21,
1.33,
1.41,
1.23,
1.36, 1.12,
1.19, 1.58,
1.19,
1.39
a) Testen Sie auf dem 0.05-Niveau die Hypothese, dass der (wahre) Median des Eisengehalts
bei infarktgefährdeten Männern gleich 1.15 (µg/l) ist.
Lösung: Das Testproblem lautet: Teste H0 : M = 1.15 gegen H1 : M 6= 1.15, wobei M
den unbekannten Median der zugrundeliegenden Verteilung bezeichnet. Wir verwenden
den Median-Vorzeichentest mit der Prüfgröße
N+ = Anzahl der Stichprobenwerte, die größer als 1.15 sind.
Aus den Daten folgt N+ = 13.
Der Median-Vorzeichentest lehnt zum Niveau α die Hypothese H0 genau dann ab, wenn
N+ ≤ k oder N+ ≥ n − k mit k aus Tabelle A.5 gilt. Hier ist α = 0.05 und n = 16 und
damit k = 3.
Wegen
N+ = 13 ≥ 16 − 3 = 13
wird H0 zum Niveau α = 0.05 abgelehnt.
b) Nehmen Sie nun an, dass bei infarktgefährdeten Männern der Eisengehalt des Serums
eine Normalverteilung mit unbekannten Parametern µ und σ 2 besitzt. Testen Sie auf
dem Niveau α = 0.05 die Hypothese H0 : µ = 1.15 (µg/l).
Hinweis: Für die obigen 16 Werte gilt:
x̄16 = 1.2681,
sx = 0.1964.
Lösung: Das Testproblem lautet jetzt: Teste H0 : µ = µ0 := 1.15 gegen H1 : √
µ 6= 1.15. Wir
n · (x − µ0 )
verwenden den zweiseitigen Einstichproben-t-Test mit der Prüfgröße T =
.
sx
Aus den Daten folgt gemäß Hinweis
n = 16,
und damit
√
T =
x = 1.2681,
sx ≈ 0.1964,
16 · (1.2681 − 1.15)
√
≈ 2.4053 .
0.1964
Weiter gilt für α = 0.05 mit 1 − α/2 = 0.975 nach Tabelle A.2
tn−1,1−α/2 = t15,0.975 ≈ 2.13 .
H0 wird zum Niveau α genau dann verworfen, wenn |T | ≥ tn−1,1− α2 . Wegen
|T | = 2.4053 > 2.13 = t15,0.975
wird also die Hypothese H0 zum Niveau α = 0.05 verworfen.
c) Bestimmen Sie unter den Voraussetzungen von b) einen 0.95-Vertrauensbereich für µ.
Lösung: Gemäß Satz 10.18 ist ein Konfidenzintervall für µ zur Konfidenzwahrscheinlichkeit 1 − α = 0.05
·
¸
sx
sx
x̄ − √ · tn−1,1−α/2 , x̄ + √ · tn−1,1−α/2
n
n
Einsetzen der Werte aus b) ergibt
·
¸
0.1964
0.1964
1.2681 −
· 2.13, 1.2681 +
· 2.13 = [1.1635, 1.3727] .
4
4
Aufgabe 5
Ein Imker hat zu Beginn einer Tracht 18 etwa gleichstarke Völker; 7 davon gehören zur Rasse
A, die restlichen 11 zur Rasse B. Er möchte herausfinden, ob sich die beiden Rassen bei den
gegebenen Verhältnissen hinsichtlich ihres Honigertrags unterscheiden. Bei der Schleuderung
am Ende der Tracht erhält er von den Völkern der Rasse A die Mengen x1 , . . . , x7 an Honig,
von den Völkern der Rasse B die Mengen y1 , . . . , y11 (gemessen jeweils in kg):
Rasse A:
Rasse B:
14.1, 16.9,
7.5, 8.6,
17.6, 19.3, 20.2, 20.8, 21.5,
11.7, 13.5, 13.7, 14.2, 16.0,
17.4,
Man erhält daraus:
x̄7 = 18.63, s2x = 6.74,
ȳ11 = 14.86, s2y = 20.57.
19.2,
20.4,
21.3 .
a) Nehmen Sie an, dass die xi aus einer N (µ, σ 2 )-verteilten Grundgesamtheit und die yj aus
einer N (ν, σ 2 )-verteilten Grundgesamtheit stammen. Testen Sie zum Niveau α = 0.05 die
Hypothese H0 : µ = ν.
Lösung: Es handelt sich hier um ein Zwei-Stichproben-Problem. Die erste Stichprobe
sind die n = 7 Werte x1 , . . . , x7 (Rasse A), die zweite Stichprobe die m = 11 Werte
y1 , . . . , y11 (Rasse B). Zu testen ist
H0 : µ = ν
gegen
H1 : µ 6= ν.
Für diese Situation ist der Zwei-Stichproben-t-Test geeignet. Er hat die Prüfgröße
q
m·n
· (x̄ − ȳ)
m+n
2.068 · 3.76
T =q
≈q
≈ 1.982.
1
1
2 + (m − 1) · s2 )
·
((n
−
1)
·
s
·
(6
·
6.74
+
10
·
20.57)
x
y
m+n−2
16
Der kritische Wert ist nach Tabelle A.2
tm+n−2,1−α/2 = t16,0.975 ≈ 2.12.
Wegen |T | < tm+n−2,1−α/2 kann die Hypothese nicht abgelehnt werden.
b) Verzichten Sie jetzt auf die Normalverteilungsannahme, und nehmen Sie statt dessen
nur noch an, dass die beiden Verteilungen stetig sind. Testen Sie jetzt auf dem Niveau
α = 0.05 die Hypothese, dass die beiden Verteilungen übereinstimmen.
Lösung: Wenn keine Normalverteilungsannahme vorliegt, sollte der t-Test nicht verwendet werden. Für dieses Problem ist der Mann-Whitney-U -Test geeignet. Die Hypothese
H0 lautet: Die Verteilungsfunktion F der ersten Stichprobe und die Verteilungsfunktion
G der zweiten Stichprobe sind gleich, also
H0 : F = G.
Zunächst werden zu den gegebenen 18 Daten die Ränge bestimmt. Wir ergänzen dazu
die obige Tabelle durch die Ränge der einzelnen Werte.
Rasse A: 14.1,
6
Rasse B: 7.5,
1
16.9,
9
8.6,
2
17.6, 19.3, 20.2, 20.8, 21.5,
11
13
14
16
18
11.7, 13.5, 13.7, 14.2, 16.0,
3
4
5
7
8
17.4,
10
19.2,
12
20.4,
15
21.3
17
Nun müssen die Ränge der xi aufaddiert werden:
W = 6 + 9 + 11 + 13 + 14 + 16 + 18 = 87.
Die Prüfgröße des Mann-Whitney-U -Tests ist
U =W−
7·8
n(n + 1)
= 87 −
= 59.
2
2
Der Mann-Whithney-U -Test lehnt die Hypothese ab, wenn eine der beiden Ungleichungen
U ≥ Um,n,1−α/2 oder U ≤ m · n − Um,n,1−α/2
erfüllt ist. Aus Tabelle A.6 kann man ablesen:
Um,n,1−α/2 = U7,11,0.975 = U11,7,0.975 = 61.
Weil weder U ≤ m · n − Um,n,1−α/2 = 77 − 61 = 16 noch U ≥ Um,n,1−α/2 = 61 gilt, lehnt
der Mann-Whitney-U -Test die Hypothese nicht ab.
Aufgabe 6
Bei einer Virus-Epidemie wurden insgesamt 400 Kranke beobachtet. Eine Gruppe von n1 =
200 Patienten konnte nur symptomatisch, die restlichen n2 = 200 Patienten zusätzlich mit
einem neuen Medikament A behandelt werden. Die Anzahl der geheilten und nicht geheilten
Personen wurden nach Behandlungsmethode in einer Kontingenztafel eingetragen:
geheilt
ja
nein
Σ
Methode
symptomatisch
103
medikamentös
200
63
200
Σ
a) Die Kontingenztafel ist hier nur unvollständig angegeben. Ergänzen Sie diese.
Lösung: Da die Zeilensummen hier jeweils n1 = 200 bzw. n2 = 200 sind, ergänzt sich die
Kontingenztafel zu
geheilt
ja
nein
Σ
symptomatisch
103
97
200
medikamentös
137
63
200
Σ
240
160
400
Methode
b) Testen Sie zum Niveau α = 0.05 die Hypothese H0 , dass die Heilungswahrscheinlichkeiten
p1 der symptomatischen und p2 der medikamentösen Behandlungsmethoden gleich sind.
Lösung: In der Gruppe der symptomatisch behandelten Patienten liegen n1 = 200 Daten
vor, davon werden a1 = 103 Patienten geheilt. In der Gruppe der medikamentös behandelten Patienten liegen ebenfalls n2 = 200 Daten vor, davon werden a2 = 137 geheilt.
Schätzwerte für die unbekannten Wahrscheinlichkeiten sind
p̂1 =
103
a1
=
= 0.515,
n1
200
p̂2 =
a2
137
=
= 0.685.
n2
200
Weiter ist
p̂ =
a1 + a2
240
=
= 0.600.
n1 + n2
400
Es soll die Hypothese
H0 : p1 = p2
getestet werden zum Niveau α = 0.05 gegen die Alternative
H1 : p1 6= p2 .
Es ist hier der Zweistichproben-Test zum Vergleich von zwei Wahrscheinlichkeiten angebracht (S. 156-158 im Skript). Da n1 + n2 = 400 ≥ 20, a1 = 104 ≥ 4, a2 = 83 ≥
4, n1 − a1 ≥ 4, n2 − a2 ≥ 4 ist, kann die Prüfgröße
T =
n1 · n2 (p̂1 − p̂2 )2
(0.515 − 0.685)2
·
= 100 ·
≈ 12.04
n1 + n2 p̂ · (1 − p̂)
0.6 · 0.4
angewendet werden. Der kritische Wert ist χ21,1−α ≈ 3.84, das (1 − α)-Quantil der χ21 Verteilung (Anhang A.3). Wegen T ≥ χ21,1−α wird die Hypothese zum Niveau α = 0.05
abgelehnt.
c) Bestimmen Sie einen 0.95-Vertrauensbereich für p1 − p2 .
Lösung: Nach Abschnitt 10.10 ist mit c0.975 = 1.96 eine (approximative) untere Konfidenzgrenze für p1 − p2
s
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+
n1
n2
r
0.515 · 0.485 0.685 · 0.315
400
− c0.975 ·
+
= 0.515 − 0.685 −
2 · 200 · 200
200
200
= −0.170 − 0.100 = −0.270
p̂1 − p̂2 −
n1 + n2
− c1−α/2 ·
2 · n1 · n2
und eine (approximative) obere Konfidenzgrenze für p1 − p2
s
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+
n1
n2
r
400
0.515 · 0.485 0.685 · 0.315
= 0.515 − 0.685 +
+ c0.975 ·
+
2 · 200 · 200
200
200
= −0.170 + 0.100 = −0.070
p̂1 − p̂2 +
n1 + n2
+ c1−α/2 ·
2 · n1 · n2
Daher ist [−0.270, −0.070] das gesuchte Konfidenzintervall.
Herunterladen