Nachklausur zur Vorlesung Statistik für Biologen - KIT

Institut für Mathematische Stochastik
Universität Karlsruhe
Dr. Bernhard Klar
Sebastian Müller
SS 2005
25. April 2005
Nachklausur zur Vorlesung
Statistik für Biologen
Musterlösungen
Aufgabe 1: (15 Punkte)
Bei 20 Ähren der Winterroggensorte Pluto wurde die Ährenlänge in cm gemessen:
6.5 7.0 8.8 4.5
9.1 7.2 5.4 6.3
9.3 8.3
6.2 7.7
5.6
9.0
8.4
7.1
7.3
5.3
8.6
9.5
a) Fertigen Sie eine Stamm- und Blatt-Darstellung mit der Einheit 1cm an.
b) Geben Sie die geordnete Stichprobe an.
c) Bestimmen Sie das empirische 0.60−Quantil und bestimmen Sie den Quartilsabstand.
d) Geben Sie einen Konfidenzbereich für den Median zur Konfidenzwahrscheinlichkeit 0.9
an.
Lösung:
a) Stamm- und Blatt-Darstellung (n = 20, Einheit = 1 cm):
Stamm
4
5
6
7
8
9
Blätter
5
6 4 3
5 3 2
0 3 2
8 3 4
3 1 0
7
6
5
1
b) Die geordnete Stichprobe ist:
j
x(j)
1
4.5
2
3
4
5.3 5.4 5.6
5
6.2
6
6.3
7
6.5
8
7.0
9
7.1
10
7.2
j
11
7.3
12 13 14
7.7 8.3 8.4
15
8.6
16
8.8
17
9.0
18
9.1
19
9.3
20
9.5
x(j)
1
c) Empirisches 60%-Quantil: 0.6 · 20 = 12 ist eine natürliche Zahl, also x̃0.6 = 21 (x(12) +
x(13) ) = 8.0.
Quartilsabstand q̃: Das untere Quartil lautet x̃0.25 = 12 (x(5) + x(6) ) = 6.25, das obere
Quartil ist x̃0.75 = 21 (x(15) + x(16) ) = 8.7. Es gilt also
q̃ = x̃0.75 − x̃0.25 = 2.55.
d) Konfidenzbereich: Gemäß Skriptum 10.9 ist ein Konfidenzintervall für den Median M
das Intervall mit dem linken Endpunkt x(k+1) und dem rechten Endpunkt x(n−k) ,wobei
sich für die Konfidenzwahrscheinlichkeit 1 − α = 0.9 und n = 20 der Wert k = 5 ergibt.
Damit ist
[x(6) , x(15) ] = [6.3, 8.6]
das gesuchte Konfidenzintervall.
2
Aufgabe 2: (16 Punkte)
Bei Kartoffelpflanzen wurde das Gewicht X (in Gramm) und Y , die Menge von flüchtigen
Verbindungen (in 0.01 Nanogramm), die die Pflanzen emittieren, bestimmt. Vorausgesetzt
wird, dass X, Y zweidimensional normalverteilt sind.
Bei n = 11 Pflanzen ergaben sich die folgenden Werte xj und yj
j
xj
yj
1
57
8.0
2
85
22.0
3
4
57
65
10.5 13.5
5
52
12.0
6
7
67
62
11.5 7.5
8
80
13.0
9
10
77
53
16.5 10.0
11
68
12.0
und die folgende Punktwolke:
22
20
18
y
16
14
12
10
8
6
50
55
60
65
70
75
80
85
x
a) Berechnen Sie den empirischen Pearson-Korrelationskoeffizienten von (x1 , y1 ), . . . ,
(x11 , y11 ).
b) Bestimmen Sie die Regressionsgerade von y auf x und zeichnen Sie diese in das obige
Schaubild ein.
c) Geben Sie ein Vertrauensintervall für den Korrelationskoeffizienten ρ von X und Y zur
Vertrauenswahrscheinlichkeit 0.95 an.
Hinweis: Sie können folgende Angaben verwenden:
x̄ = 65.73,
sx = 11.07,
ȳ = 12.41,
sy = 4.05,
11
X
xj yj = 9318.
j=1
Lösung:
a) Empirischer Pearson-Korrelationskoeffizient rxy :
´
³P
n
1
1
x
·
y
−
n
·
x̄
·
ȳ
j
j=1 j
(9318 − 11 · 65.73 · 12.41)
n−1
10
=
≈ 0.770.
rxy =
sx · sy
11.07 · 4.05
3
b) Die Parameter a∗ und b∗ in der Regressionsgeraden y = a∗ + b∗ x berechnen sich wie
folgt:
sy
4.05
≈ 0.77 ·
≈ 0.282,
sx
11.07
= ȳ − b∗ · x̄ ≈ 12.41 − 0.282 · 65.73 ≈ −6.13.
b∗ = rxy ·
a∗
22
20
18
y
16
14
12
10
8
6
50
55
60
65
70
75
80
85
x
c) Ein Vertrauensbereich für ρ kann nach S. 171 im Skript berechnet werden. Zunächst
wird die Fishersche z-Transformation gebildet:
z=
1 1 + rxy
ln
= 1.020
2 1 − rxy
Mit dem (1 − α/2)-Quantil der N (0, 1)-Verteilung c1−α/2 = c0.975 = 1.96 setzt man
c1−α/2
1.96
zu = z − √
≈ 1.02 − √ = 0.327,
n−3
8
c1−α/2
1.96
zo = z + √
≈ 1.02 + √ = 1.713
n−3
8
und erhält die Grenzen des Vertrauensbereichs durch
e2zu − 1
≈ 0.316,
e2zu + 1
e2zo − 1
= 2zo
≈ 0.937.
e +1
ρu =
ρo
Damit ist ein Vertrauensbereich für ρ zur Vertrauenswahrscheinlichkeit 0.99 gegeben
durch [ρu , ρo ] = [0.316, 0.937].
4
Aufgabe 3: (15 Punkte)
Die Größe (in cm) eines ausgewachsenen Mannes sei N (µ, σ 2 )−verteilt mit Parametern µ =
177 und σ 2 = 100.
a) Berechnen Sie die Wahrscheinlichkeit, dass die Größe eines zufällig ausgewählten Mannes größer als 200cm ist.
b) Wie groß ist die Wahrscheinlichkeit, dass unter 4 zufällig ausgewählten Männern mindestens einer größer als 200cm ist?
c) Wie groß ist die Wahrscheinlichkeit, dass die durchschnittliche Größe von 10 zufällig
ausgewählten Männern größer als 180cm ist?
Lösung:
Sei Y ∼ N (0, 1).
a) Sei X die Größe eines ausgewachsenen Mannes mit X ∼ N (177, 100). Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Mann größer als 200cm ist, beträgt:
µ
¶
X − 177
200 − 177
√
P (X > 200) = P
> √
100
100
= P (Y > 2.3) = 1 − P (Y ≤ 2.3)
= 1 − Φ(2.3) = 1 − 0.9893 (Tabelle A.1)
= 0.0107
b) Seien X1 , X2 , X3 , X4 die Körpergrößen von 4 zufällig ausgewählten Männern, so sind die
Xi unabhängig identisch verteilt mit Verteilung N (177, 100). Die Wahrscheinlichkeit, dass
unter 4 zufällig ausgewählten Männern mindestens einer größer als 200cm ist, beträgt:
P (Xi > 200, für ein i = 1, 2, 3, 4) = 1 − P (Xi ≤ 200, i = 1, 2, 3, 4)
= 1 − P (X1 ≤ 200) · P (X2 ≤ 200) · · · P (X4 ≤ 200) (unabh.)
= 1 − P (X1 ≤ 200)4 (gleich verteilt)
a)
= 1 − (0.9893)4 = 0.042.
c) Die X1 , . . . , X10 sind identisch und unabhängig verteilt. Somit gilt
10
X
Xi ∼ N (10 · 177, 10 · 100) = N (1770, 1000).
i=1
Für die Wahrscheinlichkeit, dass die durchschnittliche Größe von 10 zufällig ausgewählten
Männern größer als 180 ist, erhält man somit:
10
10
X
1 X
Xi > 1800)
Xi > 180) = P (
P(
10 i=1
i=1
ÃP
!
10
X
−
1770
1800
−
1770
i
i=1
√
√
= P
>
1000
1000
30
30
= P (Y > √
) = 1 − P (Y ≤ √
)
1000
1000
= 1 − P (Y ≤ 0.95) ≈ 1 − 0.83 = 0.17.
5
Aufgabe 4: (12 Punkte) Bei Mäusen wurde in n = 100 Würfen zu je 4 Tieren jeweils die
Anzahl k der weiblichen Tiere festgestellt. Die absoluten Häufigkeiten hk , die sich aus den
Daten ergaben, sind in der folgenden Tabelle angegeben:
k
hk
0 1 2
7 32 33
3 4
24 4
Die Zufallsvariable X beschreibe die Anzahl der weiblichen Tiere pro Wurf. Man kann annehmen, dass X eine Bin(4, p)−verteilte Zufallsvariable ist.
a) Berechnen Sie den arithmetischen Mittelwert des obigen Datensatzes.
b) Nehmen Sie an, dass p = 0.5 ist und somit X ∼ Bin(4, 0.5) gilt. Berechnen Sie unter
dieser Annahme den Erwartungswert von X und die Wahrscheinlichkeit, dass genau 2
Tiere eines Wurfes weiblich sind.
c) Nehmen Sie nun an, dass p unbekannt ist. Geben Sie mit Hilfe der obigen Daten einen
Schätzwert für p an.
Lösung:
a) Der arithmetische Mittelwert ist
x̄ =
1
(0 · 7 + 1 · 32 + 2 · 33 + 3 · 24 + 4 · 4) = 1.86.
100
b) Für den Erwartungswert von X ergibt sich:
EX = 4 · p = 4 · 0.5 = 2.
Für die Wahrscheinlichkeit, dass genau zwei Tiere eines Wurfes weiblich sind, erhält
man:
µ ¶
4
3
(0.5)4 = .
P (X = 2) =
2
8
c) Es wurden insgesamt 400 Mäuse untersucht, darunter befanden sich 32 · 1 + 33 · 2 +
24 · 3 + 4 · 4 = 186 weibliche Tiere. Der relative Anteil 186/400 = 0.465 ist also ein
naheliegender Schätzer für p.
Auf diesen Schätzer kann man auch folgendermaßen kommen: Es gilt EX = 4 · p. Der
arithmetische Mittelwert x̄ ist ein Schätzwert für den Erwartunsgwert einer Verteilung.
Somit ist x̄/4 = 0.465 ein Schätzwert für p.
6
Aufgabe 5: (16 Punkte)
Die folgende Tabelle zeigt die Wirksamkeit von Orangensaft und synthetischem Vitamin
C (je 0.5 mg Vitamin C täglich) auf 15 Meerschweinchen, die zufällig in zwei Gruppen
eingeteilt wurden. Gemessen wurde nach 6 Wochen das Wachstum der Odontoblasten der
Schneidezähne, die Zahnschmelz absondern. Die Werte xi und yi sind in Mikron-20 ausgedrückt.
Orangensaft
Synthetisches Vitamin C
xi
yj
8.2
4.2
9.4 9.6
5.2 5.8
9.7
6.4
10.1
7.0
14.5 14.8
7.3 10.0 11.2
a) Es wird vorausgesetzt, dass die Werte xi aus einer N (µ, σ 2 )−verteilten Grundgesamtheit
und die Werte yj aus einer N (ν, σ 2 )−verteilten Grundgesamtheit stammen. Testen Sie
die Hypothese, dass die Wirkung nicht von der Herkunft des Vitamin C abhängt zum
Niveau α = 0.05.
b) Verzichten Sie nun auf die Normalverteilungsannahme. Es wird nur noch vorausgesetzt,
dass das Wachstum der Odontoblasten unter Verabreichung von Orangensaft bzw. von
synthetischem Vitamin C jeweils eine unbekannte stetige Verteilung besitzt. Diese Verteilungen unterscheiden sich nur in der Lage. Testen Sie auch für diesen Fall die Hypothese,
dass die Wirkung nicht von der Herkunft des Vitamin C abhängt zum Niveau α = 0.05.
Hinweis: Sie können folgende Angaben verwenden:
x̄ = 10.90, s2x = 6.91, ȳ = 7.14 und s2y = 5.64.
Lösung:
Es handelt sich hier um ein Zwei-Stichproben-Problem. Die erste Stichprobe sind die Werte
mit Orangensaft x1 , . . . , x7 (n = 7), die zweite Stichprobe sind die Werte mit synthetischem
Vitamin C y1 , . . . , y8 (m = 8).
a)
Die xi stammen aus einer N (µ, σ 2 )-, die yj aus einer N (ν, σ 2 )-Verteilung. Zu testen ist
H0 : µ = ν
gegen
H1 : µ 6= ν.
Für diese Situation ist der Zwei-Stichproben-t-Test geeignet. Er hat die Prüfgröße
q
m·n
· (x̄ − ȳ)
m+n
1.93 · 3.76
=q
T =q
≈ 2.91.
1
1
2 + (m − 1) · s2 )
·
((n
−
1)
·
s
· (6 · 6.91 + 7 · 5.64)
y
x
m+n−2
13
Der kritische Wert ist nach Tabelle A.2
tm+n−2,1−α/2 = t13,0.975 = 2.16.
Wegen |T | ≥ tm+n−2,1−α/2 wird die Hypothese abgelehnt.
b)
Wenn keine Normalverteilungsannahme vorliegt, sollte der t-Test nicht verwendet werden. Unter der Voraussetzung, dass die Verteilungen je eine Dichte besitzen und sich
nur in der Lage unterscheiden, ist der Mann-Whitney-U -Test geeignet. Die Hypothese
7
H0 lautet: Die Verteilungsfunktion F der ersten Stichprobe und die Verteilungsfunktion
G der zweiten Stichprobe sind gleich, also
H0 : F = G.
Zunächst werden zu den gegebenen 15 Daten die Ränge bestimmt. Nachfolgend sind
die Ränge in Klammern nach dem jeweiligen Messwert angegeben:
xi
yi
8.2 (7)
4.2 (1)
9.4 (8)
5.2 (2)
9.6 (9)
5.8 (3)
9.7 (10) 10.1 (12)
6.4 (4)
7.0 (5)
14.5 (14) 14.8 (15)
7.3 (6) 10.0 (11) 11.2 (13)
Nun müssen die Ränge der xi aufaddiert werden:
W = 7 + 8 + 9 + 10 + 12 + 14 + 15 = 75.
Die Prüfgröße des Mann-Whitney-U -Tests ist
U =W−
n(n + 1)
7·8
= 75 −
= 47.
2
2
Der Mann-Whithney-U -Test lehnt die Hypothese ab, wenn eine der beiden Ungleichungen
U ≥ Um,n,1−α/2 oder U ≤ m · n − Um,n,1−α/2
erfüllt ist. Aus Tabelle A.6 kann man ablesen:
Um,n,1−α/2 = U8,7,0.975 = 46.
Wegen U > 46 lehnt der Mann-Whitney-U -Test die Hypothese ab.
8
Aufgabe 6: (16 Punkte)
Bis fast gegen Ende des 19. Jahrhunderts war die Sterblichkeit bei chirurgischen Eingriffen
extrem hoch. Dann begann der Arzt Joseph Lister Karbolsäure zum Sterilisieren zu verwenden. In der folgenden Kontingenztafel sind die Daten von 75 Amputationen eingetragen:
P
überlebt nicht überlebt
mit Karbolsäure
34
19
ohne Karbolsäure
6
P
a) Die Kontingenztafel ist hier unvollständig angegeben. Ergänzen Sie diese.
b) Testen Sie zum Niveau α = 0.01 die Hypothese, dass die Überlebenswahrscheinlichkeit
p1 bei Verwendung von Karbolsäure und die Überlebenswahrscheinlichkeit p2 ohne die
Verwendung von Karbolsäure gleich sind.
c) Bestimmen Sie ein Vertrauensintervall für p1 − p2 zur Vertrauenswahrscheinlichkeit 0.99.
Lösung:
a) Als vollständige Kontingenztafel ergibt sich:
überlebt nicht überlebt
mit Karbolsäure
34
19
ohne Karbolsäure
6
16
P
40
35
P
53
22
75
Es sei (Überleben wird als Treffer aufgefasst) a1 = 34, a2 = 6, n1 = 53, n2 = 22 und
a
+a2
n = n1 + n2 . Weiter sei p̂j = njj (j = 1, 2) und p̂ = na11 +n
.
2
b) Es soll ein zweiseitiger Test durchgeführt werden, d.h. die Hypothese
H0 : p1 = p2
soll zum Niveau α = 0.01 gegen die Alternative
H1 : p1 6= p2
getestet werden. Es ist n1 + n2 > 60, somit lautet die Testgröße
T =
n1 · n2 (p̂1 − p̂2 )2
·
≈ 8.5.
n1 + n2 p̂(1 − p̂)
H0 wird abgelehnt, falls T ≥ χ21,1−α . In unserem Fall ist χ21,0.99 ≈ 6.63, und somit wird
die Hypothese verworfen.
9
c) Nach Abschnitt 10.10 ist mit c0.995 = 2.576 eine approximative untere Konfidenzgrenze
für p1 − p2 gegeben durch:
s
n1 + n2
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
u := p̂1 − p̂2 −
− c1−α/2 ·
+
2 · n1 · n2
n1
n2
r
75
0.641 · 0.359 0.273 · 0.727
− 2.576 ·
+
= 0.039.
= 0.3688 −
2 · 53 · 22
53
22
Die obere Konfidenzgrenze ist dann gegeben durch:
s
n1 + n2
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+ c1−α/2 ·
+
o := p̂1 − p̂2 +
2 · n1 · n2
n1
n2
r
75
0.641 · 0.359 0.273 · 0.727
= 0.3688 +
+ 2.576 ·
+
= 0.699.
2 · 53 · 22
53
22
Wir erhalten somit mit [0.039, 0.699] das gesuchte Konfidenzintervall.
10