Nachklausur zur Vorlesung Statistik für Biologen - KIT

Werbung
Institut für Mathematische Stochastik
Universität Karlsruhe
Dr. Bernhard Klar
Sebastian Müller
SS 2005
25. April 2005
Nachklausur zur Vorlesung
Statistik für Biologen
Musterlösungen
Aufgabe 1: (15 Punkte)
Bei 20 Ähren der Winterroggensorte Pluto wurde die Ährenlänge in cm gemessen:
6.5 7.0 8.8 4.5
9.1 7.2 5.4 6.3
9.3 8.3
6.2 7.7
5.6
9.0
8.4
7.1
7.3
5.3
8.6
9.5
a) Fertigen Sie eine Stamm- und Blatt-Darstellung mit der Einheit 1cm an.
b) Geben Sie die geordnete Stichprobe an.
c) Bestimmen Sie das empirische 0.60−Quantil und bestimmen Sie den Quartilsabstand.
d) Geben Sie einen Konfidenzbereich für den Median zur Konfidenzwahrscheinlichkeit 0.9
an.
Lösung:
a) Stamm- und Blatt-Darstellung (n = 20, Einheit = 1 cm):
Stamm
4
5
6
7
8
9
Blätter
5
6 4 3
5 3 2
0 3 2
8 3 4
3 1 0
7
6
5
1
b) Die geordnete Stichprobe ist:
j
x(j)
1
4.5
2
3
4
5.3 5.4 5.6
5
6.2
6
6.3
7
6.5
8
7.0
9
7.1
10
7.2
j
11
7.3
12 13 14
7.7 8.3 8.4
15
8.6
16
8.8
17
9.0
18
9.1
19
9.3
20
9.5
x(j)
1
c) Empirisches 60%-Quantil: 0.6 · 20 = 12 ist eine natürliche Zahl, also x̃0.6 = 21 (x(12) +
x(13) ) = 8.0.
Quartilsabstand q̃: Das untere Quartil lautet x̃0.25 = 12 (x(5) + x(6) ) = 6.25, das obere
Quartil ist x̃0.75 = 21 (x(15) + x(16) ) = 8.7. Es gilt also
q̃ = x̃0.75 − x̃0.25 = 2.55.
d) Konfidenzbereich: Gemäß Skriptum 10.9 ist ein Konfidenzintervall für den Median M
das Intervall mit dem linken Endpunkt x(k+1) und dem rechten Endpunkt x(n−k) ,wobei
sich für die Konfidenzwahrscheinlichkeit 1 − α = 0.9 und n = 20 der Wert k = 5 ergibt.
Damit ist
[x(6) , x(15) ] = [6.3, 8.6]
das gesuchte Konfidenzintervall.
2
Aufgabe 2: (16 Punkte)
Bei Kartoffelpflanzen wurde das Gewicht X (in Gramm) und Y , die Menge von flüchtigen
Verbindungen (in 0.01 Nanogramm), die die Pflanzen emittieren, bestimmt. Vorausgesetzt
wird, dass X, Y zweidimensional normalverteilt sind.
Bei n = 11 Pflanzen ergaben sich die folgenden Werte xj und yj
j
xj
yj
1
57
8.0
2
85
22.0
3
4
57
65
10.5 13.5
5
52
12.0
6
7
67
62
11.5 7.5
8
80
13.0
9
10
77
53
16.5 10.0
11
68
12.0
und die folgende Punktwolke:
22
20
18
y
16
14
12
10
8
6
50
55
60
65
70
75
80
85
x
a) Berechnen Sie den empirischen Pearson-Korrelationskoeffizienten von (x1 , y1 ), . . . ,
(x11 , y11 ).
b) Bestimmen Sie die Regressionsgerade von y auf x und zeichnen Sie diese in das obige
Schaubild ein.
c) Geben Sie ein Vertrauensintervall für den Korrelationskoeffizienten ρ von X und Y zur
Vertrauenswahrscheinlichkeit 0.95 an.
Hinweis: Sie können folgende Angaben verwenden:
x̄ = 65.73,
sx = 11.07,
ȳ = 12.41,
sy = 4.05,
11
X
xj yj = 9318.
j=1
Lösung:
a) Empirischer Pearson-Korrelationskoeffizient rxy :
´
³P
n
1
1
x
·
y
−
n
·
x̄
·
ȳ
j
j=1 j
(9318 − 11 · 65.73 · 12.41)
n−1
10
=
≈ 0.770.
rxy =
sx · sy
11.07 · 4.05
3
b) Die Parameter a∗ und b∗ in der Regressionsgeraden y = a∗ + b∗ x berechnen sich wie
folgt:
sy
4.05
≈ 0.77 ·
≈ 0.282,
sx
11.07
= ȳ − b∗ · x̄ ≈ 12.41 − 0.282 · 65.73 ≈ −6.13.
b∗ = rxy ·
a∗
22
20
18
y
16
14
12
10
8
6
50
55
60
65
70
75
80
85
x
c) Ein Vertrauensbereich für ρ kann nach S. 171 im Skript berechnet werden. Zunächst
wird die Fishersche z-Transformation gebildet:
z=
1 1 + rxy
ln
= 1.020
2 1 − rxy
Mit dem (1 − α/2)-Quantil der N (0, 1)-Verteilung c1−α/2 = c0.975 = 1.96 setzt man
c1−α/2
1.96
zu = z − √
≈ 1.02 − √ = 0.327,
n−3
8
c1−α/2
1.96
zo = z + √
≈ 1.02 + √ = 1.713
n−3
8
und erhält die Grenzen des Vertrauensbereichs durch
e2zu − 1
≈ 0.316,
e2zu + 1
e2zo − 1
= 2zo
≈ 0.937.
e +1
ρu =
ρo
Damit ist ein Vertrauensbereich für ρ zur Vertrauenswahrscheinlichkeit 0.99 gegeben
durch [ρu , ρo ] = [0.316, 0.937].
4
Aufgabe 3: (15 Punkte)
Die Größe (in cm) eines ausgewachsenen Mannes sei N (µ, σ 2 )−verteilt mit Parametern µ =
177 und σ 2 = 100.
a) Berechnen Sie die Wahrscheinlichkeit, dass die Größe eines zufällig ausgewählten Mannes größer als 200cm ist.
b) Wie groß ist die Wahrscheinlichkeit, dass unter 4 zufällig ausgewählten Männern mindestens einer größer als 200cm ist?
c) Wie groß ist die Wahrscheinlichkeit, dass die durchschnittliche Größe von 10 zufällig
ausgewählten Männern größer als 180cm ist?
Lösung:
Sei Y ∼ N (0, 1).
a) Sei X die Größe eines ausgewachsenen Mannes mit X ∼ N (177, 100). Die Wahrscheinlichkeit, dass ein zufällig ausgewählter Mann größer als 200cm ist, beträgt:
µ
¶
X − 177
200 − 177
√
P (X > 200) = P
> √
100
100
= P (Y > 2.3) = 1 − P (Y ≤ 2.3)
= 1 − Φ(2.3) = 1 − 0.9893 (Tabelle A.1)
= 0.0107
b) Seien X1 , X2 , X3 , X4 die Körpergrößen von 4 zufällig ausgewählten Männern, so sind die
Xi unabhängig identisch verteilt mit Verteilung N (177, 100). Die Wahrscheinlichkeit, dass
unter 4 zufällig ausgewählten Männern mindestens einer größer als 200cm ist, beträgt:
P (Xi > 200, für ein i = 1, 2, 3, 4) = 1 − P (Xi ≤ 200, i = 1, 2, 3, 4)
= 1 − P (X1 ≤ 200) · P (X2 ≤ 200) · · · P (X4 ≤ 200) (unabh.)
= 1 − P (X1 ≤ 200)4 (gleich verteilt)
a)
= 1 − (0.9893)4 = 0.042.
c) Die X1 , . . . , X10 sind identisch und unabhängig verteilt. Somit gilt
10
X
Xi ∼ N (10 · 177, 10 · 100) = N (1770, 1000).
i=1
Für die Wahrscheinlichkeit, dass die durchschnittliche Größe von 10 zufällig ausgewählten
Männern größer als 180 ist, erhält man somit:
10
10
X
1 X
Xi > 1800)
Xi > 180) = P (
P(
10 i=1
i=1
ÃP
!
10
X
−
1770
1800
−
1770
i
i=1
√
√
= P
>
1000
1000
30
30
= P (Y > √
) = 1 − P (Y ≤ √
)
1000
1000
= 1 − P (Y ≤ 0.95) ≈ 1 − 0.83 = 0.17.
5
Aufgabe 4: (12 Punkte) Bei Mäusen wurde in n = 100 Würfen zu je 4 Tieren jeweils die
Anzahl k der weiblichen Tiere festgestellt. Die absoluten Häufigkeiten hk , die sich aus den
Daten ergaben, sind in der folgenden Tabelle angegeben:
k
hk
0 1 2
7 32 33
3 4
24 4
Die Zufallsvariable X beschreibe die Anzahl der weiblichen Tiere pro Wurf. Man kann annehmen, dass X eine Bin(4, p)−verteilte Zufallsvariable ist.
a) Berechnen Sie den arithmetischen Mittelwert des obigen Datensatzes.
b) Nehmen Sie an, dass p = 0.5 ist und somit X ∼ Bin(4, 0.5) gilt. Berechnen Sie unter
dieser Annahme den Erwartungswert von X und die Wahrscheinlichkeit, dass genau 2
Tiere eines Wurfes weiblich sind.
c) Nehmen Sie nun an, dass p unbekannt ist. Geben Sie mit Hilfe der obigen Daten einen
Schätzwert für p an.
Lösung:
a) Der arithmetische Mittelwert ist
x̄ =
1
(0 · 7 + 1 · 32 + 2 · 33 + 3 · 24 + 4 · 4) = 1.86.
100
b) Für den Erwartungswert von X ergibt sich:
EX = 4 · p = 4 · 0.5 = 2.
Für die Wahrscheinlichkeit, dass genau zwei Tiere eines Wurfes weiblich sind, erhält
man:
µ ¶
4
3
(0.5)4 = .
P (X = 2) =
2
8
c) Es wurden insgesamt 400 Mäuse untersucht, darunter befanden sich 32 · 1 + 33 · 2 +
24 · 3 + 4 · 4 = 186 weibliche Tiere. Der relative Anteil 186/400 = 0.465 ist also ein
naheliegender Schätzer für p.
Auf diesen Schätzer kann man auch folgendermaßen kommen: Es gilt EX = 4 · p. Der
arithmetische Mittelwert x̄ ist ein Schätzwert für den Erwartunsgwert einer Verteilung.
Somit ist x̄/4 = 0.465 ein Schätzwert für p.
6
Aufgabe 5: (16 Punkte)
Die folgende Tabelle zeigt die Wirksamkeit von Orangensaft und synthetischem Vitamin
C (je 0.5 mg Vitamin C täglich) auf 15 Meerschweinchen, die zufällig in zwei Gruppen
eingeteilt wurden. Gemessen wurde nach 6 Wochen das Wachstum der Odontoblasten der
Schneidezähne, die Zahnschmelz absondern. Die Werte xi und yi sind in Mikron-20 ausgedrückt.
Orangensaft
Synthetisches Vitamin C
xi
yj
8.2
4.2
9.4 9.6
5.2 5.8
9.7
6.4
10.1
7.0
14.5 14.8
7.3 10.0 11.2
a) Es wird vorausgesetzt, dass die Werte xi aus einer N (µ, σ 2 )−verteilten Grundgesamtheit
und die Werte yj aus einer N (ν, σ 2 )−verteilten Grundgesamtheit stammen. Testen Sie
die Hypothese, dass die Wirkung nicht von der Herkunft des Vitamin C abhängt zum
Niveau α = 0.05.
b) Verzichten Sie nun auf die Normalverteilungsannahme. Es wird nur noch vorausgesetzt,
dass das Wachstum der Odontoblasten unter Verabreichung von Orangensaft bzw. von
synthetischem Vitamin C jeweils eine unbekannte stetige Verteilung besitzt. Diese Verteilungen unterscheiden sich nur in der Lage. Testen Sie auch für diesen Fall die Hypothese,
dass die Wirkung nicht von der Herkunft des Vitamin C abhängt zum Niveau α = 0.05.
Hinweis: Sie können folgende Angaben verwenden:
x̄ = 10.90, s2x = 6.91, ȳ = 7.14 und s2y = 5.64.
Lösung:
Es handelt sich hier um ein Zwei-Stichproben-Problem. Die erste Stichprobe sind die Werte
mit Orangensaft x1 , . . . , x7 (n = 7), die zweite Stichprobe sind die Werte mit synthetischem
Vitamin C y1 , . . . , y8 (m = 8).
a)
Die xi stammen aus einer N (µ, σ 2 )-, die yj aus einer N (ν, σ 2 )-Verteilung. Zu testen ist
H0 : µ = ν
gegen
H1 : µ 6= ν.
Für diese Situation ist der Zwei-Stichproben-t-Test geeignet. Er hat die Prüfgröße
q
m·n
· (x̄ − ȳ)
m+n
1.93 · 3.76
=q
T =q
≈ 2.91.
1
1
2 + (m − 1) · s2 )
·
((n
−
1)
·
s
· (6 · 6.91 + 7 · 5.64)
y
x
m+n−2
13
Der kritische Wert ist nach Tabelle A.2
tm+n−2,1−α/2 = t13,0.975 = 2.16.
Wegen |T | ≥ tm+n−2,1−α/2 wird die Hypothese abgelehnt.
b)
Wenn keine Normalverteilungsannahme vorliegt, sollte der t-Test nicht verwendet werden. Unter der Voraussetzung, dass die Verteilungen je eine Dichte besitzen und sich
nur in der Lage unterscheiden, ist der Mann-Whitney-U -Test geeignet. Die Hypothese
7
H0 lautet: Die Verteilungsfunktion F der ersten Stichprobe und die Verteilungsfunktion
G der zweiten Stichprobe sind gleich, also
H0 : F = G.
Zunächst werden zu den gegebenen 15 Daten die Ränge bestimmt. Nachfolgend sind
die Ränge in Klammern nach dem jeweiligen Messwert angegeben:
xi
yi
8.2 (7)
4.2 (1)
9.4 (8)
5.2 (2)
9.6 (9)
5.8 (3)
9.7 (10) 10.1 (12)
6.4 (4)
7.0 (5)
14.5 (14) 14.8 (15)
7.3 (6) 10.0 (11) 11.2 (13)
Nun müssen die Ränge der xi aufaddiert werden:
W = 7 + 8 + 9 + 10 + 12 + 14 + 15 = 75.
Die Prüfgröße des Mann-Whitney-U -Tests ist
U =W−
n(n + 1)
7·8
= 75 −
= 47.
2
2
Der Mann-Whithney-U -Test lehnt die Hypothese ab, wenn eine der beiden Ungleichungen
U ≥ Um,n,1−α/2 oder U ≤ m · n − Um,n,1−α/2
erfüllt ist. Aus Tabelle A.6 kann man ablesen:
Um,n,1−α/2 = U8,7,0.975 = 46.
Wegen U > 46 lehnt der Mann-Whitney-U -Test die Hypothese ab.
8
Aufgabe 6: (16 Punkte)
Bis fast gegen Ende des 19. Jahrhunderts war die Sterblichkeit bei chirurgischen Eingriffen
extrem hoch. Dann begann der Arzt Joseph Lister Karbolsäure zum Sterilisieren zu verwenden. In der folgenden Kontingenztafel sind die Daten von 75 Amputationen eingetragen:
P
überlebt nicht überlebt
mit Karbolsäure
34
19
ohne Karbolsäure
6
P
a) Die Kontingenztafel ist hier unvollständig angegeben. Ergänzen Sie diese.
b) Testen Sie zum Niveau α = 0.01 die Hypothese, dass die Überlebenswahrscheinlichkeit
p1 bei Verwendung von Karbolsäure und die Überlebenswahrscheinlichkeit p2 ohne die
Verwendung von Karbolsäure gleich sind.
c) Bestimmen Sie ein Vertrauensintervall für p1 − p2 zur Vertrauenswahrscheinlichkeit 0.99.
Lösung:
a) Als vollständige Kontingenztafel ergibt sich:
überlebt nicht überlebt
mit Karbolsäure
34
19
ohne Karbolsäure
6
16
P
40
35
P
53
22
75
Es sei (Überleben wird als Treffer aufgefasst) a1 = 34, a2 = 6, n1 = 53, n2 = 22 und
a
+a2
n = n1 + n2 . Weiter sei p̂j = njj (j = 1, 2) und p̂ = na11 +n
.
2
b) Es soll ein zweiseitiger Test durchgeführt werden, d.h. die Hypothese
H0 : p1 = p2
soll zum Niveau α = 0.01 gegen die Alternative
H1 : p1 6= p2
getestet werden. Es ist n1 + n2 > 60, somit lautet die Testgröße
T =
n1 · n2 (p̂1 − p̂2 )2
·
≈ 8.5.
n1 + n2 p̂(1 − p̂)
H0 wird abgelehnt, falls T ≥ χ21,1−α . In unserem Fall ist χ21,0.99 ≈ 6.63, und somit wird
die Hypothese verworfen.
9
c) Nach Abschnitt 10.10 ist mit c0.995 = 2.576 eine approximative untere Konfidenzgrenze
für p1 − p2 gegeben durch:
s
n1 + n2
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
u := p̂1 − p̂2 −
− c1−α/2 ·
+
2 · n1 · n2
n1
n2
r
75
0.641 · 0.359 0.273 · 0.727
− 2.576 ·
+
= 0.039.
= 0.3688 −
2 · 53 · 22
53
22
Die obere Konfidenzgrenze ist dann gegeben durch:
s
n1 + n2
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+ c1−α/2 ·
+
o := p̂1 − p̂2 +
2 · n1 · n2
n1
n2
r
75
0.641 · 0.359 0.273 · 0.727
= 0.3688 +
+ 2.576 ·
+
= 0.699.
2 · 53 · 22
53
22
Wir erhalten somit mit [0.039, 0.699] das gesuchte Konfidenzintervall.
10
Herunterladen