Eine Frau hat Blutgruppe 0 (Genotyp 00), ihre Tochter Blutgruppe A

Werbung
W. Timischl: Angewandte Statistik
ZWEISTICHPROBENVERGLEICHE
1
1. Im Zuge der statistischen Prozesslenkung werden aus einer Fertigung laufend Stichproben
entnommen und die zu überwachende Größe X gemessen. Es ergaben sich zu zwei Zeitpunkten
die folgenden Probenwerte:
Zeitpunkt
X
1 4,46 4,50 4,59 4,55 4,65
2 4,91 4,32 4,39 4,59 4,88
Man zeige auf dem 5%-Niveau, dass die Varianz zum Zeitpunkt 2 signifikant über der Varianz
zum Zeitpunkt 1 liegt!
Lösung mit EXCEL:
Daten, deskriptive Statistiken:
Zeitpunkt
1
2
X
4,46
4,91
n
Zeitpunkt 1
Zeitpunkt 2
5
5
4,50
4,32
Mittelwert
STD
4,52
4,618
4,59
4,39
4,40
4,59
0,100
0,272
VAR
0,010050
0,073870
4,65
4,88
Hypothesen:
H0: Varianz/Zeitpunkt 1 >= Varianz/Zeitpunkt 2
H1: Varianz/Zeitpunkt 1 < Varianz/Zeitpunkt 2
alpha=
5%
Test, Testgröße:
F-Test
Voraussetzung:
X zu den Zeitpunkt 1 und 2 normalverteilt mit Mittelwert  bzw. 2 und Varianz 2 bzw. 22
TGs = (größere Stichprobenvarianz/kleinere Stichprobenvarianz) =
7,350
Testentscheidung:
Variante 1 (mit Quantil):
H0 ablehnen, wenn TGs > F(n1-1, n2-1, 1-alpha)
F(4,4,0.95) = FINV(0,05; 4; 4)=
6,3882
TGs > F(4,4,0.95) >> H1
Variante 2 (mit P-Wert):
P-Wert = P(TG > TGs) = FVERT(TGs; n2-1; n1-1) =
0,0396 < alpha=5% >> H1
Lösung mit R:
>
>
>
>
>
>
>
>
>
>
>
xzeit1 <- c(4.46, 4.50, 4.59, 4.40, 4.65)
xzeit2 <- c(4.91, 4.32, 4.39, 4.59, 4.88)
n1 <- length(xzeit1)
n2 <- length(xzeit2)
mw1 <- mean(xzeit1)
mw2 <- mean(xzeit2)
std1 <- sd(xzeit1)
std2 <- sd(xzeit2)
var1 <- std1*std1
var2 <- std2*std2
print(cbind(n1, mw1, std1, var1))
n1 mw1
std1
var1
[1,] 5 4.52 0.1002497 0.01005
> print(cbind(n2, mw2, std2, var2))
n2
mw2
std2
var2
[1,] 5 4.618 0.2717904 0.07387
> var.test(xzeit2, xzeit1, ratio=1, alternative="greater", conf.level=0.95)
68635729
15.05.2016
W. Timischl: Angewandte Statistik
ZWEISTICHPROBENVERGLEICHE
2
F test to compare two variances
data: xzeit2 and xzeit1
F = 7.3502, num df = 4, denom df = 4, p-value = 0.03959
alternative hypothesis: true ratio of variances is greater than 1
95 percent confidence interval:
1.150592
Inf
sample estimates:
ratio of variances
7.350249
2. Die folgende Tabelle zeigt die Änderung des (systolischen) Blutdrucks (in mm Hg) bei zehn einer
gewissen Behandlung unterworfenen Patienten. Xb und Xe bezeichnen die Blutdruckwerte am
Beginn bzw. am Ende der Behandlung.
a. Gibt es einen signifikanten Behandlungseffekt?
b. Welcher Stichprobenumfang muss geplant werden, um einen Effekt in der Größe von 25% der
Änderung der Stichprobenmittelwerte mit einer Sicherheit von 90% feststellen zu können?
Das Signifikanzniveau sei  =5%.
Patient 1
2
3
4
5
6
7
8
9
10
Xb
210 165 187 155 167 176 185 196 173 146
Xe
201 170 166 165 147 165 168 180 155 136
Lösung mit EXCEL:
a)
Daten, deskriptive Statistiken:
Patient
Xb
1
2
3
4
5
6
7
8
9
10
Xe
210
165
187
155
167
176
185
196
173
146
dif_be
201
170
166
165
147
165
168
180
155
136
n
Mittelwert
STD
VAR
9
-5
21
-10
20
11
17
16
18
10
10
10,70
10,499
110,233
Versuchsanlage, Hypothesen:
Paarvergleich
H0: Mittelwert/dif_be = 0
H1: Mittelwert/dif_be <> 0
alpha=
5%
Test, Testgröße:
Einstichproben t-Test (Differenzstichprobe)
Voraussetzung: Differenzstichprobe aus normalverteilter Grundgesamtheit!
TGs =
3,223
Testentscheidung:
0,01044317
Variante 1 (mit Quantil):
H0 ablehnen, wenn |TGs| > t(n-1, 1-alpha/2)
t(n-1, 1-alpha/2) = TINV(alpha; n-1) =
|TGs| > t(9, 0.975) >> H1
2,2622
Variante 2 (mit P-Wert):
P-Wert = P(|TG < -|TGs| oder TG > |TGs|) = 2*TVERT(|TGs|; n-1) =
ODER mit Excel-Funktion TTEST:
P-Wert = TTEST(Stichprobe1; Stichprobe2; Seiten; Typ)
Seite= 2 (seitig)
Typ=1 (Einstichproben t-Test)
68635729
0,01044317 < alpha=5% >> H1
0,01044317
15.05.2016
W. Timischl: Angewandte Statistik
ZWEISTICHPROBENVERGLEICHE
b)
alpha=
power=
Delta=
sigma=
5%
90%
2,675
10,50
z(1-alpha/2)=
z(power)=
3
1,95996108
1,28155079
n_mindest=
162
Lösung mit R:
>
>
>
>
>
>
>
>
# Teilaufgabe a)
xb <- c(210, 165, 187, 155, 167, 176, 185, 196, 173, 146)
xe <- c(201, 170, 166, 165, 147, 165, 168, 180, 155, 136)
dif_be <- xb - xe
n <- length(dif_be)
mw <- mean(dif_be)
std <- sd(dif_be)
print(cbind(n, mw, std))
n
mw
std
[1,] 10 10.7 10.49921
> help(t.test)
> t.test(dif_be, mu=0, alternative="two.sided", con.level=0.95)
One Sample t-test
data: dif_be
t = 3.2228, df = 9, p-value = 0.01044
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
3.18932 18.21068
sample estimates:
mean of x
10.7
>
> # Teilaufgabe b)
> power.t.test(delta=0.25*mw, sd=std, sig.level=0.05, power=0.9,
+
type="one.sample", alternative="two.sided")
One-sample t test power calculation
n
delta
sd
sig.level
power
alternative
=
=
=
=
=
=
163.801
2.675
10.49921
0.05
0.9
two.sided
> # Hinweis: Überprüfung auf Abweichung der Differenzstichprobe von der
> # Normalverteilungsvoraussetzung (Shapiro-Wilk Test)
> > shapiro.test(dif_be)
Shapiro-Wilk normality test
data: dif_be
W = 0.8476, p-value = 0.0544
> # Entscheidung: p-value > alpha=5%  H0 (Normalverteilungsannahme) nicht
ablehnen!
68635729
15.05.2016
W. Timischl: Angewandte Statistik
ZWEISTICHPROBENVERGLEICHE
4
3. In einem Experiment wurden 10 Objekte unter Bedingung A und (von den ersten verschiedene) 10
Objekte unter Bedingung B beobachtet und die Halbwertszeit (HWZ, in h) eines Zerfallsprozesses
gemessen. Man prüfe, ob sich die Halbwertszeiten im Mittel signifikant zwischen den
Bedingungen unterscheiden (=5%).
Prob. Nr. HWZ-Bed. A Prob. Nr. HWZ-Bed. B
1
1,496
1
1,462
2
1,916
2
1,800
3
2,616
3
1,664
4
1,557
4
1,785
5
1,924
5
1,705
6
2,167
6
1,487
7
3,262
7
1,768
8
3,391
8
1,645
9
2,404
9
3,245
10
1,413
10
2,481
Lösung mit EXCEL:
Daten, deskriptive Statistiken:
Proband
Bed. A
1
2
3
4
5
6
7
8
9
10
n
Mittelwert
STD
VAR
Bed. B
1,496
1,916
2,616
1,557
1,924
2,167
3,262
3,391
2,404
1,413
10
2,215
0,703
0,494
1,462
3,100
1,664
1,585
1,705
1,487
2,768
1,645
2,245
2,481
10
2,014
0,591
0,349
Versuchsanlage, Hypothesen:
Parallelversuch
H0: Mittelwert/A = Mittelwert/B
H1: Mittelwert/A <> Mittelwert/B
alpha=
5%
Test, Vorausetzungen:
Welchtest (Zweistichproben t-Test bei "ungleichen" Varianzen)
Voraussetzung: Stichprobenwerte sind unter beiden Bedingenen Realisationen von normalverteilten ZV
Testentscheidung (P-Wert):
P-Wert = TTEST(Stichprobe1; Stichprobe2; Seiten, Typ) =
Seiten = 2 (seitig)
Typ = 3 (ungleiche Varianzen)
Mindeststichprobenumfang:
alpha=
power=
Delta=
sigma=
z(1-alpha/2)=
z(power)=
0,49907056 > alpha=5% >> H0 nicht ablehnen
5%
90% angenommen
0,200 Differenz der beobachteten Mittelwerte
0,6492 Wurzel aus dem Mittelwert der Varianzen
1,960
1,282
n_mindest=
220,51
Lösung mit R:
> hwz_A <- c(1.496, 1.916, 2.616, 1.557, 1.924,
+
2.167, 3.262, 3.391, 2.404, 1.413)
68635729
15.05.2016
W. Timischl: Angewandte Statistik
ZWEISTICHPROBENVERGLEICHE
5
>
+
>
>
>
>
>
>
>
>
>
hwz_B <- c(1.462, 3.100, 1.664, 1.585, 1.705,
1.487, 2.768, 1.645, 2.245, 2.481)
n_A <- length(hwz_A)
n_B <- length(hwz_B)
mw_A <- mean(hwz_A)
mw_B <- mean(hwz_B)
std_A <- sd(hwz_A)
std_B <- sd(hwz_B)
var_A <- std_A*std_A
var_B <- std_B*std_B
print(cbind(n_A, mw_A, std_A, var_A))
n_A
mw_A
std_A
var_A
[1,] 10 2.2146 0.7027897 0.4939134
> print(cbind(n_B, mw_B, std_B, var_B))
n_B
mw_B
std_B
var_B
[1,] 10 2.0142 0.5906661 0.3488864
> shapiro.test(hwz_A)
Shapiro-Wilk normality test
data: hwz_A
W = 0.9111, p-value = 0.2884
> shapiro.test(hwz_B)
Shapiro-Wilk normality test
data: hwz_B
W = 0.8446, p-value = 0.05012
> t.test(hwz_A, hwz_B, alternative="two.sided", var.equal=FALSE,
conf.level=0.95)
Welch Two Sample t-test
data: hwz_A and hwz_B
t = 0.6903, df = 17.482, p-value = 0.4991
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.4108161 0.8116161
sample estimates:
mean of x mean of y
2.2146
2.0142
> power.t.test(delta=mw_A-mw_B, sd=sqrt((var_A+var_B)/2), sig.level=0.05,
+
type="two.sample", alternative="two.sided", power=0.9)
Two-sample t test power calculation
n
delta
sd
sig.level
power
alternative
=
=
=
=
=
=
221.4732
0.2004
0.6491532
0.05
0.9
two.sided
NOTE: n is number in *each* group
68635729
15.05.2016
W. Timischl: Angewandte Statistik
ZWEISTICHPROBENVERGLEICHE
6
4. Im Rahmen einer Untersuchung des Ernährungsstatus von Schulkindern aus Oberösterreich und
der Steiermark wurde u.a. das Gesamtcholesterin (in mg/dl) stichprobenartig erfasst. In
Oberösterreich umfasste die Stichprobe 93 Schulkinder mit Werten < 170 (optimal) und 52 mit
Werten ≥170 (Risikogruppe). Die entsprechenden Werte für die Steiermark waren 42 bzw. 29.
Man prüfe auf 5%igem Niveau, ob sich der Anteil von Schülern in der optimalen Kategorie
zwischen den Bundesländern signifikant unterscheidet.
Lösung mit EXCEL:
Daten - Häufigkeitstabelle:
O
optimal
kritisch


St
93
52
145
42
29
71
135
81
216
Versuchsanlage, Hypothesen:
Parallelversuch mit einem zweistufigen Merkmal (Cholesterin: optimal/kritisch)
Vergleich von 2 Anteilen - Chiquadrat-Test
Erwartete Häufigkeiten:
O
St
optimal
90,625
kritisch
54,375

145

44,375
26,625
71
135
81
216
Voraussetzung für Chiquadrat-Test:
Alle erwarteten Häufigkeiten > 5, Gesamtzahl > 60
H0: Anteile der Probanden in der optimalen Kategorie gleich
H1: Anteile zwischen den Gruppen verschieden
alpha =
5%
TGs = Chiquadratsumme =
0,50494415
Testentscheidung (P-Wert):
P-Wert = P(TG > TGs) = CHIVERT(TGs, 1) =
0,477335727 > alpha=5% >> H0 nicht ablehnen
Lösung mit R:
> help(prop.test)
> chol <- matrix(data=c(93, 52, 42, 29), ncol=2, nrow=2,
+
dimnames=list("cholesterin"=c("optimal","kritisch"),
+
"gruppe"=c("O", "St")))
> chol
gruppe
cholesterin O St
optimal 93 42
kritisch 52 29
> prop.test(chol, alternative="two.sided", conf.level=0.95, correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data: chol
X-squared = 0.5049, df = 1, p-value = 0.4773
alternative hypothesis: two.sided
95 percent confidence interval:
-0.08346647 0.17729363
sample estimates:
prop 1
prop 2
0.6888889 0.6419753
> prop.test(chol, alternative="two.sided", conf.level=0.95, correct=TRUE)
68635729
15.05.2016
W. Timischl: Angewandte Statistik
ZWEISTICHPROBENVERGLEICHE
7
2-sample test for equality of proportions with continuity
correction
data: chol
X-squared = 0.3147, df = 1, p-value = 0.5748
alternative hypothesis: two.sided
95 percent confidence interval:
-0.09334302 0.18717018
sample estimates:
prop 1
prop 2
0.6888889 0.6419753
5. Eine Testgruppe von chronisch kranken Patienten erhält eine neue Schmerztherapie. Es wird
nach einer sowie nach vier Wochen registriert, bei welchen Patienten Schmerzen (+) bzw. keine
Schmerzen (-) auftreten. Gibt es zwischen der ersten und vierten Woche einen signifikanten
Behandlungseffekt (5%)?
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1. Woche
+
+
+
+
+
+
+
+
+
4. Woche
+
+
+
+
+
+
-
Nr.
15
16
17
18
19
20
21
22
23
24
25
26
27
28
1. Woche
+
+
+
+
+
+
+
+
4. Woche
+
+
+
+
+
-
Hinweis:
Die Daten werden zweckmäßigerweise in einer Vierfeldertafel (Spalten: +/- 4. Woche, Zeilen: +/- 1.
Woche) aggregiert.
1. Woche (Schmerzen +
1. Woche (schmerzfrei -)
4. Woche + (Schmerzen +
3
8
4. Woche (schmerzfrei -)
14
3
Lösung mit EXCEL:
Daten - Häufigkeitstabelle:
4. Wo +
1. Wo +
1. Wo -
4. Wo 3
8
14
3
Versuchsanlage, Hypothesen:
Paarvergleich mit einem 2-stufigen Merkmal (Schmerzen +/-)
H0:Wahrscheinlichkeit für Änderung von + nach - = 1/2
H1: Wahrscheinlichkeit für Änderung von + nach - <> 1/2
alpha =
5%
Test, Testgröße:
Änderungsmessung mit dem McNemar-Test
TGs =
1,13636364
TG ist unter der Voraussetzung b+c=13+8 >=22 approximativ chiquadratverteilt mit 1 FG
Testentscheidung (P-Wert):
P-Wert = P(TG > TGs) = CHIVERT(TGs, 1) =
68635729
0,286422272 > alpha=5% >> H0 nicht ablehnen
15.05.2016
W. Timischl: Angewandte Statistik
ZWEISTICHPROBENVERGLEICHE
8
Lösung mit R:
> freq <- matrix(data=c(3, 8, 14, 3), ncol=2, nrow=2,
+
dimnames=list("1. Woche"=c("+", "-"), "4. Woche"=c("+", "-")))
> freq
4. Woche
1. Woche + + 3 14
- 8 3
> mcnemar.test(freq, correct=TRUE)
McNemar's Chi-squared test with continuity correction
data: freq
McNemar's chi-squared = 1.1364, df = 1, p-value = 0.2864
68635729
15.05.2016
Herunterladen