W. Timischl: Angewandte Statistik ZWEISTICHPROBENVERGLEICHE 1 1. Im Zuge der statistischen Prozesslenkung werden aus einer Fertigung laufend Stichproben entnommen und die zu überwachende Größe X gemessen. Es ergaben sich zu zwei Zeitpunkten die folgenden Probenwerte: Zeitpunkt X 1 4,46 4,50 4,59 4,55 4,65 2 4,91 4,32 4,39 4,59 4,88 Man zeige auf dem 5%-Niveau, dass die Varianz zum Zeitpunkt 2 signifikant über der Varianz zum Zeitpunkt 1 liegt! Lösung mit EXCEL: Daten, deskriptive Statistiken: Zeitpunkt 1 2 X 4,46 4,91 n Zeitpunkt 1 Zeitpunkt 2 5 5 4,50 4,32 Mittelwert STD 4,52 4,618 4,59 4,39 4,40 4,59 0,100 0,272 VAR 0,010050 0,073870 4,65 4,88 Hypothesen: H0: Varianz/Zeitpunkt 1 >= Varianz/Zeitpunkt 2 H1: Varianz/Zeitpunkt 1 < Varianz/Zeitpunkt 2 alpha= 5% Test, Testgröße: F-Test Voraussetzung: X zu den Zeitpunkt 1 und 2 normalverteilt mit Mittelwert bzw. 2 und Varianz 2 bzw. 22 TGs = (größere Stichprobenvarianz/kleinere Stichprobenvarianz) = 7,350 Testentscheidung: Variante 1 (mit Quantil): H0 ablehnen, wenn TGs > F(n1-1, n2-1, 1-alpha) F(4,4,0.95) = FINV(0,05; 4; 4)= 6,3882 TGs > F(4,4,0.95) >> H1 Variante 2 (mit P-Wert): P-Wert = P(TG > TGs) = FVERT(TGs; n2-1; n1-1) = 0,0396 < alpha=5% >> H1 Lösung mit R: > > > > > > > > > > > xzeit1 <- c(4.46, 4.50, 4.59, 4.40, 4.65) xzeit2 <- c(4.91, 4.32, 4.39, 4.59, 4.88) n1 <- length(xzeit1) n2 <- length(xzeit2) mw1 <- mean(xzeit1) mw2 <- mean(xzeit2) std1 <- sd(xzeit1) std2 <- sd(xzeit2) var1 <- std1*std1 var2 <- std2*std2 print(cbind(n1, mw1, std1, var1)) n1 mw1 std1 var1 [1,] 5 4.52 0.1002497 0.01005 > print(cbind(n2, mw2, std2, var2)) n2 mw2 std2 var2 [1,] 5 4.618 0.2717904 0.07387 > var.test(xzeit2, xzeit1, ratio=1, alternative="greater", conf.level=0.95) 68635729 15.05.2016 W. Timischl: Angewandte Statistik ZWEISTICHPROBENVERGLEICHE 2 F test to compare two variances data: xzeit2 and xzeit1 F = 7.3502, num df = 4, denom df = 4, p-value = 0.03959 alternative hypothesis: true ratio of variances is greater than 1 95 percent confidence interval: 1.150592 Inf sample estimates: ratio of variances 7.350249 2. Die folgende Tabelle zeigt die Änderung des (systolischen) Blutdrucks (in mm Hg) bei zehn einer gewissen Behandlung unterworfenen Patienten. Xb und Xe bezeichnen die Blutdruckwerte am Beginn bzw. am Ende der Behandlung. a. Gibt es einen signifikanten Behandlungseffekt? b. Welcher Stichprobenumfang muss geplant werden, um einen Effekt in der Größe von 25% der Änderung der Stichprobenmittelwerte mit einer Sicherheit von 90% feststellen zu können? Das Signifikanzniveau sei =5%. Patient 1 2 3 4 5 6 7 8 9 10 Xb 210 165 187 155 167 176 185 196 173 146 Xe 201 170 166 165 147 165 168 180 155 136 Lösung mit EXCEL: a) Daten, deskriptive Statistiken: Patient Xb 1 2 3 4 5 6 7 8 9 10 Xe 210 165 187 155 167 176 185 196 173 146 dif_be 201 170 166 165 147 165 168 180 155 136 n Mittelwert STD VAR 9 -5 21 -10 20 11 17 16 18 10 10 10,70 10,499 110,233 Versuchsanlage, Hypothesen: Paarvergleich H0: Mittelwert/dif_be = 0 H1: Mittelwert/dif_be <> 0 alpha= 5% Test, Testgröße: Einstichproben t-Test (Differenzstichprobe) Voraussetzung: Differenzstichprobe aus normalverteilter Grundgesamtheit! TGs = 3,223 Testentscheidung: 0,01044317 Variante 1 (mit Quantil): H0 ablehnen, wenn |TGs| > t(n-1, 1-alpha/2) t(n-1, 1-alpha/2) = TINV(alpha; n-1) = |TGs| > t(9, 0.975) >> H1 2,2622 Variante 2 (mit P-Wert): P-Wert = P(|TG < -|TGs| oder TG > |TGs|) = 2*TVERT(|TGs|; n-1) = ODER mit Excel-Funktion TTEST: P-Wert = TTEST(Stichprobe1; Stichprobe2; Seiten; Typ) Seite= 2 (seitig) Typ=1 (Einstichproben t-Test) 68635729 0,01044317 < alpha=5% >> H1 0,01044317 15.05.2016 W. Timischl: Angewandte Statistik ZWEISTICHPROBENVERGLEICHE b) alpha= power= Delta= sigma= 5% 90% 2,675 10,50 z(1-alpha/2)= z(power)= 3 1,95996108 1,28155079 n_mindest= 162 Lösung mit R: > > > > > > > > # Teilaufgabe a) xb <- c(210, 165, 187, 155, 167, 176, 185, 196, 173, 146) xe <- c(201, 170, 166, 165, 147, 165, 168, 180, 155, 136) dif_be <- xb - xe n <- length(dif_be) mw <- mean(dif_be) std <- sd(dif_be) print(cbind(n, mw, std)) n mw std [1,] 10 10.7 10.49921 > help(t.test) > t.test(dif_be, mu=0, alternative="two.sided", con.level=0.95) One Sample t-test data: dif_be t = 3.2228, df = 9, p-value = 0.01044 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 3.18932 18.21068 sample estimates: mean of x 10.7 > > # Teilaufgabe b) > power.t.test(delta=0.25*mw, sd=std, sig.level=0.05, power=0.9, + type="one.sample", alternative="two.sided") One-sample t test power calculation n delta sd sig.level power alternative = = = = = = 163.801 2.675 10.49921 0.05 0.9 two.sided > # Hinweis: Überprüfung auf Abweichung der Differenzstichprobe von der > # Normalverteilungsvoraussetzung (Shapiro-Wilk Test) > > shapiro.test(dif_be) Shapiro-Wilk normality test data: dif_be W = 0.8476, p-value = 0.0544 > # Entscheidung: p-value > alpha=5% H0 (Normalverteilungsannahme) nicht ablehnen! 68635729 15.05.2016 W. Timischl: Angewandte Statistik ZWEISTICHPROBENVERGLEICHE 4 3. In einem Experiment wurden 10 Objekte unter Bedingung A und (von den ersten verschiedene) 10 Objekte unter Bedingung B beobachtet und die Halbwertszeit (HWZ, in h) eines Zerfallsprozesses gemessen. Man prüfe, ob sich die Halbwertszeiten im Mittel signifikant zwischen den Bedingungen unterscheiden (=5%). Prob. Nr. HWZ-Bed. A Prob. Nr. HWZ-Bed. B 1 1,496 1 1,462 2 1,916 2 1,800 3 2,616 3 1,664 4 1,557 4 1,785 5 1,924 5 1,705 6 2,167 6 1,487 7 3,262 7 1,768 8 3,391 8 1,645 9 2,404 9 3,245 10 1,413 10 2,481 Lösung mit EXCEL: Daten, deskriptive Statistiken: Proband Bed. A 1 2 3 4 5 6 7 8 9 10 n Mittelwert STD VAR Bed. B 1,496 1,916 2,616 1,557 1,924 2,167 3,262 3,391 2,404 1,413 10 2,215 0,703 0,494 1,462 3,100 1,664 1,585 1,705 1,487 2,768 1,645 2,245 2,481 10 2,014 0,591 0,349 Versuchsanlage, Hypothesen: Parallelversuch H0: Mittelwert/A = Mittelwert/B H1: Mittelwert/A <> Mittelwert/B alpha= 5% Test, Vorausetzungen: Welchtest (Zweistichproben t-Test bei "ungleichen" Varianzen) Voraussetzung: Stichprobenwerte sind unter beiden Bedingenen Realisationen von normalverteilten ZV Testentscheidung (P-Wert): P-Wert = TTEST(Stichprobe1; Stichprobe2; Seiten, Typ) = Seiten = 2 (seitig) Typ = 3 (ungleiche Varianzen) Mindeststichprobenumfang: alpha= power= Delta= sigma= z(1-alpha/2)= z(power)= 0,49907056 > alpha=5% >> H0 nicht ablehnen 5% 90% angenommen 0,200 Differenz der beobachteten Mittelwerte 0,6492 Wurzel aus dem Mittelwert der Varianzen 1,960 1,282 n_mindest= 220,51 Lösung mit R: > hwz_A <- c(1.496, 1.916, 2.616, 1.557, 1.924, + 2.167, 3.262, 3.391, 2.404, 1.413) 68635729 15.05.2016 W. Timischl: Angewandte Statistik ZWEISTICHPROBENVERGLEICHE 5 > + > > > > > > > > > hwz_B <- c(1.462, 3.100, 1.664, 1.585, 1.705, 1.487, 2.768, 1.645, 2.245, 2.481) n_A <- length(hwz_A) n_B <- length(hwz_B) mw_A <- mean(hwz_A) mw_B <- mean(hwz_B) std_A <- sd(hwz_A) std_B <- sd(hwz_B) var_A <- std_A*std_A var_B <- std_B*std_B print(cbind(n_A, mw_A, std_A, var_A)) n_A mw_A std_A var_A [1,] 10 2.2146 0.7027897 0.4939134 > print(cbind(n_B, mw_B, std_B, var_B)) n_B mw_B std_B var_B [1,] 10 2.0142 0.5906661 0.3488864 > shapiro.test(hwz_A) Shapiro-Wilk normality test data: hwz_A W = 0.9111, p-value = 0.2884 > shapiro.test(hwz_B) Shapiro-Wilk normality test data: hwz_B W = 0.8446, p-value = 0.05012 > t.test(hwz_A, hwz_B, alternative="two.sided", var.equal=FALSE, conf.level=0.95) Welch Two Sample t-test data: hwz_A and hwz_B t = 0.6903, df = 17.482, p-value = 0.4991 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.4108161 0.8116161 sample estimates: mean of x mean of y 2.2146 2.0142 > power.t.test(delta=mw_A-mw_B, sd=sqrt((var_A+var_B)/2), sig.level=0.05, + type="two.sample", alternative="two.sided", power=0.9) Two-sample t test power calculation n delta sd sig.level power alternative = = = = = = 221.4732 0.2004 0.6491532 0.05 0.9 two.sided NOTE: n is number in *each* group 68635729 15.05.2016 W. Timischl: Angewandte Statistik ZWEISTICHPROBENVERGLEICHE 6 4. Im Rahmen einer Untersuchung des Ernährungsstatus von Schulkindern aus Oberösterreich und der Steiermark wurde u.a. das Gesamtcholesterin (in mg/dl) stichprobenartig erfasst. In Oberösterreich umfasste die Stichprobe 93 Schulkinder mit Werten < 170 (optimal) und 52 mit Werten ≥170 (Risikogruppe). Die entsprechenden Werte für die Steiermark waren 42 bzw. 29. Man prüfe auf 5%igem Niveau, ob sich der Anteil von Schülern in der optimalen Kategorie zwischen den Bundesländern signifikant unterscheidet. Lösung mit EXCEL: Daten - Häufigkeitstabelle: O optimal kritisch St 93 52 145 42 29 71 135 81 216 Versuchsanlage, Hypothesen: Parallelversuch mit einem zweistufigen Merkmal (Cholesterin: optimal/kritisch) Vergleich von 2 Anteilen - Chiquadrat-Test Erwartete Häufigkeiten: O St optimal 90,625 kritisch 54,375 145 44,375 26,625 71 135 81 216 Voraussetzung für Chiquadrat-Test: Alle erwarteten Häufigkeiten > 5, Gesamtzahl > 60 H0: Anteile der Probanden in der optimalen Kategorie gleich H1: Anteile zwischen den Gruppen verschieden alpha = 5% TGs = Chiquadratsumme = 0,50494415 Testentscheidung (P-Wert): P-Wert = P(TG > TGs) = CHIVERT(TGs, 1) = 0,477335727 > alpha=5% >> H0 nicht ablehnen Lösung mit R: > help(prop.test) > chol <- matrix(data=c(93, 52, 42, 29), ncol=2, nrow=2, + dimnames=list("cholesterin"=c("optimal","kritisch"), + "gruppe"=c("O", "St"))) > chol gruppe cholesterin O St optimal 93 42 kritisch 52 29 > prop.test(chol, alternative="two.sided", conf.level=0.95, correct=FALSE) 2-sample test for equality of proportions without continuity correction data: chol X-squared = 0.5049, df = 1, p-value = 0.4773 alternative hypothesis: two.sided 95 percent confidence interval: -0.08346647 0.17729363 sample estimates: prop 1 prop 2 0.6888889 0.6419753 > prop.test(chol, alternative="two.sided", conf.level=0.95, correct=TRUE) 68635729 15.05.2016 W. Timischl: Angewandte Statistik ZWEISTICHPROBENVERGLEICHE 7 2-sample test for equality of proportions with continuity correction data: chol X-squared = 0.3147, df = 1, p-value = 0.5748 alternative hypothesis: two.sided 95 percent confidence interval: -0.09334302 0.18717018 sample estimates: prop 1 prop 2 0.6888889 0.6419753 5. Eine Testgruppe von chronisch kranken Patienten erhält eine neue Schmerztherapie. Es wird nach einer sowie nach vier Wochen registriert, bei welchen Patienten Schmerzen (+) bzw. keine Schmerzen (-) auftreten. Gibt es zwischen der ersten und vierten Woche einen signifikanten Behandlungseffekt (5%)? Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1. Woche + + + + + + + + + 4. Woche + + + + + + - Nr. 15 16 17 18 19 20 21 22 23 24 25 26 27 28 1. Woche + + + + + + + + 4. Woche + + + + + - Hinweis: Die Daten werden zweckmäßigerweise in einer Vierfeldertafel (Spalten: +/- 4. Woche, Zeilen: +/- 1. Woche) aggregiert. 1. Woche (Schmerzen + 1. Woche (schmerzfrei -) 4. Woche + (Schmerzen + 3 8 4. Woche (schmerzfrei -) 14 3 Lösung mit EXCEL: Daten - Häufigkeitstabelle: 4. Wo + 1. Wo + 1. Wo - 4. Wo 3 8 14 3 Versuchsanlage, Hypothesen: Paarvergleich mit einem 2-stufigen Merkmal (Schmerzen +/-) H0:Wahrscheinlichkeit für Änderung von + nach - = 1/2 H1: Wahrscheinlichkeit für Änderung von + nach - <> 1/2 alpha = 5% Test, Testgröße: Änderungsmessung mit dem McNemar-Test TGs = 1,13636364 TG ist unter der Voraussetzung b+c=13+8 >=22 approximativ chiquadratverteilt mit 1 FG Testentscheidung (P-Wert): P-Wert = P(TG > TGs) = CHIVERT(TGs, 1) = 68635729 0,286422272 > alpha=5% >> H0 nicht ablehnen 15.05.2016 W. Timischl: Angewandte Statistik ZWEISTICHPROBENVERGLEICHE 8 Lösung mit R: > freq <- matrix(data=c(3, 8, 14, 3), ncol=2, nrow=2, + dimnames=list("1. Woche"=c("+", "-"), "4. Woche"=c("+", "-"))) > freq 4. Woche 1. Woche + + 3 14 - 8 3 > mcnemar.test(freq, correct=TRUE) McNemar's Chi-squared test with continuity correction data: freq McNemar's chi-squared = 1.1364, df = 1, p-value = 0.2864 68635729 15.05.2016