1 Angewandte Statistik II Lernziele: 3 Parameterschätzung 3.1 Den Zweck der Parameterschätzung erklären können. 3.2 Den Mittelwert µ einer N(µ, σ2)-verteilten Zufallsvariablen X schätzen können. 3.3 Die Varianz einer N(µ, σ2)-verteilten Zufallsvariablen X schätzen können. 3.4 Zweiseitige Konfidenzintervalle erklären und interpretieren können. 3.5 (1-α)-Konfidenzintervalle für die Varianz einer N(µ, σ2)- verteilten Zufallsvariablen X berechnen können. 3.6 (1-α)-Konfidenzintervalle für den Mittelwert einer N(µ, σ2)verteilten Zufallsvariablen berechnen können. 3.7 (1-α)-Konfidenzintervalle für den Parameter p (Wahrscheinlichkeit) berechnen können. 4 Testen von Hypothesen: 1-Stichprobenprobleme 4.1 Das Prinzip der Signifikanzprüfung an Hand des Gauß-Tests erklärenkönnen. 4.2 Signifikante und nichtsignifikante Testergebnisse interpretieren können. 4.3 Mit dem 1-Stichproben-t-Test entscheiden können, ob der Mittelwert einer normalverteilten Zufallsvariablen X von einem vorgegebenen Sollwert abweicht bzw. diesen unter- oder überschreitet. 4.4 Mit dem Binomialtest prüfen können, ob eine unbekannte Wahrscheinlichkeit von einem vorgegebenen Sollwert abweicht bzw. diesen über- oder unterschreitet. 4.5 Mit dem χ2-Test prüfen können, ob die beobachteten Häufigkeiten einer mehrstufig skalierten Zufallsvariablen von einem vorgegebenen Verhältnis abweichen. 4.6 Mit dem Normal-QQ-Plot die Annahme normalverteilter Stichprobenwerte beurteilen können. 4.7 Mit dem Grubbs-Test einen Ausreißer in einer normalverteilten Zufallsstichprobe identifizieren können. 5 Zweistichprobenprobleme mit metrischen Untersuchungsmerkmalen 5.1 Die Versuchsanlagen „Parallelversuch“ und „Paarvergleich“ zum Vergleich von zwei Merkmalen unterscheiden können. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 2 5.2 Mit dem F-Test entscheiden können, ob die Varianzen von zwei unabhängigen Stichproben normalverteilter Variablen voneinander abweichen bzw. die eine Varianz die andere überschreitet/ unterschreitet. 5.3 Mit dem Zwei-Stichproben-t-Test die Mittelwerte von zwei mit gleichen Varianzen normalverteilten Untersuchungsmerkmalen vergleichen können. 5.4 Mit dem Welch-Test die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen vergleichen können. 5.5 Mit dem Differenzen-t-Test (paired t-test) die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen mit abhängigen Stichproben vergleichen können. 6 Zweistichprobenprobleme mit binären Untersuchungsmerkmalen 6.1 Zwei Wahrscheinlichkeiten im Rahmen eines Parallelversuchs mit großen Stichproben vergleichen können. 6.2 Zwei Wahrscheinlichkeiten mit abhängigen Stichproben vergleichen können. 7 Korrelation und Regression bei metrischen Variablen 7.1 Den Korrelationskoeffizienten ρ als Parameter der 2dimensionalen Normalverteilung interpretieren können. 7.2 Einen Schätzwert und ein Konfidenzintervall für den Korrelationskoeffizienten ρ bestimmen können. 7.3 Die Abhängigkeit der zweidimensional-normalverteilten Variablen X und Y mit einem geeigneten Test prüfen können. 7.4 Die Parameter der Regression von Y auf X im Modell A mit zweidimensional-normalverteilten Variablen schätzen und die Abhängigkeitsprüfung durchführen können. 7.5 Die Parameter der Regression von Y auf X im Modell B (mit zufallsgestörter linearer Regressionsfunktion) schätzen und die Abhängigkeitsprüfung durchführen können. 7.6 Linearisierende Transformationen anwenden können, um nichtlineare Abhängigkeiten (allometrische, exponentielle bzw. gebrochen lineare) mit Hilfe von linearen Regressionsmodellen erfassen zu können. 7.7 Regressionsgeraden durch den Nullpunkt bestimmen können. 7.8 Probenmesswerte mit Hilfe von linearen Kalibrationsfunktionen schätzen können. 8 Einfaktorielle Varianzanalyse (ANOVA) 8.1 Den Einfluss eines k-stufigen Faktors auf den Mittelwert einer auf jeder Faktorstufe mit gleicher Varianz normalverteilten Zielvariablen feststellen können. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 3 8.2 Die Voraussetzungen des Modells der einfaktoriellen ANOVA überpüfen können. 8.3 Nach signifikantem Ausgang des Globaltests der einfaktoriellen ANOVA die Mittelwertpaare mit voneinander verschiedenen Mittelwerten feststellen können. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 4 3 PARAMETERSCHÄTZUNG Lernziel 3.1 Den Zweck der Parameterschätzung erklären können? Die Merkmalsvariation wird i. Allg. durch Wahrscheinlichkeitsverteilungen (Wahrscheinlichkeitsfunktionen bzw. Dichtefunktionen) mit unbekannten Parametern modelliert. Für diese Parameter sind - mit Hilfe von Zufallsstichproben - Schätzwerte zu ermitteln und die Genauigkeit der Schätzung durch Konfidenzintervalle anzugeben. Wahrscheinlichkeitsdichte Grundgesamtheit X N(µ, σ2) Zufallsstichprobe Zufallsauswahl x1, x2, ..., xn Stichprobenfunktionen X µ 2σ Stichprobenmittel Parameterschätzung: Schätzwert Konfidenzintervall Stichprobenstandardabweichung Lernziel 3.2 Den Mittelwert µ einer N(µ, σ2)-verteilten Zufallsvariablen X schätzen können. Es sei X1, X2, ..., Xn eine Zufallsstichprobe, in der die Variablen Xi (i = 1, 2, …, n) die Ergebnisse von n Beobachtungen ausdrücken. Die Schätzung des Mittelwerts einer normalverteilten Zufallsvariablen erfolgt mit Hilfe des Stichprobenmittels X = 1 ( X 1 + X 2 + L + X n ). n W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 5 Das Stichprobenmittel hängt von den Werten x1, x2, …, xn der Zufallsstichprobe X1, X2, ..., Xn ab und wird daher auch als eine Schätzfunktion bezeichnet. Setzt man die Werte x1, x2, …, xn für die Zufallsvariablen ein, erhält man einen Schätzwert x für den Mittelwert µ. Es gilt: • X möge den Mittelwert µ und die Varianz σ2 besitzen; dann ist der Mittelwert des Stichprobenmittels X gleich dem Mittelwert µ, die die Varianz des Stichprobenmittels aber um den Faktor 1/n verkleinert (für n>1). • Bei normalverteiltem X ist auch X normalverteilt. • Wenn X nicht normalverteilt ist, dann ist X für großes n (etwa ab n=30) näherungsweise normalverteilt (Zentraler Grenzwertsatz). 3.3 Die Varianz einer N(µ, σ2)-verteilten Zufallsvariablen X schätzen können. Die Schätzung der Varianz σ2 einer normalverteilten Zufallsvariablen erfolgt mit Hilfe der Stichprobenvarianz S2 = [ 1 (X 1 − X )2 + (X 2 − X )2 + L + (X n − X )2 n −1 ] Setzt man die Werte x1, x2, …, xn einer Zufallsstichprobe für die Zufallsvariablen X1, X2, ..., Xn ein, erhält man einen Schätzwert s2 für die Varianz σ2. Es gilt: • Die Größe (n-1)S2/σ2 - also die mit dem Faktor (n-1)/σ2 multiplizierte Stichprobenvarianz - ist eine chiquadratverteilte Zufallsvariable mit f = n - 1 Freiheitsgraden. Beispiel 3.3: Man zeichne unter Verwendung der R-Funktion dchisq() die Dichtekurven der Chiquadratverteilungen mit den Freiheitsgraden 1, 3 und 5. R-Console: > # Dichtekurven von ausgewählten Chiquadrat-Verteilungen > curve(dchisq(x, 1), from=0, to=4, ylim=c(0, 0.5), xlab ="X", + ylab="Dichte", col="red", main="Dichtekurven der Chiquadratverteilung") > curve(dchisq(x, 3), add=T, lty=2, col="blue") > curve(dchisq(x, 5), add=T, lty=3, col="black") > text(0.8, 0.4, col="red", expression("f=1")) > text(0.4, 0.15, col="blue", expression("f=3")) > text(1, 0.04, col="black", expression("f=5")) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 6 R-Grafik: 0.4 0.5 Dichtekurven der Chiquadratverteilung 0.2 Dichte 0.3 f=1 0.1 f=3 0.0 f=5 0 1 2 3 4 X 3.4 Zweiseitigen Konfidenzintervalle erklären und interpretieren können. Es sei π ein unbekannter Parameter (z.B. der Mittelwert µ) der Verteilung einer Zufallsvariablen X. Wir bezeichnen das Intervall [U, O] der Zahlengeraden als (1-α)-Konfidenzintervall für π, wenn es den Parameter π mit der vorgegebenen hohen Wahrscheinlichkeit 1-α einschließt, d.h., P(U ≤ π ≤ O) = 1-α gilt. Zusätzlich wird meist die die Symmetrieforderung P(U > π) = P(O < π) = α/2 vorgeschrieben. Zur Bestimmung der Grenzen U und O benötigt man eine Zufallsstichprobe von X. Setzt man die Werte x1, x2, …, xn einer Zufallsstichprobe ein, erhält man für U und O die konkreten Zahlenwerte u bzw. o. Das (konkrete) Intervall [u, o] ist so zu interpretieren, dass eine Zufallsstichprobe mit der Wahrscheinlichkeit 1-α auf ein Intervall [u, o] führt, das den unbekannten Parameter π überdeckt. Für 1-α wird meist 95% angenommen (α=5%). 3.5 (1-α)-Konfidenzintervalle für die Varianz einer N(µ, σ2)- verteilten Zufallsvariablen X berechnen können. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 7 Es sein s2 die Varianz einer Stichprobe x1, x2, …, xn der Zufallsvariablen X. Die Grenzen eines (1-α)-Konfidenzintervalls für σ2 berechnet man mit den Formeln u= ( n − 1) s 2 χ n2−1,1−α / 2 und o = (n − 1) s 2 χ n2−1,α / 2 Zieht man aus den Grenzen u und o die Quadratwurzel, erhält man ein (1-α)-Konfidenzintervall für die Standardabweichung σ. Beispiel 3.5: Es sei X normalverteilt mit dem Mittelwert µ und der Varianz σ2. Von einer Stichprobe sei bekannt: n =30, s2 = 7.93. Man bestimme ein 95%iges Konfidenzintervall (CI) für σ. Lösung mit R: R-Console: > # R-Funktion mit Übergabeparameter: > # n (Stichprobenumfang), var (Varianz), alpha (Irrtumsrisiko) > CI_var <- function(n, var, alpha){ + u <- (n-1)*var/qchisq(1-alpha/2, n-1) + o <- (n-1)*var/qchisq(alpha/2, n-1) + grenzen <- cbind(u, o) + return(grenzen)} > options(digits=4) > # Funktionsaufruf mit n=30, var=7.93, alpha=5% > CI_var(30, 7.93, 0.05) u o [1,] 5.03 14.33 > # > # CI für die Standardabweichung > CI_sd <- sqrt(CI_var(30, 7.93, 0.05)) > CI_sd ug og [1,] 2.243 3.786 3.6 (1-α)-Konfidenzintervalle für den Mittelwert einer N(µ, σ2)- verteilten Zufallsvariablen X berechnen können. Ein konkretes (1-α)-Konfidenzintervall für den Mittelwert µ von X erhält man, indem man um das arithmetische Mittel x einer Zufallsstichprobe x1, x2, …, xn von X das symmetrische Intervall [x − d , x + d ] mit der halben Intervallbreite d = t n −1,a −α / 2 s / n bildet. Die Größe tn-1,1-α/2 ist das (1-α/2)Quantil der t-Verteilung mit n-1 Freiheitsgraden, s ist die Standradabweichung der n Stichprobenwerte. Beispiel 3.6a: W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 8 Man zeichne unter Verwendung der R-Funktion dt() die Dichtekurven der tVerteilungen mit den Freiheitsgraden 1und 5 und stelle sie gemeinsam mit der Standardnormalverteilung in einem Diagramm dar. R-Console: # Dichtekurven von ausgewählten t-Verteilungen curve(dt(x, 1), from=-3, to=3, ylim=c(0, 0.5), xlab ="X", ylab="Dichte", col="red", main="Dichtekurven der t-Verteilung") curve(dt(x, 5), add=T, lty=2, col="blue") curve(dnorm(x), add=T, lty=3,lw=2, col="black") text(0, 0.42, col="black", expression("N(0,1)")) text(0, 0.34, col="blue", expression("t(f=5)")) text(0, 0.27, col="red", expression("t(f=1)")) R-Grafik: 0.5 Dichtekurven der t-Verteilung 0.4 N(0,1) Dichte 0.3 t(f=5) 0.0 0.1 0.2 t(f=1) -3 -2 -1 0 1 2 3 X Beispiel 3.6b: Es sei X normalverteilt mit dem Mittelwert µ und der Varianz σ2. Für den Mittelwert und die Standardabweichung von X wurden mit Hilfe einer Stichprobe vom Umfang n=20 die Schätzwerte 25 bzw. 5 bestimmt. Man bestimme zum Niveau 1-α =0.95 ein Konfidenzintervall (CI) für den Mittelwert von X. Lösung mit R: R-Console: > # Beachte: ß-Quantil t_(f, ß) = qt(ß, f) > # > # Funktion mit Übergabeparameter: > # mw (Mittelwert, n (Stichprobenumfang, std (Standardabweichung), alpha (Irrtumsrisiko) > CI_mittel <- function(mw, n, std, alpha){ + d <- std/sqrt(n)*qt((1-alpha/2), n-1) + u <- mw-d + o <- mw+d + grenzen <- cbind(u, o) + return(grenzen)} > # > # Funtionsaufruf mit mw=25, n=20, std=5, alpha=5% > options(digits=4) > CI_mittel(25, 20, 5, 0.05) u o [1,] 22.66 27.34 Hinweis: W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 9 Für „große“ Stichproben gilt die Approximation: [x − d , x + d ] mit d = z1−α / 2 s n Hier ist z1-α/2 das (1-α/2)-Quantil der N(0,1)-Verteilung. Folgerung: Faustformel für den Mindeststichprobenumfang zur Schätzung eines Mittelwerts mit der vorgegebenen Genauigkeit ±d und der vorgegebenen Sicherheit 1-α : 2 σ z n ≈ 1−α / 2 d Beispiel 3.6c: Der Mittelwert µ einer N(µ, σ2)-verteilten Zufallsvariablen soll mit einer Genauigkeit von ±0,25 und einer Sicherheit von 99% bestimmt werden. Von einer Voruntersuchung sei bekannt, dass σ ≤ 1,5 ist. a) Wie groß ist der erforderliche Mindeststichprobenumfang n zu planen? b) Man stelle n in Abhängigkeit von d (0,1 ≤ d≤ 0,3) für 1- α=0.95 und 0.99 dar! Lösung mit R: R-Console: > # Aufgabe a) > # R-Funktion mit Übergabeparameter: > # genauigkeit (d), sicherheit (1-alpha), sigma > n_mindest <- function(genauigkeit, sicherheit, sigma){ + alpha <- 1-sicherheit + n <- (qnorm(1-alpha/2)*sigma/genauigkeit)^2 + return(n)} > # > options(digits=4) > # Funktionsaufruf mit genauigkeit=0.25, sichheit=0.99, sigma=1.5 > n_mindest(0.25, 0.99, 1.5) [1] 238.9 > # Aufgabe b) > # Erzeugen der Folge der d-Werte von 0,1 bis 0,3 in Schritten von 0,01 > d <- seq(from=0.1, to=0.3, by=0.01) > d [1] 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20 0.21 0.22 0.23 0.24 [16] 0.25 0.26 0.27 0.28 0.29 0.30 > # > # Berechnen der den d-Werten entsprechenden Mindeststichprobenumfänge > n_mindest_95 <- n_mindest(d, 0.95, 1.5) > n_mindest_95 [1] 864.33 714.32 600.23 511.44 440.98 384.15 337.63 299.08 266.77 239.43 [11] 216.08 195.99 178.58 163.39 150.06 138.29 127.86 118.56 110.25 102.77 [21] 96.04 > n_mindest_99 <- n_mindest(d, 0.99, 1.5) > n_mindest_99 [1] 1492.9 1233.8 1036.7 883.3 761.7 663.5 583.1 516.6 460.8 413.5 [11] 373.2 338.5 308.4 282.2 259.2 238.9 220.8 204.8 190.4 177.5 [21] 165.9 > # > # Grafische Darstellung der Abhängigkeit der Mindeststichprobenumfänge von d > plot(d, n_mindest_95, type="p", col="blue", xlab="Genauigkeit", + ylab="n", main="Mindest-n bei Mittelwertschätzung") > lines(d, n_mindest_95, col="blue", lty=1, lwd=2) > lines(d, n_mindest_99, col="red", lty=2, lwd=2) > text(0.15, 200, col="blue", expression("Sicherheit = 95%")) > text(0.25, 400, col="red", expression("Sicherheit = 99%")) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 10 R-Grafik: 400 n 600 800 Mindest-n bei Mittelwertschätzung 200 Sicherheit = 99% Sicherheit = 95% 0.10 0.15 0.20 0.25 0.30 Genauigkeit 3.7 (1-α)-Konfidenzintervalle für den Parameter p (Wahrscheinlichkeit) einer Zweipunktverteilung/Binomialverteilung berechnen können. • Ein approximatives (1-α)-Konfidenzintervall für den Parameter p (Wahrscheinlichkeit) einer Zweipunktverteilung ist das Agresti-CoullIntervall. Es sei X eine zweistufig skalierte Zufallsvariable mit den Werten 1 und 0, p = P(X =1) bzw. q = 1-p = P(X=0) die Wahrscheinlichkeiten, mit denen diese Werte angenommen werden. Ferner seien x1, x2, ..., xn eine Zufallsstichprobe vom Umfang n und m die Anzahl der Wiederholungen mit xi = 1 und yn = m/n der Anteil der Wiederholungen mit xi = 1. Dann sind die untere und obere Grenze uA bzw. oA eines (1-α) - Konfidenzintervalls für p gegeben durch u A = mW − l A , o A = mW + l A mit mW = m + z12−α / 2 / 2 n + z12−α / 2 und l A = z1−α / 2 W. Timischl: AngStat_Bioengineering_II.doc mW (1 − mW ) n + z12−α / 2 06.01.2014 11 Voraussetzung für die Approximation: nyn(1-yn) > 9 • Ein exaktes (1-α)-Konfidenzintervall für den Parameter p ist das Clopper-Pearson-Intervall mit den Grenzen uC = mqu , qu = F2 m , 2( n − m +1),α / 2 n − m + 1 + mqu oC = ( m + 1)qo , qo = F2( m +1), 2( n − m ),1−α / 2 n − m + ( m + 1)qo Die Größen Ff1, f2, α/2 und Ff1, f2, 1-α/2 sind das α/2- bzw. (1-α/2)-Quantil der F-Verteilung mit den Freiheitsgraden f1 und f2. Beispiel 3.7a: Man zeichne unter Verwendung der R-Funktion df() die Dichtekurven der FVerteilungen mit den Freiheitsgraden 5 und 2 sowie 10 und 40. Dichte 0.6 0.8 1.0 Dichtekurven der F-Verteilung F(f=10,40) 0.0 0.2 0.4 F(f=5,2) 0.0 0.5 1.0 1.5 2.0 2.5 3.0 X R-Console: # Dichtekurven von ausgewählten F-Verteilungen curve(df(x, 5, 2), from=0, to=3, ylim=c(0, 1), xlab ="X", ylab="Dichte", col="red", main="Dichtekurven der F-Verteilung") curve(df(x, 10, 40), add=T, lty=2, col="blue") text(1.8, 0.42, col="blue", expression("F(f=10,40)")) text(1, 0.42, col="red", expression("F(f=5,2)")) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 12 Beispiel 3.7b: Es soll die Erfolgsrate p einer neuen Behandlungsmethode, also die Wahrscheinlichkeit, dass bei einer mit der neuen Methode behandelten Person eine Verbesserung eintritt, geschätzt und ein 95%iges Konfidenzintervall für p bestimmt werden. In einer Studie mit n=50 Probanden erwies sich die neue Methode bei m=35 Personen erfolgreich. Lösung mit R: R-Console: > # Approximatives Konfidenzintervall (Agresti-Coull-Intervall) > m <- 35 # Anzahl der Personen mit der interessierenden Merkmalsausprägung > n <- 50 # Stichprobenumfang > alpha <- 0.05 # Irrtumsrisiko > y <- m/n # Schätzwert für p > # Voraussetzung: > n*y*(1-y) # muss größer als 9 sein! [1] 10.5 > zq <- qnorm(1-alpha/2) > mW <- (m+zq^2/2)/(n+zq^2) # Intervallmitte > lA <- zq*sqrt(mW*(1-mW)/(n+zq^2)) > uA <- mW-lA; oA <- mW+lA > print(cbind(y, mW, lA, uA, oA)) y mW lA uA oA [1,] 0.7 0.6857 0.124 0.5617 0.8097 > # > # Exakte Rechnung (Pearson/Clopper – Intervall) > CI_pexakt <- function(m, n, alpha){ + quantil_1 <- qf(alpha/2, 2*m, 2*(n-m+1)) + pu <- m*quantil_1/(n-m+1+m*quantil_1) + quantil_2 <- qf(1-alpha/2, 2*(m+1), 2*(n-m)) + po <- (m+1)*quantil_2/(n-m+(m+1)*quantil_2) + grenzen <- cbind(pu, po) + return(grenzen)} > # Funktionsaufruf mit m=35, n=50, alpha=5% > CI_pexakt(35, 50, 0.05) pu po [1,] 0.5539 0.8214 > # > # Hinweis 1: Das exakte Konfidenzintervall kann direkt mit der > # R-Funktion binom.test bestimmt werden. > # Aufruf: binom.test(m, n, 1-alpha) > binom.test(35, 50, conf.level=0.95) Exact binomial test data: 35 and 50 number of successes = 35, number of trials = 50, p-value = 0.0066 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.5539 0.8214 sample estimates: probability of success 0.7 > > > > > # # Hinweis 2: Beide CI können mit der R-Funktion binom.confint() # im Paket "binom" bestimmt werden library(binom) binom.confint(m, n, methods=c("agresti-coull", "exact")) method x n mean lower upper 1 agresti-coull 35 50 0.7 0.5617 0.8097 2 exact 35 50 0.7 0.5539 0.8214 Hinweis: Aus dem approximativen Intervall ergibt sich eine grobe Faustformel für den Mindeststichprobenumfang zur Schätzung einer Wahrscheinlichkeit mit der vorgegebenen Genauigkeit ±d und der vorgegebenen Sicherheit 1-α: z n ≈ 1− α / 2 W. Timischl: AngStat_Bioengineering_II.doc 2d 2 06.01.2014 13 Beispiel 3.7c: Die Keimfähigkeit p von Blumenzwiebeln (d.h. die Wahrschein-lichkeit, dass ein ausgesetzter Zwiebel keimt) soll in einem Feldversuch mit der Genauigkeit ±0,1 und der Sicherheit 1-α= 0,95 geschätzt werden. Welcher Stichprobenumfang ist zu planen? Lösung mit R: R-Console: > # Approximativer Mindeststichprobenumfang für die Schätzung einer > # Wahrscheinlichkeit zur vorgegebenen Genauigkeit d und Sicherheit S = 1-alpha > # R-Funktion mit Übergabeparameter: > # d (Genauigkeit=halbe Intervallbreite), S (Sicherheit) > n_approx <- function(d, S){ + alpha <- 1-S + quantil <- qnorm(1-alpha/2) + n <- (quantil/2/d)^2 + return(n)} > # > # Funktionsaufruf mit d=0.1, S=0.95 > n_approx(0.1, 0.95) [1] 96.04 Übungsbespiele zur Parameterschätzung 1. Die Sprosshöhe X einer Pflanze sei N(µ, σ2)-verteilt. a) Aus einer Stichprobe vom Umfang n=25 ergibt sich die Stichprobenvarianz s2=7714. Man gebe ein Konfidenzintervall zum Niveau 1-α=0.95 für σ an. b) Für den Mittelwert und die Standardabweichung von X wurden mit Hilfe einer Stichprobe vom Umfang n=40 die Schätzwerte 296 und 105 für den Mittelwert bzw. die Standardabweichung bestimmt. Man bestimme zum Niveau 1-α=0.95 ein Konfidenzintervall für den Mittelwert von X. ([68.6, 122.2]; [262.4, 329.6]) 2. Im folgenden wird X als N(µ, σ2)-verteilt vorausgesetzt. Welcher Stichprobenumfang ist jeweils zu planen? a) Der mittlere Glykoalkaloidgehalt X (in mg/100 mg Frischgewicht) einer Kartoffelsorte soll mit einer Genauigkeit von ± 0.4 bei einer Sicherheit von 99% bestimmt werden. Von einer Voruntersuchung sei bekannt, dass σ ≤ 2 ist. b) Das Normgewicht von 10-jährigen Knaben soll auf ± 0.5 kg genau mit einer Sicherheit von 95% bestimmt werden. Für die Standardabweichung möge die Abschätzung σ ≤ 2.5 kg zutreffen. (167; 96) 3. Für den Mittelwert und die Varianz von einer als normalverteilt angenommenen Variablen X wurden mit Hilfe einer Stichprobe vom Umfang n=15 die Werte 40 bzw. 10 bestimmt. Man bestimme ein 95%- Konfidenzintervall für den Mittelwert von X. Um wie viel % größer ist die Intervalllänge eines 99%igen Konfidenzintervalls? ([38.25, 41.75]; [37.57, 42.43]; 38.8%) 4. Die Masse X (in mg) einer Substanz in einem Präparat soll absolut auf +/-0,5 genau mit einer Sicherheit von 95% bestimmt werden. Für die Standardabweichung möge die Abschätzung s≤2 zutreffen. Wie viele Proben müssen untersucht werden, wenn X als normalverteilt vorausgesetzt werden kann? (62) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 14 5. Von einer Messstelle wurden die folgenden Werte der Variablen X (SO2Konzentration der Luft in mg/m3) gemeldet: 29, 110, 47, 35, 65, 69, 9, 10. a) Man bestimme ein 95%-Konfidenzintervall für den Mittelwert und die Standardabweichung von X. b) Welcher Mindest-Stichprobenumfang müsste geplant werden, um bei gleicher Sicherheit die Mittelwertschätzung mit einer Genauigkeit von +/-5 durchführen zu können? (a) [18.39, 75.11]; [22.43, 69.05], b) 177) 6. In einer Studie wurden 33 Personen mit einem Präparat behandelt. Der Behandlungserfolg wurde auf einer 2-stufigen Skala mit den Skalenwerten "Verbesserung" und "keine Verbesserung" dargestellt. Es ergab sich bei 13 Personen eine Verbesserung. Man bestimme ein 95%iges Konfidenzintervall für die Wahrscheinlichkeit p einer Verbesserung. Welcher Stichprobenumfang müsste geplant werden, um die Wahrscheinlichkeit p mit einer Genauigkeit von +/- 0,1 und einer Sicherheit von 95% schätzen zu können? ([0.227, 0.561]; 97) 7. In einem Supermarkt wurden 100 Milchpackungen überprüft und dabei festgestellt, dass in 15 Fällen die Milch im Begriffe war, sauer zu werden. Man bestimme ein Konfidenzintervall zum Niveau 1-α=95% für den Anteil der sauren Milchpackungen. ([0.08, 0.22]) 8. Die Wahrscheinlichkeit für das Auftreten einer Erkrankung soll in einer Risikogruppe mit einer Sicherheit von 95% und einer vorgegebenen Genauigkeit von ± 0.05 bestimmt werden. Wie viele Probanden benötigt man für die Studie? (385) 9. Von einer Pflanze erhielt Mendel insgesamt 62 Samen, von denen 44 gelb und 18 grün gefärbt waren. Man bestimme ein 95%iges Konfidenzintervall für die Wahrscheinlichkeit p dafür, dass ein gelber Same gebildet wird. Welcher Stichprobenumfang müsste geplant werden, um die Wahrscheinlichkeit p mit einer Genauigkeit von +/- 0,05 und einer Sicherheit von 90% schätzen zu können? ([0.597, 0.823]; 271) 10. In einer Studie über die Behandlung von akuten Herzinfarktpatienten wurden 151 Patienten mit Heparin therapiert, von denen 19 innerhalb von 28 Tagen verstarben. a) Man schätze die Wahrscheinlichkeit p, dass ein Patient innerhalb von 28 Tagen nach Herzinfarkt stirbt, und bestimme für p ein 95%Konfidenzintervall. b) Welcher Mindeststichprobenumfang ist notwendig, um bei gleicher Sicherheit ein halb so großes Konfidenzintervall fü p zu erhalten? (a) approx. 0.0729, 0.1787; exakt: 0.0775, 0.1895; b) 1373) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 15 4 TESTEN VON HYPOTHESEN I: EINSTICHPROBENPROBLEME 4.1 Das Prinzip der Signifikanzprüfung an Hand des Gauß-Tests erklärenkönnen. Im Folgenden wird das Prinzip der Signifikanzprüfung am Beispiel des Gauß-Tests (z-Test) erklärt. Mit dem Gauß-Test kann man feststellen, ob der Mittelwert einer mit bekannter Varianz normalverteilten Zufallsvariablen X von einem vorgegebenen Sollwert abweicht bzw. diesen unter- oder überschreitet . Beispiel 4.1: Bei der Herstellung von Injektionsnadeln ist für den Außendurchmesser X der Sollwert µ0=0.8mm vorgegeben. Im Zuge der Überwachung des Prozesses wird aus der laufenden Produktion eine Prüfstichprobe von n=10 Nadeln entnommen und die Außendurchmesser 0.88, 0.77, 0.77, 0.84, 0.87, 0.81, 0.75, 0.87, 0.87, 0.84 gemessen. Die Frage ist, ob das arithmetische Mittel x =0.827 dieser 10 Außendurchmesser "`signifikant"' von µ0=0.8 abweicht. Dabei wird angenommen, dass X die bekannte Varianz σ2 =0.0025 besitzt. Schema der Problemlösung: • Beobachtungsdaten und Modell: Es liegen n Beobachtungswerte x1, x2,…, xn mit dem arithmetischen Mittel x vor. Jedes xi ist die Realisierung einer N(µ, σ2)-verteilten Zufallsvariablen Xi (i=1,2,…,n). Der Mittelwert µ ist unbekannt, die Varianz σ2 jedoch bekannt. Das Stichprobenmittel X ist normalverteilt mit dem Mittelwert µ und der Varianz σ2/n. • Hypothesen und Testgröße: Der Vergleich des Parameters µ mit einem vorgegebenen Sollwert µ0 erfolgt nach einer der folgenden Testvarianten: - H0: µ = µ0 gegen H1 : µ ≠ µ0 (Variante II, 2-seitiger Test) - H0: µ ≤ µ0 gegen H1 : µ > µ0 (Variante Ia, 1-seitiger Test auf Überschreitung) - H0: µ ≥ µ0 gegen H1 : µ < µ0 (Variante Ib, 1-seitiger Test auf Unterschreitung) Als Testgröße wird das standardisierte Stichprobenmittel W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 16 TG = X − µ0 σ/ n verwendet, das bei Gültigkeit von H0 (d.h. für µ=µ0) N(0, 1)-verteilt ist. Ersetzt man X durch das arithmetische Mittel x , erhält man die Realisierung TGs der Testgröße. • Entscheidung: Entscheidungssituation beim 2-seitigen Test: Testentscheidung mit dem P-Wert: Der P-Wert ist die Wahrscheinlichkeit, dass eine Zufallsstichprobe vom Umfang n ein Stichprobenmittel X besitzt, das zumindest gleich weit von µ0 im Sinne von H1 abweicht, wie die beobachtete Realisierung x . Bei vorgegebenem Signifikanzniveau α wird H0 abgelehnt, wenn der P-Wert kleiner als α ist. Die Berechnung des P-Wertes erfolgt für die Testvariante Ia mit der Formel P = 1 − Φ (TG s ) , für die Variante Ib mit der Formel P = Φ (TGs ) bzw. für die zweiseitige Testvariante II mit P = 2[1 − Φ (| TGs |)] . Testentscheidung über die Bestimmung des Ablehnungsbereiches (siehe Abb. 4.1): H0 wird abgelehnt, wenn TG s > z1−α (Variante Ia) bzw. TG s < − z1−α (Variante Ib) bzw. | TG s |> z1−α / 2 (Variante II) gilt. Dabei bezeichnen z1−α und z1−α / 2 das (1-α)- bzw. das (1-α/2)Quantil der N(0, 1)-Verteilung. • Planung des Stichprobenumfangs: Um auf dem Niveau α mit der Sicherheit 1-β eine Entscheidung für H1 herbeizuführen, wenn µ von µ0 um ∆ =|µ-µ0|>0 im Sinne der W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 17 Alternativhypothese abweicht, ist im Falle der 1-seitigen Testvarianten Ia und Ib ein Stichprobenumfang n≥ σ2 ∆2 (z 1−α + z1− β ) 2 erforderlich (Herleitung: siehe Ergänzung 1). Für die 2-seitige Testvariante II gibt es die in typischen Anwendungssituationen brauchbare Näherungsformel n≈ σ2 ∆2 (z 1−α / 2 + z1− β ) . 2 Abb. 4.1 Gauß-Test: Ablehnungsbereich |TG|>z1-α/2 für das zweiseitige Testproblem H0: µ = µ0 gegen H1 : µ ≠ µ0 (obere Grafik) und Ablehnungsbereich TG > z1-α für das einseitige Testproblem H0: µ ≤ µ0 gegen H1 : µ > µ0 (untere Grafik). Beispiel 4.1 (Fortsetzung): 2-seitige Prüfung auf Abweichung vom Sollwert • Beobachtungsdaten und Modell: X = Außendurchmesser; X ~ N(µ, σ2) mit σ=0.05; x1=0.88, x2=0.77, …, x10 =0.84; n=10; x =0.827. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 18 • Hypothesen und Testgröße: Sollwert: µ0=0.8; H0: µ = µ0 gegen H1 : µ ≠ µ0, Testniveau α=5%; Realisierung der Testgröße: TGs=1.71. • Testentscheidung mit dem P-Wert: P=2[1-Φ(1.71)]=0.088 ≥ 0.05 H0 (Mittelwert µ entspricht dem Sollwert) kann nicht abgelehnt werden! • Alternative: Testentscheidung über die Bestimmung des Ablehnungsbereiches: z1-α/2=z0.975 = 1.96; Ablehnungsbereich: TG > 1.96 TGs =1.71 nicht im Ablehnungsbereich H0 wird beibehalten! 1-seitige Prüfung auf Überschreitung des Sollwerts • Beobachtungsdaten und Modell: wie oben • Hypothesen und Testgröße: Sollwert: µ0=0.8; H0: µ ≤ µ0 gegen H1 : µ > µ0, α=5%; Realisierung der Testgröße: TGs=1.71. • Testentscheidung mit dem P-Wert1: P=1-Φ(1.71)=0.044 < 0.05 H1 (Mittelwert µ überschreitet den Sollwert) • Alternative: Testentscheidung über die Bestimmung des Ablehnungsbereiches: z1-α=z0.95 = 1.645; Ablehnungsbereich: TG > 1.645 TGs =1.71 im Ablehnungsbereich H1 (H0 wird abgelehnt) Ergänzungen: 1. Herleitung der Formel für den P-Wert (2-seitiger Test) Der P-Wert ist die Wahrscheinlichkeit, dass eine Zufallsstichprobe vom Umfang n ein Stichprobenmittel X besitzt, das zumindest gleich weit von µ0 entfernt ist, wie die beobachtete Realisierung x , für das also gilt X ≤ µ 0 − d oder X ≥ µ 0 + d mit d = x − µ 0 = TG s σ / n : P = P ( X ≤ µ 0 − d | µ = µ 0 ) + P( X ≥ µ 0 + d | µ = µ 0 ) = P (TG ≤ − TG s | µ = µ 0 ) + P(TG ≥ TG s | µ = µ 0 ) = Φ(− TG s ) + 1 − Φ( TG s ) = 2[1 − Φ ( TG s )] 2. Gütefunktion des 1-seitigen Gauß-Tests auf Überschreitung (Hypothesenpaar H0: µ ≤ µ0 gegen H1 : µ > µ0 ): Fehlerrisken beim Alternativtest: Fehler 1. Art (α-Fehler, irrtümliche Ablehnung der Nullhypothese) Fehler 2. Art (β-Fehler, falsche Nullhypothese wird beibehalten) Die Wahrscheinlichkeiten 1 Man beachte, dass der P-Wert des 1-seitigen Gauß-Tests halb so groß ist wie der P-Wert des 2-seitigen. Mit 1seitigen Hypothesen erreicht man daher eher eine Ablehnung der Nullhypothese als mit 2-seitigen. Der Umstand darf nicht dazu verleiten, auf 1-seitige Hypothesen umzusteigen, wenn mit dem 2-seitigen Testproblem kein signifikantes Ergebnis erreicht wird. Die Verwendung von 1- seitigen Hypothesen muss jedenfalls durch die Problemstellung begründet sein. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 19 für einen Fehler 1. und 2. Art werden in der Gütefunktion G zusammengefasst. Diese gibt - in Abhängigkeit vom unbekannten Erwartungswert µ - die Wahrscheinlichkeit G(µ) = P(Ablehnung von H0 | µ) an, dass der Test auf Grund einer Zufallsstichprobe zu einer Entscheidung gegen H0 führt. Durch die Testentscheidung (mit dem P-Wert oder mit Hilfe des Ablehnungsbereichs) ist sichergestellt, dass die Wahrscheinlichkeit eines Fehlers 1. Art höchstens gleich dem vorgegebenen α ist. Wenn z.B. das 1seitige Testproblem H0: µ ≤ µ0 gegen H1 : µ > µ0 vorliegt und H0 zutrifft, gilt also G(µ) ≤ α. Trifft dagegen H1 : µ > µ0 zu, so ist die Güte des Tests umso besser, je näher G(µ) bei 1 liegt, oder anders ausgedrückt, je kleiner die Wahrscheinlichkeit β(µ) = 1-G(µ) eines Fehlers zweiter Art ist. Da die Nullhypothese H0: µ ≤ µ0 des 1-seitigen Gauß-Tests auf Überschreitung genau dann abgelehnt wird, wenn TG > c1=z1-α ist, kann die Gütefunktion wie folgt berechnet werden: X − µ0 > c1 | µ = G ( µ ) = P(TG > c1 | µ ) = P σ/ n X − µ + µ − µ0 µ − µ0 X −µ = P > c1 | µ = P < −c1 + | µ = σ/ n σ/ n σ / n µ − µ0 = Φ − z1−α + σ/ n Die Gütefunktion ist streng monoton wachsend, geht für µ → −∞ asymptotisch gegen 0, für µ → +∞ asymptotisch gegen 1 und nimmt an der Stelle µ=µ0 den Wert a an. Für µ ≤ µ0 ist also G(µ)≤α. Für µ >µ0 gilt G(µ)>α und G(µ) wird in diesem Fall als Trennschärfe oder Power an der µ bezeichnet. Auf analoge Weise findet man die Gütefunktion des 2-seitigen Gauß-Tests: µ − µ0 µ − µ0 G ( µ ) = Φ − z1−α / 2 − + Φ − z1−α / 2 + σ/ n σ/ n W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 20 Abb. 4.2: Gütefunktionen des 1- seitigen Gauß-Tests H0: µ ≤ µ0 gegen H1 : µ > µ0 für die Stichprobenumfänge n=5, 10, 20 (obere Grafik) und des 2-seitigen Gauß-Tests H0: µ = µ0 gegen H1 : µ ≠ µ0 für die Stichprobenumfänge n=10 und n=50 (untere Grafik). Horizontal ist die auf σ bezogene Abweichung δ=(µ-µ0)/σ des Mittelwerts vom Sollwert µ0 aufgetragen, vertikal kann man die entsprechenden Gütefunktionswerte G*(δ)=G((µ-µ0)/σ) ablesen. Beispiel 4.1 (Fortsetzung): Berechnung des Werts der Gütefunktion an der Stelle µ=0.827 für den 1-seitigen Gauß-Test: Eingangsdaten: α=0.05, c1=z0.95=1.645, µ=0.827, µ0=0.8, σ=0.05, n=10 µ − µ0 G (0.827) = Φ − z1−α + = σ/ n 0.827 − 0.8 = Φ − 1.645 + = Φ (0.0628) = 52.5% 0.05 / 10 3. Herleitung der Formel für den Mindeststichprobenumfang beim Gauß-Test auf Überschreitung eines Sollwertes (d.h. um mit dem auf dem Testniveau α=5% geführten Gauß-Test eine Überschreitung des Sollwerts µ0 um ∆ mit der Sicherheit (Power) 1-β erkennen zu können): W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 21 Die Fehlerrisken α und β, die Abweichung ∆=µ-µ0 und der Stichprobenumfang n sind beim 1-seitigen Gauß-Test mit den H0: µ ≤ µ0 gegen H1 : µ > µ0 über die Beziehung ∆ G ( µ ) = Φ − z1−α + = 1− β σ/ n miteinander verknüpft. Löst man nach n auf, ergibt sich n* = σ2 ∆ 2 (z 1−α + z1− β ) 2 Um eine kritische Überschreitung ∆=µ-µ0 des Sollwertes µ zumindest mit der Sicherheit 1-β als signifikant erkennen zu können, benötigt man einen Stichprobenumfang n≥ n*. Beispiel 4.1 (Fortsetzung): Berechnung des erforderlichen n, um mit dem 1-seitigen Gauß-Test auf 5%igem Testniveau die vorgegebene Überschreitung ∆=0.027 mit einer Sicherheit von mindestens 90% als signifikant zu erkennen: Eingangsdaten: α=0.05, 1-β=0.9, ∆=0.027, σ=0.05 0.052 0.052 2 ( ) (1.645 + 1.282)2 = 29.38 n = z0.95 + z0.9 = 2 2 0.027 0.027 * Beispiel 4.1 (Lösung mit R): > > > > > > > > > > # beispiel 4.1 options(digits=4) x <- c(0.88, 0.77, 0.77, 0.84, 0.87, 0.81, 0.75, 0.87, 0.87, 0.84) xquer <- mean(x); s <- sd(x) # # 2-seitiger Gauß-Test auf Abweichung von einem Sollwert mu0 <- 0.8; n <- 10; sigma <- 0.05; alpha <- 0.05 tgs <- (xquer-mu0)/sigma*sqrt(n); q2 <- qnorm(1-alpha/2) P <- 2*(1-pnorm(tgs)) print(cbind(xquer, sigma, s, mu0, tgs, q2, P)) xquer sigma s mu0 tgs q2 P [1,] 0.827 0.05 0.04877 0.8 1.708 1.96 0.08771 > # > # Lösung mit R-Funktion z.test() > library(TeachingDemos) > z.test(x, mu=mu0, stdev=sigma, alternative="two.sided", conf.level=0.95) One Sample z-test data: x z = 1.708, n = 10.000, Std. Dev. = 0.050, Std. Dev. of the sample mean = 0.016, p-value = 0.08771 alternative hypothesis: true mean is not equal to 0.8 95 percent confidence interval: 0.796 0.858 sample estimates: mean of x 0.827 > > # Gauß-Test auf Überschreitung > q1 <- qnorm(1-alpha); P <- 1-pnorm(tgs) > print(cbind(xquer, sigma, s, mu0, tgs, q, P)) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 22 xquer sigma s mu0 tgs q P [1,] 0.827 0.05 0.04877 0.8 1.708 1.645 0.04385 > z.test(x, mu=mu0, stdev=sigma, alternative = "greater", conf.level=0.95) One Sample z-test data: x z = 1.708, n = 10.000, Std. Dev. = 0.050, Std. Dev. of the sample mean = 0.016, p-value = 0.04385 alternative hypothesis: true mean is greater than 0.8 95 percent confidence interval: 0.801 Inf sample estimates: mean of x 0.827 > > > > > > # # Gütefunktionswert (1-seitiger Gauß-Test) an der Stelle mu=xquer alpha=0.05; mu <- xquer; mu0=0.8; sigma=0.05; n=length(x) delta <- (mu-mu0)/sigma power <- pnorm(-qnorm(1-alpha)+ Delta/sigma*sqrt(n)) print(cbind(alpha, delta, sigma, power)) alpha delta sigma power [1,] 0.05 0.54 0.05 0.525 > # > # Lösung mit R-Funktion pwr.norm.test() > library(pwr) > pwr.norm.test(d=delta,n=n, sig.level=alpha, alternative="greater") Mean power calculation for normal distribution with known variance d n sig.level power alternative = = = = = 0.54 10 0.05 0.525 greater > > > > > > > # # Planung des Mindest-n beim 1-seitigen Gauß-Test (Überschreitung) alpha=0.05; power=0.9 # power=1-beta mu <- xquer; mu0=0.8; sigma=0.05; qa <- qnorm(1-alpha); qb <- qnorm(power); Delta <- mu-mu0 ns <- sigma^2/Delta^2*(qa+qb)^2 print(cbind(alpha, power, Delta, sigma, ns)) alpha power Delta sigma ns [1,] 0.05 0.9 0.027 0.05 29.37 > # > # Lösung mit R-Funktion pwr.norm.test() > library(pwr) > pwr.norm.test(d=delta, power=power, sig.level=alpha, alternative="greater") Mean power calculation for normal distribution with known variance d n sig.level power alternative = = = = = 0.54 29.37 0.05 0.9 greater 4.2 Signifikante und nichtsignifikanten Testergebnisse erkennen und interpretieren können. • Schlussweise der Signifikanzprüfung am Beispiel des 1-seitigen Gauß-Tests auf Überschreitung: W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 23 Wenn H0 gilt, dann ist ein P-Wert kleiner als α unwahrscheinlich. Aus einer Zufallsstichprobe ergibt sich P < α. Daher: H0 gilt nicht (genauer: ist unwahrscheinlich). Dieses Schema erinnert an die Beweisführung „reductio ad absurdum“ (Widerspruchsbeweis): Um eine Aussage A indirekt zu beweisen, wird die Annahme gemacht, die Aussage ist falsch, und aus der Negation der Aussage etwas abgeleitet, was offensichtlich falsch ist. Es folgt, dass A richtig ist. • Signifikante und nichtsignifikante Testergebnisse Abb. 4.3: Schema der Entscheidungsfindung beim Signifikanztest. Vorgegeben sind die Fehlerschranken α (z.B. 5%) und β (z.B. 10%). Ist der P-Wert kleiner als α, wird H0 abgelehnt, also für H1 entschieden. Andernfalls, d.h. für P ≥ α wird eine Poweranalyse (oder die Berechnung des Mindest-n) angeschlossen. Wenn die Power größer oder gleich 1-β ist (oder der Mindest-n ≥ dem Umfang der verwendeten Zufallsstichprobe ist), wird H0 angenommen. 4.3 Mit dem 1-Stichproben-t-Test kann feststellen können, ob der Mittelwert einer normalverteilten Zufallsvariablen X von einem vorgegebenen Sollwert abweicht bzw. diesen unter- oder überschreitet. Ablaufschema: • Beobachtungsdaten und Modell: Es liegen n Beobachtungswerte x1, x2,…, xn mit dem arithmetischen Mittel x vor. Jedes xi ist die Realisierung einer W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 24 N(µ, σ2)-verteilten Zufallsvariablen Xi (i=1,2,…,n), mit denen das Stichprobenmittel X sowie die Stichprobenvarianz S2 gebildet werden. • Hypothesen und Testgröße: Der Vergleich des Parameters µ mit einem vorgegebenen Sollwert µ0 erfolgt nach einer der folgenden Testvarianten: - H0: µ = µ0 gegen H1 : µ ≠ µ0 (Variante II, 2-seitiger Test) - H0: µ ≤ µ0 gegen H1 : µ > µ0 (Variante Ia, 1-seitiger Test auf Überschreitung) - H0: µ ≥ µ0 gegen H1 : µ < µ0 (Variante Ib, 1-seitiger Test auf Unterschreitung) Als Testgröße wird das studentisierte Stichprobenmittel TG = X − µ0 S/ n verwendet, das bei Gültigkeit von H0 (d.h. für µ=µ0) t-verteilt mit dem Freiheitsgrad f=n-1 ist. Ersetzt man X durch das arithmetische Mittel x und S durch die empirische Standardabweichung s, erhält man die Realisierung TGs der Testgröße. • Entscheidung: Testentscheidung mit dem P-Wert: Bei vorgegebenem Signifikanzniveau α wird H0 abgelehnt, wenn der P-Wert kleiner als α ist. Die Berechnung des P-Wertes erfolgt für die Testvariante Ia mit der Formel P=1 - Fn-1(TGs), für die Variante Ib mit der Formel P= Fn-1 (TGs), bzw. für die zweiseitige Testvariante II mit P= 2 Fn-1(-|TGs|). Fn-1 bezeichnet die Verteilungsfunktion der tn-1 -Verteilung Testentscheidung über die Bestimmung des Ablehnungsbereiches: H0 abgelehnt, wenn TGs > tn-1, 1-α (Variante Ia) bzw. TGs < - tn-1, 1-α (Variante Ib) bzw. |TGs| > tn-1, 1-α/2 (Variante II) gilt. Dabei bezeichnen tn-1, 1-α und tn-1, 1-α/2 das (1-α)- bzw. das (1-α/2)Quantil der tn-1 - Verteilung. • Planung des Stichprobenumfangs Um auf dem Niveau α mit der Sicherheit 1- β eine Entscheidung für H1 herbeizuführen, wenn µ von µ0 um ∆ ≠ 0 im Sinne der W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 25 Alternativhypothese abweicht, kann im Falle der 1-seitigen Testvarianten Ia und Ib der erforderliche Mindeststichprobenumfang näherungsweise aus n≈ σ2 ∆2 (z 1−α + z1− β ) 2 bestimmt werden. Im Falle der 2-seitigen Testvariante II ist α durch α/2 zu ersetzen. Bei Anwendung dieser Formeln muss ein Schätzwert für σ zur Verfügung stehen. Die Formeln stimmen mit den entsprechenden Formeln beim Gauß-Test überein, ergeben aber auf Grund der Näherungen nur Richtwerte für den erforderlichen Mindeststichprobenumfang. Beispiel 4.3: In einem Experiment wurde die Selbstentladung von wiederaufladbaren NiMHGerätezellen mit einer Kapazität (in mAh) von 2000 überprüft. Laut Hersteller soll die Kapazität X nach 12 Monaten 85% des Anfangswertes, also µ0=1700, betragen. a) Es ist zu zeigen, dass das Experiment mit 30 Zellen durchgeführt werden müsste, damit der t-Test auf 5%igem Niveau eine Sollwertabweichung in der Höhe von ∆=60 mit einer Sicherheit von 90% feststellen kann. Dabei möge die Annahme zutreffen, dass die Kapazität X normalverteilt sei und für σ der Schätzwert σˆ = 100 zur Verfügung steht. b) Die Ausführung des Experimentes hat die folgenden Messwerte ergeben: 1590, 1620, 1670, 1790, 1670, 1580, 1470, 1690, 1680, 1890, 1560, 1610, 1670, 1450, 1690, 1710, 1670, 1810, 1580, 1560, 1680, 1730, 1680, 1550, 1760, 1750, 1530, 1540, 1690, 1730. Es ist mit dem 2-seitigen t-Test zu zeigen, dass das arithmetische Mittel der Prüfstichprobe signifikant (α=5%) vom Sollwert µ0=1700 abweicht. Lösung mit R: > > > > > > # Beispiel 4.2 # a) Planung des Stichprobenumfangs mu0 <- 1700; sigma <- 100; Delta <- 60 alpha <- 0.05; qa <- qnorm(1-alpha/2); beta <- 0.1; qb <- qnorm(1-beta) ns <- sigma^2/Delta^2*(qa+qb)^2 print(cbind(mu0, Delta, sigma, qa, qb, ns)) mu0 Delta sigma qa qb ns [1,] 1700 60 100 1.959964 1.281552 29.18729 > # Lösung mit R-Funktion power.t.test() > power.t.test(delta=Delta, sd=sigma, sig.level=0.05, power=0.9, + type="one.sample") One-sample t test power calculation n delta sd sig.level power alternative = = = = = = 31.17169 60 100 0.05 0.9 two.sided > # > # b) 2-seitiger t-Test W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 26 > x <- c(1590, 1620, 1670, 1790, 1670, 1580, 1470, 1690, 1680, 1890, + 1560, 1610, 1670, 1450, 1690, 1710, 1670, 1810, 1580, 1560, + 1680, 1730, 1680, 1550, 1760, 1750, 1530, 1540, 1690, 1730) > n <- length(x); xquer <- mean(x); s <- sd(x); mu0 <- 1700 > print(cbind(n, xquer, s)) n xquer s [1,] 30 1653.333 100.1837 > alpha <- 0.05; q <- qt(1-alpha/2, n-1) > tgs <- (xquer-mu0)*sqrt(n)/s; P <- 2*pt(-abs(tgs), n-1) > print(cbind(alpha, q, tgs, P)) alpha q tgs P [1,] 0.05 2.04523 -2.551351 0.01626606 > # Lösung mit R-Funktion t.test() > t.test(x, mu=mu0, alternative="two.sided", type="one.sample", + conf.level=alpha) One Sample t-test data: x t = -2.5514, df = 29, p-value = 0.01627 alternative hypothesis: true mean is not equal to 1700 5 percent confidence interval: 1652.176 1654.490 sample estimates: mean of x 1653.333 4.4 Mit dem Binomialtest feststellen können, ob eine unbekannte Wahrscheinlichkeit von einem vorgegebenen Sollwert abweicht bzw. diesen über- oder unterschreitet. Ablaufschema: • Beobachtungsdaten und Modell: Es liegen n Beobachtungen vor, die in zwei Klassen eingeteilt werden können. Die Zugehörigkeit der i-ten Beobachtung zur Klasse 1 sei durch eine Bernoulli-Variable Xi beschrieben, die den Wert 1 annimmt, wenn die Beobachtung zur Klasse 1 gehört und den Wert 0, wenn dies nicht der Fall ist. Jede der unabhängigen und identisch verteilten Bernoulli-Variablen X1, X2, …, Xn nimmt mit der Wahrscheinlichkeit p den Wert 1 an. Konkret wurden h Beobachtungen in der Klasse 1 gezählt. • Hypothesen und Testgröße: Der Vergleich des Parameters p mit einem vorgegebenen Sollwert p0 erfolgt nach einer der folgenden Testvarianten: - H0: p =p0 gegen H1 : p ≠ p0 (Variante II, 2-seitiger Test) - H0: p ≤ p0 gegen H1 : p > p0 (Variante Ia, 1-seitiger Test auf Überschreitung) - H0: p ≥ p0 gegen H1 : p < p0 (Variante Ib, 1-seitiger Test auf Unterschreitung) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 27 Testgröße: Anzahl TG=H= nX der Beobachtungen in der Klasse 1; TG ~ Bn,p0 für p=p0. Normalverteilungsapproximation (Voraussetzung: np0(1-p0)>9): H − np 0 TG* = ~ N (0,1) für H 0 : p = p 0 np 0 (1 − p 0 ) Für die konkrete Beobachtungsreihe ist H=h. • Entscheidung: Testentscheidung mit dem P-Wert: Bei vorgegebenem Signifikanzniveau α wird H0 abgelehnt, wenn der P-Wert kleiner als α ist. Exakter Binomialtest: Testvariante Ia: P=1 - FB(h-1) Testvariante Ib: P= FB(h) Testvariante II: P= FB (np0-d)+1- FB (np0+d-1) FB bezeichnet die Verteilungsfunktion der Bn,p0-Verteilung, d=|h-np0|. Approximativer Binomialtest (mit Stetigkeitskorrektur) Testvariante Ia: P≈ 1-FN(h-0.5) Testvariante Ib: P≈ FN(h+0.5) Testvariante II: P≈ 2FN(np_0-d+0.5) FN ist die Verteilungsfunktion der N(µ, σ2)-Verteilung mit µ=np0 und σ02=np0(1-p0); d=|h-np0| ist die Abweichung der beobachteten Anzahl vom Mittelwert2. (Approximative) Testentscheidung mit dem Ablehnungsbereich: H0 wird abgelehnt, wenn TG*s-p0>0.5+z1-α σ0 (Variante Ia) bzw. TG*s-p0>0.5-z1-α σ0 (Variante Ib) bzw. |TG*s-p0|> 0.5+ z1-α/2 σ0 (Variante II) gilt. z1-α und z1-α/2 sind das (1-α)- bzw. das (1-α/2)- Quantil der N(0, 1)Verteilung und σ02=np0(1-p0). • Planung des Stichprobenumfangs Um auf dem Niveau α mit der Sicherheit 1- β eine Entscheidung für H1 herbeizuführen, wenn p von p0 um ∆ ≠ 0 im Sinne der 2 Den P-Wert des exakten Binomialtests erhält man in R mit der Funktion binom.test(), den P-Wert des approximativen Binomialtests (mit und ohne Stetigkeitskorrektur) mit prop.test(). W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 28 Alternativhypothese abweicht, kann im Falle der 1-seitigen Testvarianten Ia und Ib das erforderliche Mindest-n näherungsweise aus n≈ (z (2 arcsin + z1− β ) 2 1−α p − 2 arcsin p0 ) 2 ; Bestimmt werden; im Falle der 2-seitigen Testvariante II ist z1-α durch z1-α/2 zu ersetzen3. Beispiel 4.4: Mit einer neuen Behandlungsmethode will man die Erfolgsrate p (d.h. die Wahrscheinlichkeit, dass bei einer mit der neuen Methode behandelten Person eine Verbesserung eintritt) von mehr als p0=0.7 erreichen. In einer Studie mit 100 Probanden ist die neue Methode bei h=80 Personen erfolgreich, der beobachtete Stichprobenanteil h/n=0.8 überschreitet also den Sollwert p0=0.7. Es ist a) zu zeigen, dass die Überschreitung auf 5%igem Niveau signifikant ist, und b) der erforderliche Mindeststichprobenumfang zu berechnen, damit der (approximative) Binomialtest mit 90%iger Sicherheit ein auf 5%igem Testniveau signifikantes Ergebnis liefert, wenn der Sollwert um den Betrag ∆=0.1 überschritten wird. Lösung mit R: > > > > > > > # Beispiel 4.3 options(digits=4) p0 <- 0.7; n <- 100; h <- 80; p <- h/n; alpha <- 0.05 # a) Hypothesen H0: p=p0 gegen H1: p>p0 # P-Wert (exakter Binomialtest) Pexact <- 1-pbinom(h-1, n, p0) print(cbind(alpha, p0, n, p, Pexact)) alpha p0 n p Pexact [1,] 0.05 0.7 100 0.8 0.01646 > binom.test(h, n, p=p0, alternative="greater") Exact binomial test data: h and n number of successes = 80, number of trials = 100, p-value = 0.01646 alternative hypothesis: true probability of success is greater than 0.7 95 percent confidence interval: 0.7228 1.0000 sample estimates: probability of success 3 Der Näherung liegt die sogenannte Arcus-Sinus-Transformation zugrunde, mit der der Stichprobenanteil H/n (die Anzahl H ist Bn, p-verteilt) in die Zufallsvariable Y = 2 arcsin H / n . Wie man zeigen kann, nähert sich mit wachsendem n die Verteilung von Y* einer Normalverteilung mit * dem Mittelwert µY * = 2 arcsin p und der konstanten Varianz σ 2 Y*=1/n. Die Näherung ist in der R- Funktion pwr.p.test() im Paket "pwr" implementiert, mit der erforderliche Mindeststichprobenumfangs geplant und Gütefunktionswerte berechnet werden können. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 29 0.8 > # P-Wert (approximativer Binomialtest) > n*p0*(1-p0) # Voraussetzung für Approximation >9! [1] 21 > d <- h-n*p0; sigma0 <- sqrt(n*p0*(1-p0)) > Papprox <- 1-pnorm((d-0.5)/sigma0) > print(cbind(alpha, p0, n, p, Papprox)) alpha p0 n p Papprox [1,] 0.05 0.7 100 0.8 0.01908 > prop.test(h, n, p=p0, alternative="greater") 1-sample proportions test with continuity correction data: h out of n, null probability p0 X-squared = 4.298, df = 1, p-value = 0.01908 alternative hypothesis: true p is greater than 0.7 95 percent confidence interval: 0.7212 1.0000 sample estimates: p 0.8 > # > # b) Mindesstichprobenumfang > # Lösung mit Näherungsformel im Skriptum > beta <- 0.1; za <- qnorm(1-alpha); zb <- qnorm(1-beta) > Delta <- 0.1; p <- p0+Delta > ns <- (za+zb)^2/(2*asin(sqrt(p))-2*asin(sqrt(p0)))^2 > print(cbind(alpha, beta, p0, p, ns)) alpha beta p0 p ns [1,] 0.05 0.1 0.7 0.8 159.1 > # Lösung mit R-Funktion pwr.p.test() > library(pwr) > ES <- 2*asin(sqrt(p))-2*asin(sqrt(p0)) > pwr.p.test(h = ES, sig.level = 0.05, power = 0.9, + alternative = "greater") proportion power calculation for binomial distribution (arcsine transformation) h n sig.level power alternative = = = = = 0.232 159.1 0.05 0.9 greater 4.5 Die Annahme normalverteilter Stichprobenwerte überprüfen können. • Grafische Überprüfung der Normalverteilungsannahme mit dem Normal-QQ-Plot: Mit dem Normal-Quantil-Quantil-Diagramm (kurz Normal-QQ-Plot) kann man an Hand der Werte x1, x2, …, xn einer Zufallsstichprobe von X auf grafischem Wege beurteilen, ob die Daten gegen die Annahme „X ist normalverteilt“ sprechen (vgl. Abb. 4.4). Theoretische Grundlage: - Wenn X N(µ, σ2) – verteilt ist, besteht zwischen dem p-Quantil xp von X und dem entsprechenden Quantil zp der N(0, 1)-verteilten Zufallsvariablen Z=(X-µ)/σ der lineare Zusammenhang xp = σ zp + µ. Die Punkte P(zp, xp) mit den für verschiedene Werte von p (0 W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 30 < p < 1) berechneten Quantilen von Z und X als Koordinaten) liegen im (Z, X)-Koordinatensystem auf einer Geraden mit dem Anstieg σ und dem yAchsenabschnitt µ. Abb. 4.4: Normal-QQ-Plots für zwei Zufallsstichproben (jeweils vom Umfang n=30). Die QQ-Plots enthalten auch die Orientierungsgeraden durch die den unteren und oberen Quartilen entsprechenden Punkte. Links sind die Dichtekurven der Grundgesamtheiten dargestellt, aus denen die Stichproben generiert wurden (oben: Normalverteilung mit µ=5 und σ=0.25, unten: logarithmische Normalverteilung mit µ=-0.2 und σ=1). Man erkennt, dass im oberen QQ-Plot die Punkte angenähert entlang der Orientierungsgeraden angeordnet sind; die Abweichung von der Normalverteilung zeigt sich im unteren QQ-Plot in den (vor allem an den Enden) von der Orientierungsgeraden wegdriftenden Punkten. Bei kleineren Stichprobenumfängen kann es auch bei normalverteilter Grundgesamtheit zu deutlichen Abweichungen von der Orientierungsgeraden kommen. - Mit den unteren Quartilen z0.25 und x0.25 sowie den oberen Quartilen z0.75 und x0.75 von Z bzw. X können die Geradenparameter ausgedrückt werden durch: σ= - x0.75 − x0.25 x z − x0.75 z 0.25 , µ = 0.25 0.75 z 0.75 − z 0.25 z 0.75 − z 0.25 Die (nach aufsteigender Größe angeordneten) Stichprobenwerte x(i) werden als (empirische) Quantile von X gedeutet, die entsprechenden W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 31 - „Unterschreitungswahrscheinlichkeiten“ pi ermittelt und dazu die Quantile zpi=φ-1(pi) der N(0, 1)-Verteilung berechnet. Nach Definition des p-Quantils xp einer Beobachtungsreihe muss der Anteil der Werte kleinergleich xp mindestens p und der Anteil der Werte größergleich xp mindestens 1-p betragen, d.h. von pi ist zu verlangen: i/n ≥ pi und (n-i+1)/n ≥ 1-pi d.h. (i-1)/n ≤ pi ≤ i/n. - Zur Fixierung von pi auf einen Wert des Intervalls verwenden wir die Festlegung: Für n>10 ist pi einfach die Intervallmitte (i-0.5)/n, für n ≤ 10 wird pi aus der Formel pi = (i- 3/8)(n + ¼) bestimmt4. Beispiel 4.5a: Dem Normal-QQ-Plot von Abb. 4.4 liegt die folgende Zufallsstichprobe von n=30 Realisierungen der mit µ=5 und σ=0.25 normalverteilten Zufallsvariablen X zugrunde: 4.50, 4.51, 4.61, 4.68, 4.72, 4.72,, 4.78, 4.80, 4.81, 4.82, 4.85, 4.85, 4.94, 4.95, 4.98, 5.01, 5.02, 5.06, 5.12, 5.15, 5.16, 5.16, 5.17, 5.20, 5.21, 5.23, 5.27, 5.32, 5.56, 5.62. Man erzeuge das Normal-QQ-Plot mit R; ferner berechne man die Koordinaten des ersten Punktes P1=(φ-1(p1), x(1)) und die Parameter der Orientierungsgeraden durch (z025, Q1) und (z075, Q3). Lösung mit R: > # Beispiel 4.5 > x <- c(4.81, 5.16, 4.50, 4.85, 5.15, 5.21, 4.68, 4.80, 4.61, 5.17, + 4.82, 4.98, 5.06, 5.01, 5.12, 5.62, 4.95, 5.16, 5.20, 4.94, + 4.72, 5.32, 5.23, 4.85, 5.56, 4.51, 5.02, 4.72, 4.78, 5.27) > # Normal-QQ-Plot > qqnorm(x, xlab = "N(0,1)-Quantile", ylab = "empirische Quantile") > qqline(x, probs = c(0.25, 0.75)) > # Berechnung der Koordinaten von P1: > sort(x); > n <- length(x) > p1 <- (1-0.5)/30; (zp1 <- qnorm(p1)) # z-Koordinate zu x(1) [1] -2.128045 > # Orientierungsgerade durch (z025, Q1) und (z075, Q3) > x025 <- quantile(x, 0.25); x025 <- x025[[1]] > x075 <- quantile(x, 0.75); x075 <- x075[[1]] > print(cbind(x025, x075)) x025 x075 [1,] 4.8025 5.1675 > z025 <- qnorm(0.25); z075 <- qnorm(0.75) > print(cbind(z025, z075)) z025 z075 [1,] -0.6744898 0.6744898 > b1 <- (x075-x025)/(z075-z025); b0 <- (x025*z075-x075*z025)/(z075-z025) > b1 <- b1[[1]]; b0 <- b0[[1]]; print(cbind(b1, b0)) b1 b0 [1,] 0.2705749 4.985 4 Diese Formeln werden in der R-Funktion qqnorm() zur Erstellung eines Normal-QQ-Plots verwendet. Zur besseren Orientierung erhält man mit der R-Funktion qqline() die durch die Punkte P(z0.25, Q1) und P(z0.75, Q3) mit den unteren bzw. oberen Quartilen gelegte Gerade. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 32 5.2 5.0 4.8 4.6 empirische Quantile 5.4 5.6 Normal Q-Q Plot -2 -1 0 1 2 N(0,1)-Quantile • Prüfung der Normalverteilungsannahme mit dem Shapiro-Wilk-Test Der Shapiro-Wilk-Test wurde speziell zur Überprüfung der Annahme (=Nullhypothese) entwickelt, dass eine metrische Zufallsvariable X normalverteilt ist. Die Nullhypothese wird auf dem Niveau α abgelehnt, wenn der P-Wert kleiner als α ist. Theoretischer Hintergrund: Die Teststatistik W des Shapiro-Wilk-Tests ist als Quotient von zwei Schätzfunktionen für die Varianz σ2 der hypothetischen Normalverteilung konstruiert. Die eine Schätzfunktion (im Nenner) ist die Stichprobenvarianz, die andere (im Zähler) hängt mit dem Anstieg der Orientierungsgeraden im QQ-Plot zusammen. Die Berechnung der Teststatistik ist aufwendig und praktisch nur mit einschlägiger Software zu bewältigen5. Für die Interpretation ist wichtig zu wissen, dass W nichtnegativ ist und den Wert 1 nicht überschreiten kann. Wenn H0 (Normalverteilungsannahme) gilt, dann nimmt W Werte nahe bei 1 an, kleinere Werte von W sprechen gegen H0. Z.B. ist bei einem Stichprobenumfang n=10 die Nullhypothese auf 5%igem Signifikanzniveau abzulehnen, wenn W den kritischen Wert 0.842 unterschreitet. Beispiel 4.5b: Es soll gezeigt werden, dass die Stichprobewerte von Aufgabe 4.5 mit der Annahme einer normalverteilten Grundgesamtheit X vereinbar sind. 5 Z.B. mit der R-Funktion shapiro.test(), die die Teststatistik und den P-Wert anzeigt. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 33 Lösung mit R: > > + + > > > # Beispiel 4.6 x <- c(4.81, 5.16, 4.50, 4.85, 5.15, 5.21, 4.68, 4.80, 4.61, 5.17, 4.82, 4.98, 5.06, 5.01, 5.12, 5.62, 4.95, 5.16, 5.20, 4.94, 4.72, 5.32, 5.23, 4.85, 5.56, 4.51, 5.02, 4.72, 4.78, 5.27) # Hypothesen: # H0: X ist normalverteil gegen H1: X ist nicht normalverteilt shapiro.test(x) Shapiro-Wilk normality test data: x W = 0.9756, p-value = 0.7014 Wegen p-value = 70.14% ≥ 5% kann H0 (Stichprobenwerte nicht in Widerspruch zur Normalverteilungsannahme) nicht abgelehnt werden. 4.6 Einen Ausreißer in einer normalverteilten Zufallsstichprobe identifizieren können. • Theoretischer Grundlage: - X ~ N(µ, σ2) P(X < µ-4σ)+P(X > µ+4σ)= 0.0063% Tritt ein Wert außerhalb des 4-fachen Sigma-Bereichs auf, so steht er im Verdacht, dass er keine Realisierung von X ist, sondern z.B. durch einen Datenfehler oder einen Störeinfluss bei der Messung zustande gekommen ist. - Mutmaßliche Ausreißer sollten jedenfalls dokumentiert und nur dann aus der Stichprobe entfernt werden, wenn es dafür einen sachlogischen Grund gibt. - Zur Identifizierung eines Stichprobenwerts als Ausreißer gibt es einfache Kriterien - z.B. die Unter- bzw. Überschreitung der mit dem Interquartilabstand IQR gebildeten robusten Grenzen Q1-1.5 IQR bzw. Q3+1.5 IQR (Boxplot!) - oder spezielle Testverfahren. • Grubbs-Test zur Identifizierung eines einzelnen Ausreißers: - Voraussetzung: X ~ N(µ, σ2); Überprüfung mit einem NormalQQ-Plot - Testentscheidung: H0: „Der Wert mit dem größten Abstand vom arithmetischen Mittel ist kein Ausreißer“ wird auf dem Testniveau α abgelehnt, wenn Gs = max xi − x i =1,..., n s > g n ,α = n −1 n c2 n − 2 + c2 gilt; dabei ist c das α/(2n)-Quantil der t-Verteilung mit f=n-2 Freiheitsgraden. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 34 Beispiel 4.6: Durch einen Eingabefehler möge der zehnte Wert x10=5.17 der Stichprobe im vorangehenden Beispiel auf 1.17 verfälscht. Man zeige, dass dieser Wert mit dem Grubbs-Test auf 5%igem Niveau als Ausreißer identifiziert werden kann. Lösung mit R: > > > + + > > > > > > > > # Beispiel 4.7 options(digits=4) x <- c(4.81, 5.16, 4.50, 4.85, 5.15, 5.21, 4.68, 4.80, 4.61, 1.17, + 4.82, 4.98, 5.06, 5.01, 5.12, 5.62, 4.95, 5.16, 5.20, 4.94, + 4.72, 5.32, 5.23, 4.85, 5.56, 4.51, 5.02, 4.72, 4.78, 5.27) # Prüfung der Normalverteilungsannahme mit dem Normal-QQ-Plot qqnorm(x, xlab = "N(0,1)-Quantile", ylab = "empirische Quantile") qqline(x, probs = c(0.25, 0.75)) # Grubbs-Test: # H0: extremer Wert ist Ausreißer, wenn Gs > Gkrit n <- length(x) # Stichprobenumfang mw <- mean(x); s <- sd(x) # Schätzung der Verteilungsparameter print(cbind(mw, s)) mw s [1,] 4.859 0.7494 > Gs <- max(abs(x-mw))/s; Gs # Realisierung der Testgroesse [1] 4.923 > alpha <- 0.05; c <- qt(alpha/2/n, n-2); c [1] -3.479 > Gcrit <- (n-1)/sqrt(n)*sqrt(c^2/(n-2+c^2)); Gcrit # kritischer Wert [1] 2.908 4 3 1 2 empirische Quantile 5 Normal Q-Q Plot -2 -1 0 1 2 N(0,1)-Quantile Übungsbespiele zu den 1-Stichprobenvergleichen 11. Es sei X eine N(µ, σ2)-verteilte Zufallsvariable mit der Varianz σ2=4. Man prüfe die Hypothesen H0: µ=15 gegen H1: µ ≠ 15 mit dem 2-seitigen Gauß-Test auf der Grundlage der Beobachtungsreihe 15.6, 17.3, 15.0, 13.7, 11.1, 15.2, 14.7, 13.4, 14.4, 11.9, 10.4, 14.5 und argumentiere die Testentscheidung sowohl mit dem P-Wert als auch mit dem Ablehnungsbereich. Als Signifikanzniveau sei α=5% vereinbart. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 35 12. An Hand einer Stichprobe mit dem Umfang n=10 und dem arithmetischen Mittel x =0.827 soll mit dem Gauß-Test geprüft werden, ob der Mittelwert eines N(µ, σ2)-verteilten Untersuchungsmerkmals X den Sollwert µ0=0.8 überschreitet. Dabei sei σ=0.05 und α=1%. Ist die Überschreitung signifikant? Man bestimme ferner die Wahrscheinlichkeit einer Testentscheidung für H1, wenn die Überschreitung ∆=0.027 beträgt. 13. Es soll die Abweichung einer Messgröße X von einem vorgegebenen Sollwert µ0=1.5 geprüft werden. Da X als normalverteilt angenommen werden kann und überdies ein genauer Schätzwert für die Standardabweichung, nämlich σˆ =0.3, bekannt ist, wird die Prüfung mit dem 2-seitigen Gauß-Test vorgenommen und dabei das Signifikanzniveau α=5% vereinbart. Wie groß ist der Stichprobenumfang zu planen, damit man mit dem Test eine kritische Abweichung von 10% des Sollwerts mit 80%iger Sicherheit als signifikant erkennen kann. 14. Von einer Messstelle wurden die folgenden Werte der Variablen X (SO2Konzentration der Luft in mg/m3) gemeldet: 32, 41, 33, 35, 34. a) Weicht die mittlere SO2-Konzentration signifikant vom Wert µ0=30 ab? Als Testniveau sei α=5%$ vereinbart. b) Welcher Mindeststichprobenumfang müsste geplant werden, um mit dem Test eine Abweichung vom Referenzwert m0 um 5% (des Referenzwertes) mit einer Sicherheit von 95% erkennen zu können? 15. Bei einer Untersuchung der Cd-Belastung von Forellen in einem Fließgewässer wurden n=10 Forellen gefangen und der Cd-Gehalt X (in µg/g Frischgewicht) bestimmt. Die Auswertung ergab den Mittelwert x =62 und die Standardabweichung s=7. a) Kann aus den Angaben geschlossen werden, dass der mittlere Cd-Gehalt signifikant (α=5%) über dem vorgegebenen Referenzwert µ0=60 liegt? b) Wie groß ist die Wahrscheinlichkeit, dass man mit dem Test eine Überschreitung des Referenzwerts in der Höhe der beobachteten Überschreitung als signifikant erkennt? 16. Bei der Inbetriebnahme einer Anlage zur Abfüllung einer Lösung in Flaschen mit der Nennfüllmenge von 0.5l wurden in einem Probebetrieb die folgenden Füllmengen X (in l) gemessen: 0.491, 0.488, 0.493, 0.538, 0.493, 0.478, 0.506, 0.459, 0.471, 0.480. a) Kann man aus den Daten schließen, dass die Nennfüllmenge nicht erreicht wird? Das Testniveau sei mit α=0.01 festgelegt. b) Ist der Stichprobenumfang ausreichend groß, um eine Unterschreitung in der Höhe von 10ml mit einer Sicherheit von 90% feststellen zu können? 17. Die Verpackung einer bestimmten Zigarettensorte weist einen mittleren Nikotingehalt von 15 mg pro Zigarette aus. Es wird eine Zufallsstichprobe von 100 Zigaretten getestet. Dabei ergaben sich ein mittlerer Nikotingehalt von 16.5 mg und eine Standardabweichung von 4 mg. Kann aus dem Ergebnis der Stichprobe auf 1%igem Signifikanzniveau der Schluss gezogen werden, dass der tatsächliche Nikotingehalt im Mittel über 15 mg liegt? (Überschreitung sign.) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 36 18. Es sei X eine normalverteilte Umweltmessgröße mit dem (unbekannten) Mittelwert µ und der Standardabweichung σ=10. Mit Hilfe einer Stichprobe soll geprüft werden, ob eine Überschreitung des Grenzwertes K vorliegt, wobei das αRisiko mit 5% vorgegeben ist und eine kritische Überschreitung von 6.5 mit 90%iger Sicherheit erkannt werden soll. Welcher Stichprobenumfang ist zu planen? (21) 19. Von einer Messstelle wurden die folgenden Werte der Variablen X (SO2Konzentration der Luft in mg/m3) gemeldet: 32, 41, 33, 35, 34. a) Weicht die mittlere SO2-Konzentration signifikant vom Wert µo=30 ab? (α=5%) b) Welcher Mindeststichprobenumfang müsste in 6 geplant werden, um mit dem Test eine Abweichung vom Referenzwert µo um 5% (des Referenzwertes) mit einer Sicherheit von 95% erkennen zu können? (sign. Abweichung; 73) 20. Es sei X eine normalverteilte Messgröße mit der Varianz 0,25; für X ist der Nennwert 1,75 vorgegeben. Zur Prüfung auf eine allfällige Abweichung vom Nennwert wird der t-Test eingesetzt; als Testniveau ist 5% vorgesehen. Wie groß muss der Stichprobenumfang geplant werden, um eine kritische Abweichung um 0,15 Einheiten mit 90%iger Sicherheit erkennen zu können? (117) 21. Die Messung der Ozonkonzentration während der Sommermonate ergab für eine Großstadt die in der folgenden Tabelle enthaltenen Werte (Angaben in 10-2 ppm). a) Liegt die mittlere Ozonkonzentration signifikant über dem Wert µo=5? b) Welcher Mindeststichprobenumfang müsste geplant werden, um mit dem Test eine Überschreitung von µo um 10% mit einer Sicherheit von 90% erkennen zu können? (α = 5%) (Überschreitung n. sign.; 93) 2.5 3.0 5.6 4.7 6.5 6.7 1.7 5.3 4.6 7.4 5.4 4.1 5.1 5.6 5.4 6.1 7.6 6.2 6.0 5.5 5.8 8.2 3.1 5.8 2.6 22. In einer Studie wurde u.a. das Ges. Eiweiß i.S. am Beginn und am Ende einer Behandlung bestimmt. Bei 40 Probanden war eine Veränderung zu beobachten: 27 Probanden, bei denen der Eiweißwert vorher im Normbereich lag, wiesen nachher einen Wert außerhalb des Normbereichs auf; bei 13 Probanden lag der Eiweißwert vorher außerhalb und nachher im Normbereich. a) Man prüfe auf 5%igem Niveau, ob der Anteil der Probanden, bei denen der Eiweißwert vorher außerhalb und nachher innerhalb des Normbereichs lag, signifikant von 0.5 abweicht. b) Welcher Stichprobenumfang müsste geplant werden, damit der approximative) Binomialtest mit 90%iger Sicherheit ein signifikantes (a=5%) Ergebnis liefert, wenn p=p0+0.15 ist? 23. Im Rahmen einer Untersuchung des Ernährungsstatus von Schulkindern wurde u.a. das Gesamtcholesterin erfasst. In einer Stichprobe aus den Kindern der Volksschule einer bestimmten Region war der Cholesterinwert bei 45 von 75 Kindern im Normbereich. a) Man prüfe auf 5%igem Niveau, ob der Anteil der Schulkinder im Normbereich signifikant über 50% liegt. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 37 b) Man bestimme die Wahrscheinlichkeit (Power), mit dem Test eine berschreitung von p0 um ∆=0.1 als signifikant zu erkennen. 24. Von einer Abfüllanlage sei bekannt, dass die abgefüllten Einheiten nur mit 5%iger Wahrscheinlichkeit nicht eine vorgegebene Mindestmenge aufweisen. Nach einer Neueinstellung der Anlage wurden im Probelauf 150 Packungen zufällig ausgewählt und dabei festgestellt, dass in 4 Fällen die Mindestmenge nicht erreicht wurde. Die Frage ist, ob dieses Ergebnis eine signifikante Unterschreitung des Sollwertes p0=5% anzeigt (α=5%). 25. Für eine Blumenzwiebelsorte wird eine Keimfähigkeit von mindestens 75% garantiert. In einer Stichprobe von n=60 keimten 35 Zwiebeln. a) Liegt eine signifikante Abweichung vom garantierten Ergebnis vor? Man prüfe diese Frage auf dem Signifikanzniveau α=5%. b) Welche Fallzahl ist notwendig, um eine Unterschreitung des garantierten Anteils um 0.1 mit einer Sicherheit von 90% feststellen zu können? (Unterschreitung sign.; 214) 26. In einer Studie über die Behandlung von akuten Herzinfarktpatienten wurde einer Standardtherapie mit einer neuen Therapie verglichen. Es wurden 160 Patienten mit der neuen Therapie behandelt, von denen 20 innerhalb von 4 Wochen verstarben. Bei Anwendung der Standardtherapie muss eine Sterbewahrscheinlichkeit von po =0,2 angenommen werden. Man prüfe mit dem Binomialtest, ob die neue Therapie ein signifikant unter po =0,2 liegendes Sterberisiko ergibt (α=5%). (Unterschr. sign.) 27. In sogenannten Fall-Kontroll-Studien werden Vierfeldertafeln verwendet, um die Verteilung eines (zweistufigen) Risikofaktors (Raucher/Nichtraucher) in einer Testgruppe und einer Kontrollgruppe darzustellen. Die Tabelle zeigt die (hypothetische) Vierfeldertafel einer Fall-Kontroll-Studie. Raucher Nichtraucher Testgruppe 87 60 Kontrolle 78 45 a) Man prüfe für die Testgruppe, ob der Anteil der Raucher signifikant über p0=0,5 liegt. (α=5%)? (Überschr. sign.) b) Welcher Mindeststichprobenumfang müsste geplant werden, um mit dem Binomialtest eine Überschreitung von p0 =0,5 um 0,05 Einheiten mit einer Sicherheit von 80% erkennen zu können? (700) 28. Es soll gezeigt werden, dass die Stichprobewerte 210, 199, 195, 210, 217, 226, 220, 221, 182 mit der Annahme einer normalverteilten Grundgesamtheit X vereinbar sind. Man führe den Nachweis auf 5%igem Testniveau. 29. Von einer Pflanze erhielt Mendel (1866) insgesamt 62 Samen von denen 44 gelb und 18 grün gefärbt waren. Man zeige, dass das Verhältnis 44:18 der beobachteten Anzahlen nicht "signifikant" vom theoretischen Aufspaltungsverhältnis 3:1 abweicht ( = 5%)? W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 38 30. In einer Studie mit 5 Probanden wurde eine bestimmte Zielgröße X am Studienbeginn (Xb) und – nach erfolgter Behandlung - am Studienende (Xe) gemessen. Xb 57 73 44 27 32 Xe 59 74 46 26 35 a) Man erfasse die Wirkung der Behandlung durch die Differenz Y= Xe - Xb und prüfe, ob der Mittelwert von Y signifikant von Null abweicht (α=5%). (nein) b) Was kann über die Versuchsplanung in a) gesagt werden? Welcher Mindeststichprobenumfang müsste geplant werden, um mit dem Test eine Abweichung von Null in der Höhe von 50% des Mittelwerts von Y mit einer Sicherheit von 90% als signifikant erkennen zu können? (50) 31. Mit einem statistischen Test soll geprüft werden, ob die Alternativhypothese H1 (z.B. Messgröße überschreitet im Mittel einen vorgegebenen Grenzwert) zutrifft, also die Nullhypothese H0 abgelehnt werden kann. Als Testniveau sei 5% vorgegeben, d.h. für die Wahrscheinlichkeit einer irrtümlichen Entscheidung gegen H0 soll gelten: P(Entscheidung für H1|H0) = 5%. Der Versuch wurde mit der Power P(Entscheidung für H1|H1) = 90% geplant. Wie groß ist die posteriori Wahrscheinlichkeit P(H1|Entscheidung für H1), wenn die a-priori Wahrscheinlichkeit dafür, dass H1 zutrifft, gleich 5% ist? (48,6%) 32. Die folgende Tabelle enthält Produktivitätsdaten von 60 Kohorten von je 15 weiblichen Tsetsefliegen. Als Produktivitätsmaß wird die Anzahl Y der Puparien verwendet, die in einer Kohorte bis zum 78ten Lebenstag abgelegt werden. a) Man vergleiche den Mittelwert von Y mit dem Wert 55; liegt eine signifikante Abweichung vor? Liegt die Standardabweichung signifikant über dem Wert 10? (jeweils 5%-Testniveau) (Mittelwert: Abw. nicht sign., Standardabweichung: Überschr. sign.) b) Welcher Stichprobenumfang müsste geplant werden, um eine Abweichung des Mittelwerts (vom Referenzwert) in der beobachteten Höhe mit 90%iger Sicherheit erkennen zu können? (162) c) Man stelle fest, ob die Werte der Variablen Y im Einklang mit der Annahme „H0: Y ist normalverteilt“ stehen (α = 5%). Nr. 1 2 3 4 5 6 7 8 9 10 Y Nr. 72 11 81 12 55 13 55 14 50 15 53 16 70 17 79 18 42 19 69 20 Y Nr. 54 21 57 22 69 23 62 24 73 25 58 26 46 27 50 28 27 29 68 30 Y Nr. 67 31 59 32 49 33 51 34 65 35 56 36 58 37 67 38 66 39 74 40 Y Nr. 51 41 69 42 64 43 68 44 73 45 81 46 54 47 65 48 58 49 61 50 Y Nr. 59 51 65 52 60 53 43 54 52 55 57 56 37 57 39 58 49 59 51 60 Y 58 58 60 66 75 41 40 51 37 38 33. Zur Untersuchung der Frage, welchen Anteil die Skelettmasse an der Körpermasse bei Vögeln bzw. Säugetieren hat, wurden für verschiedene Vögel und Säugetiere die Skelettmasse Y und die Körpermasse X (alle Angaben in kg) bestimmt. Jemand behauptet, dass die Skelettmasse 5% der Körpermasse ausmacht. Stehen die folgenden Daten in Widerspruch zu dieser Aussage? Man W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 39 nehme eine Überprüfung auf 5%igem Niveau für Vögel und Säugetiere vor. (Vögel: ja, Säugetiere: ja) Vögel Y X 1,995 40,667 0,072 1,225 0,0054 0,163 0,203 2,504 0,043 0,701 0,027 0,416 0,186 2,379 0,0058 0,124 0,028 0,427 0,00174 0,031 0,00182 0,029 0,00102 0,02 0,024 0,383 0,00618 0,144 0,00184 0,038 0,00297 0,069 0,00183 0,045 0,00076 0,013 0,00128 0,023 0,00049 0,0087 0,00062 0,0126 W. Timischl: AngStat_Bioengineering_II.doc Säugetiere Y X 0,193 3,35 0,227 3,915 0,0003 0,0063 0,039 0,79 0,027 0,82 0,244 4,836 0,002 0,03 0,015 0,275 0,02 0,365 0,0025 0,03 0,0076 0,115 1,146 22,7 0,748 11,95 0,25 3,395 0,107 2,46 0,224 4,26 0,233 4,21 0,0173 0,35 0,27 4,45 0,448 6,725 0,135 1,56 06.01.2014 40 5 ZWEISTICHPROBENVERGLEICHE MIT METRISCHEN UNTERSUCHUNGSMERKMALEN 5.1 Die Versuchsanlagen „Parallelversuch“ und „Paarvergleich“ zum Vergleich von zwei Merkmalen unterscheiden können. Parallelversuch: • grundlegende Versuchsanlage, um unter kontrollierten Bedingungen zwei Gruppen hinsichtlich eines interessierenden Untersuchungsmerkmals X (z.B. Präparatwirkung) zu vergleichen. Bei einem metrischen Untersuchungsmerkmal geht es dabei meist um einen Vergleich von Mittelwerten unter zwei Versuchsbedingungen, bei einem alternativ skalierten Untersuchungsmerkmal erfolgt der Vergleich der Gruppen in der Regel an Hand der relativen Häufigkeiten einer Merkmalsausprägung. • Aus einer "Zielpopulation" wird eine bestimmte Anzahl von Untersuchungseinheiten (Probanden, Patienten, Proben) ausgewählt und damit zwei (möglichst gleich große) Gruppen, sogenannte "Parallelgruppen" gebildet. Die eine Gruppe ist die Testgruppe (z.B. zur Erprobung eines neuen Präparates), die andere Gruppe in der Regel eine Kontrollgruppe (z.B. eine Placebogruppe oder eine mit einem herkömmlichen Präparat behandelte Gruppe). Durch eine zufällige Zuordnung der Untersuchungseinheiten erreicht man, dass die Gruppen "strukturgleich" sind. Das bedeutet, dass es in den Gruppen außer den angewendeten Behandlungen - keine weiteren systematischen Einflussfaktoren gibt. • Organisation der Beobachtungsdaten beim Parallelversuch: Die Variablen X1 und X2 bezeichnen das Untersuchungsmerkmal in den Parallelgruppen; x11, x21, …, xn1,1 und x12, x22, …, xn2,2 sind die an den Untersuchungseinheiten der jeweiligen Gruppe W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 41 beobachteten Werte von X1 bzw. X2. Man beachte, dass zwischen den Untersuchungseinheiten der Parallelgruppen keinerlei Beziehung besteht, die eine Anordnung in Paaren rechtfertigen würde. Vielmehr können die Untersuchungseinheiten (und entsprechend die Stichprobenwerte) der Testgruppe unabhängig von jenen der Kontrollgruppe angeordnet werden. Es ist daher üblich, den Parallelversuch auch als einen Versuch mit unabhängigen Stichproben zu bezeichnen. Die Unabhängigkeit der Stichproben kommt auch darin zum Ausdruck, dass die Stichprobenumfänge n1 und n2 der Parallelgruppen grundsätzlich verschieden sein können; dennoch sollten symmetrische Versuchsanlagen mit n1=n2 angestrebt werden, weil sie i. Allg. eine höhere Testgüte aufweisen. Paarvergleich (oder 2-Stichprobenproblem mit abhängigen (oder verbundenen) Stichproben: • Auf Grund eines sachlogischen Zusammenhangs kann jeder Wert der einen Stichprobe mit einem Wert der anderen Stichprobe zu einem Wertepaar zusammengefasst werden kann. Ein solcher Zusammenhang ist z.B. gegeben, wenn die Stichprobenwerte durch zweimaliges Beobachten an ein und derselben Untersuchungseinheit gewonnen wurden. • Typische Anwendungsfälle sind die sogenannten selbstkontrollierten Versuche zur Prüfung eines allfälligen Behandlungseffektes: Um die Auswirkung einer Behandlung auf eine Zielvariable zu prüfen, werden aus einer Zielpopulation n Probanden ausgewählt und an jedem Probanden die Zielvariable vor der Behandlung (Variable X1) sowie nach erfolgter Behandlung (Variable X2) beobachtet. Von jedem Probanden liegt also ein Paar von Beobachtungswerten vor. Die aus einem Paarvergleich resultierenden Stichproben sind daher als Spalten einer Datenmatrix zu sehen, in der jede Zeile einem "Block" (z.B. einem Probanden) entspricht, über den die Stichprobenwerte zu Wertepaaren verbunden werden. • Organisation der Beobachtungsdaten beim Paarvergleich: W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 42 Übersicht über grundlegende 2-Stichproben-Tests im Rahmen von Parallelversuchen (mit unabhängigen Stichproben) und Paarvergleichen (mit abhängigen Stichproben) für normalverteilte Untersuchungsmerkmale: Die Grafik enthält zusätzlich den Rangsummen-Test von Wilcoxon, den Wilcoxon-Test für Paardifferenzen sowie den Vorzeichen-Test als nichtparametrische Alternativen zum 2-Stichproben-t-Test bzw. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 43 zum Differenzen-t-Test. Den Testbezeichnungen sind die entsprechenden R-Funktionen beigefügt. 5.2: Mit dem F-Test entscheiden können, ob die Varianzen von zwei unabhängigen Stichproben normalverteilter Variablen voneinander abweichen bzw. die eine Varianz die andere überschreitet/ unterschreitet. Ablaufschema: • Beobachtungsdaten und Modell: Es liegen die (voneinander unabhängigen) Stichproben x11, x21, …, xn1,1 und x12, x22, …, xn2,2 mit den Varianzen σ12 bzw. σ22 vor; die xi1 (i=1,2,…,n1) sind Realisierungen der (unabhängigen und identisch verteilten) Zufallsvariablen Xi1 ~ N(µ1, σ12); analog sind die xi2 (i=1,2,…,n2) Realisierungen der Zufallsvariablen Xi2 ~ N(µ2, σ22). Aus den Zufallsvariablen Xi1 und Xi2 werden die Stichprobenvarianzen S12 bzw. S22 gebildet. • Hypothesen und Testgröße: Der Vergleich der Varianzen σ12 und σ22 erfolgt nach einer der folgenden Testvarianten: H0 : σ12 = σ22 gegen H1 : σ12 ≠ σ22 (Variante II) H0 : σ12 ≤ σ22 gegen H1 : σ12 > σ22 (Variante Ia), H0 : σ12 ≥ σ22 gegen H1 : σ12 < σ22 (Variante Ib), Als Testgröße wird das Varianzverhältnis TG=S12/S22 verwendet, das unter H0 F-verteilt ist mit den Freiheitsgraden f1=n1-1 und f2=n2-1. Setzt man für S12 und S22 die aus den beiden Stichproben berechneten Varianzen s12 bzw. s22 ein, ergibt sich die Realisierung TGs=s12/s22 der Testgröße6. • Entscheidung mit dem P-Wert7: P < α ⇒ H0 ablehnen; dabei ist P=1-Fn1-1, n2-1(TGs) + Fn2-1, n1-1(1/TGs)=2[1-Fn1-1, n2-1(TGs)] für die zweiseitige Testvariante II, 6 Im Falle der Testvarianten Ia und Ib möge TGs ≥ 1 bzw. TGs ≤ 1 gelten. Im Falle der 2-seitigen Testvariante nehmen wir TGs ≥ 1 an, was durch entsprechende Bezeichnung der Stichproben stets erreicht werden kann. 7 Der P-Wert wurde als Wahrscheinlichkeit definiert, dass - bei Gültigkeit von H0 - die Testgröße einen Wert annimmt, der zumindest so extrem (in Richtung der Alternativhypothese) liegt, wie die beobachtete Realisierung. In R werden die P-Werte des F-Tests mit der Funktion var.test() bestimmt. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 44 P=1-Fn1-1, n2-1(TGs) für die Variante Ia, P=Fn1-1, n2-1(TGs) für die Variante Ib; Fn1-1, n2-1 und Fn2-1, n1-1 bezeichnen die Verteilungsfunktionen der FVerteilung mit den Freiheitsgraden f1=n1-1, f2=n2-1 bzw. f1=n2-1, f2=n1-1. • Entscheidung mit dem Ablehnungsbereich: H0 wird abgelehnt, wenn TGs < Fn1-1, n2-1, α/2 oder TGs > Fn1-1, n2-1,1-α/2 (Variante II) bzw. TGs>Fn1-1, n2-1, 1-α (Variante Ia) bzw. TGs<Fn1-1, n2-1, α (Variante Ib) gilt8; Dabei bezeichnet Fn1-1, n2-1,γ das γ-Quantil der F-Verteilung mit den Freiheitsgraden f1=n1-1, f2=n2-1. Beispiel 5.2: Bei einer Untersuchung der Cd-Belastung von Forellen in einem Fließgewässer wurden an zwei Stellen je zehn Forellen gefangen und der Cd-Gehalt X (in mg/g Frischgewicht) bestimmt. Dabei ergaben sich die Messwerte Stelle 1: 76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4 Stelle 2: 64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2. Man nehme an, dass die Cd-Belastungen der Forellen an den Stellen 1 (Variable X1) und 2 (Variable X2) näherungsweise normalverteilt sind. Die Frage ist, ob sich die Varianzen von X1 und X2 auf 5%igem Testniveau signifikant unterscheiden. Lösung mit R: > > > > > > > > > # Beispiel 5.1 (F-Test) x1 <- c(76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4) x2 <- c(64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2) options(digits=4) # H0: sigma1^2 = sigma2^2 gegen H1: sigma1^2 <> sigma2^2 alpha <- 0.05; n1 <- n2 <- length(x1) x1quer <- mean(x1); var1 <- var(x1) x2quer <- mean(x2); var2 <- var(x2) print(cbind(n1, x1quer, var1)) n1 x1quer var1 [1,] 10 67.15 89.77 > print(cbind(n2, x2quer, var2)) n2 x2quer var2 [1,] 10 58.79 12.05 > TGs <- var1/var2; P <- 1-pf(TGs, n1-1, n2-1)+pf(1/TGs, n2-1, n1-1) > print(cbind(alpha, TGs, P)) alpha TGs P [1,] 0.05 7.45 0.006268 > # Loesung mit R-Funktion var.test(): > var.test(x1, x2, ratio = 1, alternative = "two.sided", conf.level = 0.95) F test to compare two variances data: x1 and x2 F = 7.45, num df = 9, denom df = 9, p-value = 0.006268 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 8 Bildet man die Testgröße so, dass die größere Varianz im Zähler steht, reduziert sich im Fall der zweiseitigen Testvariante die Bedingung für die Ablehnung von H0 auf TGs > Fn1-1, n2-1, 1-α/2. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 45 1.85 29.99 sample estimates: ratio of variances 7.45 Wegen P = 0.63% < 5% wird H0 abgelehnt. 5.3 Mit dem Zwei-Stichproben-t-Test die Mittelwerte von zwei mit gleichen Varianzen normalverteilten Untersuchungsmerkmalen vergleichen können. Ablaufschema: • Beobachtungsdaten und Modell: Es liegen zwei (unabhängige) Beobachtungsreihen x11, x21, ..., xn1,1 bzw. x12, x22, ..., xn2,2 vor. Die Mittelwerte und Varianzen der Stichproben seien x1 und x2 bzw. s12 und s22. Die unter der ersten Versuchsbedingung beobachteten Merkmalswerte xi1 sind Realisierungen der (unabhängigen und identisch verteilten) Zufallsvariablen Xi1 ~ N(µ1, σ21) (i=1,2,...,n1); das mit diesen Variablen gebildete Stichprobenmittel sei X 1 , die Stichprobenvarianz sei S12. Entsprechend sind die xi2 Realisierungen der Zufallsvariablen Xi2 ~ N(µ2, σ22) (i=1,2,...,n2), aus denen wir das Stichprobenmittel X 2 sowie die Stichprobenvarianz S22 bilden. Es gelte: σ21 = σ22 (Varianzhomogenität ). • Hypothesen: Der Vergleich der Mittelwerte µ1 und µ2 erfolgt nach einer der folgenden Testvarianten: H0: µ1 = µ2 gegen H1: µ1 ≠ µ2 (Variante II) H0: µ1 ≤ µ2 gegen H1: µ1 > µ2 (Variante Ia) H0: µ1 ≥ µ2 gegen H1: µ1 < µ2 (Variante Ib) • Testgröße: TG = X1 − X 2 ~ t n1 +n2 −2 für µ1 = µ 2 1 1 S p2 + n1 n2 mit ( n1 − 1) S12 + (n2 − 1) S 22 Sp = n1 + n2 − 2 W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 46 Ersetzt man X 1 und X 2 durch die arithmetischen Mittel x1 bzw. x2 sowie S12 und S22 durch die Varianzen s12 bzw. s22, so erhält man die Realisierung TGs der Testgröße. Im Falle der Testvarianten Ia und Ib möge TGs ≥ 0 bzw. TGs ≤ 0 gelten. • Entscheidung mit dem P-Wert9: P < α ⇒ H0 ablehnen; dabei ist P=2Fn1+ n2-2(-|TGs|) für die zweiseitige Testvariante II, P=1-Fn1+ n2-2(TGs) für die Variante Ia, P=Fn1+ n2-2(TGs) für die Variante Ib; Fn1+ n2-2 bezeichnet die Verteilungsfunktionen der t-Verteilung mit dem Freiheitsgrad f=n1+ n2-2. • Entscheidung mit dem Ablehnungsbereich: H0 wird auf dem Testniveau α abgelehnt, wenn |TGs | > tn1+ n2-2,1-α/2 (Variante II) bzw. TGs > tn1+ n2-2, 1-α (Variante Ia) bzw. TGs < - tn1+ n2-2,1- α (Variante Ib) gilt; Dabei bezeichnet tn1+ n2-2,γ das γ-Quantil der t-Verteilung mit dem Freiheitsgrad f=n1+n2-2. • Planung des Stichprobenumfangs: Um auf dem Niveau α mit der Sicherheit 1- β eine Entscheidung für H1 herbeizuführen, wenn µ1 von µ2 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht, kann für symmetrische Versuchsanlagen mit n1=n2=n im Falle der 2-seitigen Testvariante II der erforderliche Mindeststichprobenumfang10 näherungsweise aus 2σ 2 2 n ≈ 2 (z1−α / 2 + z1−β ) ∆ Bestimmt werden. Im Falle der 1-seitigen Testvarianten Ia und Ib ist α/2 durch α zu ersetzen. Bei der Anwendung dieser Formeln muss ein Schätzwert für σ2 zur Verfügung stehen, z.B. eine Realisierung der gewichteten Stichprobenvarianz Sp2. 9 Die P-Werte für die Varianten des 2-Stichproben-t-Tests erhält man z.B. mit der R-Funktion t.test(), wenn der Parameter var.equal=TRUE gesetzt wird. Mit der Festlegung var.equal=FALSE (Voreinstellung) führt die R-Funktion t.test() den im folgenden behandelten Welch-Test zum Vergleich zweier Mittelwerte bei ungleichen Varianzen aus. 10 Eine exakte Bestimmung des erforderlichen Mindeststichprobenumfangs kann wie im Falle des 1Stichproben-t-Tests z.B. mit der R-Funktion power.t.test() vorgenommen werden. Wenn man n1=n2=n, ∆, σ und α vorgibt, liefert diese Funktion die entsprechenden Werte der Gütefunktion des 2Stichproben-t-Tests. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 47 Beispiel 5.3: Die Konzentration (in µg/dl) von Eisen im Blutserum wurde bei 15- bis 18-jährigen Schülern (Variable X1) und Schülerinnen (Variable X2) bestimmt. Die verwendeten Zufallsstichproben haben jeweils den Umfang n1=n2=20, die Mittelwerte sind x1 =102.1, x 2 =81.4 und die Standardabweichungen s1=39.1, s2=42.5. a) Unter der Annahme von mit gleichen Varianzen normalverteilten Grundgesamtheiten X1 ~ N(µ1, σ2) und X2 ~ N(µ2, σ2) zeigen wir, dass die beobachteten Mittelwerte x1 und x 2 sich auf 5%igem Niveau nicht signifikant unterscheiden. b) Anschließend bestimmen wir den erforderlichen Mindeststichprobenumfang, der geplant werden müsste, um mit dem Test bei einem Mittelwertunterschied von ∆=µ1- µ2=20 mit 90%iger Sicherheit ein signifikantes Ergebnis zu erhalten. Lösung mit R: > > > > > > > > > > > > > > # Beispiel 5.2 options(digits=4) xquer1 <- 102.1; xquer2 <- 81.4 # Mittelwerte s1 <- 39.1; s2 <- 42.5 # Standardabweichungen n1 <- n2 <- 20 # Stichprobenumfänge # a) H0: mu1=mu2 gegen mu1 <> mu2 alpha <- 0.05; f <- n1+n2-2 sp2 <- ((n1-1)*s1^2+(n2-1)*s2^2)/f; sp <- sqrt(sp2) tgs <- (xquer1-xquer2)/sp*sqrt(n1*n2/(n1+n2)) # Entscheidung mit Ablehnungsbereich q <- qt(1-alpha/2, f) # Entscheidung mit P-Wert P <- 2*pt(-abs(tgs), f) print(cbind(alpha, f, q, sp, tgs, P)) alpha f q sp tgs P [1,] 0.05 38 2.024 40.84 1.603 0.1172 Wegen P = 11.72% ≥ 5% kann H0 nicht abgelehnt werden. > > > > > # b) Mindeststichprobenumfang: Berechnung mit Näherungsformel Delta <- 20; beta <- 0.1 qa <- qnorm(1-alpha/2); qb <- qnorm(1-beta) n <- 2*sp2/Delta^2*(qa+qb)^2 print(cbind(alpha, qa, beta, qb, n)) alpha qa beta qb n [1,] 0.05 1.96 0.1 1.282 87.61 > # Mindeststichprobenumfang, exakte Rechnung mit R-Funktion > power.t.test(delta=20, sd=sp, sig.level=0.05, power=0.9, + type="two.sample", alternative="two.sided") Two-sample t test power calculation n delta sd sig.level power alternative = = = = = = 88.58 20 40.84 0.05 0.9 two.sided NOTE: n is number in *each* group Hinweis: Wird der F-Test in Verbindung mit dem 2-Stichproben t-Test als „Vortest“ zum Nachweis der Varianzhomogenität eingesetzt, kann das Gesamtirrtumsrisiko αg für beide Testentscheidungen bis knapp 2α ansteigen. Diesen nicht erwünschten W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 48 Nebeneffekt vermeidet man, wenn als Alternative zum Mittelwertvergleich mit dem 2Stichproben t-Test und dem F-Test als Vortest der folgende, nicht ganz so „scharfe“ Welch-Test eingesetzt wird. 5.4 Mit dem Welch-Test können die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen (bei gleichen oder ungleichen Varianzen) vergleichen können. Ablaufschema: • Beobachtungsdaten und Modell, Hypothesen: wie beim Zwei-Stichproben-t-Test bis auf die Voraussetzung σ21 = σ22 (Varianzhomogenität ). • Testgröße: TG = X1 − X 2 S / n1 + S / n2 mit f = 2 1 2 2 (s 2 1 ) (s 2 1 ~ t f - verteilt (näherungsweise) für µ1 = µ 2 / n1 + s22 / n2 2 ( ) 2 ) 2 / n1 /(n1 − 1) + s / n2 /(n2 − 1) 2 2 (abgerundet auf ganze Zahl) • Entscheidung: analog zur Vorgangsweise beim Zwei-Stichproben-t-Test mit dem P-Wert bzw. mit Hilfe des Ablehnungsbereichs; der dortige Freiheitsgrad n1+n2-2 ist durch f zu ersetzen. Beispiel 5.4: Mit den Daten von Aufgabe 5.2 soll geklärt werden, ob der mittlere Cd-Gehalt an der Stelle 1 auf 5%igem Testniveau signifikant über dem entsprechenden Wert an der Stelle 2 liegt. Lösung mit R: > > > > > > > > > > > > # Beispiel 5.3 (Welch-Test) x1 <- c(76.8, 72.3, 74.0, 73.2, 46.1, 76.5, 61.9, 62.4, 65.9, 62.4) x2 <- c(64.4, 60.0, 59.4, 61.2, 52.0, 58.1, 55.8, 62.0, 57.8, 57.2) # H0: mu1 <= mu2 gegen mu1 > mu2 xquer1 <- mean(x1); s1 <- sd(x1) xquer2 <- mean(x2); s2 <- sd(x2) n1 <- n2 <- length(x1); se <- sqrt(s1^2/n1+s2^2/n2) tgs <- (xquer1-xquer2)/se fz <- (s1^2/n1+s2^2/n2)^2; fn <- (s1^2/n1)^2/(n1-1)+(s2^2/n2)^2/(n2-1) f <- fz/fn alpha <- 0.05; tq <- qt(1-alpha, f) P <- 1-pt(tgs, f) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 49 > print(cbind(tgs, f, alpha, tq, P), digits=4) tgs f alpha tq P [1,] 2.62 11.37 0.05 1.791 0.01163 > t.test(x1, x2, alternative="greater") Welch Two Sample t-test data: x1 and x2 t = 2.6199, df = 11.373, p-value = 0.01163 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 2.646589 Inf sample estimates: mean of x mean of y 67.15 58.79 Wegen P = 1.16% < 5% wird H0 abgelehnt. 5.5 Mit dem Differenzen-t-Test (paired t-test) die Mittelwerte von zwei normalverteilten Untersuchungsmerkmalen an Hand von abhängigen Stichproben (d.h. im Rahmen eines Paarvergleichs) vergleichen können. Ablaufschema: • Beobachtungsdaten und Modell: n Wertepaare (x11, x12), (x21, x22), ..., (xn,1, xn,2) durch Messung der Variablen X1 (Mittelwert µ1) und X2 (Mittelwert µ2) an n Untersuchungseinheiten Differenzenstichprobe d1=x12 - x11, d2=x22 - x21, ..., dn=xn2 - xn1 mit Mittelwert d und Varianz sd2. Jedes di ist Realisierung einer Zufallsvariablen Di ~N(µD, σD2) mit µD=µ2-µ1 Stichprobenmittel D ~ N(µD, σD2/n), Stichprobenvarianz SD2 • Hypothesen und Testgröße: Fall II: H0: µD = 0 gegen H1: µD ≠ 0 Fall Ia: H0: µD ≤ 0 gegen H1: µD > 0 Fall IIb: H0: µD ≥ 0 gegen H1: µD < 0 TG = D ~ tn−1 für µD = 0 SD / n • Entscheidung mit dem P-Wert: P < α ⇒ H0 ablehnen; dabei ist P=2Fn-1(-|TGs|) für die zweiseitige Testvariante II, P=1-Fn-1(TGs) für die Variante Ia, P=Fn-1(TGs) für die Variante Ib; W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 50 Fn-1 bezeichnet die Verteilungsfunktionen der t-Verteilung mit dem Freiheitsgrad f=n-1. • Entscheidung mit dem Ablehnungsbereich: H0 wird auf dem Testniveau α abgelehnt, wenn |TGs | > tn-1,1-α/2 (Variante II) bzw. TGs > tn-1, 1-α (Variante Ia) bzw. TGs < - tn-1,1- α (Variante Ib) gilt; Dabei bezeichnet tn-1,γ das γ-Quantil der t-Verteilung mit dem Freiheitsgrad f=n-1. • Planung des Stichprobenumfangs: Um auf Niveau α mit der Sicherheit 1-β eine Entscheidung für H1 herbeizuführen, wenn µD von 0 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht, ist das dafür notwendige n näherungsweise im Fall II: n≈ σ D2 ∆ 2 (z 1−α / 2 + z1− β ) ; 2 in den Fällen Ia und Ib ist z1-α/2 durch z1-α zu ersetzen. Bei Anwendung dieser Formeln muss ein Schätzwert für σD zur Verfügung stehen. Beispiel 5.5: Ein einfaches Maß für die Wirkung W eines Präparats auf ein Untersuchungsmerkmal ist die Differenz W=Xn-Xv aus dem Untersuchungsmerkmal Xn nach und dem Untersuchungsmerkmal Xv vor Gabe des Präparats. Es soll festgestellt werden, ob ein Testpräparat B im Mittel eine größere Wirkung zeigt als ein Kontrollpräparat A. Die Untersuchung wird als Paarvergleich so geplant, dass 10 Probanden zuerst mit dem Kontrollpräparat und dann (nach einer angemessenen Zeitdauer zur Vermeidung von Übertragungseffekten) mit dem Testpräparat behandelt werden. Die mit den Präparaten A und B erzielten (fiktiven) Wirkungen WA bzw. W B sind: A: B: 9.45, 8.50, 7.46, 10.10, 11.81, 9.70, 12.76, 7.03, 10.49, 5.01 11.56, 12.50, 7.15, 13.97, 9.35, 12.67, 13.14, 8.13, 11.64, 9.73 Lösung mit R: > > > > > > # Beispiel 5.5 (Differenzen t-Test) wA <- c(9.45, 8.50, 7.46, 10.10, 11.81, 9.70, 12.76, 7.03, 10.49, 5.01) wB <- c(11.56, 12.50, 7.15, 13.97, 9.35, 12.67, 13.14, 8.13, 11.64, 9.73) xquerA <- mean(wA); sA <- sd(wA); xquerB <- mean(wB); sB <- sd(wB); nA <- nB <- length(wA) print(cbind(xquerA, xquerB, sA, sB, nA, nB), digits=4) xquerA xquerB sA sB nA nB W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 51 [1,] 9.231 10.98 2.31 2.274 10 10 > d <- wB-wA; dquer <- mean(d); sd <- sd(d); se <- sd/sqrt(n); > print(cbind(dquer, sd, se), digits=4) dquer sd se [1,] 1.753 2.227 0.7041 > # H0: muB <=muA gegen H1: muB > muA <=> H0: muD<=0 gegen H1: muD>0 > # direkte Berechnung des P-Werts (Ablehungsbereichs) > alpha <- 0.05; tgs <- dquer/se > P <- 1-pt(tgs, n-1); tq <- qt(1-alpha, n-1) > print(cbind(alpha, tgs, tq, P), digits=4) alpha tgs tq P [1,] 0.05 2.49 1.833 0.01722 > # Berechnung des P-Werts mit t.test() > t.test(d, alternative="greater") One Sample t-test data: d t = 2.4896, df = 9, p-value = 0.01722 alternative hypothesis: true mean is greater than 0 95 percent confidence interval: 0.4622372 Inf sample estimates: mean of x 1.753 Ergebnis: P=1.72% < 5% H1 Übungsbeispiele zu den 2-Stichprobenvergleichen mit normalverteilten Untersuchungsmerkmalen 1. a) Es soll untersucht werden, ob die mittlere Menge (in mg) eines Wirkstoffes in mit der Anlage A hergestellten Produkten (Wirkstoffmenge XA) sich von jener unterscheidet, die mit der Anlage B (Wirkstoffmenge XB) hergestellt werden. Die Werte der Prüfstichproben sind: Anlage A: 16.1, 15.4, 16.1, 15.6, 16.2, 16.2, 15.9, 16.2, 16.1, 16.0 Anlage B: 16.5, 15.9, 16.3, 16.4, 15.9, 15.9, 16.3, 16.2, 16.0, 16.2 Aus Voruntersuchungen sei bekannt, dass die Wirkstoffmengen XA und XB mit guter Näherung als normalverteilt betrachtet werden können und die Varianzen nicht von der Anlage abhängen. Als Signifikanzniveau nehme man 5% an. b) Ferner stelle man fest, ob der Umfang der Prüfstichproben ausreichend groß geplant wurde, um den als relevant angesehenen Mittelwertunterschied ∆=0.25 mit 90%iger Sicherheit erkennen zu können. 2. Das Wachstum einer Kultur (Gewicht in g) wird in Abhängigkeit von 2 Nährlösungen 1 und 2 gemessen. Es ergaben sich die folgenden Messwerte: Nährlösung 1: Nährlösung 2: 8.17, 7.92, 8.02, 7.97, 6.42, 8.16, 7.32, 7.35 6.98, 6.94, 6.92, 6.93, 6.62, 7.17, 7.42, 6.95 a) Man überprüfe auf 5%igem Signifikanzniveau, ob die Nährlösung einen signifikanten Einfluss auf das mittlere Wachstum hat? b) Ist die Annahme gleicher Varianzen gerechtfertigt? W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 52 3. In einem Versuch wurde auf 10 Parzellen eine Getreidesorte ausgesät und in einer Hälfte einer jeden Parzelle das Bewässerungssystem A und in der anderen Hälfte das System B angewendet. Die unter den Versuchsbedingungen erzielten Erträge (in kg/ha) sind im Folgenden angeführt. Sind die unter der Bedingung B erzielbaren Erträge im Mittel größer als die Erträge unter der Bedingung A? Man prüfe die Fragestellung auf 5%igem Signifikanzniveau. A: 7400 5740 5530 6190 3740 5050 4180 6520 4910 4690 B: 8450 6400 6410 7010 3690 6040 4060 6730 4760 5770 . 4. Diffusionstests werden angewendet, um die Wirksamkeit bestimmter Antibiotika auf Mikroorganismen (Krankheitserreger) festzustellen. Diese werden auf einem festen Nährboden zusammen mit dem Antibiotikum aufgebracht. Ist das Antibiotikum wirksam, entsteht eine Hemmzone, in der der Testorganismus nicht wachsen konnte. Bei der Wirksamkeitsprüfung von 2 Antibiotika A und B wurden in je 15 Versuchen Hemmzonen mit den im Folgenden angeführten Durchmessern (in mm) beobachtet. Kann an Hand der Daten auf 5%igem Testniveau ein Unterschied in der Wirksamkeit der Antibiotika (d.h. ein Unterschied der mittleren Durchmesser) festgestellt werden? A: 19.5, 14.0, 12.0, 19.0, 23.0, 28.0, 24.5, 26.0, 25.0, 16.0, 27.5, 17.0, 17.5, 20.0, 18.5 B: 18.0, 21.0, 30.5, 24.0, 20.5, 29.0, 25.5, 27.0, 40.5, 26.5, 22.5, 40.0, 16.5, 21.5, 23.5 5. Die Eisenkonzentration im Serum (in µg/dl) wurde bei 15- bis 18-jährigen Schülerinnen (Variable X1) und Schülern (Variable X2) bestimmt. Der Stichprobenumfang, der Mittelwert und die Standardabweichung sind 20, 81.4, 42.5 (Schülerinnen) bzw. 20, 102.1, 39.1 (Schüler). a) Unter der Voraussetzung normalverteilter Grundgesamtheiten (mit übereinstimmenden Varianzen) zeige man, dass der Mittelwert der Schülerinnen sich auf 5%igem Niveau nicht signifikant vom entsprechenden Schülermittelwert unterscheidet. b) Welcher Umfang der Zufallsstichproben müsste geplant werden, um mit dem Test einen Mittelwertunterschied in der Höhe der beobachteten Mittelwertdifferenz mit 90%iger Sicherheit als signifikant zu erkennen? (82) c) Man überzeuge sich, dass die Voraussetzung der Varianzhomogenität (auf 5%igem Testniveau) erfüllt ist. 6. Die folgende Tabelle zeigt die Änderung des (systolischen) Blutdrucks (in mm Hg) bei zehn einer gewissen Behandlung unterworfenen Patienten. Xb und Xe bezeichnen die Blutdruckwerte am Beginn bzw. am Ende der Behandlung. a) Gibt es einen signifikanten Behandlungseffekt? b) Welcher Stichprobenumfang muss geplant werden, um einen Effekt in der Größe von 25% der Änderung der Stichprobenmittelwerte mit einer Sicherheit von 90% feststellen zu können? Das Signifikanzniveau sei α =5%. (Behandlungseffekt sign.; 58) Patient Xb Xe 1 210 201 2 169 165 3 187 166 W. Timischl: AngStat_Bioengineering_II.doc 4 160 157 5 167 147 6 176 145 7 185 168 8 206 180 9 173 147 10 146 136 06.01.2014 53 7. Von 8 Großstädten (Einwohnerzahlen über 750000) wurden die folgenden mittleren SO2-Werte der Luft (in µg/m3) gemeldet: 29, 110, 47, 35, 65, 69, 9, 10. Demgegenüber liegen von 8 kleineren Städten (Einwohnerzahlen unter 250000) aus demselben Zeitraum die folgenden SO2-Werte vor: 13, 56, 36, 11, 46, 94, 28, 31. Es ist zu untersuchen, ob die SO2-Belastung in Großstädten größer als in kleineren Städten ist (α =5%). (n.sign.größer) 8. Es soll an Hand der Messwerte in der nachfolgenden Tabelle geprüft werden, ob durch ein bestimmtes Medikament eine fiebersenkende Wirkung eintritt (α = 5%). Dabei bedeuten Xv und Xn die Messvariablen vor bzw. 3 Stunden nach Einnahme des Medikaments. Ist die Fallzahl richtig geplant, um in dem Versuch eine mittlere Fiebersenkung von 0.2oC mit 90%iger Sicherheit feststellen zu können? (Fiebersenkung sig.; erford. Mindeststichprobenumfang 46) Patient 1 2 3 4 5 Xv 38.4 38.6 39.4 40.1 39.2 Xn 37.3 37.8 39.1 38.9 38.6 Patient 6 7 8 9 10 Xv 38.7 40.3 37.9 38.4 39.5 Xn 38.6 38.7 37.5 37.9 38.7 9. Bei einer Untersuchung der Cd-Belastung von Forellen in einem Fließgewässer wurden an zwei Stellen je fünf Forellen gefangen und der Cd-Gehalt (in mg/g Frischgewicht) bestimmt. Dabei ergaben sich an der Stelle 1 der Mittelwert 0.065 und die Standardabweichung 0.007, an der Stelle 2 der Mittelwert 0.051 und die Standardabweichung 0.002. Kann aus den Angaben auf einen signifikanten (α=5%) Unterschied im mittleren Cd-Gehalt der an der Stelle 1 bzw. 2 entnommenen Forellen geschlossen werden? (kein sign. Unterschied) 10. In einem Placebo-kontrollierten Parallelversuch wurde die Wirkung eines Testpräparates und eines Kontrollpräparates (Placebo) auf eine (fiktive) Messgröße X untersucht. X1 und X2 bezeichnen die Messgrößen am Beginn bzw. Ende der Behandlung. a. Man prüfe innerhalb jeder Präparatgruppe, ob sich die Messgröße im Mittel verändert. b. Man stelle die Präparatwirkung durch die Differenz X2-X1 dar und vergleiche die Präparatgruppen hinsichtlich der mittleren Präparatwirkung. In beiden Fragestellungen sei α = 5%. (Testpräparat: Änderung n.sign., Placebo: Änderung n.sign.; Unterschied der Präparatwirkung n.sign.) Testpräparat X1 Proband 1 568 2 668 3 441 4 466 5 921 6 696 7 231 8 761 9 605 10 504 W. Timischl: AngStat_Bioengineering_II.doc X2 713 820 465 340 711 555 190 640 696 397 Placebo X1 Proband 11 804 12 572 13 554 14 273 15 380 16 1074 17 447 18 732 19 674 20 719 X2 884 684 630 513 469 984 583 904 646 613 06.01.2014 54 11. Die folgenden Daten stammen von einer Messstelle an der Donau. Man vergleiche das jeweilige Monatmittel der Wassertemperatur (TEMP) der Jahre 1981 und 1987. Hat eine Temperaturabnahme stattgefunden? Was zeigt ein Vergleich der Orthophosphat-Werte (OPO4) zwischen den Jahren 1981 und 1987? Als Signifikanzniveau verwende man 5%. JAHR 81 81 81 81 81 81 81 81 81 81 81 81 MONAT JAN FEB MAR APR MAY JUN JUL AUG SEP OCT NOV DEC TEMP 1,1 3,1 2,8 9,8 13,8 16,8 18,5 19,9 16,6 10,7 7,5 5,1 OPO4 0,166 0,190 0,216 0,032 0,074 0,087 0,108 0,066 0,069 0,113 0,091 0,165 JAHR 87 87 87 87 87 87 87 87 87 87 87 87 MONAT JAN FEB MAR APR MAY JUN JUL AUG SEP OCT NOV DEC TEMP 0,3 3,4 1,5 9,0 11,0 13,5 17,5 14,8 17,2 13,2 8,2 5,8 OPO4 0,150 0,150 0,180 0,130 0,090 0,060 0,070 0,120 0,110 0,120 0,170 0,210 12. In einer als randomisierte Versuchsanlage geplanten Bioäquivalenzstudie wurden 34 Probanden mit einem Testpräparat behandelt und andere 34 Probanden mit einem Referenzpräparat. Als Untersuchungsmerkmale wurden an jedem Probanden zwei (metrische) Variable CMAX (maximale Konzentration einer Substanz) bzw. AUC12 (area under curve) bestimmt. a) Man beschreibe die Variablen durch die üblichen univariaten Statistiken und stelle die Verteilung graphisch gemeinsam mit der angepassten Normalverteilungsdichte dar (getrennt nach Bedingungen). b) Man prüfe, ob sich die Probanden der Behandlungsgruppen (hinsichtlich der mittleren Zielvariablenwerte) unterscheiden, und zwar im Rahmen von individuellen Vergleichen, d.h., getrennt für jede Zielvariable. Als Signifikanzniveau sei α = 5% vereinbart. Testpräparat CMAX AUC12 CMAX 1,44 3,97 1,38 2,65 7,72 0,73 0,83 1,64 2,03 2,72 6,84 1,35 3,09 9,33 0,76 2,96 9,88 1,91 0,48 1,33 1,57 1,46 4,23 1,22 1,57 6,85 3,12 1,18 3,36 1,02 2,72 9,30 1,65 1,84 4,44 0,29 0,32 0,60 0,63 1,34 2,54 1,51 1,41 4,00 2,03 0,71 1,25 0,67 W. Timischl: 1,66 AngStat_Bioengineering_II.doc 0,83 1,92 AUC12 4,93 0,62 4,10 4,18 0,19 4,61 4,09 2,99 8,23 3,63 3,85 0,29 1,92 3,04 5,63 2,97 5,13 CMAX 3,00 2,40 0,26 2,14 2,59 1,51 1,96 2,00 2,14 2,71 1,34 0,89 3,34 1,83 1,85 1,40 0,57 Referenzpräparat AUC12 CMAX AUC12 14,17 0,26 0,26 5,94 1,54 4,62 0,26 2,66 6,41 6,31 2,52 8,47 8,01 1,07 1,22 5,77 1,58 4,20 8,26 3,20 15,05 3,80 1,25 3,95 6,42 3,32 10,08 10,74 0,82 1,91 2,71 1,55 5,34 3,17 2,05 7,34 8,01 1,00 2,02 5,16 0,61 1,80 4,47 1,34 4,01 3,37 3,41 11,47 2,54 1,54 06.01.2014 4,71 55 13. In einem Versuch wurde die Wirkung zweier Verfahren (1=Testpräparat, 2=Kontrolle) auf eine Messgröße X an drei aufeinanderfolgenden Untersuchungszeitpunkten (X1, X2, X3) ermittelt. Verfahren 1 X1 X2 568 773 668 894 441 485 466 726 921 666 696 824 231 285 761 799 605 441 1504 801 826 558 412 159 970 866 236 327 639 469 571 511 718 730 919 708 X3 713 820 465 340 611 555 190 640 696 297 385 239 1053 359 671 595 792 1136 X1 804 572 554 273 380 2084 447 732 674 1119 775 911 1258 568 1015 Verfahren 2 X2 504 628 290 573 272 1244 688 437 442 955 1049 891 511 650 923 X3 884 684 630 513 469 984 583 904 646 613 615 896 831 582 1015 a) Man prüfe für jedes Verfahren, ob sich die Messgröße im Mittel vom ersten bis zum zweiten Untersuchungszeitpunkt ändert (Kurzzeitwirkung). Was ergibt sich als Langzeitwirkung (Vergleich von X1 und X3)? b) Man prüfe die Wirksamkeit des Verfahrens 1 im Vergleich zum Verfahren 2, indem man als Zielvariable die prozentuelle Änderung der Messgröße vom Zeitpunkt 1 bis zum Zeitpunkt 3 verwendet. c) Was ist über die Versuchsplanung zu sagen, im Besonderen über den Stichprobenumfang? Als Signifikanzniveau verwende man 5%. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 56 6 ZWEISTICHPROBENVERGLEICHE MIT BINÄREN UNTERSUCHUNGSMERKMALEN Übersicht über grundlegende 2-Stichproben-Tests im Rahmen von Parallelversuchen (mit unabhängigen Stichproben) und Paarvergleichen (mit abhängigen Stichproben) für binäre Untersuchungsmerkmale 2-Stichprobenvergleiche bei dichotomen Grundgesamtheiten Vergleich von Wahrscheinlichkeiten unabhängige Stichproben -Test (approximativ) prop.test() Exakter Test von Fisher fisher.test() abhängige Stichproben McNemar-Test (approximativ) mcnemar.test() Binomialtest (exakt) binom.test() Lernziel 6.1 Zwei Wahrscheinlichkeiten im Rahmen eines Parallelversuchs mit großen Stichproben vergleichen können. Ablaufschema: • Beobachtungsdaten und Modell: Von einem Untersuchungsmerkmal X1 liegen zwei unabhängige Stichproben mit den Umfängen n1 bzw. n2 vor. Die Stichproben stammen aus zwei, durch das Gliederungsmerkmal X2 unterschiedenen Grundgesamtheiten; der Wert X2=b1 kennzeichnet die eine, der Wert X2=b2 die andere Grundgesamtheit. Das Untersuchungsmerkmal X1 setzen wir als binär voraus, d.h., seine Realisierungen beschränken sich auf zwei Werte a1 und a2. In der ersten Stichprobe (X2=b1) möge n11-mal der Wert a1 und n21-mal der Wert a2 auftreten, in der zweiten Stichprobe (X2=b2) n12-mal der Wert a1 und n22-mal der Wert a2. Die Stichproben lassen sich übersichtlich in Gestalt der Vierfeldertafel W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 57 Untersuchungsmerkmal X1 Wert a1 Wert a2 (Spalten-) Summen Gruppe 1 X2=b1 n11 n21 n.1=n1 vorgegeben Gruppe 2 X2=b2 n12 n22 n.2=n2 vorgegeben (Zeilen-) Summen n1. n2. n.. =n1+n2 Die Werte der ersten und zweiten Stichprobe sind Realisierungen eines Untersuchungsmerkmals X1, das als Bernoulli-verteilt mit den Werten a1, a2 und den Parametern p1 bzw. p2 vorausgesetzt wird. • Hypothesen und Testgröße: Fall II: H0: p1 = p2 gegen H1: p1 ≠ p2 Fall Ia: H0: p1 ≤ p2 gegen H1: p1 > p2 Fall Ib: H0: p1 ≥ p2 gegen H1: p1 < p2 Als Testgröße wird die standardisierte Differenz TG = Y1 − Y2 Y (1 − Y ) n1 n2 n1 + n2 der Anteile Y1 und Y2, mit denen die Merkmalsausprägung X1=a1 in der ersten bzw. zweiten Stichprobe auftritt verwendet. Y bezeichnet hier den Anteil, mit dem X1=a1 in beiden Gruppen auftritt. Die Verteilung der Testgröße kann mit einer für die Praxis i. Allg. ausreichenden Genauigkeit durch die Standardnormalverteilung approximiert werden, wenn n.j ni./n>5 (i, j=1,2) gilt, also die auf den Gesamtumfang n bezogenen Produkte der Spaltensummen mit den Zeilensummen größer als 5 sind. Indem man für Y1, Y2 und Y die entsprechenden relativen Häufigkeiten y1=n11/n1, y2=n12/n2 bzw. y=n1./n einsetzt, erhält man die Realisierung TGs der Testgröße. Die Approximation kann verbessert werden, wenn Stetigkeitskorrektur so vorgenommen wird, dass man in der realisierung der Testgröße y1 und y2 im Falle y1 > y2 durch y1 - 1/(2n1) bzw. y2 + 1/(2n2) und im Falle y1 < y2 durch y1 +1/(2n1) bzw. y2 - 1/(2n2) ersetzt. • Entscheidung mit dem P-Wert11: P < α ⇒ H0 ablehnen; dabei ist 11 Zur Durchführung des Tests (mit und ohne Stetigkeitskorrektur) steht in R die Funktion prop.test() zur Verfügung.. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 58 P= 2Φ(-|TGs|) für die zweiseitige Testvariante II, P=1 - Φ(TGs) für die Variante Ia, P= Φ(TGs) für die Variante Ib. • Entscheidung mit dem Ablehnungsbereich: H0 wird auf dem Testniveau α abgelehnt, wenn |TGs| > z1-α/2 (Variante II), TGs > z1-α (Variante Ia), TGs < - z1-α (Variante Ib) gilt. Dabei bezeichnet zγ das γ-Quantil der N(0, 1)-Verteilung. • Planung des Stichprobenumfanges: Um auf dem Niveau α mit der Sicherheit 1- β eine Entscheidung für H1 herbeizuführen, wenn p1 von p2 um ∆ ≠ 0 im Sinne der Alternativhypothese abweicht, kann für symmetrische Versuchsanlagen mit n1=n2=n im Falle der 1-seitigen Testvarianten Ia und Ib der erforderliche Mindeststichprobenumfang näherungsweise aus 2(z1−α + z1− β ) 2 n≈ h2 mit h = 2 arcsin p 2 + ∆ − 2 arcsin p 2 bestimmt werden. Im Falle der 2-seitigen Testvariante II ist α durch α/2 zu ersetzen12. Beispiel 6.1: Im Zuge einer Studie über den Einfluss der Düngung (Tresterkompostbzw. Mineraldüngung) auf den Pilzbefall (Falscher Mehltau) von Weinstöcken (Vitis vinifera) wurden n1=39 Weinstöcke mit Tresterkompost gedüngt und ebenso viele (n2=39) Stöcke mineralgedüngt. Es stellte sich heraus, dass in der ersten Gruppe (Testgruppe) n11=20 Stöcke einen starken Befall (Ausprägung a1) und n21=19 Stöcke nur ein schwachen bzw. überhaupt keinen Befall (Ausprägung a2) zeigten. In der zweiten Gruppe (Kontrollgruppe) waren n12=10 Weinstöcke stark und n22=29 nur schwach bis nicht erkennbar befallen. a) An Hand dieses Beobachtungsergebnisses soll auf 5%igem Testniveau geprüft werden, ob sich das Befallrisiko in den Gruppen signifikant unterscheidet. b) Ist die Fallzahl in den Gruppen richtig geplant, um mit dem Test eine Differenz der Befallrisken von ∆=0.25 mit einer Sicherheit von 90% erkennen zu können? Lösung mit R: 12 Zur Planung von Stichprobenumfängen mit diesen Formeln kann man die R-Funktion pwr.2p.test() im Paket "pwr" verwenden. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 59 > # Beispiel 5.7 (Vergleich von 2 Wahrscheinlichkeiten) > freq <- matrix(data=c(20, 19, 10, 29), ncol=2, byrow=TRUE, + dimnames=list("gruppe"=c("Trester", "Mineral"), + "befall"=c("stark", "schwach"))) > freq befall gruppe stark schwach Trester 20 19 Mineral 10 29 > # Voraussetzung für Normalverteilungsapproximation > n1 <- sum(freq[1,]); n2 <- sum(freq[2,]); n <- n1+n2 > np1 <- sum(freq[,1]); np2 <- sum(freq[,2]) > e11 <- n1*np1/n; e12 <- n1*np2/n; e21 <- n2*np1/n; e22 <- n2*np2/n > print(cbind(e11, e12, e21, e22), digits=4) e11 e12 e21 e22 [1,] 15 24 15 24 > # a) H0: p(starker Befall|Trester)=p(starker Befall|Mineral) > # gegen H1: ... ungleich ... > alpha <- 0.05 > # direkte Berechnung des P-Werts > y1 <- freq[1,1]/n1; y2 <- freq[2,1]/n2; y <- np1/n > tgsmc <- (y1-1/2/n1-y2-1/2/n2)/sqrt(y*(1-y))*sqrt(n1*n2/n) > Pmc <- 2*pnorm(-abs(tgsmc)) > print(cbind(y1, y2, y, tgsmc, Pmc), digits=4) y1 y2 y tgsmc Pmc [1,] 0.5128 0.2564 0.3846 2.095 0.0362 > # Berechnung des P-Werts mit prop.test() > prop.test(freq, alternative="two.sided") 2-sample test for equality of proportions with continuity correction data: freq X-squared = 4.3875, df = 1, p-value = 0.0362 alternative hypothesis: two.sided 95 percent confidence interval: 0.02246956 0.49035095 sample estimates: prop 1 prop 2 0.5128205 0.2564103 > > > > > # b) Planung des Stichprobenumfangs p2 <- y2; Delta <- 0.20; p1 <- p2+Delta; beta <- 0.1 h <- 2*asin(sqrt(p1))- 2*asin(sqrt(p2)) qa <- qnorm(1-alpha/2); qb <- qnorm(1-beta); nap <- 2*(qa+qb)^2/h^2 print(cbind(p1, p2, qa, qb, h, nap), digites=4) p1 p2 qa qb h nap [1,] 0.4564103 0.2564103 1.959964 1.281552 0.4215668 118.2479 > # Mindest-n mit der R-Funktion pwr.sp.test() > library(pwr) > pwr.2p.test(h = h, sig.level = 0.05, power = 1-beta, + alternative = "two.sided") Difference of proportion power calculation for binomial distribution (arcsine transformation) h n sig.level power alternative = = = = = 0.4215668 118.2478 0.05 0.9 two.sided NOTE: same sample sizes 6.2 Zwei Wahrscheinlichkeiten im Rahmen eines Paarvergleichs (d.h. mit abhängigen Stichproben) Stichproben vergleichen können. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 60 Ablaufschema: • Beobachtungsdaten: X1, X2 … zweistufige Merkmale mit Werten a1 und a2 (z.B. Verbesserung bzw. keine Verbesserung oder Nebenwirkung keine Nebenwirkung); X1 kann ein Untersuchungsmerkmal X2 vor einer Behandlung (Zeitpunkt 1) X1 a1 a2 und X2 das Untersuchungsmerkmal a1 n11 n12 nach einer Behandlung (Zeitpunkt 2) sein. Beobachtung von X1 und X2 an a2 n21 n22 n Untersuchungseinheiten Σ n.1 n.2 2 abhängige Stichproben Zusammenfassung in Vierfeldertafel: bzw. Σ n1. n2. n • Hypothesen und Testgröße: Abkürzungen: p1.= P(X1=a1) = P(X1=a1 und X2=a1) + P(X1=a1 und X2=a2), p.1= P(X2=a1) = P(X2=a1 und X1=a1) + P(X2=a1 und X1=a2), p12 = P(X1=a1 und X2=a2), p21 = P(X2=a1 und X1=a2); H0 : p1.= p.1 vs. H1 : p1. ≠ p.1 H0 : p12 = p21 vs. H1 : p12 ≠ p21 H0 : p12*:=p12/(p12+ p21) = p21 /(p12+ p21) =: p21* vs. H1 : p12* ≠ p21* H0 : p12* = ½ vs. H1 : p12* ≠ ½ (wegen p12*+ p21*=1) Testgröße (Binomialtest, exakter Vergleich): TG = H12 ~ Bn*,p0 (falls H0 gilt) H12 = Anzahl der Untersuchungseinheiten mit X1=a1 und X2=a2, n*=n12+n21, p0=1/2; ersetzt man H12 durch n12, erhält man die Realisierung TGs=n12. Testgröße (McNemar-Statistik, Normalverteilungsapproximation): 2 ( | H12 − H 21 | −1) TG = ~ χ12 H12 + H 21 unter H0 (approx. für n12 + n21 > 9) 4 H21 = Anzahl der Untersuchungseinheiten mit X1=a2 und X2=a1. Ersetzt man H12 durch n12 und H21 durch n21, erhält man die Realisierung TGs der Testgröße. • Entscheidung mit dem P-Wert (Binomialtest) P < α ⇒ H0 ablehnen; dabei ist P=1- FB(µ0-d)+1- FB(µ0+d-1); W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 61 hier ist FB die Verteilungsfunktion der Bn*,1/2-Verteilung, µ0=n*/2 und d= |n12-µ0|=|n12 - n21|/2. • Entscheidung mit dem P-Wert (Normalverteilungsapproximation) P < α ⇒ H0 ablehnen; dabei ist P=1- F1(TGs); hier ist F1 die Verteilungsfunktion der χ21 –Verteilung. • Planung des Stichprobenumfangs: Notwendiger Mindeststichprobenumfang n* (=n12+n21), um auf dem Niveau α mit der Sicherheit 1-β eine Entscheidung für H1 herbeizuführen, wenn p12* von 1/2 um ∆ ≠ 0 abweicht: ( 1 n* ≈ 2 z1−α / 2 + z1− β 1 − 4∆2 4∆ ) 2 Beispiel 6.2: Im Rahmen einer Studie wurde u.a. der Blutzucker am Beginn (Variable X1) und am Ende (Variable X2) einer Behandlung bestimmt. Die Ergebnisse der Blutzuckerbestimmung wurden dabei auf einer 2-stufigen Skala mit den Werten a1 ("im Normbereich") und a2 ("nicht im Normbereich") dokumentiert. Bei n11=31 Probanden war der Blutzuckerwert am Beginn und am Ende im Normbereich, bei n12=24 Probanden lag der Wert vorher im Normbereich und nachher außerhalb, bei n21=13 Probanden vorher außerhalb und nachher innerhalb und bei n22=12 vorher und nachher nicht im Normbereich. Die Frage ist, ob die Wahrscheinlichkeit, dass der Blutzucker am Beginn im Normbereich liegt, verschieden ist von der entsprechenden Wahrscheinlichkeit am Ende der Behandlung. Lösung mit R: > # Beispiel 6.2 > # Vergleich von Wahrscheinlichkeiten mit abhängigen Stichproben > H <- matrix(c(31, 13, 24, 11), ncol=2); H [,1] [,2] [1,] 31 24 [2,] 13 11 > ns <- H[1,2]+H[2,1] > # H0: P(Normberreich/Beginn)=P(Normbereich/Ende) vs. H1: ... <> ... > # exakter P-Wert (Binomialtest) > alpha <- 0.05; p12d <- H[1,2]/ns > tgs <- H[1,2]; mu0 <- ns/2; d <- abs(tgs-mu0) > P <- pbinom(mu0-d, ns, 0.5)+1-pbinom(mu0+d-1, ns, 0.5) > print(cbind(ns, tgs, p12d, mu0, d, P), digits=4) ns tgs p12d mu0 d P [1,] 37 24 0.6486 18.5 5.5 0.09887 > binom.test(H[1,2], ns) Exact binomial test data: H[1, 2] and ns number of successes = 24, number of trials = 37, p-value = 0.09887 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.4746113 0.7979002 W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 62 sample estimates: probability of success 0.6486486 > > > > # Normalverteilungsapproximation tgsapprox <- (abs(H[1,2]-H[2,1])-1)/sqrt(ns) Papprox <- 2*pnorm(-abs(tgsapprox)) print(cbind(tgsapprox, Papprox), digits=4) tgsapprox Papprox [1,] 1.644 0.1002 > # McNemar-Test > tgsmcnemar <- tgsapprox^2; Pmcnemar <- 1-pchisq(tgsmcnemar, 1) > print(cbind(tgsmcnemar, Pmcnemar), digits=4) tgsmcnemar Pmcnemar [1,] 2.703 0.1002 > mcnemar.test(H) McNemar's Chi-squared test with continuity correction data: H McNemar's chi-squared = 2.7027, df = 1, p-value = 0.1002 Übungsbeispiele zu den 2-Stichprobenvergleichen mit binären Untersuchungsmerkmalen 14. Es soll festgestellt werden, ob eine Zeitungskampagne gegen das Zigarettenrauchen erfolgreich war. Vor der Kampagne wurden 210 Personen zufällig ausgewählt und befragt, ob sie rauchen oder nicht. Nach Abschluss der Kampagne wurde eine erneute Befragung derselben 210 Personen durchgeführt. Die Ergebnisse sind in der folgenden Tabelle enthalten. Man prüfe, ob eine signifikante Veränderung (α =5%) eingetreten ist. (Veränderung sign.) Nichtraucher/vorher Raucher/vorher Nichtraucher/ nachher 110 28 Raucher/ nachher 12 60 15. In sogenannten Fall-Kontroll-Studien werden Vierfeldertafeln verwendet, um die Verteilung eines (zweistufigen) Risikofaktors (+ vorhanden, - nicht vorhanden) in einer Gruppe von Kranken (Diagnose +) und einer Kontrollgruppe (Diagnose -) darzustellen. Die Tabelle zeigt die (hypothetische) Vierfeldertafel einer FallKontroll-Studie. Man vergleiche das Auftreten des Risikofaktors (d.h. die Anteile der Raucher) in den beiden Gruppen; sind die beobachteten Anteile signifikant verschieden (α =5%)? (Anteile sign.versch.) Diagnose + Raucher 60 Nichtraucher 90 Diagnose 25 75 16. In einer Studie wurde u.a. das Ges. Eiweiß i.S. am Beginn und am Ende bestimmt. Es ergab sich, dass bei 32 Probanden der Eiweißwert vor und nach Ende der Studie im Normbereich lag, bei 22 Probanden lag der Wert vorher im Normbereich und nachher außerhalb, bei 9 Probanden vorher außerhalb und nachher im Normbereich und bei 7 vorher und nachher außerhalb des W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 63 Normbereichs. Hat sich während der Studie eine signifikante Änderung hinsichtlich des Normbereichs ergeben (α = 5%)? (Änderung sign.) 17. Eine Testgruppe von chronisch kranken Patienten erhält eine neue Schmerztherapie. Es wird nach einer sowie nach vier Wochen registriert, bei welchen Patienten Schmerzen (+) bzw. keine Schmerzen (-) auftreten. Gibt es zwischen der ersten und vierten Woche einen signifikanten Behandlungseffekt (α=5%)? Was kann über die Versuchsplanung gesagt werden? Nr. 1. Woche 4. Woche 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + + 9 + 10 + - Nr. 11 12 13 14 15 16 17 18 19 20 1. Woche 4. Woche + + + + + + + + + + + - 18. In einem Experiment wurden 23 Objekte unter Bedingung A und (von den ersten verschiedene) 23 Objekte unter Bedingung B beobachtet und die Halbwertszeit (HWZ, in h) eines Zerfallsprozesses gemessen. Man prüfe, ob sich die Halbwertszeiten a) im Mittel, b) in der Varianz signifikant zwischen den Bedingungen unterscheiden (α=5%). (k. sign. Untersch.) Prob. Nr. 1 2 3 4 5 6 7 8 9 10 11 12 Bedingung A Prob. HWZ Nr. 1,496 13 1,916 14 2,616 15 1,557 16 1,924 17 2,167 18 3,262 19 3,391 20 2,404 21 1,413 22 2,095 23 1,806 Bedingung B HWZ Prob. Nr. 1,682 1 1,941 2 2,461 3 2,522 4 1,595 5 2,311 6 2,131 7 2,883 8 1,917 9 2,881 10 1,768 11 12 HWZ Prob. Nr. 1,462 13 1,800 14 1,664 15 1,785 16 1,705 17 1,487 18 1,768 19 1,645 20 3,245 21 2,481 22 1,870 23 4,940 HWZ 1,261 2,262 1,433 1,946 1,522 2,995 1,924 2,848 1,966 2,031 2,042 19. Im Rahmen einer Untersuchung des Ernährungsstatus von Schulkindern aus Oberösterreich und der Steiermark wurde u.a. das Gesamtcholesterin (in mg/dl) stichprobenartig erfasst. In Oberösterreich umfasste die Stichprobe 93 Schulkinder mit Werten < 170 (optimal) und 52 mit Werten ≥170 (Risikogruppe). Die entsprechenden Werte für die Steiermark waren 42 bzw. 29. Man prüfe auf 5%igem Niveau, ob sich der Anteil von Schülern in der optimalen Kategorie zwischen den Bundesländern signifikant unterscheidet. (Unterschied n.sign.) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 64 7 KORRELATION UND REGRESSION BEI METRISCHEN VARIABLEN 7.1 Den Korrelationskoeffizienten ρ als Parameter der 2-dimensionalen Normalverteilung interpretieren können. • Definition: X und Y heißen 2-dimensional normalverteilt mit den Mittelwerten µX, µY, den Standardabweichungen σX >0, σY >0 und dem Korrelationskoeffizienten ρ (|ρ| < 1), wenn sie mit Hilfe von 2 unabhängigen, N(0,1)-verteilten Zufallsvariablen Z1, Z2 wie folgt erzeugt werden können: X = σ X Z 1 + µ X , Y = σ Y ρZ 1 + σ Y 1 − ρ 2 Z 2 + µ Y • Bezeichnungen: Im Falle ρ = 0 sind die Variablen X und Y nicht korreliert; sie variieren voneinander unabhängig. In den Fällen ρ = +1 oder ρ = -1 liegt eine perfekte(positive bzw. negative) Korrelation vor, d.h., die Variable X ist bis auf eine multiplikative (positive oder negative) Konstante gleich der Variablen Y. • Standardform: Die Bedeutung des Parameters ρ = 0 kann man besser erkennen, wenn man in den Definitionsgleichungen die Variablen und X und Y durch die standardisierten Variablen X´ = (X-µX)/σX bzw. Y´ = (Y-µY)/σY ersetzt; es folgt: X ´= Z1 und Y´= ρZ1 + 1 − ρ 2 Z 2 Die gemeinsame Verteilung der standardisierten Variablen X´ und Y´ ist die Standardform der 2-dimensionalen Normalverteilung. • Dichtefunktion der Standardform: rscheinlichkeitsdichte z´= f X ´Y ´ ( x´, y´) = ( ) 1 exp − x´2 −2 ρx´ ý + y´2 2 2π 1 − ρ 2(1 − ρ ) 1 zu. Die grafische Darstellung der Dichtefunktion nehmen wir in einem aus den Merkmalsachsen (X', Y') und der Dichteachse (Z') aufgespannten dreidimensionalen, rechtwinkeligen Koordinatensystem vor. Der Graph von fX'Y' ist eine Fläche, die den W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 65 höchsten Wert an der Stelle x'=y'=0 annimmt und nach allen Seiten abfällt. Die Form der Dichtefläche hängt wesentlich vom Parameter ρ ab. Die folgende Grafik zeigt die Höhenlinien der Dichteflächen für verschiedene Korrelationskoeffzienten. a) X' und Y' sind nicht korreliert, man hat eine Drehfläche von der Form einer "Glockenfläche"; in den Fällen b) und c) sind X' und Y' positiv korreliert und in der Folge die Dichteflächen in Richtung gleicher X'- und Y'-Werte gedehnt und normal dazu gestaucht. Die Interpretation der zweidimensionalen Dichte ist analog zur eindimensionalen Dichtefunktion vorzunehmen. Bezeichnet ∆x' ∆y' den Inhalt eines (kleinen) Rechtecks um den Punkt (x',y') der Merkmalsebene, dann wird die Wahrscheinlichkeit, dass die Variablen X' und Y' einen Wert in diesem Rechteck annehmen, durch das Volumen fX'Y'(x', y')∆x'∆y' der über dem Rechteck errichteten "Säule" bis zur Dichtefläche dargestellt. Realisierungen von X' und Y' fallen also mit größerer Wahrscheinlichkeit in Bereiche mit hohen Dichtewerten als in Bereiche mit niedrigen Dichtewerten. Der Inhalt W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 66 des gesamten unter der Dichtefläche liegenden Körpers ist auf den Wert 1 normiert. • Visualisierung im Streudiagramm: Die folgende Grafik zeigt Streudiagramme von Zufallsstichproben (n=100) aus zweidimensional-normalverteilten Grundgesamtheiten. a) ρXY = 0: X' und Y' sind nicht korreliert, die 100 Punkte streuen regellos in horizontaler und vertikaler Richtung. b) ρXY =0.4: X' und Y' sind positiv korreliert, die Punktewolke zeigt eine erkennbare lineare Tendenz in dem Sinne, dass größere (kleinere) X'-Werte mit größeren (kleineren) Y'-Werten gepaart sind. c) ρXY =0.8: Wegen der stärkeren positiven Korrelation ist die lineare Ausformung der Punkteverteilung deutlicher als im Falle ρXY =0.4. d) ρXY =- 0.8: X' und Y' sind negativ korreliert, die Punktewolke weist eine fallende lineareTendenz auf; größere (kleinere) X'-Werte sind nun mit kleineren (größeren) Y'Werten gepaart. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 67 Beispiel 7.1: R-Skript zur Erzeugung der Streudiagramme: par(mfrow=c(2, 2)) par(pin=c(6, 4), mai=c(0.8, 0.9, 0.2, 0.1)) par(cex.axis=1.2, cex.lab=1.2) # 2-dimensionale Normalverteilung, rho=0 x <- rnorm(100, 0, 1); y <- rnorm(100, 0, 1) plot(x, y, type="p", col="black", pch=18, xlab="X'", ylab="Y'", xlim=c(-4, 4), ylim=c(-4, 4), frame.plot=T) abline(h=0, lty=2); abline(v=0, lty=2) text(-4.2, 3.8, col="black", expression("a) "*rho*"=0.0"), pos=4, cex=1.2) # 2-dimensionale Normalverteilung, rho=0.4 rho <- 0.4 x <- rnorm(100, 0, 1); y <- rho*x+sqrt(1-rho^2)*rnorm(100, 0, 1) plot(x, y, type="p", col="black", pch=18, xlab="X'", ylab="Y'", xlim=c(-4, 4), ylim=c(-4, 4), frame.plot=T) abline(h=0, lty=2); abline(v=0, lty=2) text(-4.2, 3.8, col="black", expression("b) "*rho*"=0.4"), pos=4, cex=1.2) # 2-dimensionale Normalverteilung, rho=0.8 rho <- 0.8 x <- rnorm(100, 0, 1); y <- rho*x+sqrt(1-rho^2)*rnorm(100, 0, 1) plot(x, y, type="p", col="black", pch=18, xlab="X'", ylab="Y'", xlim=c(-4, 4), ylim=c(-4, 4), frame.plot=T) abline(h=0, lty=2); abline(v=0, lty=2) text(-4.2, 3.8, col="black", expression("c) "*rho*"=0.8"), pos=4, cex=1.2) # 2-dimensionale Normalverteilung, rho=-0.8 rho <- -0.8 x <- rnorm(100, 0, 1); y <- rho*x+sqrt(1-rho^2)*rnorm(100, 0, 1) plot(x, y, type="p", col="black", pch=18, xlab="X'", ylab="Y'", xlim=c(-4, 4), ylim=c(-4, 4), frame.plot=T) abline(h=0, lty=2); abline(v=0, lty=2) text(-4.2, 3.8, col="black", expression("d) "*rho*"=-0.8"), pos=4, cex=1.2) Lernziel 7.2: Den Korrelationskoeffizienten ρ schätzen können. • Definitionen: Es sei (xi,yi) (i=1,2,...,n) eine 2-dimensionale Zufallsstichprobe der 2dimensional normalverteilten Zufallsvariablen X und Y. Dann bezeichnet man 1 s xy = n −1 n ∑ (xi − x )( yi − y ) i =1 und rxy = s xy sx s y als Kovarianz bzw. Produktmomentkorrelation (oder PearsonKorrelation) der X- und Y-Stichprobe. • Eigenschaften der Produktmomentkorrelation: o Es gilt -1 ≤ rXY ≤ +1. o rXY (kurz r) ist die klassische Schätzfunktion für ρ . • Approximatives (1-α)-Konfidenzintervall für ρ : W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 68 ρu = exp(2 zu ) − 1 exp(2 z o ) − 1 , ρo = mit exp(2 zu ) + 1 exp(2 zo ) + 1 1 1+ r r 1 zu = ln − − z1−α / 2 und 2 1 − r 2(n − 1) n -3 1 1+ r r 1 z o = ln − + z1−α / 2 ; 2 1 − r 2(n − 1) n -3 Hier ist r die Produktmomentkorrelation (Schätzwert für ρ) und z1-α/2 das (1-α/2)-Quantil der Standardnormverteilung. Hinweis: Den Schätzwert r und das (1-α)-Konfidenzintervall [ρu, ρo] kann mit der R-Funktion cor.test() bestimmen. Lernziel 7.3: Die Abhängigkeit der zweidimensional-normalverteilten Variablen X und Y mit einem geeigneten Test prüfen können. Ablaufschema: • Beobachtungsdaten und Modell: Die Variation der Variablen X und Y wird durch eine zweidimensionale Normalverteilung mit dem Korrelationsparameter ρ beschrieben. Von X und Y liegt eine zweidimensionale Zufallsstichprobe vor, die aus den an n Untersuchungseinheiten beobachteten Wertepaaren (xi, yi) (i=1,2, … ,n) besteht. Der Verteilungsparameter ρ wird mit der aus den Beobachtungswerten bestimmten Produktmomentkorrelation r geschätzt. • Hypothesen und Testgröße: Der Vergleich des Parameters ρ mit dem Wert null (dieser Wert entspricht dem Fall zweier unabhängiger Variablen X und Y) erfolgt nach einer der folgenden Testvarianten: H0 : ρ = 0 gegen H1 : ρ ≠ 0 (Variante II) H0 : ρ ≤ 0 gegen H1 : ρ > 0 (Variante Ia), H0 : ρ ≥ 0 gegen H1 : ρ < 0 (Variante Ib) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 69 Als Testgröße wird die Stichprobenfunktion TG = rXY n − 2 1− r 2 XY ~ t n−2 verwendet, die unter H0: ρ = 0 einer t-Verteilung mit n-2 Freiheitsgraden folgt. Berechnet man r mit den konkreten Stichprobenwerten ein, erhält man die Realisierung TGs der Testgröße. • Entscheidung mit dem P-Wert: P < α ⇒ H0 ablehnen; dabei ist P=2Fn-2(-|TGs|) für die zweiseitige Testvariante II, P=1-Fn-2(TGs) für die Testvariante Ia bzw. P=Fn-2(TGs) für die Variante Ib; Fn-2 bezeichnet die Verteilungsfunktion der tn-2-Verteilung.13 • Entscheidung mit dem Ablehnungsbereich: H0 wird abgelehnt, wenn |TGs| > tn-2,1-α/2 (Variante II) bzw. TGs > tn-2-1, 1-α (Variante Ia) bzw. TGs < - tn-n, 1-α (Variante Ib) gilt; Dabei bezeichnet tn-2,γ das γ-Quantil der t-Verteilung mit dem Freiheitsgrad f=n-2. Beispiel 7.3: An 27 Leukämiepatienten wurden die in der folgenden Tabelle angeführten Expressionswerte der Gene A (Variable X) und B (Variable Y) ermittelt.14 Man bestimme unter der Annahme, dass X und Y zweidimensional-normalverteilt sind, a) einen Schätzwert und ein 95%iges Konfidenzintervall für die Produktmomentkorrelation ρ und zeige b) auf 5%igem Signifikanzniveau, dass ρ ≠ 0 ist. X: Y: 0.194, -0.011, -0.195, -0.123, -0.532, 0.211, -0.382, -0.076, 0.564, 0.295, 0.377, 0.717, 0.872, 0.471, 0.236, 0.756, 0.270, -0.248, -0.391, 0.005, -0.027, 0.363, -0.056, -0.138, -0.436, 0.002, 0.192, 0.473, -0.188, -0.066, -0.702, 0.922, -0.250, 0.276, 0.764 0.817, 0.530, 0.388, 0.051, 0.908, 0.604, 0.626, 0.165, 0.519, 0.530, 0.389, 0.495, 0.656, 0.500, 0.014, 0.893, 0.158, 0.613, 0.702 Für die Abhängigkeitsprüfung mit der Produktmomentkorrelation ρ steht in R die Funktion cor.test() mit der Parametersetzung method="pearson" zur Verfügung. Neben dem P-Wert wird mit dieser Funktion auch der Schätzwert r und ein approximatives Konfidenzintervall für ρ auf der Grundlage der Fisher-Transformation berechnet. 13 14 Die Stichproben sind dem Datensatz „golub“ im Paket „multtest“ aus der Software-Sammlung „bioconductor“ entnommen und betreffen die Gene mit den Bezeichnungen „M81830_at“ bzw. „U58048_at“ von 27 Leukämiepatienten der Tumorklasse 0 (vgl. http://www.bioconductor.org/. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 70 Lösung mit R:15 > > + + + > + + > > > > > # Beispiel 7.3 (Schätzung der POroduktmomentkorrelation) x <- c(0.194, -0.011, 0.270, -0.248, -0.391, 0.005, -0.027, 0.363, -0.195, -0.123, -0.056, -0.138, -0.436, 0.002, -0.532, 0.211, 0.192, 0.473, -0.188, -0.066, -0.702, 0.922, -0.382, -0.076, -0.250, 0.276, 0.764) y <- c(0.564, 0.295, 0.817, 0.530, 0.388, 0.051, 0.908, 0.604, 0.377, 0.717, 0.626, 0.165, 0.519, 0.530, 0.389, 0.495, 0.872, 0.471, 0.656, 0.500, 0.014, 0.893, 0.158, 0.613, 0.236, 0.756, 0.702) options(digits=4) n <- length(x) mw_x <- mean(x); mw_y <- mean(y) s_x <- sd(x); s_y <- sd(y) print(cbind(n, mw_x, s_x)); print(cbind(n, mw_y, s_y)) n mw_x s_x [1,] 27 -0.005519 0.3704 n mw_y s_y [1,] 27 0.5128 0.2479 > # bivariate Statistiken > s_xy <- cov(x, y) # Kovarianz > r_xy <- cor(x, y, method="pearson") # Produktmoment(=Pearson)korrelation > print(cbind(s_xy, r_xy)) s_xy r_xy [1,] 0.05362 0.5839 > # Konfidenzintervall und Abhängigkeitsprüfung mit cor.test() > cor.test(x, y, method="pearson",alternative="two.sided", conf.level=0.95) Pearson's product-moment correlation data: x and y t = 3.596, df = 25, p-value = 0.001386 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.2620 0.7889 sample estimates: cor 0.5839 > > > > # manuelle Berechnung (Konfidenzintervall, P-Wert) sxy <- sum((x-mw_x)*(y-mw_y))/(n-1); rxy <- sxy/s_x/s_y muz <- 0.5*log((1+rxy)/(1-rxy))+rxy/2/(n-1); sz <- 1/sqrt(n-3) print(cbind(sxy, rxy, muz, sz)) sxy rxy muz sz [1,] 0.05362 0.5839 0.6796 0.2041 > alpha <- 0.05; zq <- qnorm(1-alpha/2) > xx <- muz-rxy/(n-1); zu <- xx-zq*sz; zo <- xx+zq*sz > rhou <- (exp(2*zu)-1)/(exp(2*zu)+1) # untere Grenze für rho > rhoo <- (exp(2*zo)-1)/(exp(2*zo)+1) # obere Grenze für rho > print(cbind(zu, zo, rhou, rhoo)) zu zo rhou rhoo [1,] 0.257 1.057 0.2515 0.7846 Die in der R-Prozedur cor.test berechneten Grenzen des Konfidenzintervalls für ρ weichen von den manuell bestimmten Grenzen ab. Die Abweichung ist dadurch bedingt, dass in R bei der Bestimmung von zu bzw. zo der Term rXY/[2(n-1)] vernachlässigt wird, was bei hinreichend großem n vertretbar ist. 15 W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 71 Lernziel 7.4: Die Parameter der Regression von Y auf X im Modell mit zweidimensional-normalverteilten Variablen (Modell A) schätzen und die Abhängigkeitsprüfung durchführen können. Ablaufschema: • Beobachtungsdaten und Modell: Beobachtung der Variablen X und Y an n Untersuchungseinheiten ergibt n Wertepaare (x1, y1), (x2, y2), … (xn, yn) ; Aus der Definitionsgleichungen X = σ X Z 1 + µ X , Y = σ Y ρZ 1 + σ Y 1 − ρ 2 Z 2 + µ Y der zweidimensionalen Normalverteilung mit den Parametern µX, σX, µY, σY und ρ folgt für die Abhängigkeit der Variablen Y von X das lineare Modell: Y = β 0 + β 1 X + ε mit β 1 = ρ XY σY , β 0 = µ Y − β 1 µ X und σX ε = σ Y 1 − ρ 2 Z 2 ~ N (0, σ ε2 ), σ ε2 = σ Y2 (1 − ρ 2 ) Für jeden festen Wert x von X ist Y normalverteilt mit dem Mittelwert µY(x)=β0 + β1 x und der von x unabhängigen Varianz σε2. Die Funktion x a µ Y (x) heißt lineare Regressionsfunktion (von Y auf X).16 16 Die unabhängige Variable X wird auch Einflussgröße oder Regressor, die abhängige Variable Y auch Zielgröße oder Regressand genannt. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 72 • Parameterschätzung und Abhängigkeitsprüfung: o Schätzwerte für die Modellparameter β1, β0, das (von X abhängige) Zielgrößenmittel yˆ ( x) und die Varianz σε2: s b1 = βˆ1 = rXY Y , b0 = βˆ0 = y − b1 x , sX yˆ ( x) = b0 + b1 x = y + b1 ( x − x ), 1 MQE = σˆ ε = n−2 2 n ∑ i =1 1 e = n−2 2 i n ∑ ( y − yˆ ( x )) i 2 i i =1 Die Funktion x a µˆ ( x) heißt empirische Regressionsfunktion, ihr Graph empirische Regressionsgerade. o (1-α)-Konfidenzintervall für den Geradenanstieg β1: b1 ± tn−2,1−α / 2 SE(b1 ) = b1 ± tn−2,1−α / 2 MQE (n −1)sX2 Offensichtlich hängt die Zielgröße Y im Rahmen des einfach linearen Regressionsmodells von der Einflussgröße X ab, wenn der Geradenanstieg β1 ≠ 0 ist. Bei einem vorgegebenen Irrtumsrisiko α lautet die Entscheidung auf β1 ≠ 0, wenn das (1- α)Konfidenzintervall für β1 die null nicht enthält. Gleichwertig mit der Prüfung H0: β1 = 0 gegen H1: β1 ≠ 0 ist die Prüfung auf Abhängigkeit mit dem Korrelationskoeffizienten, d.h. die Prüfung der Hypothesen H0: ρXY = 0 vs. H1: ρXY ≠ 0. o (1-α)-Konfidenzintervall für das Zielgrößenmittel µY(x) an der Stelle x: yˆ(x) ± tn−2,1−α / 2SE( yˆ) = yˆ(x) ± tn−2,1−α / 2 1 (x − x)2 MQE + 2 n ( n − 1 ) s X • Anpassungsgüte: Es empfiehlt sich, nach Schätzung der Regressionsparameter die Regressionsgerade gemeinsam mit den Datenpunkten in ein Streudiagramm einzuzeichnen. Auf diese Weise gewinnt man eine Vorstellung, wie "gut" die Punkteverteilung durch die Regressionsgerade wiedergegeben wird. Eine Kennzahl füre die Anpassungsgüte ist das Bestimmtheitsmaß: W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 73 B=r 2 XY s = XY s X sY 2 SQY − SQE = , SQY n SQY = (n − 1) s , SQE = 2 Y ∑e 2 i 2 = SQY (1 − rXY ) i =1 Eigenschaften von B: o Es gilt: 0 ≤ B ≤ 1. o B ist der Anteil der durch X erklärten Variation von Y. Beispiel 7.4: In einer Studie wurden u.a. die Serumkonzentrationen X und Y der Na- bzw. Cl-Ionen (in mmol/l) von n=15 Probanden bestimmt. Die Messwerte sind: X: Y: 135.0, 147.0, 148.5, 130.0, 139.0, 129.0, 142.0, 146.0, 131.0, 143.5, 138.5, 145.0, 143.0, 153.0, 149.0 99.0, 106.5, 105.5, 94.0, 98.0, 92.0, 97.0, 106.0, 102.5, 98.5, 105.0, 103.0, 101.0, 107.0, 104.0 Man bestimme unter der Voraussetzung einer zweidimensional-normalverteilten Grundgesamtheit a) die Parameter der Regressionsgeraden (von Y auf X), b) die Summe SQE der Quadrate der Residuen, das mittlere Residuenquadrat MQE und das Bestimmtheitsmaß B sowie c) 95%-Konfidenzintervalle für den Anstieg der Regressionsgeraden und die Zielgrößenmittelwerte. Lösung mit R: > > > + + > + + > > > > > > > > # Beispiel 7.4 # Dateneingabe, univariate Statistiken x <- c(135.0, 147.0, 148.5, 130.0, 139.0, 129.0, 142.0, 146.0, 131.0, 143.5, 138.5, 145.0, 143.0, 153.0, 149.0) y <- c(99.0, 106.5, 105.5, 94.0, 98.0, 92.0, 97.0, 106.0, 102.5, 98.5, 105.0, 103.0, 101.0, 107.0, 104.0) options(digits=4) xy <- data.frame(x, y) # Ordnen des Datensatzes nach aufsteigender Größe von x iv <- order(xy$x) xy <- xy[iv,]; x <- xy$x; y <- xy$y # a) lineare Regression von Y auf X modyx <- lm(formula = y ~ x, data=xy) summary(modyx) # Abhängigkeitsprüfung, Regressionsparameter Call: lm(formula = y ~ x, data = xy) Residuals: Min 1Q Median -4.599 -2.035 -0.025 3Q 1.656 Max 6.128 Coefficients: Estimate Std. Error t value Pr(>|t|) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 74 (Intercept) 34.120 16.498 2.07 0.0591 . x 0.475 0.117 4.08 0.0013 ** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.22 on 13 degrees of freedom Multiple R-squared: 0.561, Adjusted R-squared: 0.527 F-statistic: 16.6 on 1 and 13 DF, p-value: 0.00131 > paryx <- coefficients(modyx); paryx # Regressionsparameter (Intercept) x 34.1195 0.4752 Grafik: Streudiagramm, Regressionsgerade, 95-Konfidenzband > > > > # b) Bestimmung von SQE, MQE, B n <- length(x); vary <- var(y); rxy <- cor(x, y) SQE <- (n-1)*vary*(1-rxy^2); MQE <- SQE/(n-2); B <- rxy^2 print(cbind(n, vary, rxy, SQE, MQE, B)) n vary rxy SQE MQE B [1,] 15 21.92 0.749 134.8 10.37 0.5609 > # c) 95%-Konfidenzintervalle für den Anstieg und die Zielvariablenmittel > confint(modyx, level=0.95) # 95%-Konfidenzintervalle fuer Parameter 2.5 % 97.5 % (Intercept) -1.5213 69.7603 x 0.2233 0.7271 > tabpredict <- predict(modyx, xy , level=0.95, interval="confidence") > data.frame(xy, tabpredict) x y fit lwr upr 6 129.0 92.0 95.42 91.84 99.00 4 130.0 94.0 95.90 92.53 99.26 9 131.0 102.5 96.37 93.22 99.53 1 135.0 99.0 98.27 95.88 100.67 W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 75 11 5 7 13 10 12 8 2 3 15 14 138.5 139.0 142.0 143.0 143.5 145.0 146.0 147.0 148.5 149.0 153.0 105.0 98.0 97.0 101.0 98.5 103.0 106.0 106.5 105.5 104.0 107.0 99.94 100.17 101.60 102.07 102.31 103.02 103.50 103.98 104.69 104.93 106.83 98.01 98.29 99.79 100.23 100.43 101.00 101.35 101.68 102.14 102.28 103.38 101.87 102.06 103.40 103.92 104.19 105.05 105.65 106.27 107.24 107.57 110.28 Lernziel 7.5: Die Parameter der Regression von Y auf X im Modell mit zufallsgestörter linearer Regressionsfunktion (Modell B) schätzen und die Abhängigkeitsprüfung durchführen können. Ablaufschema: • Beobachtungsdaten: wie beim Modell A • Modell (Modell B): Y ( x) = µY ( x) + ε mit µY ( x) = β 0 + β1 x, ε ~ N (0, σ ε2 ) • Parameterschätzung und Abhängigkeitsprüfung: o Prinzip (Kleinste Quadrat – Schätzung): o Formeln: n ( Q( βˆ 0 , βˆ1 ) = ∑ yi − βˆ 0 − βˆ1 xi i =1 ) 2 = min! s sY → βˆ1 = b1 = XY = r , βˆ 0 = b0 = y − b1 x , XY 2 sX sX 2 SQE = Q(b0, b1 ) = (n − 1)sY2 (1 − rXY ), MQE = W. Timischl: AngStat_Bioengineering_II.doc SQE n−2 06.01.2014 76 o Konfidenzintervalle und Abhängigkeitsprüfung: wie bei Modell A Beispiel 7.5: Um herauszufinden, wie die Entwicklungsdauer Y des Bachflohkrebses Gammarus fossarum von der Wassertemperatur X abhängt, wurde ein Laboratoriumsexperiment mit vorgegebenen Temperaturwerten durchgeführt. Die Versuchsergebnisse sind: Es soll im Rahmen einer Regressionsanalyse auf 5%igem Signifikanzniveau geprüft werden, ob die mittlere Entwicklungsdauer linear von der Temperatur abhängt. Ferner sind die Regressionsparameter zu schätzen, die Regressionsgerade mit dem Streudiagramm darzustellen und für den Anstieg ein 95%iges Konfidenzintervall anzugeben. Lösung mit R: > > > > + > > > > # # x y Beispiel 7.5 (Zufallsgestörte lineare Abhängigkeit) Dateneingabe, univariate Statistiken <- c(rep(16, 5), rep(17, 3), rep(18, 3), rep(19, 4), rep(20, 5)) <- c(22, 20, 19, 21, 21, 19, 20, 19, 18, 18, 17, 17, 15, 16, 17, 14, 14, 14, 15, 13) options(digits=4) n <- length(x); mwx <- mean(x); mwy <- mean(y) sx <- sd(x); sy <- sd(y) print(cbind(n, mwx, sx)); print(cbind(n, mwy, sy)) n mwx sx [1,] 20 18.05 1.572 n mwy sy [1,] 20 17.45 2.685 > # bivariate Statistiken > s_xy <- cov(x, y) # Kovarianz > r_xy <- cor(x, y, method="pearson") # Produktmoment(=Pearson)korrelation > print(cbind(s_xy, r_xy)) s_xy r_xy [1,] -4.024 -0.9534 > # Abhängigkeitsprüfung > cor.test(x, y, method="pearson", alternative="two.sided", conf.level=0.95) Pearson's product-moment correlation data: x and y t = -13.41, df = 18, p-value = 8.295e-11 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.9817 -0.8837 sample estimates: cor -0.9534 > # Schätzung der Regressionsparameter, Fehlervarianz W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 77 > b1 <- s_xy/sx^2; b0 <- mwy-b1*mwx > print(cbind(b1, b0)) b1 b0 [1,] -1.628 46.84 > # Abhängigkeitsprüfung (Berechnung des P-Wertes) > tgs <- r_xy*sqrt(n-2)/sqrt(1-r_xy^2) > P <- 2*pt(-abs(tgs), n-2); q <- qt(0.975, n-2) > print(cbind(tgs, P, q)) tgs P q [1,] -13.41 8.295e-11 2.101 > # Loesung mit Funktion lm > xy <- data.frame(x, y) > modyx <- lm(formula = y ~ x, data=xy) > summary(modyx) Call: lm(formula = y ~ x, data = xy) Residuals: Min 1Q Median -1.7881 -0.3389 -0.0314 3Q 0.5327 Max 1.2119 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 46.841 2.200 21.3 3.3e-14 *** x -1.628 0.121 -13.4 8.3e-11 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.832 on 18 degrees of freedom Multiple R-squared: 0.909, Adjusted R-squared: 0.904 F-statistic: 180 on 1 and 18 DF, p-value: 8.29e-11 14 16 y 18 20 22 > confint(modyx, level=0.95) # 95%-Konfidenzintervalle fuer Parameter 2.5 % 97.5 % (Intercept) 42.219 51.463 x -1.883 -1.373 > # Streudiagramm mit Regressionsgeraden > plot(x, y); abline(modyx) 16 17 18 19 20 x Gleichung der Regressionsgeraden: W. Timischl: AngStat_Bioengineering_II.doc yˆ = −1.628 x + 46.841 06.01.2014 78 Lernziel 7.6: Linearisierende Transformationen anwenden können, um nichtlineare Abhängigkeiten (allometrische, exponentielle bzw. gebrochen lineare) mit Hilfe von linearen Regressionsmodellen erfassen zu können. Linearisierende Transformationen: Nichtlineare Regressionsfunktion µY'(X') (Zielvariable Y', Einflussvariable X') lineare Regressionsfunktion Aus der Geradengleichung y = β0+β1 x durch logarithmische bzw. reziproke Skalentransformationen ableitbare nichtlineare Funktionstypen: Beispiel 7.6: Die folgende Tabelle enthält Angaben über die Länge X' (in mm) und Masse Y' (in mg) von 15 Exemplaren des Bachflohkrebses Gammarus fossarum. Es soll die Abhängigkeit der Masse von der Länge durch ein geeignetes Regressionsmodell dargestellt werden. Lösung mit R: > > > > > > > > > + + > # Beispiel 7.6 xs <- c(rep(7, 3), 8, rep(9, 3), 10, rep(11, 3), rep(12, 4)) ys <- c(5, 5, 6, 9, 11, 11, 13, 15, 18, 20, 21, 20, 22, 27, 27) options(digits=4) # Grafikparameter par(pin=c(6, 4), mai=c(0.8, 0.9, 0.2, 0.1)) par(cex.axis=1.3, cex.lab=1.3) # Streudiagramm mit Originalvariablen plot(xs, ys, type="p", col="black", xlab="Länge X' (in mm)", ylab="Masse Y' (in mg)", pch=18, frame.plot=F, xlim=c(7, 12), ylim=c(5, 27), lwd=2) # log/log-Transformation W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 79 > x <- log(xs); y <- log(ys) > daten <- data.frame(xs, ys, x, y); daten xs ys x y 1 7 5 1.946 1.609 2 7 5 1.946 1.609 3 7 6 1.946 1.792 4 8 9 2.079 2.197 5 9 11 2.197 2.398 6 9 11 2.197 2.398 7 9 13 2.197 2.565 8 10 15 2.303 2.708 9 11 18 2.398 2.890 10 11 20 2.398 2.996 11 11 21 2.398 3.045 12 12 20 2.485 2.996 13 12 22 2.485 3.091 14 12 27 2.485 3.296 15 12 27 2.485 3.296 > # univariate Statistiken > n <- length(x); mwx <- mean(x); mwy <- mean(y); sx <- sd(x); sy <- sd(y) > print(cbind(n, mwx, sx, mwy, sy)) n mwx sx mwy sy [1,] 15 2.263 0.2073 2.592 0.5779 > # lineare Regression mit lograithmierten Variablen > modyx <- lm(y ~ x); summary(modyx) Call: lm(formula = y ~ x) Residuals: Min 1Q -0.20537 -0.09106 Median 0.00704 3Q 0.08841 Max 0.15294 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -3.615 0.316 -11.4 3.7e-08 *** x 2.743 0.139 19.7 4.5e-11 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.108 on 13 degrees of freedom Multiple R-squared: 0.968, Adjusted R-squared: 0.965 F-statistic: 389 on 1 and 13 DF, p-value: 4.54e-11 > paryx <- coefficients(modyx); b0 <- paryx[[1]]; b1 <- paryx[[2]] > b0s <- exp(b0); b0s; # Rücktransformation [1] 0.02692 > curve(b0s*x^b1, lty=1, lwd=2, ad=T) > segments(9.4, b0s*9.4^b1, 9.8, b0s*9.4^b1-0.8) > text(9.4, b0s*9.4^b1-1.5, expression("Allometrisches Modell"), > + pos=4, cex=1.3) > # lineare Regression mit Originalvariablen > modysxs <- lm(ys ~ xs); summary(modysxs) Call: lm(formula = ys ~ xs) Residuals: Min 1Q Median -3.562 -1.341 0.140 3Q 0.899 Max 3.438 Coefficients: W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 80 Estimate Std. Error t value Pr(>|t|) (Intercept) -21.323 2.708 -7.87 2.7e-06 *** xs 3.740 0.271 13.78 3.9e-09 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.97 on 13 degrees of freedom Multiple R-squared: 0.936, Adjusted R-squared: 0.931 F-statistic: 190 on 1 and 13 DF, p-value: 3.92e-09 Lineares Modell 15 Masse Y' (in mg) 20 25 > parysxs <- coefficients(modysxs) > bb0 <- parysxs[[1]]; bb1 <- parysxs[[2]] > print(cbind(bb0, bb1)) bb0 bb1 [1,] -21.32 3.74 > curve(bb0+bb1*x, lty=2, lwd=2, ad=T) > segments(9.77, bb0+9.77*bb1, 9.4, bb0+9.77*bb1+0.8) > text(9.6, bb0+9.77*bb1+1.6, expression("Lineares Modell"), > + pos=2, cex=1.3) 5 10 Allometrisches Modell 7 8 9 10 11 12 Länge X' (in mm) Regressionsfunktion (allometrisches Modell mit Orignialvariablen): y ′ = 0.02692 x ′ 2.743 Lernziel 7.7: Regressionsgeraden durch den Nullpunkt bestimmen können. Ablaufschema: • Beobachtungsdaten: wie beim Modell A • Modell (Modell C): Wenn von der Regressionsgeraden auf Grund sachlogischer W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 81 Überlegungen verlangt wird, dass sie durch einen festen Punkt P=(x0,y0) der Merkmalsebene verläuft. Ohne Beschränkung der Allgemeinheit kann P im Nullpunkt des Koordinatensystems liegend angenommen, also x0=y0=0 vorausgesetzt werden. Zur Erfüllung der Forderung nach einer durch den Nullpunkt verlaufenden Regressionsgeraden macht man den Modellansatz: Y ( x) = µY ( x) + ε mit µY ( x) = β1 x, ε ≈ N (0, σ ε2 ) • Parameterschätzung und Abhängigkeitsprüfung: 2 o Schätzwerte für die Modellparameter β 1 und σ ε : n β̂1 = b1 = n ∑x y ∑x , 2 i i i i =1 i =1 SQE MQE= mit SQE = n −1 o n ∑ i =1 yi2 − n xi yi ∑ i =1 2 n ∑ xi2 i =1 (1-α)-Konfidenzintervall für den Anstieg: b1 ± t n −1,1−α / 2 SE (b1 ) = b1 ± t n −1,1−α / 2 MQE n ∑x 2 i i =1 H0: β1 = 0 auf dem Testniveau α ablehnen, wenn das (1-α)Konfidenzintervall für β1 den Wert 0 nicht enthält. Beispiel 7.7: Es sei C die Plasmakonzentration eines Wirkstoffes und c0 der Anfangswert. Die Abnahme der auf den Anfangswert bezogenen Konzentration Y'=C/c0 in Abhängigkeit von der Zeit X (in h) ist durch folgende Daten dokumentiert: X : Y‘: 1, 2, 3, 4, 5, 6, 7, 8 0.72, 0.29, 0.16, 0.11, 0.075, 0.046, 0.025, 0.014 Offensichtlich muss Y'(0)=1 gelten. Unter der (auch durch das Streudiagramm nahegelegten) Annahme, dass Y' im Mittel nach dem Exponentialgesetz µY'(x) = exp(β1 x) abnimmt, bestimme man einen Schätzwert (samt 95%igem Konfidenzintervall) für β1. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 82 Lösung mit R: > > > > > > > > > > > + + > > > > > > > > > > > # Beispiel 7.7 (Regressionsgerade durch den Nullpunkt) x <- seq(from=1, to=8, by=1) ys <- c(0.72, 0.29, 0.16, 0.11, 0.075, 0.046, 0.025, 0.014) options(digits=4) # Grafikparameter par(mfrow=c(2, 1)) par(pin=c(6, 4), mai=c(0.8, 0.9, 0.2, 0.1)) par(cex.axis=1.3, cex.lab=1.3) n <- length(x) # Streudiagramm mit Originalvariablen plot(x, ys, type="p", col="black", xlab="Zeit X (in h)", ylab=expression("Y' = C/"*c[0]), pch=18, frame.plot=F, xlim=c(0, 8), ylim=c(0, 1.1), lwd=2) text(2.1, 0.4, expression(hat(y)*"' = "*e^{-0.532*x}), pos=4, cex=1.3) points(0, 1, pch=3, lwd=2, cex=1.3) text(0.1,1, expression("(0,1)"), pos=4, cex=1.2) # # log-Transformation y <- log(ys); xy <- x*y daten <- data.frame(x, ys, y, xy) # Schätzung des Anstiegs sumxy <- sum(xy); sumx2 <- sum(x^2); sumy2 <- sum(y^2) b1 <- sumxy/sumx2 print(cbind(b1, sumx2, sumy2, sumxy), digits=6) b1 sumx2 sumy2 sumxy [1,] -0.532004 204 57.8907 -108.529 > curve(exp(b1*x), lty=1, lwd=2, ad=T) > # Bestimmung von SQE und MQE > SQE <- sumy2-sumxy^2/sumx2; MQE <- SQE/(n-1) > print(cbind(SQE, MQE), digits=5) SQE MQE [1,] 0.1529 0.021843 > # Bestimmtheitsmaß > B <- 1-SQE/sumy2; B [1] 0.9974 > # 95%-Konfidenzintervall für den Anstieg > q <- qt(0.975, n-1); seb1 <- sqrt(MQE/sumx2) > ug <- b1-q*seb1; og <- b1+q*seb1 > print(cbind(q, b1, seb1, ug, og)) q b1 seb1 ug og [1,] 2.365 -0.532 0.01035 -0.5565 -0.5075 > # Lösung mit R-Funktion lm() > mod <- lm(y ~ 0+x) > ergebnis <- summary(mod); ergebnis Call: lm(formula = y ~ 0 + x) Residuals: Min 1Q -0.2366 -0.1029 Median 0.0112 3Q 0.0805 Max 0.2035 Coefficients: Estimate Std. Error t value Pr(>|t|) x -0.5320 0.0103 -51.4 2.8e-10 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.148 on 7 degrees of freedom Multiple R-squared: 0.997, Adjusted R-squared: 0.997 F-statistic: 2.64e+03 on 1 and 7 DF, p-value: 2.76e-10 W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 83 > B <- ergebnis$r.squared; B [1] 0.9974 > parx <- coefficients(mod); b1 <- parx[[1]]; b1 [1] -0.532 > confint(mod) 2.5 % 97.5 % x -0.5565 -0.5075 > # Streudiagramm mit logarithmiertem Y > plot(x, y, type="p", col="black", xlab="Zeit X (in h)", + ylab=expression("Y = ln(C/"*c[0]*")"), pch=18, frame.plot=F, + xlim=c(0, 8), ylim=c(-5, 0), lwd=2) > segments(0, 0, 8, b1*8, lty=1, lwd=2) > text(4, -2.5, expression(hat(y)*" = -0.532x"), pos=2, cex=1.3) > text(4, -3.3, expression("B = "*r[xy]^2*" = 99.74%"), pos=2, cex=1.3) > points(0, 0, pch=3, lwd=2, cex=1.3) > text(0.1,-0.15, expression("(0,0)"), pos=1, cex=1.3) 0.8 0.4 −0.532x y^' = e 0.0 Y' = C/c0 (0,1) 0 2 4 6 8 6 8 -2 (0,0) -3 y^ = -0.532x 2 B = rxy = 99.74% -5 -4 Y = ln(C/c0) -1 0 Zeit X (in h) 0 2 4 Zeit X (in h) Lernziel 7.8: Probenmesswerte mit Hilfe von linearen Kalibrationsfunktionen schätzen können. Ablaufschema: • Bestimmung der linearen Kalibrationsfunktion: Die Kalibrationsfunktion bestimmt man in der Regel so, dass man zu vorgegebenen Kalibrierproben (Werte xi von X) die entsprechenden W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 84 Werte yi der Hilfsgröße Y misst und eine lineare Regression von Y auf X durchführt (Modell B). Schätzwerte für die Modellparameter β1 , β 0 2 und σ E : βˆ1 = b1 = s XY sY = r , βˆ0 = b0 = y − b1 x , XY 2 sX sX σˆ E2 = MQE = SQE 2 mit SQE = (n − 1)sY2 (1 − rXY ) n−2 Gleichung der Kalibrationsfunktion: yˆ = f ( x, b0 , b1 ) = b0 + b1 x Voraussetzung: Anstieg b1 weicht auf dem vorgegebenen Testniveau α signifikant von Null ab, d.h. : TG = rXY n − 2 2 1 − rXY b12 ( n − 1) s X2 = > t n− 2,1−α / 2 MQE • Rückschluss von Y auf X: Bei bekannten Regressionsparametern β1 und β 0 sowie bekanntem Erwartungswert η von Y ergibt sich der gesuchte X-Wert ξ einfach aus der Regressionsgleichung: ξ = (η − β 0 ) / β1 . Im Allgemeinen kennt man weder die Regressionsparameter β1 und β 0 noch den Erwartungswert η. Naheliegend ist nun folgende Vorgangsweise: Wir bilden den Mittelwert y ′ aus m zum selben ξ gemessenen Y-Werten (im Extremfall kann m=1 sein), setzen y ′ an Stelle von ŷ in die Regressionsgleichung yˆ = y + b1 ( x − x ) ein und lösen nach x auf. Die so erhaltene Größe – wir bezeichnen sie mit x̂ - nehmen wir als Schätzfunktion für x. Es ist also xˆ = x + ( y ′ − y ) / b1 . • Berechnung eines Konfidenzintervalls für ξ : Unter der Voraussetzung g = t n2− 2 ,1−α / 2 / TG 2 < 0.1 erhält man das approximative (1-α)-Konfidenzintervall für den gesuchten X-Wert: UG = xˆ − t n − 2,1−α / 2 s xˆ und OG = xˆ + t n − 2,1−α / 2 s xˆ s xˆ = MQE | b1 | 2 1 1 ( y′ − y ) + + 2 m n b (n − 1) s 2 1 X W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 85 Man beachte, dass die Genauigkeit der Schätzung von der Anzahl n der Kalibrierproben und vom Umfang m der Y-Stichprobe abhängt. Für ein optimales Design der Kalibrationsfunktion wird man ferner 2 darauf achten, dass ( y ′ − y ) möglichst klein und s X möglichst groß ist. Beispiel 7.8: Zur Messung von Fe-Konzentrationen sollen die Peakhöhen von Atomabsorptionsspektrallinien herangezogen werden. Zwecks Kalibration des Messverfahrens wurden die Peakhöhen (Variable Y, in cm) in Abhängigkeit von einigen vorgegebenen Massenwerten (Variable X, in ng) bestimmt. Wir berechnen a) die lineare Kalibrationsfunktion im Rahmen einer linearen Regression von Y auf X und schätzen b) die Masse einer neuen Probe auf Grund einer gemessenen Peakhöhe von 0.055cm (α=5%). X: Y: 1.409, 3.013, 5.508, 8.100, 10.303 0.027, 0.040, 0.065, 0.084, 0.102 Lösung mit R: > > > > > > > > > # Beispiel 7.8 (Lineare Kalibration) masse <- c(1.409,3.013, 5.508, 8.100, 10.303) peak <- c(0.027, 0.040, 0.065, 0.084, 0.102) options(digits=4) # a) Abhängigkeitsprüfung und Parameterschätzung: x <- masse; y <- peak; n <- length(x) mwx <- mean(x); mwy <- mean(y) sx <- sd(x); sy <- sd(y) print(cbind(n, mwx, sx, mwy, sy)) n mwx sx mwy sy [1,] 5 5.667 3.627 0.0636 0.03078 > s_xy <- cov(x, y) # Kovarianz > r_xy <- cor(x, y, method="pearson"); B <- r_xy^2 > print(cbind(s_xy, r_xy, B)) s_xy r_xy B [1,] 0.1115 0.9987 0.9974 > # Schätzung der Regressionsparameter > b1 <- s_xy/sx^2; b0 <- mwy-b1*mwx > print(cbind(b1, b0)) b1 b0 [1,] 0.008476 0.01557 > SQE <- (n-1)*sy^2*(1-r_xy^2); MQE <- SQE/(n-2); > SQY <- (n-1)*sy^2; SQR <- (n-1)*sy^2*r_xy^2 > print(cbind(SQY, SQE, MQE, SQR)) SQY SQE MQE SQR [1,] 0.003789 9.879e-06 3.293e-06 0.003779 > # Abhängigkeitsprüfung mit t-Test > tgs <- r_xy*sqrt(n-2)/sqrt(1-r_xy^2) > P <- 2*pt(-abs(tgs), n-2); q <- qt(0.975, n-2) > print(cbind(tgs, P, q)) tgs P q [1,] 33.88 5.654e-05 3.182 > > # Lösung mit R-Funktion lm() > daten <- data.frame(masse, peak) > modell <- lm(formula=peak~masse, data=daten) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 86 > ergebnis <- summary(modell) > ergebnis$coefficients Estimate Std. Error t value Pr(>|t|) (Intercept) 0.015573 0.0016335 9.533 2.448e-03 masse 0.008476 0.0002502 33.877 5.654e-05 > b0 <- ergebnis$coefficients[1,1]; b0 [1] 0.01557 > b1 <- ergebnis$coefficients[2,1]; b1 [1] 0.008476 > rxy <- cor(masse, peak); B <- rxy^2 > print(cbind(rxy, B)) rxy B [1,] 0.9987 0.9974 > > # b) Schätzung der Probenmasse zur gegebenen Peakhöhe > peakhoehe <- 0.055; alpha <- 0.05 > masse_erwartet <- (peakhoehe-b0)/b1 > sigma <- ergebnis$sigma > mw_peak <- mean(peak) > var_masse <- var(masse) > SE_masse_erwartet <- sigma/abs(b1)*sqrt(1+1/5+ + (peakhoehe-mw_peak)^2/b1^2/4/var_masse) > t_quantil <- qt(1-alpha/2, 3) > UG <- masse_erwartet - t_quantil*SE_masse_erwartet > OG <- masse_erwartet + t_quantil*SE_masse_erwartet > print(cbind(peakhoehe, masse_erwartet, SE_masse_erwartet, UG, OG)) peakhoehe masse_erwartet SE_masse_erwartet UG OG [1,] 0.055 4.652 0.2364 3.899 5.404 > # Überprüfung der Voraussetzung > tgs <- cor(masse, peak)*sqrt(n-2)/sqrt(1-cor(masse, peak)^2); tgs [1] 33.88 > g <- t_quantil^2/tgs^2; g # muss < 0.1 sein! [1] 0.008825 Übungsbeispiele zur Korrelation und Regression mit metrischen Variablen 1. An bestimmten von sechs verschiedenen Grasarten stammenden Chromosomen wurden die Gesamtlänge L sowie die Teillänge H des C-Band Heterochromatins gemessen (Angaben in µm; aus H.M. Thomas, Heredity, 46: 263-267, 1981). Man berechne und interpretiere die Produktmomentkorrelation rlh. (0.78, TeilGanzheitskorr.) L H 77.00 6.00 79.00 5.00 72.50 5.00 65.50 3.00 56.50 2.75 57.25 4.25 2. An 15 Pflanzen (Biscutella laevigata) wurden u.a. die Sprosshöhe X und die Länge Y des untersten Stengelblattes gemessen (Angaben in mm). X 298 345 183 340 350 W. Timischl: AngStat_Bioengineering_II.doc Y 39 47 18 29 45 X 380 92 380 195 265 Y 50 33 70 20 52 X 232 90 200 350 620 Y 70 14 28 45 40 06.01.2014 87 a) Man berechne die Produktmomentkorrelation. b) Was ergibt sich, wenn man das Wertepaar X=620, Y=40 als ausreißerverdächtig weglässt? c) Man zeige an Hand der Stichprobe (ohne das letzte Wertepaar), dass die Korrelationskoeffizienten signifikant von null abweichen (α=5%). (rxy=0.439; ohne letztes Wertepaar: rxy= 0.605, rs=0.689; sign. ungleich null) 3. Man beschreibe die Abhängigkeit der Variablen Y von der Variablen X durch ein lineares Regressionsmodell. Besteht überhaupt eine signifikante Abhängigkeit (α=5%)? Wie groß ist die zu erwartende Änderung ∆ von Y, wenn X um 100 Einheiten zunimmt? Mittels einer Regression von X auf Y berechne man zusätzlich auch die zu erwartende Änderung ∆' von X bei Variation von Y um ∆ Einheiten. (b1=0.1058 sign. ungleich null, b0=12.04; ∆= 10.58, ∆'=36.62) X 298 345 183 340 350 Y 39 47 18 29 45 X 380 92 380 195 265 Y 50 33 70 20 52 X 232 90 200 350 Y 70 14 28 45 4. Man beschreibe die Abnahme der Säuglingssterblichkeit Y (Anzahl der gestorbenen Säuglinge auf 1000 Lebendgeborene) in Österreich von 1977 bis 1987 durch ein lineares Regressionsmodell. Wie groß ist die durchschnittliche Abnahme der Säuglingssterblichkeit pro Jahr innerhalb des angegebenen Beobachtungszeitraumes? Gibt es eine signifikante Änderung der Säuglingssterblichkeit mit der Zeit (α=5%)? (b1=-0.64 sign. ungleich null, b0=39.67) X 77 78 79 80 81 82 83 84 85 86 87 Y 16.8 15.0 14.7 14.3 12.7 12.8 11.9 11.4 11.2 10.3 9.8 5. Die nachfolgende Tabelle enthält die über das Jahr gemittelten Wassertemperaturen (in oC) der Donau. Man prüfe im Rahmen einer linearen Regression, ob sich im Beobachtungszeitraum die Temperatur signifikant verändert hat (α=5%). (b1=0.0588 n. sign. ungleich null) Jahr Temp. Jahr Temp. Jahr Temp. 80 9.4 86 10.7 92 11.5 81 10.6 87 9.6 93 10.6 82 10.5 88 10.6 94 11.5 83 10.0 89 10.4 95 9.9 84 9.9 90 10.9 85 10.1 91 10.2 6. Die Wirkung eines Präparates A auf den (systolischen) Blutdruck wird durch Blutdruckmessungen vor und nach Gabe von A ermittelt. Ergänzend zu diesen Zielvariablen wird das Gewicht (in kg) als Kovariable mit erfasst. Man prüfe, ob der Behandlungseffekt (= Differenz der Blutdruckwerte vor und nach Gabe des W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 88 Präparates) vom Körpergewicht linear abhängt (α=5%). (Abhängigkeitsprüfung n. sign.) Gewicht Blutdruck/vor Blutdruck/nach 67 170 148 68 190 155 78 175 137 94 189 143 89 180 145 82 178 140 7. In einer Stichprobe von 10 Frauen wurden der Blutdruck Y (mm Hg) und das Alter X registriert. Kann man mit einem linearen Regressionsmodell vom Alter auf den Blutdruck schließen (α=5%)? (b1=0.555 sign. ≠0, b0=102.1) Proband Alter 1 36 2 57 3 61 4 42 5 46 Blutdruck 115 122 139 127 125 Proband Alter 6 31 7 49 8 27 9 35 10 58 Blutdruck 120 135 118 125 140 8. Von einem Gebiet der Schweiz liegen aus 10 Wintern (Dezember bis März) die in der folgenden Tabelle angeführten Werte der Schneehöhe X (in cm) und der Lawinenabgänge Y vor. Man stelle die Abhängigkeit der Anzahl der Lawinenabgänge von der Schneehöhe durch ein lineares Regressionsmodell dar. (α=5%) X Y 80 300 590 170 302 515 609 843 221 616 31 44 78 65 75 38 51 104 37 91 9. Der Energieumsatz E (in kJ pro kg Körpergewicht und Stunde) wurde in Abhängigkeit von der Laufgeschwindigkeit v (in m/s) gemessen. Man stelle die Abhängigkeit des Energieumsatzes von der Laufgeschwindigkeit durch ein geeignetes Regressionsmodell dar und prüfe, ob im Rahmen des Modells überhaupt ein signifikanter Einfluss der Geschwindigkeit auf den Energieumsatz besteht (α=5%). (E = 0.514v3.3, b1=3.3 sign. ≠0) v E 3.1 27.6 4.2 50.6 5.0 62.7 5.4 147.1 6.6 356.3 10. Der durch die folgenden Daten belegte Zusammenhang zwischen der Länge L und der Fluggeschwindigkeit V von Tieren ist offensichtlich nichtlinear (aus T.A. McMahon und J.T. Bonner, Form und Leben, Heidelberg, Spektrum d. Wissenschaft, 1985). Wie man sich an Hand eines Streudiagramms klar machen kann, erreicht man mit einer doppelt-logarithmischen Transformation eine Linearisierung. Man beschreibe die Abhängigkeit der Fluggeschwindigkeit von der Länge durch eine geeignete Regressionsfunktion. Welcher Streuungsanteil von V ist durch L erklärbar? (V = 469.7·L0.3612, b1=0.3612 sign. ≠0 bei α = 5%) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 89 Art Fruchtfliege Pferdebremse Rubinkehlkolibri Wasserjungfer Gr. braune Fledermaus Grasmücke Gewöhnl. Mauersegler Fliegender Fisch Regenbrachvogel Spießente Bewik-Schwan Rosapelikan L in cm 0.2 1.3 8.1 8.5 11.0 11.0 17.0 34.0 41.0 56.0 120.0 160.0 V in cm/s 190 660 1120 1000 690 1200 2550 1560 2320 2280 1880 2280 11. Für die Wandermuschel Dreissena polymorpha pallas wurden (nach 5 Altersklassen aufgegliedert) Gewichts- und Längenmaße bestimmt und die in der nachstehenden Tabelle angegebenen Klassenmittelwerte L bzw. G berechnet. Man stelle die Abhängigkeit des Gewichts G von der Länge L durch eine allometrische Funktion dar und beurteile die Güte der Anpassung mit Hilfe des Bestimmtheitsmaßes. Vgl. Schulz, N.: Die Wandermuschel im Keutschacher See. Carinthia II, 170/90, 549 (1980). (G=0.000134 L2.976; 99.9%) Länge L/mm 7.56 11.92 16.40 Gewicht G/g 0.055 0.213 0.564 24.83 1.894 29.03 3.012 12. Die folgende Tabelle enthält die altersspezifischen Lebensraten Li (Anteil der Individuen, die das Alter ai erleben), die an einer Kohorte von ursprünglich 142 Individuen eines Rankenfüßers (Balanus glandula) festgestellt wurden (aus Ch.J. Krebs, Ecology, New York, Harper & Row, 1985; die Variable ai zählt das Lebensalter in Jahren). Für die Abnahme der Lebensrate mit dem Alter versuche man den exponentiellen Ansatz L=exp(ß1 a), der insbesondere auch der Forderung L0=1 genügt. Mittels einer einfach-logarithmischen Transformation erhält man daraus eine lineare Funktion, deren Parameter b1 zu bestimmen ist. Man bestimme ein 95%-Konfidenzintervall für den Parameter ß1. (L = exp(-0.557a), [-0.604, -0.511]) ai 1 2 3 4 5 6 7 8 Li 0.437 0.239 0.141 0.109 0.077 0.046 0.014 0.014 W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 90 8 EINFAKTORIELLE VARIANZANALYSE (ANOVA) Lernziel 8.1: Den Einfluss eines k-stufigen Faktors auf den Mittelwert einer auf jeder Faktorstufe mit gleicher Varianz normalverteilten Zielvariablen feststellen können. Die 1-faktorielle Varianzanalyse ermöglicht es, unter gewissen Voraussetzungen, die Mittelwerte von k >2 unabhängigen Stichproben im Rahmen der Globalhypothesen H0: „Alle k Mittelwerte sind gleich“ vs. H1: „Wenigstens 2 Mittelwerte sind verschieden“ vergleichen zu können. Ablaufschema: • Beobachtungsdaten und Modell: Variable Y unter k Versuchsbedingungen (= Faktorstufen) wiederholt (an nj Untersuchungseinheiten auf der Faktorstufe j) gemessen k unabhängige Stichproben Anordnung in Datentabelle (yij = Messwert von der i-ten Untersuchungseinheit unter der j -Versuchsbedingung): Jedes yij ist eine Realisation einer N(µj,σ2)-verteilten Zufallsvariablen Yij mit der Darstellung: Yij = µ j + ε ij = µ + τ j + ε ij Es bedeuten: − µj das Mittelwert auf der j-ten Faktorstufe (geschätzt durch y j ); − µ eine Konstante (geschätzt durch das aus allen Stichprobenwerten berechnete Gesamtmittel y ); W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 91 − τj eine den Behandlungseffekt auf der j-ten Stufe zum Ausdruck bringende Konstante (geschätzt durch y j − y und mit der Normierung n1τ1 + n2τ2 + ... + nkτk =0); − εij den Versuchsfehler (für alle Wiederholungen und Faktorstufen unabhängig N(0, σ2)-verteilt); Schätzung der Fehlervarianz σ2 durch: SQE MQE = N −k k mit N= ∑ k n j und SQE = j =1 ∑ ( n j − 1) s 2j j =1 • Hypothesen und Testgröße: Globaltest: H0: µ1 = µ2 = ... = µk vs. H1: wenigstens zwei der µj unterscheiden sich MQA TG s = MQE mit SQA MQF = , SQA = k −1 k ∑ n (y j j −y ) 2 j =1 TGs = Realisierung einer (bei Gültigkeit von H0) F-verteilten Zufallsvariablenmit (Zählerfreiheitsgrad f1=k-1, Nennerfreiheitsgrad f2=N-k). Zusammenfassung der relevanten Rechengrößen in der ANOVA-Tafel: SQY = (n1-1)s12+(n2-1)s22+...+(n2-1)s22 • Entscheidung mit dem P-Wert17: P < α ⇒ H0 ablehnen; dabei ist P=1-F(TGs) mit F als Verteilungsfunktion der F-Verteilung mit f1=k-1, f2=N-k. • Entscheidung mit dem Ablehnungsbereich: H0 wird abgelehnt, wenn TGs > Fk-1,N-k,1-α. 17 In R kann die ANOVA-Tafel und der P-Wert des F-Tests zum globalen Vergleich der Mittelwerte mit der Anweisung aov() berechnet werden. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 92 Fk-1,N-k,1-α bezeichnet das 1-α - Quantil der F-Verteilung mit den Freiheitsgraden f1=k-1, f2=N-k. Beispiel 8.1a (ANOVA: Globaltest): An vier verschiedenen Stellen eines Gewässers wurden die in der folgenden Tabelle angeschriebenen Werte der Phosphatkonzentration Y (in mg/l) gemessen. Man prüfe auf 5%igem Testniveau, ob die mittlere Phosphatkonzentration von der Messstelle abhängt. Lösung mit R: > > > + + + > > # Beispiel 8.1a (ANOVA: Globaltest) options(digits=5) y <- c(1.20, 0.75, 1.15, 0.80, 0.90, 1.00, 0.85, 1.45, 1.25, 1.10, 1.45, 1.60, 1.35, 1.50, 1.70, 1.30, 1.20, 1.35, 1.50, 1.00) # Messmerkmal stelle <- rep((1:4), each=5); A <- factor(stelle) # Messstelle daten <- data.frame(y, A); daten y A 1 1.20 1 2 0.75 1 3 1.15 1 4 0.80 1 5 0.90 1 6 1.00 2 7 0.85 2 8 1.45 2 9 1.25 2 10 1.10 2 11 1.45 3 12 1.60 3 13 1.35 3 14 1.50 3 15 1.70 3 16 1.30 4 17 1.20 4 18 1.35 4 19 1.50 4 20 1.00 4 > k <- 4; N <- length(y) > mw <- mean(y); mw # Gesamtmittel W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 93 [1] 1.22 > nj <- aggregate(daten[,1], list(A), FUN=length); nj[,2] [1] 5 5 5 5 > mwj <- aggregate(daten[,1], list(A), FUN=mean); mwj[,2] [1] 0.96 1.13 1.52 1.27 > varj <- aggregate(daten[,1], list(A), FUN=var); varj[,2] [1] 0.04175 0.05325 0.01825 0.03450 > tauj <- mwj[,2]-mw; tauj [1] -0.26 -0.09 0.30 0.05 > SQE <- sum((nj[,2]-1)*varj[,2]); MQE <- SQE/(N-k) > print(cbind(SQE, MQE)) SQE MQE [1,] 0.591 0.036937 > > > > # Globaltest H0: "alle Mittelwerte gleich" vs. H1: "... ungleich" # direkte Berechnung des P-Werts SQY <- (N-1)*var(y); SQA <- SQY-SQE; MQA <- SQA/(k-1) print(cbind(SQY, SQA, MQA), digits=6) SQY SQA MQA [1,] 1.432 0.841 0.280333 > tgs <- MQA/MQE; q <- qf(0.95, k-1, N-k); P <- 1-pf(tgs, k-1, N-k) > print(cbind(tgs, q, P)) tgs q P [1,] 7.5894 3.2389 0.0022348 > # Loesung mit R-Funktion aov(): > mod <- aov(formula=y ~ A, data=daten) > summary(mod) # erzeugt ANOVA-Tafel Df Sum Sq Mean Sq F value Pr(>F) A 3 0.841 0.2803 7.59 0.0022 ** Residuals 16 0.591 0.0369 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 > mod$fitted.values # erzeugt 1 2 3 4 5 6 0.96 0.96 0.96 0.96 0.96 1.13 16 17 18 19 20 1.27 1.27 1.27 1.27 1.27 > mod$residuals # erzeugt die 1 2 3 4 5 0.24 -0.21 0.19 -0.16 -0.06 11 12 13 14 15 -0.07 0.08 -0.17 -0.02 0.18 die Modellkomponente tauj 7 8 9 10 11 12 13 14 15 1.13 1.13 1.13 1.13 1.52 1.52 1.52 1.52 1.52 Residuen 6 7 -0.13 -0.28 16 17 0.03 -0.07 8 0.32 18 0.08 9 10 0.12 -0.03 19 20 0.23 -0.27 Testentscheidung: P = 0.22% H0 (Übereinstimmung der Stufenmittelwerte) ablehnen (d.h. Konzentration hängt von der Messstelle ab). Anmerkung: Es ist zweckmäßig, die Abhängigkeit der Zielvariablen Y von der Faktorvariablen grafisch zu veranschaulichen (Boxplot, Mittelwertdiagramm). Beispiel 8.1b (ANOVA: Boxplot, Mittelwertdiagramm): > # Beispiel b.1b (Fortsetzung von Beispiel 1) > # Grafische Darstellung der Abhängigkeit vom Faktor durch Boxplot > par(cex.axis=1.3, cex.lab=1.3) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 94 > boxplot(y ~ A, xlab = "Messstellen", ylab = "Y (Phosphatkonz.)", + main="Boxplot: Abhängigkeit der Zielvariablen vom Faktor") 1.4 1.2 0.8 1.0 Y (Phosphatkonz.) 1.6 Boxplot: Abhängigkeit der Zielvariablen vom Faktor 1 2 3 4 Messstellen > # Mittelwertdiagramm mit 95%-Konfidenzintervallen > library(gplots) > dj <- qt(0.975, nj[,2]-1)*sqrt(varj[,2]/nj[,2]); dj # Länge der 95%-CI [1] 0.25371 0.28653 0.16774 0.23063 > plotmeans(y ~ A, xlab="Faktor A (Messstellen)", + ylab="Y (Phosphatkonz.)", pch=3, + n.label=T, lwd=1, lty=1, cex=1.3, barcol="black", barwidth=2, + main="Mittelwertdiagramm mit 95%-CI") 1.4 1.2 1.0 0.8 Y (Phosphatkonz.) 1.6 Mittelwertdiagramm mit 95%-CI n=5 n=5 n=5 n=5 1 2 3 4 Faktor A (Messstellen) W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 95 Lernziel 8.2: Die Voraussetzungen des Modells der einfaktoriellen ANOVA überpüfen können. • Die Zielvariable ist auf jeder Faktorstufe normalverteilt. Die 1-faktorielle ANOVA setzt voraus, dass die Fehlergrößen εij voneinander unabhängig variierende und N(0, σ2)-verteilte Zufallsvariable sind. Es empfiehlt sich, die Variation der Fehlergrößen εij visuell an Hand eines mit den Residuen erstellten Normal-QQPlots zu überprüfen: Beispiel 8.2a (ANOVA: Residualanalyse mit dem Normal-QQ-PLot): > > > + + > # Beispiel 8.2a (Fortsetzung von Beispiel 8.1) # Überprüfung der Residuen auf Normalverteilung (Normal-QQ-Plot) qqnorm(mod$residuals, main="Normal-QQ-Plot mit den Residuen", xlab = "Quantile der N(0, 1) - Verteilung", ylab = expression("Residuen "*e[i]), pch=18, frame.plot=F) qqline(mod$residuals, lwd=2) 0.1 0.0 -0.3 -0.2 -0.1 Residuen ei 0.2 0.3 Normal-QQ-Plot mit den Residuen -2 -1 0 1 2 Quantile der N(0, 1) - Verteilung • Der Levene-Test zur Prüfung auf inhomogene Varianzen. Diese Voraussetzung einer N(0, σ2)-verteilten Fehlergröße bedeutet im Besonderen, dass die Normalverteilungen auf jeder Faktorstufe dieselbe Fehlervarianz aufweisen (Varianzhomogenität). Ablaufschema: − Beobachtungsdaten und Modell: wie bei der 1-faktoriellen ANOVA W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 96 − Hypothesen und Testgröße: H0: σ12 = σ22 = ... = σk2 vs. H1: wenigstens zwei der σj2 unterscheiden sich Beobachtungen Yij auf der j-ten Faktorstufe werden durch die Beträge zij=|eij| der Residuen eij = y ij − y j ersetzt modifizierte Datentabelle Versuchsbedingung (Faktorstufe) ... 1 2 ... j k Wiederholungen z11 z12 ... z1j ... z1k z21 z22 ... z2j ... z2k ... ... ... ... ... ... zn1,1 zn2,2 ... znj,j ... znk,k Anzahl n2 ... nj ... nk n1 z-Mittelwerte ... z j ... z1 z2 zk sz12 z-Varianzen sz22 ... szj2 ... szk2 Wenn Varianzhomogenität vorliegt, stimmen die Mittelwerte der zStichproben bis auf zufallsbedingte Abweichungen überein. Prüfung der Abweichungen im Rahmen einer einfaktoriellen ANOVA mit: TG s ( z ) = MQF ( z ) mit MQE ( z ) 1 MQE ( z ) = N −k k ∑ (n j ) −1 j =1 s zj2 1 und MQF = k −1 k ∑ n (z j j −z ) 2 j =1 ( z ist das aus allen z-Werten berechnete Gesamtmittel.) − Entscheidung mit dem P-Wert18: P < α ⇒ H0 ablehnen; dabei ist P=1-F(TGs) mit F als Verteilungsfunktion der F-Verteilung mit f1=k-1, f2=N-k. − Entscheidung mit dem Ablehnungsbereich: H0 auf Testniveau α ablehnen, wenn TGs(z) > Fk-1,N-k,1-α. Beispiel 8.2b (ANOVA: Levene-Test): > # Beispiel 8.2b (Levene-Test) 18 Der P-Wert kann mit der R-Funktion leveneTest() im Paket „car“ berechnet bwerden. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 97 > > > + + + > > > > > > > > > # Fortsetzung der Beispiele 8.1a,b und 8.2a options(digits=5) y <- c(1.20, 0.75, 1.15, 0.80, 0.90, 1.00, 0.85, 1.45, 1.25, 1.10, 1.45, 1.60, 1.35, 1.50, 1.70, 1.30, 1.20, 1.35, 1.50, 1.00) # Messmerkmal stelle <- rep((1:4), each=5); A <- factor(stelle) # Messstelle daten <- data.frame(y, A) # Bestimmung der Residuen mody <- aov(y ~ A); eij <- residuals(mody) # Levene-Test # H0: "Stufenvarianzen stimmen überein" vs. "stimmen nicht überein" z <- abs(eij); datenz <- data.frame(z, A) # ANOVA mit absoluten Residuen modz <- aov(formula=z ~ A) > zz <- summary(modz); print(zz, digits=5) # erzeugt ANOVA-Tafel Df Sum Sq Mean Sq F value Pr(>F) A 3 0.01718 0.0057267 0.6469 0.5962 Residuals 16 0.14164 0.0088525 > > > > # Lösung mit R-Funktion leveneTest() library(car) resz <- leveneTest(y ~ A, data=daten, center=mean) print(resz, digits=5) Levene's Test for Homogeneity of Variance (center = mean) Df F value Pr(>F) group 3 0.6469 0.5962 16 Testentscheidung: P = 59.62% H0 (Übereinstimmung der Stufenvarianzen) kann nicht abgelehnt werden, d.h., die daten stehen nicht in Widerspruch zur Annahme der Varianzhomogenität. Lernziel 8.3: Nach signifikantem Ausgang des Globaltests der einfaktoriellen ANOVA die Mittelwertpaare mit voneinander verschiedenen Mittelwerten mit dem HSD-Test von Tukey feststellen können.19 Ausgangspunkt: Einfaktorielle Versuchsanlage mit k>2 Stufen und n Wiederholungen auf jeder Stufe (N = kn =Gesamtumfang aller Wiederholungen. Stufenmittelwerte: y j , MQE = Schätzwert für die Fehlervarianz σ2 (aus ANOVA-Tafel). Entscheidung mit Quantilen: Stufenmittelwerte yi und y j sind verschieden, wenn die Bedingung yi − y j > d HSD = Qk , f ,1−α MQE mit f = N − k n 19 HSD steht für „honestly significant different“ Den paarweisen Vergleich aller Mittelwerte mit dem HSD-Test kann man der R-Funktion TukeyHSD() ausführen. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 98 erfüllt ist.20 Mit diesem Entscheidungskriterium wird sicher gestellt, dass das Gesamt-Irrtumsrisiko für alle paarweisen Mittelwertvergleiche das vorgegebene Testniveau α nicht überschreitet. Die Größe Qk,f,1-α ist das (1-α)-Quantil der sogenannten Verteilung der studentisierten Spannweite Qk, N-k.21 Entscheidung mit dem P-Wert: Um die P-Werte zu berechnen, bestimmt man die Teststatistiken yi − y j TG s = MQE / n und damit P=1-F(TGs); hier ist F die Verteilungsfunktion der studentisierten Spannweite Qk, N-k. Die Gleichheit der Stufenmittelwerte wird abgelehnt, wenn P < α gilt. Beispiel 8.3 (HSD-Test): > # Beispiel 8.3 (HSD-Test) > # Fortsetzung der Beispiele 8.1a,b und 8.2a,b > options(digits=5) > y <- c(1.20, 0.75, 1.15, 0.80, 0.90, + 1.00, 0.85, 1.45, 1.25, 1.10, + 1.45, 1.60, 1.35, 1.50, 1.70, + 1.30, 1.20, 1.35, 1.50, 1.00) # Messmerkmal > stelle <- rep((1:4), each=5); A <- factor(stelle) # Messstelle > daten <- data.frame(y, A) > k <- 4; n <- 5; N <- n*k > my <- mean(y); my # Gesamtmittel [1] 1.22 > nj <- aggregate(daten[,1], list(A), FUN=length) > mj <- aggregate(daten[,1], list(A), FUN=mean) > varj <- aggregate(daten[,1], list(A), FUN=var) > SQE <- sum((nj[,2]-1)*varj[,2]); MQE <- SQE/(N-k) > # Bestimmung der kritischen Differenz > alpha <- 0.05; q <- qtukey(1-alpha, k, N-k) > dHSD <- q*sqrt(MQE/n) > print(cbind(MQE, q, dHSD)) MQE q dHSD [1,] 0.036937 4.0461 0.34776 > # CI, P-Werte > dif21 <- abs(mj[2,2]-mj[1,2]) > dif31 <- abs(mj[3,2]-mj[1,2]) > dif41 <- abs(mj[4,2]-mj[1,2]) > dif32 <- abs(mj[3,2]-mj[2,2]) > dif42 <- abs(mj[4,2]-mj[2,2]) > dif43 <- abs(mj[4,2]-mj[3,2]) > dif <- c(dif21, dif31, dif41, dif32, dif42, dif43) > u <- dif-dHSD; o <- dif+dHSD > tgs <- abs(dif)/sqrt(MQE/n); P <- 1-ptukey(tgs, k, N-k) > print(cbind(dif, u, o, tgs, P)) dif u o tgs P 20 Wenn die Umfänge nj der Stichproben auf den Faktorstufen nicht übereinstimmen, ist n durch 2ni nj/(ni+nj) zu ersetzen. 21 Die Quantile und Werte der Verteilungsfunktion können in R mit der Funktion qtukey() bzw. ptukey() bestimmt werden. W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014 99 [1,] 0.17 -0.177764 0.51776 1.9779 0.5180096 [2,] 0.56 0.212236 0.90776 6.5154 0.0014952 [3,] 0.31 -0.037764 0.65776 3.6067 0.0894856 [4,] 0.39 0.042236 0.73776 4.5375 0.0253584 [5,] 0.14 -0.207764 0.48776 1.6288 0.6642091 [6,] 0.25 -0.097764 0.59776 2.9086 0.2091959 > > # Loesung mit der R-Funktion TukeyHSD() > comp <- TukeyHSD(aov(y ~ A)) > print(comp, digits=6) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = y ~ A) $A diff 2-1 0.17 3-1 0.56 4-1 0.31 3-2 0.39 4-2 0.14 4-3 -0.25 lwr -0.177764 0.212236 -0.037764 0.042236 -0.207764 -0.597764 upr 0.517764 0.907764 0.657764 0.737764 0.487764 0.097764 p adj 0.518010 0.001495 0.089486 0.025358 0.664209 0.209196 Entscheidung: Die Mittelwerte 1 und 2 sind vom Mittelwert 3 auf dem simultanen Testniveau 5% signifikant verschieden, da die entsprechenden P-Werte kleiner als 5% sind. Übungsbeispiele zur 1-faktoriellen ANOVA 13. Im Rahmen einer Studie über die Lebensgemeinschaft des Makrozoobenthos in der Donau wurden östlich von Wien je sechs Proben an fünf Entnahmestellen quer über die Donau mit einem Sedimentgreifer entnommen (Stelle 3 liegt in der Flussmitte, die Stellen 2 und 1 sowie 4 und 5 liegen in 60-m-Abständen in Richtung zum rechten bzw. linken Ufer). Die Auswertung der Proben ergab für die Großgruppe Diptera die in der folgenden Tabelle angeführten Besiedlungsdichten (Individuenanzahl pro m2). a) Man prüfe auf dem Testniveau α =5%, ob sich die Entnahmestellen global hinsichtlich der mittleren Individuenanzahl unterscheiden. (Globaltest ist signifikant. Hinweis: Die Originaldaten erfüllen die bei der 1-faktoriellen ANOVA vorausgesetzte Homogenität der Varianzen nicht; diese erreicht man durch Übergang zu transformierten Besiedlungsdichten, z.B. mit der 4. Wurzel aus den Besiedlungsdichten.) b) Welches Resultat ergibt sich aus einem multiplen Vergleich? Wiederholungen Stelle 1 5442 1763 3060 2259 647 649 W. Timischl: AngStat_Bioengineering_II.doc Besiedlungsdichte in m-2 Stelle 2 Stelle 3 Stelle 4 Stelle 5 497 135 434 7304 587 91 886 7087 15 107 347 557 478 22 550 1471 938 37 421 3982 1470 76 285 2365 06.01.2014 100 14. Man vergleiche die Ca-Konzentration Y (in mg/ml) zwischen drei Lösungen. Die Messwerte sind: 50, 39, 35, 51, 57, 66, 48 (Lösung 1), 66, 68, 67, 43, 71, 54, 65 (Lösung 2) und 42, 34, 43, 41, 44, 56, 33 (Lösung 3). a) Kann auf 5%igem Testniveau die Annahme gleicher Mittelwerte verworfen werden? b) Ist die Annahme gleicher Varianzen gerechtfertigt? c) Man erstelle ein Mittelwertdiagramm (mit den Stufenmittelwerten und den entsprechenden 95%-Konfidenzintervallen) sowie ein Normal-QQ-Plot mit allen Residuen. d) Welche Mittelwerte sind auf dem vorgegebenen SIgnifikanzniveau voneinander verschieden? 15. Die folgende Daten geben den Ertrag (in t/ha) einer Getreidesorte (ERTRAG) auf verschieden gedüngten Böden (A = unbehandelt = Kontrolle, B = Strohdüngung, C = Stroh- u. PO4-Düngung, D = Stroh-, PO4- u. Kalkdüngung). Auf jeder Faktorstufe liegen 10 Wiederholungen vor. a) Man prüfe, ob die Bodenbeschaffenheit einen Einfluss auf den Ertrag besitzt (α = 5%). b) Man vergleiche die Faktorstufen mit der Kontrolle (α = 5%). A 7,38 6,29 8,07 7,92 7,76 9,12 7,24 7,92 8,28 8,23 B 8,05 9,49 10,16 9,89 9,78 8,84 9,02 9,68 9,13 8,63 C 8,78 7,74 8,71 8,97 8,39 8,39 7,52 8,06 8,90 8,45 D 8,96 9,66 9,59 9,87 9,24 9,94 9,52 9,31 8,40 9,80 16. Eine Lebensmittelfirma vertreibt Konserven mit Wurstsalat. Um eine angemessene Haltbarkeit zu gewährleisten, muss dem Produkt ein Konservierungsmittel beigefügt werden. Drei verschiedene Subtanzen (Substanz A, B und C) kommen dafür in Betracht. Um zu prüfen, ob die Haltbarkeit ihres Produkts vom Konservierungsmittel abhängt, wurden die drei Substanzen in jeweils 8 Konserven beigegeben. Untenstehende Tabelle zeigt die Keimzahlen aus Proben der insgesamt 24 Konserven nach einwöchiger Lagerung. Keimzahl/ A Keimzahl/ B Keimzahl/C 17. 52 18. 46 25. 50 26. 60 33. 58 34. 49 19. 61 27. 55 35. 55 20. 58 28. 58 36. 61 21. 54 29. 59 37. 65 22. 53 30. 65 38. 68 23. 61 31. 54 39. 60 24. 58 32. 60 40. 59 a) Prüfen Sie für jede Faktorenstufe auf 5%igem Testniveau, ob die Daten in Widerspruch zur Normalverteilungsannahme stehen! b) Unterscheiden sich die drei Substanzen global hinsichtlich der mittleren Keimzahl? Beantworten Sie die Frage mittels eines geeigneten statistischen Testverfahrens (α = 5%)! W. Timischl: AngStat_Bioengineering_II.doc 06.01.2014