BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 4 MIT LÖSUNGEN AUFGABEN: 1. An bestimmten von sechs verschiedenen Grasarten stammenden Chromosomen wurden die Teillängen E und H des C-Band Euchromatins bzw. Heterochromatins gemessen (Angaben in m; aus H.M. Thomas, Heredity, 46: 263-267, 1981). Man berechne die Produktmomentkorrelation rEH. Ist die Produktmomentkorrelation signifikant von null verschieden? ( = 5%) E H 71,00 6,00 74,00 5,00 67,50 5,00 62,50 3,00 52,75 2,75 53,00 4,25 2. In einer Studie wurde untersucht, ob zwischen der Mortalität in der Perinatalperiode (Merkmal Y, Werte ja/nein) und dem Rauchen während der Schwangerschaft (Merkmal X, Werte ja/nein) ein Zusammenhang besteht. Zu diesem Zweck wurden Daten in einer Geburtenstation erhoben. Man berechne den Phi-Koeffizienten und das Odds-Ratio. Ist der Phi-Koeffizient auf 5%igen Testniveau von null verschieden? Mortalität Y ja nein (Spalten) Raucher X ja 246 8160 8406 (Zeilen) nein 510 18870 19380 264 10710 10974 3. Von einem Gebiet der Schweiz liegen aus 10 Wintern (Dezember bis März) die in der folgenden Tabelle angeführten Werte der Schneehöhe X (in cm) und der Lawinenabgänge Y vor. Man stelle die Abhängigkeit der Anzahl der Lawinenabgänge von der Schneehöhe durch ein lineares Regressionsmodell dar. (=5%) X Y 80 31 300 44 590 78 170 65 302 75 515 38 609 51 843 104 221 37 616 91 4. Der Energieumsatz E (in kJ pro kg Körpergewicht und Stunde) wurde in Abhängigkeit von der Laufgeschwindigkeit v (in m/s) gemessen. Man stelle die Abhängigkeit des Energieumsatzes von der Laufgeschwindigkeit durch ein geeignetes Regressionsmodell dar und prüfe, ob im Rahmen des Modells überhaupt ein signifikanter Einfluss der Geschwindigkeit auf den Energieumsatz besteht (=5%). Hinweis: Logarithmiert am den Energieumsatz und die Laufgeschwindigkeit ergibt sich im Streudiagramm eine Punkteverteilung mit einem linearen Trend. v E 68626212 3,1 27,6 4,2 50,6 5,0 5,4 6,6 62,7 147,1 356,3 1 BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 4 MIT LÖSUNGEN LÖSUNGEN MIT R Aufgabe 1 (Grundaufgabe 10) Präzisierung der Aufgabe: Die Aufgabe beinhaltet die rechnerische Bestimmung der Pearson-Korrelation rEH zwischen den Teillängen E und H sowie die Prüfung, ob der Korrelationskoeffizient auf dem Testniveau 5% signifikant von null verschieden ist, also eine Abhängigkeit zwischen den Teillängen besteht. Für die Interpretation und den Test ist nachzuweisen, dass die Verteilung von E und H nicht „wesentlich“ von der bivariaten Normalverteilung abweicht. Eine notwendige Voraussetzung hierfür ist, dass die univariaten Verteilungen von E und H mit der Normalverteilungsannahme verträglich sind. Lösungsansatz: Die Lösung umfasst zunächst eine univariate Datenbeschreibung und die Überprüfung der Normalverteilungsannahme für E und H; hierbei lautet die Alternativhypothese H1 jeweils: Die Grundgesamtheit ist nicht normalverteilt. Für den Abhängigkeitstest lautet die Alternativhypothese H1: Korrelationskoeffizient EH <> 0, die Nullhypothese H0: Korrelationskoeffizient EH = 0. Die Nullhypothese ist zu verwerfen, wenn der P-Wert kleiner als das vorgegebene Testniveau ist. Rechnerische Lösung: > E <- c(71, 74, 67.5, 62.5, 52.75, 53) > H <- c(6, 5, 5, 3, 2.75, 4.25) > options(digits=4) > # univariate Statistiken > n_E <- length(E) > n_H <- length(H) > m_E <- mean(E) > m_H <- mean(H) > s_E <- sd(E) > s_H <- sd(H) > print(cbind(n_E, m_E, s_E)) n_E m_E s_E [1,] 6 63.46 9.048 > print(cbind(n_H, m_H, s_H)) n_H m_H s_H [1,] 6 4.333 1.262 > # Überprüfung der Normalverteilung > shapiro.test(E) Shapiro-Wilk normality test data: E W = 0.8966, p-value = 0.3545 > shapiro.test(H) Shapiro-Wilk normality test data: H W = 0.9278, p-value = 0.563 > # Schätzwert für die Pearson-Korrelation > # Test auf Abweichung von Nullkorrelation > cor.test(E, H, alternative="two.sided") Pearson's product-moment correlation 68626212 2 BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 4 MIT LÖSUNGEN data: E and H t = 2.107, df = 4, p-value = 0.1028 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.2097 0.9674 sample estimates: cor 0.7253 Ergebnis: Die (univariate) Überprüfung der Normalverteilung ergibt auf Grund der P-Werte (0.3545 >=5% bzw. 0.563 >= 5%), dass die Daten nicht in Widerspruch zur jeweiligen Normalverteilungsannahme stehen. Da der P-Wert im Abhängigkeitstest >= 5% ist, kann die Nullhypothese (Korrelation zwischen E und H ist null) nicht abgelehnt werden; obwohl der Schätzwert der Pearsonkorrelation rEH=0,7253 deutlich von null abweicht, ergibt die Abhängigkeitsprüfung ein nichtsignifikantes Resultat! Aufgabe 2 (Grundaufgabe 11) Präzisierung der Aufgabe: Während in Aufgabe 1 der Zusammenhang zwischen zwei metrischen Variablen zu untersuchen war (der übliche Kennwert dafür ist die Pearson-Korrelation) geht es in Aufgabe 2 um den Zusammenhang zwischen zwei 2-stufig skalierten Variablen. Ein Maß zur Beschreibung des Zusammenhangs zwischen zwei 2-stufig skalierten Merkmalen ist der PHI-Koeffizient. Neben der numerischen Bestimmung des PHI-Koeffizienten ist zu untersuchen, ob dieser auf dem Testniveau 5% signifikant von null abweicht. Zusätzlich ist das sogenannte Odds-Ratio zu berechnen. Lösungsansatz: Die Prüfung, ob der PHI-Koeffizient signifikant von null abweicht, erfolgt mit dem Chiquadrat-Test; ist der ausgewiesene P-Wert kleiner als 5%, wird die Nullhypothese (keine Abhängigkeit, d.h. PHIKoeffizient=0) abgelehnt (signifikanter Testausgang). Im Rahmen des Tests wird u.a. auch die Chiquadratsumme (Goodness of Fit - Statistik) GF bestimmt, mit der der PHI-Koeffizient (= Quadratwurzel aus GF/n) bestimmt wird; hier ist n der Umfang der bivariaten Stichprobe. Das OddsRatio ist gleich dem Verhältnis der Chancen „Sterben:Überleben mit und ohne Risikofaktor (Rauchen)“, d.h. gleich dem Verhältnis (246:8160)/(264:10710). Rechnerische Lösung: > options(digits=4) > freq <- matrix(c(246, 8160, 264, 10710), nrow=2, ncol=2, byrow=F, + dimnames=list(Mortalität=c("ja", "nein"), Raucher=c("ja", "nein"))) > # Wiedergabe der Matrix der beobachteten Häufigkeiten > freq Raucher Mortalität ja nein ja 246 264 nein 8160 10710 > # Prüfung auf Abhängigkeit > # H1: Abhängigkeit vs. H0: keine Abhängigkeit > testergebnis <- chisq.test(freq, correct=TRUE) > testergebnis Pearson's Chi-squared test with Yates' continuity correction data: freq X-squared = 4.837, df = 1, p-value = 0.02785 68626212 3 BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 4 MIT LÖSUNGEN > # Bestimmung des PHI-Koeffizienten > summary(testergebnis) Length Class Mode statistic 1 -none- numeric parameter 1 -none- numeric p.value 1 -none- numeric method 1 -none- character data.name 1 -none- character observed 4 -none- numeric expected 4 -none- numeric residuals 4 -none- numeric > testergebnis[1] $statistic X-squared 4.837 > chi2sum <- testergebnis[[1]] # Auswahl des numerischen Elementes der Liste > chi2sum X-squared 4.837 > phi <- sqrt(chi2sum/sum(freq)) > phi X-squared 0.0158 > # Bestimmung des Odds-Ratio (Chancenverhältnis) > OR <- (freq[1,1]/freq[2,1])/(freq[1,2]/freq[2,2]) > OR [1] 1.223 Ergebnis: Die Prüfung auf Abhängigkeit (bzw. Abweichung des PHI-Koeffizienten von null) ist wegen p-value = 0.02785 < 0.05 signifikant, d.h. es gilt H1 (Die Mortalität ist vom Raucherverhalten abhängig). Der PHI-Koeffizient ist in der Ergebnisdarstellung des Chiquadrat-Tests (testergebnis) das erste Element, auf dessen numerischen Inhalt mit testergebnis[[1]] zugegriffen werden kann; es folgt für den PHIKoeffizienten der Wert 0,0158; für das Odds-Ratio ergibt sich 1.223 > 1, d.h. die Sterbechancen des Kindes einer rauchenden Mutter sind größer als jene einer nichtrauchenden. Aufgabe 3 (Grundaufgabe 12) Präzisierung der Aufgabe: Es ist die Anzahl Y der Lawinenabgänge in Abhängigkeit von der Schneehöhe X durch ein lineares Regressionsmodell darzustellen. Die Angabe der Regressionsgleichung ist nur dann sinnvoll, wenn nachgewiesen wurde, dass Y tatsächlich (linear) von X abhängt. Dies erfolgt so, indem gezeigt wird, dass die Pearson-Korrelation zwischen X und Y auf dem Testniveau 5% (angenommen) von null abweicht. Lösungsansatz: In einem ersten Schritt wird die Adäquatheit des linearen Modells zur Beschreibung der Abhängigkeit untersucht. Zu diesem Zwecke erstellt man ein Streudiagramm (X horizontal, Y vertikal). Folgen die Datenpunkte einem „linearen Trend“ ist das lineare Modell anwendbar. Es ist dabei zweckmäßig, die Regressionsgerade in das Streudiagramm einzuzeichnen. Bei der folgenden Abhängigkeitsprüfung lautet die Alternativhypothese H1: Y hängt von X (linear) ab, die Nullhypothese ist H0: Y hängt von X nicht ab (zumindest nicht linear). Bei signifikantem Testausgang (Abhängigkeit) wird die Gleichung der Regressionsgeraden angegeben. 68626212 4 BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 4 MIT LÖSUNGEN Rechnerische Lösung: 40 60 y 80 100 > options(digits=4) > x <- c(80, 300, 590, 170, 302, 515, 609, 843, 221, 616) > y <- c(31, 44, 78, 65, 75, 38, 51, 104, 37, 91) > daten <- data.frame(x, y) > daten x y 1 80 31 2 300 44 3 590 78 4 170 65 5 302 75 6 515 38 7 609 51 8 843 104 9 221 37 10 616 91 > # univariate Statistiken > n_X <- length(x) > n_Y <- length(y) > m_X <- mean(x) > m_Y <- mean(y) > s_X <- sd(x) > s_Y <- sd(y) > print(cbind(n_X, m_X, s_X)) n_X m_X s_X [1,] 10 424.6 244.2 > print(cbind(n_Y, m_Y, s_Y)) n_Y m_Y s_Y [1,] 10 61.4 25.04 > # Streudiagramm mit Regressionsgeraden > plot(x, y) > abline(lm(y~x)) 200 400 600 800 x > # Schätzung der Regressionsparameter einschl. Abhängigkeitsprüfung) > modell <- lm(formula=y~x, data=daten) > summary(modell) 68626212 5 BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 4 MIT LÖSUNGEN Call: lm(formula = y ~ x, data = daten) Residuals: Min 1Q Median 3Q Max -29.670 -9.899 -0.686 15.640 22.103 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 31.9522 12.9125 2.47 0.038 * x 0.0694 0.0267 2.60 0.032 * --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 19.6 on 8 degrees of freedom Multiple R-squared: 0.458, Adjusted R-squared: 0.39 F-statistic: 6.75 on 1 and 8 DF, p-value: 0.0317 Ergebnis: Aus dem Streudiagramm entnimmt man, dass die Datenpunkte durch eine Gerade ausgeglichen werden können. Die Abhängigkeitsprüfung ergibt den p-value = 0.0317 < 0.05; es folgt, dass H0 (keine lineare Abhängigkeit) abgelehnt werden kann, d.h. Y kann tatsächlich durch eine lineare Regressionsgleichung in Abhängigkeit von X dargestellt werden. Der Anstieg k der Regressionsgeraden ist 0.0694 (siehe unter Coefficients, bei x) und der y-Achsenabschnitt (Intercept) d = 31.9522; somit lautet die Regressionsgerade: y = kx + d = 0.0694x + 31.9522. Aufgabe 4 (Grundaufgabe 13) Präzisierung der Aufgabe: Es ist der Energieumsatz E in Abhängigkeit von der Laufgeschwindigkeit v durch ein geeignetes Regressionsmodell darzustellen. Man überzeugt sich durch ein Streudiagramm, dass sich mit den beobachteten Daten keine Punkteverteilung mit linearem Trend ergibt. Zum Zwecke der Linearisierung werden entsprechend dem Hinweis sowohl die E- als auch die v-Werte logarithmiert (man nehme z.B. natürliche Logarithmen). Wir bezeichnen die logarithmierten Variablen mit E’=ln(E) und v’=ln(v). Man überzeuge sich, dass das mit v’ und E’ gebildete Streudiagramm ein lineares Regressionsmodell zur Beschreibung der Abhängigkeit der Variablen E’ von v’ rechtfertigt. Die Angabe der Regressionsgleichung E’ = k v’ + d ist nur dann sinnvoll, wenn nachgewiesen wurde, dass E’ tatsächlich (linear) von v’ abhängt. Dies erfolgt, in dem gezeigt wird, dass die Pearson-Korrelation zwischen v’ und E’ auf dem Testniveau 5% (angenommen) von null abweicht. Lösungsansatz: Die Lösungsschritte sind: Erstellung eines Streudiagramms mit den beobachteten Daten und der Erkenntnis daraus, dass die Punkteverteilung keinen linearen Trend besitzt. Logarithmische Transformation der Variablen E und v in E’=ln(E) bzw. v’=ln(v) und Erstellen eines Streudiagramms mit den logarithmierten Messwerten (die Punkteverteilung sollte nun durch ein lineares Regressionsmodell darstellbar sein). Prüfung der (linearen) Abhängigkeit der Variablen E’ von v’. Die Alternativhypothese lautet H1: E’ hängt von v’ (linear) ab, die Nullhypothese ist H0: E’ hängt nicht von v’ ab (zumindest nicht linear). Bei signifikantem Testausgang (Abhängigkeit) wirddie Gleichung der Regressionsgeraden angegeben. 68626212 6 BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 4 MIT LÖSUNGEN 300 250 200 50 100 150 E > options(digits=4) > v <- c(3.1, 4.2, 5, 5.4, 6.6) > E <- c(27.6, 50.6, 62.7, 147.1, 356.3) > print(cbind(v, E)) v E [1,] 3.1 27.6 [2,] 4.2 50.6 [3,] 5.0 62.7 [4,] 5.4 147.1 [5,] 6.6 356.3 > # Überprüfung der Adäquatheit > # des linearen Modells > plot(v, E) > abline(lm(E ~ v)) 350 Rechnerische Lösung: 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 v 4.5 3.5 4.0 E_strich 5.0 5.5 > # Überprüfung der Wirkung der log/log-Transformation > plot(v_strich, E_strich) > abline(lm(E_strich ~ v_strich)) > # Abhängigkeitsprüfung & Parameterschätzung > daten <- data.frame(v_strich, E_strich) > daten v_strich E_strich 1 1.131 3.318 2 1.435 3.924 3 1.609 4.138 4 1.686 4.991 5 1.887 5.876 1.2 1.4 1.6 1.8 v_strich 68626212 7 BIOENG: Prüfung aus Angewandter Statistik II (WS) MUSTERBEISPIELE 4 MIT LÖSUNGEN > lm.energie <- lm(formula= E_strich ~ v_strich, data=daten) > summary(lm.energie) Call: lm(formula = E_strich ~ v_strich, data = daten) Residuals: 1 2 3 4 5 0.250 -0.146 -0.508 0.091 0.313 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.667 1.066 -0.63 0.576 v_strich 3.301 0.679 4.86 0.017 * --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.386 on 3 degrees of freedom Multiple R-squared: 0.887, Adjusted R-squared: 0.85 F-statistic: 23.7 on 1 and 3 DF, p-value: 0.0166 Ergebnis: Aus dem mit den E- und v-Werten gezeichneten Streudiagramm entnimmt man, dass die Datenpunkte nicht durch eine Gerade ausgeglichen werden können, es liegt eine eindeutig gekrümmte Anordnung der Datenpunkte vor. Nach Übergang zu den Variablen E’=ln(E) und v’=ln(v) erkennt man im (v’,E’)Diagramm, dass nunmehr den Datenpunkten eine Gerade angepasst werden kann. Die Abhängigkeitsprüfung ergibt den p-value = 0.0166 < 0.05; es folgt, dass H0 (keine lineare Abhängigkeit) abgelehnt werden kann, d.h. E’ kann tatsächlich durch eine lineare Regressionsgleichung in Abhängigkeit von v’ dargestellt werden. Der Anstieg k der Regressionsgeraden ist 3,301 (siehe unter Coefficients, bei v_strich) und der y-Achsenabschnitt (Intercept) d = -0,667; somit lautet die Regressionsgerade: E’ = kv’ + d = 3,301v’ – 0,667; setzt man hier die Originalvariablen ein, folgt lnE = 3,301lnv – 0,667, Potenzieren mit der Basis e ergibt schließlich E = e-0,667v3,301 = 0,513 v3,301. 68626212 8