W. Timischl: Angewandte Statistik KORRELATION UND REFRESSION 1 1. An bestimmten von sechs verschiedenen Grasarten stammenden Chromosomen wurden die Gesamtlänge L sowie die Teillänge H des Caus H.M. Thomas, Heredity, 46: 263-267, 1981). Man berechne und interpretiere die Produktmomentkorrelation rlh. Ist die Produktmomentkorrelation signifikant von null verschieden? ( = 5%) L H 77,00 6,00 79,00 5,00 72,50 5,00 65,50 3,00 56,50 2,75 57,25 4,25 Lösung mit EXCEL: L H 77 6 n= MW_L= MW_H= r_LH= 79 5 6 67,958 STD_L= 4,333 STD_H= 0,7759 72,5 5 65,5 3 56,5 2,75 57,25 4,25 9,760 1,262 H0: Produktmomentkorrelation = 0 H1: Produktmomentkorrelation <> 0 alpha = 5% TGs = 2,460 P-Wert = P(|TG < -|TGs| oder TG > |TGs|) = 0,0697 >> H0 nicht ablehnen! Lösung mit R: > l <- c(77, 79, 72.5, 65.5, 56.5, 57.25) > h <- c(6, 5, 5, 3, 2.75, 4.25) > summary(l) Min. 1st Qu. Median Mean 3rd Qu. Max. 56.50 59.31 69.00 67.96 75.88 79.00 > std_l <- sd(l) > std_l [1] 9.760144 > summary(h) Min. 1st Qu. Median Mean 3rd Qu. Max. 2.750 3.312 4.625 4.333 5.000 6.000 > std_h <- sd(h) > cor.test(l, h, method="pearson", alternative="two.sided") Pearson's product-moment correlation data: l and h t = 2.4599, df = 4, p-value = 0.0697 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.09628007 0.97408874 sample estimates: cor 0.7759085 75890053 15.05.2016 W. Timischl: Angewandte Statistik KORRELATION UND REFRESSION 2 2. Die nachfolgende Tabelle enthält die über das Jahr gemittelten Wassertemperaturen (in oC) der Donau. Man prüfe im Rahmen einer linearen Regression, ob sich im Beobachtungszeitraum die Temperatur signifikant verändert hat (=5%). Jahr Temp. Jahr Temp. Jahr Temp. 80 9,4 86 10,7 92 11,5 81 10,6 87 9,6 93 10,6 82 10,5 88 10,6 94 11,5 83 10,0 89 10,4 95 9,9 84 9,9 90 10,9 85 10,1 91 10,2 Lösung mit EXCEL: Überprüfung der Adäquatheit des lineren Modells: Temp. 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 9,4 10,6 10,5 10 9,9 10,1 10,7 9,6 10,6 10,4 10,9 10,2 11,5 10,6 11,5 9,9 n= MW_jahr= MW-temp= STD_jahr= STD_temp= r(temp, jahr)= R2= 16 87,5 10,4 4,761 0,596 0,4703 0,2211 12 Temperatur Jahr 11 10 y = 0,0588x + 5,2529 R2 = 0,2211 9 8 75 80 85 90 95 100 Jahr Abhängigkeitsprüfung: H0: Produktmomentkorrelation (Temp, Jahr)= 0 H1: Produktmomentkorrelation (Temp, Jahr)<> 0 alpha= 5% TGs= P-Wert= 1,994 0,06604 >> H0 nicht ablehnen! Lösung mit R: > jahr <- seq(from=80, to=95, by=1) > temp <- c(9.4, 10.6, 10.5, 10, 9.9, 10.1, 10.7, 9.6, 10.6, + 10.4, 10.9, 10.2, 11.5, 10.6, 11.5, 9.9) > ># Deskriptive Statistiken > length(jahr) [1] 16 > length(temp) [1] 16 > mw_jahr <- mean(jahr) > std_jahr <- sd(jahr) > print(cbind(mw_jahr, std_jahr)) mw_jahr std_jahr [1,] 87.5 4.760952 > mw_temp <- mean(temp) > std_temp <- sd(temp) > print(cbind(mw_temp, std_temp)) 75890053 15.05.2016 W. Timischl: Angewandte Statistik KORRELATION UND REFRESSION 11.0 10.5 temp mw_temp std_temp [1,] 10.4 0.595539 > r_jahr.temp <- cor(jahr, temp, method="pearson") > r_jahr.temp [1] 0.4702564 > > # Überprüfung der Modelladäquatheit > plot(jahr, temp) > abline(lm(temp~jahr)) > > # Abhängigkeitsprüfung > daten <- data.frame(jahr, temp) > lm.temp <- lm(formula=temp~jahr, data=daten) > summary(lm.temp) 11.5 3 10.0 Call: lm(formula = temp ~ jahr, data = daten) 9.5 Residuals: Min 1Q Median 3Q Max -0.9412 -0.3221 -0.1059 0.3971 0.8353 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.25294 2.58519 2.032 0.0616 . jahr 0.05882 0.02950 1.994 0.0660 . --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 80 85 90 95 jahr Residual standard error: 0.544 on 14 degrees of freedom Multiple R-Squared: 0.2211, Adjusted R-squared: 0.1655 F-statistic: 3.975 on 1 and 14 DF, p-value: 0.06604 3. Der Energieumsatz E (in kJ pro kg Körpergewicht und Stunde) wurde in Abhängigkeit von der Laufgeschwindigkeit v (in m/s) gemessen. Man stelle die Abhängigkeit des Energieumsatzes von der Laufgeschwindigkeit durch ein geeignetes Regressionsmodell dar und prüfe, ob im Rahmen des Modells überhaupt ein signifikanter Einfluss der Geschwindigkeit auf den Energieumsatz besteht (=5%). v E 3,1 27,6 4,2 50,6 5,0 5,4 6,6 62,7 147,1 356,3 Lösung mit EXCEL: 75890053 Überprüfung der Adäquatheit des lineren Modells: Temp. 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 9,4 10,6 10,5 10 9,9 10,1 10,7 9,6 10,6 10,4 10,9 10,2 11,5 10,6 11,5 9,9 12 Temperatur Jahr 11 10 y = 0,0588x + 5,2529 R2 = 0,2211 9 8 75 80 85 90 95 100 Jahr 15.05.2016 W. Timischl: Angewandte Statistik KORRELATION UND REFRESSION n= MW_jahr= MW-temp= STD_jahr= STD_temp= r(temp, jahr)= R2= v Abhängigkeitsprüfung: H0: Produktmomentkorrelation (Temp, Jahr)= 0 H1: Produktmomentkorrelation (Temp, Jahr)<> 0 alpha= 5% 16 87,5 10,4 4,761 0,596 0,4703 0,2211 TGs= P-Wert= 1,994 0,06604 >> H0 nicht ablehnen! Festlegung des Modells: Potenzfunktion (allometrische Funktion) E 3,1 4,2 5 5,4 6,6 4 27,6 50,6 62,7 147,1 356,3 400 300 E 200 100 0 3 3,5 4 4,5 5 5,5 6 6,5 7 -100 v E = a* v^b Linearisierung durch log/log-Tarnsformation: lnE = ln a + b lnv y = ln E 1,1314 3,3178 1,4351 3,9240 1,6094 4,1384 1,6864 4,9911 1,8871 5,8758 6,0000 5,5000 5,0000 y = ln E x=ln v y = 3,3014x - 0,6673 R2 = 0,8875 4,5000 4,0000 3,5000 3,0000 1,0000 1,2000 1,4000 1,6000 1,8000 2,0000 x = ln v Abhängigkeitsprüfung: H0: Produktmomentkorrelation (x,y)= 0 H1: Produktmomentkorrelation (x,y)<> 0 alpha= 5% n= r_xy = R2= 75890053 5 0,9421 0,8875 TGs= P-Wert= 4,8641 0,0166 < 5% >> H1 15.05.2016 W. Timischl: Angewandte Statistik KORRELATION UND REFRESSION 5 300 250 200 100 50 3.5 4.0 4.5 5.0 5.5 6.0 6.5 4.0 4.5 5.0 5.5 v 3.5 Residuals: 1 2 3 4 5 0.2500 -0.1465 -0.5077 0.0910 0.3132 150 E Call: lm(formula = lnE ~ lnv, data = daten) 3.0 lnE > v <- c(3.1, 4.2, 5, 5.4, 6.6) > E <- c(27.6, 50.6, 62.7, 147.1, 356.3) > print(cbind(v, E)) v E [1,] 3.1 27.6 [2,] 4.2 50.6 [3,] 5.0 62.7 [4,] 5.4 147.1 [5,] 6.6 356.3 > > # Modellfindung > plot(v, E) > abline(lm(E ~ v)) > > # log/log-Transformation > lnv <- log(v) > lnE <- log(E) > plot(lnv, lnE) > abline(lm(lnE ~ lnv)) > > # Abhängigkeitsprüfung & > # Parameterschätzung > daten <- data.frame(lnv, lnE) > daten lnv lnE 1 1.131402 3.317816 2 1.435085 3.923952 3 1.609438 4.138361 4 1.686399 4.991113 5 1.887070 5.875773 > lm.energie <- lm(formula= lnE ~ lnv, data=daten) > summary(lm.energie) 350 Lösung mit R: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.6673 1.0660 -0.626 0.5757 lnv 3.3014 0.6787 4.864 0.0166 * --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 1.2 1.4 1.6 1.8 lnv Residual standard error: 0.3864 on 3 degrees of freedom Multiple R-Squared: 0.8875, Adjusted R-squared: 0.85 F-statistic: 23.66 on 1 and 3 DF, p-value: 0.01660 75890053 15.05.2016