lösungen mit r

Werbung
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 4 MIT LÖSUNGEN
AUFGABEN:
1. An bestimmten von sechs verschiedenen Grasarten stammenden Chromosomen wurden die
Teillängen E und H des C-Band Euchromatins bzw. Heterochromatins gemessen (Angaben in m;
aus H.M. Thomas, Heredity, 46: 263-267, 1981). Man berechne die Produktmomentkorrelation
rEH. Ist die Produktmomentkorrelation signifikant von null verschieden? ( = 5%)
E
H
71,00
6,00
74,00
5,00
67,50
5,00
62,50
3,00
52,75
2,75
53,00
4,25
2. In einer Studie wurde untersucht, ob zwischen der Mortalität in der Perinatalperiode (Merkmal Y,
Werte ja/nein) und dem Rauchen während der Schwangerschaft (Merkmal X, Werte ja/nein) ein
Zusammenhang besteht. Zu diesem Zweck wurden Daten in einer Geburtenstation erhoben. Man
berechne den Phi-Koeffizienten und das Odds-Ratio. Ist der Phi-Koeffizient auf 5%igen
Testniveau von null verschieden?
Mortalität Y
ja
nein
 (Spalten)
Raucher X
ja
246
8160
8406
 (Zeilen)
nein
510
18870
19380
264
10710
10974
3. Von einem Gebiet der Schweiz liegen aus 10 Wintern (Dezember bis März) die in der folgenden
Tabelle angeführten Werte der Schneehöhe X (in cm) und der Lawinenabgänge Y vor. Man stelle
die Abhängigkeit der Anzahl der Lawinenabgänge von der Schneehöhe durch ein lineares
Regressionsmodell dar. (=5%)
X
Y
80
31
300
44
590
78
170
65
302
75
515
38
609
51
843
104
221
37
616
91
4. Der Energieumsatz E (in kJ pro kg Körpergewicht und Stunde) wurde in Abhängigkeit von der
Laufgeschwindigkeit v (in m/s) gemessen. Man stelle die Abhängigkeit des Energieumsatzes von
der Laufgeschwindigkeit durch ein geeignetes Regressionsmodell dar und prüfe, ob im Rahmen
des Modells überhaupt ein signifikanter Einfluss der Geschwindigkeit auf den Energieumsatz
besteht (=5%).
Hinweis: Logarithmiert am den Energieumsatz und die Laufgeschwindigkeit ergibt sich im
Streudiagramm eine Punkteverteilung mit einem linearen Trend.
v
E
68626212
3,1
27,6
4,2
50,6
5,0
5,4
6,6
62,7 147,1 356,3
1
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 4 MIT LÖSUNGEN
LÖSUNGEN MIT R
Aufgabe 1 (Grundaufgabe 10)
Präzisierung der Aufgabe:
Die Aufgabe beinhaltet die rechnerische Bestimmung der Pearson-Korrelation rEH zwischen den
Teillängen E und H sowie die Prüfung, ob der Korrelationskoeffizient auf dem Testniveau 5%
signifikant von null verschieden ist, also eine Abhängigkeit zwischen den Teillängen besteht. Für die
Interpretation und den Test ist nachzuweisen, dass die Verteilung von E und H nicht „wesentlich“ von
der bivariaten Normalverteilung abweicht. Eine notwendige Voraussetzung hierfür ist, dass die
univariaten Verteilungen von E und H mit der Normalverteilungsannahme verträglich sind.
Lösungsansatz:
Die Lösung umfasst zunächst eine univariate Datenbeschreibung und die Überprüfung der
Normalverteilungsannahme für E und H; hierbei lautet die Alternativhypothese H1 jeweils: Die
Grundgesamtheit ist nicht normalverteilt. Für den Abhängigkeitstest lautet die Alternativhypothese
H1: Korrelationskoeffizient EH <> 0, die Nullhypothese H0: Korrelationskoeffizient EH = 0. Die
Nullhypothese ist zu verwerfen, wenn der P-Wert kleiner als das vorgegebene Testniveau ist.
Rechnerische Lösung:
> E <- c(71, 74, 67.5, 62.5, 52.75, 53)
> H <- c(6, 5, 5, 3, 2.75, 4.25)
> options(digits=4)
> # univariate Statistiken
> n_E <- length(E)
> n_H <- length(H)
> m_E <- mean(E)
> m_H <- mean(H)
> s_E <- sd(E)
> s_H <- sd(H)
> print(cbind(n_E, m_E, s_E))
n_E m_E s_E
[1,] 6 63.46 9.048
> print(cbind(n_H, m_H, s_H))
n_H m_H s_H
[1,] 6 4.333 1.262
> # Überprüfung der Normalverteilung
> shapiro.test(E)
Shapiro-Wilk normality test
data: E
W = 0.8966, p-value = 0.3545
> shapiro.test(H)
Shapiro-Wilk normality test
data: H
W = 0.9278, p-value = 0.563
> # Schätzwert für die Pearson-Korrelation
> # Test auf Abweichung von Nullkorrelation
> cor.test(E, H, alternative="two.sided")
Pearson's product-moment correlation
68626212
2
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 4 MIT LÖSUNGEN
data: E and H
t = 2.107, df = 4, p-value = 0.1028
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.2097 0.9674
sample estimates:
cor
0.7253
Ergebnis:
Die (univariate) Überprüfung der Normalverteilung ergibt auf Grund der P-Werte (0.3545 >=5% bzw.
0.563 >= 5%), dass die Daten nicht in Widerspruch zur jeweiligen Normalverteilungsannahme stehen.
Da der P-Wert im Abhängigkeitstest >= 5% ist, kann die Nullhypothese (Korrelation zwischen E und
H ist null) nicht abgelehnt werden; obwohl der Schätzwert der Pearsonkorrelation rEH=0,7253 deutlich
von null abweicht, ergibt die Abhängigkeitsprüfung ein nichtsignifikantes Resultat!
Aufgabe 2 (Grundaufgabe 11)
Präzisierung der Aufgabe:
Während in Aufgabe 1 der Zusammenhang zwischen zwei metrischen Variablen zu untersuchen war
(der übliche Kennwert dafür ist die Pearson-Korrelation) geht es in Aufgabe 2 um den Zusammenhang
zwischen zwei 2-stufig skalierten Variablen. Ein Maß zur Beschreibung des Zusammenhangs
zwischen zwei 2-stufig skalierten Merkmalen ist der PHI-Koeffizient. Neben der numerischen
Bestimmung des PHI-Koeffizienten ist zu untersuchen, ob dieser auf dem Testniveau 5% signifikant
von null abweicht. Zusätzlich ist das sogenannte Odds-Ratio zu berechnen.
Lösungsansatz:
Die Prüfung, ob der PHI-Koeffizient signifikant von null abweicht, erfolgt mit dem Chiquadrat-Test;
ist der ausgewiesene P-Wert kleiner als 5%, wird die Nullhypothese (keine Abhängigkeit, d.h. PHIKoeffizient=0) abgelehnt (signifikanter Testausgang). Im Rahmen des Tests wird u.a. auch die
Chiquadratsumme (Goodness of Fit - Statistik) GF bestimmt, mit der der PHI-Koeffizient (=
Quadratwurzel aus GF/n) bestimmt wird; hier ist n der Umfang der bivariaten Stichprobe. Das OddsRatio ist gleich dem Verhältnis der Chancen „Sterben:Überleben mit und ohne Risikofaktor
(Rauchen)“, d.h. gleich dem Verhältnis (246:8160)/(264:10710).
Rechnerische Lösung:
> options(digits=4)
> freq <- matrix(c(246, 8160, 264, 10710), nrow=2, ncol=2, byrow=F,
+
dimnames=list(Mortalität=c("ja", "nein"), Raucher=c("ja", "nein")))
> # Wiedergabe der Matrix der beobachteten Häufigkeiten
> freq
Raucher
Mortalität ja nein
ja 246 264
nein 8160 10710
> # Prüfung auf Abhängigkeit
> # H1: Abhängigkeit vs. H0: keine Abhängigkeit
> testergebnis <- chisq.test(freq, correct=TRUE)
> testergebnis
Pearson's Chi-squared test with Yates' continuity correction
data: freq
X-squared = 4.837, df = 1, p-value = 0.02785
68626212
3
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 4 MIT LÖSUNGEN
> # Bestimmung des PHI-Koeffizienten
> summary(testergebnis)
Length Class Mode
statistic 1 -none- numeric
parameter 1
-none- numeric
p.value 1 -none- numeric
method 1
-none- character
data.name 1
-none- character
observed 4 -none- numeric
expected 4
-none- numeric
residuals 4 -none- numeric
> testergebnis[1]
$statistic
X-squared
4.837
> chi2sum <- testergebnis[[1]] # Auswahl des numerischen Elementes der Liste
> chi2sum
X-squared
4.837
> phi <- sqrt(chi2sum/sum(freq))
> phi
X-squared
0.0158
> # Bestimmung des Odds-Ratio (Chancenverhältnis)
> OR <- (freq[1,1]/freq[2,1])/(freq[1,2]/freq[2,2])
> OR
[1] 1.223
Ergebnis:
Die Prüfung auf Abhängigkeit (bzw. Abweichung des PHI-Koeffizienten von null) ist wegen p-value
= 0.02785 < 0.05 signifikant, d.h. es gilt H1 (Die Mortalität ist vom Raucherverhalten abhängig). Der
PHI-Koeffizient ist in der Ergebnisdarstellung des Chiquadrat-Tests (testergebnis) das erste Element,
auf dessen numerischen Inhalt mit testergebnis[[1]] zugegriffen werden kann; es folgt für den PHIKoeffizienten der Wert 0,0158; für das Odds-Ratio ergibt sich 1.223 > 1, d.h. die Sterbechancen des
Kindes einer rauchenden Mutter sind größer als jene einer nichtrauchenden.
Aufgabe 3 (Grundaufgabe 12)
Präzisierung der Aufgabe:
Es ist die Anzahl Y der Lawinenabgänge in Abhängigkeit von der Schneehöhe X durch ein lineares
Regressionsmodell darzustellen. Die Angabe der Regressionsgleichung ist nur dann sinnvoll, wenn
nachgewiesen wurde, dass Y tatsächlich (linear) von X abhängt. Dies erfolgt so, indem gezeigt wird,
dass die Pearson-Korrelation zwischen X und Y auf dem Testniveau 5% (angenommen) von null
abweicht.
Lösungsansatz:
In einem ersten Schritt wird die Adäquatheit des linearen Modells zur Beschreibung der Abhängigkeit
untersucht. Zu diesem Zwecke erstellt man ein Streudiagramm (X horizontal, Y vertikal). Folgen die
Datenpunkte einem „linearen Trend“ ist das lineare Modell anwendbar. Es ist dabei zweckmäßig, die
Regressionsgerade in das Streudiagramm einzuzeichnen. Bei der folgenden Abhängigkeitsprüfung
lautet die Alternativhypothese H1: Y hängt von X (linear) ab, die Nullhypothese ist H0: Y hängt von
X nicht ab (zumindest nicht linear). Bei signifikantem Testausgang (Abhängigkeit) wird die Gleichung
der Regressionsgeraden angegeben.
68626212
4
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 4 MIT LÖSUNGEN
Rechnerische Lösung:
40
60
y
80
100
> options(digits=4)
> x <- c(80, 300, 590, 170, 302, 515, 609, 843, 221, 616)
> y <- c(31, 44, 78, 65, 75, 38, 51, 104, 37, 91)
> daten <- data.frame(x, y)
> daten
x y
1 80 31
2 300 44
3 590 78
4 170 65
5 302 75
6 515 38
7 609 51
8 843 104
9 221 37
10 616 91
> # univariate Statistiken
> n_X <- length(x)
> n_Y <- length(y)
> m_X <- mean(x)
> m_Y <- mean(y)
> s_X <- sd(x)
> s_Y <- sd(y)
> print(cbind(n_X, m_X, s_X))
n_X m_X s_X
[1,] 10 424.6 244.2
> print(cbind(n_Y, m_Y, s_Y))
n_Y m_Y s_Y
[1,] 10 61.4 25.04
> # Streudiagramm mit Regressionsgeraden
> plot(x, y)
> abline(lm(y~x))
200
400
600
800
x
> # Schätzung der Regressionsparameter einschl. Abhängigkeitsprüfung)
> modell <- lm(formula=y~x, data=daten)
> summary(modell)
68626212
5
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 4 MIT LÖSUNGEN
Call:
lm(formula = y ~ x, data = daten)
Residuals:
Min
1Q Median 3Q Max
-29.670 -9.899 -0.686 15.640 22.103
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 31.9522 12.9125 2.47 0.038 *
x
0.0694 0.0267 2.60 0.032 *
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 19.6 on 8 degrees of freedom
Multiple R-squared: 0.458, Adjusted R-squared: 0.39
F-statistic: 6.75 on 1 and 8 DF, p-value: 0.0317
Ergebnis:
Aus dem Streudiagramm entnimmt man, dass die Datenpunkte durch eine Gerade ausgeglichen
werden können. Die Abhängigkeitsprüfung ergibt den p-value = 0.0317 < 0.05; es folgt, dass H0
(keine lineare Abhängigkeit) abgelehnt werden kann, d.h. Y kann tatsächlich durch eine lineare
Regressionsgleichung in Abhängigkeit von X dargestellt werden. Der Anstieg k der
Regressionsgeraden ist 0.0694 (siehe unter Coefficients, bei x) und der y-Achsenabschnitt (Intercept)
d = 31.9522; somit lautet die Regressionsgerade: y = kx + d = 0.0694x + 31.9522.
Aufgabe 4 (Grundaufgabe 13)
Präzisierung der Aufgabe:
Es ist der Energieumsatz E in Abhängigkeit von der Laufgeschwindigkeit v durch ein geeignetes
Regressionsmodell darzustellen. Man überzeugt sich durch ein Streudiagramm, dass sich mit den
beobachteten Daten keine Punkteverteilung mit linearem Trend ergibt. Zum Zwecke der
Linearisierung werden entsprechend dem Hinweis sowohl die E- als auch die v-Werte logarithmiert
(man nehme z.B. natürliche Logarithmen). Wir bezeichnen die logarithmierten Variablen mit E’=ln(E)
und v’=ln(v). Man überzeuge sich, dass das mit v’ und E’ gebildete Streudiagramm ein lineares
Regressionsmodell zur Beschreibung der Abhängigkeit der Variablen E’ von v’ rechtfertigt. Die
Angabe der Regressionsgleichung E’ = k v’ + d ist nur dann sinnvoll, wenn nachgewiesen wurde, dass
E’ tatsächlich (linear) von v’ abhängt. Dies erfolgt, in dem gezeigt wird, dass die Pearson-Korrelation
zwischen v’ und E’ auf dem Testniveau 5% (angenommen) von null abweicht.
Lösungsansatz:
Die Lösungsschritte sind:
 Erstellung eines Streudiagramms mit den beobachteten Daten und der Erkenntnis daraus, dass die
Punkteverteilung keinen linearen Trend besitzt.
 Logarithmische Transformation der Variablen E und v in E’=ln(E) bzw. v’=ln(v) und Erstellen
eines Streudiagramms mit den logarithmierten Messwerten (die Punkteverteilung sollte nun durch
ein lineares Regressionsmodell darstellbar sein).
 Prüfung der (linearen) Abhängigkeit der Variablen E’ von v’. Die Alternativhypothese lautet H1:
E’ hängt von v’ (linear) ab, die Nullhypothese ist H0: E’ hängt nicht von v’ ab (zumindest nicht
linear). Bei signifikantem Testausgang (Abhängigkeit) wirddie Gleichung der Regressionsgeraden
angegeben.
68626212
6
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 4 MIT LÖSUNGEN
300
250
200
50
100
150
E
> options(digits=4)
> v <- c(3.1, 4.2, 5, 5.4, 6.6)
> E <- c(27.6, 50.6, 62.7, 147.1, 356.3)
> print(cbind(v, E))
v E
[1,] 3.1 27.6
[2,] 4.2 50.6
[3,] 5.0 62.7
[4,] 5.4 147.1
[5,] 6.6 356.3
> # Überprüfung der Adäquatheit
> # des linearen Modells
> plot(v, E)
> abline(lm(E ~ v))
350
Rechnerische Lösung:
3.0
3.5
4.0
4.5
5.0
5.5
6.0
6.5
v
4.5
3.5
4.0
E_strich
5.0
5.5
> # Überprüfung der Wirkung der log/log-Transformation
> plot(v_strich, E_strich)
> abline(lm(E_strich ~ v_strich))
> # Abhängigkeitsprüfung & Parameterschätzung
> daten <- data.frame(v_strich, E_strich)
> daten
v_strich E_strich
1 1.131 3.318
2 1.435 3.924
3 1.609 4.138
4 1.686 4.991
5 1.887 5.876
1.2
1.4
1.6
1.8
v_strich
68626212
7
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 4 MIT LÖSUNGEN
> lm.energie <- lm(formula= E_strich ~ v_strich, data=daten)
> summary(lm.energie)
Call:
lm(formula = E_strich ~ v_strich, data = daten)
Residuals:
1
2 3 4 5
0.250 -0.146 -0.508 0.091 0.313
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.667
1.066 -0.63 0.576
v_strich
3.301 0.679 4.86 0.017 *
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.386 on 3 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.85
F-statistic: 23.7 on 1 and 3 DF, p-value: 0.0166
Ergebnis:
Aus dem mit den E- und v-Werten gezeichneten Streudiagramm entnimmt man, dass die Datenpunkte
nicht durch eine Gerade ausgeglichen werden können, es liegt eine eindeutig gekrümmte Anordnung
der Datenpunkte vor. Nach Übergang zu den Variablen E’=ln(E) und v’=ln(v) erkennt man im (v’,E’)Diagramm, dass nunmehr den Datenpunkten eine Gerade angepasst werden kann. Die
Abhängigkeitsprüfung ergibt den p-value = 0.0166 < 0.05; es folgt, dass H0 (keine lineare
Abhängigkeit) abgelehnt werden kann, d.h. E’ kann tatsächlich durch eine lineare
Regressionsgleichung in Abhängigkeit von v’ dargestellt werden. Der Anstieg k der
Regressionsgeraden ist 3,301 (siehe unter Coefficients, bei v_strich) und der y-Achsenabschnitt
(Intercept) d = -0,667; somit lautet die Regressionsgerade: E’ = kv’ + d = 3,301v’ – 0,667; setzt man
hier die Originalvariablen ein, folgt lnE = 3,301lnv – 0,667, Potenzieren mit der Basis e ergibt
schließlich E = e-0,667v3,301 = 0,513 v3,301.
68626212
8
Herunterladen