lösungen mit r

Werbung
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 3 MIT LÖSUNGEN
AUFGABEN:
1. Die Wirkungen eines Testpräparates A und eines Kontrollpräparate B seien durch die prozentuelle
Abnahme Y des systolischen Blutdrucks vom Beginn bis zum Ende der Therapie ausgedrückt. Im
Rahmen eines Parallelversuchs wurden die Präparatwirkungen jeweils an 5 Testpersonen
gemessen, wobei die Personen der „Testgruppe A“ von den Personen der „Kontrollgruppe B“
verschieden sind. Als Messwerte ergaben sich: 25, 20, 15, 22, 30 (Gruppe A) bzw. 20, 15, 10, 25,
21 (Gruppe B).
a. Man untersuche an Hand der folgenden Daten, ob sich die mittleren Präparatwirkungen
signifikant ( = 5%) unterscheiden.
b. Beurteilen Sie die Versuchsplanung (Stichprobenumfang)!
2. Man nehme nun an, dass die Studie von Aufgabe 1 als Paarvergleich geplant wurde. Das heißt, der
jeweils erste Wert der A- und B-Stichprobe stammen von derselben Versuchsperson, ebenfalls die
zweiten Werte usw.
a. Ist ein signifikanter Unterschied in den mittleren Wirkungen feststellbar? Als Testniveau
nehme man wieder 5%.
b. Wie ist die Versuchsplanung zu beurteilen (Stichprobenumfang)?
3. Das Wachstum X einer Kultur (Gewicht in mg) wird in Abhängigkeit von 2 Nährlösungen A und
B gemessen. Es ergaben sich die folgenden Messwerte:
A
B
7,4
9,0
8,1
9,6
7,8
9,2
7,2
9,5
7,9
8,5
a. Man überprüfe, ob die Nährlösung einen signifikanten Einfluss auf das mittlere Wachstum
hat? ( = 5%)
b. Ist die Annahme gleicher Varianzen in Aufgabe 3 gerechtfertigt?
4. In einer Studie wurde untersucht, ob zwischen der Mortalität X in der Perinatalperiode und der
Rauchergewohnheit (Raucher/Nichtraucher) Y während der Schwangerschaft ein Zusammenhang
besteht. Folgende Daten stehen zur Verfügung: In der Kategorie "Raucher" gab es 50 Todesfälle
(von insgesamt 1000), in der Kategorie "Nichtraucher" 50 von insgesamt 1600. Man zeige auf
dem 5%-Niveau, dass sich die Mortalität in der Raucher- und Nichtrauchergruppe signifikant
unterscheidet.
5. In einer Studie wurde ein Blutparameter am Beginn und am Ende einer Therapie bestimmt. Es
ergab sich, dass bei 50 Probanden der Parameter vor und nach Ende der Studie im Normbereich
lag, bei 15 Probanden lag der Wert vorher im Normbereich und nachher außerhalb, bei 20
Probanden vorher außerhalb und nachher im Normbereich und bei 10 vorher und nachher
außerhalb des Normbereichs. Hat sich während der Studie eine signifikante Änderung hinsichtlich
des Normbereichs ergeben ( = 5%)?
68638294
1
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 3 MIT LÖSUNGEN
LÖSUNGEN MIT R
Aufgabe 1 (Grundaufgabe 6)
Präzisierung der Aufgabe:
Wir bezeichnen mit YA die Wirkung des Testpräparates A und mit YB die Wirkung des
Kontrollpräparates B. Beide Variablen werden als normalverteilt vorausgesetzt mit den Mittelwerten
A bzw. B.
Lösungsansatz:
In der Teilaufgabe a) ist gefragt, ob der Mittelwert A von B verschieden ist. Es geht also um einen
Vergleich zweier Mittelwerte von als normalverteilt angenommenen Merkmalen. Die
Alternativhypothese lautet H1: A <> B, die Nullhypothese ist H0: A = B. Die Testentscheidung
wird mit dem t-Test für unabhängige Stichproben (Parallelversuch) auf dem Testniveau alpha=5%
durchgeführt. Wir wenden die Variante des Welch-Tests an, der keine Varianzhomogenität
voraussetzt. Dem Test geht eine kurze Datenbeschreibung voran, die die Stichprobenumfänge nA und
nB, die Mittelwerte mA und mB sowie die Standardabweichungen sA und sB der beiden Stichproben
enthält.
In der Teilaufgabe b) ist die Versuchsplanung zu beurteilen. Der Versuch ist ausreichend gut geplant,
wenn der erforderliche Mindeststichprobenumfang n_mindest (d.h. jener Stichprobenumfang, der
geplant werden muss, um mit einer hohen Sicherheit (Power) – wir wählen diese 90% - einen
signifikanten Testausgang zu erhalten) kleiner oder gleich den (übereinstimmenden)
Stichprobenumfängen in 1a) ist. Die Formel
 2 
2
n  2 2 z1 / 2  z1  
 
liefert einen brauchbaren Näherungswert für n_mindest, soferne dieser größer oder gleich 20 ist. In der
Formel bedeutet s die „gepoolte“ Standardabweichung sp der beiden Stichproben, d.h.
sp 
(n A  1) s A2  (nB  1) s B2
n A  nB  2
Ferner ist  der Betrag |mA – mB| der Differenz der Stichprobenmittelwerte sowie z1-/2 und z1-ß die
Quantile der Standardnormalverteilung zu den Unterschreitungswahrscheinlichkeiten 1-/2 bzw. 1-ß
(hier ist =5% das Testniveau und 1-ß=0,9 die Power).
Rechnerische Lösung:
Teilaufgabe a)
> ya <- c(23, 18, 13, 19, 27)
> yb <- c(20, 15, 10, 25, 21)
> # Deskriptive Statistiken
> n_A <- length(ya)
> n_B <- length(yb)
> m_A <- mean(ya)
> m_B <- mean(yb)
> s_A <- sd(ya)
> s_B <- sd(yb)
> options(digits=4)
> print(cbind(n_A, m_A, s_A))
n_A m_A s_A
[1,] 5 20 5.292
> print(cbind(n_B, m_B, s_B))
68638294
2
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 3 MIT LÖSUNGEN
n_B m_B s_B
[1,] 5 18.2 5.805
> # Parallelversuch: t-Test für unabhängige Stichproben (Variante WELCH-Test)
> # H0: kein Unterschied, H1: Unterschied in der mittleren Wirkung
> t.test(ya, yb, alternative="two.sided", paired=FALSE, mu=0)
Welch Two Sample t-test
data: ya and yb
t = 0.5124, df = 7.932, p-value = 0.6223
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-6.313 9.913
sample estimates:
mean of x mean of y
20.0 18.2
Ergebnis:
Wegen p-value = 0.623 >= 0.05 kann H0: A = B nicht abgelehnt werden (nichtsignifikantes
Ergebnis)!
Teilaufgabe b)
<- c(23, 18, 13, 19, 27)
> yb <- c(20, 15, 10, 25, 21)
> # Deskriptive Statistiken
> n_A <- length(ya)
> n_B <- length(yb)
> m_A <- mean(ya)
> m_B <- mean(yb)
> s_A <- sd(ya)
> s_B <- sd(yb)
> options(digits=4)
> s_p <- sqrt(((n_A-1)*s_A^2+(n_B-1)*s_B^2)/(n_A+n_B-1))
> delta <- abs(m_A - m_B)
> print(cbind(delta, s_p))
delta s_p
[1,] 1.8 5.237
> # Bestimmung des erforderlichen Mindeststichprobenumfangs, um mit dem Welch-Test
> # den beobachteten Mittelwertunterschied mit einer Sicherheit von 90% als
> # signifikant ungleich null zu erkennen.
> power.t.test(delta=abs(m_A-m_B), sd=s_p, sig.level=0.05, power=0.9,
+
alternative="two.sided", type="two.sample")
Two-sample t test power calculation
n = 178.8
delta = 1.8
sd = 5.237
sig.level = 0.05
power = 0.9
alternative = two.sided
NOTE: n is number in *each* group
68638294
3
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 3 MIT LÖSUNGEN
Ergebnis:
Es ist ein Mindeststichprobenumfang von n_mindest=179 erforderlich, um im Rahmen eines
Parallelversuchsmit dem auf 5%igen Signifikanzniveau geführten Test die Differenz delta = 1,8 der
Stichprobenmittelwerte mit einer Sicherheit von 90% als signifikant zu erkennen.
Aufgabe 2 (Grundaufgabe 7)
Präzisierung der Aufgabe:
Wie in Aufgabe 1 bezeichnen wir mit YA die Präparatwirkung in der Diagnosegruppe A und mit YB
die entsprechende Wirkung in der Gruppe B. Beide Variablen werden als normalverteilt vorausgesetzt
mit den Mittelwerten A bzw. B. Im Gegensatz zu Aufgabe 1 werden nun die Merkmalswerte an ein
und denselben Personen gemessen, d.h. jede Person bekommt zuerst das Präparat A und dann –
nachdem die Wirkung abgeklungen ist – das Präparat B.
Lösungsansatz:
In der Teilaufgabe a) ist gefragt, ob die mittlere Wirkungen A und B voneinander verschieden sind.
Bildet man die Differenz =A - B kann man die Frage auch so formulieren, ob die
Mittelwertdifferenz  von Null verschieden ist. Es geht also um einen Vergleich des Mittelwerts von
YA-YB mit dem Sollwert 0. Die Alternativhypothese lautet H1:<>0, die Nullhypothese ist H0:=0.
Die Testentscheidung wird mit dem t-Test für abhängige Stichproben (Paarvergleich) auf dem
Testniveau alpha=5% durchgeführt.
In der Teilaufgabe b) ist die Versuchsplanung zu beurteilen. Der Versuch ist ausreichend gut geplant,
wenn der erforderliche Mindeststichprobenumfang n_mindest (d.h. jener Stichprobenumfang, der
geplant werden muss, um mit einer hohen Sicherheit (Power) – wir wählen diese 90% - einen
signifikanten Testausgang zu erhalten) kleiner oder gleich dem Stichprobenumfang in 1a) ist. Die
Formel
nmin dest
 2 
2
  2 z1 / 2  z1 
 
liefert einen brauchbaren Näherungswert für n_mindest, soferne diese größer oder gleich 20 sind. In
der Formel bedeutet s die Standardabweichung der Stichprobenwerte von YA-YB
(Differenzstichprobe), D ist der Stichprobenmittelwert der Differenzstichprobe, z1-/2 und z1-ß sind die
Quantile der Standardnormalverteilung zu den Unterschreitungswahrscheinlichkeiten 1-/2 bzw. 1-ß
(hier ist =5% das Testniveau und 1-ß=0,9 die Power).
Rechnerische Lösung:
Teilaufgabe a)
> ya <- c(23, 18, 13, 19, 27)
> yb <- c(20, 15, 10, 25, 21)
> # Paarvergleich: t-Test für abhängige Stichproben
> # H0: Mittelwertdifferenz=0, H1: Mittelwertdifferenz <> 0
> yab <- ya-yb # Differenzstichprobe
> print(yab)
[1] 3 3 3 -6 6
> # Deskriptive Statistiken (Differenzstichprobe)
> n_AB <- length(yab)
> m_AB <- mean(yab)
> s_AB <- sd(yab)
> options(digits=4)
> print(cbind(n_AB, m_AB, s_AB))
68638294
4
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 3 MIT LÖSUNGEN
n_AB m_AB s_AB
[1,] 5 1.8 4.55
> t.test(ya, yb, alternative="two.sided", paired=T, mu=0)
Paired t-test
data: ya and yb
t = 0.8847, df = 4, p-value = 0.4263
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.849 7.449
sample estimates:
mean of the differences
1.8
Ergebnis:
Wegen p-value = 0.4263 >= 0.05 kann H0:  = A - B=0 nicht abgelehnt werden (nichtsignifikantes
Ergebnis)!
Teilaufgabe b)
> ya <- c(23, 18, 13, 19, 27)
> yb <- c(20, 15, 10, 25, 21)
> options(digits=4)
> m_AB <- mean(ya-yb)
> s_AB <- sd(ya-yb)
> delta <- abs(m_AB)
> print(cbind(delta, s_AB))
delta s_AB
[1,] 1.8 4.55
> # Bestimmung des erforderlichen Mindeststichprobenumfangs, um mit t-Test für abhängige Stichproben
> # den beobachteten Mittelwertunterschied mit einer Sicherheit von 90% als signifikant ungleich null zu
> # erkennen.
> power.t.test(delta=abs(m_AB), sd=s_AB, sig.level=0.05, power=0.9,
+
alternative="two.sided", type="paired")
Paired t test power calculation
n = 69.08
delta = 1.8
sd = 4.55
sig.level = 0.05
power = 0.9
alternative = two.sided
NOTE: n is number of *pairs*, sd is std.dev. of *differences* within pairs
Ergebnis:
Es ist ein Mindeststichprobenumfang von n_mindest=70 erforderlich, um im Rahmen eines
Paarvergleichs mit dem auf 5%igen Signifikanzniveau geführten Test die Differenz delta = 1,8 der
Stichprobenmittelwerte mit einer Sicherheit von 90% als signifikant zu erkennen.
Aufgabe 3 (Grundaufgabe 6)
Präzisierung der Aufgabe:
Von einer Kultur liegen unter 2 Bedingungen (Nährlösung A, B) beobachtete Stichproben einer
Wachstumsgröße X (Gewicht) vor. Wir bezeichnen die Wachstumsgröße unter der Bedingung A als
XA und jene unter der Bedingung B als XB. Beide Variablen werden als normalverteilt vorausgesetzt
mit den Mittelwerten A bzw. B.
68638294
5
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 3 MIT LÖSUNGEN
Lösungsansatz:
Die in der Teilaufgabe a) gestellte Frage nach dem Einfluss der Nährlösungen auf das Wachstum,
kann sich in einer Verschiedenartigkeit der Mittelwerte oder der Standardabweichungen der Variablen
XA bzw. XB manifestieren. Bevor die Aufgabe gelöst werden kann, ist eine Präzisierung
vorzunehmen. In der Mehrzahl der Anwendungsfälle geht es um eine allfällige, durch die
Nährlösungen bedingte Ungleichheit der Mittelwerte. Die Alternativhypothese lautet in diesem Fall
H1: A <> B, die Nullhypothese ist H0: A = B. Die Testentscheidung wird mit dem t-Test für
unabhängige Stichproben (Parallelversuch) auf dem Testniveau alpha=5% durchgeführt. Wir wenden
die Variante des Welch-Tests an, der keine Varianzhomogenität voraussetzt. Dem Test geht wieder
eine kurze Datenbeschreibung voran, die die Stichprobenumfänge nA und nB, die
Stichprobenmittelwerte mA und mB sowie die Standardabweichungen sA und sB der beiden Stichproben
enthält.
In der Teilaufgabe b) wird gefragt, ob die Annahme gleicher Varianzen der Variablen XA und XB
gerechtfertigt ist. Zur Entscheidung über diese Frage wird mit einem F-Test ein Vergleich der
Varianzen durchgeführt. Die Alternativhypothese lautet H1:A<>B, die Nullhypothese ist
H0:A=B. Die Testentscheidung wird mit dem F-Test auf dem Testniveau alpha=5% durchgeführt.
Rechnerische Lösung:
Teilaufgabe a)
> xa <- c(7.4, 8.1, 7.8, 7.2, 7.9)
> xb <- c(9, 9.6, 9.2, 9.5, 8.5)
> # Deskriptive Statistiken
> n_A <- length(xa)
> n_B <- length(xb)
> m_A <- mean(xa)
> m_B <- mean(xb)
> s_A <- sd(xa)
> s_B <- sd(xb)
> print(cbind(n_A, m_A, s_A))
n_A m_A s_A
[1,] 5 7.68 0.3701
> print(cbind(n_B, m_B, s_B))
n_B m_B s_B
[1,] 5 9.16 0.4393
> # Parallelversuch: t-Test für unabhängige Stichproben (Variante WELCH-Test)
> # H0: Mittelwert von XA = Mittelwert von XB
> # H1: ... <> ...
> t.test(xa, xb, alternative="two.sided", paired=FALSE, mu=0)
Welch Two Sample t-test
data: xa and xb
t = -5.761, df = 7.776, p-value = 0.0004706
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.0754 -0.8846
sample estimates:
mean of x mean of y
7.68
9.16
Ergebnis:
Wegen p-value = 0.0004706 < 0.05 ist H0: A = B abzulehnen, die Nährlösungen A und B haben
einen verschiedenartigen Einfluss auf den Mittelwert der Wachstumsgröße (signifikantes Ergebnis)!
68638294
6
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 3 MIT LÖSUNGEN
Teilaufgabe b)
> xa <- c(7.4, 8.1, 7.8, 7.2, 7.9)
> xb <- c(9, 9.6, 9.2, 9.5, 8.5)
> options(digits=4)
> # Überprüfung der Varianzhomogenität mit dem F-Test
> # H0: Varianz von XA = Varianz von XB versus H1: Varianz von XA<>Varianz von XB
> var.test(xa, xb, alternative="two.sided")
F test to compare two variances
data: xa and xb
F = 0.7098, num df = 4, denom df = 4, p-value = 0.7479
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.0739 6.8177
sample estimates:
ratio of variances
0.7098
Ergebnis:
Wegen p-value = 0.4779 >= 0.05 kann H0: A = B nicht abgelehnt werden. Bei der Überprüfung der
Varianzhomogenität wird der Test als „Falsifizierungsversuch“ der Gleichheit der Varianzen
angesehen; geht der Versuch – wie in diesem Beispiel nichtsignifikant aus, bleibt am bei der
Nullhypothese (ohne diese allerdings statistisch „bewiesen“ zu haben)
Aufgabe 4 (Grundaufgabe 8)
Präzisierung der Aufgabe:
In dieser Aufgabe geht es um das Untersuchungsmerkmal X (Mortalität), das an Säuglingen
beobachtet wird und auf einer 2-stufigen Skala mit den Skalenwerten „Säugling überlebt“ bzw.
„Säugling stirbt“ dargestellt ist. X wird in Abhängigkeit vom Raucherverhalten Y während der
Schwangerschaft betrachtet; auch Y ist 2-stufig mit den Werten „Raucherin“ und „Nichtraucherin“.
Für jede Untersuchungseinheit (Säugling) besitzt X eine Zweipunktverteilung; es sei pR = P(Säugling
stirbt| Raucherin) die Wahrscheinlichkeit, dass der Säugling einer rauchenden Mutter stirbt und pN =
P(Säugling stirbt| Nichtraucherin) die Wahrscheinlichkeit, dass der Säugling einer nichtrauchenden
Mutter stirbt. Das Raucherverhalten hat einen Einfluss auf die Mortalität, wenn pR <> pN .
Lösungsansatz:
Die Alternativhypothese lautet H1: pR <> pN, die Nullhypothese H0: pR = pN ; in der Gruppe der
Säuglinge von Raucherinnen sind 50 von 1000 gestorben, in der Gruppe der Säuglinge von
Nichtraucherinnen insgesamt 50 von 1600; die Sterbewahrscheinlichkeiten pR und pN werden durch
die Anteile 50/1000=0,05 bzw. 50/1600= 0,03145 geschätzt. Mit dem Chiquadrat-Test zum Vergleich
zweier Wahrscheinlichkeiten ist zu prüfen, ob sich diesen beiden Anteile auf dem Testniveau
5%signifikant unterscheiden.
Rechnerische Lösung:
> dead <- c(50, 50)
> total <- c(1000, 1600)
> # Test: Vergleich von 2 Wahrscheinlichkeiten mit unabhängigen Strichproben
> # H0: Sterbewahrscheinlichkeit/Raucherin = Sterbewahrscheinlichkeit/Nichtraucherin
> # H1: ... <> ...
> prop.test(dead, total, alternative="two.sided")
2-sample test for equality of proportions with continuity correction
data: dead out of total
68638294
7
BIOENG: Prüfung aus Angewandter Statistik II (WS)
MUSTERBEISPIELE 3 MIT LÖSUNGEN
X-squared = 5.354, df = 1, p-value = 0.02067
alternative hypothesis: two.sided
95 percent confidence interval:
0.001964 0.035536
sample estimates:
prop 1 prop 2
0.05000 0.03125
Ergebnis:
Wegen p-value = 0.02067 < 0.05 ist H0: pA = pB abzulehnen, das Raucherverhalten hat einen
verschiedenartigen Einfluss auf die Mortalität (signifikantes Ergebnis)!
Aufgabe 4 (Grundaufgabe 9)
Präzisierung der Aufgabe:
Das Untersuchungsmerkmal ist in dieser Aufgabe ein Blutparameter, der an 95 Probanden vor einer
Behandlung (Variable Xvor) und nach der Behandlung (Variable Xnach) beobachtet wird. Dabei wird
der Blutparameter auf einer 2-stufigen Skala dargestellt mit den Werten „liegt im Normbereich“ und
„liegt außerhalb des Normbereichs“. Ein Einfluss der Behandlung auf den Blutparameter ist gegeben,
wenn die Wahrscheinlichkeit p_ einer Veränderung vom Zustand „Xvor=im Normbereich“ in den
Zustand „Xnach=außerhalb des Normbereichs“ ungleich der Wahrscheinlichkeit p+ einer Veränderung
vom Zustand „Xvor=außerhalb des Normbereichs“ in den Zustand „Xnach=im Normbereich“ ist.
Beschränkt man sich nur auf Probanden, die eine Veränderung in die eine oder andere Richtung
aufweisen, ist wegen p_ + p+ =1 gleichwertig mit p_ <> p+ die Aussage p_ <> ½.
Lösungsansatz:
Die Alternativhypothese lautet H1: p_ <> ½, die Nullhypothese H0: p_ =1/2. Für die Testentscheidung
relevant sind die absoluten Häufigkeiten b=15 und c=20, mit denen Veränderungen vom Zustand
„Xvor=im Normbereich“ in den Zustand „Xnach=außerhalb des Normbereichs“ bzw. in umgekehrter
Richtung stattgefunden haben. Die Testentscheidung wird mit dem McNemar-Test herbeigeführt, der
ein besonderer Fall des Binomialtests (Vergleich einer Wahrscheinlichkeit mit 1/2) ist. Als Testniveau
ist 5% vorgegeben.
Rechnerische Lösung:
> freq <- c(50, 15, 20, 10)
> daten <- matrix(freq, ncol=2, byrow=TRUE,
+
dimnames=list("Beginn"=c("im", "außerhalb"),
+
"Ende"=c("im", "außerhalb")))
> daten
Ende
Beginn
im außerhalb
im
50
15
außerhalb
20
10
> # McNemar-Test für die Messung einer Veränderung mit 2 abhängigen Stichproben
> # H0: Wahrscheinlichkeit für Änderung von „im“ nach „außerhalb“ = 0,5
> # H1: ... <> ...
> mcnemar.test(daten)
McNemar's Chi-squared test with continuity correction
data: daten
McNemar's chi-squared = 0.4571, df = 1, p-value = 0.499
Ergebnis:
Wegen p-value = 0.499 >= 0.05 kann H0: p_ = 1/2 nicht abgelehnt werden (nichtsignifikantes
Ergebnis)!
68638294
8
Herunterladen