¨Ubung zur Vorlesung Statistik I WS 2012

Werbung
Übung zur Vorlesung Statistik I
WS 2012-2013
Übungsblatt 10
7. Januar 2013
Aufgabe 29 (4 Punkte): Der Datensatz Blutdruckstudie.txt enthält das
Ergebnis einer Studie, die die Wirksamkeit eine Medikaments zur Blutdrucksenkung nachweisen soll. In dieser Studie wurde eine Stichprobe von n = 100
Patienten, die unter Bluthochdruck leiden, in die beiden Gruppen Gruppe=0
(Pacebogruppe) und Gruppe=1 (Medikamentengruppe) aufgeteilt. Die Variable vorher enthält den systolischen Blutdruck zum Zeitpunkt der Aufnahme
in die Studie (Baseline) und die Variable nachher den systolischen Blutdruck
nach 14-tägiger Behandlung der Patienten. Die Studienteinehmer der Palcebogruppe wurden mit einem Scheinmedikament (Placebo) und die Patienten in
der Medikamentengruppe mit dem zu testenden Blutdrucksenker behandelt.
Der Datensatz besteht aus den Variablen Gruppe, vorher und nacher.
A
Laden Sie die Daten aus der Datei Blutdruckstudie.txt in einen Datensatz Daten und fügen Sie ihm die Blutdruckveränderung (vorher nachher) als neue Variable diff an.
B
Berechnen Sie Mittelwert, Standardabweichung, Median, 25% und 75%
Perzentil der Variablen vorher, nachher und diff einmal für den gesamten Datensatz und dann getrennt für die beiden Studiengruppen.
C
Erstellen Sie für die Variablen vorher, nachher und diff Histogramme
getrennt nach den beiden Studiengruppen.
Hinweis: Nützliche R- Funktionen: mean, sd, quantile, hist und subset.
Lösung:
A
>
>
Daten <- read.table("Blutdruckstudie.txt", header=TRUE)
Daten$diff <- Daten$vorher - Daten$nachher
B
> DatenPlacebo <- subset(Daten, Gruppe==0)
> DatenMedikament <- subset(Daten, Gruppe==1)
> Ergebnis <+ data.frame(vorher=c(mean(Daten$vorher),sd(Daten$vorher),
+ quantile(Daten$vorher, prob=c(0.25,0.5,0.75))),
+ vorherPlacebo=c(mean(DatenPlacebo$vorher),sd(DatenPlacebo$vorher),
+ quantile(DatenPlacebo$vorher, prob=c(0.25,0.5,0.75))),
+ vorherMedikament=c(mean(DatenMedikament$vorher),
+ sd(DatenMedikament$vorher),
+ quantile(DatenMedikament$vorher, prob=c(0.25,0.5,0.75))),
+
+ nachher=c(mean(Daten$nachher),sd(Daten$nachher),
+ quantile(Daten$nachher, prob=c(0.25,0.5,0.75))),
+ nachherPlacebo=c(mean(DatenPlacebo$nachher),sd(DatenPlacebo$nachher),
+ quantile(DatenPlacebo$nachher, prob=c(0.25,0.5,0.75))),
+ nachherMedikament=c(mean(DatenMedikament$nachher),
+ sd(DatenMedikament$nachher),
+ quantile(DatenMedikament$nachher, prob=c(0.25,0.5,0.75))),
+
+ diff=c(mean(Daten$diff),sd(Daten$diff),
+ quantile(Daten$diff, prob=c(0.25,0.5,0.75))),
+ diffPlacebo=c(mean(DatenPlacebo$diff),sd(DatenPlacebo$diff),
+ quantile(DatenPlacebo$diff, prob=c(0.25,0.5,0.75))),
+ diffMedikament=c(mean(DatenMedikament$diff),
+ sd(DatenMedikament$diff),
+ quantile(DatenMedikament$diff, prob=c(0.25,0.5,0.75)))
+ )
> rownames(Ergebnis) <- c('Mittelwert','Standardabweichung',
+ '25% Perzentil', 'Median', '75% Perzentil')
> round(Ergebnis,1)
vorher vorherPlacebo vorherMedikament nachher
Mittelwert
170.4
172.4
168.4
161.7
Standardabweichung
15.7
16.5
14.8
23.3
25% Perzentil
160.8
161.5
159.0
151.8
Median
170.0
172.0
169.5
163.5
75% Perzentil
181.2
185.8
176.8
178.0
nachherPlacebo nachherMedikament diff diffPlacebo
Mittelwert
168.5
154.8 8.7
3.9
Standardabweichung
18.6
25.6 17.8
10.5
25% Perzentil
156.0
138.0 -3.0
-4.5
Median
171.0
158.0 5.0
4.0
75% Perzentil
179.0
174.0 15.0
11.8
Mittelwert
Standardabweichung
25% Perzentil
Median
75% Perzentil
>
>
>
>
PAR <- par(mfrow=c(1,2))
hist(DatenPlacebo$vorher, main="Baseline (Placebo)")
hist(DatenMedikament$vorher, main="Baseline (Medikament)")
par(PAR)
Baseline (Medikament)
120
160
200
DatenPlacebo$vorher
>
>
>
>
8
6
0
0
2
2
4
4
6
Frequency
8
10
10
12
12
14
Baseline (Placebo)
Frequency
C
diffMedikament
13.6
21.9
-1.8
5.0
22.8
130
150
170
190
DatenMedikament$vorher
PAR <- par(mfrow=c(1,2))
hist(DatenPlacebo$nachher, main="Nach Behandlung (Placebo)")
hist(DatenMedikament$nachher, main="Nach Behandlung\n (Medikament)")
par(PAR)
Nach Behandlung
(Medikament)
4
Frequency
8
6
0
0
2
2
4
Frequency
6
10
12
8
14
Nach Behandlung (Placebo)
120
160
200
DatenPlacebo$nachher
>
>
>
>
120
160
200
DatenMedikament$nachher
PAR <- par(mfrow=c(1,2))
hist(DatenPlacebo$diff, main="Veränderung (Placebo)")
hist(DatenMedikament$diff, main="Veränderung (Medikament)")
par(PAR)
Veränderung (Medikament)
Frequency
0
0
2
4
5
6
Frequency
8
10
10
12
15
Veränderung (Placebo)
−20
0
10
20
DatenPlacebo$diff
0
20
40
60
80
DatenMedikament$diff
Aufgabe 30 (4 Punkte): Betrachten Sie wie in Aufgabe 29 den Datensatz
aus der Datei Blutdruckstudie.txt. Prüfen Sie mit Hilfe von zweiseitigen
t-Tests, ob die Blutdrucksenkung in der Placebo bzw. Medikamentengruppe
signifikant ist. Prüfen Sie weiter mit einem geeigneten zweiseitigen t-Test, ob
die Blutdrucksenkung in der Medikamentenguppe signifikant größer als in der
Placebogruppe ist. Geben Sie für jeden t-Test die Nullhypothese und den Wert
der Teststatistik mit zugehörigen Freiheitsgraden an. Das Signifikanzniveau sei
α = 0.05.
Lösung: Seien µP,vorher und µP,nachher die Erwartungswerte für den systolischen
Blutdruck vor bzw. nach der Therapie in der Placebogruppe und µM,vorher
und µM,nachher die Erwartungswerte für den systolischen Blutdruck vor bzw.
nach der Therapie in der Medikamentengruppe. Es werden folgende t-Tests
durchgeführt:
A
H0 : µP,vorher = µP,nachher
Verbundener t-Test nur für Patienten der Placebogruppe.
> mP <- mean(Daten$diff[Daten$Gruppe==0])
> sdP <- sd(Daten$diff[Daten$Gruppe==0])
>
>
>
>
>
n <- 50
T <- mP/sdP*sqrt(50)
df <- n-1
P <- 2*pt(-abs(T),df=df)
P
[1] 0.01164578
Die Veränderung in der Placebogruppe ist signifikant.
Alternative Lösung:
> t.test(Daten$vorher[Daten$Gruppe==0], Daten$nachher[Daten$Gruppe==0], pair
Paired t-test
data: Daten$vorher[Daten$Gruppe == 0] and Daten$nachher[Daten$Gruppe == 0]
t = 2.6209, df = 49, p-value = 0.01165
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.9050529 6.8549471
sample estimates:
mean of the differences
3.88
Verbundener t-Test nur für Patienten der Medikamentengruppe.
H0 : µM,vorher = µM,nachher
>
>
>
>
>
>
>
mM <- mean(Daten$diff[Daten$Gruppe==1])
sdM <- sd(Daten$diff[Daten$Gruppe==1])
n <- 50
T <- mM/sdM*sqrt(50)
df <- n-1
P <- 2*pt(-abs(T),df=df)
P
[1] 5.98334e-05
Die Veränderung in der Medikamentengruppe ist signifikant.
Alternative Lösung:
> t.test(Daten$vorher[Daten$Gruppe==1], Daten$nachher[Daten$Gruppe==1], pair
Paired t-test
data: Daten$vorher[Daten$Gruppe == 1] and Daten$nachher[Daten$Gruppe == 1]
t = 4.3926, df = 49, p-value = 5.983e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
7.378061 19.821939
sample estimates:
mean of the differences
13.6
Vergleich der Blutdruckveränderung zwischen den Gruppen:
H0 : µP,vorher − µP,nachher = µM,vorher − µM,nachher
>
+
>
>
>
sigma2=
(sum((Daten$diff[Daten$Gruppe==0]-mP)^2)+sum((Daten$diff[Daten$Gruppe==1]T <- (mP-mM)/sqrt(sigma2)*sqrt(25)
P <- 2*pt(-abs(T),df=98)
P
[1] 0.00561024
Die Blutdrucksenkung in der Medikamentengruppe ist signifikant größer
als in der Placebogruppe.
Alternative Lösung:
> t.test(Daten$diff[Daten$Gruppe==0],Daten$diff[Daten$Gruppe==1], var.equal=
Two Sample t-test
data: Daten$diff[Daten$Gruppe == 0] and Daten$diff[Daten$Gruppe == 1]
t = -2.8323, df = 98, p-value = 0.00561
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-16.530415 -2.909585
sample estimates:
mean of x mean of y
3.88
13.60
Aufgabe 31 (4 Punkte): Bei einer kontrollierten Studie (Parallelgruppendesign) ist folgende Ergebnistabelle bekannt:
n Mittelwert Standardabweichung
Placebo
150
1.1
0.5
Medikament 160
1.2
0.4
Die Urdaten (Tabelle der Einzelwerte) sind verloren gegangen. Ist es möglich,
mit den vorhandenen Daten einen zweiseitigen t-Test durchzuführen? Falls
es möglich ist, geben Sie den Wert der t-Statistik und die Freiheitsgrade an.
Berechnen Sie daraus den P-Wert des t-Tests.
Hinweis: Ist es möglich, aus den Standardabweichungen der beiden Gruppen
den Varianzschätzer σˆ2 im Nenner der t-Test Formel zu berechnen?
Lösung: Seien x1 , . . . , xn1 und y1 , . . . , yn2 die verloren gegangenen Werte der
beiden Stichproben. Die empirischen Mittelwerte und Standardabweichungen
der beiden Stichproben sind bekannt (Tabelle).
m1
n1
1 X
xi
=
n1 i=1
n
2
1 X
yi
n2 i=1
v
u
n1
u 1 X
t
(xi − m1 )2
=
n1 − 1 i=1
v
u
n2
u 1 X
= t
(yi − m2 )2
n2 − 1 i=1
m2 =
sd1
sd2
Aus sd1 und sd2 kann mit den bekannten Fallzahlen n1 und n2 die gepoolte
Varianz σˆ2 im Nenner der t-Statistik ausgerechnet werden:
!
n1
n2
X
X
1
1
σˆ2 =
(xi − m1 )2 +
(yi − m2 )2 =
(n1 − 1)sd21 + (n2 − 1)sd22
n1 + n2 − 2 i=1
n1 + n2 − 2
i=1
Da auch der Zähler m1 − m2 und der Faktor
q
n1 n2
n1 +n2
in der t-Test Formel
bekannt sind, kann die t-Statistik ausgerechnet werden.
>
>
>
>
>
sigma2 <- (149*0.5^2+159*0.4^2)/308
T <- (1.1-1.2)/sqrt(sigma2)*sqrt(150*160/(150+160))
df <- 150+160-2
P <- 2*pt(-abs(T), df=df)
P
[1] 0.05204748
Die Information in der vorliegenden Ergebnistabelle ist also ausreichend, um
den zweiseitigen Zweistichproben t-Test durchzuführen.
Schicken Sie Ihre Lösung bis spätestens Sonntag, den 13.1.2013 direkt an
Ihre(n) Tutor(in):
[email protected] (Franziska Metge).
[email protected] (Stina Richter)
[email protected] (Ivo Parchero)
Herunterladen