Übung zur Vorlesung Statistik I WS 2012-2013 Übungsblatt 10 7. Januar 2013 Aufgabe 29 (4 Punkte): Der Datensatz Blutdruckstudie.txt enthält das Ergebnis einer Studie, die die Wirksamkeit eine Medikaments zur Blutdrucksenkung nachweisen soll. In dieser Studie wurde eine Stichprobe von n = 100 Patienten, die unter Bluthochdruck leiden, in die beiden Gruppen Gruppe=0 (Pacebogruppe) und Gruppe=1 (Medikamentengruppe) aufgeteilt. Die Variable vorher enthält den systolischen Blutdruck zum Zeitpunkt der Aufnahme in die Studie (Baseline) und die Variable nachher den systolischen Blutdruck nach 14-tägiger Behandlung der Patienten. Die Studienteinehmer der Palcebogruppe wurden mit einem Scheinmedikament (Placebo) und die Patienten in der Medikamentengruppe mit dem zu testenden Blutdrucksenker behandelt. Der Datensatz besteht aus den Variablen Gruppe, vorher und nacher. A Laden Sie die Daten aus der Datei Blutdruckstudie.txt in einen Datensatz Daten und fügen Sie ihm die Blutdruckveränderung (vorher nachher) als neue Variable diff an. B Berechnen Sie Mittelwert, Standardabweichung, Median, 25% und 75% Perzentil der Variablen vorher, nachher und diff einmal für den gesamten Datensatz und dann getrennt für die beiden Studiengruppen. C Erstellen Sie für die Variablen vorher, nachher und diff Histogramme getrennt nach den beiden Studiengruppen. Hinweis: Nützliche R- Funktionen: mean, sd, quantile, hist und subset. Lösung: A > > Daten <- read.table("Blutdruckstudie.txt", header=TRUE) Daten$diff <- Daten$vorher - Daten$nachher B > DatenPlacebo <- subset(Daten, Gruppe==0) > DatenMedikament <- subset(Daten, Gruppe==1) > Ergebnis <+ data.frame(vorher=c(mean(Daten$vorher),sd(Daten$vorher), + quantile(Daten$vorher, prob=c(0.25,0.5,0.75))), + vorherPlacebo=c(mean(DatenPlacebo$vorher),sd(DatenPlacebo$vorher), + quantile(DatenPlacebo$vorher, prob=c(0.25,0.5,0.75))), + vorherMedikament=c(mean(DatenMedikament$vorher), + sd(DatenMedikament$vorher), + quantile(DatenMedikament$vorher, prob=c(0.25,0.5,0.75))), + + nachher=c(mean(Daten$nachher),sd(Daten$nachher), + quantile(Daten$nachher, prob=c(0.25,0.5,0.75))), + nachherPlacebo=c(mean(DatenPlacebo$nachher),sd(DatenPlacebo$nachher), + quantile(DatenPlacebo$nachher, prob=c(0.25,0.5,0.75))), + nachherMedikament=c(mean(DatenMedikament$nachher), + sd(DatenMedikament$nachher), + quantile(DatenMedikament$nachher, prob=c(0.25,0.5,0.75))), + + diff=c(mean(Daten$diff),sd(Daten$diff), + quantile(Daten$diff, prob=c(0.25,0.5,0.75))), + diffPlacebo=c(mean(DatenPlacebo$diff),sd(DatenPlacebo$diff), + quantile(DatenPlacebo$diff, prob=c(0.25,0.5,0.75))), + diffMedikament=c(mean(DatenMedikament$diff), + sd(DatenMedikament$diff), + quantile(DatenMedikament$diff, prob=c(0.25,0.5,0.75))) + ) > rownames(Ergebnis) <- c('Mittelwert','Standardabweichung', + '25% Perzentil', 'Median', '75% Perzentil') > round(Ergebnis,1) vorher vorherPlacebo vorherMedikament nachher Mittelwert 170.4 172.4 168.4 161.7 Standardabweichung 15.7 16.5 14.8 23.3 25% Perzentil 160.8 161.5 159.0 151.8 Median 170.0 172.0 169.5 163.5 75% Perzentil 181.2 185.8 176.8 178.0 nachherPlacebo nachherMedikament diff diffPlacebo Mittelwert 168.5 154.8 8.7 3.9 Standardabweichung 18.6 25.6 17.8 10.5 25% Perzentil 156.0 138.0 -3.0 -4.5 Median 171.0 158.0 5.0 4.0 75% Perzentil 179.0 174.0 15.0 11.8 Mittelwert Standardabweichung 25% Perzentil Median 75% Perzentil > > > > PAR <- par(mfrow=c(1,2)) hist(DatenPlacebo$vorher, main="Baseline (Placebo)") hist(DatenMedikament$vorher, main="Baseline (Medikament)") par(PAR) Baseline (Medikament) 120 160 200 DatenPlacebo$vorher > > > > 8 6 0 0 2 2 4 4 6 Frequency 8 10 10 12 12 14 Baseline (Placebo) Frequency C diffMedikament 13.6 21.9 -1.8 5.0 22.8 130 150 170 190 DatenMedikament$vorher PAR <- par(mfrow=c(1,2)) hist(DatenPlacebo$nachher, main="Nach Behandlung (Placebo)") hist(DatenMedikament$nachher, main="Nach Behandlung\n (Medikament)") par(PAR) Nach Behandlung (Medikament) 4 Frequency 8 6 0 0 2 2 4 Frequency 6 10 12 8 14 Nach Behandlung (Placebo) 120 160 200 DatenPlacebo$nachher > > > > 120 160 200 DatenMedikament$nachher PAR <- par(mfrow=c(1,2)) hist(DatenPlacebo$diff, main="Veränderung (Placebo)") hist(DatenMedikament$diff, main="Veränderung (Medikament)") par(PAR) Veränderung (Medikament) Frequency 0 0 2 4 5 6 Frequency 8 10 10 12 15 Veränderung (Placebo) −20 0 10 20 DatenPlacebo$diff 0 20 40 60 80 DatenMedikament$diff Aufgabe 30 (4 Punkte): Betrachten Sie wie in Aufgabe 29 den Datensatz aus der Datei Blutdruckstudie.txt. Prüfen Sie mit Hilfe von zweiseitigen t-Tests, ob die Blutdrucksenkung in der Placebo bzw. Medikamentengruppe signifikant ist. Prüfen Sie weiter mit einem geeigneten zweiseitigen t-Test, ob die Blutdrucksenkung in der Medikamentenguppe signifikant größer als in der Placebogruppe ist. Geben Sie für jeden t-Test die Nullhypothese und den Wert der Teststatistik mit zugehörigen Freiheitsgraden an. Das Signifikanzniveau sei α = 0.05. Lösung: Seien µP,vorher und µP,nachher die Erwartungswerte für den systolischen Blutdruck vor bzw. nach der Therapie in der Placebogruppe und µM,vorher und µM,nachher die Erwartungswerte für den systolischen Blutdruck vor bzw. nach der Therapie in der Medikamentengruppe. Es werden folgende t-Tests durchgeführt: A H0 : µP,vorher = µP,nachher Verbundener t-Test nur für Patienten der Placebogruppe. > mP <- mean(Daten$diff[Daten$Gruppe==0]) > sdP <- sd(Daten$diff[Daten$Gruppe==0]) > > > > > n <- 50 T <- mP/sdP*sqrt(50) df <- n-1 P <- 2*pt(-abs(T),df=df) P [1] 0.01164578 Die Veränderung in der Placebogruppe ist signifikant. Alternative Lösung: > t.test(Daten$vorher[Daten$Gruppe==0], Daten$nachher[Daten$Gruppe==0], pair Paired t-test data: Daten$vorher[Daten$Gruppe == 0] and Daten$nachher[Daten$Gruppe == 0] t = 2.6209, df = 49, p-value = 0.01165 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.9050529 6.8549471 sample estimates: mean of the differences 3.88 Verbundener t-Test nur für Patienten der Medikamentengruppe. H0 : µM,vorher = µM,nachher > > > > > > > mM <- mean(Daten$diff[Daten$Gruppe==1]) sdM <- sd(Daten$diff[Daten$Gruppe==1]) n <- 50 T <- mM/sdM*sqrt(50) df <- n-1 P <- 2*pt(-abs(T),df=df) P [1] 5.98334e-05 Die Veränderung in der Medikamentengruppe ist signifikant. Alternative Lösung: > t.test(Daten$vorher[Daten$Gruppe==1], Daten$nachher[Daten$Gruppe==1], pair Paired t-test data: Daten$vorher[Daten$Gruppe == 1] and Daten$nachher[Daten$Gruppe == 1] t = 4.3926, df = 49, p-value = 5.983e-05 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 7.378061 19.821939 sample estimates: mean of the differences 13.6 Vergleich der Blutdruckveränderung zwischen den Gruppen: H0 : µP,vorher − µP,nachher = µM,vorher − µM,nachher > + > > > sigma2= (sum((Daten$diff[Daten$Gruppe==0]-mP)^2)+sum((Daten$diff[Daten$Gruppe==1]T <- (mP-mM)/sqrt(sigma2)*sqrt(25) P <- 2*pt(-abs(T),df=98) P [1] 0.00561024 Die Blutdrucksenkung in der Medikamentengruppe ist signifikant größer als in der Placebogruppe. Alternative Lösung: > t.test(Daten$diff[Daten$Gruppe==0],Daten$diff[Daten$Gruppe==1], var.equal= Two Sample t-test data: Daten$diff[Daten$Gruppe == 0] and Daten$diff[Daten$Gruppe == 1] t = -2.8323, df = 98, p-value = 0.00561 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -16.530415 -2.909585 sample estimates: mean of x mean of y 3.88 13.60 Aufgabe 31 (4 Punkte): Bei einer kontrollierten Studie (Parallelgruppendesign) ist folgende Ergebnistabelle bekannt: n Mittelwert Standardabweichung Placebo 150 1.1 0.5 Medikament 160 1.2 0.4 Die Urdaten (Tabelle der Einzelwerte) sind verloren gegangen. Ist es möglich, mit den vorhandenen Daten einen zweiseitigen t-Test durchzuführen? Falls es möglich ist, geben Sie den Wert der t-Statistik und die Freiheitsgrade an. Berechnen Sie daraus den P-Wert des t-Tests. Hinweis: Ist es möglich, aus den Standardabweichungen der beiden Gruppen den Varianzschätzer σˆ2 im Nenner der t-Test Formel zu berechnen? Lösung: Seien x1 , . . . , xn1 und y1 , . . . , yn2 die verloren gegangenen Werte der beiden Stichproben. Die empirischen Mittelwerte und Standardabweichungen der beiden Stichproben sind bekannt (Tabelle). m1 n1 1 X xi = n1 i=1 n 2 1 X yi n2 i=1 v u n1 u 1 X t (xi − m1 )2 = n1 − 1 i=1 v u n2 u 1 X = t (yi − m2 )2 n2 − 1 i=1 m2 = sd1 sd2 Aus sd1 und sd2 kann mit den bekannten Fallzahlen n1 und n2 die gepoolte Varianz σˆ2 im Nenner der t-Statistik ausgerechnet werden: ! n1 n2 X X 1 1 σˆ2 = (xi − m1 )2 + (yi − m2 )2 = (n1 − 1)sd21 + (n2 − 1)sd22 n1 + n2 − 2 i=1 n1 + n2 − 2 i=1 Da auch der Zähler m1 − m2 und der Faktor q n1 n2 n1 +n2 in der t-Test Formel bekannt sind, kann die t-Statistik ausgerechnet werden. > > > > > sigma2 <- (149*0.5^2+159*0.4^2)/308 T <- (1.1-1.2)/sqrt(sigma2)*sqrt(150*160/(150+160)) df <- 150+160-2 P <- 2*pt(-abs(T), df=df) P [1] 0.05204748 Die Information in der vorliegenden Ergebnistabelle ist also ausreichend, um den zweiseitigen Zweistichproben t-Test durchzuführen. Schicken Sie Ihre Lösung bis spätestens Sonntag, den 13.1.2013 direkt an Ihre(n) Tutor(in): [email protected] (Franziska Metge). [email protected] (Stina Richter) [email protected] (Ivo Parchero)