Seminar Biostatistik mit R FWER

Werbung
Seminar Biostatistik mit R
FWER
Larissa Kaplinskaja
Technische Universität Dortmund
Fakultät Statistik
19. November 2012
1/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Inhaltsverzeichnis
1
2
Einleitung
Methoden
Drei Arten von Signifikanzniveaus
Definition von FWER
Adjustierungsmethoden
Anwendungen in der Varianzanalyse
2/52
3
Anwendung am Beispiel des Datensatzes FAMuSS
4
Zusammenfassung
5
Literaturverzeichnis
Larissa Kaplinskaja
Seminar Biostatistik mit R
Einleitung in die Problematik
Oft: Mehr als nur eine Fragestellung (in Form eines
Hypothesenpaars H0 vs. H1 )
Beispiel der Fragestellung: Ist das Erkrankungsalter bei
Krebspatienten genetisch bedingt?
Gegeben sind: m Fragestellungen H0 i vs. H1 i für i=1,. . . ,m
Multiples Testproblem: m (m > 1) Hypothesen
Multiples Testverfahren bϕc: bϕ1 , . . . , ϕm c
Entscheidung über Ablehnung oder Beibehaltung der m
Elementarhypothesen
3/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Drei Arten von Signifikanzniveaus
Das wichtigste Kriterium zur Konstruktion eines multiplen
Tests:
Kontrolle des Fehlers 1. Art
Anforderung:
Konstruiere die Einzeltests ϕi so, dass die
Wahrscheinlichkeiten, mit bϕc einen Fehler 1. Art zu begehen,
das Signifikanzniveau α nicht überschreiten.
Drei Arten von Signifikanzniveaus werden unterschieden
4/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Das lokale Signifikanzniveau
Ein multipler Test
heißt Test zum lokalen Niveau α,
wenn jeder Einzeltest das Niveau α einhält.
Pϑ (Vi ) ≤ α für alle ϑ ∈ Θ,
Vi = {Ti ≥ u} der Einzeltest ϕi lehnt H0i ab und jedes
i=1,. . . ,m
Die Schranke α dient als
Kontrolle der Wahrscheinlichkeit H0i irrtümlich abzulehnen
5/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Das globale Signifikanzniveau
Ein multipler Test
hält das globale Signifikanzniveau α ein,
wenn
S gilt:
1
m
Pϑ ( m
i=1 Vi ) ≤ α für alle ϑ ∈ Θ, H0 = H0 ∩ . . . ∩ H0
Mit Vi = {Ti ≥ u} lehnt der Einzeltest ϕi H0i ab
6/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Das multiple Signifikanzniveau
Ein mutipler Test
hält das multiple Signifikanzniveau α ein,
wenn
S gilt:
Pϑ ( i∈Iϑ Vi ) ≤ α für alle ϑ ∈ Θ
Mit Vi = {Ti ≥ u} lehnt der Einzeltest ϕi ab
Iϑ : die Indexmenge, deren Indizes unter gegebenem ϑ wahren
Hypothesen H0i markieren, i ∈ {1, . . . , m}
7/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Mögliche Testentscheidungen:
Tabelle: Testentscheidungen
Realität
H0i wahr
H0i falsch
Summe
Entscheidung:
für H0i für H1i
U
V
W
S
m−R
R
Summe
m0
m − m0
m
R: Anzahl der Testentscheidungen gegen die Nullhypothese als
eine beobachtete Realisierung
U, V, W, S: sind nicht direkt beobachtbar
W: die Anzahl falsch negativer Entscheidungen
V: Anzahl falsch positiver Entscheidungen
8/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
FWER
Betrachte falsche Entscheidungen V und W.
V: die Verallgemeinerung vom Fehler 1. Art
W: die Verallgemeinerung vom Fehler 2.Art
V und W sollen möglichst gering ausfallen.
FWER
Familywise Error Rate
FWER=P(V≥1)
begrenzt die Wahrscheinlichkeit der fälschlichen Ablehnung
einer einzigen Nullhypothese
ist unabhängig davon, welche und wie viele Nullhypothesen
tatsächlich falsch sind
Somit: die Wahrscheinlichkeit mindestens einmal Fehler 1. Art
zu machen.
9/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Schwache und starke Kontrolle von FWER
FWEC
Familywise Error Complete
[
FWEC = P( Vi |H0 : H01 ∩ . . . ∩ H0m )
i∈I
wobei H0 die Menge aller Nullhypothesen ist
mit Vi = {Ti ≥ u} und I = {1, . . . , m}
Bedingung: Alle Nullhypothesen treffen zu
FWEC ≤ α: Das globale Signifikanzniveau α wird eingehalten
schwache Kontrolle von FWER
10/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Schwache und starke Kontrolle von FWER
FWEP
Familywise Error Partial
FWEP = P(
[
Vi |H0i , ∀i ∈ I0 )
i∈I0
Es gilt: I0 ⊆ I , wobei I = {1, . . . , m}
Bedingung: Eine Teilmenge von Einzelhypothesen trifft zu
FWEP≤ α: Das multiple Signifikanzniveau α wird eingehalten
starke Kontrolle von FWER
11/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden der Fehleradjustierung
FWEC = P(V ≥ 1|
P(
m
[
H0i abg .|
i=1
m
X
i=1
m
X
P(H0i abg .|
m
\
i=1
m
\
H0i wahr ) =
H0i wahr ) ≤
i=1
m
\
H0i wahr ) ≤
i=1
P(H0i abg .|H0i wahr ) ≤ m · α
i=1
12/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden der Fehleradjustierung
Problem: Wachstum der Irrtumswahrscheinlichkeit bei der
Anzahl der Versuche
Beispiel:
Gegeben:
m Nullhypothesen: H01 , . . . , H0m
m Tests ϕi werden durchgeführt
lokales Niveau für alle Tests ist α
P(H0i abg .|H0i wahr ) ≤ α
für alle i = 1, . . . , m
Alle Tests ϕi sind voneinander unabhängig
13/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden der Fehleradjustierung
FWEC = P(V ≥ 1|
m
\
H0i wahr ) =
i=1
1 − P(V = 0|
m
\
H0i wahr ) =st.u
i=1
1−
m
Y
P(H0i n.abg .|H0i wahr ) =
i=1
m
Y
1 − [1 − P(H0i abg .|H0i wahr )] ≤
{z
}
|
i=1
≤α
m
Y
1 − (1 − α) = 1 − (1 − α)m
i=1
14/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden der Fehleradjustierung
Mit der wachsenden Anzahl der Tests erhöht sich die Anzahl der
falsch positiver Ergebnisse.
Gegeben: m=2, α=0.05, dann gilt
FWEC≤ 1 − (1 − α)2 =0.0975
Gegeben: m=10, α=0.05, dann gilt
FWEC≤ 1 − (1 − α)10 =0.401
15/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden der Fehleradjustierung
Ziele der Adjustierung:
in einem multiplen Vergleich einzelne Effekte aufzudecken
eine feste vorgegebene Schranke für das multiple
Signifikanzniveau einzuhalten (Kontrolle der FWER)
16/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
p-Wert-Adjustierung
p-Wert
p-Wert (Power eines Tests) ist:
die Wahrscheinlichkeit eine ebenso große bzw. noch größere
Teststatistik zu bekommen
gültig unter der Bedingung, dass die Nullhypothese wahr ist
das Instrument der Adjustierung des Fehlers 1. Art
(p-Value-Adjustierung)
Einzeltestentscheidungen ϕi mit den beobachteten p-Werten
pi (x)
(
1, pi (x) ≤ αi
werden dargestellt als ϕi =
0, pi (x) > αi
17/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
p-Wert-Adjustierung
α-Adjustierung: αi werden gegenüber α verkleinert
genauso gut möglich: die pi -Werte werden entsprechend
vergrößert und alle αi = α gesetzt
p-Value-Adjustierung:
(
1, pneui (x) ≤ α
ϕi =
0, pneui (x) > α
18/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden: das Bonferroni-Verfahren
piBo = min{m · pi , 1}
Das Bonferroni-Verfahren adjustiert alle P-Werte in einem
einzigen Schritt (one step procedure)
die FWER wird kontrolliert
Nachteil: Powerverlust
19/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden: das Bonferroni-Holm-Verfahren
Ziel: das Einhalten des multiplen Niveaus
Ordne die p-Werte der Größe nach:
p(1) ≤ p(2) ≤ . . . ≤ p(m)
(1)
Bestimme Index:
∗
iHo
= min{i : p(i) >
α
}
(m − i + 1)
∗ −1
Lehne alle Nullhypothesen für i = 1, . . . , iHo
Die entsprechenden adjustierten Werte:
piHo = maxk=1,...,i {min{(m − k + 1) · p(k) , 1}}
Das Ergebnis: FWER wird eingehalten
20/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
(2)
Methoden: ein Beispiel
Gegeben: 0.01, 0.02, 0.25, 0.12, 0.10
Ordne die p-Werte der Größe nach:
0.01 < 0.02 < 0.10 < 0.12 < 0.25
Bestimme Index:
0.01 =
0.02 >
0.05
= 0.01
5
0.05
= 0.0125
4
∗ =2-1=1
Der Index ist: iHo
Lehne die Nullhypothese für i = 1 ab
21/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden: ein Beispiel
Die entsprechenden adjustierten Werte:
p1Ho = maxk=1 {min{5 · p(1) , 1} = 0.05} = 0.05
p2Ho = maxk=1,2 {0.05, 0.08} = 0.08
p3Ho = maxk=1,2,3 {0.05, 0.08, 0.3} = 0.3
p4Ho = maxk=1,2,3,4 {0.05, 0.08, 0.3, 024} = 0.3
p5Ho = maxk=1,2,3,4,5 {0.05, 0.08, 0.3, 0.24, 0.25} = 0.3
22/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden: Anwendungen in der Varianzanalyse
Annahmen
Annahmen:
das Modell der einfaktoriellen Varianzanalyse
die Normalverteilungsannahme für alle m Stichproben
die Varianzhomogenität
23/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden: Anwendungen in der Varianzanalyse
Bezeichnungen
Bezeichnungen:
die Gesamtstichprobe mit dem Umfang n
aus m unabhängigen Teilstichproben bestehend,
es gilt: n1 + . . . + nm = n
Globalhypothese H0 : µ1 = · · · = µm
Paarvergleichhypothese: Hij : µi = µj , i 6= j, m2 Hypothesen
die i-te Teilstichprobe besteht aus st.u., nach
N(µi ; σ 2 )-verteilten Variablen
X̄i Stichprobenmittel, Si2 Stichprobenvarianz,
Pm
1
2
S̄ 2 gepoolte Varianz: n−m
i=1 (ni − 1)Si
24/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Bonferroni-adjustierter multipler t-Test
m
2
Paarvergleichhypothesen Hij : µi = µj werden simultan
überprüft
Ein multipler t-Test:
[ϕ] = [ϕij : i, j ∈ {1, . . . , m}, i < j]
wird in Form eines Enschrittverfahrens durchgeführt.
jeder Einzeltest Hij zum Niveau α̃
Bonferroni-Adjustierung: α̃ =
25/52
Larissa Kaplinskaja
α
(m2 )
Seminar Biostatistik mit R
Bonferroni-adjustierter multipler t-Test
die Teststatistik
|X̄i − X̄j |
q
1
1
S̄ ·
ni + nj
besitzt die zentrale t-Verteilung mit ni + nj − 2
Freiheitsgraden.
Entscheidungsregel für die Einzelhypothese
Eine Nullhypothese µi = µj wird genau dann verworfen wenn:
s
1
1
α̃
+
|X̄i − X̄j | > ζni +nj −2 ( ) · S̄
2
ni
nj
ζni +nj ( α̃2 ): das α̃/2-Fraktil der zentralen t-Verteilung mit
ni + nj − 2 Parametern
26/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Bonferroni-adjustierter multipler t-Test
Die simultanen Konfidenzintervalle für die
Mittelwertdifferenzen µi − µj sind
|X̄i − X̄j | ± ζn−m
α̃ · S̄
2
m
2
s
1
1
+
ni
nj
zum simultanen Vertrauensgrad 1 − α
die Wahrscheinlichkeit dafür, dass jedes der m2
Konfidenzintervalle jeweils die Mittelwertdifferenz µi − µj
überdeckt ist mindestens 1-α
P maxi,j {
|X̄i − X̄j − (µi − µj )|
α̃ q
} ≤ ζn−m
· S̄) ≥ 1 − α
1
1
2
+
ni
nj
jedes einzelne Konfidenzintervall besitzt den Vertrauensgrad
1 − α̃ = 1 − αm
(2)
27/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Verteilung der studentisierten Spannweite
Definition
Seien Z1 , . . . , Zk unabhängige N(0,1)-verteilte Zufallsvariablen und
W sei von den Zi unabhängig χ2 -verteilt mit v Freiheitsgraden.
Dann heißt die Verteilung von
maxi,j=1,...,k {|Zi − Zj |}
q
W
v
die Verteilung der studentisierten Spannweite (Studentized range
distribution) mit k Freiheitsgraden des Zählers und v
Freiheitsgraden des Nenners. Die Quantile werden mit qk,v
bezeichnet.
28/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Das Tukey Kramer-Verfahren
Die T(K)-Prozedur
Zuerst wird die globale Nullhypothese überprüft.
Ziel im Falle der Ablehnung der Nullhypothese:
Überprüfung aller Paarvergleichhypothesen Hij :
µi = µj , (1 ≤ i < j ≤ m)
die Teststatistik
|X̄i − X̄j |
q
S̄ · 12 [ n1i +
1
nj ]
ist nach der Verteilung der studentisierten Spannweite verteilt
.
29/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Das Tukey-Kramer-Verfahren
Allgemeiner Fall: unbalanciert, beliebige Stichprobenumfänge
n1 , . . . , nm
Entscheidungsregel für den unbalancierten Fall
Eine Nullhypothese wird genau dann verworfen wenn:
s
1 1
1
|X̄i − X̄j | > qm;n−m (α) · S̄
[ + ]
2 ni
nj
qm;n−m (α): das obere α-Fraktil der Verteilung der
studentisierten Spannweite mit den Parametern m und n−m
Das multiple Niveau α wird eingehalten.
30/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Methoden: Tukey-Kramer-Verfahren
Spezialfall: balanciert n1 = . . . = nm
Entscheidungsregel für den balancierten Fall
Eine Nullhypothese wird genau dann verworfen wenn:
r
m
|X̄i − X̄j | > qm;n−m (α) · S̄
n
n
m
der konstante Stichprobenumfang
Das multiple Niveau wird exakt eingehalten.
31/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Eigenschaften des Tukey-Kramer-Tests
das Tukey-Kramer-Verfahren liefert i. A. für die m2
Mittelwertdifferenzen µi − µj die kürzesten simultanen
Konfidenzintervalle
r
|X̄i − X̄j | ± qm;n−m (α) · S̄
m
n
zum Vertrauensgrad 1 − α
bei der Durchführung von Paarvergleichen: der Test ist
trennschärfer als die meisten anderen Einschrittverfahren
(darunter der Bonferroni-adjustierte multiple t-Test)
ist optimal für die simultane Prüfung von
Paarvergleich-Hypothesen geeignet (wegen Trennschärfe)
32/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Datenbeschreibung:
die FAMuSS-Studie
der Stichprobenumfang: n=1397 College-Studenten
Einige Variablen:
Identifikationsnummer (fms.id)
Nukleotidenpaare von 225 SNPs (225 Spalten)
prozentualer Zuwachs der Muskelkraft des nicht
dominanten Arms (NDRM.CH)
das primäre Ziel der Studie: Identifikation der Gene, welche
für die Veränderung der Muskelkraft verantwortlich sind
Hier: Bei welchen SNPs gibts es einen signifikanten Unterschied
zwischen den Genotypen?
33/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Datenvobereitung
###Zugriff auf die Daten
attach(fms)
###Spaltennamen
names(fms)
###SNPs
snps<-fms[2:226]
###Anzahl der Individuen bei jedem Genotyp
list.tables <- sapply( snps, table )
### Anzahl der Genotypen bei jedem SNP
list.tables.length <- sapply( list.tables, length )
###Genotypen mit der kleinsten Anzahl der Beobachtungen
list.tables.minfreq <- sapply( list.tables, min )
###Snps mit genau drei Genotypen und mehr als
1 Beob.-g pro Genotyp
index <-which( (list.tables.length==3) &
(list.tables.minfreq>1))
34/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Tukey’s honest signifikant differences in R
TukeyHSD(), alternativ auch mit glht() und confint() aus dem
Paket library(multcomp)
###Neue Snp’s
SNP<- snps[,index]
#Definition des Regressands
merkmal<-fms[,236]
#p-Werte von 184 SNPs
M<-matrix(0,nrow=184,ncol=3)
for(i in 1:184){
M[i,]<-TukeyHSD(aov(merkmal~as.factor(SNP[,i])))$‘
as.factor(SNP[, i])‘[,4]}
M
[,1]
[,2]
[,3]
[1,] 0.75642503 0.300829698 0.25908387
...
35/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Tukey’s honest signifikant differences in R
Gibt es signifikante Ergebnisse?
### Die minimale p-Werte bei 184 SNPs:
M1<-numeric(184)
for(i in 1:184){
M1[i]<-min(TukeyHSD(aov(merkmal~as.factor(SNP[,i])))
$‘as.factor(SNP[, i])‘[,4])}
36/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
p-Werte der SNPs mit 3 Genotypen
10
5
0
Anzahl der p−Werte
15
Histogramm der minimalen p−Werte bei SNPs mit 3 Genotypen
0.0
0.2
0.4
0.6
0.8
1.0
p−Werte
Abbildung: Histogramm der kleinsten p-Werte
37/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
ANOVA
H0 : µ1 = µ2 = µ3 vs. H1 : µi 6= µj , i 6= j
###Die p-Werte der 184 SNPs (ANOVA-Methode)
M2<-numeric(184)
for(i in 1:184){
fs <- summary(lm(formula=merkmal~SNP[,i]))$fstatistic
M2[i] <- 1-pf(fs[1], fs[2], fs[3])}
38/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
p-Werte der SNPs mit 3 Genotypen
10
5
0
Anzahl der p−Werte
15
Histogramm der p−Werte bei SNPs mit 3 Genotypen
0.0
0.2
0.4
0.6
0.8
1.0
p−Werte
Abbildung: Histogramm der p-Werte
39/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Tukey’s honest signifikant differences in R
#Suche der SNPs mit signifikanten Ergebnissen
w1 <- which(M[,1]<0.05)
w1
[1] 159 176
w2 <- which(M[,2]<0.05)
w2
[1]
3
82 146 153 176 178
w3 <- which(M[,3]<0.05)
w3
[1] 26 35 56 82 153
which(M2<0.05)
[1]
3 26 35
40/52
56
82 146 153 159 176 178
Larissa Kaplinskaja
Seminar Biostatistik mit R
Adjustierung der kleinsten p-Werte
p.adjust()
###1. Gruppe: die minimale p-Werte
a1<-p.adjust(M1,"bonf")
a2<-p.adjust(M1,"holm")
a3<-p.adjust(M1,"BH")
###2.Gruppe: die p-Werte nach ANOVA
b1<-p.adjust(M2,"bonf")
b2<-p.adjust(M2,"holm")
b3<-p.adjust(M2,"BH")
41/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
p-Werte der SNPs mit 3 Genotypen
42/52
Larissa Kaplinskaja
Biostatistik
mit R
Abbildung:
BoxplotsSeminar
der adj.
p-Werte
Adjustierung der kleinsten p-Werte
p.adjust()
###1. Gruppe: die minimale p-Werte
which(a1==min(a1))
[1] 176
which(a2==min(a2))
[1] 176
which(a3==min(a3))
[1]
3 26 35 56 82 146 153 159 176 178
###2.Gruppe: die p-Werte des Wald-Tests
which(b1==min(b1))
[1] 146
which(b2==min(b2))
[1] 146
which(b3==min(b3))
[1] 35 146 176
43/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Zusammenfassung der Ergebnisse
das Tukey-Kramer-Verfahren und ANOVA liefern dieselbe
Resultate: 10 SNPs haben signifikante Ergebnisse
Adjustierung mit Bonferroni-, Holm- und
Benjamini-Hochberg-Methoden: Keine Ablehnung der
Einzelhypothesen
Keine signifikante Ergebnisse auf dem multiplen Niveau
vorhanden: alle Teilnehmer haben gleiche Chancen für
Muskelaufbau
44/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Beispiel mit R für SNP akt2 2304186
paarweiser t-Test ohne Adjustierung:
pairwise.t.test(merkmal,SNP[,35],"none")
Pairwise comparisons using t tests with
pooled SD
data:
merkmal and SNP[, 35]
1
2
2 0.0455 3 0.2880 0.0037
P value adjustment method: none
45/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Beispiel mit R für SNP akt2 2304186
paarweiser t-Test mit der Adjustierung nach der
Bonferroni-Methode:
pairwise.t.test(merkmal,SNP[,35],"bonf")
Pairwise comparisons using t tests with pooled SD
data:
merkmal and SNP[, 35]
1
2
2 0.137 3 0.864 0.011
P value adjustment method: bonferroni
46/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Beispiel mit R für SNP akt2 2304186
paarweiser t-Test mit der Adjustierung nach der
Bonferroni-Holm-Methode:
pairwise.t.test(merkmal,SNP[,35],"holm")
Pairwise comparisons using t tests with pooled SD
data:
merkmal and SNP[, 35]
1
2
2 0.091 3 0.288 0.011
P value adjustment method: holm
47/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Beispiel mit R für SNP akt2 2304186
das Tukey-Kramer-Verfahren:
TukeyHSD(aov(merkmal~as.factor(SNP[,35])))
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = merkmal ~ as.factor(SNP[, 35]))
$‘as.factor(SNP[, 35])‘
diff
lwr
upr
p adj
2-1 4.800156 -0.8271787 10.427491 0.1121769
3-1 -3.133430 -10.0523215 3.785461 0.5373026
3-2 -7.933586 -14.3345625 -1.532610 0.0103473
48/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Graphische Darstellung:
3−2
3−1
2−1
95% family−wise confidence level
−15
−10
−5
0
5
10
Differences in mean levels of as.factor(SNP[, 35])
Abbildung: simultane 95%-Konfidenzintervalle nach Tukey-Kramer
49/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Verfahren im Vergleich:
Tabelle: adjustierte p-Werte für drei Paarvergleiche zwischen den
Nukleotidenpaaren am Beispiel von SNP akt2 2304186
Verfahren
GT-GG
TT-GG
TT-GT
50/52
t-Test
0.046
0.288
0.004
Larissa Kaplinskaja
Bonf.
0.137
0.864
0.011
Holm
0.091
0.288
0.011
Tukey
0.112
0.537
0.010
Seminar Biostatistik mit R
Zusammenfassung
das Bonferroni-Verfahren
Vorteil: Enschrittverfahren
Nachteil: konservativ
das Bonferroni-Holm-Verfahren
Vorteil: Wegen Trennschärfe besser für Vergleich von zwei
Gruppen geeignet
Nachteil: Mehrschrittverfahren
das Tukey-Kramer-Verfahren
Wegen Trennschärfe am besten für paarweisen Vergleich von
mehr als zwei Gruppen geeignet
51/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Literaturverzeichnis
[1] Foulkes, A. S. (2009): Applied Statistical Genetics with R: For
Population-based Association Studies, Springer, New York.
[2] Murken, J., Grimm, T., Holinski-Feder, E., Zerres, K. (2011):
Taschenlehrbuch Humangenetik, Georg Thieme Verlag, Stuttgart.
[3] R Development Core Team (2011): R : A language and
environment for statistical computing, Version 2.15, R Foundation
for Statistical Computing, Wien, Österreich.
[4] Rüger, B. (2002): Test-und Schätztheorie, Bd. 2, Oldenbourg,
Wien.
[5] Sachs, L., Hedderich, J. (2009): Angewandte StatistikMethodensammlung mit R, 13.Auflage, Springer Verlag,
Heidelberg.
[6] Schlittgen, R. (2004): Statistische Auswertungen mit R,
Oldenbourg, Wien.
52/52
Larissa Kaplinskaja
Seminar Biostatistik mit R
Herunterladen