Gepaarte t-Tests

Werbung
Gepaarte t-Tests
das Kleingedruckte ...
●
●
Datenverteilung ~ Normalverteilung

QQ-plot

statistischer Test (Shapiro-Wilk, Kolmogorov-Smirnov)

wenn nicht : nicht-parametrische Tests
gleiche Varianz (2-Proben Tests, ungepaart)

wenn ja : Student's t-Test

wenn nein : Welsch t-Test
●
unabhängige Proben (2-Proben Tests, ungepaart)
●
Voraussetzungen nie 100% erfüllt : wie robust ist der t-Test ?
Normalität überprüfen
●
●
um zu testen, ob wir den t-Test anwenden können, müssen wir
zuerst testen, ob die Testdaten normalverteilt sind …
allgemeiner
Vergleich von
Verteilungen
Prinzip

QQplot : graphische Überprüfung

Normalitätstest: Shapiro-Wilks Test, Kolmogorov-Smirnov Test,...
Überprüfung der
Normalität
> n <- 10
> x <- rnorm(n) ## Normalverteilung
> shapiro.test(x)
Shapiro-Wilk normality test
data:
x
W = 0.977, p-value = 0.9471
H0 : Daten sind normalverteilt
in diesem Fall wird H0 nicht verworfen
→ Daten normalverteilt
> n <- 10
> x <- rt(n,df=2)
## t-Verteilung
> shapiro.test(x)
Shapiro-Wilk normality test
data:
x
W = 0.6966, p-value = 0.0008003
H0 : Daten sind normalverteilt
in diesem Fall wird H0 verworfen
→ Daten nicht normalverteilt
Normalität überprüfen
●
Kolmogorov-Smirnov Test
nicht parametrischer Test, wird benutzt
um 1-2 Datensätze zu Vergleichen


●
●
two-samples : 2 Datensätze miteinander
one-sample : 1 Datensatz vs. theoretische
Verteilung
Schätzer: D = Wert der größten Abweichung
zwischen den kumul. Verteilungen
H0 : beide Datensätze stammen aus der
gleichen Verteilung
→ kritische Werte für ein bestimmtes
Signifikanzniveau α und Anzahl n von
Werten sind tabelliert (hier ein Link).
> ks.test(x=X,y="pnorm")
One-sample Kolmogorov-Smirnov
test
data:
X
D = 0.1978, p-value = 0.03441
alternative hypothesis: two-sided
Beispiel : one-sample KS
●
Sind die Cholesterinwerte normal verteilt ? (H0 : ja !)
q1
78 165 177 183 191 194 195 196 203
213 215 227 228 230 238 242 248 249 255 263
●
Parameter einer entsprechenden Normalverteilung :


●
●
●
q0
Mittelwert : m = 209.5
Standardabweichung : s = 41.67
q0 = Quantile der beobachteten
Werte
q1 = Quantile der Normalverteilung N(m,s)
Grösste Differenz q0/q1 : 0.129
Entsprechender p-Wert für 20 Datenpunkte:
p = 0.85
→ H0 kann NICHT verworfen werden !
also können wir annehmen, dass die Werte
normalverteilt sind !
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
x
78
165
177
183
191
194
195
196
203
213
215
227
228
230
238
242
248
249
255
263
q0
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.55
0.60
0.65
0.70
0.75
0.80
0.85
0.90
0.95
q1
0.001
0.143
0.218
0.262
0.329
0.355
0.364
0.373
0.438
0.533
0.552
0.663
0.671
0.689
0.753
0.782
0.822
0.828
0.863
0.900
D
0.001
0.093
0.118
0.112
0.129
0.105
0.064
0.023
0.038
0.083
0.052
0.113
0.071
0.039
0.053
0.032
0.022
0.022
0.037
0.050
Normalität überprüfen
●
Kolmogorov-Smirnov Test
nicht parametrischer Test, wird
benutzt um 1-2 Datensätze zu
Vergleichen


one-sample : 1 Datensatz vs.
theoretische Verteilung
> ks.test(x=X,y="pnorm")
One-sample Kolmogorov-Smirnov
test
data:
X
D = 0.1978, p-value = 0.03441
alternative hypothesis: two-sided
two-samples : 2 Datensätze
miteinander
> ks.test(x=X,y=Y)
Two-sample Kolmogorov-Smirnov
test
data:
X and Y
D = 0.2, p-value = 0.2719
alternative hypothesis: two-sided
Wie kann sich ein Test täuschen ?
Was stimmt
Was der Test sagt
H0 gilt
H0 wird
verworfen
H0 wird nicht
verworfen
H0 gilt nicht
Falsch Positiv oder
Typ I Fehler
Wahre Positive
Test
Positive
Wahre Negative
Falsch Negativ oder Typ
II Fehler
Test
Negative
Negative
Positive
Falsch Positiv Rate = Falsch Positive / Negative
einen Test … testen
●
wie robust ist ein statistischer Test ?
●
ein robuster Test sollte:


●
richtige H0 Hypothesen nur in α Prozent der Fälle wiederlegen (Typ I Fehler
Rate oder Falsch Positiv Rate = α)
falsche H0 Hypothesen oft verwerfen (niedrige Typ II Fehler oder Falsch
negative Rate)
Robustheit gegenüber
Abweichungen von den
Voraussetzungen

Normalität

identische Varianz
Beispiel : H0 gilt
●
●
●
●
ich ziehe 2 Datenreihen von jeweils
50 Zahlen aus der gleichen
Normalverteilung
H0 : die Erwartungswerte der 2
Verteilungen sind gleich (stimmt !)
ich führe einen t-Test durch (2
Proben, ungepaart) und bestimme
den p-Wert
ich führe dieses Experiment 1000
durch, und untersuche die
Verteilung der p-Werte.
unter H0 ist die Verteilung
der p-Werte eine Gleichverteilung
(Definition des p-Wertes !)
in 5% der Fälle
habe ich einen
p-Wert kleiner als
0.05
in 50% der Fälle
habe ich einen
p-Wert kleiner als
0.5
Typ I Fehler
●
●
Roter Bereich:
bei α = 0.05 hätten wir die
H0 Hypothese zu Unrecht
verworfen
→ Falsch Positive !
Wie oft wäre das passiert ?
in 5% der Fälle (da
Gleichverteilung)
→ Falsch-Positiv Rate wird
von α angegeben.
10.000 Test bei denen H0 gilt :
Gleichverteilung
Beispiel : H0 gilt nicht
●
●
●
●
ich ziehe 2 Datenreihen von jeweils N=50 Zahlen aus 2
Normalverteilungen mit unterschiedlichen Erwartungswerten
H0 : die Erwartungswerte der 2 Verteilungen sind gleich
(stimmt nicht, der Test sollte H0 verwerfen !)
ich führe einen t-Test durch (2 Proben, ungepaart) und bestimme
den p-Wert
ich führe dieses Experiment 1000 durch, und untersuche die
Verteilung der p-Werte.
Verteilung der P-Werte
Viele kleine P-Werte
→ H0 wird in diesen
Fällen verworfen ✔
Einige grosse P-Werte
→ H0 wird in diesen
Fällen NICHT
verworfen ✘
Typ II Fehler
●
●
●
entstehen, wenn eine falsche H0
hypothese nicht wiederlegt
wird
→ “Falsch Negative”
Wahrscheinlichkeit eines Typ II
Fehlers : β-Wert
die Wahrscheinlichkeit, einen Typ
II Fehler nicht zu begehen nennt
man die Power eines Tests
diese Fläche β entspricht
den falsch Negativen:
H0 wird nicht verworfen
Typ II Fehler
●
●
●
●
2 Datensätze der Größe N

Normalverteilung, mu=0

Normalverteilung, mu=0.2
hier gilt H0 also nicht
t-Test → p-Werte für
verschiedene N
Fazit : mit steigender
Probengröße hat der Test
immer mehr Power
Power eines Tests
●
Power 1-β hängt ab von

Signifikanz level α

Probengröße N

Effektgröße : wie stark weicht der tatsächliche Effekt von H0 ab ?
Power
Hohes
Signifikanzlevel
Niedriges
Signifikanzlevel
Grosse
Probengrösse
Kleine
Probengrösse
Grosse
Effektgrösse
Kleine
Effektgrösse
Beispiel : Pinguine
●
●
●
●
Ich untersuche Populationen von
Pinguinen in der Antarktis
2 Arten

Humboldtpinguine : μH=15kg, σH

Königspinguine: μK=16kg, σK
Ich fange Gruppen von N
Pinguinen, berechne das
Durschnittsgewicht m, und
bestimme, ob es HP sind oder
nicht
H0: es sind Humboldtpinguine
Verteilungen der Mittelwerte
Verteilung der
Mittelwerte
μ = μH
σ = σH/√N
H0 : es handelt sich um
Humboldtpinguine
: Verwerfungsbereich von H0
: nicht Verwerfungsbereich von H0
Verteilung der
Mittelwerte
μ = μK
σ = σK/√N
Typ II Fehler
●
●
Bei festgelegtem α kann man
N berechnen, sodass β einen
bestimmen Wert nicht
überschreitet.
Beispiel:
der Test soll bei einem
Gewichtsunterschied von 1 kg
eine Power von 60% haben
und eine Signifikanz von 5%
→ N ~ 30
: Verwerfungsbereich von H0
: nicht Verwerfungsbereich von H0
Nicht – parametrische Tests
●
●
setzen keine Bedingung auf die Verteilung der Werte
werden angewendet, wenn Normalitätsbedingungen der t-Tests
nicht erfüllt sind.
●
anstatt der Werte werden die Ränge dieser Werte benutzt
●
Wilcoxon Rang Tests

Ungepaarter Test : Wilcoxon rank sum test / Mann-Whitney U-test

Gepaarter Test : Wilcoxon signed rank test
Wilcoxon Rank Sum Test / Mann-Whitney U Test
– Zwei ungepaarte Proben –
●
●
●
Werte der 2 Proben werden
zusammengelegt, und nach
steigenden Werten geordnet
R1 ist die Summe der n1 Ränge
der ersten Probe*
Teststatistik :
R1 = 59
> wilcox.test(x1,x2)
Wilcoxon rank sum test
data:
x1 and x2
W = 23, p-value = 0.3823
alternative hypothesis: true location shift
is not equal to 0
Probe 1 ist per Definition die mit dem kleinsten R
*
W = 23
Wilcoxon signed rank Test
– zwei gepaarte Proben –
●
Di : Differenzen der Paare
●
Ri : Ränge der |Di|
●
Teststatistik :
●
●
Sind die positiven Differenzen
größer/kleiner als die negativen ?
H0: die positiven/negativen
Differenzen haben gleiche
Rangverteilung
Wilcoxon signed rank Test
– Beispiel : Behandlung der Anorexie –
> X
Prior Post Diff AbsDiff ranks SignedRanks
1
76.9 76.8 -0.1
0.1
1
-1
2
79.6 76.7 -2.9
2.9
2
-2
3
81.6 77.8 -3.8
3.8
3
-3
4
89.9 93.8 3.9
3.9
4
4
5
80.5 75.2 -5.3
5.3
5
-5
6
86.0 91.5 5.5
5.5
6
6
7
86.0 91.7 5.7
5.7
7
7
8
94.2 101.6 7.4
7.4
8
8
9
83.5 92.5 9.0
9.0
9
9
10 82.5 91.9 9.4
9.4
10
10
11 87.3 98.0 10.7
10.7
11
11
12 83.3 94.3 11.0
11.0
12
12
13 83.8 95.2 11.4
11.4
13
13
14 77.6 90.7 13.1
13.1
14
14
15 82.1 95.5 13.4
13.4
15
15
16 86.7 100.3 13.6
13.6
16
16
17 73.4 94.9 21.5
21.5
17
17
> W.p <- sum(X[X$Diff>0,'ranks'])
> W.m <- sum(X[X$Diff<0,'ranks'])
> W.p
[1] 142
> W.m
[1] 11
> wilcox.test(X$Prior,X$Post,paired=TRUE)
Wilcoxon signed rank test
data:
X$Prior and X$Post
V = 11, p-value = 0.0008392
alternative hypothesis: true location shift
Hier: beidseitiger Test !
is not equal to 0
Wilcoxon robuster als t-Test ?
●
●
●
●
ungepaarter
t-Test
Wilcoxon
rank sum test
H0 gilt in allen Fällen
immer stärkere Abweichung
von der Normalitätsvoraussetzung
p-Werte Verteilung weicht
bei t-Test von der
Gleichverteilung ab ...
… aber nicht bei dem
Wilcoxon rank-sum test.
Herunterladen