Woche 4 (227 kB, 8 Seiten) - (IMISE), Leipzig

Werbung
Grundprinzipien
Einführung
Helfen Wadenwickel, Fieber zu senken?
Statistisches Lernen
Werden mehr Jungen als Mädchen geboren?
Einheit 4: Statistisches Testen
Haben Schüler heute einen höheren oder niedrigeren BMI als vor 10
Jahren?
Dr. rer. nat. Christine Pausch
Gibt es vor und nach der OP einen Unterschied bzgl. Blutdruck?
Sind Diabetiker eher übergewichtig?
Institut für Medizinische Informatik, Statistik und Epidemiologie
Universität Leipzig
WS 2014/2015
Frage
Sind beobachtete Effekte in einer Stichprobe systematisch?
1 / 30
Grundprinzipien
2 / 30
Grundprinzipien
Grundidee
Beispiel “Lady Tasting Tea”
Statistischer Test als objektive Entscheidungsregel anhand einer Stichprobe
1
Statistische Hypothese (“Nullhypothese”)
2
Berechnen der Wahrscheinlichkeit, dass beobachtete Daten (oder
extremere) unter der Nullhypothese zustande gekommen sind.
Testentscheidung:
3
Jemand behauptet, erkennen zu können, ob in eine Tasse erst Milch
und dann Tee geschenkt wurde oder andersherum.
Sie möchten überprüfen, ob dies stimmt und schlagen 10 Versuche
vor.
Große Wahrscheinlicheit: Hypothese beibehalten
Kleine Wahrscheinlichkeit: Hypothese ablehnen
Problem: Wie kann man beurteilen, ob Fähigkeit wirklich vorliegt oder
nur geraten wird?
Statistisches Falsifizierungsprinzip/Indirekter Beweis
Ziel: Nullhypothese ablehnen, aber “Im Zweifel für den Angeklagten”, d.h.
für die Zufallserklärung
3 / 30
4 / 30
Grundprinzipien
Grundprinzipien
Experiment “Lady Tasting Tea”
Statistischer Test “Lady tasting tea”
Nullhypothese H0 : Die Person rät nur, d.h. P(Xi = 1) = π ≤ 0.5
Alternativhypothese H1 : π > 0.5
Zufallsexperiment:
1 Tee-Milch-Reihenfolge richtig erkannt
Xi =
0 sonst
Prüfgröße/Teststatistik X
Kritischer Wert c: wenn X > c, H0 ablehnen
Ablehnungsbereich/kritischer Bereich enthält mögliche Werte der
Prüfgröße in Richtung der Alternative, die unter H0 unwahrscheinlich
sind
mit i = 1, . . . , n Wiederholungen
Anzahl der richtig erkannten Versuche: Zufallsvariable X =
Pn
i=1 Xi
Signifikanzniveau α ist vorher festgelegte, maximal zulässige
Irrtumswahrscheinlichkeit. Sei hier α = 0.05.
X ∼ B(n, π)
p-Wert: Wahrscheinlichkeit, Stichprobenergebnis oder extremeres
unter der Nullhypothese zu erhalten
5 / 30
6 / 30
Grundprinzipien
Grundprinzipien
Exakter Binomialtest “Lady tasting tea”
Ablaufschema eines statistischen Hypothesentests
Wahrscheinlichkeitsverteilung für n = 10 und π = 0.5:
x
P(X = x)
5
0.246
6
0.205
7
0.117
8
0.044
9
0.010
10
0.001
1
einseitig: H0 : “≤” gegen H1 : “>” bzw. H0 : “≥” gegen H1 : “<”
zweiseitig: H0 : “=” gegen H1 : “6=”
PH0 (X = 10) = 0.001
PH0 (X ∈ {9, 10}) = 0.010 + 0.001 = 0.011
PH0 (X ∈ {8, 9, 10}) = 0.044 + 0.010 + 0.001 = 0.055
PH0 (X ∈ {7, 8, 9, 10}) = 0.117 + 0.044 + 0.010 + 0.001 = 0.172
Testentscheidung bei α = 0.05:
9 oder 10 richtige Versuche:
PH0 (X ∈ {9, 10}) = 0.011 < α ⇒ Nullhypothese ablehnen
Interpretation: Falls die Person tatsächlich nur geraten hat (mit
π ≤ 0.5), ist ein solches Ergebnis sehr unwahrscheinlich. Daher lehnen
wir die Annahme mit α = 0.05 ab.
Weniger als 9 richtige Versuche: Die Nullhypothese kann nicht
7 / 30
verworfen werden.
Formulierung der Null- und Alternativhypothese
2
Wahl des Signifikanzniveaus α
3
Wahl eines statistischen Tests/Teststatistik, Prüfen der
Testvoraussetzungen
4
Bestimmung des kritischen Bereichs/Ablehnbereichs
Berechnung der Prüfgröße aus den erhobenen Daten:
5
Maß für beobachteten Effekt
Zufallsvariable mit bekannter Verteilung (“Prüfverteilung”) unter H0
6
Testentscheidung: Vergleich der berechneten Prüfgröße mit Quantil
der Prüfverteilung
8 / 30
Grundprinzipien
Grundprinzipien
Alternatives Ablaufschema (Software)
Signifikanzniveau α
A-priori festgelegt
Typischerweise 0.01, 0.05 oder 0.1
1
p-Wert
Wird aus beobachteten Daten errechnet
Formulierung der Null- und Alternativhypothese
einseitig: H0 : “≤” gegen H1 : “>” bzw. H0 : “≥” gegen H1 : “<”
zweiseitig: H0 : “=” gegen H1 : “6=”
Wahrscheinlichkeit, den berechneten Prüfgrößenwert oder einen in
Richtung der Alternative extremeren Wert unter H0 zu erhalten
2
Wahl des Signifikanzniveaus α
3
Wahl eines statistischen Tests/Teststatistik, Prüfen der
Testvoraussetzungen
Ist kein Maß für die Stärke eines Effekts
Testentscheidung: Vergleich des p-Werts (Software) mit
vorgegebenem Signifikanzniveau
Wird standardmäßig von Statistiksoftware ausgegeben
4
Sollte explizit berichtet werden
Testentscheidung
p ≤ α: Nullhypothese ablehnen
p > α: Nullhypothese beibehalten
9 / 30
10 / 30
Grundprinzipien
Grundprinzipien
Richtige und falsche Testentscheidungen
H0 wahr
H0 falsch
Güte eines Tests
Testentscheidung
H0 beibehalten
H0 verwerfen
richtig
falsch
1−α
Fehler 1. Art: α
falsch
richtig
Fehler 2. Art: β 1 − β (Power)
Testgüte (Power)
Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt auch
aufzudecken.
Die Power steigt
mit Erhöhung der Fallzahl.
wenn die Irrtumswahrscheinlichkeit α größer gewählt wird.
α= P(H0 verwerfen | H0 wahr )
β= P(H0 beibehalten | H0 falsch )
je größer der aufzudeckende Effekt ist.
11 / 30
12 / 30
Grundprinzipien
Grundprinzipien
Fallzahlplanung
Fehlinterpretationen statistischer Testentscheidungen
Fallzahl
Die Fallzahl, die benötigt wird, um einen bestimmten Effekt nachweisen zu
können, kann in Abhängigkeit von α und β berechnet werden.
Die Fallzahl steigt
je kleiner die Irrtumswahrscheinlichkeit α gewählt wird.
je größer die Power 1 − β gewählt wird.
je kleiner der nachzuweisende Effekt angenommen wird.
Beibehalten der Nullhypothese bedeutet nicht, dass diese wahr ist,
sondern nur, dass Zufallsbefund nicht ausgeschlossen werden kann.
Tatsächlicher Effekt womöglich zu klein, um mit vorhandener Fallzahl
nachgewiesen werden zu können (“geringe Power”).
Beibehalten der Nullhypothese bedeutet nicht, dass diese
nachgewiesen wurde. Dazu ggf. Umformulierung der Null- und
Alternativhypothese notwendig, Beispiel Äquivalenztests.
Ablehnen der Nullhypothese bedeutet nicht, dass statistisch
signifikanter Effekt auch inhaltlich relevant ist. Bei großen Fallzahlen
können auch kleine, ggf. unbedeutende Effekte nachgewiesen werden.
Deshalb: Effektstärke angeben!
Der p-Wert ist nicht die Wahrscheinlichkeit, dass die Nullhypothese
wahr ist.
Die Irrtumswahrscheinlichkeit α wird bei multiplem Testen nicht
eingehalten.
14 / 30
13 / 30
Grundprinzipien
Grundprinzipien
Wahl des geeigneten Tests
Kleine Test-Übersicht
Tests auf Zusammenhang zweier Merkmale:
Nominal-skalierte Daten:
unabhängige Stichproben: z.B. exakter Test von Fisher,
χ2 -Unabhängigkeits-Test
abhängige Stichproben: z.B. Mc-Nemar-Test
Abhängig von
Fragestellung, z.B. Mittelwertsvergleich
Anzahl der Stichproben (Gruppen)
Ordinal-skalierte Daten und unabhängige Stichproben: z.B. Trend-Test
Vergleich von Lagemaßen (metrische Daten):
Ggf. Art der Stichproben: abhängig/verbunden/gepaart oder
unabhängig/unverbunden/ungepaart
Normwertvergleich (eine Stichprobe): z.B. t-Test, Vorzeichentest
Zwei unabhängige Stichproben: z.B. t-Test/Welch-Test,
Mann-Whitney-U-Test/Wilcoxon-Rangsummentest
Zwei abhängige Stichproben: z.B. t-Test für Paardifferenzen,
Wilcoxon-Vorzeichen-Rang-Test
Mehr als zwei Stichproben: ANOVA
Skalenniveau des Merkmals
Testvoraussetzungen:
Umfang der Stichprobe(n) (bei approximativen Tests)
Verteilungsannahme (parametrische/nichtparametrische Tests)
Verteilungstests/Anpassungstest, z.B. Kolmogorov-Smirnov-Test auf
Normalverteilung
Zensierte Ereigniszeiten: z.B. Log-Rang-Test
15 / 30
16 / 30
Der t-Test
Der t-Test
Der t-Test zum Vergleich von Mittelwerten
Einstichproben-t-Test I
Idee: Mittelwerte von n unabhängigen, normalverteilten Zufallsgrößen mit
unbekannter Varianz sind t-verteilt mit n − 1 Freiheitsgraden.
Frage: Stimmt Erwartungswert mit bestimmtem Wert µ0 überein?
Testvoraussetzung: Zufallsvariable X ∼ N(µ, σ 2 ), mit σ 2 unbekannt
Hypothesen:
0.4
Dichtefunktion der t−Verteilung
einseitig: H0 : µ ≤ µ0 gegen H1 : µ > µ0
bzw. H0 : µ ≥ µ0 gegen H1 : µ < µ0
zweiseitig: H0 : µ = µ0 gegen H1 : µ 6= µ0
√
0
Teststatistik: T = X̄ −µ
n ∼ t(nP
− 1)
s
1
2
mit Stichprobenvarianz s = n−1 ni=1 (Xi − X̄ )2 ,
empirischem Mittelwert X̄ und Stichprobengröße n
0.1
0.2
0.3
t(2)
t(5)
t(25)
N(0,1)
0.0
Bei bekanntem σ 2 : Gauß-Test mit identischer, aber
standardnormalverteilter Teststatistik
−4
−2
0
2
4
x
17 / 30
18 / 30
Der t-Test
Der t-Test
Einstichproben-t-Test II
Welch-Test für zwei unabhängige Stichproben I
Frage: Unterscheiden sich zwei Merkmale hinsichtlich ihrer
Erwartungswerte?
Testvoraussetzung: Unabhängige Zufallsvariablen X ∼ N(µX , σX2 ) und
Y ∼ N(µY , σY2 ), mit σX2 , σY2 unbekannt
Hypothesen:
Kritischer Bereich
H0
H1
Kritischer Bereich K
µ ≤ µ0 µ > µ0 K = [tn−1;1−α ; ∞]
µ ≥ µ0 µ < µ0 K = [−∞; −tn−1;1−α ]
µ = µ0 µ 6= µ0 K = [−∞; −tn−1;1−α/2 ] ∪ [tn−1;1−α/2 ; ∞]
mit tn;p p-Quantil der t-Verteilung mit n Freiheitsgraden
Testentscheidung
H0
H1
µ ≤ µ0 µ > µ0
µ ≥ µ0 µ < µ0
µ = µ0 µ 6= µ0
einseitig: H0 : µX ≤ µY gegen H1 : µX > µY
bzw. H0 : µX ≥ µY gegen H1 : µX < µY
zweiseitig: H0 : µX = µY gegen H1 : µX 6= µY
H0 wird abgelehnt, wenn
T > tn−1;1−α
T < −tn−1;1−α
|T | > tn−1;1−α/2
Teststatistik: T =
Für n ≥ 30 kann t(n-1)-Quantil durch N(0,1)-Quantile ersetzt werden.
Anwendungsbeispiele: Haben Studenten einen höheren IQ als den
Referenzwert 100? Sind Maschinen/Verfahren richtig kalibriert?
19 / 30
rX̄ −Ȳ
s2
X
nX
s2
∼ t(ν)
+ nY
Y
mit Stichprobenvarianzen sX2 und sY2 , empirischen Mittelwerten X̄ und
Ȳ und Stichprobengrößen nX und nY
Bei bekannten σX2 und σY2 : Gauß-Test mit identischer, aber
standardnormalverteilter Teststatistik
Für σX2 = σY2 : t-Test
20 / 30
Der t-Test
Der t-Test
Welch-Test für zwei unabhängige Stichproben II
t-Test für Paardifferenzen I
Kritischer Bereich
H0
H1
Kritischer Bereich K
µX ≤ µY µX > µY K = [tν;1−α ; ∞]
µX ≥ µY µX < µY K = [−∞; −tν;1−α ]
µX = µY µX 6= µY K = [−∞; −tν;1−α/2 ] ∪ [tν;1−α/2 ; ∞]
Testentscheidung
H0
H1
H0 wird abgelehnt, wenn
µX ≤ µY µX > µY T > tν;1−α
µX ≥ µY µX < µY T < −tν;1−α
µX = µY µX 6= µY |T | > tν;1−α/2
Für n, m ≥ 30 kann t(ν)-Quantil durch N(0,1)-Quantile ersetzt
werden.
Anwendungsbeispiele: Haben Männer einen höheren Blutdruck als
Frauen? Allgemein Gruppenvergleich in zweiarmigen, randomisierten
Studien
Frage: Unterscheiden sich zwei gepaarte Merkmale hinsichtlich ihrer
Erwartungswerte?
Testvoraussetzung: Paarweise Stichproben (X , Y ), mit
2)
D = X − Y ∼ N(µD , σD
Hypothesen:
einseitig: H0 : µD ≤ 0 gegen H1 : µD > 0
bzw. H0 : µD ≥ 0 gegen H1 : µD < 0
zweiseitig: H0 : µD = 0 gegen H1 : µD 6= 0
√
Teststatistik: T = sD̄D n ∼ t(n − 1)
1 Pn
2
mit Stichprobenvarianz sD2 = n−1
i=1 (Di − D̄) ,
empirischem Mittelwert D̄ und Stichprobengröße n
Durchführung analog zum Einstichproben-t-Test
Anwendungsbeispiele: Typischerweise Vorher-Nachher-Vergleiche,
auch bei paarweise vorhandenen Körperteilen oder Partner-Vergleichen
21 / 30
Der t-Test
22 / 30
Wilcoxon-Tests
Zusammenhang von Hypothesentests und
Konfidenzintervallen
Wilcoxon-Rangsummen-Test I
Nichtparametrische Alternative zum Zweistichproben-t-Test, Vergleich
bzgl. der Mediane µ̃X und µ̃Y
Testvoraussetzung: Zwei unabhängige Zufallsvariablen, deren
Verteilungen die gleiche Form besitzen
P
Teststatistik:W = ni=1 rg (Xi )
mit rg (Xi ): Rang der Beobachtung Xi in der gepoolten Stichprobe
(X1 , . . . , Xn , Y1 , . . . , Ym )
Bei Bindungen arithmetisches Mittel der Ränge verwenden.
Der Annahmebereich eines zweiseitigen Tests zum Signifikanzniveau α
entspricht dem zugehörigem (1 − α)-Konfidenzintervall.
Test ist äquivalent zum Mann-Whitney-U-Test
23 / 30
24 / 30
Wilcoxon-Tests
Wilcoxon-Tests
Wilcoxon-Rangsummen-Test II
Wilcoxon-Vorzeichen-Rang-Test I
Nichtparametrische Alternative zum gepaarten t-Test, Vergleich bzgl.
der Mediane µ̃X und µ̃Y
Testentscheidung
H0
H1
H0 wird abgelehnt, wenn
µ̃X ≤ µ̃Y µ̃X > µ̃Y W > wn,m;1−α
µ̃X ≥ µ̃Y µ̃X < µ̃Y W < wn,m;α
µ̃X = µ̃Y µ̃X 6= µ̃Y W > wn,m;1−α/2 oder W < wn,m;α/2
mit wn,m;α α-Quantil der tabellierten Verteilung
Testvoraussetzung: Paarweise Stichproben (X, Y) mit D = X − Y
symmetrisch verteilt
Teststatistik:
PW = min(W− , W+ )
mit W− = Pni=1 I (Di < 0)rg (|Di |)
und W+ = ni=1 I (Di > 0)rg (|Di |)
mit Indikatorfunktion I
Bei Bindungen arithmetisches Mittel der Ränge verwenden.
Bei Di = 0, Rangwerte gleichmäßig aufteilen oder diese Wertepaare
streichen und n korrigieren.
Für n oder m >25 Approximation durch Normalverteilung
N(n(n + m + 1)/2, nm(n + m + 1)/12).
Anwendungsbeispiele: Blutparameter mit rechtsschiefer Verteilung,
kleine Stichproben
26 / 30
25 / 30
χ2 -Unabhängigkeitstest
Wilcoxon-Tests
χ2 -Unabhängigkeitstest I
Wilcoxon-Rangsummen-Test II
Testentscheidung
H0
H1
µ̃X ≤ µ̃Y µ̃X > µ̃Y
µ̃X ≥ µ̃Y µ̃X < µ̃Y
µ̃X = µ̃Y µ̃X 6= µ̃Y
mit wn;α α-Quantil der
Frage: Sind zwei nominale Merkmale unabhängig voneinander?
Kontingenztafel für zwei Merkmale X und Y mit k bzw. m
Ausprägungen und Häufigkeiten hij , i = 1, . . . k, j = 1, . . . m
Merkmal Y
Merkmal X
1
2
...
m
1
h11 h12 . . . h1p h1.
2
h21 h22 . . . h2p h2.
..
..
..
..
..
..
.
.
.
.
.
.
H0 wird abgelehnt, wenn
W > wn;1−α
W < wn;α
W > wn;1−α/2 oder W < wn;α/2
tabellierten Verteilung
Für n > 30 Approximation durch Normalverteilung
1
N( 14 n(n + 1), 24
n(n + 1)(2n + 1)).
k
Anwendungsbeispiele: wie beim t-Test für Paardifferenzen,
insbesondere für kleine Stichproben
hk1
h.1
hk2
h.2
...
...
hkp
h.p
hk.
n
h .h.
Testvoraussetzung: n ≥ 40 und i n j “groß”
Hypothesen:
H0 : P(X = i, Y = j) = P(X = i) · P(Y = j) für alle i,j
H1 : P(X = i, Y = j) 6= P(X = i) · P(Y = j) für mind. ein Paar (i,j)
27 / 30
28 / 30
χ2 -Unabhängigkeitstest
χ2 -Unabhängigkeitstest
χ2 -Unabhängigkeitstest II
Die Chi-Quadrat-Verteilung
∼ χ2 ((k − 1)(m − 1)) (approx.)
df=1
df=2
df=3
df=4
df=5
0.4
hi .h.j 2
)
n
hi .h.j
n
(hij −
0.1
0.2
0.3
Testentscheidung:
H0 ablehnen, wenn χ2 > χ21−α ((k − 1)(m − 1)),
mit χ21−α ((k − 1)(m − 1)) (1 − α)-Quantil der χ2 -Verteilung mit
(k − 1)(m − 1) Freiheitsgraden
Spezialfall Vierfeldertafel: χ2 ∼ χ2 (1) (approx.)
Falls Testvoraussetzungen nicht erfüllt sind: Exakter Test von Fisher
0.0
Teststatistik:
P P
χ2 = ki=1 m
j=1
0.5
Dichte der χ2−Verteilung mit df Freiheitsgraden
0
2
4
6
8
10
x
29 / 30
30 / 30
Herunterladen