Grundprinzipien Einführung Helfen Wadenwickel, Fieber zu senken? Statistisches Lernen Werden mehr Jungen als Mädchen geboren? Einheit 4: Statistisches Testen Haben Schüler heute einen höheren oder niedrigeren BMI als vor 10 Jahren? Dr. rer. nat. Christine Pausch Gibt es vor und nach der OP einen Unterschied bzgl. Blutdruck? Sind Diabetiker eher übergewichtig? Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 Frage Sind beobachtete Effekte in einer Stichprobe systematisch? 1 / 30 Grundprinzipien 2 / 30 Grundprinzipien Grundidee Beispiel “Lady Tasting Tea” Statistischer Test als objektive Entscheidungsregel anhand einer Stichprobe 1 Statistische Hypothese (“Nullhypothese”) 2 Berechnen der Wahrscheinlichkeit, dass beobachtete Daten (oder extremere) unter der Nullhypothese zustande gekommen sind. Testentscheidung: 3 Jemand behauptet, erkennen zu können, ob in eine Tasse erst Milch und dann Tee geschenkt wurde oder andersherum. Sie möchten überprüfen, ob dies stimmt und schlagen 10 Versuche vor. Große Wahrscheinlicheit: Hypothese beibehalten Kleine Wahrscheinlichkeit: Hypothese ablehnen Problem: Wie kann man beurteilen, ob Fähigkeit wirklich vorliegt oder nur geraten wird? Statistisches Falsifizierungsprinzip/Indirekter Beweis Ziel: Nullhypothese ablehnen, aber “Im Zweifel für den Angeklagten”, d.h. für die Zufallserklärung 3 / 30 4 / 30 Grundprinzipien Grundprinzipien Experiment “Lady Tasting Tea” Statistischer Test “Lady tasting tea” Nullhypothese H0 : Die Person rät nur, d.h. P(Xi = 1) = π ≤ 0.5 Alternativhypothese H1 : π > 0.5 Zufallsexperiment: 1 Tee-Milch-Reihenfolge richtig erkannt Xi = 0 sonst Prüfgröße/Teststatistik X Kritischer Wert c: wenn X > c, H0 ablehnen Ablehnungsbereich/kritischer Bereich enthält mögliche Werte der Prüfgröße in Richtung der Alternative, die unter H0 unwahrscheinlich sind mit i = 1, . . . , n Wiederholungen Anzahl der richtig erkannten Versuche: Zufallsvariable X = Pn i=1 Xi Signifikanzniveau α ist vorher festgelegte, maximal zulässige Irrtumswahrscheinlichkeit. Sei hier α = 0.05. X ∼ B(n, π) p-Wert: Wahrscheinlichkeit, Stichprobenergebnis oder extremeres unter der Nullhypothese zu erhalten 5 / 30 6 / 30 Grundprinzipien Grundprinzipien Exakter Binomialtest “Lady tasting tea” Ablaufschema eines statistischen Hypothesentests Wahrscheinlichkeitsverteilung für n = 10 und π = 0.5: x P(X = x) 5 0.246 6 0.205 7 0.117 8 0.044 9 0.010 10 0.001 1 einseitig: H0 : “≤” gegen H1 : “>” bzw. H0 : “≥” gegen H1 : “<” zweiseitig: H0 : “=” gegen H1 : “6=” PH0 (X = 10) = 0.001 PH0 (X ∈ {9, 10}) = 0.010 + 0.001 = 0.011 PH0 (X ∈ {8, 9, 10}) = 0.044 + 0.010 + 0.001 = 0.055 PH0 (X ∈ {7, 8, 9, 10}) = 0.117 + 0.044 + 0.010 + 0.001 = 0.172 Testentscheidung bei α = 0.05: 9 oder 10 richtige Versuche: PH0 (X ∈ {9, 10}) = 0.011 < α ⇒ Nullhypothese ablehnen Interpretation: Falls die Person tatsächlich nur geraten hat (mit π ≤ 0.5), ist ein solches Ergebnis sehr unwahrscheinlich. Daher lehnen wir die Annahme mit α = 0.05 ab. Weniger als 9 richtige Versuche: Die Nullhypothese kann nicht 7 / 30 verworfen werden. Formulierung der Null- und Alternativhypothese 2 Wahl des Signifikanzniveaus α 3 Wahl eines statistischen Tests/Teststatistik, Prüfen der Testvoraussetzungen 4 Bestimmung des kritischen Bereichs/Ablehnbereichs Berechnung der Prüfgröße aus den erhobenen Daten: 5 Maß für beobachteten Effekt Zufallsvariable mit bekannter Verteilung (“Prüfverteilung”) unter H0 6 Testentscheidung: Vergleich der berechneten Prüfgröße mit Quantil der Prüfverteilung 8 / 30 Grundprinzipien Grundprinzipien Alternatives Ablaufschema (Software) Signifikanzniveau α A-priori festgelegt Typischerweise 0.01, 0.05 oder 0.1 1 p-Wert Wird aus beobachteten Daten errechnet Formulierung der Null- und Alternativhypothese einseitig: H0 : “≤” gegen H1 : “>” bzw. H0 : “≥” gegen H1 : “<” zweiseitig: H0 : “=” gegen H1 : “6=” Wahrscheinlichkeit, den berechneten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert unter H0 zu erhalten 2 Wahl des Signifikanzniveaus α 3 Wahl eines statistischen Tests/Teststatistik, Prüfen der Testvoraussetzungen Ist kein Maß für die Stärke eines Effekts Testentscheidung: Vergleich des p-Werts (Software) mit vorgegebenem Signifikanzniveau Wird standardmäßig von Statistiksoftware ausgegeben 4 Sollte explizit berichtet werden Testentscheidung p ≤ α: Nullhypothese ablehnen p > α: Nullhypothese beibehalten 9 / 30 10 / 30 Grundprinzipien Grundprinzipien Richtige und falsche Testentscheidungen H0 wahr H0 falsch Güte eines Tests Testentscheidung H0 beibehalten H0 verwerfen richtig falsch 1−α Fehler 1. Art: α falsch richtig Fehler 2. Art: β 1 − β (Power) Testgüte (Power) Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt auch aufzudecken. Die Power steigt mit Erhöhung der Fallzahl. wenn die Irrtumswahrscheinlichkeit α größer gewählt wird. α= P(H0 verwerfen | H0 wahr ) β= P(H0 beibehalten | H0 falsch ) je größer der aufzudeckende Effekt ist. 11 / 30 12 / 30 Grundprinzipien Grundprinzipien Fallzahlplanung Fehlinterpretationen statistischer Testentscheidungen Fallzahl Die Fallzahl, die benötigt wird, um einen bestimmten Effekt nachweisen zu können, kann in Abhängigkeit von α und β berechnet werden. Die Fallzahl steigt je kleiner die Irrtumswahrscheinlichkeit α gewählt wird. je größer die Power 1 − β gewählt wird. je kleiner der nachzuweisende Effekt angenommen wird. Beibehalten der Nullhypothese bedeutet nicht, dass diese wahr ist, sondern nur, dass Zufallsbefund nicht ausgeschlossen werden kann. Tatsächlicher Effekt womöglich zu klein, um mit vorhandener Fallzahl nachgewiesen werden zu können (“geringe Power”). Beibehalten der Nullhypothese bedeutet nicht, dass diese nachgewiesen wurde. Dazu ggf. Umformulierung der Null- und Alternativhypothese notwendig, Beispiel Äquivalenztests. Ablehnen der Nullhypothese bedeutet nicht, dass statistisch signifikanter Effekt auch inhaltlich relevant ist. Bei großen Fallzahlen können auch kleine, ggf. unbedeutende Effekte nachgewiesen werden. Deshalb: Effektstärke angeben! Der p-Wert ist nicht die Wahrscheinlichkeit, dass die Nullhypothese wahr ist. Die Irrtumswahrscheinlichkeit α wird bei multiplem Testen nicht eingehalten. 14 / 30 13 / 30 Grundprinzipien Grundprinzipien Wahl des geeigneten Tests Kleine Test-Übersicht Tests auf Zusammenhang zweier Merkmale: Nominal-skalierte Daten: unabhängige Stichproben: z.B. exakter Test von Fisher, χ2 -Unabhängigkeits-Test abhängige Stichproben: z.B. Mc-Nemar-Test Abhängig von Fragestellung, z.B. Mittelwertsvergleich Anzahl der Stichproben (Gruppen) Ordinal-skalierte Daten und unabhängige Stichproben: z.B. Trend-Test Vergleich von Lagemaßen (metrische Daten): Ggf. Art der Stichproben: abhängig/verbunden/gepaart oder unabhängig/unverbunden/ungepaart Normwertvergleich (eine Stichprobe): z.B. t-Test, Vorzeichentest Zwei unabhängige Stichproben: z.B. t-Test/Welch-Test, Mann-Whitney-U-Test/Wilcoxon-Rangsummentest Zwei abhängige Stichproben: z.B. t-Test für Paardifferenzen, Wilcoxon-Vorzeichen-Rang-Test Mehr als zwei Stichproben: ANOVA Skalenniveau des Merkmals Testvoraussetzungen: Umfang der Stichprobe(n) (bei approximativen Tests) Verteilungsannahme (parametrische/nichtparametrische Tests) Verteilungstests/Anpassungstest, z.B. Kolmogorov-Smirnov-Test auf Normalverteilung Zensierte Ereigniszeiten: z.B. Log-Rang-Test 15 / 30 16 / 30 Der t-Test Der t-Test Der t-Test zum Vergleich von Mittelwerten Einstichproben-t-Test I Idee: Mittelwerte von n unabhängigen, normalverteilten Zufallsgrößen mit unbekannter Varianz sind t-verteilt mit n − 1 Freiheitsgraden. Frage: Stimmt Erwartungswert mit bestimmtem Wert µ0 überein? Testvoraussetzung: Zufallsvariable X ∼ N(µ, σ 2 ), mit σ 2 unbekannt Hypothesen: 0.4 Dichtefunktion der t−Verteilung einseitig: H0 : µ ≤ µ0 gegen H1 : µ > µ0 bzw. H0 : µ ≥ µ0 gegen H1 : µ < µ0 zweiseitig: H0 : µ = µ0 gegen H1 : µ 6= µ0 √ 0 Teststatistik: T = X̄ −µ n ∼ t(nP − 1) s 1 2 mit Stichprobenvarianz s = n−1 ni=1 (Xi − X̄ )2 , empirischem Mittelwert X̄ und Stichprobengröße n 0.1 0.2 0.3 t(2) t(5) t(25) N(0,1) 0.0 Bei bekanntem σ 2 : Gauß-Test mit identischer, aber standardnormalverteilter Teststatistik −4 −2 0 2 4 x 17 / 30 18 / 30 Der t-Test Der t-Test Einstichproben-t-Test II Welch-Test für zwei unabhängige Stichproben I Frage: Unterscheiden sich zwei Merkmale hinsichtlich ihrer Erwartungswerte? Testvoraussetzung: Unabhängige Zufallsvariablen X ∼ N(µX , σX2 ) und Y ∼ N(µY , σY2 ), mit σX2 , σY2 unbekannt Hypothesen: Kritischer Bereich H0 H1 Kritischer Bereich K µ ≤ µ0 µ > µ0 K = [tn−1;1−α ; ∞] µ ≥ µ0 µ < µ0 K = [−∞; −tn−1;1−α ] µ = µ0 µ 6= µ0 K = [−∞; −tn−1;1−α/2 ] ∪ [tn−1;1−α/2 ; ∞] mit tn;p p-Quantil der t-Verteilung mit n Freiheitsgraden Testentscheidung H0 H1 µ ≤ µ0 µ > µ0 µ ≥ µ0 µ < µ0 µ = µ0 µ 6= µ0 einseitig: H0 : µX ≤ µY gegen H1 : µX > µY bzw. H0 : µX ≥ µY gegen H1 : µX < µY zweiseitig: H0 : µX = µY gegen H1 : µX 6= µY H0 wird abgelehnt, wenn T > tn−1;1−α T < −tn−1;1−α |T | > tn−1;1−α/2 Teststatistik: T = Für n ≥ 30 kann t(n-1)-Quantil durch N(0,1)-Quantile ersetzt werden. Anwendungsbeispiele: Haben Studenten einen höheren IQ als den Referenzwert 100? Sind Maschinen/Verfahren richtig kalibriert? 19 / 30 rX̄ −Ȳ s2 X nX s2 ∼ t(ν) + nY Y mit Stichprobenvarianzen sX2 und sY2 , empirischen Mittelwerten X̄ und Ȳ und Stichprobengrößen nX und nY Bei bekannten σX2 und σY2 : Gauß-Test mit identischer, aber standardnormalverteilter Teststatistik Für σX2 = σY2 : t-Test 20 / 30 Der t-Test Der t-Test Welch-Test für zwei unabhängige Stichproben II t-Test für Paardifferenzen I Kritischer Bereich H0 H1 Kritischer Bereich K µX ≤ µY µX > µY K = [tν;1−α ; ∞] µX ≥ µY µX < µY K = [−∞; −tν;1−α ] µX = µY µX 6= µY K = [−∞; −tν;1−α/2 ] ∪ [tν;1−α/2 ; ∞] Testentscheidung H0 H1 H0 wird abgelehnt, wenn µX ≤ µY µX > µY T > tν;1−α µX ≥ µY µX < µY T < −tν;1−α µX = µY µX 6= µY |T | > tν;1−α/2 Für n, m ≥ 30 kann t(ν)-Quantil durch N(0,1)-Quantile ersetzt werden. Anwendungsbeispiele: Haben Männer einen höheren Blutdruck als Frauen? Allgemein Gruppenvergleich in zweiarmigen, randomisierten Studien Frage: Unterscheiden sich zwei gepaarte Merkmale hinsichtlich ihrer Erwartungswerte? Testvoraussetzung: Paarweise Stichproben (X , Y ), mit 2) D = X − Y ∼ N(µD , σD Hypothesen: einseitig: H0 : µD ≤ 0 gegen H1 : µD > 0 bzw. H0 : µD ≥ 0 gegen H1 : µD < 0 zweiseitig: H0 : µD = 0 gegen H1 : µD 6= 0 √ Teststatistik: T = sD̄D n ∼ t(n − 1) 1 Pn 2 mit Stichprobenvarianz sD2 = n−1 i=1 (Di − D̄) , empirischem Mittelwert D̄ und Stichprobengröße n Durchführung analog zum Einstichproben-t-Test Anwendungsbeispiele: Typischerweise Vorher-Nachher-Vergleiche, auch bei paarweise vorhandenen Körperteilen oder Partner-Vergleichen 21 / 30 Der t-Test 22 / 30 Wilcoxon-Tests Zusammenhang von Hypothesentests und Konfidenzintervallen Wilcoxon-Rangsummen-Test I Nichtparametrische Alternative zum Zweistichproben-t-Test, Vergleich bzgl. der Mediane µ̃X und µ̃Y Testvoraussetzung: Zwei unabhängige Zufallsvariablen, deren Verteilungen die gleiche Form besitzen P Teststatistik:W = ni=1 rg (Xi ) mit rg (Xi ): Rang der Beobachtung Xi in der gepoolten Stichprobe (X1 , . . . , Xn , Y1 , . . . , Ym ) Bei Bindungen arithmetisches Mittel der Ränge verwenden. Der Annahmebereich eines zweiseitigen Tests zum Signifikanzniveau α entspricht dem zugehörigem (1 − α)-Konfidenzintervall. Test ist äquivalent zum Mann-Whitney-U-Test 23 / 30 24 / 30 Wilcoxon-Tests Wilcoxon-Tests Wilcoxon-Rangsummen-Test II Wilcoxon-Vorzeichen-Rang-Test I Nichtparametrische Alternative zum gepaarten t-Test, Vergleich bzgl. der Mediane µ̃X und µ̃Y Testentscheidung H0 H1 H0 wird abgelehnt, wenn µ̃X ≤ µ̃Y µ̃X > µ̃Y W > wn,m;1−α µ̃X ≥ µ̃Y µ̃X < µ̃Y W < wn,m;α µ̃X = µ̃Y µ̃X 6= µ̃Y W > wn,m;1−α/2 oder W < wn,m;α/2 mit wn,m;α α-Quantil der tabellierten Verteilung Testvoraussetzung: Paarweise Stichproben (X, Y) mit D = X − Y symmetrisch verteilt Teststatistik: PW = min(W− , W+ ) mit W− = Pni=1 I (Di < 0)rg (|Di |) und W+ = ni=1 I (Di > 0)rg (|Di |) mit Indikatorfunktion I Bei Bindungen arithmetisches Mittel der Ränge verwenden. Bei Di = 0, Rangwerte gleichmäßig aufteilen oder diese Wertepaare streichen und n korrigieren. Für n oder m >25 Approximation durch Normalverteilung N(n(n + m + 1)/2, nm(n + m + 1)/12). Anwendungsbeispiele: Blutparameter mit rechtsschiefer Verteilung, kleine Stichproben 26 / 30 25 / 30 χ2 -Unabhängigkeitstest Wilcoxon-Tests χ2 -Unabhängigkeitstest I Wilcoxon-Rangsummen-Test II Testentscheidung H0 H1 µ̃X ≤ µ̃Y µ̃X > µ̃Y µ̃X ≥ µ̃Y µ̃X < µ̃Y µ̃X = µ̃Y µ̃X 6= µ̃Y mit wn;α α-Quantil der Frage: Sind zwei nominale Merkmale unabhängig voneinander? Kontingenztafel für zwei Merkmale X und Y mit k bzw. m Ausprägungen und Häufigkeiten hij , i = 1, . . . k, j = 1, . . . m Merkmal Y Merkmal X 1 2 ... m 1 h11 h12 . . . h1p h1. 2 h21 h22 . . . h2p h2. .. .. .. .. .. .. . . . . . . H0 wird abgelehnt, wenn W > wn;1−α W < wn;α W > wn;1−α/2 oder W < wn;α/2 tabellierten Verteilung Für n > 30 Approximation durch Normalverteilung 1 N( 14 n(n + 1), 24 n(n + 1)(2n + 1)). k Anwendungsbeispiele: wie beim t-Test für Paardifferenzen, insbesondere für kleine Stichproben hk1 h.1 hk2 h.2 ... ... hkp h.p hk. n h .h. Testvoraussetzung: n ≥ 40 und i n j “groß” Hypothesen: H0 : P(X = i, Y = j) = P(X = i) · P(Y = j) für alle i,j H1 : P(X = i, Y = j) 6= P(X = i) · P(Y = j) für mind. ein Paar (i,j) 27 / 30 28 / 30 χ2 -Unabhängigkeitstest χ2 -Unabhängigkeitstest χ2 -Unabhängigkeitstest II Die Chi-Quadrat-Verteilung ∼ χ2 ((k − 1)(m − 1)) (approx.) df=1 df=2 df=3 df=4 df=5 0.4 hi .h.j 2 ) n hi .h.j n (hij − 0.1 0.2 0.3 Testentscheidung: H0 ablehnen, wenn χ2 > χ21−α ((k − 1)(m − 1)), mit χ21−α ((k − 1)(m − 1)) (1 − α)-Quantil der χ2 -Verteilung mit (k − 1)(m − 1) Freiheitsgraden Spezialfall Vierfeldertafel: χ2 ∼ χ2 (1) (approx.) Falls Testvoraussetzungen nicht erfüllt sind: Exakter Test von Fisher 0.0 Teststatistik: P P χ2 = ki=1 m j=1 0.5 Dichte der χ2−Verteilung mit df Freiheitsgraden 0 2 4 6 8 10 x 29 / 30 30 / 30