Gepaarte t-Tests das Kleingedruckte ... ● ● Datenverteilung ~ Normalverteilung QQ-plot statistischer Test (Shapiro-Wilk, Kolmogorov-Smirnov) wenn nicht : nicht-parametrische Tests gleiche Varianz (2-Proben Tests, ungepaart) wenn ja : Student's t-Test wenn nein : Welsch t-Test ● unabhängige Proben (2-Proben Tests, ungepaart) ● Voraussetzungen nie 100% erfüllt : wie robust ist der t-Test ? Normalität überprüfen ● ● um zu testen, ob wir den t-Test anwenden können, müssen wir zuerst testen, ob die Testdaten normalverteilt sind … allgemeiner Vergleich von Verteilungen Prinzip QQplot : graphische Überprüfung Normalitätstest: Shapiro-Wilks Test, Kolmogorov-Smirnov Test,... Überprüfung der Normalität > n <- 10 > x <- rnorm(n) ## Normalverteilung > shapiro.test(x) Shapiro-Wilk normality test data: x W = 0.977, p-value = 0.9471 H0 : Daten sind normalverteilt in diesem Fall wird H0 nicht verworfen → Daten normalverteilt > n <- 10 > x <- rt(n,df=2) ## t-Verteilung > shapiro.test(x) Shapiro-Wilk normality test data: x W = 0.6966, p-value = 0.0008003 H0 : Daten sind normalverteilt in diesem Fall wird H0 verworfen → Daten nicht normalverteilt Normalität überprüfen ● Kolmogorov-Smirnov Test nicht parametrischer Test, wird benutzt um 1-2 Datensätze zu Vergleichen ● ● two-samples : 2 Datensätze miteinander one-sample : 1 Datensatz vs. theoretische Verteilung Schätzer: D = Wert der größten Abweichung zwischen den kumul. Verteilungen H0 : beide Datensätze stammen aus der gleichen Verteilung → kritische Werte für ein bestimmtes Signifikanzniveau α und Anzahl n von Werten sind tabelliert (hier ein Link). > ks.test(x=X,y="pnorm") One-sample Kolmogorov-Smirnov test data: X D = 0.1978, p-value = 0.03441 alternative hypothesis: two-sided Beispiel : one-sample KS ● Sind die Cholesterinwerte normal verteilt ? (H0 : ja !) q1 78 165 177 183 191 194 195 196 203 213 215 227 228 230 238 242 248 249 255 263 ● Parameter einer entsprechenden Normalverteilung : ● ● ● q0 Mittelwert : m = 209.5 Standardabweichung : s = 41.67 q0 = Quantile der beobachteten Werte q1 = Quantile der Normalverteilung N(m,s) Grösste Differenz q0/q1 : 0.129 Entsprechender p-Wert für 20 Datenpunkte: p = 0.85 → H0 kann NICHT verworfen werden ! also können wir annehmen, dass die Werte normalverteilt sind ! 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x 78 165 177 183 191 194 195 196 203 213 215 227 228 230 238 242 248 249 255 263 q0 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 q1 0.001 0.143 0.218 0.262 0.329 0.355 0.364 0.373 0.438 0.533 0.552 0.663 0.671 0.689 0.753 0.782 0.822 0.828 0.863 0.900 D 0.001 0.093 0.118 0.112 0.129 0.105 0.064 0.023 0.038 0.083 0.052 0.113 0.071 0.039 0.053 0.032 0.022 0.022 0.037 0.050 Normalität überprüfen ● Kolmogorov-Smirnov Test nicht parametrischer Test, wird benutzt um 1-2 Datensätze zu Vergleichen one-sample : 1 Datensatz vs. theoretische Verteilung > ks.test(x=X,y="pnorm") One-sample Kolmogorov-Smirnov test data: X D = 0.1978, p-value = 0.03441 alternative hypothesis: two-sided two-samples : 2 Datensätze miteinander > ks.test(x=X,y=Y) Two-sample Kolmogorov-Smirnov test data: X and Y D = 0.2, p-value = 0.2719 alternative hypothesis: two-sided Wie kann sich ein Test täuschen ? Was stimmt Was der Test sagt H0 gilt H0 wird verworfen H0 wird nicht verworfen H0 gilt nicht Falsch Positiv oder Typ I Fehler Wahre Positive Test Positive Wahre Negative Falsch Negativ oder Typ II Fehler Test Negative Negative Positive Falsch Positiv Rate = Falsch Positive / Negative einen Test … testen ● wie robust ist ein statistischer Test ? ● ein robuster Test sollte: ● richtige H0 Hypothesen nur in α Prozent der Fälle wiederlegen (Typ I Fehler Rate oder Falsch Positiv Rate = α) falsche H0 Hypothesen oft verwerfen (niedrige Typ II Fehler oder Falsch negative Rate) Robustheit gegenüber Abweichungen von den Voraussetzungen Normalität identische Varianz Beispiel : H0 gilt ● ● ● ● ich ziehe 2 Datenreihen von jeweils 50 Zahlen aus der gleichen Normalverteilung H0 : die Erwartungswerte der 2 Verteilungen sind gleich (stimmt !) ich führe einen t-Test durch (2 Proben, ungepaart) und bestimme den p-Wert ich führe dieses Experiment 1000 durch, und untersuche die Verteilung der p-Werte. unter H0 ist die Verteilung der p-Werte eine Gleichverteilung (Definition des p-Wertes !) in 5% der Fälle habe ich einen p-Wert kleiner als 0.05 in 50% der Fälle habe ich einen p-Wert kleiner als 0.5 Typ I Fehler ● ● Roter Bereich: bei α = 0.05 hätten wir die H0 Hypothese zu Unrecht verworfen → Falsch Positive ! Wie oft wäre das passiert ? in 5% der Fälle (da Gleichverteilung) → Falsch-Positiv Rate wird von α angegeben. 10.000 Test bei denen H0 gilt : Gleichverteilung Beispiel : H0 gilt nicht ● ● ● ● ich ziehe 2 Datenreihen von jeweils N=50 Zahlen aus 2 Normalverteilungen mit unterschiedlichen Erwartungswerten H0 : die Erwartungswerte der 2 Verteilungen sind gleich (stimmt nicht, der Test sollte H0 verwerfen !) ich führe einen t-Test durch (2 Proben, ungepaart) und bestimme den p-Wert ich führe dieses Experiment 1000 durch, und untersuche die Verteilung der p-Werte. Verteilung der P-Werte Viele kleine P-Werte → H0 wird in diesen Fällen verworfen ✔ Einige grosse P-Werte → H0 wird in diesen Fällen NICHT verworfen ✘ Typ II Fehler ● ● ● entstehen, wenn eine falsche H0 hypothese nicht wiederlegt wird → “Falsch Negative” Wahrscheinlichkeit eines Typ II Fehlers : β-Wert die Wahrscheinlichkeit, einen Typ II Fehler nicht zu begehen nennt man die Power eines Tests diese Fläche β entspricht den falsch Negativen: H0 wird nicht verworfen Typ II Fehler ● ● ● ● 2 Datensätze der Größe N Normalverteilung, mu=0 Normalverteilung, mu=0.2 hier gilt H0 also nicht t-Test → p-Werte für verschiedene N Fazit : mit steigender Probengröße hat der Test immer mehr Power Power eines Tests ● Power 1-β hängt ab von Signifikanz level α Probengröße N Effektgröße : wie stark weicht der tatsächliche Effekt von H0 ab ? Power Hohes Signifikanzlevel Niedriges Signifikanzlevel Grosse Probengrösse Kleine Probengrösse Grosse Effektgrösse Kleine Effektgrösse Beispiel : Pinguine ● ● ● ● Ich untersuche Populationen von Pinguinen in der Antarktis 2 Arten Humboldtpinguine : μH=15kg, σH Königspinguine: μK=16kg, σK Ich fange Gruppen von N Pinguinen, berechne das Durschnittsgewicht m, und bestimme, ob es HP sind oder nicht H0: es sind Humboldtpinguine Verteilungen der Mittelwerte Verteilung der Mittelwerte μ = μH σ = σH/√N H0 : es handelt sich um Humboldtpinguine : Verwerfungsbereich von H0 : nicht Verwerfungsbereich von H0 Verteilung der Mittelwerte μ = μK σ = σK/√N Typ II Fehler ● ● Bei festgelegtem α kann man N berechnen, sodass β einen bestimmen Wert nicht überschreitet. Beispiel: der Test soll bei einem Gewichtsunterschied von 1 kg eine Power von 60% haben und eine Signifikanz von 5% → N ~ 30 : Verwerfungsbereich von H0 : nicht Verwerfungsbereich von H0 Nicht – parametrische Tests ● ● setzen keine Bedingung auf die Verteilung der Werte werden angewendet, wenn Normalitätsbedingungen der t-Tests nicht erfüllt sind. ● anstatt der Werte werden die Ränge dieser Werte benutzt ● Wilcoxon Rang Tests Ungepaarter Test : Wilcoxon rank sum test / Mann-Whitney U-test Gepaarter Test : Wilcoxon signed rank test Wilcoxon Rank Sum Test / Mann-Whitney U Test – Zwei ungepaarte Proben – ● ● ● Werte der 2 Proben werden zusammengelegt, und nach steigenden Werten geordnet R1 ist die Summe der n1 Ränge der ersten Probe* Teststatistik : R1 = 59 > wilcox.test(x1,x2) Wilcoxon rank sum test data: x1 and x2 W = 23, p-value = 0.3823 alternative hypothesis: true location shift is not equal to 0 Probe 1 ist per Definition die mit dem kleinsten R * W = 23 Wilcoxon signed rank Test – zwei gepaarte Proben – ● Di : Differenzen der Paare ● Ri : Ränge der |Di| ● Teststatistik : ● ● Sind die positiven Differenzen größer/kleiner als die negativen ? H0: die positiven/negativen Differenzen haben gleiche Rangverteilung Wilcoxon signed rank Test – Beispiel : Behandlung der Anorexie – > X Prior Post Diff AbsDiff ranks SignedRanks 1 76.9 76.8 -0.1 0.1 1 -1 2 79.6 76.7 -2.9 2.9 2 -2 3 81.6 77.8 -3.8 3.8 3 -3 4 89.9 93.8 3.9 3.9 4 4 5 80.5 75.2 -5.3 5.3 5 -5 6 86.0 91.5 5.5 5.5 6 6 7 86.0 91.7 5.7 5.7 7 7 8 94.2 101.6 7.4 7.4 8 8 9 83.5 92.5 9.0 9.0 9 9 10 82.5 91.9 9.4 9.4 10 10 11 87.3 98.0 10.7 10.7 11 11 12 83.3 94.3 11.0 11.0 12 12 13 83.8 95.2 11.4 11.4 13 13 14 77.6 90.7 13.1 13.1 14 14 15 82.1 95.5 13.4 13.4 15 15 16 86.7 100.3 13.6 13.6 16 16 17 73.4 94.9 21.5 21.5 17 17 > W.p <- sum(X[X$Diff>0,'ranks']) > W.m <- sum(X[X$Diff<0,'ranks']) > W.p [1] 142 > W.m [1] 11 > wilcox.test(X$Prior,X$Post,paired=TRUE) Wilcoxon signed rank test data: X$Prior and X$Post V = 11, p-value = 0.0008392 alternative hypothesis: true location shift Hier: beidseitiger Test ! is not equal to 0 Wilcoxon robuster als t-Test ? ● ● ● ● ungepaarter t-Test Wilcoxon rank sum test H0 gilt in allen Fällen immer stärkere Abweichung von der Normalitätsvoraussetzung p-Werte Verteilung weicht bei t-Test von der Gleichverteilung ab ... … aber nicht bei dem Wilcoxon rank-sum test.