Biostatistik, Winter 2011/12 Vergleich zweier Stichproben, nichtparametrische Tests Prof. Dr. Achim Klenke http://www.aklenke.de 11. Vorlesung: 27.01.2012 1/86 Inhalt 1 Tests t-Test 2 Vergleich zweier Stichproben Gepaarter t-Test Ungepaarter t-Test Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Vergleich: Gepaarter vs ungepaarter t-Test 3 Nichtparametrische Lagetests Der Mediantest Wilcoxon Rangsummentest 4 χ2 -Test χ2 -Test 2/86 Tests t-Test t-Test, Problemstellung Merkmal (Messgröße) zufällig und normalverteilt. Erwartungswert µ ∈ R unbekannt. Varianz σ 2 > 0 unbekannt. Hypothese H0 = {µ0 } für ein µ0 ∈ R (Lehrmeinung). Alternative H1 . H1 : µ < µ0 linksseitig, H1 : µ > µ0 rechtsseitig, H1 : µ 6= µ0 beidseitig. Problem Entwickle Test zum Niveau α ∈ (0, 1). 3/86 Vergleich mit Gaußtest Gemeinsam Messwerte normalverteilt, µ unbekannt. Stichprobe x1 , . . . , xn H0 verwerfen, wenn Teststatistik T (x) groß (rechtsseitige Alternative). Anders bei t-Test Varianz σ 2 unbekannt, schätzen durch n 1 X 2 sn−1 = (xi − x)2 n−1 i=1 x − µ0 √ . sn−1 / n t-Quantile tn−1;1−α statt Normal-Quantile zα . Keine Fallzahlplanung möglich, da σ 2 unbekannt. Teststatistik T (x) = Tests t-Test Linksseitige Alternative Verwerfungsregel Alternative H1 ⊂ (−∞, µ0 ). Stichprobe x1 , . . . , xn .Teststatistik T (x) = x − µ0 √ . sn−1 / n Verwirf H0 zugunsten von H1 , falls T (x) ≤ −tn−1;1−α . p-Wert p(x) = tn−1 (T (x)) = 1 − tn−1 (−T (x)). tn−1 Verteilungsfunktion der tn−1 -Verteilung (Tabelle A.4). 5/86 Tests t-Test Rechtsseitige Alternative Verwerfungsregel Alternative H1 ⊂ (µ0 , ∞). Stichprobe x1 , . . . , xn . Teststatistik T (x) = x − µ0 √ . sn−1 / n Verwirf H0 zugunsten von H1 , falls T (x) ≥ tn−1;1−α . p-Wert p(x) = tn−1 (−T (x)) = 1 − tn−1 (T (x)). tn−1 Verteilungsfunktion der tn−1 -Verteilung (Tabelle A.4). 6/86 Tests t-Test Beidseitige Alternative Verwerfungsregel Alternative H1 ⊂ R \ {µ0 }. Stichprobe x1 , . . . , xn . Teststatistik T (x) = x − µ0 √ . sn−1 / n Verwirf H0 zugunsten von H1 , falls |T (x)| ≥ tn−1;1−α/2 . p-Wert p(x) = 2(1 − tn−1 (|T (x)|)). tn−1 Verteilungsfunktion der tn−1 -Verteilung (Tabelle A.4). 7/86 Tests t-Test Beispiel: Straußeneier Straußeneier, Gewicht µ unbekannt, normalverteilt. Konservative Hypothese: µ = µ0 = 110. Alternative H1 : µ 6= 110. Beidseitiger t-Test zum Niveau α = 0.05 mit Stichprobengröße n verwirft H0 , falls x − 110 √ ≥ t9;1−α/2 = t9; 0.975 = 2.2622. |T (x)| = sn−1 / 10 8/86 Tests t-Test Test verwirft H0 , falls x − 110 s /√10 ≥ t9; 0.975 = 2.2622. n−1 Gesammelte Daten i 1 2 3 4 5 6 xi 106 110 100 103 109 101 7 8 9 10 97 103 111 99 Wir berechnen x = 103.9, sn−1 = 4.886 und T (x) = 103.9 − 110 √ = −3.9476. 4.886/ 10 Fazit Wegen |T (x)| = 3.9476 > 2.2622 verwirft der Test H0 gegen H1 zum Niveau 5% 9/86 Tests t-Test Straußeneier, p-Wert Allgemeine Formel p(x) = 2(1 − tn−1 (|T (x)|)). Hier T (x) = −3.9476 Tabelle: t9 (3.9) = 0.99819. p-Wert ist p(x) = 2(1 − t9 (|T (x)|)) = 2(1 − t9 (3.90)) = 0.00362 = 0.362%. Der beidseitige t-Test verwirft zu jedem Niveau α > 0.362%. 10/86 Tests t-Test Anstieg des Niveaus beim Ersetzen tn−1 durch z Für große n können die Quantile von tn−1 durch die von N0,1 ersetzt werden. Fehler im Niveau: n 5 10 20 30 40 50 100 200 Fehler einseitiger Test 0.04 0.016 0.008 0.006 0.004 0.004 0.002 0.001 Fehler zweiseitiger Test 0.08 0.032 0.016 0.011 0.008 0.007 0.004 0.002 11/86 Vergleich zweier Stichproben Gepaarter t-Test Grundproblem Bei n Individuen soll eine Messgröße x unter zwei Versuchsbedingungen gemessen werden. Unterscheiden sich die Mittelwerte der Messungen? 12/86 Vergleich zweier Stichproben Gepaarter t-Test Modellierung (1) (1) Unter Versuchsbedingung 1 sind die Messwerte x1 , . . . , xn unabhängig mit Erwartungswerte µ1 . (2) (2) Unter Versuchsbedingung 2 sind die Messwerte x1 , . . . , xn unabhängig mit Erwartungswerte µ2 . Annahme (Hoffnung!!!): Die Differenzen (1) (2) (1) (2) x1 − x1 , . . . , xn − xn sind (ungefähr) normalverteilt mit unbekannter Varianz σ 2 (und Erwartungswert µ2 − µ1 ). Nullhypothese (H0 ): µ1 = µ2 . Alternative (H1 ): µ1 = 6 µ2 µ1 < µ2 µ1 > µ2 (beidseitig) (rechtsseitig) (linksseitig). 13/86 Vergleich zweier Stichproben Gepaarter t-Test Verfahren (2) (1) Unter der Nullhypothese sind die Differenzen xk = xk − xk unabhängig normalverteilt mit unbekannter Varianz σ 2 und Erwartungswert µ = µ2 − µ1 = 0. Also verfahren wir jetzt wie im bekannten t-Test: Teststatistik T (x) = wobei x √ , sn−1 / n n n k=1 k=1 1X 1 X (2) (1) x= xk = (xk − xk ) n n ist und n 2 sn−1 1 X = (xi − x)2 . n−1 k=1 14/86 Vergleich zweier Stichproben Gepaarter t-Test Linksseitige Alternative Verwerfungsregel Nullhypothese (H0 ): µ2 = µ1 Alternative (H1 ): µ2 < µ1 . Verwirf H0 zugunsten von H1 , falls T (x) ≤ −tn−1;1−α . p-Wert p(x) = tn−1 (T (x)) = 1 − tn−1 (−T (x)). tn−1 Verteilungsfunktion der tn−1 -Verteilung (Tabelle A.4). 15/86 Vergleich zweier Stichproben Gepaarter t-Test Rechtsseitige Alternative Verwerfungsregel Nullhypothese (H0 ): µ2 = µ1 Alternative (H1 ): µ2 > µ1 . Verwirf H0 zugunsten von H1 , falls T (x) ≥ tn−1;1−α . p-Wert p(x) = tn−1 (−T (x)) = 1 − tn−1 (T (x)). tn−1 Verteilungsfunktion der tn−1 -Verteilung (Tabelle A.4). 16/86 Vergleich zweier Stichproben Gepaarter t-Test Beidseitige Alternative Verwerfungsregel Nullhypothese (H0 ): µ2 = µ1 Alternative (H1 ): µ2 = 6 µ1 . Verwirf H0 zugunsten von H1 , falls |T (x)| ≥ tn−1;1−α/2 . p-Wert p(x) = 2(1 − tn−1 (|T (x)|)). tn−1 Verteilungsfunktion der tn−1 -Verteilung (Tabelle A.4). 17/86 Vergleich zweier Stichproben Gepaarter t-Test Beispiel: Orientierung von Zugvögeln Zugvögel werden einer Beleuchtung mit bestimmter Farbe (grün oder blau) ausgesetzt. Ist das Orientierungsverhalten (magnetischer Kompass) abhängig von der Farbe? 18/86 Vergleich zweier Stichproben Gepaarter t-Test Beispiel: Orientierung von Zugvögeln Zugvögel werden einer Beleuchtung mit bestimmter Farbe (grün oder blau) ausgesetzt. Ist die Genauigkeit der Orientierung (magnetischer Kompass) abhängig von der Farbe? Nullhypothese: Nein. Alternative: Doch. 19/86 Vergleich zweier Stichproben Gepaarter t-Test Beispiel: Orientierung von Zugvögeln Versuchsanordnung Es werden n = 17 Trauerschnäpper in Käfigen einer Beleuchtung mit blauem Licht ausgesetzt (Versuchsbedingung 1) und jeweils in mehreren Durchgängen ihre Flugrichtung ermittelt. Die Flugrichtung wird als Punkt auf einem Kreis dargestellt. Aus allen Punkten auf dem Kreis wird der Schwerpunktvektor ermittelt. Danach der gleiche Versuch mit grünem Licht (Bedingung 2). 20/86 Vergleich zweier Stichproben Gepaarter t-Test Beispiel: Orientierung von Zugvögeln Bestimmung des Schwerpunktvektors Je variabler die Richtungen, desto kürzer der Pfeil! 21/86 Vergleich zweier Stichproben Gepaarter t-Test Beispiel: Orientierung von Zugvögeln Ansatz des Tests (1) Für jeden Vogel i = 1, . . . , 17 bezeichnen wir mit xi die Länge (2) des Schwerpunktvektors bei blauem Licht und mit xi die Länge des Schwerpunktvektors bei grünem Licht. (2) xi = xi (1) − xi . Festlegung des Niveaus: α = 5%. Schwerpunktvektoren sind Mittelwerte vieler zufälliger Beobachtungen, also etwa normalverteilt (zentraler Grenzwertsatz). Also: Gepaarter t-Test mit beidseitiger Alternative und Niveau 5%. Verwerfe H0 , falls |T (x)| > tn−1;1−α/2 = t16;0.975 = 2.12. 22/86 Vergleich zweier Stichproben Gepaarter t-Test Beispiel: Orientierung von Zugvögeln Daten und Durchführung Differenzen xi : −0.05 0.00 0.05 0.10 0.15 0.20 Mittelwert und Streuung: x = 0.0518 sn−1 = 0.0912. x 0.0518 √ = √ ≈ 2.34. sn−1 / n 0.0912/ 17 Also ist |T (x)| = 2.34 > 2.12 = t16;0.975 . p-Wert: t-Statistik T (x) = p(x) = 2(1−tn−1 (|T (x)|)) = 2(1−t16 (2.34)) = 2(1−0.983) = 0.034. 23/86 Vergleich zweier Stichproben Gepaarter t-Test Beispiel: Orientierung von Zugvögeln Fazit Wir können die Hypothese, dass die Farbe des Lichtes keine Rolle für die Orientierungsgenauigkeit der Trauerschnäpper spielt, zum Niveau 5% verwerfen. 24/86 Vergleich zweier Stichproben Ungepaarter t-Test Beispiel: Backenzähne von Hipparions (c): public domain 25/86 Vergleich zweier Stichproben Ungepaarter t-Test Beispiel: Backenzähne von Hipparions Die Daten 77 Backenzähne gefunden in den Chiwondo Beds, Malawi, jetzt in den Sammlungen des Hessischen Landesmuseums, Darmstadt 26/86 Vergleich zweier Stichproben Ungepaarter t-Test Beispiel: Backenzähne von Hipparions Zuordnung Die Zähne wurden zwei Arten zugeordnet: Hipparion africanum ≈ 4 Mio. Jahre, 39 Zähne Hipparion libycum ≈ 2,5 Mio. Jahre, 38 Zähne 27/86 Vergleich zweier Stichproben Ungepaarter t-Test Beispiel: Backenzähne von Hipparions Geologischer Hintergrund Vor 2,8 Mio. Jahren kühlte sich das Klima weltweit ab. Das Klima in Ostafrika: warm-feucht −→ kühl-trocken Hipparion: Laubfresser −→ Grasfresser 28/86 Vergleich zweier Stichproben Ungepaarter t-Test Beispiel: Backenzähne von Hipparions Frage Hipparion: Laubfresser −→ Grasfresser andere Nahrung −→ andere Zähne? Messungen: mesiodistale Länge Lässt sich die Nullhypothese, dass die Zähne gleich sind, zum Niveau 1% verwerfen? 29/86 Vergleich zweier Stichproben Ungepaarter t-Test Die Theorie Annahme: Wir haben zwei unabhängige Stichproben x1,1 , . . . , x1,n1 und x2,1 , . . . , x2,n2 . Die x1,i stammen aus einer Normalverteilung mit (unbekanntem) Mittelwert µ1 und unbekannter Varianz σ 2 > 0, die x2,i aus einer Normalverteilung mit (unbekanntem) Mittelwert µ2 und derselben Varianz σ 2 . 30/86 Vergleich zweier Stichproben Ungepaarter t-Test Die Theorie Seien n1 n2 1 X 1 X x1 = x1,i , x2 = x2,i n1 n2 i=1 i=1 die jeweiligen Stichprobenmittelwerte, v u n1 u 1 X t (x1,i − x1 )2 , s1 = n1 − 1 i=1 v u n2 u 1 X s2 = t (x2,i − x2 )2 , n2 − 1 i=1 die (korrigierten) Stichprobenstreuungen. 31/86 Vergleich zweier Stichproben Ungepaarter t-Test Die Theorie Wir möchten die Hypothese H0 : µ1 = µ2“ prüfen. ” Wenn µ1 = µ2 gilt, so sollte x1 = x2 bis auf ” Zufallsschwankungen“ gelten, denn E[x1 ] = µ1 , E[x2 ] = µ2 . Was ist die Skala der typischen Schwankungen von x2 − x1 ? Var(x1 − x2 ) = σ 2 n11 + n12 Problem (wie bereits im ein-Stichproben-Fall): Wir kennen σ 2 nicht. Wir schätzen es im zwei-Stichproben-Fall durch die gepoolte Stichprobenvarianz (n1 − 1)s12 + (n2 − 1)s22 n1 + n2 − 2 und bilden die Teststatistik x2 − x1 T (x) = q . s n11 + n12 s2 = 32/86 Vergleich zweier Stichproben Ungepaarter t-Test Die Theorie Es gilt dann: Wenn µ1 = µ2 gilt, so ist x2 − x1 T (x) = q . s n11 + n12 t-verteilt mit n1 + n2 − 2 Freiheitsgraden. 33/86 Vergleich zweier Stichproben Ungepaarter t-Test Die Theorie Linksseitige Alternative Verwerfungsregel Nullhypothese (H0 ): µ2 = µ1 Alternative (H1 ): µ2 < µ1 . Verwirf H0 zugunsten von H1 , falls T (x) ≤ −tn1 +n2 −2;1−α . p-Wert p(x) = tn1 +n2 −2 (T (x)) = 1 − tn1 +n2 −2 (−T (x)). tn1 +n2 −2 Verteilungsfunktion der tn1 +n2 −2 -Verteilung (Tabelle A.4). 34/86 Vergleich zweier Stichproben Ungepaarter t-Test Die Theorie Rechtsseitige Alternative Verwerfungsregel Nullhypothese (H0 ): µ2 = µ1 Alternative (H1 ): µ2 > µ1 . Verwirf H0 zugunsten von H1 , falls T (x) ≥ tn1 +n2 −2;1−α . p-Wert p(x) = tn1 +n2 −2 (−T (x)) = 1 − tn1 +n2 −2 (T (x)). tn1 +n2 −2 Verteilungsfunktion der tn1 +n2 −2 -Verteilung (Tabelle A.4). 35/86 Vergleich zweier Stichproben Ungepaarter t-Test Die Theorie Beidseitige Alternative Verwerfungsregel Nullhypothese (H0 ): µ2 = µ1 Alternative (H1 ): µ2 = 6 µ1 . Verwirf H0 zugunsten von H1 , falls |T (x)| ≥ tn1 +n2 −2;1−α/2 . p-Wert p(x) = 2(1 − tn1 +n2 −2 (|T (x)|)). tn1 +n2 −2 Verteilungsfunktion der tn1 +n2 −2 -Verteilung (Tabelle A.4). 36/86 Vergleich zweier Stichproben Ungepaarter t-Test Beispiel: Backenzähne von Hipparions H. libycum H. africanum Die Daten xA = 25.9, sA = 2.2 xA − sA xA + sA xL = 28.4, sL = 4.3 xL − sL xL + sL 25 30 35 40 mesiodistale Länge [mm] 37/86 Vergleich zweier Stichproben Ungepaarter t-Test Beispiel: Backenzähne von Hipparions Die Daten nA = 39, xA = 25.9, sA = 2.2 nL = 38, xL = 28.4, sL = 4.3 Gepoolte Stichprobenstreuung s (nA − 1)sA2 + (nL − 1)sL2 s= nA + nL − 2 r 38 × 2.22 + 37 × 4.32 = = 3.402. 39 + 38 − 2 Es folgt xL − xA 28.4 − 25.9 p T (x) = q = = 3.22. 3.402 × 1/39 + 1/38 s 1 + 1 nA nL 38/86 Vergleich zweier Stichproben Ungepaarter t-Test Beispiel: Backenzähne von Hipparions Durchführung des Tests Nullhypothese µ1 = µ2 , Alternative µ1 6= µ2 (beidseitig). Test verwirft zum Niveau α = 1%, wenn |T (x)| > tnA +nL −2;1−α/2 = t75;0.995 ≈ 2.65. Tatsächliche Daten: |T (x)| = |3.22| > 2.65. p-Wert p(x) = 2(1 − tnA +nL −2 (|T (x)|)) = 2(1 − t75 (3.22)) = 2(1 − 0.998) = 0.002. Diesen p-Wert sollte man nicht glauben, weil die Modellanahmen zu optimistisch waren. 39/86 Vergleich zweier Stichproben Ungepaarter t-Test Beispiel: Backenzähne von Hipparions Fazit Der ungepaarte Zweistichproben-t-Test verwirft die Nullhypothese, dass die mesiodistale Länge der Backenzähne bei Hipparion africanum und Hipparion libycum gleich Erwartungswert hätten, zu Gunsten der zweiseitigen Alternative zum Niveau 1%. 40/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Die Theorie (Welch Test) Annahme: Wir haben zwei unabhängige Stichproben x1,1 , . . . , x1,n1 und x2,1 , . . . , x2,n2 . Die x1,i stammen aus einer Normalverteilung mit (unbekanntem) Mittelwert µ1 und unbekannter Varianz σ12 > 0, die x2,i aus einer Normalverteilung mit (unbekanntem) Mittelwert µ2 und möglicherweise anderer Varianz σ22 . 41/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Die Theorie (Welch Test) Seien v u u s1 = t n 1 1 X (x1,i − x1 )2 , n1 − 1 i=1 v u u s2 = t n 2 1 X (x2,i − x2 )2 , n2 − 1 i=1 die (korrigierten) Stichprobenstreuungen. 42/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Die Theorie (Welch Test) Unter der Hypothese µ1 = µ2 ist die Teststatistik x2 − x1 T (x) = q 2 s1 s2 + n22 n1 ungefähr t-verteilt mit f Freiheitsgraden, wobei f aus den Daten geschätzt wird: 2 2 s22 s1 + n2 n1 f = . s14 s24 + 2 2 n (n −1) n (n −1) 1 1 2 2 43/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Die Theorie (Welch Test) Linksseitige Alternative Verwerfungsregel Nullhypothese (H0 ): µ2 = µ1 Alternative (H1 ): µ2 < µ1 . Verwirf H0 zugunsten von H1 , falls T (x) ≤ −tf ;1−α . p-Wert p(x) = tf (T (x)) = 1 − tf (−T (x)). tf Verteilungsfunktion der tf -Verteilung (Tabelle A.4). 44/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Die Theorie (Welch Test) Rechtsseitige Alternative Verwerfungsregel Nullhypothese (H0 ): µ2 = µ1 Alternative (H1 ): µ2 > µ1 . Verwirf H0 zugunsten von H1 , falls T (x) ≥ tf ;1−α . p-Wert p(x) = tf (−T (x)) = 1 − tf (T (x)). tf Verteilungsfunktion der tf -Verteilung (Tabelle A.4). 45/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Die Theorie (Welch Test) Beidseitige Alternative Verwerfungsregel Nullhypothese (H0 ): µ2 = µ1 Alternative (H1 ): µ2 = 6 µ1 . Verwirf H0 zugunsten von H1 , falls |T (x)| ≥ tf ;1−α/2 . p-Wert p(x) = 2(1 − tf (|T (x)|)). tf Verteilungsfunktion der tf -Verteilung (Tabelle A.4). 46/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Versuchsaufbau im Pflanzenphysiologischen Praktikum In vier Petrischalen werden jeweils exakt 100 Samen Gartenkresse ausgebracht. Gewässert wird mit (A) Aqua dest. (zur Kontrolle) (B) ABS Lösung (C) Saccharose-Lösung (D) Saccharose-ABS-Lösung Nach zwei Tagen wird gezählt, wie viele Samen gekeimt haben. 47/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Im Praktikum wird jeder Versuch dreimal durchgeführt. 0 20 60 100 Versuch A B C D Keime Schale 1 90 85 45 25 Keime Schale 2 88 87 44 27 Keime Schale 3 91 75 45 29 A B C D 48/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test 100 Beispiel: Versuch zur Keimhemmung 0 20 60 (A) (B) (C) (D) A B C D Aqua dest. ABS Saccharose SaccharoseABS Fragen Ist die Hemmung bei B schon vorhanden? Hemmt Saccharose (C)? Hemmt Saccharose mit ABS (D) stärker als Saccharose? Ist die Wirkung von Saccharose und ABS gleich? 49/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Vergleich C gegen D Vermutung: Hemmung bei ABS+Saccharose (D) stärker als bei Saccharose (C). Test zum Niveau α = 1% soll Klarheit schaffen. Nullhypothese: (D) genauso wie (C) Alternative: (D) hemmt stärker. 50/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Vergleich C gegen D, Welch Test Daten xC,1 = 45, xC,2 = 44, xC,3 = 45 xD,1 = 25, xD,2 = 27, xD,3 = 29 Idee: Daten etwa normalverteilt mit unbekannten Mittelwerten µC und µD und unbekannten Varianzen σC2 , σD2 . Nullhypothese (H0 ) µC = µD Alternative (H1 ) µC > µD . Linksseitiger Zwei-Stichproben t-Test mit unterschiedlichen Varianzen (Welch Test). 51/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Vergleich C gegen D, Welch Test xC,1 = 45, xC,2 = 44, xC,3 = 45 xD,1 = 25, xD,2 = 27, xD,3 = 29 xC = 44.67, xD = 27. v u 3 u1 X sC = t (xC,i − xC )2 2 i=1 r 1 = ((45 − 44.67)2 + (44 − 44.67)2 + (45 − 44.67)2 ) 2 = 0.57735. 52/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Vergleich C gegen D, Welch Test xC,1 = 45, xC,2 = 44, xC,3 = 45 xD,1 = 25, xD,2 = 27, xD,3 = 29 xC = 44.67, xD = 27. v u 3 u1 X sD = t (xD,i − xD )2 2 i=1 r 1 = ((25 − 27)2 + (27 − 27)2 + (29 − 27)2 ) = 2. 2 53/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Vergleich C gegen D, Welch Test xC = 44.67, xD = 27. sC = 0.57735, sD = 2. t-Statistik xD − xC 27 − 44.67 q T (x) = q 2 = = −14.7. 2 sC sD 0.57352 22 + 3 + nD 3 nC Freiheitsgrade f = 2 sC nC 4 sC 2 (n −1) nC C + + 2 sD nD 2 4 sD 2 (n −1) nD D = . . . = 2.331. 54/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Vergleich C gegen D, Welch Test t-Statistik T (x) = −14.7. Freiheitsgrade f = 2.331. Der linksseitige Test zum Niveau α = 0.01 verwirft H0 , falls T (x) < −tf ,1−α = −t2.331;0.99 ≈ −5.77. (Alternativ: Tabellenwert t2;0.99 = 6.96) Wegen T (x) = −14.7 < −5.77 verwirft der Test zum Niveau 1% die Nullhypothese. p-Wert p(x) = t2.331 (−14.7) = 0.0012. Alternativ: Tabellenwert p(x) ≤ t2 (−14.7) = 0.0023. 55/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Vergleich C gegen D, Ergebnis Mit Hilfe eines ungepaarten einseitigen t-Tests bei unterschiedlichen Varianzen (Welch Test) wird die Nullhypothese (Saccharose hemmt die Keimung gleich gut wie ein Lösung mit Saccharose und ABS) auf dem Niveau 1% gegen die Alternative (S hemmt nicht so gut wie S+ABS) verworfen. Der p-Wert beträgt p ≤ 0.0023 (bzw. p = 0.0012, wenn man exakt mit dem Computer rechnet, statt den p-Wert nach der Tabelle der t2 -Verteilung anzunähern). 56/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Vergleich C gegen B Hemmt Saccharose (C) genauso gut wie ABS (B)? Zweiseitiger ungepaarter t-Test bei unterschiedlichen Varianzen (Welch Test) zum Niveau α = 1%. 57/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Vergleich C gegen B, Daten xC = 44.67, sC = 0.57735, t-Statistik xB = 82.333. sB = 6.4291. xC − xB T (x) = q 2 = −10.1. sC sB2 + nB nC Freiheitsgrade f = 2.032. Beidseitiger Test verwirft, falls |T (x)| > t2.032;0.995 ≈ t2;0.995 = 9.92. Wegen |T (x)| = 10.1 verwirft der Test zum Niveau 1%. p-Wert 2(1 − t2.032 (10.1)) ≈ 2(1 − t2 (10.1)) = 0.0097 ≈ 0.01. 58/86 Vergleich zweier Stichproben Ungepaarter t-Test bei unterschiedlicher Varianz, Welch Test Beispiel: Versuch zur Keimhemmung Vergleich C gegen B, Ergebnis Der zweiseitige ungepaarte t-Test bei unterschiedlicher Varianz (Welch Test) verwirft die Nullhypothese (Saccharose hemmt Keimung gleich gut wie ABS) gegen die beidseitige Alternative zum Niveau 1%. Der p-Wert ist etwa 0.01. 59/86 Vergleich zweier Stichproben Vergleich: Gepaarter vs ungepaarter t-Test Vergleich: Gepaarter vs ungepaarter t-Test Wenn die Stichprobenlänge unterschiedlich ist, ergibt gepaart“ keinen Sinn. ” Wenn die Stichprobenlänge gleich ist: Sind die Stichproben unabhängig voneinander? Falls ja, dann ungepaart testen. Ein gepaarter Test würde sinnlose Abhängigkeiten unterstellen und hätte auch eine geringere Schärfe. Sind die Stichproben voneinander abhängig? (z.B. Messungen von denselben Individuen bzw. Objekten) Falls ja, dann ist ein gepaarter Test sinnvoll. Bei starker Abhängigkeitsstruktur hat der gepaarte t-Test größere Schärfe (da der Test von Variabilität zwischen den Individuen bereinigt ist) 60/86 Nichtparametrische Lagetests Der Mediantest Beispiel: Medikamententest Bei der Behandlung mit dem etablierten Herzmedikament XY“ ” lebt die Hälfte der Patienten noch acht Jahre oder länger. Bei einem neuen Medikament wurde in einer Langzeitstudie an 20 Patienten festgestellt, wie lange die Patienten noch leben: Patient Nr. 1 2 3 4 5 6 7 8 9 10 Lebensdauer xi 45 0 8 28 4 2 6 23 35 7 Patient Nr. 11 12 13 14 15 16 17 18 19 20 Lebensdauer xi 27 1 4 12 2 24 10 3 27 24 Ist das neue Medikament besser als das etablierte? 61/86 Nichtparametrische Lagetests Der Mediantest Beispiel: Medikamententest Nullhypothese H0 : Beide gleich gut. Alternative H1 : Neues Medikament besser. Formal: Nullhypothese H0 : Alternative H1 : Lebensdauer des neuen Medikaments hat einen Median von höchstens 8 Jahren. Lebensdauer des neuen Medikaments hat einen Median von mehr als 8 Jahren. 62/86 Nichtparametrische Lagetests Der Mediantest Beispiel: Medikamenentest Sei T (x) die Anzahl der Werte xi mit xi ≥ 8. Unter H0 ist für jedes i: 1 P[xi ≥ 8] = . 2 Also ist T (x) ∼ b20,0.5 . Gilt H1 , so ist T (x) ∼ b20,p mit p > 0.5. Große Werte von T (x) stützen H1 . Der p-Wert ist 20 X p= b20,0.5 (k). k=T (x) 63/86 Nichtparametrische Lagetests Der Mediantest Beispiel: Medikamententest Patient Nr. 1 2 3 4 5 6 7 8 9 10 Lebensdauer xi 45 0 8 28 4 2 6 23 35 7 Patient Nr. 11 12 13 14 15 16 17 18 19 20 Lebensdauer xi 27 1 4 12 2 24 10 3 27 24 Wir haben also T (x) = 11 und p= 20 X b20,0.5 (k ) = 0.411. k=11 Die Ergebnisse geben also keinen Hinweis darauf, dass das neue Medikament besser als das etablierte wäre. 64/86 Nichtparametrische Lagetests Der Mediantest Theorie: Mediantest Formale Problemstellung Sei mP der bekannte Median einer gewissen Verteilung P (altes Medikament) und mQ der Median der Verteilung Q (neues Medikament). Daten: x1 , . . . , xn gezogen nach der Verteilung Q. T (x) =Anzahl der Werte xi mit xi > mP . Nullhypothese H0 : mP = mQ Alternative H1 : mP > mQ (linksseitig) mP < mQ (rechtsseitig) mP 6= mQ (beidseitig). 65/86 Nichtparametrische Lagetests Der Mediantest Theorie: Mediantest Linksseitige Alternative mP > mQ p-Wert T (x) p= X k=0 bn,0.5 (k) ≈ 1 − Φ n−1 2 − T (x) p n/4 ! . Verwerfungsregel H0 wird zum Niveau α verworfen, falls p ≤ α. 66/86 Nichtparametrische Lagetests Der Mediantest Theorie: Mediantest Rechtsseitige Alternative: mP < mQ p-Wert p= n X bn,0.5 (k) ≈ 1 − Φ k=T (x) T (x) − n+1 2 p n/4 ! . Verwerfungsregel H0 wird zum Niveau α verworfen, falls p ≤ α. 67/86 Nichtparametrische Lagetests Der Mediantest Theorie: Mediantest Beidseitige Alternative: mP 6= mQ p-Wert T (x) p=2 X bn,0.5 (k) falls T (x) < n/2 k=0 und p=2 n X bn,0.5 (k) falls T (x) > n/2. k=T (x) " In beiden Fällen gilt p ≈ 2 1 − Φ !# T (x) − n − 1 2 p 2 . n/4 Verwerfungsregel H0 wird zum Niveau α verworfen, falls p ≤ α. 68/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Beispiel: Hipparion Reloaded Niemand sagt Ihnen, dass die Größen der Backenzähne normalverteilt sind. Was kann man ohne diese Annahme noch rechnen? 69/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Rangsummen Gegeben zwei Stichproben x1 , x2 , . . . , xm und y1 , y2 , . . . , yn . Setze Ui = Rang von xi in den y1 , . . . , yn = Anzahl der j mit yj < xi und definiere die Rangsumme U(x, y ) = m X Ui . i=1 Beispiel mit m = 4 und n = 7 xi 4 1.3 5.1 2 yj 11 3 5 4.2 6.1 2.5 14 Wert 1.3 2 2.5 3 4 4.2 5 5.1 6.1 11 14 Rang Ui 0 0 2 4 Rangsumme U(x, y) = 0 + 0 + 2 + 4 = 6. 70/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Rangsummen Idee Entstammen die xi und yj der gleichen Verteilung (H0 ), so sollte Ui ≈ n/2 sein und U ≈ mn . 2 U(x, y) groß zeigt an, dass (xi ) tendenziell größer ist als (yj ). U(x, y) klein zeigt an, dass (xi ) tendenziell kleiner ist als (yj ). 71/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Rangsummen Die Verteilung Um,n von U(x, y) unter H0 ist tabelliert und heißt Wilcoxon-U-Verteilung mit Parametern m und n. Für große m, n ist U(x, y) − mn 2 q ∼approx. N0,1 . mn(m+n+1) 12 Also können wir das Quantil um,n;α durch das Quantil zα approximativ ausrechnen: r mn mn(m + n + 1) um,n;α ≈ + zα . 2 12 72/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Wilcoxon Rangsummentest Die Theorie Formale Problemstellung Die Werte der Stichprobe x1 , . . . , xm sind unabhängig und nach der Verteilung P gezogen. Die Werte der Stichprobe y1 , . . . , yn sind unabhängig und nach der Verteilung Q gezogen. Nullhypothese H0 : P = Q Alternative H1 : P tendenziell größer als Q (linksseitig) P tendenziell kleiner als Q (rechtsseitig) P 6= Q (beidseitig) 73/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Wilcoxon Rangsummentest Linksseitige Alternative: P größer als Q Verwerfungsregel Verwirf H0 zugunsten von H1 , falls U(x, y) > um,n;1−α mn ≈ + 2 r mn(m + n + 1) z1−α . 12 p-Wert U(x, y) − p ≈ 1 − Φ q mn 2 mn(m+n+1) 12 . 74/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Wilcoxon Rangsummentest Rechtsseitige Alternative: P kleiner als Q Verwerfungsregel Verwirf H0 zugunsten von H1 , falls U(x, y) < um,n;α mn ≈ + 2 r mn(m + n + 1) zα . 12 p-Wert U(x, y) − p ≈ 1 − Φ − q mn 2 mn(m+n+1) 12 . 75/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Wilcoxon Rangsummentest Beidseitige Alternative: P 6= Q Verwerfungsregel Verwirf H0 zugunsten von H1 , falls r mn mn(m + n + 1) U(x, y ) > um,n;1−α/2 ≈ + z1−α/2 . 2 12 r mn mn(m + n + 1) oder U(x, y ) < um,n;α/2 ≈ + zα/2 . 2 12 p-Wert U(x, y) − mn 2 p ≈2 1−Φ q . mn(m+n+1) 12 76/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Beispiel: Hipparion Reloaded Die Daten Libycum 23 25 24 22 25 27 32.5 26 30 26 25 37 26 26 26 25.5 28.5 40 27 29 28.5 32 30 30.5 25.5 33 36 26.5 24 30 25 27 35 26 34 23 35 29 26 27 25 28.5 23 27 23 31 23 27 23.5 28 23 27 24 31 29 27 25 27.5 29 25 27 24 26.5 24.5 25 25 24 26 24 Africanum 30 24.5 27 26.5 24 23 26 24 77/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Beispiel: Hipparion Reloaded Die Daten, U-Statistik Libycum: m = 38 Zähne, Africanum: n = 39 Zähne. Durch mühseliges Ausrechnen von Hand (oder mit dem Computer) erhält man U(Lib, Afr ) = 990. Wir verwerfen die Nullhypothese Libycum=Africanum“ zum ” Niveau 1% zugunsten der beidseitigen Alternative, falls U > u38,39;0.995 = 992 oder U < u38,39;0.005 = 490 (Tabelle: A.8). Beides ist nicht der Fall, also wird die Nullhypothese zum Niveau 1% nicht verworfen. 78/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Beispiel: Hipparion Reloaded Die Daten, U-Statistik m = 38, n = 39, U(Lib, Afr ) = 990. p-Wert: U(Lib, Afr ) − mn 2 p ≈2 1−Φ q mn(m+n+1) 12 990 − 741 √ =2 1−Φ 9633 = 2(1 − Φ(2.537)) ≈ 2(1 − 0.9943) = 0.0114. 79/86 Nichtparametrische Lagetests Wilcoxon Rangsummentest Beispiel: Hipparion Reloaded Fazit Der zweiseitige Wilcoxon Rangsummentest verwirft die Hypothese, dass Hipparion Africanum und Libycum unterschiedliche mesiodistale Zahnlänge haben zum Niveau 1% nicht. Der p-Wert beträgt p = 0.0114 80/86 χ2 -Test χ2 -Test χ2-Test Das Grundproblem Wir beobachten ein Merkmal in endlich vielen Ausprägungen i = 1, . . . , k mit Häufigkeiten x1 , . . . , xk . Gesamtzahl n = x1 + . . . + xk . Nach einer Theorie sollte der Anteil von Typ i gleich pi sein, also die absolute Häufigkeit etwa Ei = pi n. Es soll ein Test zum Niveau α entwickelt werden, der diese Theorie prüft. 81/86 χ2 -Test χ2 -Test χ2-Test Teststatistik Beobachtungen x1 , . . . , xk . Gesamtzahl n = x1 + . . . + xk . Erwartete Häufigkeiten Ei = pi n. Gewichtete quadratische Abweichungen als Teststatistik k X (xi − Ei )2 T (x) = . Ei i=1 Ist χ2 (x) zu groß, so wird die Hypothese verworfen. 82/86 χ2 -Test χ2 -Test χ2-Test Verwerfungsregel Unter H0 ist T (x) chiquadrat-verteilt (χ2f ) mit f = k − 1 Freiheitsgraden. Ist T (x) > χ2f ;1−α , so wird die Nullhypothese zum Niveau α verworfen. Der p-Wert ist p = 1 − χ2f (T (x)). 83/86 χ2 -Test χ2 -Test Beispiel: Hardy-Weinberg Gesetz Fragestellung In einer sehr großen Population tritt an einem Locus das Gen A mit Wahrscheinlichkeit p = 0.53 auf, das Gen a mit Wahrscheinlichkeit 1 − p = 0.47. Nach dem Hardy-Weinberg Gesetz sind die Anteile AA 2 Aa aa 2 p = 0.2809 2p(1 − p) = 0.4982 (1 − p) = 0.2209 In einer Teilpopulation der Größe n soll die Gültigkeit des Hardy-Weinberg Gesetzes geprüft werden. 84/86 χ2 -Test χ2 -Test Beispiel: Hardy-Weinberg Gesetz Der Test Die Hypothese HW Gesetz gilt“ soll zum Niveau 1% geprüft ” werden. Es werden die Daten xAA , xAa und xaa mit Gesamtumfang n = 10 000 erhoben. Teststatistik T (x) = (xAA − 2809 n)2 (xAa − 4982)2 (xaa − 2209)2 + + . 28092 49822 22092 Der Test verwirft, falls T (x) > χ2;0.99 = 9.21 (Tabelle A.5). 85/86 χ2 -Test χ2 -Test Beispiel: Hardy-Weinberg Gesetz Der Test, Daten und Durchführung AA Aa aa 2701 4852 2447 Teststatistik (2701 − 2809 n)2 (4852 − 4982)2 (2447 − 2209)2 + + 28092 49822 22092 = 33.187. T (x) = Der Test verwirft die Nullhypothese zum Niveau 1%, weil T (x) = 33.187 > χ2;0.99 = 9.21. p-Wert p(x) = 1 − χ22 (33.187) = 6.2 10−8 . 86/86