Der χ2 -Anpassungstest Exakter Test nach Fisher Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 25. Januar 2013 Normalverteilungsannahmen Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen 1 Der χ2 -Anpassungstest 2 Exakter Test nach Fisher Mendelsche Erbregeln als Beispiel für mehr als zwei Ausprägungen Test auf Übereinstimmung zweier Verteilungen Kleine Stichprobenumfänge 3 Normalverteilungsannahmen konservative Tests Q-Q-Plot: Vorgehensweise Q-Q-Plot: Beispiel Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Test für ein Merkmal mit nur zwei Ausprägungen Beispielaufgabe: An der HHU sind 59.1% der Studierenden weiblich. Im BSc-Studiengang Biologie sind 618 von 1101 Studierenden weiblich. Das sind 56.1%. Ist der Unterschied beim Anteil weiblicher Studierender signifikant zum Signifikanzniveau α = 0.05? Für solche Fragestellungen verwendet man einen Chi-Quadrat-Anpassungstest. Diese Tests dienen zur Überprüfung der Gleichheit zweier Verteilungen. Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Ausgangslage Stichprobenumfang ist n Daten eingeteilt in s-Gruppen Experimentell ermittelte Anzahl der Daten in der j-ten Gruppe ist yj Von der Nullhypothese prognostizierte Wahrscheinlichkeit, dass Daten in Gruppe j fallen, ist πj Von der Nullhypothese prognostizierte Anzahl der Daten in der j-ten Gruppe ist n · πj Teststatistik s X (yj − n · πj )2 t= n · πj j=1 Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen χ2 -Anpassungstest, Entscheidung Das Signifikanzniveau sei α Die Teststatistik sei t Die Zahl der Freiheitsgrade ist s − 1 Benötigt wird das Quantil χ2s−1, 1−α der χ2 -Verteilung H0 wird abgelehnt, wenn t ≥ χ2s−1, 1−α Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Zurück zum Beispiel s=2 w m Beobachtung 618 483 H0 651 450 Teststatistik t= (618 − 651)2 (483 − 450)2 + = 4.093 651 450 χ21, 0.95 = 3.84 H0 kann abgelehnt werden. Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Quantile der χ2 -Verteilung f 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 90% 2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 95% 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 97.5% 5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 99% 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 99.5% 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 99.9% 10.83 13.82 16.27 18.47 20.52 22.46 24.32 26.12 27.88 29.59 31.26 32.91 34.53 36.12 37.70 39.25 40.79 42.31 43.82 45.31 99.95% 12.12 15.20 17.73 20.00 22.11 24.10 26.02 27.87 29.67 31.42 33.14 34.82 36.48 38.11 39.72 41.31 42.88 44.43 45.97 47.50 Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Mendelsche Erbregeln Bei den Mendelschen Erbversuchen tritt das Merkmal Blütenfarbe in drei Ausprägungen auf, nämlich weiß, rosa und rot weiß und rot haben dieselbe Wahrscheinlichkeit, rosa die doppelte 4 Blüten werden beobachtet, alle sind rosa Widerspricht diese Beobachtung den Mendelschen Regeln? Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Interpretation als Vergleich zweier Verteilungen Modellannahme: Die Mendelschen Regeln gelten für die untersuchte Situation Das entspricht der Verteilung Nummer Ausprägung Wahrscheinlichkeit 1 weiß 25% 2 rosa 50% 3 rot 25% Zu vergleichen mit der tatsächlichen Verteilung der Blütenfarben in dem Kollektiv Der Stichprobenumfang ist 4 Das ist für praktische Zwecke zu wenig, lässt sich aber gut von Hand rechnen Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Mendelsche Erbregeln, Fortsetzung Ordne die möglichen Ergebnisse mit aufsteigender Wahrscheinlichkeit an Entscheidungsstrategie am Beispiel α = 0.05 Lehne H0 ab, wenn die Beobachtung zu den 5% unwahrscheinlichsten Ereignissen gehört Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Test auf Übereinstimmung zweier Verteilungen Unabhängige Zufallsvariable X1 , . . . , Xn , die alle mit Wahrscheinlichkeit p1 den Wert w1 , mit Wahrscheinlichkeit p2 den Wert w2 , . . . , mit Wahrscheinlichkeit ps den Wert ws annehmen Vergleichswahrscheinlichkeiten π1 , π2 , . . . , πs mit π1 + π2 + · · · + πs = 1 Nullhypothese und Alternative: H0 : p1 = π1 , p2 = π2 , . . . , ps = πs H1 : mindestens ein pj 6= πj Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Test auf Übereinstimmung zweier Verteilungen: Summenvariable Summenvariable Y1 = Anzahl aller Xj mit Xj = w1 Y2 = Anzahl aller Xj mit Xj = w2 .. . Ys = Anzahl aller Xj mit Xj = ws Erwartungswerte unter H0 E (Y1 ) = n · π1 E (Y2 ) = n · π2 .. . E (Ys ) = n · πs Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Test auf Übereinstimmung für kleine Stichproben Bestimme für jede mögliche Kombination von Werten von Y1 , . . . , Ys deren Wahrscheinlichkeit Ordne diese Wahrscheinlichkeiten aufsteigend in einer Liste Der kritische Bereich, in dem H0 abgelehnt wird, besteht aus den obersten Zeilen dieser Liste Man nimmt genau so viele Zeilen, dass die erlaubte Fehlerwahrscheinlichkeit erster Art nicht überschritten, aber möglichst gut ausgeschöpft wird Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Beispiel Mendel: Formalisierung s=3 X1 ist der Zahlencode der Blütenfarbe der ersten Blüte, X2 dasselbe für die zweite Blüte, . . . Y1 bezeichnet die Anzahl der weißen, Y2 die der rosafarbenen und Y3 die der roten Blüten Dann Y1 + Y2 + Y3 = 4 Im Beispiel Y1 = 0, Y2 = 4, Y3 = 0 Rechne sämtliche Einzelwahrscheinlichkeiten aus Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Beispiel Mendel: Wahrscheinlichkeiten der Einzelereignisse P(Y1 = k1 , Y2 = k2 , Y3 = k3 ) k1 k2 k3 1 1 1 4 4 − k1 · · = · · k1 k2 4 2 4 k1 k2 k3 1 1 1 4! · (4 − k1 )! · = · · k1 ! · (4 − k1 )! · k2 ! · (4 − k1 − k2 )! 4 2 4 k1 k2 k3 4! 1 1 1 = · · · k1 ! · k2 ! · k3 ! 4 2 4 Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Beispiel Mendel: Tabelle der W’keiten der Einzelereignisse k1 0 4 1 3 2 0 3 0 0 1 2 2 0 1 1 k2 0 0 0 0 0 1 1 4 2 1 1 2 3 3 2 k3 4 0 3 1 2 3 0 0 2 2 1 0 1 0 1 P(X1 = k1 , X2 = k2 , X3 = k3 ) 0.0039 0.0039 0.0156 0.0156 0.0234 0.0312 0.0312 0.0625 0.0938 0.0938 0.0938 0.0938 0.1250 0.1250 0.1875 kumulierte Summe 0.0039 0.0078 0.0234 0.0391 0.0625 0.0938 0.1250 0.1875 0.2812 0.3750 0.4688 0.5625 0.6875 0.8125 1.0000 Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Beispiel Mendel: Balkendiagramm 100% 80% 60% 40% 20% (1,2,1) (0,3,1), (1,3,0) (0,2,2), (2,2,0), (1,1,2), (2,1,1) (0,4,0) (0,1,3), (3,1,0) (2,0,2) (1,0,3), (3,0,1) (4,0,0), (0,0,4) 0% Der linke Balken zeigt die kumulierten Werte aus der Tabelle, der rechte die 5%-Schwelle Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Beispiel Mendel: Ergebnis In den folgenden Fällen kann die Nullhypothese zum Signifikanzniveau α = 0.05 abgelehnt werden 4 weiße oder 4 rote Blüten keine rosa, aber 3 weiße oder 3 rote Blüten Der p-Wert des beobachteten Ereignisses “4 rosa Blüten” beträgt 18.75% Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Verteilungsannahmen Der t-Test verwendet eine Verteilungsannahme: Daten müssen normalverteilt sein. Es gibt für viele verschiedene Verteilungsannahmen jeweils einen passenden Test. Zum Beispiel kann der χ2 -Anpassungstest verwendet werden, nachdem man Erwartungswert und Varianz geschätzt hat In der Praxis ist oft nicht klar, welche Verteilungsannahme angemessen sind. Tests, die auch bei Verletzung der Verteilungsannahmen noch gute Ergebnisse liefern, heißen konservativ. Der t-Test ist konservativ. Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Q-Q-Plot Mit dem Quantil-Quantil-Plot kann man auf graphischem Wege beurteilen, ob Messwerte Realisierungen einer normalverteilten Zufallsvariablen sind Man trägt dazu auf der x-Achse die Quantile der Standardnormalverteilung und auf der y -Achse die Quantile der Beobachtungsdaten auf Wenn diese Punkte annähernd auf einer Geraden liegen, sind die Daten näherungsweise normalverteilt, ansonsten nicht Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Q-Q-Plot: Vorgehensweise Gegeben n verschiedene Messwerte Ordne sie der Reihe nach an x1 < x2 < · · · < xn Wenn z. B. n = 100, dann ist x37 das 37%-Quantil des Datensatzes Allgemein interpretiere xj als nj -Quantil des Datensatzes Genauigkeit steigt, wenn man xj als n1 · j − 12 -Quantil des Datensatzes betrachtet Beispiel mit drei Punkten 0% 1/6 x1 33% 1/2 x2 67% 5/6 x3 100% Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Q-Q-Plot: Vorgehensweise Die Daten werden nach der Größe sortiert x1 < x2 < · · · < xn j-ter Datenpunkt im Q-Q-Plot: x-Koordinate : n1 · j − 12 -Quantil der Standardnormalverteilung y -Koordinate : xj Liegen diese Punkte annähernd auf einer Geraden? Wenn ja, dann ist die Normalverteilungsannahme gerechtfertigt Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Q-Q-Plot: Beispiel Wir legen die Daten des Placebos aus dem Beispiel “Blutdrucksenker” zu Grunde 168 184 172 173 150 155 163 164 151 146 Zur Bestimmung der Quantile ordnen wir sie der Größe nach an 146 150 151 155 163 164 168 172 173 184 Benötigt: Die Quantile q0.05 , q0.15 , q0.25 , . . . , q0.95 der Standardnormalverteilung q0.05 -1.645 q0.15 -1.04 q0.25 -0.675 ... ... q0.75 0.675 q0.85 1.04 q0.95 1.645 Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen xj [mm Hg] Q-Q-Plot 185 180 175 170 165 160 155 150 145 1402.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0 qαj qαj ist das Quantil zu αj = 1 n j− 1 2 Der χ2 -Anpassungstest Exakter Test nach Fisher Normalverteilungsannahmen Q-Q-Plot von t-verteilten Daten 10 tαj 5 0 5 10 4 3 2 1 0 qαj 1 2 3 4