Der exakte Test von Fisher und der χ2 –Test Aus Beispielen wird deutlich, dass dieser Test für einen großen Stichprobenumfang auch die Berechnung unhandlicher Binomialkoeffizienten erfordert. Daher wird in der Praxis häufig ein anderer Test verwendet, der sogenannte χ2 –Test. Er besitzt darüber hinaus den Vorteil, auch dann anwendbar zu sein, wenn mehr als zwei Merkmale mit je zwei möglichen Ausprägungen zugeordnet werden. Dazu führen wir für n ∈ N die Funktion gn : (0, ∞) → R mit n x gn (x) = x 2 −1 e − 2 ein. Matthias Löwe Stochastik Der exakte Test von Fisher und der χ2 –Test Das Integral cn := R∞ 0 Dieser Wert ist cn = bezeichnet. gn (x) dx hat einen endlichen Wert 2n/2 Γ(n/2), wobei Γ die Gammafunktion Daher ist γn (x) := 1 1 n 2 gn (x) = x 2 −1 e −x , x > 0, cn cn eine Wahrscheinlichkeitstsdichte. Matthias Löwe Stochastik (6) Der exakte Test von Fisher und der χ2 –Test Definition Eine Zufallsvariable X heißt χ2 –verteilt (lies:„chi–Quadrat“) mit n Freiheitsgraden, wenn die Verteilung PX die Dichte aus Gleichung (3) besitzt, wenn also gilt 1 P({a ≤ X ≤ b}) = cn Z b n x x 2 −1 e − 2 dx , für 0 < a < b. a Genau wie bei der Normalverteilung, so ist auch bei der χ2 –Verteilung die Stammfunktion nicht elementar darstellbar, jedoch findet sich auch für sie eine Approximation in jedem guten Programm zur Tabellenkalkulation. Matthias Löwe Stochastik Der exakte Test von Fisher und der χ2 –Test Im allgemeinen Fall, wenn eine Tabelle wie in Gleichung (35) vorliegt, erstellen wir mithilfe der naiven Schätzer p̂ := p̂(B1 ) = P̂({ω ∈ Ω | ω hat B1 }) = und q̂ := q̂(A1 ) = N11 +N10 N N11 + N01 N die typische Tabelle B1 B0 A1 N p̂q̂ N(1 − p̂)q̂ A0 N p̂(1 − q̂) N(1 − p̂)(1 − q̂) Matthias Löwe Stochastik (7) Der exakte Test von Fisher und der χ2 –Test Wir berechnen dann den Ausdruck Ẑ = 2 2 2 2 N11 N10 N01 N00 + + + − N. N p̂q̂ N(1 − p̂)q̂ N p̂(1 − q̂) N(1 − p̂)(1 − q̂) Dann berechnen wir numerisch P({Z ≥ Ẑ }) für eine mit einem Freiheitsgrad χ2 –verteilte Zufallsvariable Z Wir verwerfen H0 , falls diese Wahrscheinlichkeit unterhalb des Niveaus α liegt Andernfalls akzeptieren wir H0 . Allerdings müssen wir hier gewisse Einschränkungen machen: Dieses Verfahren funktioniert dann zuverlässig, wenn N ≥ 30 ist und alle Einträge der typischen Tabelle in Gleichung (4) größer oder gleich 5 sind. Dadurch wird die Güte der benutzten Approximation gesichert. Matthias Löwe Stochastik Der exakte Test von Fisher und der χ2 –Test Es sei noch erwähnt, wie der χ2 –Test angewendet wird, wenn die Merkmale A und B mehr als zwei Ausprägungen haben: Es gebe die Varianten A1 , . . . , Ar bzw. B1 , . . . , Bs . Beobachten wir dann die Häufigkeiten B1 B2 ... Bs A1 N11 N12 ... N1s A2 N21 N22 ... N2s Summe Ps j=1 N1j Ps j=1 N2j .. . .. . Ar Nr 1 Nr 2 ... Nrs Ps Summe Pr i=1 Ni1 Pr i=1 Ni2 Matthias Löwe ... Stochastik Pr i=1 Nis N= j=1 Nrj Ps i=1 j=1 Pr Der exakte Test von Fisher und der χ2 –Test Wir schätzen wieder naiv r s 1 X 1 X Nij , 1 ≤ j ≤ s, und ebenso q̂i = Nij , 1 ≤ i ≤ r , p̂j = N N i=1 j=1 und bilden die Größe Ẑ = r X s X Nij2 i=1 j=1 N q̂i p̂j − N. (8) Der Test auf Unabhängigkeit der Merkmalszuordnung benutzt nun die χ2 –Verteilung mit (r − 1) · (s − 1) Freiheitsgraden. Besitzt das Ereignis {Z ≥ Ẑ } für eine derart verteilte Zufallsvariable Z eine Wahrscheinlichkeit unterhalb des Signifikanzniveaus α, so werden wir die Nullhypothese, die ja die Unabhängigkeit unterstellt, verwerfen müssen. Als Spezialfall ergibt sich hieraus natürlich für r = s = 2 wieder der Fall der Vierfeldertafel. Matthias Löwe Stochastik