χ2-Unabhängigkeitstest für Vierfeldertafel Betrachtet werden zwei dichotome Merkmale X, Y von Elementen einer Grundgesamtheit, jeweils mit den möglichen Ausprägungen 0 und 1. Nun wird eine Zufallsstichprobe vom Umfang n (mit Zurücklegen) aus der Grundgesamtheit gezogen und die sich zufällig ergebenden Häufigkeiten der Merkmale in der Stichprobe werden aufbereitet: X=0 X=1 Y =0 h00 h10 h•0 Y =1 h01 h11 h•1 h0• h1• n Stat II, χ2 -Test-1 Die Grundgesamtheit wird durch die Merkmale X und Y in vier Klassen aufgeteilt. Die Wahrscheinlichkeit ein Element der i, jten Klasse zu ziehen sei P[X = i, Y = j] =: pij . h Die relativen Häufigkeiten in der Stichprobe p̂ij = nij sind erwartungstreue Schätzer für die Wahrscheinlichkeiten bzw. Anteile pij . X=0 X=1 Y =0 p̂00 p̂10 p̂•0 Y =1 p̂01 p̂11 p̂•1 p̂0• p̂1• 1 Stat II, χ2 -Test-2 Wenn die Merkmale X und Y unabhängig sind, dann gilt pij sollte dann also ungefähr p̂ij ' 1 · h · h =: u . hij ' n i• •j ij bezüglich der Grundgesamtheit = pi• · p•j . In der Stichprobe p̂i• · p̂•j gelten, oder äquivalent Das Testproblem H0 : X, Y unabhängig versus H1 : X, Y nicht unabhängig kann also mit einer Testvariablen behandelt werden, die die beobachteten Häufigkeiten hij mit denen bei angenommener Unabhängigkeit uij vergleicht. Stat II, χ2 -Test-3 Die betrachtete Testvariable lautet χ2 = 1 (h − u )2 1 X X ij ij j=0 i=0 uij mit den Unabhängigkeitszahlen uij = lautet damit äquivalent H0 : χ2 = 0 versus hi• h•j n . Das Testproblem H1 : χ2 6= 0 χ2 ist asymptotisch, d.h. für große n, χ2 1 -verteilt (1 Freiheitsgrad). Die Nullhypothese wird also zum Signifikanzniveau (1−α) abgelehnt, falls χ2 > χ2 1,1−α ist. Häufig verwendete Werte: χ2 1,0.95 = 3.841 , χ2 1,0.99 = 6.635 , χ2 1,0.999 = 10.827 Stat II, χ2 -Test-4 Durch Umformen mittels der Beziehungen u0j = h•j − u1j , u10 = h1• − u11 und h•2 = n − h•1 ergibt sich 2 h h 1• •1 1 X 1 (h − u )2 h11 − n n n X ij ij 2 . χ = = ... = h h h h 1• •1 1• •1 uij n n n 1− n 1− n j=0 i=0 Mit n(h11 − u11) = (h11 + h10 + h01 + h00)h11 − (h11 + h10)(h01 + h00) = h11h00 − h10h01 lässt sich die Testvariable weiter umformen zu n(h11h00 − h10h01)2 2 χ = h1• h0• h•1 h•0 Diese Form ist im Allgemeinen am leichtesten zu berechnen. Stat II, χ2 -Test-5 Wegen n = h•1 + h•0 und h h10 h11h00 − h10h01 = h11h•0 − h10h•1 = − · h•1 · h•0 h•1 h•0 gilt ebenfalls 11 h11 h10 2 (p̂A − p̂B )2 h•1 − h•0 2 = χ = h nA+nB 1 + 1 1• 1 − h1• p̂ (1 − p̂ ) s s n n h•1 h•0 nA ·nB mit den Bezeichnungen p̂A = hh11 , p̂B = hh10 , p̂s = hn1• , nA = h•1 •1 •0 und nB = h•0. Dies ist exakt die quadrierte Testvariable Z des ZweistichprobenAnteils-Tests (Folie 3.21), die für nA · p̂A · (1 − p̂A) > 9 und nB · p̂B · (1 − p̂B ) > 9 näherungsweise standardnormalverteilt ist. Deshalb ist χ2 dann näherungsweise χ2 1 -verteilt. Stat II, χ2 -Test-6