χ -Unabhängigkeitstest für Vierfeldertafel

Werbung
χ2-Unabhängigkeitstest für Vierfeldertafel
Betrachtet werden zwei dichotome Merkmale X, Y von Elementen einer Grundgesamtheit, jeweils mit den möglichen Ausprägungen
0 und 1.
Nun wird eine Zufallsstichprobe vom Umfang n (mit Zurücklegen)
aus der Grundgesamtheit gezogen und die sich zufällig ergebenden Häufigkeiten der Merkmale in der Stichprobe werden aufbereitet:
X=0
X=1
Y =0
h00
h10
h•0
Y =1
h01
h11
h•1
h0•
h1•
n
Stat II, χ2 -Test-1
Die Grundgesamtheit wird durch die Merkmale X und Y in vier
Klassen aufgeteilt. Die Wahrscheinlichkeit ein Element der i, jten Klasse zu ziehen sei P[X = i, Y = j] =: pij .
h
Die relativen Häufigkeiten in der Stichprobe p̂ij = nij sind erwartungstreue Schätzer für die Wahrscheinlichkeiten bzw. Anteile
pij .
X=0
X=1
Y =0
p̂00
p̂10
p̂•0
Y =1
p̂01
p̂11
p̂•1
p̂0•
p̂1•
1
Stat II, χ2 -Test-2
Wenn die Merkmale X und Y
unabhängig sind, dann gilt pij
sollte dann also ungefähr p̂ij '
1 · h · h =: u .
hij ' n
i•
•j
ij
bezüglich der Grundgesamtheit
= pi• · p•j . In der Stichprobe
p̂i• · p̂•j gelten, oder äquivalent
Das Testproblem
H0 : X, Y unabhängig
versus
H1 : X, Y nicht unabhängig
kann also mit einer Testvariablen behandelt werden, die die beobachteten Häufigkeiten hij mit denen bei angenommener Unabhängigkeit uij vergleicht.
Stat II, χ2 -Test-3
Die betrachtete Testvariable lautet
χ2 =
1 (h − u )2
1 X
X
ij
ij
j=0 i=0
uij
mit den Unabhängigkeitszahlen uij =
lautet damit äquivalent
H0 : χ2 = 0
versus
hi• h•j
n .
Das Testproblem
H1 : χ2 6= 0
χ2 ist asymptotisch, d.h. für große n, χ2
1 -verteilt (1 Freiheitsgrad). Die Nullhypothese wird also zum Signifikanzniveau (1−α)
abgelehnt, falls χ2 > χ2
1,1−α ist.
Häufig verwendete Werte:
χ2
1,0.95 = 3.841 ,
χ2
1,0.99 = 6.635 ,
χ2
1,0.999 = 10.827
Stat II, χ2 -Test-4
Durch Umformen mittels der Beziehungen u0j = h•j − u1j , u10 =
h1• − u11 und h•2 = n − h•1 ergibt sich
2
h
h
1•
•1
1 X
1 (h − u )2
h11 − n n n
X
ij
ij
2
.
χ =
= ... = h h h
h
1•
•1
1•
•1
uij
n n n 1− n 1− n
j=0 i=0
Mit
n(h11 − u11)
= (h11 + h10 + h01 + h00)h11 − (h11 + h10)(h01 + h00)
= h11h00 − h10h01
lässt sich die Testvariable weiter umformen zu
n(h11h00 − h10h01)2
2
χ =
h1• h0• h•1 h•0
Diese Form ist im Allgemeinen am leichtesten zu berechnen.
Stat II, χ2 -Test-5
Wegen n = h•1 + h•0 und
h
h10 h11h00 − h10h01 = h11h•0 − h10h•1 =
−
· h•1 · h•0
h•1
h•0
gilt ebenfalls
11
h11
h10 2
(p̂A − p̂B )2
h•1 − h•0
2
=
χ = h nA+nB
1 + 1
1• 1 − h1•
p̂
(1
−
p̂
)
s
s
n
n
h•1
h•0
nA ·nB
mit den Bezeichnungen p̂A = hh11 , p̂B = hh10 , p̂s = hn1• , nA = h•1
•1
•0
und nB = h•0.
Dies ist exakt die quadrierte Testvariable Z des ZweistichprobenAnteils-Tests (Folie 3.21), die für nA · p̂A · (1 − p̂A) > 9 und
nB · p̂B · (1 − p̂B ) > 9 näherungsweise standardnormalverteilt ist.
Deshalb ist χ2 dann näherungsweise χ2
1 -verteilt.
Stat II, χ2 -Test-6
Herunterladen