Der exakte Test von Fisher und der χ2–Test

Werbung
Der exakte Test von Fisher und der χ2 –Test
Aus Beispielen wird deutlich, dass dieser Test für einen großen
Stichprobenumfang auch die Berechnung unhandlicher
Binomialkoeffizienten erfordert.
Daher wird in der Praxis häufig ein anderer Test verwendet,
der sogenannte χ2 –Test.
Er besitzt darüber hinaus den Vorteil, auch dann anwendbar zu
sein, wenn mehr als zwei Merkmale mit je zwei möglichen
Ausprägungen zugeordnet werden.
Dazu führen wir für n ∈ N die Funktion gn : (0, ∞) → R mit
n
x
gn (x) = x 2 −1 e − 2
ein.
Matthias Löwe
Stochastik
Der exakte Test von Fisher und der χ2 –Test
Das Integral cn :=
R∞
0
Dieser Wert ist cn =
bezeichnet.
gn (x) dx hat einen endlichen Wert
2n/2 Γ(n/2),
wobei Γ die Gammafunktion
Daher ist
γn (x) :=
1
1 n
2
gn (x) = x 2 −1 e −x , x > 0,
cn
cn
eine Wahrscheinlichkeitstsdichte.
Matthias Löwe
Stochastik
(6)
Der exakte Test von Fisher und der χ2 –Test
Definition
Eine Zufallsvariable X heißt χ2 –verteilt (lies:„chi–Quadrat“) mit n
Freiheitsgraden, wenn die Verteilung PX die Dichte aus Gleichung
(3) besitzt, wenn also gilt
1
P({a ≤ X ≤ b}) =
cn
Z
b
n
x
x 2 −1 e − 2 dx , für 0 < a < b.
a
Genau wie bei der Normalverteilung, so ist auch bei der
χ2 –Verteilung die Stammfunktion nicht elementar darstellbar,
jedoch findet sich auch für sie eine Approximation in jedem
guten Programm zur Tabellenkalkulation.
Matthias Löwe
Stochastik
Der exakte Test von Fisher und der χ2 –Test
Im allgemeinen Fall, wenn eine Tabelle wie in Gleichung (35)
vorliegt, erstellen wir mithilfe der naiven Schätzer
p̂ := p̂(B1 ) = P̂({ω ∈ Ω | ω hat B1 }) =
und q̂ := q̂(A1 ) =
N11 +N10
N
N11 + N01
N
die typische Tabelle
B1
B0
A1
N p̂q̂
N(1 − p̂)q̂
A0
N p̂(1 − q̂)
N(1 − p̂)(1 − q̂)
Matthias Löwe
Stochastik
(7)
Der exakte Test von Fisher und der χ2 –Test
Wir berechnen dann den Ausdruck
Ẑ =
2
2
2
2
N11
N10
N01
N00
+
+
+
− N.
N p̂q̂ N(1 − p̂)q̂ N p̂(1 − q̂) N(1 − p̂)(1 − q̂)
Dann berechnen wir numerisch P({Z ≥ Ẑ }) für eine mit einem
Freiheitsgrad χ2 –verteilte Zufallsvariable Z
Wir verwerfen H0 , falls diese Wahrscheinlichkeit unterhalb des
Niveaus α liegt
Andernfalls akzeptieren wir H0 .
Allerdings müssen wir hier gewisse Einschränkungen machen:
Dieses Verfahren funktioniert dann zuverlässig, wenn N ≥ 30
ist und alle Einträge der typischen Tabelle in Gleichung (4)
größer oder gleich 5 sind.
Dadurch wird die Güte der benutzten Approximation gesichert.
Matthias Löwe
Stochastik
Der exakte Test von Fisher und der χ2 –Test
Es sei noch erwähnt, wie der χ2 –Test angewendet wird, wenn
die Merkmale A und B mehr als zwei Ausprägungen haben:
Es gebe die Varianten A1 , . . . , Ar bzw. B1 , . . . , Bs . Beobachten
wir dann die Häufigkeiten
B1
B2
...
Bs
A1
N11
N12
...
N1s
A2
N21
N22
...
N2s
Summe
Ps
j=1 N1j
Ps
j=1 N2j
..
.
..
.
Ar
Nr 1
Nr 2
...
Nrs
Ps
Summe
Pr
i=1 Ni1
Pr
i=1 Ni2
Matthias Löwe
...
Stochastik
Pr
i=1 Nis
N=
j=1 Nrj
Ps
i=1
j=1
Pr
Der exakte Test von Fisher und der χ2 –Test
Wir schätzen wieder naiv
r
s
1 X
1 X
Nij , 1 ≤ j ≤ s, und ebenso q̂i =
Nij , 1 ≤ i ≤ r ,
p̂j =
N
N
i=1
j=1
und bilden die Größe
Ẑ =
r X
s
X
Nij2
i=1 j=1
N q̂i p̂j
− N.
(8)
Der Test auf Unabhängigkeit der Merkmalszuordnung benutzt
nun die χ2 –Verteilung mit (r − 1) · (s − 1) Freiheitsgraden.
Besitzt das Ereignis {Z ≥ Ẑ } für eine derart verteilte
Zufallsvariable Z eine Wahrscheinlichkeit unterhalb des
Signifikanzniveaus α, so werden wir die Nullhypothese, die ja
die Unabhängigkeit unterstellt, verwerfen müssen.
Als Spezialfall ergibt sich hieraus natürlich für r = s = 2
wieder der Fall der Vierfeldertafel.
Matthias Löwe
Stochastik
Herunterladen