Chi-Quadrat-Verteilung

Werbung
Chi-Quadrat-Verteilung
Die Verteilung einer Summe X12 + X22 + . . . + Xn2 , wobei X1 , . . ., Xn unabhängige standardnormalverteilte Zufallsvariablen sind, heißt χ2 -Verteilung mit n Freiheitsgraden.
Eine N (0, 1)-verteilte Zufallsvariable hat die Dichte
1 2
1
ϕ(x) = √ e− 2 x
2π
Sei nun χ21 = X 2 . Für die Verteilungsfunktion gilt:
√
√
√
Fχ21 (x) = P (X 2 < x) = P (− x < X < x) = 2 Φ( x) − 1
und für die Dichte:
x
1
x
√
1
1
1
1
fχ21 (x) = Fχ′ 2 (x) = 2 ϕ( x) √ = √ · √ · e− 2 = √ · x− 2 · e− 2 ,
2 x
1
x
2π
2π
x>0
Tasten wir uns weiter vor: χ22 = X12 + X22
fχ22 (x) =
Z
=
Z
x
fχ21 (y) · fχ21 (x − y) dy
0
x
0
(Faltung)
y
x−y
1
1
−1 −
−1 −
√ y 2 e 2 · √ (x − y) 2 e 2 dy
2π
2π
x
1
= 2π e− 2
Z
x
0
|
1
p
dy
y(x − y)
{z
=
Z
1
x
1
= 2 e− 2
0
(Substitution y = x(1 − u2 ))
}
−2xu du
p
=
(1 − u2 )x2 u2
Z
0
Das Weitere ist wesentlich einfacher: χ23 = X12 + X22 + X32
x
fχ23 (x) =
Z
x
=
Z
fχ21 (y) · fχ22 (x − y) dy
0
0
y
x−y
1
1
1
√ y − 2 e− 2 · e− 2 dy
2
2π
x
1
e− 2
2π · 2
=√
Z
x
1
y − 2 dy
0
1
x
1
x 2 e− 2
2π
=√
Roolfs
1
1
1
2 du
√
= 2 arcsin u|0 = π
2
1−u
χ2 -Verteilung
Fortsetzung
χ24 = X12 + X22 + X32 + X42 .
x
fχ24 (x) =
Z
x
=
Z
fχ22 (y) · fχ22 (x − y) dy
0
0
1 − y2 1 − x−y
· 2 e 2 dy
2e
x
1
= 4 x e− 2
Wenn wir diese Berechnung weiter fortsetzen, wird das Regelmäßige erkennbar.
Die Dichte der χ2n -Verteilung kann schließlich geschlossen durch
fχ2n (x) =
1
n
22
( n2 − 1)!
n
x
x 2 − 1 e− 2 ,
x>0
angegeben werden.
√
Dabei ist n! = n · (n − 1)! und ( − 12 )! = π.
Eine weitere übersichtliche Darstellung benutzt die Γ-Funktion.
y
0,5
n=1
n=2
n=3
n=4
x
1
Roolfs
2
χ2 -Anpassungstest
Ist ein Stichprobenergebnis mit einer gegebenen Verteilung verträglich?
X1 sei eine binomialverteilte Zufallsvariable. Dann ist Z =
näherungsweise N (0, 1)-verteilt und somit
Z2 =
X1 − µ
σ
(X1 − µ)2
σ2
χ21 -verteilt.
Z 2 kann mit X2 = n − X1 und p2 = 1 − p1 umgeformt werden:
Z2 =
(X1 − np1 )2
np1 (1 − p1 )
=
(X1 − np1 )2 (p2 + p1 )
np1 p2
=
(X1 − np1 )2
(X − np1 )2
+ 1
np1
np2
=
(X1 − np1 )2
(X − n(1 − p2 ))2
+ 1
np1
np2
=
(X1 − np1 )2
(X − (X1 + X2 ) + np2 )2
+ 1
np1
np2
=
(X1 − np1 )2
(X − np2 )2
+ 2
np1
np2
Allgemein:
Tritt von k Ereignissen Ai jeweils eines mit der Wahrscheinlichkeit pi ein
und zählt Xi die Häufigkeit von Ai , dann ist die Testgröße
T =
(X1 − np1 )2
(X − np2 )2
(Xk − npk )2
+ 2
+ ...+
np1
np2
npk
χ2k−1 -verteilt.
Da V (Xi ) = E(Xi − npi )2 = npi (1 − pi ) ist, folgt für den Erwartungswert von T :
E(T ) =
np1 (1 − p1 )
np (1 − p2 )
np (1 − pk )
+ 2
+ ...+ k
=k−1
np1
np2
npk
k − 1 (Anzahl der Freiheitsgrade) der Xi können frei gewählt werden,
Xk ergibt sich dann aus X1 + X2 + . . . + Xk = n.
Roolfs
3
Chiquadrat-Test
Die verallgemeinerungsfähige Überlegung, die diesem Test zu Grunde liegt, soll erhellt werden.
Wir betrachten einen Einzelversuch mit den beiden Ausgängen A1 und A2 , die mit den Wahrscheinlichkeiten p1 und p2 angenommen werden (p1 + p2 = 1). Für die n-malige Wiederholung des Einzelversuchs
zählen die Zufallsvariablen X1 und X2 das Auftreten von A1 bzw. A2 (X1 + X2 = n). Es liegt also eine
Bernoullikette vor, allgemein eine multinomiale Verteilung.
Die Ergebnisse
X1
X2
X2
der Zufallsversuche liegen auf der Geraden x + y = n.
×
 X −n·p
1
1
√
n
·
p

1
Z1
Wir gehen nun zum Zufallsvektor
= 
 X2 − n · p2
Z2
√
n · p2
über.
×
×
n = 10
p1 = 0,6
×
×
×
× × × × × ×




10 X1
Z2
√ p
√ 1
p2
×
×
×
√
− p1
√
p2
1
×
Z1
×
×
Die Varianz von Z1 lautet:
1
V (Z1 ) = n · p · n · p1 · p2 = p2
1
entsprechend:
V (Z2 ) = p1
Z1
Hieraus ist zu erkennen, dass
(genähert) normalverteilt ist, bezogen auf eine Achseneinteilung
Z2
auf der Geraden, µ = 0, σ = 1 (Pythagoras und p1 + p2 = 1). Der Freiheitsgrad 1 wird verständlich.
p
Anders formuliert: Z12 + Z22 ist N (0, 1)-verteilt. Die Chiquadrat-Testgröße Z12 + Z22 ist daher χ21 -verteilt.
Roolfs
4
Chiquadrat-Test Fortsetzung
Wir können uns auch den Test mit 2 Freiheitsgraden veranschaulichen. Hierzu betrachten wir einen Einzelversuch mit den 3 Ausgängen A1 , A2 und A3 , die mit den Wahrscheinlichkeiten p1 , p2 und p3 angenommen
werden (p1 +p2 +p3 = 1, genau ein Ai tritt ein). Für die n-malige Wiederholung des Einzelversuchs zählen
die Zufallsvariablen X1 , X2 und X2 das Auftreten von A1 , A2 und A3 , X1 + X2 + X3 = n.

X1 − n · p1
√

n · p1 


Z1
 X −n·p
2
 2
Der Zufallsvektor OP =  Z2  =  √
n · p2


Z3
 X3 − n · p3
−→


√
n · p3







Z3
liegt stets in einer Ebene mit der HNF:
−→
( OP steht senkrecht auf dem Normalenvektor)
√ 
p1
√
E :  p2  ~x = 0
√
p3
√
1 − p1
√
1 − p2
Z2
1
1
2
Z1
2
×
P
E
Die Varianz von Zi beträgt:
1
V (Zi ) = n · p · n · pi · (1 − pi ) = 1 − pi
i
−→
Um die Verteilung des Längenquadrats | OP | 2 = Z12 + Z22 + Z32 (= Chiquadrat-Testgröße)
−→
zu ermitteln, kann durch einen Vergleich mit der multinomialen Verteilung von OP gezeigt werden, dass
die beiden rechtwinkligen Koordinaten von P , hinsichtlich der Ebene E, N (0, 1)-verteilt sind (n → ∞).
−→
Damit ist | OP | 2 χ22 -verteilt.
Roolfs
5
Chiquadrat-Test Ergänzung
Die heuristischen Überlegungen wären noch treffender, wenn sich die Einheiten des EbenenKoordinatensystems durch senkrechte Projektion der Standardabweichungen von Z1 und Z2
ergäben und die Koordinatenachsen auf E (als Schnittgeraden mit der xz- bzw. yz-Ebene)
orthogonal wären. Beides ist jedoch nicht der Fall.
Es kommt nicht auf die Lage der Koordinatenachsen in E an: Das Längenquadrat, d. h. das
−→
Skalarprodukt OP 2 , ist stets gleich. So kann eine zweidimensionale Standardnormalverteilung
 
√ 
0
p1
mit einer orthogonalen Matrix so auf E abgebildet werden, dass der Vektor  0  in  √p2 
√
1
p3
übergeht.


Z1
Die Übereinstimmung (für n → ∞) dieser Verteilung mit der Verteilung von  Z2  wird mit
Z3
Hilfe von charakteristischen Funktionen nachgewiesen.
Roolfs
6
Herunterladen