Chi-Quadrat-Verteilung Die Verteilung einer Summe X12 + X22 + . . . + Xn2 , wobei X1 , . . ., Xn unabhängige standardnormalverteilte Zufallsvariablen sind, heißt χ2 -Verteilung mit n Freiheitsgraden. Eine N (0, 1)-verteilte Zufallsvariable hat die Dichte 1 2 1 ϕ(x) = √ e− 2 x 2π Sei nun χ21 = X 2 . Für die Verteilungsfunktion gilt: √ √ √ Fχ21 (x) = P (X 2 < x) = P (− x < X < x) = 2 Φ( x) − 1 und für die Dichte: x 1 x √ 1 1 1 1 fχ21 (x) = Fχ′ 2 (x) = 2 ϕ( x) √ = √ · √ · e− 2 = √ · x− 2 · e− 2 , 2 x 1 x 2π 2π x>0 Tasten wir uns weiter vor: χ22 = X12 + X22 fχ22 (x) = Z = Z x fχ21 (y) · fχ21 (x − y) dy 0 x 0 (Faltung) y x−y 1 1 −1 − −1 − √ y 2 e 2 · √ (x − y) 2 e 2 dy 2π 2π x 1 = 2π e− 2 Z x 0 | 1 p dy y(x − y) {z = Z 1 x 1 = 2 e− 2 0 (Substitution y = x(1 − u2 )) } −2xu du p = (1 − u2 )x2 u2 Z 0 Das Weitere ist wesentlich einfacher: χ23 = X12 + X22 + X32 x fχ23 (x) = Z x = Z fχ21 (y) · fχ22 (x − y) dy 0 0 y x−y 1 1 1 √ y − 2 e− 2 · e− 2 dy 2 2π x 1 e− 2 2π · 2 =√ Z x 1 y − 2 dy 0 1 x 1 x 2 e− 2 2π =√ Roolfs 1 1 1 2 du √ = 2 arcsin u|0 = π 2 1−u χ2 -Verteilung Fortsetzung χ24 = X12 + X22 + X32 + X42 . x fχ24 (x) = Z x = Z fχ22 (y) · fχ22 (x − y) dy 0 0 1 − y2 1 − x−y · 2 e 2 dy 2e x 1 = 4 x e− 2 Wenn wir diese Berechnung weiter fortsetzen, wird das Regelmäßige erkennbar. Die Dichte der χ2n -Verteilung kann schließlich geschlossen durch fχ2n (x) = 1 n 22 ( n2 − 1)! n x x 2 − 1 e− 2 , x>0 angegeben werden. √ Dabei ist n! = n · (n − 1)! und ( − 12 )! = π. Eine weitere übersichtliche Darstellung benutzt die Γ-Funktion. y 0,5 n=1 n=2 n=3 n=4 x 1 Roolfs 2 χ2 -Anpassungstest Ist ein Stichprobenergebnis mit einer gegebenen Verteilung verträglich? X1 sei eine binomialverteilte Zufallsvariable. Dann ist Z = näherungsweise N (0, 1)-verteilt und somit Z2 = X1 − µ σ (X1 − µ)2 σ2 χ21 -verteilt. Z 2 kann mit X2 = n − X1 und p2 = 1 − p1 umgeformt werden: Z2 = (X1 − np1 )2 np1 (1 − p1 ) = (X1 − np1 )2 (p2 + p1 ) np1 p2 = (X1 − np1 )2 (X − np1 )2 + 1 np1 np2 = (X1 − np1 )2 (X − n(1 − p2 ))2 + 1 np1 np2 = (X1 − np1 )2 (X − (X1 + X2 ) + np2 )2 + 1 np1 np2 = (X1 − np1 )2 (X − np2 )2 + 2 np1 np2 Allgemein: Tritt von k Ereignissen Ai jeweils eines mit der Wahrscheinlichkeit pi ein und zählt Xi die Häufigkeit von Ai , dann ist die Testgröße T = (X1 − np1 )2 (X − np2 )2 (Xk − npk )2 + 2 + ...+ np1 np2 npk χ2k−1 -verteilt. Da V (Xi ) = E(Xi − npi )2 = npi (1 − pi ) ist, folgt für den Erwartungswert von T : E(T ) = np1 (1 − p1 ) np (1 − p2 ) np (1 − pk ) + 2 + ...+ k =k−1 np1 np2 npk k − 1 (Anzahl der Freiheitsgrade) der Xi können frei gewählt werden, Xk ergibt sich dann aus X1 + X2 + . . . + Xk = n. Roolfs 3 Chiquadrat-Test Die verallgemeinerungsfähige Überlegung, die diesem Test zu Grunde liegt, soll erhellt werden. Wir betrachten einen Einzelversuch mit den beiden Ausgängen A1 und A2 , die mit den Wahrscheinlichkeiten p1 und p2 angenommen werden (p1 + p2 = 1). Für die n-malige Wiederholung des Einzelversuchs zählen die Zufallsvariablen X1 und X2 das Auftreten von A1 bzw. A2 (X1 + X2 = n). Es liegt also eine Bernoullikette vor, allgemein eine multinomiale Verteilung. Die Ergebnisse X1 X2 X2 der Zufallsversuche liegen auf der Geraden x + y = n. × X −n·p 1 1 √ n · p 1 Z1 Wir gehen nun zum Zufallsvektor = X2 − n · p2 Z2 √ n · p2 über. × × n = 10 p1 = 0,6 × × × × × × × × × 10 X1 Z2 √ p √ 1 p2 × × × √ − p1 √ p2 1 × Z1 × × Die Varianz von Z1 lautet: 1 V (Z1 ) = n · p · n · p1 · p2 = p2 1 entsprechend: V (Z2 ) = p1 Z1 Hieraus ist zu erkennen, dass (genähert) normalverteilt ist, bezogen auf eine Achseneinteilung Z2 auf der Geraden, µ = 0, σ = 1 (Pythagoras und p1 + p2 = 1). Der Freiheitsgrad 1 wird verständlich. p Anders formuliert: Z12 + Z22 ist N (0, 1)-verteilt. Die Chiquadrat-Testgröße Z12 + Z22 ist daher χ21 -verteilt. Roolfs 4 Chiquadrat-Test Fortsetzung Wir können uns auch den Test mit 2 Freiheitsgraden veranschaulichen. Hierzu betrachten wir einen Einzelversuch mit den 3 Ausgängen A1 , A2 und A3 , die mit den Wahrscheinlichkeiten p1 , p2 und p3 angenommen werden (p1 +p2 +p3 = 1, genau ein Ai tritt ein). Für die n-malige Wiederholung des Einzelversuchs zählen die Zufallsvariablen X1 , X2 und X2 das Auftreten von A1 , A2 und A3 , X1 + X2 + X3 = n. X1 − n · p1 √ n · p1 Z1 X −n·p 2 2 Der Zufallsvektor OP = Z2 = √ n · p2 Z3 X3 − n · p3 −→ √ n · p3 Z3 liegt stets in einer Ebene mit der HNF: −→ ( OP steht senkrecht auf dem Normalenvektor) √ p1 √ E : p2 ~x = 0 √ p3 √ 1 − p1 √ 1 − p2 Z2 1 1 2 Z1 2 × P E Die Varianz von Zi beträgt: 1 V (Zi ) = n · p · n · pi · (1 − pi ) = 1 − pi i −→ Um die Verteilung des Längenquadrats | OP | 2 = Z12 + Z22 + Z32 (= Chiquadrat-Testgröße) −→ zu ermitteln, kann durch einen Vergleich mit der multinomialen Verteilung von OP gezeigt werden, dass die beiden rechtwinkligen Koordinaten von P , hinsichtlich der Ebene E, N (0, 1)-verteilt sind (n → ∞). −→ Damit ist | OP | 2 χ22 -verteilt. Roolfs 5 Chiquadrat-Test Ergänzung Die heuristischen Überlegungen wären noch treffender, wenn sich die Einheiten des EbenenKoordinatensystems durch senkrechte Projektion der Standardabweichungen von Z1 und Z2 ergäben und die Koordinatenachsen auf E (als Schnittgeraden mit der xz- bzw. yz-Ebene) orthogonal wären. Beides ist jedoch nicht der Fall. Es kommt nicht auf die Lage der Koordinatenachsen in E an: Das Längenquadrat, d. h. das −→ Skalarprodukt OP 2 , ist stets gleich. So kann eine zweidimensionale Standardnormalverteilung √ 0 p1 mit einer orthogonalen Matrix so auf E abgebildet werden, dass der Vektor 0 in √p2 √ 1 p3 übergeht. Z1 Die Übereinstimmung (für n → ∞) dieser Verteilung mit der Verteilung von Z2 wird mit Z3 Hilfe von charakteristischen Funktionen nachgewiesen. Roolfs 6