Kapitel 7 p-dimensionale Zufallsvariablen 7.1 Definitionen, Eigenschaften Wir betrachten jetzt p Zufallsvariablen X1 ; X2 ; : : : ; Xp . Alle Definitionen, Notationen und Eigenschaften sind analog zum 2-dimensionalen Fall. Definition 7.1 Die Zufallsvariablen X1 ; X2 ; : : : ; Xp seien diskret. Die gemeinsame Wahrscheinlichkeitsfunktion ist dann definiert durch PX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) = P (fX1 = x1 ; X2 = x2 ; : : : ; Xp = xp g) : Definition 7.2 Eine Funktion f : IRp ! IR heißt eine gemeinsame Dichtefunktion, wenn gilt a) f (x1 ; x2 : : : ; xp ) 0 für alle (x1 ; x2 : : : ; xp ) ; b) 1 1 1 R R R ::: f (x1 ; x2 ; : : : ; xp )dx1 dx2 : : : dxp = 1 : 1 1 1 Definition 7.3 Die Zufallsvariablen (X1 ; X2 ; : : : Xp ) heißen stetig, wenn es eine gemeinsame Dichtefunktion fX1 X2 :::Xp gibt, so dass für alle ai , bi ; i = 1; 2; : : : ; p mit ai bi gilt P (fa1 X1 b1 ; a2 X2 b2 ; : : : ; ap Xp bp g) = Zbp ap ::: Zb2 Zb1 a2 a1 fX1 X2 :::Xp (x1 ; x2 ; : : : ; xp )dx1 dx2 : : : dxp : 125 126 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN Satz 7.1 Für diskrete Zufallsvariablen (X1 ; X2 ; : : : ; Xp ) gilt P (fa1 X1 b1 ; a2 X2 b2 ; : : : ; ap Xp bp g) = X ap xp bp ::: X X a2 x2 b2 a1 x1 b1 Definition 7.4 Die gemeinsame X1 ; X2 ; : : : ; Xp ist definiert als PX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) : Verteilungsfunktion der p Zufallsvariablen FX1 X2 :::;Xp (x1 ; x2 ; : : : ; xp) = P (X1 x1 ; X2 x2 ; : : : ; Xp xp ) : Satz 7.2 Für stetige Zufallsvariablen X1 ; X2 ; : : : ; Xp mit der gemeinsamen Verteilungsfunktion FX1 X2 :::;Xp erhält man die gemeinsame Dichtefunktion durch Differentiation: fX1 X2 :::;Xp (x1 ; x2 ; : : : ; xp ) = p F (x ; x ; : : : ; xp) : x1 x2 : : : xp X1 X2 :::Xp 1 2 Definition 7.5 Der Erwartungswert einer Funktion H (X1 ; X2 ; : : : ; Xp ) ist im stetigen Fall definiert durch EH (X1 ; X2 ; : : : ; Xp) = 1 Z 1 ::: 1 Z1 Z 1 1 H (x1 ; x2 ; : : : ; xp )fX1 X2 :::Xp (x1 ; x2 ; : : : ; xp )dx1 dx2 : : : dxp und im diskreten Fall durch EH (X1 ; X2 ; : : : ; Xp) = XX x1 x2 ::: X xp H (x1 ; x2 ; : : : ; xp )PX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) : Seien H1 (X1 ; X2 ; : : : ; Xp ) und H2 (X1 ; X2 ; : : : ; Xp ) jeweils Funktionen von (X1; X2; : : : ; Xp). Dann folgt sofort aus der Definition des Erwartungswertes E (H1 (X1 ; X2 ; : : : ; Xp ) + H2 (X1 ; X2 ; : : : ; Xp )) = EH1 (X1 ; X2 ; : : : ; Xp ) + EH2 (X1 ; X2 ; : : : ; Xp ) : 7.1. DEFINITIONEN, EIGENSCHAFTEN So ist z.B. 127 E (X1 + X2 + : : : + Xp ) = EX1 + EX2 + : : : + EXp : Definition 7.6 Die gemeinsamen Momente von p Zufallsvariablen sind definiert durch 0r1 r2 :::rp So ist z.B. = E (X1r X2r : : : Xprp ) : 1 2 0100:::0 = EX1 und 01100:::0 = EX1 X2 : Die Randverteilungsfunktion einer Teilmenge von X1 ; X2 ; : : : ; Xp erhält man, indem man die nicht in dieser Teilmenge enthaltenen Argumente gegen 1 konvergieren lässt. Seien z.B. X1 ; X2 ; : : : ; X5 Zufallsvariablen mit der Verteilungsfunktion FX1 X2 :::X5 (x1 ; x2 ; : : : ; x5 ). Die Randverteilungsfunktion von X1 ; X2 und X4 ist FX1 X2 X4 (x1 ; x2 ; x4 ) = FX1 X2 X3 X4 X5 (x1 ; x2 ; 1; x4 ; 1) : Um die Randdichtefunktion (Randwahrscheinlichkeitsfunktion) einer Teilmenge von X1 ; X2 ; : : : ; Xp zu bestimmen, integriert (summiert) man über die nicht in der Teilmenge enthaltenen Argumente. So ist z.B. im stetigen Fall fX1 X2 X4 (x1 ; x2 ; x4 ) = 1 Z1 Z 1 1 fX1 X2 X3 X4 X5 (x1 ; x2 ; x3 ; x4 ; x5 )dx3 dx5 und im diskreten Fall PX1 X2 X4 (x1 ; x2 ; x4 ) = XX x3 x5 PX1 X2 X3 X4 X5 (x1 ; x2 ; x3 ; x4 ; x5 ) : Definition 7.7 Die p Zufallsvariablen X1 ; X2 ; : : : ; Xp sind unabhängig, wenn die folgende Bedingung für stetige Zufallsvariablen erfüllt ist fX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) = fX1 (x1 )fX2 (x2 ) : : : fXp (xp ) ; bzw. für diskrete Zufallsvariablen PX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) = PX1 (x1 )PX2 (x2 ) : : : PXp (xp ) : 128 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN Unabhängigkeit kann auch mit Hilfe der Verteilungsfunktionen nachgewiesen werden. Satz 7.3 Die p Zufallsvariablen X1 ; X2 ; : : : ; Xp sind genau dann unabhängig, wenn die folgende Bedingung erfüllt ist: FX1 X2 :::Xp (x1 ; x2 ; : : : ; xp) = FX1 (x1 )FX2 (x2 ) : : : FXp (xp ) : Bedingte Dichtefunktionen (Wahrscheinlichkeitsfunktionen) werden auf die übliche Weise definiert. So ist z.B. bzw. fX1 X3 jX2 X4 (x1 ; x3 jx2 ; x4 ) = fX1 X2 X3 X4 (x1 ; x2 ; x3 ; x4 ) ; fX2 X4 (x2 ; x4 ) PX1 X3 jX2 X4 (x1 ; x3 jx2 ; x4 ) = PX1 X2 X3 X4 (x1 ; x2 ; x3 ; x4 ) : PX2 X4 (x2 ; x4 ) Wir wollen jetzt die p Zufallsvariablen X1 ; X2 ; : : : ; Xp als Vektor betrachten, den wir mit dem Symbol X bezeichnen, also mit einem fettgedruckten X , d.h. 0 X= B B B B X1 X2 .. . Xp 1 C C C C A oder X t = (X1; : : : ; Xp) Ist i = EXi der Erwartungswert von Xi , so bezeichnen wir mit den Vektor der Erwartungswerte. 0 1 1 B C B 2 C B = B .. C oder t = (1; : : : ; p) C . A p Die Varianz-Kovarianzmatrix oder einfach Kovarianzmatrix wird mit bezeichnet und enthält in der i-ten Zeile und j-ten Spalte die Kovarianz zwischen Xi und Xj : 0 = B B B B B B B 0 = B B B B B B B V ar(X1 ) Kov (X1 ; X2 ) Kov (X1 ; X3 ) : : : Kov (X1 ; Xp ) Kov (X2 ; X1 ) V ar(X2 ) Kov (X2 ; X3 ) : : : Kov (X2 ; Xp ) Kov (X3 ; X1 ) Kov (X3 ; X2 ) V ar(X3 ) : : : Kov (X3 ; Xp ) .. . Kov (Xp; X1 ) 11 12 13 21 22 23 31 32 33 .. . .. . Kov (Xp; X2 ) Kov (Xp ; X3 ) : : : 1 : : : 1p C : : : 2p C C : : : 3p C C p1 p2 p3 : : : pp C C A V ar(Xp) 1 C C C C C C C A 7.1. DEFINITIONEN, EIGENSCHAFTEN 129 Falls j = i ist, so ist Kov (Xi ; Xj ) = Kov (Xi ; Xi ) = V ar (Xi ), d.h. in der Diagonalen der Kovarianzmatrix stehen die Varianzen der Variablen X1 ; X2 ; : : : ; Xp . Da ij = E (Xi i)(Xj j ) = E (Xj j )(Xi i) = ji ; ist eine symmetrische p p Matrix. Die Korrelationsmatrix wird mit einem großen griechischen Rho bezeichnet, das wie ein lateinisches P aussieht. Sie enthält in der i-ten Zeile und j-ten Spalte den Korrelationskoeffizienten zwischen Xi und Xj . 0 P = 11 12 13 : : : 1p 21 22 23 : : : 2p 31 32 33 : : : 3p B B B B B B B .. . p1 p2 p3 : : : pp Dabei ist ij und offensichtlich = p ij ii jj ii = d.h. 0 P = B B B B B B B 1 C C C C C C C A = ij i j pii = 1 ; ii ii 1 12 13 : : : 1p 21 1 23 : : : 2p 31 32 1 : : : 3p .. . p1 p2 p3 : : : 1 1 C C C C C C C A Die Korrelationsmatrix ist wie die Kovarianzmatrix eine symmetrische Matrix und enthält in der Diagonalen jeweils Einsen. Der Zusammenhang zwischen der Kovarianzmatrix und der Korrelationsmatrix P kann mithilfe der Diagonalmatrix D beschrieben werden, die in p der Diagonalen die Standardabweichungen i = ii enthält. Für den umgekehrten Zusammenhang zwischen P und benötigt man die Inverse D 1 , die in der Diagonalen die reziproken Werte der Standaradabweichungen enthält. 0 D= B B B B 0 ::: 0 0 2 : : : 0 1 .. . 0 0 : : : p 1 0 C C C C A B B B B B D 1 = Dann gilt: = DP D P = D 1 D 1 1 0 ::: 0 0 1 : : : 0 1 .. . 2 0 0 ::: 1 p 1 C C C C C A 130 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN 7.2 Die p-dimensionale Normalverteilung Wir schreiben X N (; ) ; wenn der Vektor X t = (X1 ; X2 ; : : : ; Xp ) eine p-dimensionale Normalverteilung besitzt. Definition 7.8 Die Dichtefunktion einer p-dimensionalen Normalverteilung ist 1 fX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) = q (2)p=2 det () e (x )t (x )=2 : 1 Dabei ist det () die Determinante der symmetrischen und positiv definiten Matrix 1 die Inverse der Matrix und xt = (x1; x2 ; : : : ; xp). Der Wertebereich ist , 1 < x1 ; x2; : : : ; xp < 1 : Die p-dimensionale Normalverteilung hat die Parameter und , d.h. die Parameter a) 1 ; 2 ; : : : ; p , d.h. die p Erwartungswerte und b) p(p + 1)=2 Kovarianzen und Varianzen 11 12 13 : : : 1p 22 23 : : : 2p 33 : : : 3p .. . pp Wegen der Symmetrie wurden die Elemente unterhalb der Diagonalen weggelassen. Beispiel 7.1 Für die 2-dimensionale Normalverteilung ist x= x1 x2 ! 1 2 = ! = det () = 11 12 = 11 22 21 22 1 = det1() 22 21 12 11 ! 11 12 21 22 12 21 = 12 22 = 2 2 (11 2 ) 1 2 ! = 12 1 2 1 2 22 12 22 2 = 12 22 (1 22 1 2 1 2 12 ! 2 ) ! : Leiten Sie daraus die bekannte gemeinsame Dichtefunktion (siehe Definition 6.17) der bivariaten Normalverteilung her. Wir betrachten jetzt den Spezialfall, dass in der Kovarianzmatrix ij =0 für alle i 6= j ; 7.2. DIE P-DIMENSIONALE NORMALVERTEILUNG d.h. 0 = Dann ist auch ij B B B B B B B 0 0 0 22 0 0 0 0 . . . ... .. .. . 0 . 0 0 0 pp 11 = pij = 0 ii jj für 131 1 C C C C C C C A : (7.1) i 6= j : Die Zufallsvariablen X1 ; :::; Xp sind dann nach Definition 6.11 unkorreliert. Wir hatten in Beispiel 6.18 gesehen, dass aus der Unkorreliertheit nicht notwendig die Unabhängigkeit folgen muss. Für gemeinsam normalverteilte Zufallsvariablen ist das jedoch anders. Satz 7.4 Die Zufallsvariablen X1 ; X2 ; : : : ; Xp seien gemeinsam normalverteilt und unkorreliert. Dann sind X1 ; X2 ; : : : ; Xp auch unabhängig verteilt. Beweis: Da die Kovarianzmatrix eine Diagonalmatrix ist, folgt nach Gleichung (7.1) det() = 11 22 :::pp : Damit ist die gemeinsame Dichtefunktion fX1 ;:::;Xp (x1 ; x2 ; : : : ; xp) = 1 t e (x ) p p= 2 (2) 11 22 :::pp Nun ist die Inverse der Kovarianzmatrix 0 1 1= B B B B B B B B 0 0 0 1 0 0 11 22 . . . ... .. . 0 0 0 1pp .. . .. . P 1 (x )=2 1 C C C C C C C C A und damit 2 2 2 (x )t 1 (x ) = (x1 1) + (x2 2) + : : : + (xp p) : 11 22 pp Daraus folgt fX1 ;:::;Xp (x1 ; x2 ; : : : ; xp ) x = p1 e p1 e 211 222 = fX (x1 )fX (x2 ); :::; fXp (xp) ; 2 1 ( 1 1) 2 11 1 2 2 1 (x2 2 ) 2 22 ::: 1 p2 pp e 2 1 (xp p ) 2 pp 132 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN } d.h. X1 ; X2 ; : : : ; Xp sind unabhängig verteilt. Wir geben jetzt die Schätzer der Parameter einer multivariaten Normalverteilung an. Wir gehen davon aus, dass n unabhängige Wiederholungen eines p-dimensionalen normalverteilten Vektors beobachtet werden. Wir haben also eine Matrix von Zufallsvariablen: 0 B B B B B B B X11 X21 : : : Xp1 X12 X22 : : : Xp2 X13 X23 : : : Xp3 .. .. .. .. . . . . X1n X2n : : : Xpn 1 C C C C C C C A Jede Zeile besitzt eine p-dimensionale Normalverteilung. Die Zeilenvektoren sind unabhängig. Man kann sich das so vorstellen, dass man an n Objekten (Personen, Merkmalsträgern) je p Merkmale beobachtet hat. Die Beobachtungen der p Merkmale für das i-te Objekt stehen in der i-ten Zeile. In der j-ten Spalte stehen alle Beobachtungen für die j-te Zufallsvariable. Etwas unüblich ist also Xji die i-te Beobachtung der j-ten Variable und steht in der i-ten Zeile und j-ten Spalte. Die Schätzer der Erwartungswerte sind dann ^1 = n X j =1 X1j =n = X 1 ; ^2 = n X j =1 X2j =n = X 2 ; : : : ; ^p = n X j =1 Xpj =n = X p : Die Maximum-Likelihood-Schätzer der Kovarianzen sind n n X X 1 1 Sij = ^ij = (Xik ^i)(Xjk ^j ) = (Xik Xi)(Xjk Xj ) i; j = 1; 2; :::; p : n k=1 n k=1 Diese Schätzer sind nicht erwartungstreu. Erwartungstreue Schätzer sind Sij n n X 1 X = ^ij = n 1 (Xik ^i)(Xjk ^j ) = n 1 1 (Xik Xi )(Xjk Xj ) i; j = 1; 2; :::; p : k=1 k=1 Die geschätzte Kovarianzmatrix ist dann 0 ^ = S = B B B B S11 S12 : : : S1p S21 S22 : : : S2p .. . Sp1 Sp2 : : : Spp 1 C C C C A oder 0 ^ = S = B B B B S : : : S S11 12 1p S : : : S S21 22 2p .. . Sp1 Sp2 : : : Spp 1 C C C C A Schätzer der Korrelationskoeffizienten ij erhält man durch ^ij = rij = q ^ij ^ii ^jj i; j = 1; 2; :::; p : 7.2. DIE P-DIMENSIONALE NORMALVERTEILUNG 133 Die geschätzte Korrelationsmatrix ist dann 0 P^ B B B B =R = 1 r12 : : : r1p r21 1 : : : r2p .. . rp1 rp2 : : : 1 1 C C C C A Von den zahlreichen Anwendungen der multivariaten Normalverteilung wollen wir hier nur die einfache Regressionsanalyse betrachten. Wir gehen von der Annahme 1 2 XN ! ; 11 1 2 2 1 22 !! aus. Es seien Beobachtungen (x11 ; x21 ); (x12 ; x22 ); : : : ; (x1n; x2n) gegeben. Als Datenmatrix würde man das so schreiben: 0 B B B B x11 x21 x12 x22 .. . x1n x2n 1 C C C C A 3 2 1 0 −1 −2 −3 −3 −2 −1 0 1 2 3 Abbildung 7.1: Zur einfachen linearen Regression: Höhenlinien der bivariaten Normalverteilung und simulierte Daten In diesem Zusammenhang sind folgende Aufgaben von Interesse. Man will z.B. den Zusammenhang zwischen X1 und X2 beschreiben, schätzen, Hypothesen über testen, z.B. H0 : = 0, 134 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN X2 anhand einer Beobachtung von X1 vorhersagen, = 2 berechnen, die bedingte Erwartung von X2 gegeben X1 den 95%-Punkt der bedingten Verteilung von X2 , gegeben X1 schätzen. 7.3 Summen und Linearkombinationen von Zufallsvariablen Eine Linearkombination von n Zufallsvariablen X1 ; X2 ; : : : ; Xn ist definiert durch: L = a1 X1 + a2 X2 + : : : an Xn ai 2 IR X t = (X1; X2; : : : ; Xn) Wir wollen dieselbe Gleichung mit Vektoren schreiben. Dazu sei und at = (a1 ; a2 ; : : : ; an ). Dann ist L = at X Eine Linearkombination von Zufallsvariablen ist selbst wieder eine Zufallsvariable, die sehr häufig in Anwendungen erscheint (z.B. Mittelwerte, gewichtete Durchschnitte, Summen usw.). Schaut man sich die Vektorschreibweise an, so wird durch die Bildung einer Linearkombination aus dem zufälligen Vektor X mit einer multivariaten Verteilung ein zufälliger Skalar L mit einer univariaten Verteilung. Wir wollen die Eigenschaften der Verteilung einer Linearkombination, insbesondere Erwartungswert und Varianz untersuchen. Wir verwenden die folgenden Bezeichnungen: EXi = i t = (1; 2; : : : ; n) V arXi = E (Xi i )2 = i2 = ii Kov (Xi ; Xj ) = E (Xi i )(Xj j ) = ij bezeichnet die Varianz-Kovarianzmatrix von X . Bei identisch verteilten Zufallsvariablen verwenden wir die Bezeichnungen ; 2 statt i ; i2 . Wir betrachten zunächst nur Summen: S wobei 1t = X1 + X2 + : : : Xn = 1tX ; = (1; 1; : : : ; 1) sei. Es ist: ES V arS = E (X1 + X2 + : : : + Xn) = EX1 + EX2 + : : : + EXn = 1 + 2 + : : : + n = n falls Xi identisch verteilt n X = E (S ES )2 = E ( = E = n X n X i=1 i=1 (Xi i)(Xj j ) = i=1 j =1 n X i=1 n X Xi E (Xi i )2 + n X n X i=1 j =1 i6=j n X i )2 = E ( n X n X E (Xi i )(Xj i )(Xj j ) i=1 j =1 E (Xi i=1 (Xi i))2 j ) 7.3. SUMMEN UND LINEARKOMBINATIONEN VON ZUFALLSVARIABLEN n X = i=1 n X = i=1 i2 + n X n X i=1 j =1 135 ij i6=j i2 falls Xi unabhängig = n2 falls Xi unabhängig und identisch verteilt Jetzt betrachten wir Linearkombinationen L = at X = a1 X1 + a2 X2 + : : : an Xn ai 2 IR Die entsprechenden Formeln sind dann: EL = E (a1 X1 + a2 X2 + : : : + anXn) = Ea1 X1 + Ea2X2 + : : : + EanXn = a1 EX1 + a2 EX2 + : : : + anEXn = a11 + a22 + : : : + ann n X = ai i i=1 n X = i=1 falls Xi identisch verteilt ai In vektorieller Notation haben wir E (L) = E (at X ) = at Var(L) n X = E (L EL)2 = E ( = E = = = = n X n X i=1 j =1 n X i=1 n X i=1 n X i=1 ai aj (Xi a2 E (X i i a2i i2 + i=1 n X ai Xi i=1 i )(Xj )2 + i n X n X i=1 j =1 j ) = n X n X i=1 j =1 n X ai i )2 = E ( n X n X i=1 j =1 ai aj E (Xi i=1 i ))2 ai (Xi ai aj E (Xi i )(Xj i)(Xj j ) j ) i6=j ai aj ij i6=j a2i i2 falls Xi unabhängig n X 2 a2i i=1 falls Xi unabhängig und identisch verteilt In vektorieller Notation haben wir das allgemeine Resultat: Var(L) = Var(at X ) = at a Eine spezielle, besonders wichtige Linearkombination ist der Durchschnitt, d.h. das arithmetische Mittel: n X 1 1 1 1 1 Xn = Xi = X1 + X2 + : : : + Xn = 1t X n n n n n i=1 136 Es ist also ai Spezialfall: KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN = 1=n für i = 1; 2; : : : ; n. Damit folgt aus den allgemeinen Formeln für diesen E Xn n X = 1 i = V arX n n i=1 falls Xi identisch verteilt = E (Xn E Xn)2 n X 1 = 2 i2 + 12 n i=1 = 12 = n n X n X n X i=1 j =1 ij i6=j 2 falls Xi unabhängig n i=1 i 2 =n falls Xi unabh. und identisch verteilt Die Verteilung einer Summe oder einer Linearkombination von Zufallsvariablen ist oft schwer zu bestimmen, auch wenn die Zufallsvariablen unabhängig sind. Einige Ausnahmen haben wir im Laufe der Vorlesung bzw. in den Übungen kennengelernt. So wissen wir, dass die Summe von unabhängig und identisch Bernoulli-verteilten Zufallsvariablen binomialverteilt, die Summe von unabhängig und identisch geometrisch verteilten Zufallsvariablen negativ binomialverteilt, die Summe von unabhängig poissonverteilten Zufallsvariablen wieder Poissonverteilt ist, wobei sich die Parameter addieren. Die Summe von unabhängig und identisch exponentialverteilten Zufallsvariablen ist gammaverteilt. Die Summe von unabhängigen gammaverteilten Zufallsvariablen ist (bei gleichem Parameter ) wieder gammaverteilt, wobei die Parameter zu addieren sind. Die Summe von unabhängigen 2 -verteilten Zufallsvariablen ist wieder 2 -verteilt. Die Freiheitsgrade addieren sich. Schließlich ist jede Linearkombination von normalverteilten Zufallsvariablen wieder normalverteilt. Die Parameter und 2 bestimmen sich aus den Formeln für den Erwartungswert und die Varianz, die in diesem Kapitel hergeleitet wurden. Für den Durchschnitt nützlich ist oft der zentrale n macht. Grenzwertsatz, der Aussagen über die asymptotische Verteilung von X Satz 7.5 (Zentraler Grenzwertsatz) Die Zufallsvariablen X1 ; X2 ; : : : ; Xn seien unabhängig und identisch verteilt mit V arXi = 2 < 1. Dann besitzt pn(X n )= asymptotisch eine N (0; 1)-Verteilung. n durch eine N (; 2=n)-Verteilung approximieren. Man kann dann die Verteilung von X 7.4 Weiteres zur multivariaten Normalverteilung Wir haben weiter oben gesagt, dass jede Linearkombination normalverteilter Zufallsvariablen wieder normalverteilt ist. Nun besagt ein Resultat von Cramer und Wold, dass die 7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG 137 Verteilung eines p-dimensionalen zufälligen Vektors X vollständig bestimmt ist durch die univariaten Verteilungen aller Linearkombinationen. Damit ist es möglich die multivariate Normalverteilung auf die folgende Weise zu definieren. Definition 7.9 Eine p-dimensionale Zufallsvariable X hat eine multivariate Normalverteilung, wenn alle Linearkombinationen von X eine univariate Normalverteilung besitzen. Jede Komponente des Vektors X ist eine Linearkombination von X und somit normalverteilt. Eine Linearkombination at X ist eine univariate Zufallsvariable und die Varianz einer univariaten Zufallsvariablen ist größer oder gleich 0, d.h. Var(at X ) 0. Andererseits gilt Var(at X ) = at a, wenn die Varianz-Kovarianzmatrix von X bezeichnet. Damit haben wir at a 0 8a Dieses Resultat bedeutet, dass die Varianz-Kovarianzmatrix positiv semidefinit ist. In der früheren Definition der multivariaten Normalverteilung mithilfe der gemeinsamen Dichtefunktion hatten wir verlangt, dass die Kovarianzmatrix positiv definit und invertierbar ist. Die Kovarianzmatrix ist positiv definit, wenn at a > 0 für alle a 6= 0. Eine multivariate Normalverteilung, für die 1 nicht existiert heißt singuläre oder degenerierte Normalverteilung und besitzt keine Dichtefunktion. Nicht nur jede Linearkombination von normalverteilten Zufallsvariablen ist wieder normalverteilt. Die Normalverteilung bleibt auch bei linearen Transformationen erhalten. Sei X N (; ) p-dimensional normalverteilt. Sei A eine p m-Matrix. Dann ist W = At X ein m-dimensionaler Vektor und es gilt W N (At ; AtA) (7.2) Im univariaten Fall konnten wir jede beliebige Normalverteilung auf die Standardnormalverteilung transformieren. Wir geben jetzt eine äquivalente Transformation zwischen einem Zufallsvektor X N (; ) und einem zufälligen Vektor U , dessen Komponenten unabhängig und standardnormalverteilt sind, so dass U N (0; Ip ), wobei Ip eine p-dimensionale Einheitsmatrix ist. Wir beschränken uns auf den Fall, in dem nichtsingulär ist. Dann gibt es eine nichtsinguläre Matrix p p-Matrix B, so dass = BB t . Betrachten wir jetzt die Transformation (X ) = B U . Wenn U Np(0; I ), dann gilt nach Gleichung 7.2 t (X ) N (0; BB ) und daher X N (; ). Da B 1 existiert, ist die inverse Transformation gegeben durch: U = B 1 (X ). Wenn X N (; ), dann gilt E (U ) = 0 Var(U ) = B 1 (B 1 )t nach Gleichung 7.2 1 t t 1 = B (BB )(B ) = Ip Damit gilt U N (0; Ip ). Es sei angemerkt, dass die Matrix B nicht eindeutig ist, so dass es viele solche Transformationen gibt. Eine Möglichkeit, die Matrix B zu bestimmen ist: 138 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN = C 1=2. Dabei ist C die Matrix der Eigenvektoren von (in jeder Spalte steht ein Eigenvektor) und ist die Diagonalmatrix der Eigenwerte. Wir schieben kurz einige Bemerkungen zu Eigenwerten und Eigenvektoren ein. Sei eine B p p-Matrix. Die Eigenwerte (charakteristischen Wurzeln) sind die Lösungen der Gleichung det( I ) = 0 (7.3) Diese Gleichung ist ein Polynom der Ordnung p in . Die der Größe nach geordneten Eigenwerte werden mit 1 ; 2 ; : : : ; p (1 2 : : : p ) bezeichnet. Wir betrachten die Matrix = 1 1=2 1=2 1 ! Dann gilt det( I ) = det ! 1 1=2 = (1 )2 1=4 = 2 2 + 3=4 1=2 1 q Diese Gleichung hat die beiden Lösungen 1;2 = 1 1 3=4, d.h. 1 = 3=2 und 2 = 1=2. Zu jedem Eigenwert i gehört ein Vektor i , der Eigenvektor genannt wird, für den gilt: i = ii In unserem Beispiel ist also für 1 d.h. (7.4) = 3=2 das Gleichungssystem ( 3=2I ) = 0 zu lösen, 0:511 + 0:512 = 0 0:511 0:512 = 0 = 12 , d.h jeder Vektor t1 = (11; 11 ) ist eine Lösung. Für 2 = 1=2 das Gleichungssystem 1=2I = 0 zu lösen, d.h. Das bedeutet 11 0:521 + 0:522 = 0 0:521 + 0:522 = 0 Das bedeutet 21 = 22 , d.h jeder Vektor t2 = (21 ; 21 ) ist eine Lösung. Die Eigenvektoren sind nur bis auf einen konstanten Faktor eindeutig bestimmt. Daher werdenpsie gewöhnlich so normiert, dasspti i = 1 gilt. In unserem Beispiel wären also t1 = p p (1= 2; 1= 2) und t2 = (1= 2; 1= 2) normierte Lösungen. Wenn es gleiche Eigenwerte gibt, können die Eigenvektoren so gewählt werden, dass sie orthonormiert sind (orthogonal und normiert). In R können die Eigenwerte mit der Funktion eigen bestimmt werden. Sigma<-matrix(c(1,0.5,0.5,1),nrow=2) eigen(Sigma) 7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG 139 $values 1.5 0.5 $vectors 0.7071068 0.7071068 0.7071068 -0.7071068 Die Matrix C der Eigenvektoren ist also: p p 1=p2 C= 1= 2 ! 1=p2 = 0:7071 0:7071 1= 2 0:7071 0:7071 ! Die Diagonalmatrix der Eigenwerte ist = 3=02 10=2 Damit ist 0 q 1=2 = und schließlich B = C 1=2 3=2 0 0 q 1=2 ! 1 1:2247 0 A = 0 0:7071 p = p33==22 11==22 = 00::8660 8660 ! ! 0:5 0:5 ! Die Inverse einer quadratischen Matrix B bestimmt man in R mit dem Befehl solve(B). In diesem Fall ist ! 0 :5774 0:5774 1 B = 1:0000 1:0000 Wir fassen das Ergebnis in folgendem Satz zusammen: Satz 7.6 Sei nichtsingulär. Dann gilt X N (; ) genau dann, wenn X = + B U , wobei U N (0; I ); BB t = und B ist eine p p-Matrix vom Rang p und es gilt dann U = B 1 (X ). Wir hatten vorhin von einer degenerierten oder auch ausgearteten Verteilung gesprochen und wollen jetzt dafür ein Beispiel bringen: Betrachten Sie einen Vektor X , dessen Komponenten aus der Länge, Breite und dem Umfang eines zufälligen Rechtecks bestehen. Dann gilt zwischen den drei Komponenten dieses Vektors die lineare Beziehung 2X1 +2X2 X3 = 0. Obwohl wir einen dreidimensionalen Vektor haben, ist die Variation in Wirklichkeit zweidimensional und Rang() = 2. Hätten wir Radius, Durchmesser und Umfang eines zufälligen Kreises, so gäbe es zwei lineare Beziehungen zwischen den Komponenten und die effektive Dimension dieses dreidimensionalen Vektors wäre 1. 140 KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN Eigenschaften der multivariaten Normalverteilung: a) Wenn X N (; ) mit nichtsingulärem , so gilt: (X )t 1 (X ) 2p (7.5) Dies ist eine Verallgemeinerung der bekannten Tatsache, dass das Quadrat einer standardnormalverteilten Zufallsvariablen 21 -verteilt ist. Insbesondere gilt für p = 1, dass [(Y )=℄2 21 . Nach Satz 7.6 können wir schreiben: U = B 1 (X ) mit p P BB t = und U N (0; I ). Dann ist U t U = Uj2 , wobei die Uj unabhängige j =1 standardnormalverteilte Zufallsvariablen sind. Folglich ist U t U 2p -verteilt. Andererseits gilt aber: U tU = (X )t (B 1)t B 1(X ) = (X )t 1(X ) Damit folgt das obige Resultat. Subtrahiert man in Gleichung 7.5 nicht den Erwartungswertvektor , sondern z.B. 0 6= , so erhält man anstelle der zentralen 2 -Verteilung eine nichtzentrale 2Verteilung mit Nichtzentralitätsparameter Æ 2 = ( 0 )t 1 ( 0 ). Wir werden jetzt zeigen, dass die Randverteilungen und die bedingten Verteilungen einer multivariaten Normalverteilung wieder Normalverteilungen sind. Zur Vereinfachung nehmen wir an, dass X folgendermaßen aufgeteilt ist (evtl. muß man vorher die Variablen umordnen): 1 X= X X2 ! mit X 1 ein (q 1) Vektor q < p Entsprechende Aufteilungen gelten für den Erwartungswertvektor und die Kovarianzmatrix: 1 = 2 ! 11 12 = 21 22 Dabei sind 11 und 22 symmetrische positiv semidefinite q Matrizen und 12 = t21 sind q (p q )-Matrizen. ! q bzw. (p q ) (p q )- b) Die Randverteilung von X1 ist Nq (1 ; 11 ). Die multivariate Normalverteilung von X 1 folgt aus der Tatsache, dass Linearkombinationen von X 1 auch Linearkombinationen von X sind und damit univariate Normalverteilungen haben. c) d) X 1 und X 2 sind genau dann unabhängig verteilt, wenn 12 = 0. Wenn 22 vollen Rang hat, so dass 221 existiert, ist die bedingte Verteilung von X 1 , gegeben X 2 = x2 eine multivariate Normalverteilung mit: E (X 1 jX 2 = x2 ) = 1 + 12 221 (x2 2 ) Var(X 1 jX 2 = x2 ) = 11 12 221 21 7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG Wir betrachten den Spezialfall q = 1. Dann ist X 1 X , also eine univariate Zufallsvariable. Dann ist = X1 die erste Komponente von E (X1 jX 2 = x2 ) = 1 + 12 221 (x2 Nun ist aber 12 221 eine 1 (p hat die Gestalt 141 2 ) (7.6) 1)-Matrix, also ein Zeilenvektor, d.h. Gleichung 7.6 E (X1 jX 2 = x2 ) = 1 + 2 (x2 2 ) + : : : + m (xp p ) (7.7) wenn wir die Elemente dieses Vektors mit 2 ; : : : ; p bezeichnen. Gleichung 7.7 ist die Regressionsfunktion von X1 auf X2 ; : : : ; Xm . Für die bedingte Varianz haben wir dann Var(X1 jX 2 = x2 ) = 11 12 221 21 Für die bedingte Varianz kann man zeigen, dass Var(X1 jX 2 = x2 ) = 1 11 gilt. Dabei ist 11 das (1; 1)-te Element der Inversen 1 . Das bedeutet: die bedingte Varianz ist eine Konstante, die nicht von x2 abhängt.