p-dimensionale Zufallsvariablen(16.09.2004)

Werbung
Kapitel 7
p-dimensionale Zufallsvariablen
7.1 Definitionen, Eigenschaften
Wir betrachten jetzt p Zufallsvariablen X1 ; X2 ; : : : ; Xp . Alle Definitionen, Notationen und
Eigenschaften sind analog zum 2-dimensionalen Fall.
Definition 7.1 Die Zufallsvariablen X1 ; X2 ; : : : ; Xp seien diskret. Die gemeinsame
Wahrscheinlichkeitsfunktion ist dann definiert durch
PX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) = P (fX1 = x1 ; X2 = x2 ; : : : ; Xp = xp g) :
Definition 7.2 Eine Funktion f : IRp ! IR heißt eine gemeinsame Dichtefunktion,
wenn gilt
a) f (x1 ; x2 : : : ; xp ) 0
für alle (x1 ; x2 : : : ; xp ) ;
b)
1
1
1
R
R
R
:::
f (x1 ; x2 ; : : : ; xp )dx1 dx2 : : : dxp = 1 :
1
1 1
Definition 7.3 Die Zufallsvariablen (X1 ; X2 ; : : : Xp ) heißen stetig, wenn es eine gemeinsame Dichtefunktion fX1 X2 :::Xp gibt, so dass für alle ai , bi ; i = 1; 2; : : : ; p mit ai bi
gilt
P (fa1 X1 b1 ; a2 X2 b2 ; : : : ; ap Xp bp g) =
Zbp
ap
:::
Zb2 Zb1
a2 a1
fX1 X2 :::Xp (x1 ; x2 ; : : : ; xp )dx1 dx2 : : : dxp :
125
126
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
Satz 7.1 Für diskrete Zufallsvariablen (X1 ; X2 ; : : : ; Xp ) gilt
P (fa1 X1 b1 ; a2 X2 b2 ; : : : ; ap Xp bp g) =
X
ap xp bp
:::
X
X
a2 x2 b2 a1 x1 b1
Definition 7.4 Die gemeinsame
X1 ; X2 ; : : : ; Xp ist definiert als
PX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) :
Verteilungsfunktion
der
p
Zufallsvariablen
FX1 X2 :::;Xp (x1 ; x2 ; : : : ; xp) = P (X1 x1 ; X2 x2 ; : : : ; Xp xp ) :
Satz 7.2 Für stetige Zufallsvariablen X1 ; X2 ; : : : ; Xp mit der gemeinsamen Verteilungsfunktion FX1 X2 :::;Xp erhält man die gemeinsame Dichtefunktion durch Differentiation:
fX1 X2 :::;Xp (x1 ; x2 ; : : : ; xp ) =
p
F
(x ; x ; : : : ; xp) :
x1 x2 : : : xp X1 X2 :::Xp 1 2
Definition 7.5 Der Erwartungswert einer Funktion H (X1 ; X2 ; : : : ; Xp ) ist im stetigen
Fall definiert durch
EH (X1 ; X2 ; : : : ; Xp) =
1
Z
1
:::
1 Z1
Z
1 1
H (x1 ; x2 ; : : : ; xp )fX1 X2 :::Xp (x1 ; x2 ; : : : ; xp )dx1 dx2 : : : dxp
und im diskreten Fall durch
EH (X1 ; X2 ; : : : ; Xp) =
XX
x1 x2
:::
X
xp
H (x1 ; x2 ; : : : ; xp )PX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) :
Seien H1 (X1 ; X2 ; : : : ; Xp ) und H2 (X1 ; X2 ; : : : ; Xp ) jeweils Funktionen von
(X1; X2; : : : ; Xp). Dann folgt sofort aus der Definition des Erwartungswertes
E (H1 (X1 ; X2 ; : : : ; Xp ) + H2 (X1 ; X2 ; : : : ; Xp )) =
EH1 (X1 ; X2 ; : : : ; Xp ) + EH2 (X1 ; X2 ; : : : ; Xp ) :
7.1. DEFINITIONEN, EIGENSCHAFTEN
So ist z.B.
127
E (X1 + X2 + : : : + Xp ) = EX1 + EX2 + : : : + EXp :
Definition 7.6 Die gemeinsamen Momente von p Zufallsvariablen sind definiert durch
0r1 r2 :::rp
So ist z.B.
= E (X1r X2r : : : Xprp ) :
1
2
0100:::0 = EX1
und
01100:::0 = EX1 X2 :
Die Randverteilungsfunktion einer Teilmenge von X1 ; X2 ; : : : ; Xp erhält man, indem man
die nicht in dieser Teilmenge enthaltenen Argumente gegen 1 konvergieren lässt. Seien z.B.
X1 ; X2 ; : : : ; X5 Zufallsvariablen mit der Verteilungsfunktion FX1 X2 :::X5 (x1 ; x2 ; : : : ; x5 ). Die
Randverteilungsfunktion von X1 ; X2 und X4 ist
FX1 X2 X4 (x1 ; x2 ; x4 ) = FX1 X2 X3 X4 X5 (x1 ; x2 ; 1; x4 ; 1) :
Um die Randdichtefunktion (Randwahrscheinlichkeitsfunktion) einer Teilmenge von
X1 ; X2 ; : : : ; Xp
zu bestimmen, integriert (summiert) man über die nicht in der Teilmenge enthaltenen Argumente. So ist z.B. im stetigen Fall
fX1 X2 X4 (x1 ; x2 ; x4 ) =
1 Z1
Z
1 1
fX1 X2 X3 X4 X5 (x1 ; x2 ; x3 ; x4 ; x5 )dx3 dx5
und im diskreten Fall
PX1 X2 X4 (x1 ; x2 ; x4 ) =
XX
x3 x5
PX1 X2 X3 X4 X5 (x1 ; x2 ; x3 ; x4 ; x5 ) :
Definition 7.7 Die p Zufallsvariablen X1 ; X2 ; : : : ; Xp sind unabhängig, wenn die folgende Bedingung für stetige Zufallsvariablen erfüllt ist
fX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) = fX1 (x1 )fX2 (x2 ) : : : fXp (xp ) ;
bzw. für diskrete Zufallsvariablen
PX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) = PX1 (x1 )PX2 (x2 ) : : : PXp (xp ) :
128
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
Unabhängigkeit kann auch mit Hilfe der Verteilungsfunktionen nachgewiesen werden.
Satz 7.3 Die p Zufallsvariablen X1 ; X2 ; : : : ; Xp sind genau dann unabhängig, wenn die
folgende Bedingung erfüllt ist:
FX1 X2 :::Xp (x1 ; x2 ; : : : ; xp) = FX1 (x1 )FX2 (x2 ) : : : FXp (xp ) :
Bedingte Dichtefunktionen (Wahrscheinlichkeitsfunktionen) werden auf die übliche Weise
definiert. So ist z.B.
bzw.
fX1 X3 jX2 X4 (x1 ; x3 jx2 ; x4 ) =
fX1 X2 X3 X4 (x1 ; x2 ; x3 ; x4 )
;
fX2 X4 (x2 ; x4 )
PX1 X3 jX2 X4 (x1 ; x3 jx2 ; x4 ) =
PX1 X2 X3 X4 (x1 ; x2 ; x3 ; x4 )
:
PX2 X4 (x2 ; x4 )
Wir wollen jetzt die p Zufallsvariablen X1 ; X2 ; : : : ; Xp als Vektor betrachten, den wir mit
dem Symbol X bezeichnen, also mit einem fettgedruckten X , d.h.
0
X=
B
B
B
B
X1
X2
..
.
Xp
1
C
C
C
C
A
oder
X t = (X1; : : : ; Xp)
Ist i = EXi der Erwartungswert von Xi , so bezeichnen wir mit den Vektor der Erwartungswerte.
0
1
1
B
C
B 2 C
B
= B .. C
oder
t = (1; : : : ; p)
C
. A
p
Die Varianz-Kovarianzmatrix oder einfach Kovarianzmatrix wird mit bezeichnet und enthält
in der i-ten Zeile und j-ten Spalte die Kovarianz zwischen Xi und Xj :
0
=
B
B
B
B
B
B
B
0
=
B
B
B
B
B
B
B
V ar(X1 )
Kov (X1 ; X2 ) Kov (X1 ; X3 ) : : : Kov (X1 ; Xp )
Kov (X2 ; X1 )
V ar(X2 )
Kov (X2 ; X3 ) : : : Kov (X2 ; Xp )
Kov (X3 ; X1 ) Kov (X3 ; X2 )
V ar(X3 )
: : : Kov (X3 ; Xp )
..
.
Kov (Xp; X1 )
11 12 13
21 22 23
31 32 33
..
.
..
.
Kov (Xp; X2 ) Kov (Xp ; X3 ) : : :
1
: : : 1p
C
: : : 2p C
C
: : : 3p C
C
p1 p2 p3 : : : pp
C
C
A
V ar(Xp)
1
C
C
C
C
C
C
C
A
7.1. DEFINITIONEN, EIGENSCHAFTEN
129
Falls j = i ist, so ist Kov (Xi ; Xj ) = Kov (Xi ; Xi ) = V ar (Xi ), d.h. in der Diagonalen der
Kovarianzmatrix stehen die Varianzen der Variablen X1 ; X2 ; : : : ; Xp .
Da
ij
= E (Xi i)(Xj j ) = E (Xj j )(Xi i) = ji ;
ist eine symmetrische p p Matrix.
Die Korrelationsmatrix wird mit einem großen griechischen Rho bezeichnet, das wie ein
lateinisches P aussieht. Sie enthält in der i-ten Zeile und j-ten Spalte den Korrelationskoeffizienten zwischen Xi und Xj .
0
P
=
11 12 13 : : : 1p
21 22 23 : : : 2p
31 32 33 : : : 3p
B
B
B
B
B
B
B
..
.
p1 p2 p3 : : : pp
Dabei ist
ij
und offensichtlich
= p ij
ii jj
ii =
d.h.
0
P
=
B
B
B
B
B
B
B
1
C
C
C
C
C
C
C
A
= ij
i j
pii = 1 ;
ii ii
1 12 13 : : : 1p
21 1 23 : : : 2p
31 32 1 : : : 3p
..
.
p1 p2 p3 : : :
1
1
C
C
C
C
C
C
C
A
Die Korrelationsmatrix ist wie die Kovarianzmatrix eine symmetrische Matrix und enthält
in der Diagonalen jeweils Einsen. Der Zusammenhang zwischen der Kovarianzmatrix und
der Korrelationsmatrix P kann mithilfe der Diagonalmatrix D beschrieben werden, die in
p
der Diagonalen die Standardabweichungen i = ii enthält. Für den umgekehrten Zusammenhang zwischen P und benötigt man die Inverse D 1 , die in der Diagonalen die
reziproken Werte der Standaradabweichungen enthält.
0
D=
B
B
B
B
0 ::: 0
0 2 : : : 0
1
..
.
0 0 : : : p
1
0
C
C
C
C
A
B
B
B
B
B
D 1
=
Dann gilt:
= DP D
P = D 1 D
1
1
0 ::: 0
0 1 : : : 0
1
..
.
2
0 0 :::
1
p
1
C
C
C
C
C
A
130
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
7.2 Die p-dimensionale Normalverteilung
Wir schreiben
X N (; ) ;
wenn der Vektor X t = (X1 ; X2 ; : : : ; Xp ) eine p-dimensionale Normalverteilung besitzt.
Definition 7.8 Die Dichtefunktion einer p-dimensionalen Normalverteilung ist
1
fX1 X2 :::Xp (x1 ; x2 ; : : : ; xp ) =
q
(2)p=2 det ()
e (x
)t (x )=2 :
1
Dabei ist det () die Determinante der symmetrischen und positiv definiten Matrix
1 die Inverse der Matrix und xt = (x1; x2 ; : : : ; xp). Der Wertebereich ist
,
1 < x1 ; x2; : : : ; xp < 1 :
Die p-dimensionale Normalverteilung hat die Parameter und , d.h. die Parameter
a) 1 ; 2 ; : : : ; p , d.h. die p Erwartungswerte und
b) p(p + 1)=2 Kovarianzen und Varianzen
11 12 13 : : : 1p
22 23 : : : 2p
33 : : : 3p
..
.
pp
Wegen der Symmetrie wurden die Elemente unterhalb der Diagonalen weggelassen.
Beispiel 7.1 Für die 2-dimensionale Normalverteilung ist
x=
x1
x2
!
1
2
=
!
=
det () = 11 12 = 11 22
21 22
1 = det1()
22
21
12
11
!
11 12
21 22
12 21 = 12 22
= 2 2 (11 2 )
1 2
!
=
12 1 2 1 2 22
12 22 2 = 12 22 (1
22
1 2
1 2
12
!
2 )
!
:
Leiten Sie daraus die bekannte gemeinsame Dichtefunktion (siehe Definition 6.17) der bivariaten
Normalverteilung her.
Wir betrachten jetzt den Spezialfall, dass in der Kovarianzmatrix ij
=0
für alle i 6= j ;
7.2. DIE P-DIMENSIONALE NORMALVERTEILUNG
d.h.
0
=
Dann ist auch
ij
B
B
B
B
B
B
B
0 0
0 22 0 0
0 0 . . . ...
..
..
. 0
. 0 0 0 pp
11
= pij = 0
ii jj
für
131
1
C
C
C
C
C
C
C
A
:
(7.1)
i 6= j :
Die Zufallsvariablen X1 ; :::; Xp sind dann nach Definition 6.11 unkorreliert.
Wir hatten in Beispiel 6.18 gesehen, dass aus der Unkorreliertheit nicht notwendig die Unabhängigkeit folgen muss. Für gemeinsam normalverteilte Zufallsvariablen ist das jedoch
anders.
Satz 7.4 Die Zufallsvariablen X1 ; X2 ; : : : ; Xp seien gemeinsam normalverteilt und unkorreliert. Dann sind X1 ; X2 ; : : : ; Xp auch unabhängig verteilt.
Beweis:
Da die Kovarianzmatrix eine Diagonalmatrix ist, folgt nach Gleichung (7.1)
det() = 11 22 :::pp :
Damit ist die gemeinsame Dichtefunktion
fX1 ;:::;Xp (x1 ; x2 ; : : : ; xp) =
1
t
e (x )
p
p=
2
(2) 11 22 :::pp
Nun ist die Inverse der Kovarianzmatrix
0
1
1=
B
B
B
B
B
B
B
B
0 0
0 1 0 0
11
22
. . . ...
..
. 0
0 0 1pp
..
.
..
.
P 1
(x
)=2
1
C
C
C
C
C
C
C
C
A
und damit
2
2
2
(x )t 1 (x ) = (x1 1) + (x2 2) + : : : + (xp p) :
11
22
pp
Daraus folgt
fX1 ;:::;Xp (x1 ; x2 ; : : : ; xp )
x = p1 e p1 e
211
222
= fX (x1 )fX (x2 ); :::; fXp (xp) ;
2
1 ( 1
1)
2
11
1
2
2
1 (x2 2 )
2
22
:::
1
p2
pp
e
2
1 (xp p )
2
pp
132
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
}
d.h. X1 ; X2 ; : : : ; Xp sind unabhängig verteilt.
Wir geben jetzt die Schätzer der Parameter einer multivariaten Normalverteilung an. Wir
gehen davon aus, dass n unabhängige Wiederholungen eines p-dimensionalen normalverteilten Vektors beobachtet werden. Wir haben also eine Matrix von Zufallsvariablen:
0
B
B
B
B
B
B
B
X11 X21 : : : Xp1
X12 X22 : : : Xp2
X13 X23 : : : Xp3
..
..
..
..
.
.
.
.
X1n X2n : : : Xpn
1
C
C
C
C
C
C
C
A
Jede Zeile besitzt eine p-dimensionale Normalverteilung. Die Zeilenvektoren sind unabhängig.
Man kann sich das so vorstellen, dass man an n Objekten (Personen, Merkmalsträgern) je
p Merkmale beobachtet hat. Die Beobachtungen der p Merkmale für das i-te Objekt stehen
in der i-ten Zeile. In der j-ten Spalte stehen alle Beobachtungen für die j-te Zufallsvariable.
Etwas unüblich ist also Xji die i-te Beobachtung der j-ten Variable und steht in der i-ten
Zeile und j-ten Spalte.
Die Schätzer der Erwartungswerte sind dann
^1 =
n
X
j =1
X1j =n = X 1 ; ^2 =
n
X
j =1
X2j =n = X 2 ; : : : ; ^p =
n
X
j =1
Xpj =n = X p :
Die Maximum-Likelihood-Schätzer der Kovarianzen sind
n
n
X
X
1
1
Sij = ^ij =
(Xik ^i)(Xjk ^j ) =
(Xik Xi)(Xjk Xj ) i; j = 1; 2; :::; p :
n k=1
n k=1
Diese Schätzer sind nicht erwartungstreu. Erwartungstreue Schätzer sind
Sij
n
n
X
1 X
= ^ij = n 1 (Xik ^i)(Xjk ^j ) = n 1 1 (Xik Xi )(Xjk Xj ) i; j = 1; 2; :::; p :
k=1
k=1
Die geschätzte Kovarianzmatrix ist dann
0
^ = S =
B
B
B
B
S11 S12 : : : S1p
S21 S22 : : : S2p
..
.
Sp1 Sp2 : : : Spp
1
C
C
C
C
A
oder
0
^ = S =
B
B
B
B
S : : : S
S11
12
1p
S : : : S
S21
22
2p
..
.
Sp1 Sp2 : : : Spp
1
C
C
C
C
A
Schätzer der Korrelationskoeffizienten ij erhält man durch
^ij
= rij = q ^ij
^ii ^jj
i; j = 1; 2; :::; p :
7.2. DIE P-DIMENSIONALE NORMALVERTEILUNG
133
Die geschätzte Korrelationsmatrix ist dann
0
P^
B
B
B
B
=R =
1 r12 : : : r1p
r21 1 : : : r2p
..
.
rp1 rp2 : : :
1
1
C
C
C
C
A
Von den zahlreichen Anwendungen der multivariaten Normalverteilung wollen wir hier nur
die einfache Regressionsanalyse betrachten. Wir gehen von der Annahme
1
2
XN
!
;
11 1 2
2 1 22
!!
aus. Es seien Beobachtungen
(x11 ; x21 ); (x12 ; x22 ); : : : ; (x1n; x2n)
gegeben. Als Datenmatrix würde man das so schreiben:
0
B
B
B
B
x11 x21
x12 x22
..
.
x1n x2n
1
C
C
C
C
A
3
2
1
0
−1
−2
−3
−3
−2
−1
0
1
2
3
Abbildung 7.1: Zur einfachen linearen Regression: Höhenlinien der bivariaten Normalverteilung und simulierte Daten
In diesem Zusammenhang sind folgende Aufgaben von Interesse. Man will z.B.
den Zusammenhang zwischen X1 und X2 beschreiben,
schätzen,
Hypothesen über testen, z.B. H0 : = 0,
134
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
X2 anhand einer Beobachtung von X1 vorhersagen,
= 2 berechnen,
die bedingte Erwartung von X2 gegeben X1
den 95%-Punkt der bedingten Verteilung von X2 , gegeben X1 schätzen.
7.3 Summen und Linearkombinationen von Zufallsvariablen
Eine Linearkombination von n Zufallsvariablen X1 ; X2 ; : : : ; Xn ist definiert durch:
L = a1 X1 + a2 X2 + : : : an Xn ai 2 IR
X t = (X1; X2; : : : ; Xn)
Wir wollen dieselbe Gleichung mit Vektoren schreiben. Dazu sei
und at = (a1 ; a2 ; : : : ; an ). Dann ist
L = at X
Eine Linearkombination von Zufallsvariablen ist selbst wieder eine Zufallsvariable, die sehr
häufig in Anwendungen erscheint (z.B. Mittelwerte, gewichtete Durchschnitte, Summen
usw.). Schaut man sich die Vektorschreibweise an, so wird durch die Bildung einer Linearkombination aus dem zufälligen Vektor X mit einer multivariaten Verteilung ein zufälliger
Skalar L mit einer univariaten Verteilung. Wir wollen die Eigenschaften der Verteilung einer
Linearkombination, insbesondere Erwartungswert und Varianz untersuchen. Wir verwenden
die folgenden Bezeichnungen:
EXi = i
t = (1; 2; : : : ; n)
V arXi = E (Xi i )2 = i2 = ii
Kov (Xi ; Xj ) = E (Xi i )(Xj j ) = ij
bezeichnet die Varianz-Kovarianzmatrix von X .
Bei identisch verteilten Zufallsvariablen verwenden wir die Bezeichnungen ; 2 statt i ; i2 .
Wir betrachten zunächst nur Summen:
S
wobei 1t
= X1 + X2 + : : : Xn = 1tX ;
= (1; 1; : : : ; 1) sei.
Es ist:
ES
V arS
= E (X1 + X2 + : : : + Xn) = EX1 + EX2 + : : : + EXn
= 1 + 2 + : : : + n
= n falls Xi identisch verteilt
n
X
= E (S ES )2 = E (
= E
=
n X
n
X
i=1
i=1
(Xi i)(Xj j ) =
i=1 j =1
n
X
i=1
n
X
Xi
E (Xi
i )2 +
n
X
n
X
i=1
j =1
i6=j
n
X
i )2 = E (
n X
n
X
E (Xi
i )(Xj
i )(Xj
j )
i=1 j =1
E (Xi
i=1
(Xi i))2
j )
7.3. SUMMEN UND LINEARKOMBINATIONEN VON ZUFALLSVARIABLEN
n
X
=
i=1
n
X
=
i=1
i2 +
n
X
n
X
i=1
j =1
135
ij
i6=j
i2 falls Xi unabhängig
= n2
falls Xi unabhängig und identisch verteilt
Jetzt betrachten wir Linearkombinationen
L = at X
= a1 X1 + a2 X2 + : : : an Xn ai 2 IR
Die entsprechenden Formeln sind dann:
EL
= E (a1 X1 + a2 X2 + : : : + anXn) = Ea1 X1 + Ea2X2 + : : : + EanXn
= a1 EX1 + a2 EX2 + : : : + anEXn = a11 + a22 + : : : + ann
n
X
=
ai i
i=1
n
X
= i=1
falls Xi identisch verteilt
ai
In vektorieller Notation haben wir
E (L) = E (at X ) = at Var(L)
n
X
= E (L EL)2 = E (
= E
=
=
=
=
n X
n
X
i=1 j =1
n
X
i=1
n
X
i=1
n
X
i=1
ai aj (Xi
a2 E (X
i
i
a2i i2 +
i=1
n
X
ai Xi
i=1
i )(Xj
)2 +
i
n
X
n
X
i=1
j =1
j ) =
n
X
n
X
i=1
j =1
n
X
ai i )2 = E (
n X
n
X
i=1 j =1
ai aj E (Xi
i=1
i ))2
ai (Xi
ai aj E (Xi
i )(Xj
i)(Xj
j )
j )
i6=j
ai aj ij
i6=j
a2i i2 falls Xi unabhängig
n
X
2 a2i
i=1
falls Xi unabhängig und identisch verteilt
In vektorieller Notation haben wir das allgemeine Resultat:
Var(L) = Var(at X ) = at a
Eine spezielle, besonders wichtige Linearkombination ist der Durchschnitt, d.h. das arithmetische Mittel:
n
X
1
1
1
1
1
Xn =
Xi = X1 + X2 + : : : + Xn = 1t X
n
n
n
n
n
i=1
136
Es ist also ai
Spezialfall:
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
= 1=n für i = 1; 2; : : : ; n. Damit folgt aus den allgemeinen Formeln für diesen
E Xn
n
X
= 1 i
=
V arX n
n i=1
falls Xi identisch verteilt
= E (Xn E Xn)2
n
X
1
= 2 i2 + 12
n i=1
= 12
=
n
n
X
n
X
n
X
i=1
j =1
ij
i6=j
2 falls Xi unabhängig
n i=1 i
2 =n falls Xi unabh. und identisch verteilt
Die Verteilung einer Summe oder einer Linearkombination von Zufallsvariablen ist oft schwer
zu bestimmen, auch wenn die Zufallsvariablen unabhängig sind. Einige Ausnahmen haben
wir im Laufe der Vorlesung bzw. in den Übungen kennengelernt. So wissen wir, dass die
Summe von unabhängig und identisch Bernoulli-verteilten Zufallsvariablen binomialverteilt,
die Summe von unabhängig und identisch geometrisch verteilten Zufallsvariablen negativ binomialverteilt, die Summe von unabhängig poissonverteilten Zufallsvariablen wieder Poissonverteilt ist, wobei sich die Parameter addieren. Die Summe von unabhängig und identisch exponentialverteilten Zufallsvariablen ist gammaverteilt. Die Summe von unabhängigen gammaverteilten Zufallsvariablen ist (bei gleichem Parameter ) wieder gammaverteilt,
wobei die Parameter zu addieren sind. Die Summe von unabhängigen 2 -verteilten Zufallsvariablen ist wieder 2 -verteilt. Die Freiheitsgrade addieren sich. Schließlich ist jede
Linearkombination von normalverteilten Zufallsvariablen wieder normalverteilt. Die Parameter und 2 bestimmen sich aus den Formeln für den Erwartungswert und die Varianz,
die in diesem Kapitel hergeleitet wurden. Für den Durchschnitt nützlich ist oft der zentrale
n macht.
Grenzwertsatz, der Aussagen über die asymptotische Verteilung von X
Satz 7.5 (Zentraler Grenzwertsatz)
Die Zufallsvariablen X1 ; X2 ; : : : ; Xn seien unabhängig und identisch verteilt mit
V arXi = 2 < 1. Dann besitzt
pn(X
n
)=
asymptotisch eine N (0; 1)-Verteilung.
n durch eine N (; 2=n)-Verteilung approximieren.
Man kann dann die Verteilung von X
7.4 Weiteres zur multivariaten Normalverteilung
Wir haben weiter oben gesagt, dass jede Linearkombination normalverteilter Zufallsvariablen wieder normalverteilt ist. Nun besagt ein Resultat von Cramer und Wold, dass die
7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG
137
Verteilung eines p-dimensionalen zufälligen Vektors X vollständig bestimmt ist durch die
univariaten Verteilungen aller Linearkombinationen. Damit ist es möglich die multivariate
Normalverteilung auf die folgende Weise zu definieren.
Definition 7.9 Eine p-dimensionale Zufallsvariable X hat eine multivariate Normalverteilung, wenn alle Linearkombinationen von X eine univariate Normalverteilung besitzen.
Jede Komponente des Vektors X ist eine Linearkombination von X und somit normalverteilt. Eine Linearkombination at X ist eine univariate Zufallsvariable und die Varianz einer
univariaten Zufallsvariablen ist größer oder gleich 0, d.h. Var(at X ) 0. Andererseits gilt
Var(at X ) = at a, wenn die Varianz-Kovarianzmatrix von X bezeichnet. Damit haben
wir
at a 0
8a
Dieses Resultat bedeutet, dass die Varianz-Kovarianzmatrix positiv semidefinit ist. In der
früheren Definition der multivariaten Normalverteilung mithilfe der gemeinsamen Dichtefunktion hatten wir verlangt, dass die Kovarianzmatrix positiv definit und invertierbar ist.
Die Kovarianzmatrix ist positiv definit, wenn at a > 0 für alle a 6= 0. Eine multivariate
Normalverteilung, für die 1 nicht existiert heißt singuläre oder degenerierte Normalverteilung und besitzt keine Dichtefunktion.
Nicht nur jede Linearkombination von normalverteilten Zufallsvariablen ist wieder normalverteilt. Die Normalverteilung bleibt auch bei linearen Transformationen erhalten. Sei X N (; ) p-dimensional normalverteilt. Sei A eine p m-Matrix. Dann ist W = At X ein
m-dimensionaler Vektor und es gilt
W
N (At ; AtA)
(7.2)
Im univariaten Fall konnten wir jede beliebige Normalverteilung auf die Standardnormalverteilung transformieren. Wir geben jetzt eine äquivalente Transformation zwischen einem Zufallsvektor X N (; ) und einem zufälligen Vektor U , dessen Komponenten unabhängig
und standardnormalverteilt sind, so dass U N (0; Ip ), wobei Ip eine p-dimensionale Einheitsmatrix ist. Wir beschränken uns auf den Fall, in dem nichtsingulär ist. Dann gibt
es eine nichtsinguläre Matrix p p-Matrix B, so dass = BB t . Betrachten wir jetzt die
Transformation (X
) = B U . Wenn U Np(0; I ), dann gilt nach Gleichung 7.2
t
(X ) N (0; BB ) und daher X N (; ).
Da B 1 existiert, ist die inverse Transformation gegeben durch: U = B 1 (X ). Wenn
X N (; ), dann gilt
E (U )
= 0
Var(U ) = B 1 (B 1 )t
nach Gleichung 7.2
1
t
t 1
= B (BB )(B ) = Ip
Damit gilt U N (0; Ip ). Es sei angemerkt, dass die Matrix B nicht eindeutig ist, so dass
es viele solche Transformationen gibt. Eine Möglichkeit, die Matrix B zu bestimmen ist:
138
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
= C 1=2. Dabei ist C die Matrix der Eigenvektoren von (in jeder Spalte steht ein
Eigenvektor) und ist die Diagonalmatrix der Eigenwerte.
Wir schieben kurz einige Bemerkungen zu Eigenwerten und Eigenvektoren ein. Sei eine
B
p p-Matrix. Die Eigenwerte (charakteristischen Wurzeln) sind die Lösungen der Gleichung
det(
I ) = 0
(7.3)
Diese Gleichung ist ein Polynom der Ordnung p in . Die der Größe nach geordneten Eigenwerte werden mit 1 ; 2 ; : : : ; p (1 2 : : : p ) bezeichnet.
Wir betrachten die Matrix
=
1 1=2
1=2 1
!
Dann gilt
det(
I ) = det
!
1 1=2 = (1 )2 1=4 = 2 2 + 3=4
1=2 1 q
Diese Gleichung hat die beiden Lösungen 1;2 = 1 1 3=4, d.h. 1 = 3=2 und 2 = 1=2.
Zu jedem Eigenwert i gehört ein Vektor i , der Eigenvektor genannt wird, für den gilt:
i = ii
In unserem Beispiel ist also für 1
d.h.
(7.4)
= 3=2 das Gleichungssystem ( 3=2I ) = 0 zu lösen,
0:511 + 0:512 = 0
0:511 0:512 = 0
= 12 , d.h jeder Vektor t1 = (11; 11 ) ist eine Lösung.
Für 2 = 1=2 das Gleichungssystem 1=2I = 0 zu lösen, d.h.
Das bedeutet 11
0:521 + 0:522 = 0
0:521 + 0:522 = 0
Das bedeutet 21
= 22 , d.h jeder Vektor t2 = (21 ; 21 ) ist eine Lösung.
Die Eigenvektoren sind nur bis auf einen konstanten Faktor eindeutig bestimmt. Daher werdenpsie gewöhnlich
so normiert,
dasspti i = 1 gilt. In unserem Beispiel wären also t1 =
p
p
(1= 2; 1= 2) und t2 = (1= 2; 1= 2) normierte Lösungen. Wenn es gleiche Eigenwerte
gibt, können die Eigenvektoren so gewählt werden, dass sie orthonormiert sind (orthogonal
und normiert).
In R können die Eigenwerte mit der Funktion eigen bestimmt werden.
Sigma<-matrix(c(1,0.5,0.5,1),nrow=2)
eigen(Sigma)
7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG
139
$values
1.5 0.5
$vectors
0.7071068 0.7071068
0.7071068 -0.7071068
Die Matrix C der Eigenvektoren ist also:
p
p
1=p2
C=
1= 2
!
1=p2 = 0:7071
0:7071
1= 2
0:7071
0:7071
!
Die Diagonalmatrix der Eigenwerte ist
= 3=02 10=2
Damit ist
0 q
1=2
=
und schließlich
B = C 1=2
3=2
0
0
q
1=2
!
1
1:2247 0
A =
0 0:7071
p
= p33==22 11==22 = 00::8660
8660
!
!
0:5
0:5
!
Die Inverse einer quadratischen Matrix B bestimmt man in R mit dem Befehl solve(B).
In diesem Fall ist
!
0
:5774 0:5774
1
B =
1:0000
1:0000
Wir fassen das Ergebnis in folgendem Satz zusammen:
Satz 7.6 Sei nichtsingulär. Dann gilt X N (; ) genau dann, wenn X = + B U ,
wobei U N (0; I ); BB t = und B ist eine p p-Matrix vom Rang p und es gilt dann
U = B 1 (X ).
Wir hatten vorhin von einer degenerierten oder auch ausgearteten Verteilung gesprochen und
wollen jetzt dafür ein Beispiel bringen: Betrachten Sie einen Vektor X , dessen Komponenten aus der Länge, Breite und dem Umfang eines zufälligen Rechtecks bestehen. Dann gilt
zwischen den drei Komponenten dieses Vektors die lineare Beziehung 2X1 +2X2 X3 = 0.
Obwohl wir einen dreidimensionalen Vektor haben, ist die Variation in Wirklichkeit zweidimensional und Rang() = 2. Hätten wir Radius, Durchmesser und Umfang eines zufälligen
Kreises, so gäbe es zwei lineare Beziehungen zwischen den Komponenten und die effektive
Dimension dieses dreidimensionalen Vektors wäre 1.
140
KAPITEL 7. P-DIMENSIONALE ZUFALLSVARIABLEN
Eigenschaften der multivariaten Normalverteilung:
a) Wenn X
N (; ) mit nichtsingulärem , so gilt:
(X )t 1 (X ) 2p
(7.5)
Dies ist eine Verallgemeinerung der bekannten Tatsache, dass das Quadrat einer standardnormalverteilten Zufallsvariablen 21 -verteilt ist. Insbesondere gilt für p = 1, dass
[(Y )=℄2 21 . Nach Satz 7.6 können wir schreiben: U = B 1 (X ) mit
p
P
BB t = und U N (0; I ). Dann ist U t U =
Uj2 , wobei die Uj unabhängige
j =1
standardnormalverteilte Zufallsvariablen sind. Folglich ist U t U 2p -verteilt. Andererseits gilt aber:
U tU = (X )t (B 1)t B 1(X ) = (X )t 1(X )
Damit folgt das obige Resultat.
Subtrahiert man in Gleichung 7.5 nicht den Erwartungswertvektor , sondern z.B.
0 6= , so erhält man anstelle der zentralen 2 -Verteilung eine nichtzentrale 2Verteilung mit Nichtzentralitätsparameter Æ 2 = ( 0 )t 1 ( 0 ).
Wir werden jetzt zeigen, dass die Randverteilungen und die bedingten Verteilungen einer
multivariaten Normalverteilung wieder Normalverteilungen sind. Zur Vereinfachung nehmen wir an, dass X folgendermaßen aufgeteilt ist (evtl. muß man vorher die Variablen umordnen):
1
X= X
X2
!
mit X 1 ein (q 1)
Vektor q < p
Entsprechende Aufteilungen gelten für den Erwartungswertvektor und die Kovarianzmatrix:
1
= 2
!
11 12
= 21 22
Dabei sind 11 und 22 symmetrische positiv semidefinite q
Matrizen und 12 = t21 sind q (p q )-Matrizen.
!
q bzw. (p
q ) (p
q )-
b) Die Randverteilung von X1 ist Nq (1 ; 11 ).
Die multivariate Normalverteilung von X 1 folgt aus der Tatsache, dass Linearkombinationen von X 1 auch Linearkombinationen von X sind und damit univariate Normalverteilungen haben.
c)
d)
X 1 und X 2 sind genau dann unabhängig verteilt, wenn 12 = 0.
Wenn 22 vollen Rang hat, so dass 221 existiert, ist die bedingte Verteilung von X 1 ,
gegeben X 2 = x2 eine multivariate Normalverteilung mit:
E (X 1 jX 2 = x2 ) = 1 + 12 221 (x2 2 )
Var(X 1 jX 2 = x2 ) = 11 12 221 21
7.4. WEITERES ZUR MULTIVARIATEN NORMALVERTEILUNG
Wir betrachten den Spezialfall q = 1. Dann ist X 1
X , also eine univariate Zufallsvariable. Dann ist
= X1 die erste Komponente von
E (X1 jX 2 = x2 ) = 1 + 12 221 (x2
Nun ist aber 12 221 eine 1 (p
hat die Gestalt
141
2 )
(7.6)
1)-Matrix, also ein Zeilenvektor, d.h. Gleichung 7.6
E (X1 jX 2 = x2 ) = 1 + 2 (x2
2 ) + : : : + m (xp
p )
(7.7)
wenn wir die Elemente dieses Vektors mit 2 ; : : : ; p bezeichnen. Gleichung 7.7 ist
die Regressionsfunktion von X1 auf X2 ; : : : ; Xm . Für die bedingte Varianz haben wir
dann
Var(X1 jX 2
= x2 ) = 11 12 221 21
Für die bedingte Varianz kann man zeigen, dass
Var(X1 jX 2
= x2 ) =
1
11
gilt. Dabei ist 11 das (1; 1)-te Element der Inversen 1 . Das bedeutet: die bedingte
Varianz ist eine Konstante, die nicht von x2 abhängt.
Herunterladen