3. Gemeinsame und bedingte Verteilung, stochastische

3.
Gemeinsame
und
bedingte
stochastische Unabhängigkeit
Verteilung,
Lernziele dieses Kapitels:
• Mehrdimensionale Zufallsvariablen (Zufallsvektoren)
(Verteilung, Kenngrößen)
• Abhängigkeitsstrukturen
• Multivariate Normalverteilung
(Definition, Eigenschaften)
Empfohlene Literatur:
• Mood, Graybill, Boes (1974), Kapitel IV, S. 129-174
• Wilfling (2011), Kapitel 4
94
3.1 Gemeinsame Verteilung und Randverteilung
Jetzt:
• Gleichzeitige Betrachtung mehrerer Zufallsvariablen
Einsatzgebiete:
• Diverse ökonomische Anwendungen
• Statistische Inferenz
95
Definition 3.1: (Zufallsvektor)
Gegeben seien die n Zufallsvariablen X1, · · · , Xn zu ein und demselben Zufallsexperiment, d.h.
Xi : Ω −→ R
für i = 1, . . . , n.
Dann nennt man X = (X1, . . . , Xn)0 eine n-dimensionale Zufallsvariable oder einen n-dimensionalen Zufallsvektor.
Bemerkungen:
• In der Wahrscheinlichkeitstheorie verwendet man für Zufallsvektoren oft auch die Schreibweisen
X = ( X1 , . . . , X n )
oder einfach
X1 , . . . , X n
96
• Für n = 2 schreibt man oft
X = (X, Y )0
oder
(X, Y )
oder
X, Y
• Für die Realisationen benutzt man Kleinbuchstaben:
x = (x1, . . . , xn)0 ∈ Rn
oder
x = (x, y)0 ∈ R2
Jetzt:
• Beschreibung der Wahrscheinlichkeitsverteilung des Zufallsvektors X
97
Definition 3.2: (Gemeinsame Verteilungsfunktion)
Für den Zufallsvektor X = (X1, . . . , Xn)0 heißt die Funktion
FX1,...,Xn : Rn −→ [0, 1]
mit
FX1,...,Xn (x1, . . . , xn) = P (X1 ≤ x1, X2 ≤ x2, . . . , Xn ≤ xn)
die gemeinsame Verteilungsfunktion von X = (X1, . . . , Xn)0.
Bemerkung:
• Definition 3.2 bezieht sich sowohl auf diskrete als auch auf
stetige Zufallsvariablen X1, . . . , Xn
98
Einige Eigenschaften der bivariaten VF (n = 2):
• FX,Y (x, y) ist monoton steigend in x und y
lim FX,Y (x, y) = 0
•
x→−∞
•
lim FX,Y (x, y) = 0
y→−∞
•
lim FX,Y (x, y) = 1
x→+∞
y→+∞
Bemerkung:
• Für die n-dimensionale VF FX1,...,Xn (x1, . . . , xn) gelten analoge
Eigenschaften
99
Jetzt:
• Gemeinsam diskrete versus stetige Verteilungen
Definition 3.3: (Gemeinsam diskrete Verteilung)
Der Zufallsvektor X = (X1, . . . , Xn)0 heißt gemeinsam diskret,
wenn es nur endlich (oder abzählbar unendlich) viele Realisationen x = (x1, . . . , xn)0 gibt, so dass
P (X1 = x1, X2 = x2, . . . , Xn = xn) > 0
und
X
P (X1 = x1, X2 = x2, . . . , Xn = xn) = 1,
wobei die Summation über alle möglichen Realisationen des Zufallsvektors erfolgt.
100
Definition 3.4: (Gemeinsam stetige Verteilung)
Der Zufallsvektor X = (X1, . . . , Xn)0 heißt gemeinsam stetig, falls
es eine nicht-negative Funktion fX1,...,Xn (x1, . . . , xn) gibt, so dass
FX1,...,Xn (x1, . . . , xn) =
Z x
n
−∞
...
Z x
1
−∞
fX1,...,Xn (u1, . . . , un) du1 . . . dun
gilt. Die Funktion fX1,...,Xn heißt gemeinsame Dichtefunktion des
Zufallsvektors.
Beispiel:
• Betrachte für X = (X, Y )0 die Dichtefunktion
fX,Y (x, y) =
(
x+y
0
, für (x, y) ∈ [0, 1] × [0, 1]
, sonst
101
Dichtefunktion fX,Y (x, y)
2
1.5
fHx,yL 1
0.5
0
0
1
0.8
0.6
0.4 y
0.2
0.4
x 0.6
0.2
0.8
10
102
• Für die Verteilungsfunktion folgt
FX,Y (x, y) =
=
Z y
Z x
−∞ −∞
Z yZ x
0
0
fX,Y (u, v) du dv
(u + v) du dv
= ...


0.5(x2y + xy 2)




0.5(x2 + x)
=
2 + y)

0.5(y




1
, für
, für
, für
, für
(x, y) ∈ [0, 1] × [0, 1]
(x, y) ∈ [0, 1] × [1, ∞)
(x, y) ∈ [1, ∞) × [0, 1]
(x, y) ∈ [1, ∞) × [1, ∞)
(Beweis: Übungsaufgabe)
103
Bemerkungen:
• Es gilt:
∂ nFX1,...,Xn (x1, . . . , xn)
∂x1 · · · ∂xn
= fX1,...,Xn (x1, . . . , xn)
• Das Volumen unter der Dichtefunktion repräsentiert Wahrscheinlichkeiten:
o
o
u
P (au
1 < X1 ≤ a1, . . . , an < Xn ≤ an)
=
Z ao
n
au
n
...
Z ao
1
au
1
fX1,...,Xn (u1, . . . , un) du1 . . . dun
104
• In dieser VL:
Fokus auf stetige Zufallsvektoren
Für diskrete Zufallsvektoren gelten analoge Aussagen
(vgl. Mood, Graybill, Boes (1974), Kapitel IV)
Jetzt:
• Bestimmung der Verteilung einer einzelnen Zufallsvariablen
Xi aus der gemeinsamen Verteilung des Zufallsvektors
(X1, . . . , Xn)0
−→ Randverteilung
105
Definition 3.5: (Randverteilung)
Es sei X = (X1, . . . , Xn)0 ein stetig verteilter Zufallsvektor mit
den Verteilungs- und Dichtefunktionen FX1,...,Xn bzw. fX1,...,Xn .
Dann heißen
FX1 (x1) = FX1,...,Xn (x1, +∞, +∞, . . . , +∞, +∞)
FX2 (x2) = FX1,...,Xn (+∞, x2, +∞, . . . , +∞, +∞)
...
FXn (xn) = FX1,...,Xn (+∞, +∞, +∞, . . . , +∞, xn)
die Randverteilungsfunktionen bzw.
106
fX1 (x1) =
Z +∞
fX2 (x2) =
Z +∞
···
fXn (xn) =
−∞
−∞
Z +∞
−∞
...
Z +∞
fX1,...,Xn (x1, x2, . . . , xn) dx2 . . . dxn
...
Z +∞
fX1,...,Xn (x1, x2, . . . , xn) dx1 dx3 . . . dxn
...
Z +∞
fX1,...,Xn (x1, x2, . . . , xn) dx1 dx2 . . . dxn−1
−∞
−∞
−∞
die Randdichten der einzelnen (univariaten) Zufallsvariablen
X1, . . . , Xn.
107
Beispiel:
• Gegeben sei die bivariate Dichtefunktion
fX,Y (x, y)
=
(
40(x − 0.5)2y 3(3 − 2x − y)
0
, für (x, y) ∈ [0, 1] × [0, 1]
, sonst
108
Dichtefunktion fX,Y (x, y)
3
fHx,yL 2
1
0.8
1
0
0
0.6
0.4 y
0.2
0.4
x 0.6
0.2
0.8
10
109
• Für die Randdichte von X gilt:
fX (x) =
Z 1
0
40(x − 0.5)2y 3(3 − 2x − y)dy
= 40(x − 0.5)2
Z 1
0
(3y 3 − 2xy 3 − y 4)dy
1
2x
1
3
= 40(x − 0.5)2 y 4 −
y4 − y5
4
4
5
0

3 2x 1
2
= 40(x − 0.5)
−
−
4
4
5

= −20x3 + 42x2 − 27x + 5.5
110
Randdichte fX (x)
fHxL
1.5
1.25
1
0.75
0.5
0.25
x
0.2
0.4
0.6
0.8
1
111
• Für die Randdichte von Y gilt:
fY (y) =
Z 1
0
40(x − 0.5)2y 3(3 − 2x − y)dx
= 40y 3
= −
Z 1
0
(x − 0.5)2(3 − 2x − y)dx
10 3
y (y − 2)
3
112
Randdichte fY (y)
fHyL
3
2.5
2
1.5
1
0.5
y
0.2
0.4
0.6
0.8
1
113
Bemerkungen:
• Beim Übergang zu den Randverteilungen ergibt sich ein Informationsverlust
(aus gemeinsamer Verteilung folgen die Randverteilungen,
aber nicht umgekehrt)
• Neben den einzelnen univariaten Randverteilungen ergeben
sich auch die multivariaten Randverteilungen aus der gemeinsamen Verteilung von X = (X1, . . . , Xn)0
114
Beispiel:
• Es sei n = 5, d.h. X = (X1, . . . , X5)0 mit gemeinsamer Dichtefunktion fX1,...,X5
• Dann ist die Randdichte von Z = (X1, X3, X5)0
fX1,X3,X5 (x1, x3, x5)
=
Z +∞ Z +∞
−∞
−∞
fX1,...,X5 (x1, x2, x3, x4, x5) dx2 dx4
(Herausintegrieren nicht interessierender Komponenten)
115
3.2 Bedingte Verteilungen und stochastische Unabhängigkeit
Jetzt:
• Verteilung einer ZV’en X unter der Bedingung, dass eine andere ZV’en Y bereits einen bestimmten Wert y angenommen
hat
(Bedingte Verteilung von X unter Y = y)
116
Definition 3.6: (Bedingte Verteilung)
Es seien X = (X, Y )0 ein stetig verteilter Zufallsvektor mit gemeinsamer Dichtefunktion fX,Y (x, y). Die bedingte Dichte von X
unter der Bedingung Y = y ist definiert durch
fX|Y =y (x) =
fX,Y (x, y)
fY (y)
.
Analog ist die bedingte Dichte von Y unter der Bedingung X = x
definiert als
fX,Y (x, y)
fY |X=x(y) =
.
fX (x)
117
Bemerkung:
• Bedingte Dichten für Zufallsvektoren werden analog definiert,
z.B.
fX1,X2,X4|X3=x3,X5=x5 (x1, x2, x4) =
fX1,X2,X3,X4,X5 (x1, x2, x3, x4, x5)
fX3,X5 (x3, x5)
118
Beispiel:
• Gegeben sei die bivariate Dichtefunktion
fX,Y (x, y)
=
(
40(x − 0.5)2y 3(3 − 2x − y)
0
, für (x, y) ∈ [0, 1] × [0, 1]
, sonst
mit der Randdichte
10 3
fY (y) = − y (y − 2)
3
(vgl. Folien 108-112)
119
• Dann gilt für die bedingte Dichte
fX|Y =y (x) =
=
fX,Y (x, y)
fY (y)
40(x − 0.5)2y 3(3 − 2x − y)
3(y − 2)
− 10
y
3
12(x − 0.5)2(3 − 2x − y)
=
2−y
120
Bedingte Dichte fX|Y =0.01(x) von X unter Y = 0.01
Bedingte
Dichte
3
2.5
2
1.5
1
0.5
x
0.2
0.4
0.6
0.8
1
121
Bedingte Dichte fX|Y =0.95(x) von X unter Y = 0.95
Bedingte
Dichte
1.2
1
0.8
0.6
0.4
0.2
x
0.2
0.4
0.6
0.8
1
122
Jetzt:
• Benutze Konzepte der gemeinsamen Verteilung bzw. der bedingten Verteilung zur Definition der stochastischen Unabhängigkeit
(zunächst für 2 ZV’e)
Definition 3.7: (Stochastische Unabhängigkeit [I])
Es sei (X, Y )0 ein stetig verteilter Zufallsvektor mit gemeinsamer
Dichtefunktion fX,Y (x, y). Dann heißen X und Y stochastisch
unabhängig, falls die gemeinsame Dichtefunktion dem Produkt
der Randdichten entspricht:
fX,Y (x, y) = fX (x) · fY (y)
für alle x, y ∈ R.
123
Bemerkungen:
• Alternativ drückt man die Unabhängigkeit auch über die gemeinsame Verteilungsfunktion aus:
X und Y sind genau dann unabhängig, wenn gilt:
FX,Y (x, y) = FX (x) · FY (y)
für alle x, y ∈ R.
• Sind X und Y unabhängig, so gilt für die bedingten Verteilungen:
fX|Y =y (x) =
fY |X=x(y) =
fX,Y (x, y)
fY (y)
fX,Y (x, y)
fX (x)
fX (x) · fY (y)
=
= fX (x)
fY (y)
fX (x) · fY (y)
=
= fY (y)
fX (x)
• Sind X und Y unabhängig und g und h zwei stetige Funktionen, so sind auch g(X) und h(Y ) unabhängig
124
Jetzt:
• Verallgemeinerung auf n ZV’en
Definition 3.8: (Stochastische Unabhängigkeit [II])
Es sei (X1, . . . , Xn)0 ein stetig verteilter Zufallsvektor mit gemeinsamer Dichtefunktion fX1,...,Xn (x1, . . . , xn) sowie Verteilungsfunktion FX1,...,Xn (x1, . . . , xn). Dann heißen X1, . . . , Xn stochastisch
unabhängig, falls für alle (x1, . . . , xn)0 ∈ Rn gilt
fX1,...,Xn (x1, . . . , xn) = fX1 (x1) · . . . · fXn (xn)
bzw.
FX1,...,Xn (x1, . . . , xn) = FX1 (x1) · . . . · FXn (xn).
125
Bemerkungen:
• Für diskret verteilte Zufallsvektoren definiert man analog:
X1, . . . , Xn sind stochastisch unabhängig, falls für alle Realisationen (x1, . . . , xn)0 ∈ Rn gilt:
P (X1 = x1, . . . , Xn = xn) = P (X1 = x1) · . . . · P (Xn = xn)
bzw.
FX1,...,Xn (x1, . . . , xn) = FX1 (x1) · . . . · FXn (xn).
• Bei Unabhängigkeit ergibt sich die gemeinsame Verteilung
aus den Randverteilungen (sonst nicht)
• Sind X1, . . . , Xn stochastisch unabhängig und g1, . . . , gn stetige
Funktionen, so sind auch die transformierten ZV’en Y1 =
g1(X1), . . . , Yn = gn(Xn) stochastisch unabhängig
126
3.3 Erwartungswerte und gemeinsame momentenerzeugende Funktion
Jetzt:
• Definition des Erwartungswertes einer Funktion
g : Rn −→ R
(x1, . . . , xn) 7−→ g(x1, . . . xn)
eines stetig verteilten Zufallsvektors X = (X1, . . . , Xn)0
127
Definition 3.9: (E-Wert einer Funktion)
Es sei (X1, . . . , Xn)0 ein stetig verteilter Zufallsvektor mit Dichtefunktion fX1,...,Xn (x1, . . . , xn) und g : Rn −→ R eine reellwertige
stetige Funktion. Dann ist der Erwartungswert der Funktion des
Zufallsvektors definiert als
E[g(X1, . . . , Xn)]
=
Z +∞
−∞
...
Z +∞
−∞
g(x1, . . . , xn) · fX1,...,Xn (x1, . . . , xn) dx1 . . . dxn.
128
Bemerkungen:
• Für einen diskret verteilten Zufallsvektor (X1, . . . , Xn)0 lautet
die entsprechende Definition
E[g(X1, . . . , Xn)] =
X
g(x1, . . . , xn) · P (X1 = x1, . . . , Xn = xn),
wobei über alle Realisationen des Vektors zu summieren ist
• Definition 3.9 umfasst den Erwartungswert einer einzelnen
ZV’en X:
Setze n = 1 sowie g(x) = x
−→ E(X1) ≡ E(X) =
Z +∞
−∞
xfX (x) dx
• Definition 3.9 umfasst die Varianz einer ZV’en X:
Setze n = 1 und sowie g(x) = [x − E(X)]2
−→ Var(X1) ≡ Var(X) =
Z +∞
−∞
[x − E(X)]2fX (x) dx
129
• Definition 3.9 umfasst die Kovarianz zweier ZV’en:
Setze n = 2 sowie g(x1, x2) = [x1 − E(X1)] · [x2 − E(X2)]
−→ Cov(X1, X2)
=
Z +∞ Z +∞
−∞
−∞
[x1 − E(X1)][x2 − E(X2)]fX1,X2 (x1, x2) dx1 dx2
• Mit der Kovarianz folgt der Korrelationskoeffizient:
Cov(X1, X2)
q
Corr(X1, X2) = q
Var(X1) Var(X2)
• Eigenschaften von Erwartungswerten, Varianzen, Kovarianzen,
Korrelationskoeffizienten
−→ siehe Übung
130
Jetzt:
• ’Erwartungswerte’ und ’Varianzen’ für Zufallsvektoren
Definition 3.10: (E-Wertvektor, Kovarianzmatrix)
X = (X1, . . . , Xn)0 sei ein Zufallsvektor. Unter dem Erwartungswertvektor von X versteht man den Vektor der Erwartungswerte


E(X1)

...
E(X) = 

.
E(Xn)
Unter der Kovarianzmatrix von X versteht man die folgende Matrix von Varianzen und Kovarianzen:



Cov(X) = 

Var(X1)
Cov(X1, X2)
Cov(X2, X1)
Var(X2)
...
...
Cov(Xn, X1) Cov(Xn, X2)
. . . Cov(X1, Xn)
. . . Cov(X2, Xn)
...
...
...
Var(Xn)



.

131
Bemerkung:
• Offensichtlich ist jede Kovarianzmatrix symmetrisch
Frage:
• Wie verhalten sich Erwartungswertvektoren und Kovarianzmatrizen unter linearen Transformationen von Zufallsvektoren
Es seien
• X = (X1, . . . , Xn)0 ein n-dimensionaler Zufallsvektor
• A eine (m × n)-Matrix reeller Zahlen
• b ein (m × 1) Spaltenvektor reeller Zahlen
132
Offensichtlich gilt:
• Y = AX + b ist ein (m × 1)-Zufallsvektor:



Y = 




= 

a11 a12
a21 a22
...
...
am1 am2



. . . a1n
X1
 X 

. . . a2n 
 2 


+
... 
...
  ... 

. . . amn
Xn
b1
b2
...
bm





a11X1 + a12X2 + . . . + a1nXn + b1
a21X1 + a22X2 + . . . + a2nXn + b2
...
am1X1 + am2X2 + . . . + amnXn + bm





133
• Für den Erwartungswertvektor von Y gilt:



E(Y) = 

a11E(X1) + a12E(X2) + . . . + a1nE(Xn) + b1
a21E(X1) + a22E(X2) + . . . + a2nE(Xn) + b2
...
am1E(X1) + am2E(X2) + . . . + amnE(Xn) + bm





= AE(X) + b
• Für die Kovarianzmatrix von Y gilt:



Cov(Y) = 

Cov(Y1, Y2)
Var(Y1)
Var(Y2)
Cov(Y2, Y1)
...
...
Cov(Yn, Y1) Cov(Yn, Y2)

. . . Cov(Y1, Yn)
. . . Cov(Y2, Yn) 


.
...
..

...
Var(Yn)
= ACov(X)A0
(Beweis: Übung)
134
Bemerkung:
• Vgl. Analogien zu den univariaten Fällen:
E(a · X + b) = a · E(X) + b
Var(a · X + b) = a2 · Var(X)
Bisher:
• Erwartungswerte für unbedingte Verteilungen
Jetzt:
• Erwartungswerte für bedingte Verteilungen
(vgl. Definition 3.6, Folie 117)
135
Definition 3.11: (Bedingter E-Wert einer Funktion)
Es sei (X, Y )0 ein stetig verteilter Zufallsvektor mit gemeinsamer
Dichtefunktion fX,Y (x, y) und g : R2 −→ R eine reellwertige
stetige Funktion. Dann ist der bedingte Erwartungswert der
Funktion unter der Bedingung X = x definiert als
E[g(X, Y )|X = x] =
Z +∞
−∞
g(x, y) · fY |X (y) dy.
136
Bemerkungen:
• Für einen diskret verteilten Zufallsvektor (X, Y )0 gilt eine
analoge Definition
• Die Definition 3.11 kann auf höher dimensionale Verteilungen
verallgemeinert werden
• Für g(x, y) = y erhält man als Spezialfall E[g(X, Y )|X = x] =
E(Y |X = x)
• Man beachte, dass E[g(X, Y )|X = x] im Allgemeinen eine
Funktion von x darstellt
137
Beispiel:
• Man betrachte die gemeinsame stetige Dichtefunktion
fX,Y (x, y) =
(
x+y
0
, für (x, y) ∈ [0, 1] × [0, 1]
, sonst
• Für die bedingte Verteilung von Y unter X = x folgt


x+y
x + 0.5
fY |X (y) =

0
, für (x, y) ∈ [0, 1] × [0, 1]
, sonst
• Mit g(x, y) = y ergibt sich der bedingte Erwartungswert als
Z 1

1
x+y
x
1
y·
E(Y |X = x) =
dy =
·
+
x + 0.5
x + 0.5
2
3
0

138
Bemerkungen:
• Wir betrachten die Funktion g(x, y) = g(y)
(d.h. g hängt nicht von x ab)
• Nun bezeichne h(x) = E[g(Y )|X = x]
• Wir berechnen nun den unbedingten Erwartungswert der
Transformation h(X)
• Es gilt:
139
E {E[g(Y )|X = x]} = E[h(X)] =
=
Z +∞
−∞
Z +∞
−∞
h(x) · fX (x) dx
E[g(Y )|X = x] · fX (x) dx
=
Z +∞ "Z +∞
=
Z +∞ Z +∞
g(y) · fY |X (y) · fX (x) dy dx
=
Z +∞ Z +∞
g(y) · fX,Y (x, y) dy dx
−∞
−∞
−∞
−∞
−∞
−∞
#
g(y) · fY |X (y) dy · fX (x) dx
= E[g(Y )]
140
Satz 3.12:
Es sei (X, Y )0 ein beliebig diskret oder stetig verteilter Zufallsvektor. Dann gilt
E[g(Y )] = E {E[g(Y )|X = x]}
und insbesondere
E[Y ] = E {E[Y |X = x]} .
Jetzt:
• Drei weitere wichtige Rechenregeln für bedingte und unbedingte Erwartungswerte
141
Satz 3.13:
Es seien (X, Y )0 ein beliebig diskret oder stetig verteilter Zufallsvektor und g1(·), g2(·) zwei eindimensionale Funktionen. Dann
gilt für die bedingten Erwartungswerte:
1. E[g1(Y ) + g2(Y )|X = x] = E[g1(Y )|X = x] + E[g2(Y )|X = x].
2. E[g1(Y ) · g2(X)|X = x] = g2(x) · E[g1(Y )|X = x].
3. Falls X und Y stochastisch unabhängig sind, so gilt für die
unbedingten Erwartungswerte
E[g1(X) · g2(Y )] = E[g1(X)] · E[g2(Y )].
142
Abschließend:
• Momentenerzeugende Funktion für Zufallsvektoren
Definition 3.14: (Gemeinsame momentenerz. Funktion)
Es sei (X1, . . . , Xn)0 ein beliebig diskret oder stetig verteilter Zufallsvektor. Dann ist dessen gemeinsame momentenerzeugende
Funktion definiert durch
mX1,...,Xn (t1, . . . , tn) = E
h
i
t
·X
+...+t
·X
n
n
1
1
,
e
falls dieser Erwartungswert für alle Werte von t1, . . . , tn mit −h <
tj < h für irgendein h > 0 und alle j = 1, . . . , n existiert.
143
Bemerkungen:
• Anhand der gemeinsamen momentenerzeugenden Funktion
mX1,...,Xn (t1, . . . , tn) lassen sich mit bestimmten Rechenoperationen die folgenden Objekte bestimmen:
die
marginalen
momentenerzeugenden
mX1 (t1), . . . , mXn (tn)
Funktionen
die Momente der Randverteilungen
sogenannte gemeinsame Momente
144
Zentrales Resultat: (vgl. Satz 2.23, Folie 85)
Zu einer gegebenen gemeinsamen momentenerzeugenden
Funktion mX1,...,Xn (t1, . . . , tn) gehört eine eindeutige gemeinsame Verteilungsfunktion FX1,...,Xn (x1, . . . , xn)
145
3.4 Die multivariate Normalverteilung
Jetzt:
• Verallgemeinerung der univariaten Normalverteilung
Definition 3.15: (Multivariate Normalverteilung)
Es sei X = (X1, . . . , Xn)0 ein n-dimensionaler stetiger Zufallsvektor. X heißt multivariat normalverteilt mit Parametern



σ12

=  ...

· · · σ1n
... 
...
und Σ
,
2
σn1 · · · σn
falls für x = (x1, . . . , xn)0 ∈ Rn die Dichtefunktion
µ1
 .. 
µ= . 
µn

1
fX(x) = (2π)−n/2 [det(Σ)]−1/2 · exp − (x − µ)0 Σ−1 (x − µ)
2
lautet.

146
Bemerkungen:
• Für die Definition und Eigenschaften der Determinanten einer
Matrix A, det(A), vgl. Chang (1984, S. 92 ff)
• Übliche Notation
X ∼ N (µ, Σ)
• µ ist ein Spaltenvektor mit µ1, . . . , µn ∈ R
• Σ ist (per Annahme) eine reguläre, positiv definite, symmetrische (n × n)-Matrix
• Bedeutung der Parameter:
E(X) = µ
und
Cov(X) = Σ
147
• Dichte der multivariaten Standardnormalverteilung N (0, In):

1 0
−n/2
φ(x) = (2π)
· exp − x x
2
• Man beachte die Analogien zur univariaten Dichte in Definition 2.24, Folie 91
Eigenschaften der N (µ, Σ)-Verteilung:
• Teilvektoren (Randverteilungen) von X sind wieder normalverteilt, d.h. falls
X=
"
X1
X2
#
∼N
"
µ1
µ2
# "
,
Σ11 Σ12
Σ21 Σ22
#!
dann gilt:
X1 ∼ N (µ1, Σ11)
X2 ∼ N (µ2, Σ22)
148
• Somit sind alle univariaten Elemente des Zufallsvektors X =
(X1, . . . , Xn)0 univariat normalverteilt:
X1 ∼ N (µ1, σ12)
X2 ∼ N (µ2, σ22)
...
2)
Xn ∼ N (µn, σn
• Auch die bedingten Verteilungen sind wiederum (uni- oder
multivariat) normal:

−1
(x
−
µ
Σ
Σ
X1|X2 = x2 ∼ N µ1 + Σ12Σ−1
),
−
Σ
2
11
12
2
22
22 Σ21

• Lineare Transformationen:
Es seien A eine (m × n)-Matrix und b ein (m × 1)-Vektor
reeller Zahlen sowie X = (X1, . . . , Xn)0 ∼ N (µ, Σ). Dann gilt:
AX + b ∼ N (Aµ + b, AΣA0)
149
Beispiel:
• Es sei
X ∼ N (µ, Σ)
∼ N
"
# "
0
1
,
1 0.5
0.5 2
#!
• Gesucht ist die Verteilung von Y = AX + b mit
A=
"
1 2
3 4
#
,
1
2
#
AΣA0 =
"
b=
"
• Es gilt Y ∼ N (Aµ + b, AΣA0)
• Matrixalgebra ergibt
Aµ + b =
"
3
6
#
und
12 24
24 53
#
150
Jetzt:
• Spezialisierung auf bivariaten Fall (n = 2), d.h.
X = (X, Y )0,
E(X) =
"
µX
µY
#
Σ=
,
"
2
σX
σY X
σXY
σY2
#
• Es gilt
σXY = σY X = Cov(X, Y ) = σX · σY · Corr(X, Y ) = σX · σY · ρ
• Mit Definition 3.15 und n = 2 gilt dann für die Dichte
fX,Y (x, y) =
1
2πσX σY
"
q
1 − ρ2
exp



−
1
2 1 − ρ2

(y − µY )2
(x − µX )2 2ρ(x − µX )(y − µY )
×
+
−
2
σX σY
σX
σY2
(Herleitung: Übungsaufgabe)
151
#)
Dichte fX,Y (x, y) mit µX = µY = 0, σx = σY = 1 sowie ρ = 0
fHx,yL0.1
0.15
2
0.05
0
0 y
-2
0
-2
x
2
152
Dichte fX,Y (x, y) mit µX = µY = 0, σx = σY = 1 sowie ρ = 0.9
0.3
fHx,yL0.2
2
0.1
0
0 y
-2
0
-2
x
2
153
Bemerkungen:
• Für die Randverteilungen gilt
2 ) und
Y ∼ N (µY , σY2 )
X ∼ N (µX , σX
−→ Besonderheit der Normalverteilung:
Ist ρ = Corr(X, Y ) = 0 (d.h. sind X und Y unkorreliert), so
sind X und Y stochastisch unabhängig
• Die bedingten Verteilungen sind gegeben durch

σ
2 1 − ρ2
X|Y = y ∼ N µX + ρ X (y − µY ), σX
σY

σ
Y |X = x ∼ N µY + ρ Y (x − µX ), σY2 1 − ρ2
σX
!

(Beweise: Übungsaufgabe)
154