ZUFALLSVEKTOREN. BEDINGTE

Werbung
KAPITEL
12
ZUFALLSVEKTOREN. BEDINGTE
ERWARTUNGSWERTE. NORMALVERTEILUNG
In diesem Kapitel werden zunächst die Begriffe eingeführt, mit denen man
zweidimensionale Zufallsvektoren und deren Verteilungen beschreibt. Für die
Teilfamilien der Zufallsvektoren mit diskreter und die mit absolut stetiger
Verteilung werden dann der bedingte Erwartungswert und die zugehörigen
Rechenregeln behandelt. Das Kapitel schliesst mit einer Untersuchung der
zweidimensionalen Normalverteilungen.
1. Definitionen und erste Eigenschaften. — Wie bereits in Kapitel 5, § 3, definiert, ist eine zweidimensionale Zufallsvariable (man sagt auch
zweidimensionaler Zufallsvektor) eine messbare Abbildung X : (Ω, A, P) →
(R2 , B2 ). Die beiden kanonischen Projektionen von R2 in R werden mit
πi : (x1 , x2 ) → xi (i = 1, 2) bezeichnet. Die Koordinatenabbildungen von
(Ω, A, P) in (R, B1 ) sind durch Xi = πi ◦ X (i = 1, 2) definiert; sie sind
beide messbar. Es handelt sich also um zwei Zufallsvariable, die auch als
marginale Zufallsvariable bezeichnet werden. Man schreibt oft X = (X1 , X2 )
X1
oder X =
und man spricht von X auch als einem Paar von ZufallsX2
variablen.
Es sei nun X : (Ω, A, P) → (R2 , B2 ) ein zweidimensionaler Zufallsvektor. In Kapitel 5, § 4, wurde als Wahrscheinlichkeitsverteilung des Vektors X die mit PX notierte Abbildung bezeichnet, die jedem B ∈ B2 die
Zahl PX (B) = P(X −1 (B)) zuordnet. Entsprechend Satz 4.1 von Kapitel 5
ist die Abbildung PX ein Wahrscheinlichkeitsmass auf (R2 , B2 ), genannt
Wahrscheinlichkeitsverteilung von X. Man spricht auch von der gemeinsamen
Verteilung des Paares X = (X1 , X2 ).
Wie schon für diskrete Zufallsvariable ausgeführt (siehe Korollar 1.2
von Kap. 8), bestimmt X = (X1 , X2 ) die Verteilungen der marginalen
Zufallsvariablen X1 , X2 . Dies formulieren wir noch einmal im nächsten Satz.
Satz 1.1. — Die gemeinsame Verteilung PX von X = (X1 , X2 )
bestimmt die Verteilungen (genannt “Randverteilungen” oder “marginale
Verteilungen”) PX1 , PX2 der marginalen Zufallsvariablen X1 , X2 auf folgende
170
KAPITEL 12: ZUFALLSVEKTOREN
Weise. Für alle B ∈ B1 gilt
PXi (B) = PX πi−1 (B)
(i = 1, 2),
d.h. PXi ist das Bild von PX unter der Abbildung πi .
Beweis. — Es gilt Xi = πi ◦ X. Damit folgt PXi (B) = P Xi−1 (B) =
P X −1 ◦ πi−1 (B) = PX πi−1 (B) für jedes B ∈ B1 .
Definition. — Als (gemeinsame) Verteilungsfunktion (der Verteilung) von
X = (X1 , X2 ) bezeichnet man die durch
F(x1 , x2 ) = P{X1 ≤ x1 , X2 ≤ x2 }
definierte Funktion von zwei reellen Variablen. Sie lässt sich mittels der
gemeinsamen Verteilung von X ausdrücken:
F(x1 , x2 ) = PX ] − ∞, x1 ]×] − ∞, x2 ] .
Die gemeinsamen Verteilungsfunktionen von Paaren von Zufallsvariablen
sind nicht sehr gebräuchlich, und sei es nur deshalb, weil es keine natürliche
Ordnungsrelation auf dem R2 gibt. Wir werden ihre Eigenschaften daher
nicht im Detail behandeln (siehe jedoch Aufgabe 11 von Kap. 5). Gleichwohl
sollen die drei folgenden Aussagen festgehalten werden.
Satz 1.2. — Die Kenntnis der gemeinsamen Verteilungsfunktion eines
Paares X = (X1 , X2 ) von Zufallsvariablen ist der Kenntnis der Verteilung
von X gleichwertig.
Satz 1.3. — Die gemeinsame Verteilungsfunktion F eines Paares
X = (X1 , X2 ) von Zufallsvariablen erlaubt es, die Verteilungsfunktionen F1 , F2 der marginalen Zufallsvariablen X1 , X2 (d.h. der marginalen
Verteilungsfunktionen) wie folgt zu berechnen:
F1 (x1 ) = P{X1 ≤ x1 } =
F2 (x2 ) = P{X2 ≤ x2 } =
lim F(x1 , x2 ) = F(x1 , +∞) ;
x2 →+∞
lim F(x1 , x2 ) = F(+∞, x2 ).
x1 →+∞
Satz 1.4. — Die marginalen Zufallsvariablen X1 , X2 sind genau dann
unabhängig, wenn die gemeinsame Verteilungsfunktion des Paares (X1 , X2 )
gleich dem Produkt der marginalen Verteilungsfunktionen ist.
Der Transportsatz wurde in Kapitel 11, Satz 1.1, für den Fall von reellen
Zufallsvariablen formuliert. Wir begnügen uns hier damit, die entsprechende
2. WAHRSCHEINLICHKEITSDICHTEN
171
Aussage für zweidimensionale Zufallsvariable festzuhalten. Der Beweis verläuft völlig analog.
Theorem 1.5 (Transportsatz). — Es sei X : (Ω, A, P) → (R2 , B2 ) ein
Zufallsvektor und PX sei seine Verteilung. Ferner sei g : (R2 , B2 ) → (R, B1 )
eine messbare Funktion. Dann ist g ◦ X eine Zufallsvariable und es gilt die
Gleichheit
(g ◦ X) dP =
g dPX =
g(x1 , x2 ) dPX (x1 , x2 ) ,
R2
Ω
R2
und zwar unter der Voraussetzung, dass eine der Seiten als abstraktes Integral
existiert, d.h. absolut konvergiert. Ist dies der Fall, dann bezeichnet man den
gemeinsamen Wert beider Seiten als E[g ◦ X] oder als E[g(X1 , X2 )].
Zu bemerken bleibt, dass der Ausdruck auf der rechten Seite ein Integral
auf (R2 , B2 , PX ) ist und deshalb ausgehend von der Verteilung PX von X
berechnet werden kann.
2. Absolut stetige Wahrscheinlichkeitsverteilungen und Dichten.
Ebenso wie im Falle von Wahrscheinlichkeitsmassen auf der reellen Geraden
gibt es eine wichtige Klasse von Wahrscheinlichkeitsmassen auf (R2 , B2 ), die
man mittels nichtnegativer Funktionen von zwei reellen Variablen definieren
kann, die bezüglich des Lebesgue-Masses auf (R2 , B2 ) integrierbar sind (cf.
Kap. 10, § 5). Es handelt sich um die absolut stetigen Wahrscheinlichkeitsmasse. Ihre Definition wird anschliessend in der Terminologie der Paare von
Zufallsvariablen gegeben. Der Bequemlichkeit halber werden wir von nun an
ein Paar von Zufallsvariablen mittels (X, Y ) statt (wie oben) mittels (X1 , X2 )
bezeichnen.
Definition. — Es sei (X, Y ) ein Paar von Zufallsvariablen und PX,Y dessen
gemeinsame Verteilung. Man bezeichnet die Verteilung PX,Y als absolut
stetig (bezüglich des Lebesgue-Masses auf (R2 , B2 )), wenn es eine messbare
Funktion f : (R2 , B2 ) → (R+ , B1 ) mit nichtnegativen Werten gibt derart,
dass für jedes B ∈ B2
(2.1)
PX,Y (B) =
f (x, y) dx dy =
f (x, y) IB (x, y) dx dy
B
R2
gilt. Die Funktion f heisst gemeinsame (Wahrscheinlichkeits-)Dichte (der
Verteilung) von (X, Y ). Man schreibt auch fX,Y (x, y).
Satz 2.1. — Für jede gemeinsame Wahrscheinlichkeitsdichte f gilt:
a) f ≥ 0;
b) R2 f (x, y) dx dy = 1;
c) die gemeinsame
Verteilungsfunktion F = FX,Y kann durch
F(x, y) = ]−∞,x]×]−∞,y] f (u, v) du dv dargestellt werden; 2
∂
d) falls f im Punkt (x0 , y0 ) stetig ist, gilt f (x0 , y0 ) =
F (x, y) im
∂x∂y
Punkt (x, y) = (x0 , y0 ).
172
KAPITEL 12: ZUFALLSVEKTOREN
Satz 2.2. — Falls das Paar (X, Y ) absolut stetig ist, so sind auch
seine marginalen Zufallsvariablen absolut stetig, und die gemeinsame Dichte
f (x, y) = fX,Y (x, y) bestimmt die marginalen Dichten fX (x), fY (y) mittels
der Formeln
fX,Y (x, y) dy,
fY (y) =
fX,Y (x, y) dx.
fX (x) =
R
R
Satz 2.3. — Es sei (X, Y ) ein Paar von Zufallsvariablen, f (x, y) sei die
gemeinsame Dichte und fX (x) bzw. fY (y) seien die marginalen Dichten von
X bzw. Y . Dann sind die beiden folgenden Aussagen gleichwertig:
a) X und Y sind unabhängig;
b) für (Lebesgue-)fast alle (x, y) ∈ R2 gilt
fX,Y (x, y) = fX (x)fY (y).
Beweis.
a) ⇒ b). Wir nehmen zunächst (X, Y ) als unabhängig an. F = FX,Y
bezeichne die gemeinsame Verteilungsfunktion und FX , FY die jeweiligen
marginalen Verteilungsfunktionen. Dann gilt für alle (x, y) ∈ R2
F(x, y) = FX (x)FY (y).
Nimmt man die gemischte Ableitung (∂ 2 /∂x ∂y)F von beiden Seiten (sie
existiert Lebesgue-fast sicher), so erhält man b).
b) ⇒ a). Sei nun b) gegeben; dann hat man für jedes (x, y) ∈ R2
F(x, y) =
fX (u) fY (v) du dv
]−∞,x]×]−∞,y]
=
fX (u) du
fY (v) dv = FX (x)FY (y).
]−∞,x]
]−∞,y]
Dann aber sind X und Y unabhängig.
Satz 2.4. — Es sei (X, Y ) ein Paar von absolut stetigen Zufallsvariablen
mit gemeinsamer Dichte f . Ferner sei g : (R2 , B2 ) → (R, B1 ) eine messbare
Funktion. Dann ist g ◦ (X, Y ) eine Zufallsvariable mit Erwartungswert
g(x, y)f (x, y) dx dy,
E[g ◦ (X, Y )] =
R2
vorausgesetzt, dass das Integral auf der rechten Seite absolut konvergiert.
3. BEDINGTER ERWARTUNGSWERT
173
3. Bedingte Verteilung, bedingter Erwartungswert, Regression.
Wie immer man das Problem anpackt, das Konzept des bedingten Erwartungswertes zu definieren, so bleibt es doch ein schwieriges Unterfangen,
dies mit aller gebotenen Genauigkeit zu tun. Wir werden nacheinander die
beiden gebräuchlichsten Situationen behandeln, nämlich wenn (X, Y ) diskret
bzw. oder wenn es absolut stetig ist. Natürlich kann man einen Formalismus
einführen, der beide Fälle umfasst — das schlagen wir in Aufgabe 1 vor.
In jedem Fall muss man aber einen expliziten Ausdruck für die bedingte
Wahrscheinlichkeitsverteilung oder den bedingten Erwartungswert finden.
(A) Der Fall eines diskreten Paares. — Wir nehmen an, dass (X, Y ) ein
Paar von diskreten Zufallsvariablen mit Werten (xi , yj ) sei, wobei die Indices
i (bzw. j) eine endliche oder abzählbare Menge I (bzw. J) durchlaufen. Wir
setzen P{X = xi , Y = yj } = pij , P{X = xi } = pi. P{Y = yj } = p.j .
Vorausgesetzt wird, dass die xi (bzw. yj ) paarweise verschieden sind und die
Wahrscheinlichkeiten pi. (resp. p.j ) alle positiv sind. Für festes i ∈ I und alle
j ∈ J sei
(3.1)
bi (j) = P{Y = yj | X = xi } =
P{X = xi , Y = yj }
pij
.
=
P{X = xi }
pi.
Das diskrete Mass
j∈J bi (j) εyj , das von den yj (j ∈ J) getragen wird,
ist eine Wahrscheinlichkeitsverteilung. Man bezeichnet sie in naheliegender
Weise als die durch {X = xi } bedingte Verteilung von Y .
Wir setzen nun voraus, dass der Erwartungswert von Y endlich ist, dass
also die Reihe mit dem allgemeinen Glied p.j yj (j ∈ J) absolut konvergiert.
Dann ist für festes i die Reihe mit dem allgemeinen Glied bi (j)yj (j ∈ J)
ebenfalls absolut konvergent. Es ist naheliegend, die Summe dieser Reihe als
den durch {X = xi } bedingten Erwartungswert von Y zu bezeichnen und mit
E[Y | X = xi ] zu notieren. Man setzt also
E[Y | X = xi ] =
bi (j) yj .
j∈J
Ordnet man jedem Wert E[Y | X = xi ] die Wahrscheinlichkeit pi. (i ∈ I) zu,
so definiert man damit die Verteilung einer gewissen Zufallsvariablen, die mit
E[Y | X] notiert wird. Sie heisst die durch X bedingte Erwartung von Y . Man
mache sich klar, dass es sich bei E[Y | X] um eine Zufallsvariable handelt.
Deren Erwartungswert kann man berechnen:
pi. E[Y | X = xi ] =
pi.
bi (j) yj
E[E[Y | X] ] =
i∈I
=
i∈I
pi.
pij
j∈J
pi.
yj =
j∈J
i∈I
j∈J
p.j yj = E[Y ].
174
KAPITEL 12: ZUFALLSVEKTOREN
Diese Formel wird uns in Theorem 3.3 wieder begegnen. Ganz analog kann
man, indem man aj (i) = P{X = xi | Y =
yj } = pij /p.j setzt, die durch {Y =
yj } bedingte Verteilung von X mittels i∈I aj (i)εxi definieren, und weiter,
wenn X einen endlichen Erwartungswert hat, den
durch {Y = yj } bedingten
Erwartungswert von X als E[X | Y = yj ] =
i∈I aj (i)xi , und schliesslich
E[X | Y ] als Zufallsvariable, die in jedem j ∈ J mit Wahrscheinlichkeit p.j
den Wert E[X | Y = yj ] annimmt.
(B) Der Fall eines absolut stetigen Paares. — Es geht nun darum, ein
Analogon der Formel (3.1) zu finden. Die Schwierigkeit rührt daher, dass
P{X = x} = 0 für jedes reelle x gilt. Bezeichne nun f (x, y) = fX,Y (x, y)
die gemeinsame Dichte und seien fX (x), fY (y) die marginalen Dichten. Wir
werden sehen, dass man eine bedingte Wahrscheinlichkeitsverteilung und
einen bedingten Erwartungswert in befriedigender Weise definieren kann,
wenn man die Grössen P{X = x, Y = y} bzw. P{X = x} durch fX,Y (x, y)
bzw. durch fX (x) ersetzt.
Definition. — Es sei (X, Y ) ein Paar von absolut stetigen Wahrscheinlichkeitsverteilungen, es sei fX,Y (x, y) die gemeinsame Dichte, sowie fX (x),
fY (y) die marginalen Dichten. Weiter seien g0 (y) und h0 (x) zwei beliebige
Wahrscheinlichkeitsdichten auf (R, B1 ).
Als die durch {X = x} bedingte Dichte von Y bezeichnet man die durch

 fX,Y (x, y) , falls f (x) > 0 gilt;
X
fX (x)
fY | X (y | x) =

sonst,
g0 (y),
definierte Funktion fY | X (· | x) von y. Analog bezeichnet man als die durch
{Y = y} bedingte Dichte von X die Funktion fX | Y (· | y) von x mit

 fX,Y (x, y) , falls f (y) > 0;
Y
fY (y)
fX | Y (x | y) =

sonst.
h0 (x),
Bemerkung 1. — Es folgt sofort, dass für fast alle x die Gleichheit
(3.2)
fX,Y (x, y) = fX (x)fY
| X (y | x)
für fast alle y gilt. Denn diese
Gleichheit gilt per Definition, falls fX (x) > 0
ist. Ist fX (x0 ) = 0, d.h. R fX,Y (x0 , y) dy = 0, also ist fX,Y (x0 , y) = 0 für
fast alle y, und deshalb ist fX,Y (x0 , y) = fX (x0 )fY | X (y | x0 ) für fast alle y.
Entsprechend sieht man, dass für fast alle y die Gleichheit
(3.3)
für fast alle x gilt.
fX,Y (x, y) = fY (y)fX | Y (x | y)
3. BEDINGTER ERWARTUNGSWERT
175
Bemerkung 2. — Es folgt
fX (x) =
fX | Y (x | y) fY (y) dy,
fY (y) =
fY
| X (y | x) fX (x) dx,
d.h. jede marginale Dichte ist konvexe Kombination der bedingten Dichten.
Satz 3.1. — Für jedes x hat die Funktion fY | X (· | x) alle Eigenschaften
einer Wahrscheinlichkeitsdichte. Ebenso hat die Funktion fX | Y (· | y) für
jedes y alle Eigenschaften einer Wahrscheinlichkeitsdichte.
Die Beweise sind offensichtlich.
Satz 3.2. — Es sei (X, Y ) ein Paar von absolut stetigen Zufallsvariablen.
Mit fX (x), fY (y), fY | X (· | x), fX | Y (· | y) werden die marginalen Dichten und
bedingten Dichten bezeichnet. Falls das Paar (X, Y ) unabhängig ist, gilt:
1) Für jedes x mit fX (x) > 0 ist fY | X (y | x) = fY (y).
2) Für jedes y mit fY (y) > 0 ist fX | Y (x | y) = fX (x).
Die Beweise sind wieder offensichtlich.
Definition (Bedingter Erwartungswert). — Es sei (X, Y ) ein absolut
stetiges Paar von Zufallsvariablen. Alle obigen Notationen über marginale
Dichten und bedingte Dichten werden weiterhin verwendet. Speziell bezeichne fY | X (· | x) die durch {X = x} bedingte Dichte von Y . Für jedes reelle
x kann man das Integral R y fY | X (y | x) dy, wenn es denn absolut konvergiert, als den Erwartungswert von Y bezüglich der Wahrscheinlichkeitsdichte fY | X (· | x) interpretieren. Falls also das Integral absolut konvergiert,
setzt man
y fY | X (y | x) dy
(3.4)
E[Y | X = x] =
R
und nennt dies den durch {X = x} bedingten Erwartungswert von Y .
Die Abbildung e : x → e(x) = E[Y | X = x] ist nun eine reelle Funktion
einer reellen Variablen. Die Komposition e◦X ist eine auf (Ω, A, P) definierte
reelle Zufallsvariable. Sie wird mit E[Y | X] notiert und man bezeichnet sie als
den durch X bedingten Erwartungswert von Y . Ganz entsprechend definiert
man den durch Y bedingten Erwartungswert von X.
Im nächsten Theorem werden wir den Erwartungswert der reellen Zufallsvariablen E[Y | X] betrachten. Man beachte, dass dieser Erwartungswert
nicht etwa auf dem Raum (Ω, A, P), sondern vielmehr auf dem Raum
(R, B1 , PX ) berechnet wird, und zwar in Bezug auf die Verteilung PX von X.
Gleichwohl soll angemerkt werden, dass in weiterführenden Darstellungen der
Theorie der Begriff des bedingten Erwartungswertes in natürlicher Weise auf
dem Raum (Ω, A, P) definiert wird.
176
KAPITEL 12: ZUFALLSVEKTOREN
Theorem 3.3 (Satz über den bedingten Erwartungswert). — Es sei
(X, Y ) ein absolut stetiges Paar von Zufallsvariablen mit E[ |Y | ] < +∞.
Dann ist
E[Y ] = E[ E[ Y | X ] ].
Beweis. —
Formal geschrieben gilt
y fX,Y (x, y) dx dy =
y fX (x) fY | X (y | x) dx dy
E[Y ] =
R2
R2
!
"
y fY | X (y | x) dy fX (x) dx =
E[Y | X = x] fX (x) dx
=
R
R
R
= E[ E[ Y | X ] ].
Unter der Annahme E[ |Y | ] < +∞ ist diese formale Rechnung korrekt.
Definition (Regressionskurve). — Es sei (X, Y ) ein Paar von Zufallsvariablen mit E[ |X| ] < +∞ und E[ |Y | ] < +∞. Der Graph der Abbildung
x → E[Y | X = x] heisst Regressionskurve von Y in X. Der Graph der Abbildung y → E[X | Y = y] heisst entsprechend Regressionkurve von X in Y .
Bemerkung. — Diese beiden Kurven sind im allgemeinen verschieden. Sind
beispielsweise X und Y unabhängig, so ist der Graph von x → E[Y | X = x]
eine zu 0x parallele Gerade und der Graph von y → E[X | Y = y] eine zu 0y
parallele Gerade.
Die Regressionskurven haben, wie das nächste Theorem zeigt, eine Minimaleigenschaft, die insbesondere in der Statistik eine Rolle spielt.
Theorem 3.4. — Es sei (X, Y ) ein Paar von Zufallsvariablen mit
E[Y 2 ] < ∞. Die Regressionskurve von Y in X hat die folgende Minimaleigenschaft: Es sei u eine messbare reelle Funktion derart, dass der Ausdruck
(3.5)
E[ [Y − u(X)]2 ]
endlich ist. Variiert man die messbare Funktion u, so variiert auch der
Ausdruck (3.5), und zwar nimmt er für die Funktion u(x) = E[Y | X = x]
einen minimalen Wert an. Der Wert dieses Minimums ist E[ [Y −E[Y | X] ]2].
Beweis. — Wir nehmen hier an, dass das Paar (X, Y ) absolut stetig ist
und wir verwenden die entsprechenden, oben eingeführten Notationen. Es ist
[y − u(x)]2 fX,Y (x, y) dx dy
E[ [Y − u(X)]2 ] =
2
R
!
"
fX (x)
[y − u(x)]2 fY | X (y | x) dy dx.
=
R
R
Für jedes fest gewählte reelle x nimmt
das Integral in den eckigen Klammern
seinen minimalen Wert für u(x) = R y fY | X (y | x) dy = E[Y | X = x] an.
Dies besagt Satz 5.3 von Kapitel 8 im Falle von diskreten Zufallsvariablen,
aber tatsächlich gilt dies für beliebige Zufallsvariable.
4. RECHENREGELN
177
4. Rechenregeln für bedingte Erwartungen. — In diesem Abschnitt
stellen wir einige Rechenregeln für bedingte Erwartungen zusammen. Dabei
werden die obigen Bezeichnungen für Erwartungswerte (ob bedingt oder
nicht) von X und von Y beibehalten. Wir werden E[Y | X] als auch EX [Y ]
schreiben. Mit g, h (mit oder ohne Indices) werden messbare reelle Funktionen bezeichnet, deren Argumente sich aus dem jeweiligen Zusammenhang
ergeben. Schliesslich wollen wir voraussetzen, dass alle vorkommenden Erwartungswerte tatsächlich existieren.
Zunächst sei h eine messbare reellwertige Funktion von zwei reellen
Variablen. Die Komposition h ◦ (X, Y ) ist dann eine reelle Zufallsvariable.
Man definiert deren durch {X = x} bedingten Erwartungswert als
(4.1)
E[h ◦ (X, Y ) | X = x] =
R
h(x, y) fY | X (y | x) dy.
Speziell für h(x, y) = y ist das die Definition (3.4).
Theorem 4.1
1) Es gelten die Gleichheiten:
E[ E[h ◦ (X, Y ) | X] ] = E[h ◦ (X, Y ) | X = x] fX (x) dx = E[h ◦ (X, Y )].
Wählt man speziell h(x, y) = g(y), so erhält man die Formel für den bedingten
Erwartungswert aus Theorem 3.3, nun für die Zufallsvariable g ◦ Y
E[ E[ g ◦ Y | X ] ] =
E[ g ◦ Y | X = x] fX (x) dx = E[g ◦ Y ].
2) Sind X, Y unabhängig, so gilt E[g ◦ Y | X] = E[g ◦ Y ].
3) Es gilt stets E[g ◦ X | X] = g ◦ X.
4) Für beliebige X und Y hat man
EX [ EX [Y ] ] = EX [Y ];
E[(g1 ◦ X)(g2 ◦ Y ) | X] = (g1 ◦ X) E[g2 ◦ Y | X].
Anders gesagt, bei der Berechnung des bedingten Erwartungswertes bezüglich
X verhält sich die Funktion g1 ◦ X wie eine Konstante.
Beweis. — Der Beweis von 1) verläuft ganz anolog zum Beweis von
Theorem 3.3, wobei jetzt (4.1) verwendet wird. Setzt man e(x) = E[h ◦
(X, Y ) | X = x], so ist der durch X bedingte Erwartungswert von h ◦ (X, Y ),
geschrieben E[h ◦ (X, Y ) | X], die Komposition e ◦ π1 ◦ (X, Y ) = e ◦ X. Dies
ist eine auf (Ω, A, P) definierte Zufallsvariable. Die erste Gleichheit von 1)
178
KAPITEL 12: ZUFALLSVEKTOREN
zeigt, dass der Erwartungswert dieser Zufallsvariablen auch über dem Raum
(R, B1 , PX ) berechnet werden kann:
e(x) fX (x) dx
E[ E[h ◦ (X, Y ) | X] ] = E[e ◦ X] =
R
E[h ◦ (X, Y ) | X = x] fX (x) dx.
=
R
!
"
h(x, y) fY | X (y | x) dy fX (x) dx
=
R R
=
h(x, y) fX,Y (x, y) dx dy = E[h ◦ (X, Y )].
R2
2) Sind X und Y unabhängig, so gilt
E[g ◦ Y | X = x] =
R
g(y) fY | X (y | x) dy =
g(y) fY (y) dy = E[g ◦ Y ],
R
gemäss Satz 3.2 und der Tatsache, dass man E[g ◦ Y ] über dem Wahrscheinlichkeitsraum (R, B1 , PY ) berechnen kann. Die Grösse e(x) = E[g ◦Y | X = x]
ist also konstant gleich E[g ◦ Y ]. Ebenso ist E[g ◦ Y | X] gleich e ◦ Y . Damit
ist Formel 2) bewiesen.
3) Für jedes x gilt hier
E[g ◦ X | X = x] =
R
g(x) fY (y) dy = g(x)
R
fY (y) dy = g(x),
was auch gleich e(x) in der obigen Notation ist. Deshalb ist g = e und
E[g ◦ X | X] = e ◦ X = g ◦ X.
4) Die erste Gleichheit folgt aus 3) mit g ◦ X = E[Y | X]. Um die zweite
Gleichheit zu beweisen, setzt man der Bequemlichkeit halber e2 (x) = E[g2 ◦
Y | X = x], so dass E[g2 ◦Y | X] = e2 ◦X und e(x) = E[(g1 ◦X)(g2 ◦Y ) | X = x],
und somit auch E[(g1 ◦ X)(g2 ◦ Y ) | X] = e ◦ X ist. Damit hat man
e(x) =
R
g1 (x) g2 (y) fY | X (y | x) dy = g1 (x)
= g1 (x) E[g2 ◦ Y | X = x] = g1 (x)e2 (x),
R
g2 (y) fY | X (y | x)(y) dy
und es ergibt sich e ◦ X = (g1 ◦ X)(e2 ◦ X).
Es sei nun A ein Ereignis, dessen Indikatorfunktion IA sich als messbare
Funktion h ◦ (X, Y ) des Paares (X, Y ) schreiben lässt. Beispielsweise ist A =
{X < Y } ein solches Ereignis, denn man kann schreiben: I{X<Y } = h◦(X, Y ),
wobei h(x, y) = I{x<y} (x, y) ist. Somit kann man die vorangehenden Formeln
4. RECHENREGELN
179
speziell für solche Indikatorfunktionen verwenden. Wenn man sich noch
vergegenwärtigt, dass P(A) = E[IA ] gilt, so findet man also
P(A) = E[IA ] = E[ E[IA | X] ].
Definiert man nun noch
P{A | X = x} = E[IA | X = x],
P{A | X} = E[IA | X],
(4.2)
(4.3)
so ergibt sich die Gleichheit
P(A) =
(4.4)
R
P{A | X = x} fX (x) dx.
Die Funktion P{A | X = x} ist die durch {X = x} bedingte Wahrscheinlichkeit. Die Formel (4.4) wird häufig bei der Berechnung von speziellen
Wahrscheinlichkeiten verwendet, wenn man Kenntnis von P{A | X = x} hat.
Beispiel 1. — Es sei (X, Y ) ein absolut stetiges Paar von Zufallsvariablen.
Wir berechnen zunächst P{X < Y | X = x}, wobei die Funktionen h(x, y) =
I{x<y} (x, y) und g(y) = I{x<y} (y) zum Einsatz kommen. Es ist
P{X < Y | X = x} = E[I{X<Y } | X = x] = E[h ◦ (X, Y ) | X = x]
=
h(x, y) fY | X (y | x) dy =
I{x<y} (x, y) fY | X (y | x) dy
R
R
I{x<y} (y) fY | X (y | x) dy =
g(y) fY | X (y | x) dy
=
R
R
= E[g ◦ Y | X = x] = E[I{x<Y } | X = x] = P{x < Y | X = x}.
Sind die Zufallsvariablen X und Y unabhängig, so gilt fY | X (y | x)(y) = fY (y)
und somit
I{x<y} (y) fY | X (y | x) dy
P{X < Y | X = x} = P{x < Y | X = x} =
R
I{x<y} (y) fY (y) dy = P{x < Y }.
=
R
Beispiel 2. — Es seien nun X und Y zwei unabhängige reelle Zufallsvariable, jeweils exponential-verteilt mit Parametern λ und µ. Dann gilt
P{X < Y } = λ/(λ + µ).
Die Dichte von X ist fX (x) = λe−λx I{x≥0} . und gemäss (4.3) und
Beispiel 1 erhält man
∞
P{X < Y | X = x} fX (x) dx
P{X < Y } =
0
∞
∞
P{Y > x | X = x} fX (x) dx =
P{Y > x} fX (x) dx
=
0
0
∞
∞
λ
−µx
−λx
.
e
λe
dx = λ
e−(λ+µ)x dx =
=
λ+µ
0
0
180
KAPITEL 12: ZUFALLSVEKTOREN
5. Die zweidimensionale Normalverteilung. — Die Normalverteilung N (0, 1) wird in Kapitel 14, § 3, untersucht. Für das Folgende benötigen
√
−x2 /2
wir lediglich die Tatsache, dass diese Verteilung die Dichte
(1/ 2π)e
X1
auf der ganzen reellen Geraden hat. Ist also M =
ein Paar von
X2
unabhängigen, N (0, 1)-verteilten Zufallsvariablen, so ist es gemäss Satz 2.4
absolut stetig und die zugehörige Dichte ist das Produkt der Dichten von X1
und von X2 . In Kapitel 13, § 6, werden wir übrigens die erzeugende Funktion
eines Paares von Zufallsvariablen studieren. Dabei handelt es sich um die
u1 X1 +u2 X2
zwei reellen Argumenten u1 und u2 . Setzt man
Funktion
E[e
] mit
u1
x1
und x =
, so sieht man sofort, dass M eine erzeugende
u =
u2
x2
Funktion und eine Dichte hat, die durch
(5.1)
(5.2)
1
1
2
2
t g (u ) = E[e
u + u2
] = exp
u u ;
= exp
2 1
2
1
1
1
1
2
2
fM (x ) =
exp − x1 + x2
exp − t x x
=
2π
2
2π
2
M
t
u M gegeben sind.
Es sei nun A eine reelle 2 × 2-Matrix und wir ordnen dem Vektor M X1
das Paar M =
mittels der Transformation M = A M zu. Unter
X2
Verwendung der Matrix-Notation, die in diesem Kontext ganz natürlich ist,
kann man dann verifizieren:
0
0
=
;
a) M ist zentriert: E[M ] = A E[M ] = A
0
0
b) die Kovarianzmatrix E[(M − E[M ]) t(M − E[M ])] von M ist gleich:
E[M tM ] = A E[M tM ] tA = A I tA = A tA.
Satz 5.1. — Das Paar M hat die erzeugende Funktion
1
t
u1
uM
t
t
(5.3) gM (u) = E[e
.
] = exp
u(A A)u ,
u=
u
2
2
Ist A zudem nicht singulär, so hat M eine gemeinsame Dichte
1
1
x1
t
t −1
−1
exp − x(A A) x | det A |,
x=
(5.4) fM (x) =
.
x2
2π
2
Beweis. — Um gM (u) zu berechnen, führt man simultan die Transformat tionen M = AM und t u = t uA aus. Man sieht, dass t u M
1 t= ut M , und
t
t 1t uM
u M
] = E[e
] = exp 2 u u = exp 2 u(A A)u gilt.
daher gM (u) = E[e
Im Fall von det A = 0 kann man sich auf die Formel zur Variablentransformation aus Theorem 2.1 von Kapitel 15, angewendet auf (5.2), berufen. Man
5. DIE ZWEIDIMENSIONALE NORMALVERTEILUNG
181
verwendet die Transformation G : x → x = Ax mit ihrer inversen Transformation H : x → x = A−1 x, deren Jacobi-Determinante gerade det A−1 ist.
Auf diese Weise erhält man
1
1
exp − t x t (A−1 ) A−1 x | det A−1 |,
fM (x) =
2π
2
und folglich die Formel (5.4), wobei man noch t (A−1 ) = (t A)−1 und
(t A)−1 A−1 = (A tA)−1 zu beachten hat.
Die Matrix A tA, die in (5.3) und (5.4) auftritt, ist die Kovarianzmatrix
des Zufallsvektors M = AM . Wir werden sehen, dass sich tatsächlich
jede Kovarianzmatrix Γ in der Form A tA schreiben lässt, d.h. dass sie als
Kovarianzmatrix eines Zufallsvektors der Form M = AM auftritt.
Lemma 5.2. — Es sei Γ eine 2 × 2-Kovarianzmatrix. Dann existiert eine
reelle 2 × 2-Matrix A mit Γ = A tA.
Beweis. — Gemäss Definition ist Γ eine reelle, symmetrische und positivdefinite Matrix (denn es ist t uΓu = E[ t uM 2 ] ≥ 0); sie hat also zwei
nichtnegative Eigenwerte λ1 , λ2 . Daher existiert eine reelle, orthogonale 2×2Matrix S derart, dass
√
√
λ1 0
λ1 √0
λ1 √0
−1
S ΓS =
=
,
λ2
λ2
0 λ2
0
0
gilt. Daraus folgt
√
√
λ1 √0
λ1 √0
Γ=S
S −1 ,
λ2
λ2
0
0
√
t
und somit Γ = A A, wobei A = S
beachte S −1 = t S, denn S ist orthogonal.]
λ1
0
√0
λ2
gesetzt wurde. [Man
Wählt man A gemäss Lemma 5.2, so hat das durch M = A M definierte
Paar M eine erzeugende Funktion und eine gemeinsame Dichte, die jeweils
durch (5.3) bzw. (5.4) gegeben sind. Offenbar hängt diese Verteilung nur
von Γ ab; sie wird mit N2 (0, Γ) bezeichnet — daher folgende Definition.
σ12
ρσ1 σ2
Definition. — Gegeben sei eine Kovarianzmatrix Γ =
,
2
ρσ1 σ2 σ
2
X1
hat
(σ1 > 0, σ2 > 0, |ρ| ≤ 1). Ein Paar von Zufallsvariablen M =
X2
eine zentrierte Normalverteilung N2 (0, Γ), wenn sie die erzeugende Funktion
(5.5)
1
1
t
2 2
2 2
σ u + 2ρσ1 σ2 u1 u2 + σ2 u2
gM (u) = exp
uΓu = exp
2
2 1 1
182
KAPITEL 12: ZUFALLSVEKTOREN
hat. Wenn ausserdem det Γ = 0 (d.h. |ρ| < 1) ist, so hat sie eine gemeinsame
Dichte, die durch
√
1
det Γ−1
t
−1
exp − x Γ x
fM (x) =
2π
2
x2
1
1
x1 x2
x22 1
$
=
exp −
−
2ρ
+
(5.6)
2(1 − ρ2 ) σ12
σ1 σ2
σ22
2π σ1 σ2 1 − ρ2
gegeben ist. Die Verteilung N2 (0, Γ) heisst ausgeartet oder nicht ausgeartet,
je nachdem, ob det Γ = 0 oder = 0 ist. Lediglich die nicht ausgearteten
Verteilungen haben eine gemeinsame Dichte. Die folgende Aussage ist nur
eine Wiederholung.
X1
ist zentriert und seine
Eigenschaft 5.3. — Das Paar M =
X2
Kovarianzmatrix ist Γ; anders gesagt, die marginalen Zufallsvariablen X1
und X2 sind zentriert und ihr linearer Korrelationskoeffizient ist ρ.
Die beiden folgenden Eigenschaften lassen sich unmittelbar aus der Gestalt
von gM (u) ablesen.
Eigenschaft 5.4. — Die marginalen Zufallsvariablen X1 , X2 sind
normalverteilt, zentriert und haben die Varianzen σ12 bzw. σ22 .
Eigenschaft 5.5. — Die marginalen Zufallsvariablen X1 , X2 sind
genau dann unabhängig, wenn sie nicht korreliert sind, d.h. wenn ρ = 0
ist. Im speziellen Fall der zweidimensionalen Normalverteilung sind also die
Eigenschaften der Unabhängigkeit und der Nicht-Korreliertheit von X1 , X2
äquivalent.
X1
Theorem 5.6. — Es sei M =
ein Paar mit der Verteilung
X2
N2 (0, Γ) und A eine reelle 2 × 2-Matrix. Dann ist M = A M ein Paar mit
der Verteilung N2 (0, Γ ), wobei Γ = A Γ tA ist.
Beweis. — Setzt man gleichzeitig M = A M und t u = tu A, so gilt
t t
t
u M = t u M und daher gM (u ) = E[e u M ] = E[e u M ] = exp 12 t u Γ u =
exp 12 t u (A Γ tA)u .
Korollar 1. — Geht man von Γ = I aus, so ist M ein Paar von
unabhängigen, N (0, 1)-verteilten Zufallsvariablen. Dies gilt genau dann auch
für M = A M , wenn A tA = I gilt, d.h. wenn A eine orthogonale Matrix ist.
Korollar 2. — Falls das Paar (X1 , X2 ) N2 (0, Γ)-normalverteilt ist, so
X X
X1 1
2
ist
,
−ρ
ein Paar von unabhängigen, zentrierten, normalverteilσ1 σ2
σ1
ten Zufallsvariablen mit Varianzen 1, bzw. 1 − ρ2 .
5. DIE ZWEIDIMENSIONALE NORMALVERTEILUNG
Beweis. — Definiert man M = A M durch


X1
1


;
 X1 =
σ1

also A =  σ1ρ

 X = X2 − ρ X1 ;
−

2
σ1
σ2
σ1
1
0
.
so gilt Γ = A Γ tA =
0 1 − ρ2
183

0

1 ,
σ2
Bemerkung über die ausgearteten Verteilungen. — Wir betrachten jetzt
die Verteilung N2 (0, Γ) mit det Γ = 0, d.h. es ist ρ = ±1. Hier gibt es keine
gemeinsame Dichte, aber die erzeugende Funktion existiert und man erhält
sie, indem man in (5.5) ρ = ±1 setzt. Dann ist
1
2
(5.7)
gM (u) = exp (σ1 u1 ± σ2 u2 ) .
2
Das ist also die erzeugende Funktion eines Paares (X1 , X2 ), wobei X1 = σ1 U
und X2 = ±σ2 U mit einer N (0, 1)-verteilten Zufallsvariablen U ist. Eine
ausgeartete N2 (0, Γ)-verteilte Zufallsvariable hat also als Träger eine Gerade
mit der Steigung ±σ2 /σ1 , die durch den Ursprung geht.
µ1
Bemerkung über nicht-zentrierte Verteilungen. — Es sei µ =
µ2
(µ1 , µ2 ∈ R) ein Punkt der Ebene und M sei ein Paar mit der Verteilung
N2 (0, Γ). Man bezeichnet die Verteilung von M = M + µ mit N2 (µ, Γ) und
nennt sie zweidimensionale Normalverteilung mit Mittelpunkt µ und Kovarianzmatrix Γ. Ihre erzeugende Funktion ist
1
(5.8) g(u) = exp t uµ + t uΓu
2
1
= exp u1 µ1 + u2 µ2 + σ12 u21 + 2ρσ1 σ2 u1 u2 + σ22 u22 .
2
Falls |ρ| < 1 ist, hat diese Verteilung eine gemeinsame Dichte, die durch
√
1
det Γ−1
t
−1
exp − (x − µ) Γ (x − µ)
(5.9) fM (x) =
2π
2
x − µ 2
1
1
1
1
$
=
exp −
2
2(1 − ρ )
σ1
2π σ1 σ2 1 − ρ2
x − µ x − µ x − µ 2 1
1
2
2
2
2
− 2ρ
+
σ1
σ2
σ2
X1
gegeben
ist. Ist also M =
gemäss N2 (µ, Γ) verteilt, so ist das Paar
X
2
U
, mit
U = (X1 − µ1 )/σ1 , V = (X2 − µ2 )/σ2 , gemäss N2 (0, γ) verteilt
V
1 ρ
.
mit γ =
ρ 1
184
KAPITEL 12: ZUFALLSVEKTOREN
Das folgende Theorem ist in zweifacher Hinsicht interessant: zum einen
beschreibt es eine alternative Methode, um die zweidimensionale Normalverteilung einzuführen, andererseits motiviert es, wie man eine Normalwie z.B. Banachräumen, definiert.
verteilung auf allgemeineren Räumen,
X1
Theorem 5.7. — Es sei M =
ein zentrierter Zufallsvektor. Dann
X2
sind die beiden folgenden Aussagen äquivalent:
a) M hat eine zweidimensionale Normalverteilung.
b) Jede Linearkombination von X1 und X2 hat eine zentrierte eindimensionale Normalverteilung.
u1
t
Beweis. — Es sei Lu = u M , u =
, eine Linearkombination von
u2
X1 , X2 mit reellen Koeffizienten.
a) ⇒ b). Wir nehmen L(M ) = N2 (0, Γ) an. Dann ist die erzeugende Funk
t
tion von Lu für v ∈ R durch g(v) = E[evLu ] = E[e (vu)M ] = exp 12 (t uΓu)v 2
gegeben. Dies zeigt im Vorgriff auf Kapitel 14, § 3.2 c), dass Lu eine zentrierte,
normalverteilte Zufallsvariable mit Varianz t uΓu ist.
b) ⇒ a). Nach Voraussetzung ist die Zufallsvariable Lu für jede Wahl von
u in R2 zentriert und eindimensional normalverteilt. Sie hat also eine erzeu2
gende Funktion, die für reelles v durch g(v) = E[evLu ] = eQ(u)(v /2) gegeben
ist, wobei Q(u) = Var Lu = Var(t u M ) = E[(t uM )2 ] = E[(t u M )(t u M )]
gilt. Wegen t u M = t M u folgt Q(u) = t u E[M t M ] u = t u Γ u, wobei Γ die
Kovarianzmatrix von M ist.
t
t
Wählt man v = 1, so erhält man g(1) = E[eLu ] = E[e u M ] = e(1/2) uΓu
als Ausdruck für die erzeugende Funktion von M . Somit erweist sich M als
N2 (0, Γ)-normalverteilt.
Da die verwendete Notation auf der Matrix-Schreibweise beruht, bedarf
es nur geringer Modifikationen, um ebenso n-dimensionale normalverteilte
Zufallsvektoren M für n ≥ 2 zu behandeln. Speziell gilt, dass die Dichte
von M durch die Formel (5.9) gegeben ist, falls Kovarianzmatrix Γ regulär
ist. Man hat nur noch 2π durch (2π)n/2 im Nenner des Bruches zu ersetzen.
ERGÄNZUNGEN UND ÜBUNGEN
185
ERGÄNZUNGEN UND ÜBUNGEN
1. Alternative Behandlung von bedingten Verteilungen (X. Fernique).
Diese Methode erlaubt es, gleichzeitig den Fall der diskreten Zufallsvariablen
und den der absolut stetigen Zufallsvariablen zu behandeln. Betrachten
wir also ein Paar (X, Y ) von reellen Zufallsvariablen, die auf einem Raum
(Ω, A, P) definiert sind. Mit µ bzw. PX bzw. PY seien die Verteilung des
Paares bzw. die von X bzw. die von Y bezeichnet.
Es sei nun (Qy (A)) (y ∈ R, A ∈ B1 ) eine mit Paaren (y, A) ∈ R × B1
indizierte Familie von reellen Zahlen. Man sagt, dass diese Familie eine
bedingte Verteilung von X relativ zu Y ist, falls die folgenden Eigenschaften
gelten:
(1) für jede reelle Zahl y ist die Abbildung Qy : A → Qy (A) eine
Wahrscheinlichkeitsverteilung auf R, also speziell eine Abbildung von B1 in
[0, 1];
(2) für jede Borel-Menge A ∈ B1 ist die Abbildung Q(·) (A) : y → Qy (A)
messbar, also speziell eine Abbildung von (R, B1 ) in (R, B1 );
(3) für jedes Paar A, B von Borel-Mengen gilt die Gleichheit
P{X ∈ A, Y ∈ B} = E[Q(·) (A) · I{Y ∈B} ].
Man beachte, dass Q(·) (A) eine auf (R, B1 ) definierte reelle Zufallsvariable
ist, die wegen 0 ≤ Qy (A) ≤ 1 (für alle y) beschränkt ist. Das Produkt
Q(·) (A) · I{Y ∈B} ist also integrierbar. Der Erwartungswert E in der obigen
Identität ist bezüglich der Verteilung PY von Y zu nehmen.
a) Man zeige, dass man die Identität (3) auch folgendermassen schreiben
kann:
dµ(x, y) =
dQy (x) dPY (y).
x∈A, y∈B
y∈B
x∈A
b) Es sei nun Y eine diskrete Zufallsvariable mit der Verteilung PY =
P{Y = yj } εyj , wobei J endlich oder abzählbar ist. Dabei sollen die yj
j∈J
paarweise verschieden und die Wahrscheinlichkeiten P{Y = yj } alle positiv
sein. Ist dann Q0 irgendeine Wahrscheinlichkeitsverteilung auf (R, B1 ), so
definieren wir
Q0 ,
falls y = yj für alle j;
Qy (·) =
P{X ∈ · | Y = yj }, falls y = yj .
Speziell für y = yj und jede Borel-Menge A setzt man also
Qy (A) = P{X ∈ A | Y = yj }.
Man zeige, dass die Funktion Q(·) den Bedingungen (1), (2) und (3) genügt.
186
KAPITEL 12: ZUFALLSVEKTOREN
c) Sei nun (X, Y ) ein absolut stetiges Paar. Wir verwenden die Bezeichnungen aus den Abschnitten 3 und 4. Für jedes reelle y sei Qy die Wahrscheinlichkeitsverteilung mit der Dichte fX | Y (x | y) auf R. Man verifiziere auch hier
die drei Bedingungen (1), (2) und (3).
2. — Es sei (X, Y ) ein Paar von Zufallsvariablen mit gemeinsamer Dichte
e−(x+y) , falls x, y ≥ 0;
f (x, y) =
0,
sonst.
a) Man berechne die marginalen Dichten X, Y .
b) Sind die Variablen X und Y unabhängig?
3. — Die gleichen Fragen wie in 2), aber nun für ein Paar (X, Y ) mit
gemeinsamer Dichte
2 e−(x+y) , falls 0 ≤ x ≤ y;
f (x, y) =
0,
sonst.
4. — Es sei (X, Y ) eine Paar von Zufallsvariablen mit gemeinsamer Dichte
f (x, y). Man zeige, dass X und Y genau dann unabhängig sind, falls sich f in
ein Produkt f (x, y) = g(x) h(y) faktorisieren lässt, wobei die eine Funktion
nur von x und die andere Funktion nur von y abhängt.
5. — Es sei D = {(x, y) ∈ R2 : x2 + y 2 ≤ r 2 } die Kreisscheibe mit
Zentrum 0 und Radius r > 0. Mit (X, Y ) wird ein zufälliger Punkt von D
bezeichnet, wobei die gemeinsame Verteilung die Gleichverteilung auf D sein
soll, d.h. die Dichte ist durch
1
, falls (x, y) ∈ D;
f (x, y) = πr 2
0,
sonst,
gegeben.
a) Man berechne die marginalen Dichten von X und Y . Man berechne
E[X] und E[Y ].
b) Sind die Variablen X und Y unabhängig?
c) Man berechne Cov(X, Y ). Was kann man aus b) und c) folgern?
d) Man berechne die Verteilungsfunktion G(u) und dann auch die Dichte
g(u) der Zufallsvariablen U = X 2 + Y 2 .
e) Man berechne E[U ] und ermittle daraus E[X 2 ] und E[Y 2 ], sowie Var X
und Var Y .
f) Man berechne die durch {X = x} bedingte Dichte fY | X (· | x) von Y .
Man berechne E[Y 2 | X = x], dann auch E[X 2 + Y 2 | X = x] und
E[X 2 + Y 2 | X].
ERGÄNZUNGEN UND ÜBUNGEN
187
g) Ein Schütze zielt auf eine Zielscheibe, die, wie D, kreisrund ist. Die
Verteilung des Einschlagspunktes (X, Y ) auf der Scheibe sei die Gleichverteilung
auf D. Dem Punkt (X, Y ) wird die Zufallsvariable L =
√
X 2 + Y 2 zugeordnet, die gerade die Distanz von (X, Y ) zum Zentrum der Scheibe angibt. Wird nun n-mal unabhängig geschossen, so
entspricht dem eine Menge von n unabhängig und zufällig gewählten
Punkten, damit aber auch ein System von n Zufallsvariablen (L1 , . . .,
Ln ), die die Abstände dieser Punkte vom Zentrum darstellen. Dabei
handelt es sich um unabhängige und identisch verteilte Zufallsvariable.
Man berechne P{min(L1 , . . . , Ln ) < a} für reelles a mit 0 < a < r. Wie
ist diese Wahrscheinlichkeit zu interpretieren?
X1
ein Zufallsvektor mit der Verteilung N2 (0, Γ),
6. — Es sei M=
X2
1 ρ
wobei Γ =
und |ρ| < 1 ist. Man zeige:
ρ 1
$
a) Die durch {X1 = x1 } bedingte Verteilung von X2 ist N (ρx1 , 1 − ρ2 ).
Daraus folgt:
α) E[X2 | X1 = x1 ] = ρx1 , d.h. der bedingte Erwartungswert ist linear
in x1 ; anders formuliert, die Regressionskurve von X2 in X1 ist eine Gerade
durch den Ursprung mit Steigung ρ.
β) Var(X2 | X1 = x1 ) = 1 − ρ2 ; dies ist unabhängig von x1 .
b) (X1 , X2 − E[X2 | X1 ]) ist ein Paar von unabhängigen, zentrierten und
normalverteilten Zufallsvariablen mit Varianzen 1 bzw. 1 − ρ2 .
7. — Es sei (X1 , X2 ) ein Paar von Zufallsvariablen, deren marginale
Verteilungen die Normalverteilungen N (0, 1) sind. Dann muss (X1 , X2 ) nicht
notwendig normalverteilt sein. Man überlege sich ein Beispiel.
8. — Es sei M = (X, Y ) ein absolut stetiger Zufallsvektor mit dem
Träger R2 , wobei die Komponenten X und Y unabhängig sein sollen. Man
zeige, dass die beiden folgenden Aussagen äquivalent sind:
a) X und Y haben beide eine zentrierte Verteilung;
b) die Verteilung von M ist isotrop, d.h. sie ist invariant unter jeder
Drehung um den Ursprung.
9. — Es wird zunächst ein perfekter Würfel geworfen. Anschliessend
wird eine perfekte Münze so oft geworfen, wie die Augenzahl des Würfels
ergeben hat. Es bezeichne X die Augenzahl des Würfels und Y die Anzahl
der Vorkommen von “Zahl” beim Münzwurf.
a) Man berechne die gemeinsame Verteilung von (X, Y ).
b) Man berechne E[Y ].
188
KAPITEL 12: ZUFALLSVEKTOREN
10. (Berechnung des Erwartungswertes einer geometrischen Zufallsvariablen). — Eine Urne enthalte r weisse und s schwarze Kugeln, (r, s ≥ 1); es
sei p = r/(r + s). Man führt eine Folge von Ziehungen mit Zurücklegen durch
und bezeichnet mit N die Anzahl der Ziehungen, die notwendig sind, um
erstmals eine weisse Kugel zu ziehen (N ist also eine geometrisch verteilte
Zufallsvariable).
Nun sei X diejenige Zufallsvariable, die den Wert 1 oder 0 annimmt, je
nachdem ob die erste gezogene Kugel weiss ist oder nicht. Man berechne
den Erwartungswert von N mittels der Formeln für den bedingten Erwartungswert, wenn man die Variable N als durch X bedingte Variable betrachtet.
11. (Fortsetzung von Aufgabe 10). — Wiederum sei eine Urne mit r
weissen und s schwarzen Kugeln gegeben (r, s ≥ 1). Nun wird eine Folge von
Ziehungen ohne Zurücklegen durchgeführt und es bezeichne Nr,s die Anzahl
der Ziehungen, die notwendig sind, um erstmals eine weisse Kugel zu ziehen.
Um E[Nr,s ] zu berechnen, kann man folgendermassen vorgehen. Es sei X
die Zufallsvariable, die den Wert 1 oder 0 annimmt, je nachdem, ob die erste
gezogene Kugel weiss ist oder nicht. Man berechne E[Nr,s ] mittels der Formel
E[Nr,s ] = E[E[Nr,s | X] ].
a) Man zeige, dass die Zahlen ar,s = E[Nr,s ] einer Rekursion genügen:
ar,s = 1 + (s/(r + s))ar,s−1 für r, s ≥ 1 und ar,0 = 1 für alle r ≥ 1.
b) Man zeige, dass dieses System genau eine Lösung hat, die durch
ar,s = E[Nr,s ] = (r + s + 1)/(r + 1) gegeben ist.
12. — Es sei (X, Y ) ein Paar von Zufallsvariablen mit Werten in N, wobei
stets 0 ≤ Y ≤ X gilt und E[X] < +∞ ist. Man nimmt an, dass die durch X
bedingte Verteilung von Y die Gleichverteilung auf {0, 1, . . . , X} ist.
1) Man berechne E[X] als Funktion von E[Y ].
2) Man zeige, dass die beiden folgenden Aussagen äquivalent sind:
a) das Paar (X − Y, Y ) ist unabhängig;
b) die Zufallsvariable Y ist geometrisch verteilt, d.h. P{Y = n} = q n p
(n ≥ 0).
13. (Stefanie und die Arbeitslosenversicherung). — Es sei X die Zeit,
die verstreicht, bis ein Individuum einer Population arbeitslos wird. Dabei
wird angenommen, dass X exponential-verteilt mit Parameter λ ist (cf.
Kap. 14, § 5). Die Versicherungsgesellschaft, die diese Population gegen
Arbeitslosigkeit versichert, möchte die mittlere Arbeitszeit für die UnterPopulation berechnen, die aus denjenigen Individuen besteht, die zwischen
Zeitpunkt a und Zeitpunkt b arbeitslos sind (0 < a < b < +∞).
ERGÄNZUNGEN UND ÜBUNGEN
189
a) Es sei g(a, b) diese mittlere Zeit. Wie muss man g(a, b) berechnen?
b) Man berechne den Limes von g(a, b), wenn b gegen Unendlich strebt.
Hätte man sich dieses Resultat auch ohne Rechnen überlegen können?
c) Man berechne den Limes von g(a, a + ε), falls ε von rechts gegen 0
strebt.
190
KAPITEL 12: ZUFALLSVEKTOREN
Herunterladen