KAPITEL 12 ZUFALLSVEKTOREN. BEDINGTE ERWARTUNGSWERTE. NORMALVERTEILUNG In diesem Kapitel werden zunächst die Begriffe eingeführt, mit denen man zweidimensionale Zufallsvektoren und deren Verteilungen beschreibt. Für die Teilfamilien der Zufallsvektoren mit diskreter und die mit absolut stetiger Verteilung werden dann der bedingte Erwartungswert und die zugehörigen Rechenregeln behandelt. Das Kapitel schliesst mit einer Untersuchung der zweidimensionalen Normalverteilungen. 1. Definitionen und erste Eigenschaften. — Wie bereits in Kapitel 5, § 3, definiert, ist eine zweidimensionale Zufallsvariable (man sagt auch zweidimensionaler Zufallsvektor) eine messbare Abbildung X : (Ω, A, P) → (R2 , B2 ). Die beiden kanonischen Projektionen von R2 in R werden mit πi : (x1 , x2 ) → xi (i = 1, 2) bezeichnet. Die Koordinatenabbildungen von (Ω, A, P) in (R, B1 ) sind durch Xi = πi ◦ X (i = 1, 2) definiert; sie sind beide messbar. Es handelt sich also um zwei Zufallsvariable, die auch als marginale Zufallsvariable bezeichnet werden. Man schreibt oft X = (X1 , X2 ) X1 oder X = und man spricht von X auch als einem Paar von ZufallsX2 variablen. Es sei nun X : (Ω, A, P) → (R2 , B2 ) ein zweidimensionaler Zufallsvektor. In Kapitel 5, § 4, wurde als Wahrscheinlichkeitsverteilung des Vektors X die mit PX notierte Abbildung bezeichnet, die jedem B ∈ B2 die Zahl PX (B) = P(X −1 (B)) zuordnet. Entsprechend Satz 4.1 von Kapitel 5 ist die Abbildung PX ein Wahrscheinlichkeitsmass auf (R2 , B2 ), genannt Wahrscheinlichkeitsverteilung von X. Man spricht auch von der gemeinsamen Verteilung des Paares X = (X1 , X2 ). Wie schon für diskrete Zufallsvariable ausgeführt (siehe Korollar 1.2 von Kap. 8), bestimmt X = (X1 , X2 ) die Verteilungen der marginalen Zufallsvariablen X1 , X2 . Dies formulieren wir noch einmal im nächsten Satz. Satz 1.1. — Die gemeinsame Verteilung PX von X = (X1 , X2 ) bestimmt die Verteilungen (genannt “Randverteilungen” oder “marginale Verteilungen”) PX1 , PX2 der marginalen Zufallsvariablen X1 , X2 auf folgende 170 KAPITEL 12: ZUFALLSVEKTOREN Weise. Für alle B ∈ B1 gilt PXi (B) = PX πi−1 (B) (i = 1, 2), d.h. PXi ist das Bild von PX unter der Abbildung πi . Beweis. — Es gilt Xi = πi ◦ X. Damit folgt PXi (B) = P Xi−1 (B) = P X −1 ◦ πi−1 (B) = PX πi−1 (B) für jedes B ∈ B1 . Definition. — Als (gemeinsame) Verteilungsfunktion (der Verteilung) von X = (X1 , X2 ) bezeichnet man die durch F(x1 , x2 ) = P{X1 ≤ x1 , X2 ≤ x2 } definierte Funktion von zwei reellen Variablen. Sie lässt sich mittels der gemeinsamen Verteilung von X ausdrücken: F(x1 , x2 ) = PX ] − ∞, x1 ]×] − ∞, x2 ] . Die gemeinsamen Verteilungsfunktionen von Paaren von Zufallsvariablen sind nicht sehr gebräuchlich, und sei es nur deshalb, weil es keine natürliche Ordnungsrelation auf dem R2 gibt. Wir werden ihre Eigenschaften daher nicht im Detail behandeln (siehe jedoch Aufgabe 11 von Kap. 5). Gleichwohl sollen die drei folgenden Aussagen festgehalten werden. Satz 1.2. — Die Kenntnis der gemeinsamen Verteilungsfunktion eines Paares X = (X1 , X2 ) von Zufallsvariablen ist der Kenntnis der Verteilung von X gleichwertig. Satz 1.3. — Die gemeinsame Verteilungsfunktion F eines Paares X = (X1 , X2 ) von Zufallsvariablen erlaubt es, die Verteilungsfunktionen F1 , F2 der marginalen Zufallsvariablen X1 , X2 (d.h. der marginalen Verteilungsfunktionen) wie folgt zu berechnen: F1 (x1 ) = P{X1 ≤ x1 } = F2 (x2 ) = P{X2 ≤ x2 } = lim F(x1 , x2 ) = F(x1 , +∞) ; x2 →+∞ lim F(x1 , x2 ) = F(+∞, x2 ). x1 →+∞ Satz 1.4. — Die marginalen Zufallsvariablen X1 , X2 sind genau dann unabhängig, wenn die gemeinsame Verteilungsfunktion des Paares (X1 , X2 ) gleich dem Produkt der marginalen Verteilungsfunktionen ist. Der Transportsatz wurde in Kapitel 11, Satz 1.1, für den Fall von reellen Zufallsvariablen formuliert. Wir begnügen uns hier damit, die entsprechende 2. WAHRSCHEINLICHKEITSDICHTEN 171 Aussage für zweidimensionale Zufallsvariable festzuhalten. Der Beweis verläuft völlig analog. Theorem 1.5 (Transportsatz). — Es sei X : (Ω, A, P) → (R2 , B2 ) ein Zufallsvektor und PX sei seine Verteilung. Ferner sei g : (R2 , B2 ) → (R, B1 ) eine messbare Funktion. Dann ist g ◦ X eine Zufallsvariable und es gilt die Gleichheit (g ◦ X) dP = g dPX = g(x1 , x2 ) dPX (x1 , x2 ) , R2 Ω R2 und zwar unter der Voraussetzung, dass eine der Seiten als abstraktes Integral existiert, d.h. absolut konvergiert. Ist dies der Fall, dann bezeichnet man den gemeinsamen Wert beider Seiten als E[g ◦ X] oder als E[g(X1 , X2 )]. Zu bemerken bleibt, dass der Ausdruck auf der rechten Seite ein Integral auf (R2 , B2 , PX ) ist und deshalb ausgehend von der Verteilung PX von X berechnet werden kann. 2. Absolut stetige Wahrscheinlichkeitsverteilungen und Dichten. Ebenso wie im Falle von Wahrscheinlichkeitsmassen auf der reellen Geraden gibt es eine wichtige Klasse von Wahrscheinlichkeitsmassen auf (R2 , B2 ), die man mittels nichtnegativer Funktionen von zwei reellen Variablen definieren kann, die bezüglich des Lebesgue-Masses auf (R2 , B2 ) integrierbar sind (cf. Kap. 10, § 5). Es handelt sich um die absolut stetigen Wahrscheinlichkeitsmasse. Ihre Definition wird anschliessend in der Terminologie der Paare von Zufallsvariablen gegeben. Der Bequemlichkeit halber werden wir von nun an ein Paar von Zufallsvariablen mittels (X, Y ) statt (wie oben) mittels (X1 , X2 ) bezeichnen. Definition. — Es sei (X, Y ) ein Paar von Zufallsvariablen und PX,Y dessen gemeinsame Verteilung. Man bezeichnet die Verteilung PX,Y als absolut stetig (bezüglich des Lebesgue-Masses auf (R2 , B2 )), wenn es eine messbare Funktion f : (R2 , B2 ) → (R+ , B1 ) mit nichtnegativen Werten gibt derart, dass für jedes B ∈ B2 (2.1) PX,Y (B) = f (x, y) dx dy = f (x, y) IB (x, y) dx dy B R2 gilt. Die Funktion f heisst gemeinsame (Wahrscheinlichkeits-)Dichte (der Verteilung) von (X, Y ). Man schreibt auch fX,Y (x, y). Satz 2.1. — Für jede gemeinsame Wahrscheinlichkeitsdichte f gilt: a) f ≥ 0; b) R2 f (x, y) dx dy = 1; c) die gemeinsame Verteilungsfunktion F = FX,Y kann durch F(x, y) = ]−∞,x]×]−∞,y] f (u, v) du dv dargestellt werden; 2 ∂ d) falls f im Punkt (x0 , y0 ) stetig ist, gilt f (x0 , y0 ) = F (x, y) im ∂x∂y Punkt (x, y) = (x0 , y0 ). 172 KAPITEL 12: ZUFALLSVEKTOREN Satz 2.2. — Falls das Paar (X, Y ) absolut stetig ist, so sind auch seine marginalen Zufallsvariablen absolut stetig, und die gemeinsame Dichte f (x, y) = fX,Y (x, y) bestimmt die marginalen Dichten fX (x), fY (y) mittels der Formeln fX,Y (x, y) dy, fY (y) = fX,Y (x, y) dx. fX (x) = R R Satz 2.3. — Es sei (X, Y ) ein Paar von Zufallsvariablen, f (x, y) sei die gemeinsame Dichte und fX (x) bzw. fY (y) seien die marginalen Dichten von X bzw. Y . Dann sind die beiden folgenden Aussagen gleichwertig: a) X und Y sind unabhängig; b) für (Lebesgue-)fast alle (x, y) ∈ R2 gilt fX,Y (x, y) = fX (x)fY (y). Beweis. a) ⇒ b). Wir nehmen zunächst (X, Y ) als unabhängig an. F = FX,Y bezeichne die gemeinsame Verteilungsfunktion und FX , FY die jeweiligen marginalen Verteilungsfunktionen. Dann gilt für alle (x, y) ∈ R2 F(x, y) = FX (x)FY (y). Nimmt man die gemischte Ableitung (∂ 2 /∂x ∂y)F von beiden Seiten (sie existiert Lebesgue-fast sicher), so erhält man b). b) ⇒ a). Sei nun b) gegeben; dann hat man für jedes (x, y) ∈ R2 F(x, y) = fX (u) fY (v) du dv ]−∞,x]×]−∞,y] = fX (u) du fY (v) dv = FX (x)FY (y). ]−∞,x] ]−∞,y] Dann aber sind X und Y unabhängig. Satz 2.4. — Es sei (X, Y ) ein Paar von absolut stetigen Zufallsvariablen mit gemeinsamer Dichte f . Ferner sei g : (R2 , B2 ) → (R, B1 ) eine messbare Funktion. Dann ist g ◦ (X, Y ) eine Zufallsvariable mit Erwartungswert g(x, y)f (x, y) dx dy, E[g ◦ (X, Y )] = R2 vorausgesetzt, dass das Integral auf der rechten Seite absolut konvergiert. 3. BEDINGTER ERWARTUNGSWERT 173 3. Bedingte Verteilung, bedingter Erwartungswert, Regression. Wie immer man das Problem anpackt, das Konzept des bedingten Erwartungswertes zu definieren, so bleibt es doch ein schwieriges Unterfangen, dies mit aller gebotenen Genauigkeit zu tun. Wir werden nacheinander die beiden gebräuchlichsten Situationen behandeln, nämlich wenn (X, Y ) diskret bzw. oder wenn es absolut stetig ist. Natürlich kann man einen Formalismus einführen, der beide Fälle umfasst — das schlagen wir in Aufgabe 1 vor. In jedem Fall muss man aber einen expliziten Ausdruck für die bedingte Wahrscheinlichkeitsverteilung oder den bedingten Erwartungswert finden. (A) Der Fall eines diskreten Paares. — Wir nehmen an, dass (X, Y ) ein Paar von diskreten Zufallsvariablen mit Werten (xi , yj ) sei, wobei die Indices i (bzw. j) eine endliche oder abzählbare Menge I (bzw. J) durchlaufen. Wir setzen P{X = xi , Y = yj } = pij , P{X = xi } = pi. P{Y = yj } = p.j . Vorausgesetzt wird, dass die xi (bzw. yj ) paarweise verschieden sind und die Wahrscheinlichkeiten pi. (resp. p.j ) alle positiv sind. Für festes i ∈ I und alle j ∈ J sei (3.1) bi (j) = P{Y = yj | X = xi } = P{X = xi , Y = yj } pij . = P{X = xi } pi. Das diskrete Mass j∈J bi (j) εyj , das von den yj (j ∈ J) getragen wird, ist eine Wahrscheinlichkeitsverteilung. Man bezeichnet sie in naheliegender Weise als die durch {X = xi } bedingte Verteilung von Y . Wir setzen nun voraus, dass der Erwartungswert von Y endlich ist, dass also die Reihe mit dem allgemeinen Glied p.j yj (j ∈ J) absolut konvergiert. Dann ist für festes i die Reihe mit dem allgemeinen Glied bi (j)yj (j ∈ J) ebenfalls absolut konvergent. Es ist naheliegend, die Summe dieser Reihe als den durch {X = xi } bedingten Erwartungswert von Y zu bezeichnen und mit E[Y | X = xi ] zu notieren. Man setzt also E[Y | X = xi ] = bi (j) yj . j∈J Ordnet man jedem Wert E[Y | X = xi ] die Wahrscheinlichkeit pi. (i ∈ I) zu, so definiert man damit die Verteilung einer gewissen Zufallsvariablen, die mit E[Y | X] notiert wird. Sie heisst die durch X bedingte Erwartung von Y . Man mache sich klar, dass es sich bei E[Y | X] um eine Zufallsvariable handelt. Deren Erwartungswert kann man berechnen: pi. E[Y | X = xi ] = pi. bi (j) yj E[E[Y | X] ] = i∈I = i∈I pi. pij j∈J pi. yj = j∈J i∈I j∈J p.j yj = E[Y ]. 174 KAPITEL 12: ZUFALLSVEKTOREN Diese Formel wird uns in Theorem 3.3 wieder begegnen. Ganz analog kann man, indem man aj (i) = P{X = xi | Y = yj } = pij /p.j setzt, die durch {Y = yj } bedingte Verteilung von X mittels i∈I aj (i)εxi definieren, und weiter, wenn X einen endlichen Erwartungswert hat, den durch {Y = yj } bedingten Erwartungswert von X als E[X | Y = yj ] = i∈I aj (i)xi , und schliesslich E[X | Y ] als Zufallsvariable, die in jedem j ∈ J mit Wahrscheinlichkeit p.j den Wert E[X | Y = yj ] annimmt. (B) Der Fall eines absolut stetigen Paares. — Es geht nun darum, ein Analogon der Formel (3.1) zu finden. Die Schwierigkeit rührt daher, dass P{X = x} = 0 für jedes reelle x gilt. Bezeichne nun f (x, y) = fX,Y (x, y) die gemeinsame Dichte und seien fX (x), fY (y) die marginalen Dichten. Wir werden sehen, dass man eine bedingte Wahrscheinlichkeitsverteilung und einen bedingten Erwartungswert in befriedigender Weise definieren kann, wenn man die Grössen P{X = x, Y = y} bzw. P{X = x} durch fX,Y (x, y) bzw. durch fX (x) ersetzt. Definition. — Es sei (X, Y ) ein Paar von absolut stetigen Wahrscheinlichkeitsverteilungen, es sei fX,Y (x, y) die gemeinsame Dichte, sowie fX (x), fY (y) die marginalen Dichten. Weiter seien g0 (y) und h0 (x) zwei beliebige Wahrscheinlichkeitsdichten auf (R, B1 ). Als die durch {X = x} bedingte Dichte von Y bezeichnet man die durch fX,Y (x, y) , falls f (x) > 0 gilt; X fX (x) fY | X (y | x) = sonst, g0 (y), definierte Funktion fY | X (· | x) von y. Analog bezeichnet man als die durch {Y = y} bedingte Dichte von X die Funktion fX | Y (· | y) von x mit fX,Y (x, y) , falls f (y) > 0; Y fY (y) fX | Y (x | y) = sonst. h0 (x), Bemerkung 1. — Es folgt sofort, dass für fast alle x die Gleichheit (3.2) fX,Y (x, y) = fX (x)fY | X (y | x) für fast alle y gilt. Denn diese Gleichheit gilt per Definition, falls fX (x) > 0 ist. Ist fX (x0 ) = 0, d.h. R fX,Y (x0 , y) dy = 0, also ist fX,Y (x0 , y) = 0 für fast alle y, und deshalb ist fX,Y (x0 , y) = fX (x0 )fY | X (y | x0 ) für fast alle y. Entsprechend sieht man, dass für fast alle y die Gleichheit (3.3) für fast alle x gilt. fX,Y (x, y) = fY (y)fX | Y (x | y) 3. BEDINGTER ERWARTUNGSWERT 175 Bemerkung 2. — Es folgt fX (x) = fX | Y (x | y) fY (y) dy, fY (y) = fY | X (y | x) fX (x) dx, d.h. jede marginale Dichte ist konvexe Kombination der bedingten Dichten. Satz 3.1. — Für jedes x hat die Funktion fY | X (· | x) alle Eigenschaften einer Wahrscheinlichkeitsdichte. Ebenso hat die Funktion fX | Y (· | y) für jedes y alle Eigenschaften einer Wahrscheinlichkeitsdichte. Die Beweise sind offensichtlich. Satz 3.2. — Es sei (X, Y ) ein Paar von absolut stetigen Zufallsvariablen. Mit fX (x), fY (y), fY | X (· | x), fX | Y (· | y) werden die marginalen Dichten und bedingten Dichten bezeichnet. Falls das Paar (X, Y ) unabhängig ist, gilt: 1) Für jedes x mit fX (x) > 0 ist fY | X (y | x) = fY (y). 2) Für jedes y mit fY (y) > 0 ist fX | Y (x | y) = fX (x). Die Beweise sind wieder offensichtlich. Definition (Bedingter Erwartungswert). — Es sei (X, Y ) ein absolut stetiges Paar von Zufallsvariablen. Alle obigen Notationen über marginale Dichten und bedingte Dichten werden weiterhin verwendet. Speziell bezeichne fY | X (· | x) die durch {X = x} bedingte Dichte von Y . Für jedes reelle x kann man das Integral R y fY | X (y | x) dy, wenn es denn absolut konvergiert, als den Erwartungswert von Y bezüglich der Wahrscheinlichkeitsdichte fY | X (· | x) interpretieren. Falls also das Integral absolut konvergiert, setzt man y fY | X (y | x) dy (3.4) E[Y | X = x] = R und nennt dies den durch {X = x} bedingten Erwartungswert von Y . Die Abbildung e : x → e(x) = E[Y | X = x] ist nun eine reelle Funktion einer reellen Variablen. Die Komposition e◦X ist eine auf (Ω, A, P) definierte reelle Zufallsvariable. Sie wird mit E[Y | X] notiert und man bezeichnet sie als den durch X bedingten Erwartungswert von Y . Ganz entsprechend definiert man den durch Y bedingten Erwartungswert von X. Im nächsten Theorem werden wir den Erwartungswert der reellen Zufallsvariablen E[Y | X] betrachten. Man beachte, dass dieser Erwartungswert nicht etwa auf dem Raum (Ω, A, P), sondern vielmehr auf dem Raum (R, B1 , PX ) berechnet wird, und zwar in Bezug auf die Verteilung PX von X. Gleichwohl soll angemerkt werden, dass in weiterführenden Darstellungen der Theorie der Begriff des bedingten Erwartungswertes in natürlicher Weise auf dem Raum (Ω, A, P) definiert wird. 176 KAPITEL 12: ZUFALLSVEKTOREN Theorem 3.3 (Satz über den bedingten Erwartungswert). — Es sei (X, Y ) ein absolut stetiges Paar von Zufallsvariablen mit E[ |Y | ] < +∞. Dann ist E[Y ] = E[ E[ Y | X ] ]. Beweis. — Formal geschrieben gilt y fX,Y (x, y) dx dy = y fX (x) fY | X (y | x) dx dy E[Y ] = R2 R2 ! " y fY | X (y | x) dy fX (x) dx = E[Y | X = x] fX (x) dx = R R R = E[ E[ Y | X ] ]. Unter der Annahme E[ |Y | ] < +∞ ist diese formale Rechnung korrekt. Definition (Regressionskurve). — Es sei (X, Y ) ein Paar von Zufallsvariablen mit E[ |X| ] < +∞ und E[ |Y | ] < +∞. Der Graph der Abbildung x → E[Y | X = x] heisst Regressionskurve von Y in X. Der Graph der Abbildung y → E[X | Y = y] heisst entsprechend Regressionkurve von X in Y . Bemerkung. — Diese beiden Kurven sind im allgemeinen verschieden. Sind beispielsweise X und Y unabhängig, so ist der Graph von x → E[Y | X = x] eine zu 0x parallele Gerade und der Graph von y → E[X | Y = y] eine zu 0y parallele Gerade. Die Regressionskurven haben, wie das nächste Theorem zeigt, eine Minimaleigenschaft, die insbesondere in der Statistik eine Rolle spielt. Theorem 3.4. — Es sei (X, Y ) ein Paar von Zufallsvariablen mit E[Y 2 ] < ∞. Die Regressionskurve von Y in X hat die folgende Minimaleigenschaft: Es sei u eine messbare reelle Funktion derart, dass der Ausdruck (3.5) E[ [Y − u(X)]2 ] endlich ist. Variiert man die messbare Funktion u, so variiert auch der Ausdruck (3.5), und zwar nimmt er für die Funktion u(x) = E[Y | X = x] einen minimalen Wert an. Der Wert dieses Minimums ist E[ [Y −E[Y | X] ]2]. Beweis. — Wir nehmen hier an, dass das Paar (X, Y ) absolut stetig ist und wir verwenden die entsprechenden, oben eingeführten Notationen. Es ist [y − u(x)]2 fX,Y (x, y) dx dy E[ [Y − u(X)]2 ] = 2 R ! " fX (x) [y − u(x)]2 fY | X (y | x) dy dx. = R R Für jedes fest gewählte reelle x nimmt das Integral in den eckigen Klammern seinen minimalen Wert für u(x) = R y fY | X (y | x) dy = E[Y | X = x] an. Dies besagt Satz 5.3 von Kapitel 8 im Falle von diskreten Zufallsvariablen, aber tatsächlich gilt dies für beliebige Zufallsvariable. 4. RECHENREGELN 177 4. Rechenregeln für bedingte Erwartungen. — In diesem Abschnitt stellen wir einige Rechenregeln für bedingte Erwartungen zusammen. Dabei werden die obigen Bezeichnungen für Erwartungswerte (ob bedingt oder nicht) von X und von Y beibehalten. Wir werden E[Y | X] als auch EX [Y ] schreiben. Mit g, h (mit oder ohne Indices) werden messbare reelle Funktionen bezeichnet, deren Argumente sich aus dem jeweiligen Zusammenhang ergeben. Schliesslich wollen wir voraussetzen, dass alle vorkommenden Erwartungswerte tatsächlich existieren. Zunächst sei h eine messbare reellwertige Funktion von zwei reellen Variablen. Die Komposition h ◦ (X, Y ) ist dann eine reelle Zufallsvariable. Man definiert deren durch {X = x} bedingten Erwartungswert als (4.1) E[h ◦ (X, Y ) | X = x] = R h(x, y) fY | X (y | x) dy. Speziell für h(x, y) = y ist das die Definition (3.4). Theorem 4.1 1) Es gelten die Gleichheiten: E[ E[h ◦ (X, Y ) | X] ] = E[h ◦ (X, Y ) | X = x] fX (x) dx = E[h ◦ (X, Y )]. Wählt man speziell h(x, y) = g(y), so erhält man die Formel für den bedingten Erwartungswert aus Theorem 3.3, nun für die Zufallsvariable g ◦ Y E[ E[ g ◦ Y | X ] ] = E[ g ◦ Y | X = x] fX (x) dx = E[g ◦ Y ]. 2) Sind X, Y unabhängig, so gilt E[g ◦ Y | X] = E[g ◦ Y ]. 3) Es gilt stets E[g ◦ X | X] = g ◦ X. 4) Für beliebige X und Y hat man EX [ EX [Y ] ] = EX [Y ]; E[(g1 ◦ X)(g2 ◦ Y ) | X] = (g1 ◦ X) E[g2 ◦ Y | X]. Anders gesagt, bei der Berechnung des bedingten Erwartungswertes bezüglich X verhält sich die Funktion g1 ◦ X wie eine Konstante. Beweis. — Der Beweis von 1) verläuft ganz anolog zum Beweis von Theorem 3.3, wobei jetzt (4.1) verwendet wird. Setzt man e(x) = E[h ◦ (X, Y ) | X = x], so ist der durch X bedingte Erwartungswert von h ◦ (X, Y ), geschrieben E[h ◦ (X, Y ) | X], die Komposition e ◦ π1 ◦ (X, Y ) = e ◦ X. Dies ist eine auf (Ω, A, P) definierte Zufallsvariable. Die erste Gleichheit von 1) 178 KAPITEL 12: ZUFALLSVEKTOREN zeigt, dass der Erwartungswert dieser Zufallsvariablen auch über dem Raum (R, B1 , PX ) berechnet werden kann: e(x) fX (x) dx E[ E[h ◦ (X, Y ) | X] ] = E[e ◦ X] = R E[h ◦ (X, Y ) | X = x] fX (x) dx. = R ! " h(x, y) fY | X (y | x) dy fX (x) dx = R R = h(x, y) fX,Y (x, y) dx dy = E[h ◦ (X, Y )]. R2 2) Sind X und Y unabhängig, so gilt E[g ◦ Y | X = x] = R g(y) fY | X (y | x) dy = g(y) fY (y) dy = E[g ◦ Y ], R gemäss Satz 3.2 und der Tatsache, dass man E[g ◦ Y ] über dem Wahrscheinlichkeitsraum (R, B1 , PY ) berechnen kann. Die Grösse e(x) = E[g ◦Y | X = x] ist also konstant gleich E[g ◦ Y ]. Ebenso ist E[g ◦ Y | X] gleich e ◦ Y . Damit ist Formel 2) bewiesen. 3) Für jedes x gilt hier E[g ◦ X | X = x] = R g(x) fY (y) dy = g(x) R fY (y) dy = g(x), was auch gleich e(x) in der obigen Notation ist. Deshalb ist g = e und E[g ◦ X | X] = e ◦ X = g ◦ X. 4) Die erste Gleichheit folgt aus 3) mit g ◦ X = E[Y | X]. Um die zweite Gleichheit zu beweisen, setzt man der Bequemlichkeit halber e2 (x) = E[g2 ◦ Y | X = x], so dass E[g2 ◦Y | X] = e2 ◦X und e(x) = E[(g1 ◦X)(g2 ◦Y ) | X = x], und somit auch E[(g1 ◦ X)(g2 ◦ Y ) | X] = e ◦ X ist. Damit hat man e(x) = R g1 (x) g2 (y) fY | X (y | x) dy = g1 (x) = g1 (x) E[g2 ◦ Y | X = x] = g1 (x)e2 (x), R g2 (y) fY | X (y | x)(y) dy und es ergibt sich e ◦ X = (g1 ◦ X)(e2 ◦ X). Es sei nun A ein Ereignis, dessen Indikatorfunktion IA sich als messbare Funktion h ◦ (X, Y ) des Paares (X, Y ) schreiben lässt. Beispielsweise ist A = {X < Y } ein solches Ereignis, denn man kann schreiben: I{X<Y } = h◦(X, Y ), wobei h(x, y) = I{x<y} (x, y) ist. Somit kann man die vorangehenden Formeln 4. RECHENREGELN 179 speziell für solche Indikatorfunktionen verwenden. Wenn man sich noch vergegenwärtigt, dass P(A) = E[IA ] gilt, so findet man also P(A) = E[IA ] = E[ E[IA | X] ]. Definiert man nun noch P{A | X = x} = E[IA | X = x], P{A | X} = E[IA | X], (4.2) (4.3) so ergibt sich die Gleichheit P(A) = (4.4) R P{A | X = x} fX (x) dx. Die Funktion P{A | X = x} ist die durch {X = x} bedingte Wahrscheinlichkeit. Die Formel (4.4) wird häufig bei der Berechnung von speziellen Wahrscheinlichkeiten verwendet, wenn man Kenntnis von P{A | X = x} hat. Beispiel 1. — Es sei (X, Y ) ein absolut stetiges Paar von Zufallsvariablen. Wir berechnen zunächst P{X < Y | X = x}, wobei die Funktionen h(x, y) = I{x<y} (x, y) und g(y) = I{x<y} (y) zum Einsatz kommen. Es ist P{X < Y | X = x} = E[I{X<Y } | X = x] = E[h ◦ (X, Y ) | X = x] = h(x, y) fY | X (y | x) dy = I{x<y} (x, y) fY | X (y | x) dy R R I{x<y} (y) fY | X (y | x) dy = g(y) fY | X (y | x) dy = R R = E[g ◦ Y | X = x] = E[I{x<Y } | X = x] = P{x < Y | X = x}. Sind die Zufallsvariablen X und Y unabhängig, so gilt fY | X (y | x)(y) = fY (y) und somit I{x<y} (y) fY | X (y | x) dy P{X < Y | X = x} = P{x < Y | X = x} = R I{x<y} (y) fY (y) dy = P{x < Y }. = R Beispiel 2. — Es seien nun X und Y zwei unabhängige reelle Zufallsvariable, jeweils exponential-verteilt mit Parametern λ und µ. Dann gilt P{X < Y } = λ/(λ + µ). Die Dichte von X ist fX (x) = λe−λx I{x≥0} . und gemäss (4.3) und Beispiel 1 erhält man ∞ P{X < Y | X = x} fX (x) dx P{X < Y } = 0 ∞ ∞ P{Y > x | X = x} fX (x) dx = P{Y > x} fX (x) dx = 0 0 ∞ ∞ λ −µx −λx . e λe dx = λ e−(λ+µ)x dx = = λ+µ 0 0 180 KAPITEL 12: ZUFALLSVEKTOREN 5. Die zweidimensionale Normalverteilung. — Die Normalverteilung N (0, 1) wird in Kapitel 14, § 3, untersucht. Für das Folgende benötigen √ −x2 /2 wir lediglich die Tatsache, dass diese Verteilung die Dichte (1/ 2π)e X1 auf der ganzen reellen Geraden hat. Ist also M = ein Paar von X2 unabhängigen, N (0, 1)-verteilten Zufallsvariablen, so ist es gemäss Satz 2.4 absolut stetig und die zugehörige Dichte ist das Produkt der Dichten von X1 und von X2 . In Kapitel 13, § 6, werden wir übrigens die erzeugende Funktion eines Paares von Zufallsvariablen studieren. Dabei handelt es sich um die u1 X1 +u2 X2 zwei reellen Argumenten u1 und u2 . Setzt man Funktion E[e ] mit u1 x1 und x = , so sieht man sofort, dass M eine erzeugende u = u2 x2 Funktion und eine Dichte hat, die durch (5.1) (5.2) 1 1 2 2 t g (u ) = E[e u + u2 ] = exp u u ; = exp 2 1 2 1 1 1 1 2 2 fM (x ) = exp − x1 + x2 exp − t x x = 2π 2 2π 2 M t u M gegeben sind. Es sei nun A eine reelle 2 × 2-Matrix und wir ordnen dem Vektor M X1 das Paar M = mittels der Transformation M = A M zu. Unter X2 Verwendung der Matrix-Notation, die in diesem Kontext ganz natürlich ist, kann man dann verifizieren: 0 0 = ; a) M ist zentriert: E[M ] = A E[M ] = A 0 0 b) die Kovarianzmatrix E[(M − E[M ]) t(M − E[M ])] von M ist gleich: E[M tM ] = A E[M tM ] tA = A I tA = A tA. Satz 5.1. — Das Paar M hat die erzeugende Funktion 1 t u1 uM t t (5.3) gM (u) = E[e . ] = exp u(A A)u , u= u 2 2 Ist A zudem nicht singulär, so hat M eine gemeinsame Dichte 1 1 x1 t t −1 −1 exp − x(A A) x | det A |, x= (5.4) fM (x) = . x2 2π 2 Beweis. — Um gM (u) zu berechnen, führt man simultan die Transformat tionen M = AM und t u = t uA aus. Man sieht, dass t u M 1 t= ut M , und t t 1t uM u M ] = E[e ] = exp 2 u u = exp 2 u(A A)u gilt. daher gM (u) = E[e Im Fall von det A = 0 kann man sich auf die Formel zur Variablentransformation aus Theorem 2.1 von Kapitel 15, angewendet auf (5.2), berufen. Man 5. DIE ZWEIDIMENSIONALE NORMALVERTEILUNG 181 verwendet die Transformation G : x → x = Ax mit ihrer inversen Transformation H : x → x = A−1 x, deren Jacobi-Determinante gerade det A−1 ist. Auf diese Weise erhält man 1 1 exp − t x t (A−1 ) A−1 x | det A−1 |, fM (x) = 2π 2 und folglich die Formel (5.4), wobei man noch t (A−1 ) = (t A)−1 und (t A)−1 A−1 = (A tA)−1 zu beachten hat. Die Matrix A tA, die in (5.3) und (5.4) auftritt, ist die Kovarianzmatrix des Zufallsvektors M = AM . Wir werden sehen, dass sich tatsächlich jede Kovarianzmatrix Γ in der Form A tA schreiben lässt, d.h. dass sie als Kovarianzmatrix eines Zufallsvektors der Form M = AM auftritt. Lemma 5.2. — Es sei Γ eine 2 × 2-Kovarianzmatrix. Dann existiert eine reelle 2 × 2-Matrix A mit Γ = A tA. Beweis. — Gemäss Definition ist Γ eine reelle, symmetrische und positivdefinite Matrix (denn es ist t uΓu = E[ t uM 2 ] ≥ 0); sie hat also zwei nichtnegative Eigenwerte λ1 , λ2 . Daher existiert eine reelle, orthogonale 2×2Matrix S derart, dass √ √ λ1 0 λ1 √0 λ1 √0 −1 S ΓS = = , λ2 λ2 0 λ2 0 0 gilt. Daraus folgt √ √ λ1 √0 λ1 √0 Γ=S S −1 , λ2 λ2 0 0 √ t und somit Γ = A A, wobei A = S beachte S −1 = t S, denn S ist orthogonal.] λ1 0 √0 λ2 gesetzt wurde. [Man Wählt man A gemäss Lemma 5.2, so hat das durch M = A M definierte Paar M eine erzeugende Funktion und eine gemeinsame Dichte, die jeweils durch (5.3) bzw. (5.4) gegeben sind. Offenbar hängt diese Verteilung nur von Γ ab; sie wird mit N2 (0, Γ) bezeichnet — daher folgende Definition. σ12 ρσ1 σ2 Definition. — Gegeben sei eine Kovarianzmatrix Γ = , 2 ρσ1 σ2 σ 2 X1 hat (σ1 > 0, σ2 > 0, |ρ| ≤ 1). Ein Paar von Zufallsvariablen M = X2 eine zentrierte Normalverteilung N2 (0, Γ), wenn sie die erzeugende Funktion (5.5) 1 1 t 2 2 2 2 σ u + 2ρσ1 σ2 u1 u2 + σ2 u2 gM (u) = exp uΓu = exp 2 2 1 1 182 KAPITEL 12: ZUFALLSVEKTOREN hat. Wenn ausserdem det Γ = 0 (d.h. |ρ| < 1) ist, so hat sie eine gemeinsame Dichte, die durch √ 1 det Γ−1 t −1 exp − x Γ x fM (x) = 2π 2 x2 1 1 x1 x2 x22 1 $ = exp − − 2ρ + (5.6) 2(1 − ρ2 ) σ12 σ1 σ2 σ22 2π σ1 σ2 1 − ρ2 gegeben ist. Die Verteilung N2 (0, Γ) heisst ausgeartet oder nicht ausgeartet, je nachdem, ob det Γ = 0 oder = 0 ist. Lediglich die nicht ausgearteten Verteilungen haben eine gemeinsame Dichte. Die folgende Aussage ist nur eine Wiederholung. X1 ist zentriert und seine Eigenschaft 5.3. — Das Paar M = X2 Kovarianzmatrix ist Γ; anders gesagt, die marginalen Zufallsvariablen X1 und X2 sind zentriert und ihr linearer Korrelationskoeffizient ist ρ. Die beiden folgenden Eigenschaften lassen sich unmittelbar aus der Gestalt von gM (u) ablesen. Eigenschaft 5.4. — Die marginalen Zufallsvariablen X1 , X2 sind normalverteilt, zentriert und haben die Varianzen σ12 bzw. σ22 . Eigenschaft 5.5. — Die marginalen Zufallsvariablen X1 , X2 sind genau dann unabhängig, wenn sie nicht korreliert sind, d.h. wenn ρ = 0 ist. Im speziellen Fall der zweidimensionalen Normalverteilung sind also die Eigenschaften der Unabhängigkeit und der Nicht-Korreliertheit von X1 , X2 äquivalent. X1 Theorem 5.6. — Es sei M = ein Paar mit der Verteilung X2 N2 (0, Γ) und A eine reelle 2 × 2-Matrix. Dann ist M = A M ein Paar mit der Verteilung N2 (0, Γ ), wobei Γ = A Γ tA ist. Beweis. — Setzt man gleichzeitig M = A M und t u = tu A, so gilt t t t u M = t u M und daher gM (u ) = E[e u M ] = E[e u M ] = exp 12 t u Γ u = exp 12 t u (A Γ tA)u . Korollar 1. — Geht man von Γ = I aus, so ist M ein Paar von unabhängigen, N (0, 1)-verteilten Zufallsvariablen. Dies gilt genau dann auch für M = A M , wenn A tA = I gilt, d.h. wenn A eine orthogonale Matrix ist. Korollar 2. — Falls das Paar (X1 , X2 ) N2 (0, Γ)-normalverteilt ist, so X X X1 1 2 ist , −ρ ein Paar von unabhängigen, zentrierten, normalverteilσ1 σ2 σ1 ten Zufallsvariablen mit Varianzen 1, bzw. 1 − ρ2 . 5. DIE ZWEIDIMENSIONALE NORMALVERTEILUNG Beweis. — Definiert man M = A M durch X1 1 ; X1 = σ1 also A = σ1ρ X = X2 − ρ X1 ; − 2 σ1 σ2 σ1 1 0 . so gilt Γ = A Γ tA = 0 1 − ρ2 183 0 1 , σ2 Bemerkung über die ausgearteten Verteilungen. — Wir betrachten jetzt die Verteilung N2 (0, Γ) mit det Γ = 0, d.h. es ist ρ = ±1. Hier gibt es keine gemeinsame Dichte, aber die erzeugende Funktion existiert und man erhält sie, indem man in (5.5) ρ = ±1 setzt. Dann ist 1 2 (5.7) gM (u) = exp (σ1 u1 ± σ2 u2 ) . 2 Das ist also die erzeugende Funktion eines Paares (X1 , X2 ), wobei X1 = σ1 U und X2 = ±σ2 U mit einer N (0, 1)-verteilten Zufallsvariablen U ist. Eine ausgeartete N2 (0, Γ)-verteilte Zufallsvariable hat also als Träger eine Gerade mit der Steigung ±σ2 /σ1 , die durch den Ursprung geht. µ1 Bemerkung über nicht-zentrierte Verteilungen. — Es sei µ = µ2 (µ1 , µ2 ∈ R) ein Punkt der Ebene und M sei ein Paar mit der Verteilung N2 (0, Γ). Man bezeichnet die Verteilung von M = M + µ mit N2 (µ, Γ) und nennt sie zweidimensionale Normalverteilung mit Mittelpunkt µ und Kovarianzmatrix Γ. Ihre erzeugende Funktion ist 1 (5.8) g(u) = exp t uµ + t uΓu 2 1 = exp u1 µ1 + u2 µ2 + σ12 u21 + 2ρσ1 σ2 u1 u2 + σ22 u22 . 2 Falls |ρ| < 1 ist, hat diese Verteilung eine gemeinsame Dichte, die durch √ 1 det Γ−1 t −1 exp − (x − µ) Γ (x − µ) (5.9) fM (x) = 2π 2 x − µ 2 1 1 1 1 $ = exp − 2 2(1 − ρ ) σ1 2π σ1 σ2 1 − ρ2 x − µ x − µ x − µ 2 1 1 2 2 2 2 − 2ρ + σ1 σ2 σ2 X1 gegeben ist. Ist also M = gemäss N2 (µ, Γ) verteilt, so ist das Paar X 2 U , mit U = (X1 − µ1 )/σ1 , V = (X2 − µ2 )/σ2 , gemäss N2 (0, γ) verteilt V 1 ρ . mit γ = ρ 1 184 KAPITEL 12: ZUFALLSVEKTOREN Das folgende Theorem ist in zweifacher Hinsicht interessant: zum einen beschreibt es eine alternative Methode, um die zweidimensionale Normalverteilung einzuführen, andererseits motiviert es, wie man eine Normalwie z.B. Banachräumen, definiert. verteilung auf allgemeineren Räumen, X1 Theorem 5.7. — Es sei M = ein zentrierter Zufallsvektor. Dann X2 sind die beiden folgenden Aussagen äquivalent: a) M hat eine zweidimensionale Normalverteilung. b) Jede Linearkombination von X1 und X2 hat eine zentrierte eindimensionale Normalverteilung. u1 t Beweis. — Es sei Lu = u M , u = , eine Linearkombination von u2 X1 , X2 mit reellen Koeffizienten. a) ⇒ b). Wir nehmen L(M ) = N2 (0, Γ) an. Dann ist die erzeugende Funk t tion von Lu für v ∈ R durch g(v) = E[evLu ] = E[e (vu)M ] = exp 12 (t uΓu)v 2 gegeben. Dies zeigt im Vorgriff auf Kapitel 14, § 3.2 c), dass Lu eine zentrierte, normalverteilte Zufallsvariable mit Varianz t uΓu ist. b) ⇒ a). Nach Voraussetzung ist die Zufallsvariable Lu für jede Wahl von u in R2 zentriert und eindimensional normalverteilt. Sie hat also eine erzeu2 gende Funktion, die für reelles v durch g(v) = E[evLu ] = eQ(u)(v /2) gegeben ist, wobei Q(u) = Var Lu = Var(t u M ) = E[(t uM )2 ] = E[(t u M )(t u M )] gilt. Wegen t u M = t M u folgt Q(u) = t u E[M t M ] u = t u Γ u, wobei Γ die Kovarianzmatrix von M ist. t t Wählt man v = 1, so erhält man g(1) = E[eLu ] = E[e u M ] = e(1/2) uΓu als Ausdruck für die erzeugende Funktion von M . Somit erweist sich M als N2 (0, Γ)-normalverteilt. Da die verwendete Notation auf der Matrix-Schreibweise beruht, bedarf es nur geringer Modifikationen, um ebenso n-dimensionale normalverteilte Zufallsvektoren M für n ≥ 2 zu behandeln. Speziell gilt, dass die Dichte von M durch die Formel (5.9) gegeben ist, falls Kovarianzmatrix Γ regulär ist. Man hat nur noch 2π durch (2π)n/2 im Nenner des Bruches zu ersetzen. ERGÄNZUNGEN UND ÜBUNGEN 185 ERGÄNZUNGEN UND ÜBUNGEN 1. Alternative Behandlung von bedingten Verteilungen (X. Fernique). Diese Methode erlaubt es, gleichzeitig den Fall der diskreten Zufallsvariablen und den der absolut stetigen Zufallsvariablen zu behandeln. Betrachten wir also ein Paar (X, Y ) von reellen Zufallsvariablen, die auf einem Raum (Ω, A, P) definiert sind. Mit µ bzw. PX bzw. PY seien die Verteilung des Paares bzw. die von X bzw. die von Y bezeichnet. Es sei nun (Qy (A)) (y ∈ R, A ∈ B1 ) eine mit Paaren (y, A) ∈ R × B1 indizierte Familie von reellen Zahlen. Man sagt, dass diese Familie eine bedingte Verteilung von X relativ zu Y ist, falls die folgenden Eigenschaften gelten: (1) für jede reelle Zahl y ist die Abbildung Qy : A → Qy (A) eine Wahrscheinlichkeitsverteilung auf R, also speziell eine Abbildung von B1 in [0, 1]; (2) für jede Borel-Menge A ∈ B1 ist die Abbildung Q(·) (A) : y → Qy (A) messbar, also speziell eine Abbildung von (R, B1 ) in (R, B1 ); (3) für jedes Paar A, B von Borel-Mengen gilt die Gleichheit P{X ∈ A, Y ∈ B} = E[Q(·) (A) · I{Y ∈B} ]. Man beachte, dass Q(·) (A) eine auf (R, B1 ) definierte reelle Zufallsvariable ist, die wegen 0 ≤ Qy (A) ≤ 1 (für alle y) beschränkt ist. Das Produkt Q(·) (A) · I{Y ∈B} ist also integrierbar. Der Erwartungswert E in der obigen Identität ist bezüglich der Verteilung PY von Y zu nehmen. a) Man zeige, dass man die Identität (3) auch folgendermassen schreiben kann: dµ(x, y) = dQy (x) dPY (y). x∈A, y∈B y∈B x∈A b) Es sei nun Y eine diskrete Zufallsvariable mit der Verteilung PY = P{Y = yj } εyj , wobei J endlich oder abzählbar ist. Dabei sollen die yj j∈J paarweise verschieden und die Wahrscheinlichkeiten P{Y = yj } alle positiv sein. Ist dann Q0 irgendeine Wahrscheinlichkeitsverteilung auf (R, B1 ), so definieren wir Q0 , falls y = yj für alle j; Qy (·) = P{X ∈ · | Y = yj }, falls y = yj . Speziell für y = yj und jede Borel-Menge A setzt man also Qy (A) = P{X ∈ A | Y = yj }. Man zeige, dass die Funktion Q(·) den Bedingungen (1), (2) und (3) genügt. 186 KAPITEL 12: ZUFALLSVEKTOREN c) Sei nun (X, Y ) ein absolut stetiges Paar. Wir verwenden die Bezeichnungen aus den Abschnitten 3 und 4. Für jedes reelle y sei Qy die Wahrscheinlichkeitsverteilung mit der Dichte fX | Y (x | y) auf R. Man verifiziere auch hier die drei Bedingungen (1), (2) und (3). 2. — Es sei (X, Y ) ein Paar von Zufallsvariablen mit gemeinsamer Dichte e−(x+y) , falls x, y ≥ 0; f (x, y) = 0, sonst. a) Man berechne die marginalen Dichten X, Y . b) Sind die Variablen X und Y unabhängig? 3. — Die gleichen Fragen wie in 2), aber nun für ein Paar (X, Y ) mit gemeinsamer Dichte 2 e−(x+y) , falls 0 ≤ x ≤ y; f (x, y) = 0, sonst. 4. — Es sei (X, Y ) eine Paar von Zufallsvariablen mit gemeinsamer Dichte f (x, y). Man zeige, dass X und Y genau dann unabhängig sind, falls sich f in ein Produkt f (x, y) = g(x) h(y) faktorisieren lässt, wobei die eine Funktion nur von x und die andere Funktion nur von y abhängt. 5. — Es sei D = {(x, y) ∈ R2 : x2 + y 2 ≤ r 2 } die Kreisscheibe mit Zentrum 0 und Radius r > 0. Mit (X, Y ) wird ein zufälliger Punkt von D bezeichnet, wobei die gemeinsame Verteilung die Gleichverteilung auf D sein soll, d.h. die Dichte ist durch 1 , falls (x, y) ∈ D; f (x, y) = πr 2 0, sonst, gegeben. a) Man berechne die marginalen Dichten von X und Y . Man berechne E[X] und E[Y ]. b) Sind die Variablen X und Y unabhängig? c) Man berechne Cov(X, Y ). Was kann man aus b) und c) folgern? d) Man berechne die Verteilungsfunktion G(u) und dann auch die Dichte g(u) der Zufallsvariablen U = X 2 + Y 2 . e) Man berechne E[U ] und ermittle daraus E[X 2 ] und E[Y 2 ], sowie Var X und Var Y . f) Man berechne die durch {X = x} bedingte Dichte fY | X (· | x) von Y . Man berechne E[Y 2 | X = x], dann auch E[X 2 + Y 2 | X = x] und E[X 2 + Y 2 | X]. ERGÄNZUNGEN UND ÜBUNGEN 187 g) Ein Schütze zielt auf eine Zielscheibe, die, wie D, kreisrund ist. Die Verteilung des Einschlagspunktes (X, Y ) auf der Scheibe sei die Gleichverteilung auf D. Dem Punkt (X, Y ) wird die Zufallsvariable L = √ X 2 + Y 2 zugeordnet, die gerade die Distanz von (X, Y ) zum Zentrum der Scheibe angibt. Wird nun n-mal unabhängig geschossen, so entspricht dem eine Menge von n unabhängig und zufällig gewählten Punkten, damit aber auch ein System von n Zufallsvariablen (L1 , . . ., Ln ), die die Abstände dieser Punkte vom Zentrum darstellen. Dabei handelt es sich um unabhängige und identisch verteilte Zufallsvariable. Man berechne P{min(L1 , . . . , Ln ) < a} für reelles a mit 0 < a < r. Wie ist diese Wahrscheinlichkeit zu interpretieren? X1 ein Zufallsvektor mit der Verteilung N2 (0, Γ), 6. — Es sei M= X2 1 ρ wobei Γ = und |ρ| < 1 ist. Man zeige: ρ 1 $ a) Die durch {X1 = x1 } bedingte Verteilung von X2 ist N (ρx1 , 1 − ρ2 ). Daraus folgt: α) E[X2 | X1 = x1 ] = ρx1 , d.h. der bedingte Erwartungswert ist linear in x1 ; anders formuliert, die Regressionskurve von X2 in X1 ist eine Gerade durch den Ursprung mit Steigung ρ. β) Var(X2 | X1 = x1 ) = 1 − ρ2 ; dies ist unabhängig von x1 . b) (X1 , X2 − E[X2 | X1 ]) ist ein Paar von unabhängigen, zentrierten und normalverteilten Zufallsvariablen mit Varianzen 1 bzw. 1 − ρ2 . 7. — Es sei (X1 , X2 ) ein Paar von Zufallsvariablen, deren marginale Verteilungen die Normalverteilungen N (0, 1) sind. Dann muss (X1 , X2 ) nicht notwendig normalverteilt sein. Man überlege sich ein Beispiel. 8. — Es sei M = (X, Y ) ein absolut stetiger Zufallsvektor mit dem Träger R2 , wobei die Komponenten X und Y unabhängig sein sollen. Man zeige, dass die beiden folgenden Aussagen äquivalent sind: a) X und Y haben beide eine zentrierte Verteilung; b) die Verteilung von M ist isotrop, d.h. sie ist invariant unter jeder Drehung um den Ursprung. 9. — Es wird zunächst ein perfekter Würfel geworfen. Anschliessend wird eine perfekte Münze so oft geworfen, wie die Augenzahl des Würfels ergeben hat. Es bezeichne X die Augenzahl des Würfels und Y die Anzahl der Vorkommen von “Zahl” beim Münzwurf. a) Man berechne die gemeinsame Verteilung von (X, Y ). b) Man berechne E[Y ]. 188 KAPITEL 12: ZUFALLSVEKTOREN 10. (Berechnung des Erwartungswertes einer geometrischen Zufallsvariablen). — Eine Urne enthalte r weisse und s schwarze Kugeln, (r, s ≥ 1); es sei p = r/(r + s). Man führt eine Folge von Ziehungen mit Zurücklegen durch und bezeichnet mit N die Anzahl der Ziehungen, die notwendig sind, um erstmals eine weisse Kugel zu ziehen (N ist also eine geometrisch verteilte Zufallsvariable). Nun sei X diejenige Zufallsvariable, die den Wert 1 oder 0 annimmt, je nachdem ob die erste gezogene Kugel weiss ist oder nicht. Man berechne den Erwartungswert von N mittels der Formeln für den bedingten Erwartungswert, wenn man die Variable N als durch X bedingte Variable betrachtet. 11. (Fortsetzung von Aufgabe 10). — Wiederum sei eine Urne mit r weissen und s schwarzen Kugeln gegeben (r, s ≥ 1). Nun wird eine Folge von Ziehungen ohne Zurücklegen durchgeführt und es bezeichne Nr,s die Anzahl der Ziehungen, die notwendig sind, um erstmals eine weisse Kugel zu ziehen. Um E[Nr,s ] zu berechnen, kann man folgendermassen vorgehen. Es sei X die Zufallsvariable, die den Wert 1 oder 0 annimmt, je nachdem, ob die erste gezogene Kugel weiss ist oder nicht. Man berechne E[Nr,s ] mittels der Formel E[Nr,s ] = E[E[Nr,s | X] ]. a) Man zeige, dass die Zahlen ar,s = E[Nr,s ] einer Rekursion genügen: ar,s = 1 + (s/(r + s))ar,s−1 für r, s ≥ 1 und ar,0 = 1 für alle r ≥ 1. b) Man zeige, dass dieses System genau eine Lösung hat, die durch ar,s = E[Nr,s ] = (r + s + 1)/(r + 1) gegeben ist. 12. — Es sei (X, Y ) ein Paar von Zufallsvariablen mit Werten in N, wobei stets 0 ≤ Y ≤ X gilt und E[X] < +∞ ist. Man nimmt an, dass die durch X bedingte Verteilung von Y die Gleichverteilung auf {0, 1, . . . , X} ist. 1) Man berechne E[X] als Funktion von E[Y ]. 2) Man zeige, dass die beiden folgenden Aussagen äquivalent sind: a) das Paar (X − Y, Y ) ist unabhängig; b) die Zufallsvariable Y ist geometrisch verteilt, d.h. P{Y = n} = q n p (n ≥ 0). 13. (Stefanie und die Arbeitslosenversicherung). — Es sei X die Zeit, die verstreicht, bis ein Individuum einer Population arbeitslos wird. Dabei wird angenommen, dass X exponential-verteilt mit Parameter λ ist (cf. Kap. 14, § 5). Die Versicherungsgesellschaft, die diese Population gegen Arbeitslosigkeit versichert, möchte die mittlere Arbeitszeit für die UnterPopulation berechnen, die aus denjenigen Individuen besteht, die zwischen Zeitpunkt a und Zeitpunkt b arbeitslos sind (0 < a < b < +∞). ERGÄNZUNGEN UND ÜBUNGEN 189 a) Es sei g(a, b) diese mittlere Zeit. Wie muss man g(a, b) berechnen? b) Man berechne den Limes von g(a, b), wenn b gegen Unendlich strebt. Hätte man sich dieses Resultat auch ohne Rechnen überlegen können? c) Man berechne den Limes von g(a, a + ε), falls ε von rechts gegen 0 strebt. 190 KAPITEL 12: ZUFALLSVEKTOREN