KAPITEL 8 ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE In diesem Kapitel werden wir den Begriff des Erwartungswertes für diskrete reelle Zufallsvariable einführen. Ein eigenes Kapitel hierfür wäre kaum gerechtfertigt, wenn man zunächst die Integrationstheorie für beliebige Zufallsvariable behandeln würde, die auf einem abstrakten Wahrscheinlichkeitsraum (Ω, A, P) definiert sind. Im Gegensatz dazu kann man zum Studium des Erwartungswertes von reellen, diskreten Zufallsvariablen direkt von dem wahrscheinlichkeitstheoretischen (Bild-)Raum (R, B1 , PX ) ausgehen. Der Zusammenhang zwischen diesen beiden Ansätzen wird durch den sogenannten Transportsatz zum Ausdruck gebracht. Eine diskrete Version dieser Aussage wird in diesem Kapitel formuliert. 1. Transformation von Zufallsvariablen Satz 1.1. — Es sei X eine n-dimensionale diskrete Zufallsvariable mit der Verteilung αk εxk PX = k und g eine auf (Rn , Bn ) definierte messbare Funktion mit Werten in Rp . Dann ist die Komposition g ◦ X eine p-dimensionale diskrete Zufallsvariable mit der Verteilung αk εg(xk ) . Pg◦X = k X g In der Schreibweise der Komposition (Ω, A, P) → (Rn , Bn , PX ) → (Rp , Bp ) gilt dann für jedes z ∈ Rp (1.1) Pg◦X {z} = PX {g = z} = P{g ◦ X = z}. Beweis. — Offensichtlich nimmt die Zufallsvariable g ◦ X Werte in Rp an. Andererseits gilt g(X(ω)) = z genau dann, wenn X(ω) ∈ g −1 (z) ist. Folglich hat man Pg◦X {z} = P{g ◦ X =z} = P{X ∈ g −1 (z)} = PX (g −1 (z)) = PX {g = z} = PX {x : g(x) = z} = k {αk : g(xk ) = z}. 98 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE Korollar 1.2. — Ist T = (X, Y ) eine zweidimensionale diskrete Zufallsvariable mit der Verteilung PT = p(xi , yj )ε(xi ,yj ) , i,j wobei {(xi , yj ) : (i, j) ∈ I × J} eine endliche oder abzählbare Folge von Elementen aus R2 ist, so sind X und Y diskrete Zufallsvariable mit den Verteilungen PX = i∈I p(xi , yj ) εxi und PY = j∈J j∈J p(xi , yj ) εyj . i∈I Die Verteilungen PX und PY heissen Randverteilungen (in X, Y ) zu der (gemeinsamen) Verteilung PT . Beweis. — Es genügt die Feststellung, dass die beiden Projektionen π1 : (x, y) → x und π2 : (x, y) → y messbare Abbildungen von R2 in R sind und dass sowohl X = π1 ◦ T als auch Y = π2 ◦ T gilt. Korollar 1.3. — Mit den gleichen Bezeichnungen wie eben ist die Verteilung von X + Y durch PX+Y = p(xi , yj )ε(xi +yj ) i,j gegeben. Beweis. — Es gilt X + Y = g ◦ T mit g(x, y) = x + y. Korollar 1.2 besagt, dass die Verteilung von T die Verteilungen von X und Y vollständig bestimmt. Die Umkehrung dieser Aussage gilt nicht: sind nämlich X und Y reelle Zufallsvariable, die auf demselben Wahrscheinlichkeitsraum (Ω, A, P) definiert sind, und welche die Verteilungen (1.2) PX = i∈I P{X = xi }εxi und PY = P{Y = yj }εyj j∈J haben, so ist es im allgemeinen nicht möglich, aus dieser Information alleine die Verteilung von T = (X, Y ) zu rekonstruieren, denn dazu müsste man die Daten p(xi , yj ) = P{X = xi , Y = yj } für alle (i, j) ∈ I × J kennen. 3. FALTUNG VON DISKRETEN VERTEILUNGEN 99 2. Unabhängigkeit. — Es seien nun X und Y reellwertige Zufallsvariable, die auf demselben Wahrscheinlichkeitsraum (Ω, A, P) definiert sind und deren Verteilungen PX und PY durch die Formeln (1.2) gegeben sind. Dann kann man die Verteilung des Paares (X, Y ) bestimmen, wie es im Korollar zum folgenden Satz beschrieben wird. Satz 2.1. — Die reellen Zufallsvariablen X und Y sind genau dann unabhängig, wenn (2.1) P{X = xi , Y = yi } = P{X = xi } P{Y = yj } für alle i ∈ I und j ∈ J gilt. Beweis. — Tatsächlich sind X und Y genau dann unabhängig, wenn P{X ∈ A, Y ∈ B} = P{X ∈ A}P{Y ∈ B} für jedes Paar A, B von BorelMengen gilt. Speziell für A = {xi } und B = {yj } reduziert sich das auf (2.1). Ist umgekehrt (2.1) für alle i ∈ I und j ∈ J erfüllt, und sind A, B zwei Borel-Mengen, so gilt P{X ∈ A, Y ∈ B} = P{X = xi , Y = yj } : xi ∈ A, yj ∈ B P{X = xi }P{Y = yj } : xi ∈ A, yj ∈ B = P{X = xi } : xi ∈ A P{Y = yj } : yj ∈ B = = P{X ∈ A} P{Y ∈ B}. Dies bedeutet aber gerade die Unabhängigkeit von X und Y . Korollar 2.2. — Sind X und Y unabhängige Zufallsvariable, so ist die Verteilung von T = (X, Y ) vollständig durch die Verteilungen von X und Y bestimmt. Das Korollar folgt unmittelbar aus Gleichung (2.1). 3. Faltung von diskreten Verteilungen Definition. — Es seien P = i∈I αi εxi und Q = j∈J βj εyj zwei diskrete Wahrscheinlichkeitsverteilungen. Als Faltungsprodukt von P mit Q, notiert als P ∗ Q, bezeichnet man die durch (3.1) P∗Q= (i,j)∈I×J definierte Wahrscheinlichkeitsverteilung. αi βj ε(xi +yj ) 100 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE Dass P ∗ Q tatsächlich eine Wahrscheinlichkeitsverteilung ist, folgt aus elementaren Eigenschaften absolut konvergenter Reihen. Weiter ergibt sich daraus auch sofort, dass das Faltungsprodukt kommutativ und assoziativ ist. Die Binomialverteilungen und die Poissonverteilungen sind verträglich mit dem Faltungsprodukt. Dies besagt der folgende Satz. Satz 3.1. — Bezeichnet B(n, p) die Binomialverteilung mit Parametern (n, p) (0 ≤ p ≤ 1, n ≥ 0), sowie πλ die Poisson-Verteilung mit Parameter λ (λ > 0), so gilt B(n, p) ∗ B(m, p) = B(n + m, p) (n, m ∈ N) ; (λ > 0, ν > 0). πλ ∗ πν = πλ+ν Beweis. — Man hat B(n, p) ∗ B(m, p) = n m pi+j q n+m−i−j εi+j = i=0 j=0 n+m γk pk q n+m−k εk , k=0 wobei für k = 0, 1, . . . , n + m der Koeffizient γk durch k n m γk = i k−i i=0 gegeben ist. Diese Summe ist aber wegen der Binomialformel gleich dies beweist die erste Behauptung. Um die zweite Behauptung zu verifizieren, schreibt man πλ ∗ πν = ∞ ∞ i=0 j=0 k ; ∞ µj εi+j = e−(λ+µ) γk εk , i! j! i −(λ+µ) λ e n+m k=0 wobei man für k = 0, 1, . . . k λi µk−i γk = i! (k − i)! i=0 gesetzt hat. Diese Summe ist aber nichts anderes als (λ + µ)k /k! Satz 3.2. — Sind X und Y auf demselben Wahrscheinlichkeitsraum definierte unabhängige, reelle, diskrete Zufallsvariable mit den Verteilungen PX und PY , so ist die Verteilung der Zufallsvariablen X +Y das Faltungsprodukt von PX mit PY , also PX+Y = PX ∗ PY . Diese Aussage ist eine unmittelbare Folgerung aus Korollar 1.3 und Satz 2.1. 101 4. ERWARTUNGSWERT 4. Erwartungswert. — Genau so, wie man in der Mechanik den Begriff des Schwerpunktes von Massepunkten einführt, spricht man in der Wahrscheinlichkeitsrechnung von dem Mittelwert oder dem Erwartungswert einer reellen Zufallsvariablen X. Jeder von X angenommene Wert wird mit einer Masse belegt, die gleich der Wahrscheinlichkeit ist, dass X diesen Wert annimmt. Der Erwartungswert von X, notiert mit E[X], ist dann der Schwerpunkt dieses Systems von Massepunkten. Diese Beschreibung ist ausreichend, um den Fall diskreter Zufallsvariablen zu behandeln. Definition. — Der Erwartungswert einer reellen, diskreten Zufallsvariablen X mit Verteilung PX = i αi εxi wird durch E[X] = α i xi i definiert, wobei vorausgesetzt wird, dass die Reihe auf der rechten Seite absolut konvergiert. In diesem Fallsagt man, dass X einen endlichen Erwartungswert hat. Falls die Reihe i αi |xi | divergiert, so sagt man, dass X keinen endlichen Erwartungswert hat. Es sei j βj εyj ein Ausdruck für die Wahrscheinlichkeitsverteilung PX , wobei alle yj als verschieden angenommen werden. Für jedes j ist also die αi xi absolut Zahl βj die Summe aller αi mitxi = yj . Falls die Reihe konvergiert, ist auch die Reihe j yj βj selbst absolut konvergent und ihr Wert hängt nicht von der Nummerierung der Paare (βj , yj ) ab. Ausserdem gilt xi α i = yj αi = yj βj i j i ; xi =yj j aus Gründen der verallgemeinerten Assoziativität. Folglich hängt der Erwartungswert von X weder von dem konkreten Ausdruck für PX , noch von der Nummerierung der Paare (αi , xi ) in der Summation i xi αi ab. Diese Eigenschaft der vollständigen Kommutativität rechtfertigt die Interpretation des Erwartungswertes als Schwerpunkt. Der Transportsatz, den wir nun formulieren werden, zeigt die Flexibilität des Begriffes des Erwartungswertes. Dazu betrachten wir einen Wahrscheinlichkeitsraum (Ω, A, P), wobei Ω höchstens abzählbar sei, sowie eine auf diesem Raum definierte reelle Zufallsvariable X. Das Bild von Ω unter X ist selbst höchstens abzählbar, etwa X(Ω) = {xn : n ∈ N}. Ausserdem bezeichne PX die Verteilung von X. Theorem 4.1 (Transportsatz). — Es gilt ω∈Ω X(ω)P({ω}) = n xn PX ({xn }) 102 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE unter der Voraussetzung, dass eine der beiden in dieser Identität vorkommenden Reihen absolut konvergiert (die andere tut dies dann auch). Falls dies zutrifft, nennt man den gemeinsamen Wert auf beiden Seiten den Erwartungswert von X. Beweis. — Es sei An = X −1 ({xn }); die Familie {An } bildet dann eine Partition von Ω und es gilt (zumindest formal) X(ω)P({ω}) = X(ω)P({ω}) . n ω∈An ω∈Ω Weil X(ω) = xn für jedes ω ∈ An gilt, ist X(ω)P({ω}) = xn P({ω}) n ω∈Ω = n ω∈An xn P(An ) = xn PX ({xn }). n Diese formalen Rechnungen sind (im analytischen Sinne) gültig, sobald mindestens eine der beteiligten Reihen absolut konvergiert. Bevor wir nun die grundlegenden Eigenschaften des Erwartungswertes behandeln, wollen wir den Begriff einführen, dass eine Eigenschaft fast sicher gilt. Definition. — Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum und P eine Eigenschaft, die auf jedes ω ∈ Ω zutreffen kann oder nicht. Man sagt, dass P fast sicher (f.s.) gilt, wenn es ein A ∈ A mit P(A) = 0 gibt derart, dass P für alle ω ∈ Ac zutrifft. In dieser Definition wird nicht unterstellt, dass die Menge A derjenigen ω ∈ Ω, auf die die Eigenschaft P nicht zutrifft, die Wahrscheinlichkeit Null hat, denn A muss nicht notwendig zu A gehören. Tatsächlich gilt A ⊂ A, A ∈ A, P(A) = 0 und P ist wahr in Ac (aber P ist auch wahr in A \ A ). Theorem 4.2. — Es seien X und Y zwei auf einem Wahrscheinlichkeitsraum (Ω, A, P) definierte diskrete Zufallsvariable. Dann gilt (D1) E[X] ist endlich genau dann, wenn E[ |X| ] endlich ist; (D2) ist | X| ≤ Y und E[Y ] endlich, so ist auch E[X] endlich; (D3) −∞ < a ≤ X ≤ b < +∞ =⇒ a ≤ E[X] ≤ b; (D4) X = a f.s. =⇒ E[X] = a; (D5) E[X] endlich =⇒ |E[X]| ≤ E[ |X| ]. Beweis. — Die Eigenschaft (D1) ist eine unmittelbare Folge aus der Definition des Erwartungswertes. Um (D2) zu zeigen, greifen wir auf die Bezeichnungen von Korollar 1.2 π T zurück. In der Komposition Ω → T (Ω) →2 Y (Ω) ist die Menge T (Ω) 103 4. ERWARTUNGSWERT höchstens abzählbar. Andererseits gilt für jedes yj , gemäss Formel (1.1), PY {yj } = Pπ2 ◦T {yj } = PT {π2 = yj }. Setzen wir Q = PT , so ist Q ein Wahrscheinlichkeitsmass auf der Menge T (Ω), das von den Paaren (xi , yj ) getragen wird. Bezeichnet nun Qπ2 die Verteilung der Zufallsvariablen π2 , die auf dem Wahrscheinlichkeitsraum (T (Ω), P(T (Ω)), Q) definiert ist, so erhält man PY {yj } = Q{π2 = yj } = Qπ2 {yj }. Die Anwendung des Transportsatzes auf diesen Raum und die Zufallsvariable π2 liefert dann E[Y ] = yj PY {yj } = yj Qπ2 {yj } j = j π2 (xi , yj )Q{(xi , yj )} (xi ,yj )∈T (Ω) = yj Q{(xi , yj )}. (xi ,yj )∈T (Ω) Nun hat |X| ≤ Y aber (xi , yj ) ∈ T (Ω) ⇒ |xi | ≤ yj zur Folge, also gilt |xi |Q{(xi , yj )} E[Y ] ≥ (xi ,yj )∈T (Ω) ≥ xi Q{(xi , yj )} (xi ,yj )∈T (Ω) ≥ E[X], wobei man dieses Mal den Transportsatz auf die Zufallsvariable X = π1 ◦ T anwendet. Um die Eigenschaft (D3) zu beweisen, schreibt man P{X = xk }a ≤ P{X = xk }xk ≤ P{X = xk }b , woraus sich a= P{X = xk }a ≤ P{X = xk }xk ≤ P{X = xk }b = b k k k ergibt. Für den Nachweis von (D4) genügt es, sich klarzumachen, dass aus X = a fast sicher folgt, dass X die Verteilung εa hat und somit E[X] = a gilt. Eigenschaft (D5) folgt schliesslich ganz einfach aus P{X = xk }xk ≤ P{X = xk } |xk | = E[ |X| ]. |E[X]| = k k Die wichtigsten Eigenschaften des Erwartungswertes sind im folgenden Theorem zusammengestellt. 104 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE Theorem 4.3. — Es seien X und Y zwei auf dem Wahrscheinlichkeitsraum (Ω, A, P) definierte diskrete Zufallsvariable. Falls E[ | X| ] < ∞ und E[ | Y | ] < ∞ gelten, so hat man die folgenden Eigenschaften: A. Linearität (A1) E[X + Y ] = E[X] + E[Y ]; (A2) E[λX] = λ E[X] (λ ∈ R). B. Monotonie (B1) X ≥ 0 =⇒ E[X] ≥ 0; (B2) X ≥ Y =⇒ E[X] ≥ E[Y ]; (B3) X = Y f.s. =⇒ E[X] = E[Y ]. C. Unabhängigkeit. — Sind X und Y unabhängig, so ist E[XY ] endlich und es gilt E[XY ] = E[X] E[Y ]. P{X = x } ε und Beweis. — Mit i x i i j P{Y = yj } εyj sollen die jeweiligen Verteilungen von X und von Y bezeichnet werden. Um (A1) zu beweisen, wird auf die gemeinsame Verteilung von X und Y Bezug genommen. Es gilt P{X = xi , Y = yj } |xi | = P{X = xi } |xi | j und daher i P{X = xi , Y = yj } |xi | = P{X = xi } |xi | = E[ |X| ] < +∞. j i Analog zeigt man j P{X = xi , Y = yj } |yj | = E[ |Y | ] < +∞. i Damit erweist sich die Doppelreihe i,j P{X = xi , Y = yj }(xi + yj ) als absolut konvergent, und man kann schliessen, dass P{X = xi , Y = yj }(xi + yj ) i,j P{X = xi , Y = yj } xi + P{X = xi , Y = yj } yj = i j j i gilt; das besagt aber gerade E[X + Y ] = E[X] + E[Y ]. Die Eigenschaft (A2) ist einfach nachzuvollziehen. Für (B1) beachte man, dass im Falle X ≥ 0 jedes der xinicht negativ und daher auch E[X] = i P{X = xi }xi ≥ 0 ist. Sei nun k P{Z = zk } εzk die Verteilung von Z = X − Y . Wenn Z ≥ 0 ist, so gilt E[Z] = E[X] − E[Y ] ≥ 0, daher gilt (B2). Für (B3) schliesslich beachte man, dass aus Z = 0 f.s. 5. MOMENTE 105 P{Z = 0} = 1 folgt. Somit ist P{Z = z} = 0 für alle z = 0 und daher E[Z] = k P{Z = zk }zk = 0. Um (C) zu zeigen, setzt man XY = g◦T mit T = (X, Y ) und g(x, y) = xy. Ausgangspunkt ist die Verteilung des Paares T . Nach Satz 1.1 kann man die Verteilung des Produktes XY mit Hilfe der Verteilung von T in der Form P{X = xi , Y = yj }εxi yj = P{X = xi } P{Y = yj }εxi yj PXY = i,j i,j schreiben, weil X und Y unabhängig sind. Folglich ist P{X = xi } P{Y = yj }xi yj E[XY ] = i,j = i P{X = xi }xi P{Y = yj }yj = E[X] E[Y ]. j 5. Momente. — Der Erwartungswert einer Zufallsvariablen X hängt nur von der Verteilung von X ab und gibt den mittleren Wert an, um den sich die Werte der Variablen X verteilen. Man führt nun noch andere charakteristische Werte der Verteilung von X ein, in denen die Streuung dieser Verteilung zum Ausdruck kommt, so beispielsweise die Momente. Wir beginnen mit einem Lemma, das es erlaubt, Momente verschiedener Ordnung miteinander zu vergleichen. Lemma 5.1. — Es seien r und s zwei reelle Zahlen mit 0 < s < r und r s X eine reelle Zufallsvariable. Wenn E[ |X| ] endlich ist, so ist auch E[ |X| ] endlich. Beweis. — In der Tat, für jedes a > 0 gilt die Ungleichung as ≤ 1 + ar , denn für a ≥ 1 kann man ar = as ar−s ≥ as schreiben und für a < 1 gilt natürlich as < 1. s Wenden wir diese Ungleichung auf |X(ω)| an. Es ergibt sich |X(ω)| ≤ r r r 1 + |X(ω)| für alle ω ∈ Ω. Aber E[1 + |X| ] = 1 + E[ |X| ] existiert und ist nach Voraussetzung endlich. Aus der obigen Eigenschaft (D2) folgt also, s dass auch E[ |X| ] endlich ist. Definition. — Es sei X eine reelle, diskrete Zufallsvariable mit der r Verteilung PX = i∈I αi εxi . Es seien a und r reelle Zahlen. Falls E[ |X − a| ] endlich ist, so definiert man das in a zentrierte Moment r-ter Ordnung von X durch r m = E[(X − a) ] = αi (xi − a)r . a r i∈I Das Moment r-ter Ordnung (zentriert in 0) wird durch mr = E[X r ] 106 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE r definiert. Falls E[X] und E[ |X − E[X]| ] endlich sind, wird entsprechend das (im Mittel) zentrierte Moment r-ter Ordnung durch µr = E[(X − E[X])r ] definiert. Für r = 1 hat man m1 = E[X] und µ1 = 0. Für r = 2 wird das zentrierte Moment zweiter Ordnung µ2 auch als Varianz von X bezeichnet und Var X = E[(X − E[X])2 ] geschrieben. Die Quadratwurzel von Var X wird mit σ(X) bezeichnet und Standardabweichung von X genannt. Die Zufallsvariablen (X − E[X]) bzw. (X − E[X])/σ(X) heissen Zentrierte bzw. reduzierte Zentrierte von X (wobei man im letzten Fall σ(X) > 0 annimmt). Aus dem obigen Lemma folgt insbesondere, dass jede Zufallsvariable, die ein endliches Moment zweiter Ordnung hat, auch einen endlichen Erwartungswert hat. Satz 5.2. — Eine reelle Zufallsvariable X hat ein endliches Moment zweiter Ordnung E[X 2 ] genau dann, wenn ihr Erwartungswert E[X] und ihre Varianz Var X existieren und endlich sind. Es gilt dann (5.1) Var X = E[X 2 ] − (E[X])2 . Beweis. — Wenn X ein endliches Moment zweiter Ordnung hat, so ist auch der Erwartungswert von X endlich und es ist (X − E[X])2 = X 2 − 2X E[X] + (E[X])2 . Der Erwartungswert dieser Grösse ist nichts anderes als Var X und wegen der Linearitätseigenschaften (A1) und (A2) ist er durch E[X 2 ]−(E[X])2 gegeben. Umgekehrt nimmt man an, dass E[ |X| ] und Var X endlich sind. Schreibt man dann X 2 = (X − E[X] + E[X])2 = (X − E[X])2 + (E[X])2 + 2 E[X] (X − E[X]), so sieht man, dass alle Glieder auf der rechten Seite einen endlichen Erwartungswert haben. Aus den Linearitätseigenschaften des Erwartungswertes folgt wiederum, dass E[X 2 ] endlich ist. Da zusätzlich E[ E[X] (X − E[X])] = E[X] E[X − E[X]] = 0 gilt, erhält man noch einmal die Formel (5.1). 107 6. KOVARIANZ Satz 5.3. — Es sei X eine Zufallsvariable mit E[X 2 ] < ∞. Dann gilt für jede reelle Zahl a die Ungleichung 2 = σ2. E[(X − a)2 ] ≥ E X − E[X] Man sieht also, dass das Moment zweiter Ordnung relativ zum Erwartungswert minimal wird und dieser minimale Wert gerade die Varianz ist. Nimmt man den Erwartungswert als charakteristische Grösse für die Position, so ist es naheliegend, die Varianz als charakteristischen Wert für die Streuung anzusehen. Beweis. — Sei g(a) = E[(X − a)2 ] und µ = E[X]. Dann gilt 2 g(a) = E (X − µ) + (µ − a) = E (X − µ)2 + 2(µ − a) E[X − µ] + (µ − a)2 = σ 2 + (µ − a)2 . Definition. — Es sei r eine ganze Zahl ≥ 1 und X eine Zufallsvariable. r Falls E[ |X| ] endlich ist, definiert man das faktorielle Moment r-ter Ordnung durch E[X(X − 1) . . . (X − r + 1)]. Diese Momente spielen vor allem für solche Zufallsvariable eine Rolle, deren Werte in N liegen. Definition. — Es sei r eine reelle Zahl und X eine Zufallsvariable. Ist r E[ |X| ] < +∞, so definiert man das (in 0 zentrierte) absolute Moment r-ter r Ordnung durch E[ |X| ]. Im Fall r = 0 definiert man weiter die Abweichung r-ter Ordnung (relativ zu 0) als r er = E[ |X| ] 1/r . Wie man sieht, ist für zentriertes X das Moment e2 die Standardabweichung. 6. Kovarianz. — Es sei T = (X, Y ) ein Paar von reellen Zufallsvariablen mit der Verteilung P{X = xi , Y = yj } ε(xi ,yj ) . PT = i,j Die Zufallsvariable XY hat den Erwartungswert E[XY ] = P{X = xi , Y = yj } xi yj i,j 108 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE unter der Voraussetzung, dass die Reihe auf der rechten Seite absolut konvergiert. Wegen |xi yj | ≤ (x2i + yj2 )/2 stellt man fest, dass E[XY ] existiert, sofern X und Y endliche Momente zweiter Ordnung haben. In diesem Fall existieren auch die Erwartungswerte und sind endlich. Folglich hat auch (X − E[X])(Y − E[Y ]) einen endlichen Erwartungswert und die folgende Definition ist daher sinnvoll. Definition. — Es sei (X, Y ) eine Paar von Zufallsvariablen mit gegebener gemeinsamer Verteilung. Falls X und Y endliche Momente zweiter Ordnung haben, definiert man die Kovarianz von X und Y durch Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X] E[Y ]. Falls Cov(X, Y ) = 0 ist, bezeichnet man X und Y als unkorreliert. Aus dieser Definition und der Eigenschaft C (Unabhängigkeit, Theorem 4.3) folgt unmittelbar, dass für unabhängige X und Y die Kovarianz Cov(X, Y ) verschwindet. Die Umkehrung trifft nicht zu, denn zwei Zufallsvariable können unkorreliert sein, ohne unabhängig zu sein. Beispiel. — Es sei X eine Zufallsvariable mit PX = 13 (ε−1 + ε0 + ε1 ) als Verteilung. Setzt man Y = X 2 , so ist die Verteilung des Paares T = (X, Y ) durch 1 PT = (ε(−1,1) + ε(0,0) + ε(1,1) ) 3 gegeben. Es gilt E[X] = 0 und E[XY ] = 0, und daher Cov(X, Y ) = 0. Aber gleichwohl hat man Y = X 2 . Satz 6.1. — Es sei (X1 , X2 , . . . , Xn ) eine Familie von n Zufallsvariablen, die alle endliche Momente zweiter Ordnung haben. Dann gilt (6.1) Var n Xk = i=1 n Var Xk + 2 i=1 Cov(Xj , Xk ). 1≤j<k≤n Falls die Zufallsvariablen paarweise unabhängig (oder auch nur paarweise unkorreliert) sind, so gilt Var n Xk = i=1 n Var Xk . i=1 Beweis. — Man kann ohne Einschränkung der Allgemeinheit annehmen, dass die Zufallsvariablen X1 , X2 , . . . , Xn alle zentriert sind. Man kann 2 2 Xk = Xk + 2 Xj Xk k k 1≤j<k≤n 7. DER LINEARE KORRELATIONSKOEFFIZIENT 109 schreiben. Indem man nun den Erwartungswert auf beiden Seiten bildet, erhält man (6.1). Sind nun X1 , . . . , Xn paarweise nicht korreliert, so verschwinden die Kovarianzen Cov(Xj , Xk ) für 1 ≤ j < k ≤ n und man erhält die zweite Aussage. Man verifiziert ohne weiteres, dass Cov(aX + b, cY + d) = ac Cov(X, Y ) gilt, d.h. dass die Kovarianz invariant gegenüber Verschiebung des Ursprungs auf den Achsen 0x und 0y ist, nicht aber unter Änderung des Massstabs. Das kann sich bei statistischen Anwendungen als unangenehm herausstellen. Wie man dies korrigiert, wird im nächsten Paragraphen behandelt. 7. Der lineare Korrelationskoeffizient Definition. — Es sei (X, Y ) ein Paar von reellen Zufallsvariablen mit E[X 2 ] < ∞ und E[Y 2 ] < ∞. Weiter wird angenommen, dass σ(X)σ(Y ) > 0 sei. Man bezeichnet dann die Zahl ! X − E[X] Y − E[Y ] " Cov(X, Y ) =E r(X, Y ) = σ(X)σ(Y ) σ(X) σ(Y ) als den (linearen) Korrelationskoeffizienten des Paares (X, Y ). Man verifiziert sofort, dass r(aX + b, cY + d) = sg(ac) r(X, Y ) gilt, falls ac = 0 ist. Im Fall a > 0, c > 0 sieht man, dass der lineare Korrelationskoeffizient sowohl gegenüber Verschiebungen des Ursprungs, als auch gegen Änderungen des Massstabs entlang der Achsen 0x und 0y invariant ist. Das ist von Vorteil, denn so man kann bei Berechnungen, in denen r(X, Y ) eine Rolle spielt, annehmen, dass die Randverteilungen X und Y zentriert und reduziert sind. Eigenschaft 7.1. — |r(X, Y )| ≤ 1. Beweis. — Man nimmt X und Y als zentriert und reduziert an. Dann gilt für jedes λ 0 ≤ E[(X + λY )2 ] = E[X 2 ] + 2 λ E[XY ] + λ2 E[Y 2 ] = 1 + 2λr + λ2 . Das ist ein Trinom zweiten Grades in λ und es ist nicht negativ; die Diskriminante muss daher negativ oder Null sein. Somit ist r 2 ≤ 1. Eigenschaft 7.2. — Ist r(X, Y ) = ±1, so sind X und Y über eine lineare (besser gesagt: affine) funktionale Beziehung miteinander verbunden. (Daher der Name “linearer Korrelationskoeffizient” für r.) 110 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE Beweis. — Wir behandeln den Fall r = 1. X und Y werden als zentriert und reduziert angenommen. Dann gilt für alle λ 0 ≤ E[(X + λ Y )2 ] = 1 + 2λ + λ2 = (λ + 1)2 . Für λ = −1 ist dann E[(X − Y )2 ] = 0, d.h. Y = X fast sicher. Im Falle r = −1 findet man Y = −X fast sicher. Sind X, Y nicht zentriert und reduziert, so hängen sie über die lineare Beziehung Y − E[Y ] X − E[X] =± f.s. σ(Y ) σ(X) zusammen. 8. Die Ungleichung von Tchebychev. — Es handelt sich hierbei um eine ausserordentlich nützliche Ungleichung, die bei vielen Abschätzungen von Wahrscheinlichkeiten verwendet wird, speziell bei Untersuchungen zur stochastischen Konvergenz. Satz 8.1. — Es sei r > 0 ein reelle Zahl und X eine auf dem Wahrscheinr lichkeitsraum (Ω, A, P) definierte reelle Zufallsvariable. Ist E[ |X| ] endlich, so gilt für alle reellen t > 0 die Ungleichung r P{ |X| ≥ t} ≤ E[ |X| ] ; tr äquivalent dazu ist die Ungleichung P{ |X| ≥ ter } ≤ 1 tr für jedes reelle t > 0, wobei er die Abweichung r-ter Ordnung bezeichnet. Beweis. — Tatsächlich gilt { |X| ≥ t} ⇔ { |X|r ≥ tr } für t, r > 0, und daher tr I{ |X|≥t } = tr I{ |X|r ≥tr } ≤ |X|r . Man erhält die Behauptung, indem man von beiden Seiten den Erwartungswert nimmt. Für r = 1, 2 erhält man die Ungleichung von Markov, beziehungsweise die von Tchebychev oder Bienaymé). Die am meisten verwendete Form der Ungleichung von Tchebychev bezieht sich auf eine zentrierte Zufallsvariable (X − E[X]). 111 9. UNGLEICHUNGEN FÜR MOMENTE Korollar 8.2. — Ungleichung Ist E[X 2 ] < +∞, so gilt für jedes t > 0 die P{|X − E[X]| ≥ t} ≤ Var X . t2 Bemerkung 1. — Setzt man µ = E[X], σ 2 = Var X, so gilt für jedes t > 0 die Ungleichung P{|X − µ| ≥ t} ≤ σ2 , t2 oder äquivalent P{|X − µ| ≥ tσ} ≤ 1 ; t2 d.h. es ist 1 1 und P{X ∈]µ − tσ, µ + tσ[} ≥ 1 − . t2 t2 Speziell für t = 2 und t = 3 erhält man 1 (*) P{X ∈]µ − 2σ, µ + 2σ[} ≥ 1 − = 0, 75 ; 4 1 (**) P{X ∈]µ − 3σ, µ + 3σ[} ≥ 1 − ≈ 0, 88. 9 P{|X − µ| < tσ} ≥ 1 − Dies zeigt deutlich die Rolle der Standardabweichung. Bemerkung 2. — Die Ungleichung von Tchebychev ist universell, d.h. sie gilt für jede Zufallsvariable, deren zweites Moment existiert. Andererseits ist sie aber auch recht grob. Davon kann man sich beispielsweise im Falle einer normalverteilten Zufallsvariablen X überzeugen. Für die Verteilung N (µ, σ) (siehe Kap. 14, § 3), gilt P{X ∈]µ − 2σ, µ + 2σ[} ≈ 0, 95 ; [ 2 σ -Regel] P{X ∈]µ − 3σ, µ + 3σ[} ≈ 0, 997. Die Abschätzungen (∗) und (∗∗) sind also recht schwach. 9. Ungleichungen für Momente im endlichen Fall. — Es sei X eine endliche, diskrete Zufallsvariable mit positiven Werten. Um konkret zu sein, nehmen wir an, dass ihre Verteilung PX durch PX = l l αk εxk k=1 mit α1 , . . . , αl ≥ 0, αk = 1 und 0 < x1 < · · · < xl < +∞ gegeben sei. k=1 Dann a) existiert für jede reelle Zahl r das (absolute) Moment r-ter Ordnung und ist gleich l r αk xrk ; mr = E[X ] = k=1 112 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE b) existiert für jede reelle Zahl r = 0 die Abweichung r-ter Ordnung und ist gleich 1/r er = mr . Satz und Definition 9.1. — Wenn r gegen 0 konvergiert, so strebt die Abweichung r-ter Ordnung er gegen einen endlichen Grenzwert, der mit e0 bezeichnet wird. Es gilt l k e0 = xα k . k=1 Die Zahl e0 heisst das geometrische Mittel von X. Beweis. — Die Umformung 1 1 αk xrk = Log αk exp(r Log xk ) Log er = Log r r = l l k=1 k=1 l 1 αk 1 + r Log xk + o(r) Log r k=1 l 1 αk Log xk + o(r) = Log 1 + r r k=1 l αk Log xk konvergiert, wenn r gegen 0 strebt. zeigt, dass Log er gegen k=1 Theorem 9.2. — Die durch 1/r m (Abweichung r-ter Ordnung), r l er = αk xk (geometrisches Mittel), falls r = 0 ; falls r = 0. k=1 definierte Abbildung r → er von R in R+ ist monoton wachsend. Beweis. a) Die Funktion r → Log mr (r ∈ R) ist konvex. In der Tat gilt für r, s ∈ R nach der Ungleichung von Schwarz l k=1 (r+s)/2 αk xk ≤ l k=1 αk xrk l 1/2 αk xsk 1/2 ; k=1 1/2 m(r+s)/2 ≤ mr ms ; 1 Log m(r+s)/2 ≤ Log mr + Log ms . 2 Daraus folgt die Behauptung, da die Funktion r → Log mr stetig ist. 9. UNGLEICHUNGEN FÜR MOMENTE 113 b) Die Funktion r → er (r ∈ R \ {0}) ist monoton wachsend in ] − ∞, 0[ und in ]0, +∞[. Denn wegen a) ist der Graph der Funktion r → Log mr (r ∈ R) konvex und geht durch den Nullpunkt (wegen m0 = 1). Für r = 0 ist Log er = 1r Log mr = 1r (Log mr − Log m0 ) die Steigung der Geraden, die den Nullpunkt mit dem Punkt (r, Log mr ) verbindet. Aus a) folgt, dass die Funktion r → Log er monoton wachsend sowohl auf ] − ∞, 0[ als auch auf ]0, +∞[ ist. Dies gilt dann auch für die Funktion r → er . l k c) Mit e0 = k=1 xα k wird die Funktion r → er (r ∈ R \ {0}) stetig in den Nullpunkt r = 0 fortgesetzt. Damit ist alles bewiesen. Bemerkung. — Die gerade beschriebene Abbildung von R in R+ kann zu einer Abbildung von R in R+ fortgesetzt werden; tatsächlich gilt l lim er = min xk = x1 r→−∞ k=1 l lim er = max xk = xl r→+∞ k=1 (= e−∞ ) ; (= e+∞ ). Spezialfall 1. — Für r = n ∈ N∗ ergibt Theorem 9.2 die Ungleichung von Liapunov. Speziell für n = 1 besagt en ≤ en+1 ; dies ist die Ungleichung $ 2 eine zentrierte dies e1 ≤ e2 , d.h. E[ |X| ] ≤ E[X ]. Nimmt man nun für X $ E[(X − µ)2 ], Zufallsvariable (X − µ) (µ = E[X]), so ist E[ |X − µ| ] ≤ und das heisst, dass die absolute Abweichung, bezogen auf µ, durch die Standardabweichung majorisiert wird. Spezialfall 2. — Aus Theorem 9.2 folgt e−1 ≤ e0 ≤ e1 , wobei e−1 = E[X e0 = l −1 ] −1 = l α −1 k k=1 k xα k k=1 e1 = E[X] = xk das harmonische Mittel ist; das geometrische Mittel ist; l αk xk das arithmetische Mittel ist. k=1 Auf diese Weise erhält man die klassischen Ungleichungen zwischen diesen Mittelwerten. Spezialfall 3. — Wie in Theorem 9.2 festgestellt, gilt für jedes Paar (r, s) von reellen Zahlen m(r+s)/2 ≤ (mr ms )1/2 . Speziell für r = 2n, s = 2n + 2 (n ∈ N) erhält man mit m2n+1 ≤ (m2n m2n+2 )1/2 eine Ungleichung, die es einem erlaubt, jedes Moment ungerader Ordnung durch Momente gerader Ordnung zu majorisieren. 114 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE 10. Median. Minimale mittlere Abweichung. — Wir führen hier eine neue, Median genannte, charakteristische Grösse ein, die gegenüber dem Erwartungswert den Vorteil hat, für jede Zufallsvariable zu existieren. Definition. — Es sei X eine reelle Zufallsvariable. Als Median von X bezeichnet man jede Zahl M mit P{X ≤ M } ≥ 1 , 2 P{X ≥ M } ≥ 1 . 2 Bemerkung 1. — Aus der Definition folgt unmittelbar, dass die Ungleichungen P{X ≤ M } ≥ 1 ≥ P{X > M } und 2 P{X ≥ M } ≥ 1 ≥ P{X < M } 2 für jeden Median M von X gelten. Bemerkung 2. — Jede Zufallsvariable X besitzt mindestens einen Median, es kann aber mehrere geben, die alle die gleiche Rolle spielen. Falls die Verteilungsfunktion F von X stetig und streng monoton wachsend ist, so ist der Median M von X eindeutig bestimmt und es gilt F(M ) = 12 . Theorem 10.1. — Es sei X eine Zufallsvariable mit E[ |X| ] < +∞. Ist M ein Median von X, so gilt für jede reelle Zahl a die Ungleichung E[ |X − a| ] ≥ E[ |X − M | ]. Beweis. — Wir geben den Beweis im Fall einer diskreten Zufallsvariablen X mit Verteilung PX = k αk εxk . Wenn der Erwartungswert erst einmal für beliebige Zufallsvariable definiert sein wird (cf. Kap. 11), wird sich zeigen, dass in dem allgemeinen Fall der Beweis ganz analog verläuft. Betrachten wir nun den Fall, dass M < a ist. Man kann dann R in die drei disjunkten Intervalle ] − ∞, M ], ]M, a], ]a, +∞[ aufteilen und schreiben: |xk − a| − |xk − M | αk E[ |X − a| ] − E[ |X − M | ] = = k (a − M )αk + xk ∈]−∞,M ] (a + M − 2xk )αk + xk ∈]M,a] (M − a)αk . xk ∈]a,+∞[ Bezeichnen A, B und C die drei Summationen in der vorigen Zeile, so gilt A = (a − M ) P{X ≤ M } ; B≥ (M − a)xk = (M − a) P{M < X ≤ a} ; xk ∈]M,a] C = (M − a) P{X > a}, ERGÄNZUNGEN UND ÜBUNGEN 115 und somit schliesslich E[ |X − a| ] − E[ |X − M | ] ≥ (a − M ) P{X ≤ M } − P{X > M } . Da aber M ein Median ist, ist der Ausdruck auf der rechten Seite nicht negativ. Der Beweis verläuft im Fall M > a ganz analog. Bemerkung. — Es sei X eine Zufallsvariable mit E[ |X| ] < +∞. Dann hat der Ausdruck E[ |X − M | ] den gleichen Wert für jeden Median M von X. Sind nämlich M1 , M2 zwei Mediane von X mit M1 = M2 und wählt man einerseits a = M1 , M = M2 , andererseits a = M2 , M = M1 , so ergibt die Ungleichung von Theorem 10.1, dass E[ |X − M1 | ] = E[ |X − M2 | ] ist. Diese Beobachtung rechtfertigt die folgende Definition. Definition. — Es sei X eine reelle Zufallsvariable mit E[ |X| ] < +∞. Dann nimmt E[ |X − M | ] sein Minimum für jeden Median M von X an; dieser gemeinsame Wert heisst minimale mittlere Abweichung oder MedianAbweichung von X. Theorem 10.1 spielt eine zu Theorem 5.3 analoge Rolle. Wählt man einen Median als charakteristischen Wert für die Position, so sollte man ihm die minimale mittlere Abweichung als charakteristischen Wert für die Streuung zuordnen. Satz 10.2. — Die Median-Abweichung wird von der Standardabweichung majorisiert. Beweis. — Aus Theorem 9.2 folgt E[ |X − µ| ] ≤ σ. Da aber M ein Median ist, folgt aus Theorem 10.1, angewendet für a = µ, die Ungleichung E[ |X − M | ] ≤ E[ |X − µ| ]. Daraus ergibt sich die Behauptung. ERGÄNZUNGEN UND ÜBUNGEN 1. — Man berechne den Erwartungswert und die Varianz einer binomialverteilten bzw. Poisson-verteilten Zufallsvariablen. 2. — Ein Hausmeister hat n Schlüssel, von denen ein einziger eine bestimmte Tür schliesst. Er versucht sie nacheinander, wobei er nach jedem Fehlversuch den nicht passenden Schlüssel eliminiert. Wieviele Versuche benötigt er im Mittel, um den richtigen Schlüssel zu finden? 3. — Ein Bernoulli-Prozess mit Parameter p ist eine Folge (Xn ) (n = 1, 2, . . . ) von unabhängigen Zufallsvariablen, von denen jede nur zwei Werte 116 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE (etwa 1 und 0) annimmt, wobei p und q = 1 − p die entsprechenden Wahrscheinlichkeiten sind. Man kann Xn als das Resultat (Erfolg oder Misserfolg) im n-ten Versuch eines wiederholt ausgeführten Experiments ansehen, wobei die Bedingungen immer gleich sind und die Resultate der verschiedenen Versuche sich nicht gegenseitig beeinflussen. a) Man zeige, dass die Verteilung der Zufallsvariablen Sn = X1 +· · ·+Xn (Anzahl der Erfolge in den n ersten Versuchen) nichts anderes ist als die Binomialverteilung B(n, p). Man ermittle (ohne zu rechnen!) nochmals Erwartungswert und Varianz einer solchen Verteilung. b) Es bezeichne L die grösste ganze Zahl mit X1 = X2 = · · · = XL und M die grösste ganze Zahl mit XL+1 = XL+2 = · · · = XL+M . Man bestimme die Verteilungen der Zufallsvariablen L und M , deren Erwartungswerte und Varianzen. Man zeige, dass die Verteilungen von L und M genau dann übereinstimmen, falls p = 1/2 ist. c) (E. Kosmanek) Man beweise die Aussagen E[L] ≥ E[M ] = 2, Var L ≥ Var M ≥ 2, Cov(L, M ) = −(p − q)2 /(pq) und − 12 ≤ r(L, M ) ≤ 0. d) (E. Kosmanek) Man zeige, dass für jedes n ≥ 1 gilt pn−1 q, falls p < 1/2; lim P{M = n | L = l} = q n−1 p, falls p > 1/2; l→∞ falls p = 1/2. 1/2n , e) Es sei T die Anzahl der Misserfolge, die dem ersten Erfolg vorausgehen, d.h. die kleinste Zahl T mit XT +1 = 1. Man zeige, dass PT = k k≥0 pq εk (modifizierte geometrische Verteilung) ist und berechne E[T ]. f) Allgemeiner sei nun r ≥ 1 eine ganze Zahl und es bezeichne Tr die Anzahl der Misserfolge, die dem r-ten Erfolg vorausgehen. Man zeige r+k−1 r k −r r p q = p (−q)k P{Tr = k} = k k (negative Binomialverteilung) und E[Tr ] = rq/p. 4. — Wir kommen zu Aufgabe 2 zurück und nehmen nun an, dass der Hausmeister nach jedem vergeblichen Versuch den jeweiligen Schlüssel in seine Schlüsselsammlung zurücklegt. Dann liegt ein Bernoulli-Prozess mit p = 1/n vor. Man berechne in dieser Situation den Erwartungswert für die Anzahl der Versuche, die benötigt werden, um den passenden Schlüssel zu finden. 5. — Es sei X eine Zufallsvariable, die Werte xk annimmt, sowie A ein Ereignis mit positiver Wahrscheinlichkeit. Man setzt xk P{X = xk | A}. E[X | A] = k ERGÄNZUNGEN UND ÜBUNGEN 117 Ist nun (Bn ) (n = 1, 2, . . . ) ein vollständiges System von Ereignissen, so zeige man P(Bn )E[X | Bn ]. E[X] = n 6. — Es sei (Xn ) (n = 1, 2, . . . ) eine Folge von gleichverteilten Zufallsvariablen und N eine Zufallsvariable mit ganzzahligen Werten, wobei die Glieder der Folge N, X1 , X2 , . . . unabhängig sein sollen. Man setzt nun SN = X1 + · · · + XN . Mittels der vorhergehenden Aufgabe und Satz 6.2 aus Kapitel 6 beweise man die Formel von Wald: E[SN ] = E[N ] E[X1 ]. 7. — Es sei (Zn ) (n = 1, 2, . . . ) eine Folge von Zufallsvariablen, die jeweils nur zwei Werte, etwa 0 und 1, annehmen. Man zeige, dass die Zufallsvariablen Zn unabhängig sind, falls die Ereignisse {Zn = 0} (n = 1, 2, . . . ) als Gesamtheit unabhängig sind. 8. — Ein Spieler hat a unterscheidbare Münzen und spielt eine Reihe von Partien, wobei jede Partie darin besteht, alle Münzen zu werfen. Es soll nun die mittlere Anzahl von Münzen berechnet werden, die im Verlauf der n ersten Partien mindestens einmal Zahl zeigen. Ebenso soll die mittlere Anzahl von Partien bestimmt werden, die gespielt werden müssen, bis jede Münze mindestens einmal Zahl ergeben hat. Wir betrachten für n = 1, 2, . . . die Zufallsvariablen ξin mit dem Wert 1 oder 0, je nachdem, ob in der n-ten Partie die i-te Münze Zahl oder Kopf zeigt. Unterstellt wird, dass die Zufallsvariablen ξin (i = 1, 2, . . . , a ; n = 1, 2, . . . ) unabhängig sind und dieselbe Verteilung 12 (ε0 + ε1 ) haben. Es bezeichne Yn die Anzahl der Münzen, die in der n-ten Partie erstmals Zahl zeigen, sowie X n die Anzahl der Münzen, die mindestens einmal im Verlauf der ersten n Partien Zahl zeigen. Dann gilt Xn = Y1 + · · · + Yn und Yn = i∈An ξin , wobei An die Menge der i mit ξi1 = · · · = ξin−1 = 0 bezeichnet. a) Man zeige card An = a − Xn−1 . Daraus folgere man mit Hilfe von Aufgabe 6 die Beziehung E[Xn ] = 12 E[Xn−1 ] + (a/2). Man berechne E[Xn ]. b) Für festes n und 1 ≤ i ≤ a bezeichne Zi die Variable mit Werten 1 und 0, je nachdem, ob im Verlauf der n ersten Partien die i-te Münze mindestens einmal Zahl gezeigt hat oder nicht. Es ist also Zi = sup1≤k≤n ξik , sowie Xn = Z1 + · · · + Za . Man zeige, dass die Zi (für festes n) unabhängig sind. Man bestimme k a−k 1 a 1 deren Verteilung und folgere P{Xn = k} = 1− n . Man 2 2n k bestimme nochmals E[Xn ] und berechne Var Xn . 9. — An der Garderobe eines Restaurants geben n Personen ihre Hüte ab. Nach dem Essen finden sie ihre Hüte völlig durcheinander vor und jeder 118 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE nimmt sich zufällig einen Hut. Es bezeichne nun Xk (k = 1, 2, . . . , n) die Zufallsvariable, die den Wert 1 annimmt, falls die k-te Person ihren eigenen Hut wiedererhält, andernfalls sei der Wert von Xk gleich 0. Dann gibt Sn = X1 + · · · + Xn die Anzahl der Personen an, die ihren Hut zurück erhalten. a) Man konstruiere einen Wahrscheinlichkeitsraum, der dieses Experiment beschreibt. b) Man berechne E[Sn ] und Var Sn . c) Man zeige, dass die Wahrscheinlichkeit dafür, dass Sn mindestens gleich 11 ist, höchstens gleich 0, 01 ist, und dies für beliebige n ≥ 11. 10. — Es sei (X, Y, Z) ein Tripel von Zufallsvariablen mit X +Y +Z = 1. Es wird angenommen, dass Var X ≤ Var Y ≤ Var Z < +∞ gilt. Man zeige, a) dass die Variable Z negative Korrelation sowohl mit X als auch mit Y hat; b) dass Cov(X, Y ) ≥ 0 genau dann gilt, wenn Var X + Var Y ≤ Var Z; c) dass |Cov(X, Z)| ≤ |Cov(Y, Z)| gilt. 11. — Eine Zufallsvariable X mit unbekannter Verteilung habe einen Erwartungswert µ = 10 und eine Varianz σ = 5. Man zeige, dass für jedes n ≥ 50 die Wahrscheinlichkeit des Ereignisses {10 − n < X < 10 + n} mindestens gleich 0, 99 ist. 12. — Es sei X eine Zufallsvariable. Man zeige, dass aus E[ |X| ] = 0 die Aussage X = 0 fast sicher folgt. Die gleiche Folgerung gilt für E[X 2 ] = 0. 13. — Es seien a, b zwei positive reelle Zahlen. Man setzt ! 1 1 1 "−1 √ a+b A= . , G = ab, H = + 2 2 a b √ Zu zeigen ist H ≤ G ≤ A und G = AH. (G ist das geometrische Mittel von A und von H.) 14. — Es sei X eine Zufallsvariable mit nichtnegativen Werten, wobei E[X] < +∞, E[1/X] < +∞ gelte. Man zeige, dass dann E[X] E[1/X] ≥ 1 ist. 15. — Es sei X eine Zufallsvariable und r eine positive reelle Zahl mit r E[ |X| ] < +∞. Man zeige, dass dann P{ |X| ≥ n} = o(1/nr ) gilt, falls n gegen +∞ strebt. 16. — Es sei (X1 , X2 , Y1 , Y2 ) ein System von vier Zufallsvariablen, die Momente zweiter Ordnung besitzen. Man zeige: falls das Paar (X1 , X2 ) 119 ERGÄNZUNGEN UND ÜBUNGEN von dem Paar (Y1 , Y2 ) unabhängig ist, so gilt Cov(X1 + Y1 , X2 + Y2 ) = Cov(X1 , X2 ) + Cov(Y1 , Y2 ). 17. — Es sei (X, Y ) ein Paar von Indikatorvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P), d.h. X = IA , Y = IB für A, B ∈ A. Man zeige, dass X und Y genau dann unabhängig sind, wenn sie unkorreliert sind. 18. — Es sei (X, Y ) ein Paar von Zufallsvariablen mit Var X = Var Y < +∞. Man zeige, dass die Zufallsvariablen X + Y und X − Y unkorreliert sind. 19. (Der Erwartungswert als Approximation eines Parameters). — Eine Urne enthalte Kugeln, die von 1 bis N durchnummeriert sind. Man führt n Ziehungen (mit Zurücklegen) aus und bezeichnet mit X die grösste gezogene Zahl. Man kann X als Zufallsvariable mit Werten in {1, . . . , N } ansehen, deren Verteilungsfunktion und Erwartungswert durch k n (k ∈ {1, . . . , N }), P{X ≤ k} = P{die n gezogenen Zahlen sind ≤ k} = N N−1 N−1 N−1 1 n 1 − P{X ≤ k} = N − n P{X > k} = k , E[X] = N k=0 gegeben sind. Nun ist aber k=0 N−1 k=0 k n ∼ N n+1 /(n + 1) und daher E[X] ∼ k=0 (n/(n + 1))N . Man erkennt, dass für grosse Werte von n der Erwartungswert E[X] eine gute Approximation für die Anzahl der Kugeln in der Urne darstellt. (In der Praxis würde man, um N zu schätzen, anstelle von E[X] eher X, die grösste gezogene Zahl, nehmen.) 20. — Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum und es seien A, B zwei Elemente von A mit Indikatorfunktionen IA ,IB . a) Es gilt Cov(IA , IB ) = P(A ∩ B) − P(A)P(B). α) Cov(IA , IB ) = 0 gilt genau dann, wenn A und B unabhängig sind. β) Cov(IAc , IB ) = − Cov(IA , IB ) (man beachte IAc = 1 − IA ). b) Es gilt σ 2 (IA ) = Var(IA ) = P(A)(1 − P(A)) und daher Var(IAc ) = Var(IA ). c) Falls 0 < P(A), P(B) < 1 ist, kann man den linearen Korrelationskoeffizienten des Paares (IA , IB ) definieren (vgl. § 7). Dann gilt α) r(IAc , IB ) = −r(IA , IB ); β) r(IA , IB ) = 1 genau dann, wenn B = A und r(IA , IB ) = −1 genau dann, wenn B = Ac . Da diese Übung nur einfaches Nachvollziehen erfordert, wird kein Beweis angegeben. 120 KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE 21. — Es sei X eine Bernoulli-verteilte Zufallsvariable mit Verteilung qε0 + pε1 , wobei p, q ≥ 0 und p + q = 1. a) Falls p = q ist, hat X genau einen Median M , und zwar gleich 0, falls p < q ist und gleich 1, falls p > q ist. b) Ist p = q = 12 , so ist jede Zahl aus dem Intervall [0, 1] ein Median von X. http://www.springer.com/978-3-7643-6169-3