18 § 2 Zufallsvariable und Verteilungsfunktionen Häufig ist es so, dass den Ausgängen eines Zufallexperiments, d.h. den Elementen der Ereignisalgebra, eine Zahl zugeordnet wird. Das wollen wir etwas mathematischer fassen. 2.1 Grundlagen Definition 2.1. Gegeben sei ein Wahrscheinlichkeitsraum (Ω, A, p). Eine Funktion X : Ω → R heißt eine Zufallsvariable, wenn für alle x ∈ R und alle Intervalle I ⊂ R (offen, abgeschlossen, beschränkt bzw. unbeschränkt) sowie deren Vereinigungen, Durchschnitte und Differenzen die Urbilder X −1 (x) bzw. X −1 (I) Elemente von A sind; d.h. X −1 (B) ∈ A ∀ B ∈ B1 . Beispiel 2.2. Wir betrachten einen Laplace-Würfel; wir werfen ihn dreimal. X ordne jeden Wurf die Augensumme zu; dann ist X(Ω) = {3, 4, . . . , 18}. Wir berechnen z. B. X −1 ({4}) = {(1, 1, 2), (1, 2, 1), (2, 1, 1)} oder X −1 ([2.5, 4.8]) = X −1 ({3}) ∪ X −1 ({4}) = {(1, 1, 1)} ∪ X −1 ({4}). Betrachten wir dann die Wahrscheinlichkeit p(X −1 ({4})) , so erhalten wir p(X −1 ({4})) = 3 1 = . 216 72 1 Man schreibt auch p(X = 4) = . Damit haben wir Teilmengen von R über den Wahr72 scheinlichkeitsraum eine Wahrscheinlichkeit zugeordnet. Definition 2.3. Eine Zufallsvariable X : Ω → R heißt diskret, wenn sie endlich viele bzw. abzählbar unendlich viele Werte x1 , x2 . . . annehmen kann mit p(X = xi ) > 0 für alle i und ! p(X = xi ) = 1. i Die Funktion F (= FX ) : R → [0, 1] mit F (x) = p(X ≤ x) = ! p(X = xj ) xj ≤x heißt Verteilungsfunktion von X; dabei ist (X = x) := {ω ∈ Ω | X(ω) = x} bzw. (X ≤ x) := {ω ∈ Ω | X(ω) ≤ x} . 19 Für a < b gibt F (b) − F (a) = ! xj ≤b p(X = xj ) − ! p(X = xj ) = xj ≤a ! p(X = xj ) a<xj ≤b die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X einen Wert im Intervall ]a, b] annimmt. Beispiel 2.4. Ein Laplace-Würfel wird dreimal geworfen. Die Zufallsvariable X bezeichne die Anzahl der ungeraden Zahlen, die dabei geworfen wird. Es ist X(Ω) = {0, 1, 2, 3}. Bezeichnet G das Ergebnis, dass eine gerade Augenzahl gewürfelt wird und U das Ereignis, dass sich eine ungerade Augenzahl ergibt, so erhalten wir (wegen der Unabhängigkeit der Ereignisse) 1 p(X = 0) = p(GGG) = ( )3 = 0.125, 2 p(X = 1) = p(U GG) + p(GU G)) + p(GGU ) 1 = 3 · ( )3 = 0.375 2 p(X = 2) = p(U U G) + p(U GU ) + p(GU U ) 1 = 3 · ( )3 = 0.375 2 und 1 p(X = 3) = p(U U U ) = ( )3 = 0.125 . 3 Die Verteilungsfunktion von X ist dann eine Treppenfunktion mit FX (x) = 0 0.125 0.5 0.875 1 für für für für für x<0 0≤x<1 1≤x<2 . 2≤x<3 3≤x Definition 2.5. Eine Funktion f : R → R heißt Dichtefunktion oder Wahrscheinlichkeitsdichte, wenn folgende Bedingungen erfüllt sind: (i) f (x) ≥ 0 für alle x ∈ R. (ii) f ist bis auf endlich viele Punkte stetig auf R (allgemeiner: f ist integrierbar über R). (iii) & ∞ −∞ f (x)dx = 1 . 20 Eine Zufallsvariable X : Ω → R heißt stetig , wenn sich ihre Verteilungsfunktion F = FX mit F (x) = p(X ≤ x) mit Hilfe einer Wahrscheinlichkeitsdichte f in der Form F (x) = & x −∞ f (u)du darstellen läßt. Wir erhalten dann für a, b ∈ R mit a < b p(a < X ≤ b) = F (b) − F (a) = (Es ist nämlich & b a f (x)dx. p(a < X ≤ b) = p((X ≤ b) ∩ (X ≤ a)) = p(X ≤ b) − p(X ≤ a) wegen X ≤ a ⊂ X ≤ b , also X ≤ a ⊃ X ≤ b also und damit X ≤a∪X ≤ b = Ω , p(X ≤ b ∩ X ≤ a) = p(X ≤ b) + p(X ≤ a) − p(X ≤ a ∪ X ≤ b) = p(X ≤ b) + 1 − p(X ≤ a) − p(Ω) = p(X ≤ b) − p(X ≤ a).) F (b) − F (a) gibt also die Wahrscheinlichkkeit dafür an, dass die Zufallsvariable X einen Wert im Intervall ]a, b] annimmt. Beispiel 2.6. 1 x2 √ Es sei f (x) = exp(− ) für x ∈ R; dann ist f nichtnegativ, stetig, und es gilt nach 2 2π Satz 5.30 (aus Math. für Inf. 1) & ∞ −∞ 1 x2 √ exp(− ) dx = 1. 2 2π Wir definieren nun für ein Intervall I =]a, b] p(I) := F (b) − F (a) = wobei durch & b a 1 x2 √ exp(− ) dx, 2 2π & x 1 x2 √ F (x) = exp(− ) dx 2 −∞ 2π die Verteilungsfunktion zu der Wahrscheinlichkeitsdichte f gegeben ist. p(I) gibt also den Flächeninhalt an, der unter der ”Flächenkurve” zwischen x = a und x = b liegt. Definition 2.7. Zwei Zufallsvariable X und Y heißen unabhängig, wenn die Ereignisse X ≤ x und Y ≤ y für beliebige (x, y) ∈ R2 unabhängig sind, d.h. wenn p((X ≤ x) ∩ (Y ≤ y)) = p(X ≤ x) · p(Y ≤ y) gilt. Sonst heißen X und Y abhängig. 21 2.2 Erwartungswert, Varianz und Standardabweichung Welche Augenzahl erwarten wir im Mittel beim Werfen eines Würfels; ein Maß wäre die Summe aller Möglichkeiten dividiert durch die Mindestanzahl, mit der man dies erreichen kann: 1 (1 + 2 . . . + 6) = 3, 5 . 6 Diese Zahl ergibt sich bei keinem Wurf als Ergebnis, ist also mehr eine ”theoretische” Zahl. Definition 2.8. Ist X eine diskrete Zufallsvariable mit den Werten x1 , x2 , . . . und den Wahrscheinlichkeiten pk = p(X = xk ), so heißt ! E(X) = xi pi i der Erwartungswert von X. Dabei setzen wir voraus, dass die eventuell entstehende unendliche Reihe konvergiert. Ist X eine stetige Zufallsvariable mit der Dichtefunktion f , so heißt E(X) := & ∞ −∞ xf (x)dx derErwartungswert von X . Beispiel 2.9. Wir betrachten das wiederholte Würfeln mit einem fairen Würfel. Wie lange muss man im Mittel auf die erste Sechs warten. Wir haben es hier mit einem Experiment mit zwei möglichen Ergebnissen zu tun, nämlich mit Erfolg (eine Sechs) oder Misserfolg (keine 1 Sechs). Bei einem fairen Würfel tritt der Erfolg mit der Wahrscheinlichkeit p = und der 6 5 Misserfolg mit der Wahrscheinlichkeit q = 1 − p = ein. Gibt die Zufallsvariable X die 6 Anzahl der Versuche bis zum 1. Auftreten des Erfolgs an, so ist pk = p(X = k) = q k−1 p . Dann gilt ∞ ! p(X = k) = p k=1 ∞ ! k=1 q k−1 =p ∞ ! qk = k=0 p =1. 1−q Für den Erwartungswert erhalten wir E(X) = ∞ ! k=1 kpq k−1 = p ∞ ! kq k−1 . k=1 Um den Reihenwert zu bestimmen, betrachten wir die Potenzreihe ∞ ! k=0 xk , die für |x| < 1 konvergiert; wir dürfen gemäß Satz 6.11 aus Math. für Inf. 1 die Potenzreihe differenzieren, 22 indem wir gliedweise differenzieren; wir erhalten so ∞ ! k−1 kx k=1 ' ( d 1 1 = = . dx 1 − x (1 − x)2 In unserem Beispiel ergibt sich daher E(X) = p 1 1 = . 2 (1 − q) p 1 Der Erwartungswert beim Würfeln mit p = ist damit E(X) = 6, d.h. dass man im 6 Durchschnitt 6 Würfe benötigt, um eine Sechs zu würfeln. Wir wollen nun zeigen, dass der Erwartungswert linear ist, d.h. dass für zwei Zufallsvariable X und Y und zwei reelle Zahlen a, b ∈ R gilt E(aX + bY ) = aE(X) + bE(Y ) . Dazu halten wir zunächst fest: Bemerkung 2.10. Ist X eine diskrete Zufallsvariable und g : R → R eine Funktion, so ist auch g ◦ X eine diskrete Zufallsvariable, und es gilt E(g ◦ X) = falls die Reihe ! i ! i g(xi )p(g ◦ X = g(xi )) = ! g(xi )p(X = xi ), i |g(xi )|p(X = xi ) konvergiert. Speziell für g(x) = a · x + b mit zwei Konstanten a, b ∈ R erhalten wir E(aX + b) = aE(X) + b . Satz 2.11. Sind X, Y zwei Zufallsgrößen mit existierenden Erwartungswerten, so gelten folgende Aussagen: für beliebige Konstanten a, b ∈ R. (i) E(aX + b) = aE(X) + b (ii) E(X + Y ) = E(X) + E(Y ). (iii) E(X · Y ) = E(X) · E(Y ) für zwei unabhängige Zufallsvariable X und Y . (iv) Gilt X ≤ Y , d.h. X(ω) ≤ Y (ω) für alle ω ∈ Ω, so folgt E(X) ≤ E(Y ). Beweis: Wir beweisen (ii) für diskrete Zufallsvariable. Es gilt E(X) = ! i xi p(X = xi ) = ! i xi p({ω|X(ω) = xi }) 23 = ! ! xi p({ω}) = i ω | X(ω)=xi = ! ! ! X(ω)p({ω}) i ω | X(ω)=xi X(ω)p({ω}) . ω Hieraus folgt E(X + Y ) = ! (X(ω) + Y (ω))p({ω}) ω = ! X(ω)p({ω}) + ω ! Y (ω)p({ω}) = E(X) + E(Y ) . ω Während der Erwartungswert eine Maßzahl für den ”Schwerpunkt” einer Verteilung ist, ist die Varianz eine Maßzahl für die Streuung um diesen Schwerpunkt. Definition 2.12. Ist X eine diskrete Zufallsvariable wie in Definition 2.8 und exisitiert E(X 2 ), so heißt V ar(X) := D2 (X) := E((X − E(X))2 ) = ! i (xi − E(X))2 pi die Varianz von X . Ist X eine stetige Zufallsvariable mit der Dichtefunktion f derart, dass E(X 2 ) existiert, so definiert man die Varianz durch V ar(X) := D2 (X) := ) & ∞ −∞ (x − E(X))2 f (x)dx. σ = σX = D2 (X) heißt Standardabweichung von X. Ist Y eine weitere diskrete Zufallsvariable, für die E(Y 2 ) existiert, so heißt Cov(X, Y ) := E((X − E(X))(Y − E(Y ))) die Covarianz von X und Y und ρXY = Cov(X, Y ) σX · σY der Korrelationskoeffizient von X und Y . X und Y heißen unkorreliert , wenn die Covarianz Cov(X, Y ) = 0 ist. Beispiel 2.13 Die Zufallsvariable gebe die höchste Augenzahl beim zweimaligen Würfeln an. Ist Ω := {(i, j) | 1 ≤ i, j ≤ 6}, so ist X(ω) := max(i, j) für ω = (i, j). Definieren wir für ein 1 Elementarereignis p(ω) = , so erhalten wir: 36 p(X = 1) = p(X = 4) = 1 , 36 7 , 36 p(X = 2) = p(X = 5) = 3 , 36 9 , 36 p(X = 3) = 5 , 36 und p(X = 6) = 11 . 36 24 Für den Erwartungswert ergibt sich somit E(X) = 1 · 1 3 5 7 9 11 161 17 +2· +3· +4· +5· +6· = =4 . 36 36 36 36 36 36 36 36 Nun berechnen wir die Varianz V ar(X) = 6 ' ! i=1 161 i− 36 (2 · 2555 2i − 1 = ≈ 1.97 . 36 1296 Satz 2.14. (Rechenregeln) Sind X, Y Zufallsvariable, für die E(X 2 ) und E(Y 2 ) existieren, so gilt (i) V ar(X) = E(X 2 ) − E(X)2 . (ii) V ar(aX + b) = a2 V ar(X). (iii) Cov(X, Y ) = E(XY ) − E(X)E(Y ). (iv) Sind X, Y unabhängig, so sind sie auch unkorreliert. (v) Sind X1 , . . . , Xn unabhängig, so gilt V ar(X1 + . . . + Xn ) = n ! V ar(Xk ). k=1 2.3 Schwaches Gesetz großer Zahlen Als Vorbereitung zum schwachen Gesetz für große Zahlen zeigen wir Satz 2.15. (Tschebyscheffsche Ungleichung) Es seien (Ω, P(Ω), p) eine diskreter Wahrscheinlichkeitsraum (mit endlichem bzw. abzählbar unendlichem Ω) und X eine Zufallsvariable mit endlicher Varianz. Dann gilt für jedes ε > 0: V ar(X) . p(|X − E(X)| ≥ ε) ≤ ε2 Beweis: Sei Z = X − E(X). Wir definieren Y : Ω → R durch Dann ist Y ≤ Z 2 , also Y (ω) = 0 für ω mit |Z(ω)| < ε ε2 für ω mit |Z(ω)| ≥ ε . V ar(X) = E(Z 2 ) ≥ E(Y ) = ε2 p(Y = ε2 ) = ε2 p(|X − E(X)| ≥ ε) . ! Hieraus folgern wir 25 Satz 2.16. (Schwaches Gesetz der großen Zahlen für unabhängige Zufallsvariable mit beschränkter Varianz) Seien X1 , . . . , Xn unabhängige Zufallsvariable mit gleichem Erwartungswert und endlicher Varianz V ar(Xk ) ≤ M für 1 ≤ k ≤ n. Dann gilt für alle ε > 0: '* *1 p ** (X1 n Beweis: Es sei X := * * + . . . + Xn ) − E(X1 )** ( ≥ε ≤ M . nε2 1 (X1 + . . . + Xn ). Dann ist E(X) = E(X1 ) und n V ar(X) = n 1 1 ! M V ar(X + . . . + X ) = V ar(Xn ) ≤ . 1 n 2 2 n n k=1 n Die direkte Anwendung der Tschebyscheffschen Ungleichung liefert die Behauptung. ! Bemerkung 2.17. a) Sind Y1 , Y2 , . . . Zufallsvariable, die auf einem gemeinsamen Wahrscheinlichkeitsraum definiert sind, und ist a eine reelle Zahl mit der Eigenschaft lim p(|Yn − a| ≥ ε) = 0 für jedes ε > 0 , n→∞ so sagt man, dass die Folge (Yn ) stochastisch gegen a konvergiert. b) Das schwache Gesetz der großen Zahlen besagt, dass die Folge der arithmetischen Mittel von unahängigen Zufallsvariablen mit gleichem Erwartungswert µ und beschränkter Varianz stochastisch gegen µ konvergiert. In diesem Sinne wird die intuitive Vorstellung des Erwartungswertes als eines bei häufiger Durchführung des Experimentes erhaltenen durchschnittlichen Wertes präzisiert.