Erwartungswerte, Varianzen - staff.uni

Kapitel 3
Erwartungswerte, Varianzen
Wir wollen nun Zufallsvariablen eine Maßzahl zuordnen, die ihr typisches Verhalten in vager Weise angibt.
Haben wir n Punkte x1 , . . . , xn ∈ Rd , so ist der Schwerpunkt n1 (x1 + . . . + xn ). Für eine Zufallsvariable,
die mit gleicher Wahrscheinlichkeit jeden der Werte xi annimmt, nennen wir dieses arithmetische Mittel
ihrer Werte den Erwartungswert. Dies ist offenbar eine nützliche Kenngröße. Wir werden diesen Begriff
zunächst auf diskrete Zufallsvariablen erweitern und dann auf allgemeinere reelle Zufallsvariablen. Es folgt
ein Abschnitt über die Größe der Abweichungen von diesen Schwerpunkt, die wir Varianz nennen, und
deren Rolle der des Trägheitsmomentes in der Mechanik entspricht.
3.1
Erwartungswerte für diskrete Zufallsvariablen
Definition 3.1 Sei X eine reelle Zufallsvariable und W := WX ⊂ R abzählbar. Es gelte P[X ∈ W ] = 1.
Dann nennen wir X eine diskrete (reelle) Zufallsvariable mit Wertebereich WX .
Offenbar kann man WX durch jede abzählbare Obermenge von WX ersetzen, der Wertebereich ist also
nicht eindeutig. Klar ist aber für diskrete Zufallsvariablen
P[X = x] = P[X ∈ WX ] = 1.
x∈WX
Setzen wir nun W̃X := {x ∈ WX : P[X = x > 0]}, so ist W̃X der minimale Wertebereich von X. Wir
werden dies im Folgenden aber nicht benötigen.
53
54
Erwartungswerte, Varianzen
Definition 3.2 Sei X eine diskrete reelle Zufallsvariable mit Wertebereich WX . Wir sagen, dass X einen
Erwartungswert hat, falls
|x|P[X = x] < ∞.
x∈WX
1
1
Wir schreiben dann auch X ∈ L := L (P) und nennen
xP[X = x]
E[X] :=
x∈WX
den Erwartungswert von X. Ist P[X ≥ 0] = 1, so nennen wir stets
E[X] :=
xP[X = x] ∈ [0, ∞]
x∈WX
den Erwartungswert von X. Gelegentlich schreiben wir daher auch E[|X|] < ∞ für X ∈ L1 (P).
Beispiel 3.3 Ist (Ω, P) ein diskreter Wahrscheinlichkeitsraum, so ist jede reelle Zufallsvariable diskret und
WX = {X(ω) : ω ∈ Ω}. Es gilt dann
X ∈ L1 (P)
⇐⇒
P[{ω}]|X(ω)| < ∞.
ω∈Ω
In diesem Fall ist
E[X] =
P[{ω}]X(ω).
ω∈Ω
3
Beispiele 3.4
(i) Sei X eine Bernoulli-Zufallsvariable mit Parameter p ∈ [0, 1]: X ∼ Berp . Dann ist
W = {0, 1} und
E[X] = 0 · (1 − p) + 1 · p = p.
(ii) Sei X ∼ bn,p für gewisse n ∈ N und p ∈ [0, 1]. Dann ist W = {0, . . . , n} und
n
n k
k
p (1 − p)n−k
k
k=1
n
n − 1 k−1
=
np
p
(1 − p)(n−1)−(k−1)
k−1
E[X] =
k=1
= np
n−1
bn−1,p ({k}) = np.
k=0
(iii) (Mittlere Wartezeit auf den ersten Erfolg) Sei X ∼ γp geometrisch verteilt mit Parameter p ∈ (0, 1].
1
Sei f (x) = 1−x
. Dann hat f für x ∈ (−1, 1) die Potenzreihenentwicklung
f (x) =
∞
n=0
xn
3.1 Erwartungswerte für diskrete Zufallsvariablen
55
und die Ableitung (per gliedweiser Differentiation)
∞
1
=
f
(x)
=
nxn−1 ,
(1 − x)2
n=0
Also bekommen wir
E[X] =
∞
x ∈ (−1, 1).
p(1 − p)n−1 · n
n=1
= p f (1 − p) =
1
.
p
3
Satz 3.5 (Rechenregeln) Seien X, Y, Xn , Yn ∈ L1 (P), n ∈ N, diskrete reelle Zufallsvariablen auf
(Ω, A, P). Dann gilt
(i) Ist PX = PY , so ist E[X] = E[Y ].
(ii) (Linearität) Es gelten für alle c ∈ R: cX ∈ L1 (P), X + Y ∈ L1 (P) (mit der Dreiecksungleichung
E[|X + Y |] ≤ E[|X|] + E[|Y |]) sowie
E[cX] = cE[X]
E[X + Y ] = E[X] + E[Y ].
(iii) Ist P[X ≥ 0] = 1, so sind äquivalent
E[X] = 0
⇐⇒
P[X = 0] = 1.
(iv) (Monotonie) Gilt P[X ≤ Y ] = 1, so gilt E[X] ≤ E[Y ] mit Gleichheit genau dann, wenn P[X =
Y ] = 1.
∞
(v) Ist P[Xn ≥ 0] = 1 für alle n ∈ N und gilt P[ n=1 Xn = X] = 1, so ist
E[X] =
∞
E[Xn ].
n=1
(vi) Gilt Yn ↑ Y , so gilt E[Y ] = limn→∞ E[Yn ].
(vii) Sind X und Y unabhängig, so ist X · Y ∈ L1 (P) und E[XY ] = E[X]E[Y ].
Beweis
(i) Klar.
(ii) Klar ist WcX = cWX := {cx : x ∈ WX } also
|y|P[cX = y] = |c| ·
|x| · P[X = x] < ∞.
y∈WcX
x∈WX
Die selbe Rechnung ohne Betragstriche liefert E[cX] = cE[X].
56
Erwartungswerte, Varianzen
Klar ist WX+Y = WX + WY := {x + y : x ∈ WX , y ∈ WY }. Also ist nach der Formel von der
totalen Wahrscheinlichkeit
|z|P[X + Y = z]
E[|X + Y |] =
z∈WX+Y
=
|z|P[X = x, X + Y = z]
x∈WX , z∈WX+Y
=
|x + y|P[X = x, Y = y]
x∈WX , y∈WY
≤
(|x| + |y|)P[X = x, Y = y]
x∈WX y∈WY
=
x∈WX
=
|x|
P[X = x, Y = y] +
y∈WY
|x|P[X = x] +
x∈WX
|y|
y∈WY
P[X = x, Y = y]
x∈WX
|y|P[Y = y]
y∈WY
= E[|X|] + E[|Y |].
Die selbe Rechnung ohne Betragstriche ergibt E[X + Y ] = E[X] + E[Y ]. Dabei dürfen wir die
Summationsreihenfolge vertauschen, weil nach dem eben gezeigten alle Reihen absolut konvergieren.
(iii) Der Wertebereich von X ist WX ⊂ [0, ∞), also ist E[X] = x∈WX xP[X = x] ≥ 0.
Sei nun P[X ≥ 0] = 1 und E[X] = 0. Dann ist für n ∈ N
0 = E[X] =
xP[X = x]
x∈WX
≥
xP[X = x]
1
x∈WX ∩[ n
,∞)
≥
1
x∈WX ∩[ n
,∞)
1
P[X = x]
n
1
1
P[X ∈ WX ∩ [ , ∞)]
n
n
1
1
= P[X ≥ ],
n
n
=
also P[X ≥
1
n]
= 0. Wegen {X ≥
1
n}
↑ {X > 0} folgt
P[X > 0] = lim P[X ≥
n→∞
1
] = 0.
n
(iv) Setze Z := Y − X und wende (iii) auf Z an.
N
(v) Für N ∈ N setze SN := n=1 Xn . Dann ist SN ≤ X nach Voraussetzung, also E[X] ≥ E[SN ]
(nach (iv)) und damit
E[X] ≥ lim E[SN ] = lim
N →∞
N →∞
N
n=1
E[Xn ] =
∞
n=1
E[Xn ].
3.1 Erwartungswerte für diskrete Zufallsvariablen
57
Um die andere Ungleichung zu zeigen, zeigen wir dass für jedes c ∈ (0, 1) gilt
cE[X] ≤
∞
E[Xn ].
(3.1)
n=1
Definiere die Zufallsvariable T mit Werten in N durch
T := min{N ∈ N : SN ≥ cX}.
Wegen SN ↑ X und c < 1 folgt P[T < ∞] = 1. Betrachte nun die Zufallsvariable ST : ω →
∞
ST (ω) (ω). Dann ist der Wertebereich WST ⊂ N =1 WSN abzählbar, also ST diskret. Per Konstruktion ist ST ≥ cX also
cE[X] ≤ E[ST ]
sP[ST = s]
=
s∈WST
=
∞
sP[SN = s, T = N ]
N =1 s∈WST
=
∞
sP[(SN 1{T =N } ) = s]
N =1 s∈WST
=
∞
E[SN 1{T =N } ]
N =1
=
∞ N
E[Xn 1{T =N } ]
N =1 n=1
=
∞ N
xP[Xn = x, T = N ]
N =1 n=1 x∈WXn
=
∞
∞
xP[Xn = x, T = N ]
n=1 x∈WXn N =n
=
∞
xP[Xn = x, T ≥ N ]
n=1 x∈WXn
≤
∞
xP[Xn = x]
n=1 x∈WXn
=
∞
E[Xn ].
n=1
(vi) Wende (v) an auf Xn = Yn+1 − Yn und X = Y − Y1 .
58
Erwartungswerte, Varianzen
(vii) Klar ist WXY = {xy : x ∈ Wx , y ∈ Wy } abzählbar. Also ist
E[|XY |] =
|z|P[XY = z]
z∈WXY
=
|x| · |z/x|P[Y = z/x, X = x]
z∈WXY x∈WX , x=0
=
|x| · |y|P[Y = y, X = x]
y∈WY x∈WX
=
|x|P[X = x] · |y|P[Y = y]
y∈WY x∈WX
= E[|X|] · E[|Y |] < ∞.
Also ist XY ∈ L1 . Die selbe Rechnung ohne Betragstriche liefert E[XY ] = E[X] · E[Y ].
2
Beispiele 3.6
(i) (Binomialverteilung) Sei X ∼ bn,p für n ∈ N und p ∈ [0, 1]. Sind X1 , . . . , Xn und
abhängig und Bernoulli verteilt mit Parameter p, so ist X = X1 + . . . + Xn , also
E[X] = E[X1 + . . . + Xn ] = E[X1 ] + . . . + E[Xn ] = pn.
(ii) (Negative Binomialverteilung) Sei X ∼ b−
n,p und seien X1 , . . . , Xn unabhängig und geometrisch
verteilt mit Parameter p. Nach Beispiel 3.4 ist E[X1 ] = p1 . Es ist Xi − 1 ∼ b−
1,p und (vergleiche
d
Beispiel 2.38) X = X1 + . . . + Xn − n. Also ist E[X] = nE[X1 ] − n =
1−p
p n.
3
Beispiel 3.7 In einer Urne seien m blaue Kugeln und n rote Kugeln. Wir ziehen diese ohne Zurücklegen
und legen sie von links nach rechts aufgereiht auf einen Tisch. Wie groß ist die erwartete Anzahl von blauen
Kugeln, neben denen rechts eine rote Kugel liegt? Wir setzen für i = 1, . . . , m + n
Xi =
1,
0,
die i-te Kugel ist blau,
sonst.
Setze
Yi = 1{Xi =1} 1{Xi+1 =0} ,
i = 1, . . . , m + n − 1,
und Y := Y1 + . . . + Ym+n−1 . Dann ist
P[Yi = 1] = P[Y1 = 1] =
also E[Yi ] =
mn
(m+n)(m+n−1) .
n
m
,
m+n m+n−1
Insgesamt ist die gesuchte erwartete Anzahl
E[Y ] =
m+n−1
i=1
E[Yi ] =
mn
.
m+n
3
3.2 Erwartungswerte für allgemeine reelle Zufallsvariablen
3.2
59
Erwartungswerte für allgemeine reelle Zufallsvariablen
Sei X eine reelle Zufallsvariable. Dann ist (mit x := max{k ∈ Z : k ≤ x})
Xn := 2−n 2n X
eine diskrete Zufallsvariable mit Wertebereich WXn = 2−n Z. Offenbar ist
Xn ≤ X ≤ Xn + 2−n
(3.2)
|Xn | − 2−n ≤ |X| ≤ |Xn | + 2−n .
(3.3)
und
Ferner ist Xn ↑ X. In Anlehnung an Satz 3.5(vi) treffen wir die folgende Definition.
Definition 3.8 (Erwartungswert für allgemeine reelle Zufallsvariablen) Wir sagen, dass eine reelle Zufallsvariable X einen Erwartungswert besitzt (und schreiben X ∈ L1 (P) oder E[|X|] < ∞), falls
Xn ∈ L1 (P) für ein n ∈ N (und damit für alle n ∈ N) und nennen
E[X] := lim E[Xn ]
n→∞
den Erwartungswert von X.
Satz 3.9 Die Rechenregeln aus Satz 3.5 gelten auch für nicht-diskrete Zufallsvariablen.
Beweis Man muss jeweils immer nur zeigen, dass Summation und Limes vertauschen. Nach (3.2) und
(3.3) sind die Limiten jeweils gleichmäßig, vertauschen also mit der Summation. Wir lassen die Details aus
und verweisen auf die Vorlesung Stochastik I“. Exemplarisch sei hier nur die Additivität gezeigt. Seien
”
also X, Y ∈ L1 (P). Dann ist
|E[X + Y ] − E[X] − E[Y ]| = lim E[2−n 2n (X + Y ) − 2−n 2n X − 2−n 2n Y n→∞
≤ lim 4 · 2−n = 0.
n→∞
2
Bemerkung 3.10 Ist X eine reelle Zufallsvariable mit P[X ≥ 0] = 1, so ist
∞
E[X] =
P[X ≥ t] dt.
(3.4)
0
Nimmt speziell X Werte in N0 an, so ist
E[X] =
∞
P[X ≥ n].
(3.5)
n=1
3
60
Erwartungswerte, Varianzen
Beweis Gelte zunächst P[X ∈ N0 ] = 1. Dann ist
∞
E[X] =
kP[X = k]
k=1
∞ k
=
P[X = k]
k=1 n=1
∞
∞ =
P[X = k]
n=1 k=n
∞
=
P[X ≥ n].
n=1
Sei nun der allgemeine Fall X ≥ 0 betrachtet. Sei Xn := 2−n 2n X. Dann ist
E[X] = lim E[Xn ]
n→∞
= lim 2−n
n→∞
= lim 2−n
n→∞
=
∞
0
∞
k=1
∞
P[Xn ≥ k2−n ]
P[X ≥ k2−n ]
k=1
P[X ≥ t] dt,
wobei wir im letzten Schritt die Reihe als Riemann-Summe angesehen haben, die das Integral approximiert.
2
Satz 3.11 Sei X eine reelle Zufallsvariable und habe die Verteilung PX eine Dichte fX . Dann gilt
∞
fX (x) |x| dx < ∞.
E[|X|] < ∞
⇐⇒
(3.6)
−∞
Ist E[|X|] < ∞, so ist
E[X] =
∞
−∞
f (x)x dx.
(3.7)
Beweis Seien Xn , n ∈ N, approximierende Zufallsvariablen wie oben. Dann ist (wegen |x| − 2−n ≤
|2−n 2n x| ≤ |x| + 2−n )
E[|Xn |] =
|k2−n |P[Xn = k2−n ]
k∈Z
=
|k2−n |
k∈Z
≤
k∈Z
∞
(k+1)2−n
k2−n
(k+1)2−n
k2−n
f (x) dx
(|x| + 2−n )f (x) dx
(|x| + 2−n )f (x) dx
∞
−n
=2 +
|x| f (x) dx.
=
−∞
−∞
3.2 Erwartungswerte für allgemeine reelle Zufallsvariablen
Analog erhalten wir
E[|Xn |] ≥ −2−n +
∞
−∞
61
f (x)|x| dx.
Also haben wir (3.6) gezeigt. Die selbe Rechnung ohne Betragstriche liefert (3.6).
2
2
2
Beispiel 3.12 Sei
√ X ∼ Nµ,σ normalverteilt mit Parametern µ ∈ R und σ > 0. Nach Beispiel 1.54 ist
Y := (X − µ)/ σ 2 ∼ N0,1 . Die Verteilung von Y hat die Dichte
2
1
f (x) = √ e−x /2 ,
2π
Daher ist
∞
2
|x|f (x) dx = √
2π
−∞
∞
0
x ∈ R.
2
x e−x
/2
2
< ∞.
dx = √
2π
Also ist Y ∈ L1 und damit X ∈ L1 . Weiter ist f (x) = f (−x), also x → xf (x) eine ungerade Funktion
und damit
∞
E[Y ] =
Folglich ist E[X] = µ +
√
σ 2 E[Y ] = µ.
−∞
xf (x) = 0.
3
Beispiel 3.13 Sei X Standard-Cauchy verteilt, das heißt X ist reell mit Dichte
1 1
,
π 1 + x2
f (x) =
x ∈ R.
Dann ist f (x) = f (−x) wie bei der Normalverteilung, aber hier existiert der Erwartungswert nicht (und ist
insbesondere nicht Null), denn
∞
2 ∞ x
2 ∞ x
1 ∞1
dx = ∞
|x|f (x) dx =
dx
≥
dx
≥
π 0 1 + x2
π 1 1 + x2
π 1 x
−∞
(wobei wir für x ≥ 1 ausgenutzt haben, dass
1
1+x2
≥
1
2x2 ).
Also ist E[|X|] = ∞.
3
Beispiel 3.14 Seien X1 , X2 , . . . identisch verteilte Zufallsvariablen mit E[|X1 |] < ∞. Dann gilt
P[|Xn | ≥ n für unendlich viele n ∈ N] = 0.
(Vergleiche Beispiel 2.39.) Dies folgt leicht aus dem Borel-Cantelli Lemma, denn nach Bemerkung 3.10 ist
∞
n=1
P[|Xn | ≥ n] =
∞
P[|X1 | ≥ n] = E[|X1 |] < ∞.
n=1
3
Satz 3.15 (Wald’sche Identität) Seien T, X1 , X2 , . . . unabhängige reelle Zufallsvariablen in L1 (P). Es
sei P[T ∈ N0 ] = 1, und es seien X1 , X2 , . . . identisch verteilt. Wir setzen
ST :=
T
Xi .
i=1
Dann ist ST ∈ L1 (P) und
E[ST ] = E[T ]E[X1 ].
62
Erwartungswerte, Varianzen
Beweis Setze Sn =
n
i=1
Xi für n ∈ N0 . Dann ist (mit Hilfe der Dreiecksungleichung, siehe Satz 3.5(i))
E[|ST |] =
=
≤
∞
n=1
∞
n=1
∞
E[|Sn |1{T =n} ]
E[|Sn |]E[1{T =n} ]
E[|X1 |]nP[T = n]
n=1
= E[|X1 |]E[T ].
2
Die selbe Rechnung ohne Betragstriche liefert die Aussage.
3.3
Varianzen
Wir wollen in diesem Abschnitt Varianzen und Kovarianzen von reellen Zufallsvariablen untersuchen.
Zunächst betrachten wir allgemein Erwartungswerte von Funktionen von Zufallsvariablen, danach speziell
quadratische Funktionen, die die Kovarianzen und Varianzen definieren.
Satz 3.16
(i) Sei X = (X1 , . . . , Xn ) eine diskrete Rn -wertige Zufallsvariable (mit Wertebereich WX )
und H : Rn → Reine beliebige Abbildung. Setze Y := H(X1 , . . . , Xn ). Dann ist Y ∈ L1 (P)
genau dann, wenn x∈WX |H(x)|P[X = x] < ∞. In diesem Fall ist
E[H(X)] =
H(x) P[X = x].
x∈WX
Xn ) ein Rn -wertige Zufallsvariable mit Dichte fX (also P[X1 ≤ x1 , . . . , Xn ≤
(ii) Sei X =
1, . . . , x(X
xn
1
dtn fX (t1 , . . . , tn )) und H : Rn → R eine messbare Abbildung sowie Y :=
xn ] = −∞ dt1 · · · −∞
H(X). Dann ist Y ∈ L1 (P) genau dann, wenn Rn dx1 . . . dxn |H(x1 , . . . , xn )| · fX (x1 , . . . , xn ) <
∞. In diesem Fall gilt
∞
∞
dx1 · · ·
dxn H(x1 , . . . , xn ) fX (x1 , . . . , xn ).
E[H(X)] =
−∞
−∞
Beweis
(i) Für den Wertebereich WH(X) gilt klar WH(X) = H(WX ) := {H(x) : x ∈ WX }.
Für
jedes
y ∈ WH(X) ist das Ereignis {H(X) = y}die disjunkte Vereinigung {H(X) = y} =
x∈H −1 ({y}) {X = x}. Es gilt also P[H(X) = y] =
x∈H −1 ({y}) P[X = x]. Mithin ist
E[|H(X)|] =
|y| P[H(X) = y]
y∈WH(X)
=
|y| P[X = x]
y∈WH(X) x∈H −1 ({y})
=
|H(x)| P[X = x]
y∈WH(X) x∈H −1 ({y})
=
|H(x)| P[X = x].
x∈WX
Die selbe Rechnung ohne Betragstriche liefert die Aussage.
3.3 Varianzen
63
(ii) Wir betrachten zunächst nur H : Rn → [0, ∞). Dann ist nach Bemerkung 3.10
∞
P[H(X) ≥ t] dt
E[H(X)] =
∞
0 ∞ ∞
dt
dx1 · · ·
dxn f (x1 , . . . , xn )1[t,∞) (H(x1 , . . . , xn ))
=
0
−∞
−∞
∞
∞
∞
=
dx1 · · ·
dxn f (x1 , . . . , xn )
dt1[t,∞) (H(x1 , . . . , xn ))
−∞
−∞
0
∞
∞
=
dx1 · · ·
dxn f (x1 , . . . , xn )H(x1 , . . . , xn ).
−∞
−∞
Für allgemeines H : Rn → R betrachte H = H + − H − mit H + : Rn → [0, ∞) und H − : Rn →
[0, ∞). Dann ist nach dem bisher Gezeigten
E[|H(X)|] = E[H + (X)] + E[H − (X)]
∞
∞
=
dx1 · · ·
dxn f (x1 , . . . , xn ) H + (x1 , . . . , xn ) + H − (x1 , . . . , xn )
−∞
−∞
∞
∞
=
dx1 · · ·
dxn f (x1 , . . . , xn ) |H(X)|.
−∞
−∞
Die selbe Rechnung ohne Betragstriche liefert die Aussage.
2
Sei stets X eine reelle Zufallsvariable, und sei p ≥ 1.
Definition 3.17 Wir sagen, dass X ein p-tes Moment besitzt, falls
Mp (X) := E[|X|p ] < ∞.
Wir schreiben dann X ∈ Lp := Lp (P) und nennen Mp (X) das p–te absolute Moment von X. Ist p ∈ N
und Mp (X) < ∞ , oder p ∈ {2, 4, 6, . . .}, oder ist X ≥ 0, so heißt
mp (X) := E[X p ]
das p–te Moment von X.
Satz 3.18 Ist p ≥ r ≥ 1 und X ∈ Lp , so ist X ∈ Lr .
Beweis Die folgt direkt aus der Ungleichung |x|r ≤ 1 + |x|p für alle x ∈ R.
Definition 3.19 Seien X, Y ∈ L2 . Dann heißt
Var[X] := E[X 2 ] − E[X]2
die Varianz von X und σ :=
Var[X] heißt die Streuung von X. Ferner heißt
Cov[X, Y ] := E[XY ] − E[X]E[Y ]
die Kovarianz von X und Y . Gilt Cov[X, Y ] = 0, so heißen X und Y unkorreliert.
2
64
Erwartungswerte, Varianzen
Bemerkung Man beachte, dass |xy| ≤ x2 +y 2 . Daher ist E[|XY |] ≤ E[X 2 ]+E[Y 2 ] < ∞. Für X, Y ∈ L2
existiert also stets die Kovarianz.
Beispiele 3.20
(i) Sei X ∼ Berp . Dann ist E[X] = p und X 2 = X, also E[X 2 ] = p. Mithin ist
Var[X] = p − p2 = p(1 − p).
(3.8)
(ii) Sei X ∼ Poiλ für ein λ ≥ 0. Dann ist E[X] = λ und
E[X(X − 1)] =
∞
e−λ k(k − 1)
k=2
∞
λk
λk
= λ2
= λ2 .
e−λ
k!
k!
k=0
Also ist
Var[X] = E[X 2 ] − E[X]2 = E[X(X − 1)] + E[X] − E[X]2 = λ2 + λ − λ2 = λ.
(iii) Sei X ∼ γp für p ∈ (0, 1]. Dann ist E[X] =
f (x) =
Dann ist
und
1
p
(3.9)
(siehe Beispiel 3.4(iii)). Setze
∞
1
=
xn ,
1 − x n=0
x ∈ (−1, 1).
1
= f (x) =
nxn−2 ,
2
(1 − x)
n=1
2
= f (x) =
n(n − 1)xn−2 ,
3
(1 − x)
n=1
also
E[X 2 ] = p
∞
n2 (1 − p)n−1
n=0
= pf (1 − p) + (1 − p)f (1 − p)
=
2−p
1 2(1 − p)
+
=
.
p
p2
p2
Insgesamt erhalten wir
Var[X] = E[X 2 ] − E[X]2 =
2−p
1
1−p
− 2 =
.
p2
p
p2
(3.10)
3
Satz 3.21 Sind X, Y ∈ L2 (P) unabhängig, so sind X und Y unkorreliert.
Beweis Nach Satz 3.5(vii) ist E[XY ] = E[X]E[Y ]. Hieraus folgt direkt die Aussage.
2
3.3 Varianzen
65
Bemerkung 3.22 Ins Satz 3.21 gilt die umgekehrte Implikation natürlich nicht. Hierzu betrachten wir als
Beispiel X und Y mit
P[X = 0, Y = −1] = P[X = 0, Y = 1] = P[X = −1, Y = 0] = P[X = 1, Y = 0] =
Dann ist Cov[X, Y ] = 0, aber P[X = 0, Y = 0] = 0 =
1
4
1
.
4
= P[X = 0]P[Y = 0].
3
Satz 3.23 Es gelten
(i) Cov[X, Y ] = E[(X − E[X])(Y − E[Y ])]
(ii) Var[X] = E[(X − E[X])2 ]
(iii) Speziell ist stets Var[X] ≥ 0 und
Var[X] = 0
Beweis
⇐⇒
P[X = E[X]] = 1.
(3.11)
(i) Dies liefert die einfache Rechnung
E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[E[X]Y ] − E[XE[Y ]] + E[E[X]E[Y ]]
= E[XY ] − E[X]E[Y ] − E[X]E[Y ] + E[X]E[Y ]
= E[XY ] − E[X]E[Y ]
= Cov[X, Y ].
(ii) Dies folgt direkt aus (i), weil Var[X] = Cov[X, X].
(iii) Die Aussage folgt aus (ii) zusammen mit Satz 3.5(iii)), angewandt auf die Zufallsvariable (X −
E[X])2 .
2
Beispiel 3.24 Sei X ∼ Nµ,σ2 mit µ ∈ R und σ 2 > 0. Dann ist E[X] = µ und mittels affiner Substitution
und partieller Integration erhalten wir
Var[X] = E[(X − µ)2 ]
∞
1
(x − µ)2
2
=√
(x − µ) exp −
dx
2σ 2
2πσ 2 −∞
∞
x2
1
x2 exp − 2 dx
=√
2σ
2πσ 2 −∞
2
2 ∞
x
σ
x2 exp −
=√
dx
2
2π −∞
2 ∞
∞
2
x
σ2
−xe−x /2 +
exp −
dx
=√
2
−∞
2π
−∞
= σ2 .
3
66
Erwartungswerte, Varianzen
Satz 3.25 Die Abbildung
Cov : L2 (P) × L2 (P) → R
ist eine positiv semidefinite symmetrische Bilinearform mit Cov[X, Y ] = 0, falls es ein y ∈ R gibt mit
P[Y = y] = 1. Ausgeschrieben heißt dies: Für X1 , . . ., Xm , Y1 , . . ., Yn ∈ L2 (P) und α1 , . . . , αm ,
β1 , . . . , βn ∈ R, sowie d, e ∈ R
⎤
⎡
m
n
Cov ⎣d +
αi Xi , e +
βj Yj ⎦ =
αi βj Cov[Xi , Yj ].
(3.12)
i=1
j=1
i,j
Speziell gilt die Bienaymé-Gleichung
m
m
m
Var
Xi =
Var[Xi ] +
Cov[Xi , Xj ].
i=1
Für unkorrelierte (speziell also für unabhängige) X1 , . . . , Xm gilt
m
m
Var
Xi =
Var[Xi ].
i=1
Beweis
⎡
Cov ⎣d +
m
αi Xi , e +
i=1
(3.13)
i,j=1
i=j
i=1
(3.14)
i=1
n
⎤
βj Yj ⎦
j=1
⎡
⎞⎤
⎛ n
m
= E⎣
αi (Xi − E[Xi ]) ⎝
βj (Yj − E[Yj ])⎠⎦
i=1
=
n
m j=1
αi βj E[(Xi − E[Xi ])(Yj − E[Yj ])]
i=1 j=1
=
m n
αi βj Cov[Xi , Yj ].
i=1 j=1
2
Beispiel 3.26 Seien n ∈ N und p ∈ [0, 1], sowie X ∼ bn,p . Wir wollen die Varianz von X ausrechnen.
Seien X1 , . . . , Xn unabhängig und Bernoulliverteilt mit Parameter p (und damit Var[Xi ] = p(1−p). Dann
d
ist X = X1 + . . . + Xn , also
Var[X] = Var[X1 + . . . + Xn ] = Var[X1 ] + . . . + Var[Xn ] = np(1 − p).
3
3.3 Varianzen
67
Beispiel 3.27 Seien n ∈ N und p ∈ (0, 1], sowie X ∼ b−
n,p . Seien X1 , . . . , Xn unabhängig Xi ∼ γp . (und
damit Var[Xi ] =
1−p
p2
d
nach Beispiel 3.20(iii)). Dann ist X = X1 + . . . + Xn − n, also
Var[X] = Var[X − n] = Var[X1 + . . . + Xn ] = n
1−p
.
p2
3
Korollar 3.28 Sind X, Y ∈ L2 , so gilt die Cauchy-Schwarz-Ungleichung
2
(Cov[X, Y ]) ≤ Var[X] Var[Y ].
(3.15)
In (3.15) gilt Gleichheit genau dann, wenn es Zahlen a, b ∈ R gibt mit P[X = aY + b] = 1. In diesem
Fall nennen wir X und Y perfekt korreliert.
Beweis Die Cauchy-Schwarz Ungleichung gilt für jede positiv semidefinite Bilinearform · , · auf einem
Vektorraum V . Es gilt jeweils Gleichheit x, y2 = x, xy, y genau dann, wenn es eine Zahl a ∈ R gibt
mit x − ay, x − ay = 0. Wenden wir dies auf die positiv semidefinite Bilinearform Cov[ · , · ] auf L2 (P)
an, so erhalten wir die Cauchy-Schwarz Ungleichung für X, Y ∈ L2 mit Gleichheit genau dann, wenn
Var[X − aY ] = 0, also genau dann, wenn (vergleiche Satz 3.23(iii)) P[X = aY − E[X] + aE[Y ]] = 1,
also die gewünschte Aussage mit b = aE[Y ] − E[X].
Zeigen wir nun also die Aussage für die allgemeine positiv semidefinite Bilinearform. Ohne Einschränkung
gilt y, y > 0 (sonst ist die Aussage trivial). Es gilt dann
0 ≤ y, yx − x, yy, y, yx − x, yy
= y, y2 x, x − 2y, yx, y2 + y, yx, y2
= y, y y, yx, x − x, y2 ,
also
y, yx, x − x, y2 ≥ 0.
Es gilt Gleichheit genau dann, wenn
x, y
x, y
y, x −
y
x−
y, y
y, y
!
= 0.
2
Satz 3.29 (Formel von Blackwell-Girshick) Seien T, X1 , X2 , . . . unabhängige reelle Zufallsvariablen in
L2 (P). Es sei P[T ∈ N0 ] = 1, und es seien X1 , X2 , . . . identisch verteilt. Wir setzen
ST :=
T
Xi .
i=1
Dann ist ST ∈ L2 (P) und
Var[ST ] = E[X1 ]2 Var[T ] + E[T ]Var[X1 ].
68
Erwartungswerte, Varianzen
Beweis Es ist
E[ST2 ] =
∞
n=0
⎡
E ⎣1T =n
n
2 ⎤
Xi
⎦
i=1
⎡
2 ⎤
∞
n
=
E[1T =n ]E ⎣
Xi ⎦
n=0
i=1
⎛ ⎡
2 ⎤ n
2 ⎞
∞
n
=
P[T = n] ⎝E ⎣
(Xi − E[Xi ]) ⎦ +
E[Xi ] ⎠
n=0
=
∞
i=1
i=1
P[T = n] nVar[X1 ] + n2 E[X1 ]2
n=0
= E[T ]Var[X1 ] + E[T 2 ]E[X1 ]2 .
Nach der Wald’schen Identität (Satz 3.15) ist E[ST ] = E[T ]E[X1 ], also ist
Var[ST ] = E[ST2 ] − E[ST ]2 = E[T ]Var[X1 ] + (E[T 2 ] − E[T ]2 )E[X1 ]2 .
2
Dies ist aber die Behauptung.
Wir kommen nun zu einer weiteren wichtigen Ungleichung für reellwertige Zufallsvariablen. Trotz der
Einfachheit des Argumentes ist diese Aussage fundamental.
Satz 3.30 (Markoffungleichung, Tschebyscheffungleichung)
(i) Sei X eine reelle Zufallsvariable und
f : [0, ∞) → [0, ∞) eine monotone Funktion. Dann gilt für jedes a > 0 mit f (a) > 0 die Markoffungleichung
E[f (|X|)]
.
(3.16)
P[|X| ≥ a] ≤
f (a)
(ii) Speziell gilt für X ∈ L2 (P) die Tschebyscheffungleichung
P[|X − E[X]| > a] ≤
Beweis
Var[X]
.
a2
(3.17)
(i) Betrachte die Zufallsvariable Y := f (a)1{|X|≥a} . Dann ist Y ≤ f (|X|), also (nach Satz 3.5(iv))
E[f (|X|)] ≥ E[Y ] = f (a)P[|X| ≥ a].
(ii) Wende (i) auf die Zufallsvariable X = X − E[X] an mit f (x) = x2 .
2
Beispiel 3.31 Sei X ∼ b−
n,p . Wie können wir für a ∈ N die Wahrscheinlichkeit P[X ≥ a] einfach
abschätzen?
1−p
Es ist E[X] = n 1−p
p (siehe Beispiel 3.6) und Var[X] = n p2 (Beispiel 3.20). Daher liefert die Tschebyscheffungleichung
"
P[X ≥ a] ≤ P |X − E[X]| ≥ a − E[X] ≤
Var[X]
1−p
=
.
2
(a − E[X])
(ap − n(1 − p))2
3.4 Der Median
69
3
Beispiel 3.32 Sei X ∼ Poiλ für ein λ > 0. Wie groß ist P[X ≥ a]?
Wir wenden zunächst die Tschebyscheffungleichung an. Es ist E[X] = λ und Var[X] = λ (siehe Beispiel 3.20(ii)). Also ist
Var[X]
λ
P[X ≥ a] ≤
=
.
(3.18)
(a − E[X])2
(a − λ)2
Wir wollen diese Abschätzung verbessern, indem wir eine geeignetere Funktion in der Markoffungleichung
wählen. Setze f (x) := exp(θx), wobei θ := log(a/λ). Dann ist
P[X ≥ a] ≤ e−θa E[eθX ]
∞
λk
= e−θa
e−λ eθk
k!
k=0
−θa −λ λeθ
=e
e
e
θ
= e−θa e−λ(1−e ) .
Dieser Ausdruck wird minimal genau für unsere Wahl von θ, und es folgt
a P[X ≥ a] ≤ exp a − λ − a log
.
λ
(3.19)
3
Für große a ist diese Abschätzung besser als (3.18).
3.4
Der Median
Für reelle Zufallsvariablen X, die keinen Erwartungswert besitzen, ist es nützlich, eine andere Kenngröße
anzugeben, die einen typischen Wert angibt. Dies kann der Median sein, der als derjenige Wert mX definiert ist, so dass X mit Wahrscheinlichkeit mindestens 12 Werte kleiner als mX annimmt, ebenfalls mit
Wahrscheinlichkeit mindestens 12 Werte größer als mX .
Definition 3.33 (Median) Sei µ ein Wahrscheinlichkeitsmaß auf R. Dann heißt jede Zahl m ∈ R mit
µ((−∞, m]) ≥
1
2
und
µ([m, ∞)) ≥
1
2
(3.20)
ein Median von µ. Ist speziell X eine reelle Zufallsvariable, so heißt mX Median von X, falls mX der
Median von PX ist, also falls
P[X ≤ mX ] ≥
1
2
und
P[X ≥ mX ] ≥
1
.
2
(3.21)
Satz 3.34 Die Menge Mµ = {m ∈ R : mist Median von µ} =: [m− , m+ ] ist ein kompaktes Intervall, das
möglicherweise aus nur einem Punkt besteht.
Beweis Seien m1 , m2 ∈ Mµ , m1 ≥ m2 , so ist für jedes m ∈ [m1 , m2 ]:
µ((−∞, m]) ≥ µ((−∞, m2 ]) ≥
1
2
und
µ([m, ∞)) ≥ µ([m1 , ∞)) ≥
1
.
2
70
Erwartungswerte, Varianzen
Also ist m ∈ Mµ . Außerdem gilt µ((−∞, x]) → 0 für x → −∞, also existiert ein x ∈ R mit µ((−∞, x]) ≤
1
4 . Klar ist x ≤ m für alle m ∈ Mµ . Analog existiert ein y ∈ R mit y > m für alle m ∈ Mµ . Also ist Mµ
beschränkt.
Ist #Mµ = 1, so ist klar Mµ kompakt. Sei also nun Mµ ein nicht entartetes Intervall und m− := inf Mµ ∈
R. Sei mn ∈ Mµ für jedes n ∈ N und m1 > m2 > m3 > . . . sowie m− = limn→∞ mn , so ist
µ((−∞, m− ]) = lim µ((−∞, mn ]) ≥
n→∞
1
2
und
1
.
2
Mithin ist m− ∈ Mµ . Analog folgt m+ := sup Mµ ∈ Mµ , also ist Mµ abgeschlossen und damit kompakt.
2
µ([m− , ∞) ≥ µ((m− , ∞)) = lim µ([mn , ∞)) ≥
n→∞
Der Median hat eine einfache Transformationseigenschaft.
Satz 3.35 Sei X eine reelle Zufallsvariable und ϕ : R → R eine monoton wachsende, oder monoton
fallende, Abbildung. Sei ferner mX ein Median von X. Dann ist ϕ(mX ) ein Median der Zufallsvariablen
ϕ(X).
Beweis Sei zunächst ϕ monoton wachsend. Für alle x ∈ R ist {ϕ(X) ≤ ϕ(x)} ⊃ {X ≤ x} und
{ϕ(X) ≥ ϕ(x)} ⊃ {X ≥ x}. Daher ist
P[ϕ(X) ≤ ϕ(mX )] ≥ P[X ≤ mX ] ≥
1
2
und
P[ϕ(X) ≥ ϕ(mX )] ≥ P[X ≥ mX ] ≥
1
.
2
Analog ist für ϕ monoton fallend {ϕ(X) ≤ ϕ(x)} ⊃ {X ≥ x} und {ϕ(X) ≥ ϕ(x)} ⊃ {X ≤ x}. Daher
ist
P[ϕ(X) ≤ ϕ(mX )] ≥ P[X ≥ mX ] ≥
1
2
und
P[ϕ(X) ≥ ϕ(mX )] ≥ P[X ≤ mX ] ≥
1
.
2
2
Beispiel 3.36 Wir nehmen an, dass ein an einem Faden aufgehängter frei drehbarer Spiegel eine zufällige
Lage X einnimmt, die gleichverteilt sein soll in dem Intervall (0, π/2). Um die Lage abzulesen, verwenden
wir einen Laserstrahl, der einen Messpunkt Y auf einem Längeneinheiten entfernten Wandschirm liefert.
Wir können annehmen, dass die Winkel so angegeben sind, dass gilt: Y = tan(X). Welches ist eine gute
Kenngröße für Y ? Die Stammfunktion von x → tan(x) ist x → − log(cos(x)). Also ist
E[Y ] =
0
π/2
x=π/2
2
π
tan(x) dx = − log(cos(x))
= ∞.
π
2
x=0
Andererseits ist von X der Median mX = π4 , also von Y der Median mY = tan(π/4) = . Können wir
nun experimentell mY bestimmen, so können wir ebenfalls auf den Median von X rückschließen durch
3
mX = arctan(mY /
).
Bemerkung 3.37 Ist die Verteilungsfunktion x → FX (x) = P[X ≤ x] streng monoton wachsend, so ist
der Median eindeutig.
3
Beweis Übung!
2
3.4 Der Median
71
Satz 3.38 Ist X ∈ L1 (P), so ist jeder Median mX ein Minimierer des L1 -Abstands zu X:
E[|X − a|] ≥ E[|X − mX |]
für alle x ∈ R]
(3.22)
a ist eine Median von X.
(3.23)
und
E[|X − a|] = E[|X − mX |]
⇐⇒
Beweis Definiere
h(a) := E[|X − a|],
Dann ist
h(a) =
=
=
∞
0 ∞
0 ∞
a ∈ R.
P[|X − a| ≥ t] dt
P[X − a ≥ t] + P[X − a ≤ −t] dt
a
P[X ≥ t] dt +
P[X ≤ t] dt.
−∞
a
Für t < mX ist 1 − P[X ≤ t] − P[X < t] ≤ 0. Für a ≤ b ≤ mX ist daher
h(b) − h(a) =
b
a
=
P[X ≥ t] dt +
a
P[X ≤ t] dt
b
b
(1 − P[X ≤ t] − P[X < t]) dt
a
=
b
(1 − P[X ≤ t] − P[X < t]) dt
a
≤ 0.
Speziell ist h(mX ) ≥ h(a) für alle a ≤ mX . Analog erhält man m(mX ) ≥ h(a) für alle a ≥ mX . Sei nun
m− der kleinste Median von X und b < m− . Dann ist für alle t ∈ (b, m− ) sogar 1 − P[X ≤ t] − P[X <
t] < 0, also h(b) − h(m− ) > 0. Analog erhält man h(b) − h(m+ ) > 0 für alle b die echt größer sind als
2
der größte Median m+ .
Korollar 3.39 Ist X ∈ L2 (P) und ist m ein Median von X, so ist
|m − E[X]| ≤ Var[X] .
(3.24)
Beweis Für jedes c ∈ R ist |E[X] − c| = |E[X − c]| ≤ |E[|X − c|]| = E[|X − c|]. Außerdem ist für
Y ∈ L2 (P) stets E[Y 2 ] = Var[Y ]+E[Y ]2 ≥ E[Y ]2 . Wir wenden dies an mit c = m und Y = |X −E[X]|
und erhalten
|E[X] − m| ≤ E[|X − m|]
Satz 3.38
≤
E[|X − E[X]|] ≤ E[(X − E[X])2 ] = Var[X].
2