Erwartungswerte, Varianzen - staff.uni

Werbung
Kapitel 3
Erwartungswerte, Varianzen
Wir wollen nun Zufallsvariablen eine Maßzahl zuordnen, die ihr typisches Verhalten in vager Weise angibt.
Haben wir n Punkte x1 , . . . , xn ∈ Rd , so ist der Schwerpunkt n1 (x1 + . . . + xn ). Für eine Zufallsvariable,
die mit gleicher Wahrscheinlichkeit jeden der Werte xi annimmt, nennen wir dieses arithmetische Mittel
ihrer Werte den Erwartungswert. Dies ist offenbar eine nützliche Kenngröße. Wir werden diesen Begriff
zunächst auf diskrete Zufallsvariablen erweitern und dann auf allgemeinere reelle Zufallsvariablen. Es folgt
ein Abschnitt über die Größe der Abweichungen von diesen Schwerpunkt, die wir Varianz nennen, und
deren Rolle der des Trägheitsmomentes in der Mechanik entspricht.
3.1
Erwartungswerte für diskrete Zufallsvariablen
Definition 3.1 Sei X eine reelle Zufallsvariable und W := WX ⊂ R abzählbar. Es gelte P[X ∈ W ] = 1.
Dann nennen wir X eine diskrete (reelle) Zufallsvariable mit Wertebereich WX .
Offenbar kann man WX durch jede abzählbare Obermenge von WX ersetzen, der Wertebereich ist also
nicht eindeutig. Klar ist aber für diskrete Zufallsvariablen
P[X = x] = P[X ∈ WX ] = 1.
x∈WX
Setzen wir nun W̃X := {x ∈ WX : P[X = x > 0]}, so ist W̃X der minimale Wertebereich von X. Wir
werden dies im Folgenden aber nicht benötigen.
53
54
Erwartungswerte, Varianzen
Definition 3.2 Sei X eine diskrete reelle Zufallsvariable mit Wertebereich WX . Wir sagen, dass X einen
Erwartungswert hat, falls
|x|P[X = x] < ∞.
x∈WX
1
1
Wir schreiben dann auch X ∈ L := L (P) und nennen
xP[X = x]
E[X] :=
x∈WX
den Erwartungswert von X. Ist P[X ≥ 0] = 1, so nennen wir stets
E[X] :=
xP[X = x] ∈ [0, ∞]
x∈WX
den Erwartungswert von X. Gelegentlich schreiben wir daher auch E[|X|] < ∞ für X ∈ L1 (P).
Beispiel 3.3 Ist (Ω, P) ein diskreter Wahrscheinlichkeitsraum, so ist jede reelle Zufallsvariable diskret und
WX = {X(ω) : ω ∈ Ω}. Es gilt dann
X ∈ L1 (P)
⇐⇒
P[{ω}]|X(ω)| < ∞.
ω∈Ω
In diesem Fall ist
E[X] =
P[{ω}]X(ω).
ω∈Ω
3
Beispiele 3.4
(i) Sei X eine Bernoulli-Zufallsvariable mit Parameter p ∈ [0, 1]: X ∼ Berp . Dann ist
W = {0, 1} und
E[X] = 0 · (1 − p) + 1 · p = p.
(ii) Sei X ∼ bn,p für gewisse n ∈ N und p ∈ [0, 1]. Dann ist W = {0, . . . , n} und
n
n k
k
p (1 − p)n−k
k
k=1
n
n − 1 k−1
=
np
p
(1 − p)(n−1)−(k−1)
k−1
E[X] =
k=1
= np
n−1
bn−1,p ({k}) = np.
k=0
(iii) (Mittlere Wartezeit auf den ersten Erfolg) Sei X ∼ γp geometrisch verteilt mit Parameter p ∈ (0, 1].
1
Sei f (x) = 1−x
. Dann hat f für x ∈ (−1, 1) die Potenzreihenentwicklung
f (x) =
∞
n=0
xn
3.1 Erwartungswerte für diskrete Zufallsvariablen
55
und die Ableitung (per gliedweiser Differentiation)
∞
1
=
f
(x)
=
nxn−1 ,
(1 − x)2
n=0
Also bekommen wir
E[X] =
∞
x ∈ (−1, 1).
p(1 − p)n−1 · n
n=1
= p f (1 − p) =
1
.
p
3
Satz 3.5 (Rechenregeln) Seien X, Y, Xn , Yn ∈ L1 (P), n ∈ N, diskrete reelle Zufallsvariablen auf
(Ω, A, P). Dann gilt
(i) Ist PX = PY , so ist E[X] = E[Y ].
(ii) (Linearität) Es gelten für alle c ∈ R: cX ∈ L1 (P), X + Y ∈ L1 (P) (mit der Dreiecksungleichung
E[|X + Y |] ≤ E[|X|] + E[|Y |]) sowie
E[cX] = cE[X]
E[X + Y ] = E[X] + E[Y ].
(iii) Ist P[X ≥ 0] = 1, so sind äquivalent
E[X] = 0
⇐⇒
P[X = 0] = 1.
(iv) (Monotonie) Gilt P[X ≤ Y ] = 1, so gilt E[X] ≤ E[Y ] mit Gleichheit genau dann, wenn P[X =
Y ] = 1.
∞
(v) Ist P[Xn ≥ 0] = 1 für alle n ∈ N und gilt P[ n=1 Xn = X] = 1, so ist
E[X] =
∞
E[Xn ].
n=1
(vi) Gilt Yn ↑ Y , so gilt E[Y ] = limn→∞ E[Yn ].
(vii) Sind X und Y unabhängig, so ist X · Y ∈ L1 (P) und E[XY ] = E[X]E[Y ].
Beweis
(i) Klar.
(ii) Klar ist WcX = cWX := {cx : x ∈ WX } also
|y|P[cX = y] = |c| ·
|x| · P[X = x] < ∞.
y∈WcX
x∈WX
Die selbe Rechnung ohne Betragstriche liefert E[cX] = cE[X].
56
Erwartungswerte, Varianzen
Klar ist WX+Y = WX + WY := {x + y : x ∈ WX , y ∈ WY }. Also ist nach der Formel von der
totalen Wahrscheinlichkeit
|z|P[X + Y = z]
E[|X + Y |] =
z∈WX+Y
=
|z|P[X = x, X + Y = z]
x∈WX , z∈WX+Y
=
|x + y|P[X = x, Y = y]
x∈WX , y∈WY
≤
(|x| + |y|)P[X = x, Y = y]
x∈WX y∈WY
=
x∈WX
=
|x|
P[X = x, Y = y] +
y∈WY
|x|P[X = x] +
x∈WX
|y|
y∈WY
P[X = x, Y = y]
x∈WX
|y|P[Y = y]
y∈WY
= E[|X|] + E[|Y |].
Die selbe Rechnung ohne Betragstriche ergibt E[X + Y ] = E[X] + E[Y ]. Dabei dürfen wir die
Summationsreihenfolge vertauschen, weil nach dem eben gezeigten alle Reihen absolut konvergieren.
(iii) Der Wertebereich von X ist WX ⊂ [0, ∞), also ist E[X] = x∈WX xP[X = x] ≥ 0.
Sei nun P[X ≥ 0] = 1 und E[X] = 0. Dann ist für n ∈ N
0 = E[X] =
xP[X = x]
x∈WX
≥
xP[X = x]
1
x∈WX ∩[ n
,∞)
≥
1
x∈WX ∩[ n
,∞)
1
P[X = x]
n
1
1
P[X ∈ WX ∩ [ , ∞)]
n
n
1
1
= P[X ≥ ],
n
n
=
also P[X ≥
1
n]
= 0. Wegen {X ≥
1
n}
↑ {X > 0} folgt
P[X > 0] = lim P[X ≥
n→∞
1
] = 0.
n
(iv) Setze Z := Y − X und wende (iii) auf Z an.
N
(v) Für N ∈ N setze SN := n=1 Xn . Dann ist SN ≤ X nach Voraussetzung, also E[X] ≥ E[SN ]
(nach (iv)) und damit
E[X] ≥ lim E[SN ] = lim
N →∞
N →∞
N
n=1
E[Xn ] =
∞
n=1
E[Xn ].
3.1 Erwartungswerte für diskrete Zufallsvariablen
57
Um die andere Ungleichung zu zeigen, zeigen wir dass für jedes c ∈ (0, 1) gilt
cE[X] ≤
∞
E[Xn ].
(3.1)
n=1
Definiere die Zufallsvariable T mit Werten in N durch
T := min{N ∈ N : SN ≥ cX}.
Wegen SN ↑ X und c < 1 folgt P[T < ∞] = 1. Betrachte nun die Zufallsvariable ST : ω →
∞
ST (ω) (ω). Dann ist der Wertebereich WST ⊂ N =1 WSN abzählbar, also ST diskret. Per Konstruktion ist ST ≥ cX also
cE[X] ≤ E[ST ]
sP[ST = s]
=
s∈WST
=
∞
sP[SN = s, T = N ]
N =1 s∈WST
=
∞
sP[(SN 1{T =N } ) = s]
N =1 s∈WST
=
∞
E[SN 1{T =N } ]
N =1
=
∞ N
E[Xn 1{T =N } ]
N =1 n=1
=
∞ N
xP[Xn = x, T = N ]
N =1 n=1 x∈WXn
=
∞
∞
xP[Xn = x, T = N ]
n=1 x∈WXn N =n
=
∞
xP[Xn = x, T ≥ N ]
n=1 x∈WXn
≤
∞
xP[Xn = x]
n=1 x∈WXn
=
∞
E[Xn ].
n=1
(vi) Wende (v) an auf Xn = Yn+1 − Yn und X = Y − Y1 .
58
Erwartungswerte, Varianzen
(vii) Klar ist WXY = {xy : x ∈ Wx , y ∈ Wy } abzählbar. Also ist
E[|XY |] =
|z|P[XY = z]
z∈WXY
=
|x| · |z/x|P[Y = z/x, X = x]
z∈WXY x∈WX , x=0
=
|x| · |y|P[Y = y, X = x]
y∈WY x∈WX
=
|x|P[X = x] · |y|P[Y = y]
y∈WY x∈WX
= E[|X|] · E[|Y |] < ∞.
Also ist XY ∈ L1 . Die selbe Rechnung ohne Betragstriche liefert E[XY ] = E[X] · E[Y ].
2
Beispiele 3.6
(i) (Binomialverteilung) Sei X ∼ bn,p für n ∈ N und p ∈ [0, 1]. Sind X1 , . . . , Xn und
abhängig und Bernoulli verteilt mit Parameter p, so ist X = X1 + . . . + Xn , also
E[X] = E[X1 + . . . + Xn ] = E[X1 ] + . . . + E[Xn ] = pn.
(ii) (Negative Binomialverteilung) Sei X ∼ b−
n,p und seien X1 , . . . , Xn unabhängig und geometrisch
verteilt mit Parameter p. Nach Beispiel 3.4 ist E[X1 ] = p1 . Es ist Xi − 1 ∼ b−
1,p und (vergleiche
d
Beispiel 2.38) X = X1 + . . . + Xn − n. Also ist E[X] = nE[X1 ] − n =
1−p
p n.
3
Beispiel 3.7 In einer Urne seien m blaue Kugeln und n rote Kugeln. Wir ziehen diese ohne Zurücklegen
und legen sie von links nach rechts aufgereiht auf einen Tisch. Wie groß ist die erwartete Anzahl von blauen
Kugeln, neben denen rechts eine rote Kugel liegt? Wir setzen für i = 1, . . . , m + n
Xi =
1,
0,
die i-te Kugel ist blau,
sonst.
Setze
Yi = 1{Xi =1} 1{Xi+1 =0} ,
i = 1, . . . , m + n − 1,
und Y := Y1 + . . . + Ym+n−1 . Dann ist
P[Yi = 1] = P[Y1 = 1] =
also E[Yi ] =
mn
(m+n)(m+n−1) .
n
m
,
m+n m+n−1
Insgesamt ist die gesuchte erwartete Anzahl
E[Y ] =
m+n−1
i=1
E[Yi ] =
mn
.
m+n
3
3.2 Erwartungswerte für allgemeine reelle Zufallsvariablen
3.2
59
Erwartungswerte für allgemeine reelle Zufallsvariablen
Sei X eine reelle Zufallsvariable. Dann ist (mit x := max{k ∈ Z : k ≤ x})
Xn := 2−n 2n X
eine diskrete Zufallsvariable mit Wertebereich WXn = 2−n Z. Offenbar ist
Xn ≤ X ≤ Xn + 2−n
(3.2)
|Xn | − 2−n ≤ |X| ≤ |Xn | + 2−n .
(3.3)
und
Ferner ist Xn ↑ X. In Anlehnung an Satz 3.5(vi) treffen wir die folgende Definition.
Definition 3.8 (Erwartungswert für allgemeine reelle Zufallsvariablen) Wir sagen, dass eine reelle Zufallsvariable X einen Erwartungswert besitzt (und schreiben X ∈ L1 (P) oder E[|X|] < ∞), falls
Xn ∈ L1 (P) für ein n ∈ N (und damit für alle n ∈ N) und nennen
E[X] := lim E[Xn ]
n→∞
den Erwartungswert von X.
Satz 3.9 Die Rechenregeln aus Satz 3.5 gelten auch für nicht-diskrete Zufallsvariablen.
Beweis Man muss jeweils immer nur zeigen, dass Summation und Limes vertauschen. Nach (3.2) und
(3.3) sind die Limiten jeweils gleichmäßig, vertauschen also mit der Summation. Wir lassen die Details aus
und verweisen auf die Vorlesung Stochastik I“. Exemplarisch sei hier nur die Additivität gezeigt. Seien
”
also X, Y ∈ L1 (P). Dann ist
|E[X + Y ] − E[X] − E[Y ]| = lim E[2−n 2n (X + Y ) − 2−n 2n X − 2−n 2n Y n→∞
≤ lim 4 · 2−n = 0.
n→∞
2
Bemerkung 3.10 Ist X eine reelle Zufallsvariable mit P[X ≥ 0] = 1, so ist
∞
E[X] =
P[X ≥ t] dt.
(3.4)
0
Nimmt speziell X Werte in N0 an, so ist
E[X] =
∞
P[X ≥ n].
(3.5)
n=1
3
60
Erwartungswerte, Varianzen
Beweis Gelte zunächst P[X ∈ N0 ] = 1. Dann ist
∞
E[X] =
kP[X = k]
k=1
∞ k
=
P[X = k]
k=1 n=1
∞
∞ =
P[X = k]
n=1 k=n
∞
=
P[X ≥ n].
n=1
Sei nun der allgemeine Fall X ≥ 0 betrachtet. Sei Xn := 2−n 2n X. Dann ist
E[X] = lim E[Xn ]
n→∞
= lim 2−n
n→∞
= lim 2−n
n→∞
=
∞
0
∞
k=1
∞
P[Xn ≥ k2−n ]
P[X ≥ k2−n ]
k=1
P[X ≥ t] dt,
wobei wir im letzten Schritt die Reihe als Riemann-Summe angesehen haben, die das Integral approximiert.
2
Satz 3.11 Sei X eine reelle Zufallsvariable und habe die Verteilung PX eine Dichte fX . Dann gilt
∞
fX (x) |x| dx < ∞.
E[|X|] < ∞
⇐⇒
(3.6)
−∞
Ist E[|X|] < ∞, so ist
E[X] =
∞
−∞
f (x)x dx.
(3.7)
Beweis Seien Xn , n ∈ N, approximierende Zufallsvariablen wie oben. Dann ist (wegen |x| − 2−n ≤
|2−n 2n x| ≤ |x| + 2−n )
E[|Xn |] =
|k2−n |P[Xn = k2−n ]
k∈Z
=
|k2−n |
k∈Z
≤
k∈Z
∞
(k+1)2−n
k2−n
(k+1)2−n
k2−n
f (x) dx
(|x| + 2−n )f (x) dx
(|x| + 2−n )f (x) dx
∞
−n
=2 +
|x| f (x) dx.
=
−∞
−∞
3.2 Erwartungswerte für allgemeine reelle Zufallsvariablen
Analog erhalten wir
E[|Xn |] ≥ −2−n +
∞
−∞
61
f (x)|x| dx.
Also haben wir (3.6) gezeigt. Die selbe Rechnung ohne Betragstriche liefert (3.6).
2
2
2
Beispiel 3.12 Sei
√ X ∼ Nµ,σ normalverteilt mit Parametern µ ∈ R und σ > 0. Nach Beispiel 1.54 ist
Y := (X − µ)/ σ 2 ∼ N0,1 . Die Verteilung von Y hat die Dichte
2
1
f (x) = √ e−x /2 ,
2π
Daher ist
∞
2
|x|f (x) dx = √
2π
−∞
∞
0
x ∈ R.
2
x e−x
/2
2
< ∞.
dx = √
2π
Also ist Y ∈ L1 und damit X ∈ L1 . Weiter ist f (x) = f (−x), also x → xf (x) eine ungerade Funktion
und damit
∞
E[Y ] =
Folglich ist E[X] = µ +
√
σ 2 E[Y ] = µ.
−∞
xf (x) = 0.
3
Beispiel 3.13 Sei X Standard-Cauchy verteilt, das heißt X ist reell mit Dichte
1 1
,
π 1 + x2
f (x) =
x ∈ R.
Dann ist f (x) = f (−x) wie bei der Normalverteilung, aber hier existiert der Erwartungswert nicht (und ist
insbesondere nicht Null), denn
∞
2 ∞ x
2 ∞ x
1 ∞1
dx = ∞
|x|f (x) dx =
dx
≥
dx
≥
π 0 1 + x2
π 1 1 + x2
π 1 x
−∞
(wobei wir für x ≥ 1 ausgenutzt haben, dass
1
1+x2
≥
1
2x2 ).
Also ist E[|X|] = ∞.
3
Beispiel 3.14 Seien X1 , X2 , . . . identisch verteilte Zufallsvariablen mit E[|X1 |] < ∞. Dann gilt
P[|Xn | ≥ n für unendlich viele n ∈ N] = 0.
(Vergleiche Beispiel 2.39.) Dies folgt leicht aus dem Borel-Cantelli Lemma, denn nach Bemerkung 3.10 ist
∞
n=1
P[|Xn | ≥ n] =
∞
P[|X1 | ≥ n] = E[|X1 |] < ∞.
n=1
3
Satz 3.15 (Wald’sche Identität) Seien T, X1 , X2 , . . . unabhängige reelle Zufallsvariablen in L1 (P). Es
sei P[T ∈ N0 ] = 1, und es seien X1 , X2 , . . . identisch verteilt. Wir setzen
ST :=
T
Xi .
i=1
Dann ist ST ∈ L1 (P) und
E[ST ] = E[T ]E[X1 ].
62
Erwartungswerte, Varianzen
Beweis Setze Sn =
n
i=1
Xi für n ∈ N0 . Dann ist (mit Hilfe der Dreiecksungleichung, siehe Satz 3.5(i))
E[|ST |] =
=
≤
∞
n=1
∞
n=1
∞
E[|Sn |1{T =n} ]
E[|Sn |]E[1{T =n} ]
E[|X1 |]nP[T = n]
n=1
= E[|X1 |]E[T ].
2
Die selbe Rechnung ohne Betragstriche liefert die Aussage.
3.3
Varianzen
Wir wollen in diesem Abschnitt Varianzen und Kovarianzen von reellen Zufallsvariablen untersuchen.
Zunächst betrachten wir allgemein Erwartungswerte von Funktionen von Zufallsvariablen, danach speziell
quadratische Funktionen, die die Kovarianzen und Varianzen definieren.
Satz 3.16
(i) Sei X = (X1 , . . . , Xn ) eine diskrete Rn -wertige Zufallsvariable (mit Wertebereich WX )
und H : Rn → Reine beliebige Abbildung. Setze Y := H(X1 , . . . , Xn ). Dann ist Y ∈ L1 (P)
genau dann, wenn x∈WX |H(x)|P[X = x] < ∞. In diesem Fall ist
E[H(X)] =
H(x) P[X = x].
x∈WX
Xn ) ein Rn -wertige Zufallsvariable mit Dichte fX (also P[X1 ≤ x1 , . . . , Xn ≤
(ii) Sei X =
1, . . . , x(X
xn
1
dtn fX (t1 , . . . , tn )) und H : Rn → R eine messbare Abbildung sowie Y :=
xn ] = −∞ dt1 · · · −∞
H(X). Dann ist Y ∈ L1 (P) genau dann, wenn Rn dx1 . . . dxn |H(x1 , . . . , xn )| · fX (x1 , . . . , xn ) <
∞. In diesem Fall gilt
∞
∞
dx1 · · ·
dxn H(x1 , . . . , xn ) fX (x1 , . . . , xn ).
E[H(X)] =
−∞
−∞
Beweis
(i) Für den Wertebereich WH(X) gilt klar WH(X) = H(WX ) := {H(x) : x ∈ WX }.
Für
jedes
y ∈ WH(X) ist das Ereignis {H(X) = y}die disjunkte Vereinigung {H(X) = y} =
x∈H −1 ({y}) {X = x}. Es gilt also P[H(X) = y] =
x∈H −1 ({y}) P[X = x]. Mithin ist
E[|H(X)|] =
|y| P[H(X) = y]
y∈WH(X)
=
|y| P[X = x]
y∈WH(X) x∈H −1 ({y})
=
|H(x)| P[X = x]
y∈WH(X) x∈H −1 ({y})
=
|H(x)| P[X = x].
x∈WX
Die selbe Rechnung ohne Betragstriche liefert die Aussage.
3.3 Varianzen
63
(ii) Wir betrachten zunächst nur H : Rn → [0, ∞). Dann ist nach Bemerkung 3.10
∞
P[H(X) ≥ t] dt
E[H(X)] =
∞
0 ∞ ∞
dt
dx1 · · ·
dxn f (x1 , . . . , xn )1[t,∞) (H(x1 , . . . , xn ))
=
0
−∞
−∞
∞
∞
∞
=
dx1 · · ·
dxn f (x1 , . . . , xn )
dt1[t,∞) (H(x1 , . . . , xn ))
−∞
−∞
0
∞
∞
=
dx1 · · ·
dxn f (x1 , . . . , xn )H(x1 , . . . , xn ).
−∞
−∞
Für allgemeines H : Rn → R betrachte H = H + − H − mit H + : Rn → [0, ∞) und H − : Rn →
[0, ∞). Dann ist nach dem bisher Gezeigten
E[|H(X)|] = E[H + (X)] + E[H − (X)]
∞
∞
=
dx1 · · ·
dxn f (x1 , . . . , xn ) H + (x1 , . . . , xn ) + H − (x1 , . . . , xn )
−∞
−∞
∞
∞
=
dx1 · · ·
dxn f (x1 , . . . , xn ) |H(X)|.
−∞
−∞
Die selbe Rechnung ohne Betragstriche liefert die Aussage.
2
Sei stets X eine reelle Zufallsvariable, und sei p ≥ 1.
Definition 3.17 Wir sagen, dass X ein p-tes Moment besitzt, falls
Mp (X) := E[|X|p ] < ∞.
Wir schreiben dann X ∈ Lp := Lp (P) und nennen Mp (X) das p–te absolute Moment von X. Ist p ∈ N
und Mp (X) < ∞ , oder p ∈ {2, 4, 6, . . .}, oder ist X ≥ 0, so heißt
mp (X) := E[X p ]
das p–te Moment von X.
Satz 3.18 Ist p ≥ r ≥ 1 und X ∈ Lp , so ist X ∈ Lr .
Beweis Die folgt direkt aus der Ungleichung |x|r ≤ 1 + |x|p für alle x ∈ R.
Definition 3.19 Seien X, Y ∈ L2 . Dann heißt
Var[X] := E[X 2 ] − E[X]2
die Varianz von X und σ :=
Var[X] heißt die Streuung von X. Ferner heißt
Cov[X, Y ] := E[XY ] − E[X]E[Y ]
die Kovarianz von X und Y . Gilt Cov[X, Y ] = 0, so heißen X und Y unkorreliert.
2
64
Erwartungswerte, Varianzen
Bemerkung Man beachte, dass |xy| ≤ x2 +y 2 . Daher ist E[|XY |] ≤ E[X 2 ]+E[Y 2 ] < ∞. Für X, Y ∈ L2
existiert also stets die Kovarianz.
Beispiele 3.20
(i) Sei X ∼ Berp . Dann ist E[X] = p und X 2 = X, also E[X 2 ] = p. Mithin ist
Var[X] = p − p2 = p(1 − p).
(3.8)
(ii) Sei X ∼ Poiλ für ein λ ≥ 0. Dann ist E[X] = λ und
E[X(X − 1)] =
∞
e−λ k(k − 1)
k=2
∞
λk
λk
= λ2
= λ2 .
e−λ
k!
k!
k=0
Also ist
Var[X] = E[X 2 ] − E[X]2 = E[X(X − 1)] + E[X] − E[X]2 = λ2 + λ − λ2 = λ.
(iii) Sei X ∼ γp für p ∈ (0, 1]. Dann ist E[X] =
f (x) =
Dann ist
und
1
p
(3.9)
(siehe Beispiel 3.4(iii)). Setze
∞
1
=
xn ,
1 − x n=0
x ∈ (−1, 1).
1
= f (x) =
nxn−2 ,
2
(1 − x)
n=1
2
= f (x) =
n(n − 1)xn−2 ,
3
(1 − x)
n=1
also
E[X 2 ] = p
∞
n2 (1 − p)n−1
n=0
= pf (1 − p) + (1 − p)f (1 − p)
=
2−p
1 2(1 − p)
+
=
.
p
p2
p2
Insgesamt erhalten wir
Var[X] = E[X 2 ] − E[X]2 =
2−p
1
1−p
− 2 =
.
p2
p
p2
(3.10)
3
Satz 3.21 Sind X, Y ∈ L2 (P) unabhängig, so sind X und Y unkorreliert.
Beweis Nach Satz 3.5(vii) ist E[XY ] = E[X]E[Y ]. Hieraus folgt direkt die Aussage.
2
3.3 Varianzen
65
Bemerkung 3.22 Ins Satz 3.21 gilt die umgekehrte Implikation natürlich nicht. Hierzu betrachten wir als
Beispiel X und Y mit
P[X = 0, Y = −1] = P[X = 0, Y = 1] = P[X = −1, Y = 0] = P[X = 1, Y = 0] =
Dann ist Cov[X, Y ] = 0, aber P[X = 0, Y = 0] = 0 =
1
4
1
.
4
= P[X = 0]P[Y = 0].
3
Satz 3.23 Es gelten
(i) Cov[X, Y ] = E[(X − E[X])(Y − E[Y ])]
(ii) Var[X] = E[(X − E[X])2 ]
(iii) Speziell ist stets Var[X] ≥ 0 und
Var[X] = 0
Beweis
⇐⇒
P[X = E[X]] = 1.
(3.11)
(i) Dies liefert die einfache Rechnung
E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[E[X]Y ] − E[XE[Y ]] + E[E[X]E[Y ]]
= E[XY ] − E[X]E[Y ] − E[X]E[Y ] + E[X]E[Y ]
= E[XY ] − E[X]E[Y ]
= Cov[X, Y ].
(ii) Dies folgt direkt aus (i), weil Var[X] = Cov[X, X].
(iii) Die Aussage folgt aus (ii) zusammen mit Satz 3.5(iii)), angewandt auf die Zufallsvariable (X −
E[X])2 .
2
Beispiel 3.24 Sei X ∼ Nµ,σ2 mit µ ∈ R und σ 2 > 0. Dann ist E[X] = µ und mittels affiner Substitution
und partieller Integration erhalten wir
Var[X] = E[(X − µ)2 ]
∞
1
(x − µ)2
2
=√
(x − µ) exp −
dx
2σ 2
2πσ 2 −∞
∞
x2
1
x2 exp − 2 dx
=√
2σ
2πσ 2 −∞
2
2 ∞
x
σ
x2 exp −
=√
dx
2
2π −∞
2 ∞
∞
2
x
σ2
−xe−x /2 +
exp −
dx
=√
2
−∞
2π
−∞
= σ2 .
3
66
Erwartungswerte, Varianzen
Satz 3.25 Die Abbildung
Cov : L2 (P) × L2 (P) → R
ist eine positiv semidefinite symmetrische Bilinearform mit Cov[X, Y ] = 0, falls es ein y ∈ R gibt mit
P[Y = y] = 1. Ausgeschrieben heißt dies: Für X1 , . . ., Xm , Y1 , . . ., Yn ∈ L2 (P) und α1 , . . . , αm ,
β1 , . . . , βn ∈ R, sowie d, e ∈ R
⎤
⎡
m
n
Cov ⎣d +
αi Xi , e +
βj Yj ⎦ =
αi βj Cov[Xi , Yj ].
(3.12)
i=1
j=1
i,j
Speziell gilt die Bienaymé-Gleichung
m
m
m
Var
Xi =
Var[Xi ] +
Cov[Xi , Xj ].
i=1
Für unkorrelierte (speziell also für unabhängige) X1 , . . . , Xm gilt
m
m
Var
Xi =
Var[Xi ].
i=1
Beweis
⎡
Cov ⎣d +
m
αi Xi , e +
i=1
(3.13)
i,j=1
i=j
i=1
(3.14)
i=1
n
⎤
βj Yj ⎦
j=1
⎡
⎞⎤
⎛ n
m
= E⎣
αi (Xi − E[Xi ]) ⎝
βj (Yj − E[Yj ])⎠⎦
i=1
=
n
m j=1
αi βj E[(Xi − E[Xi ])(Yj − E[Yj ])]
i=1 j=1
=
m n
αi βj Cov[Xi , Yj ].
i=1 j=1
2
Beispiel 3.26 Seien n ∈ N und p ∈ [0, 1], sowie X ∼ bn,p . Wir wollen die Varianz von X ausrechnen.
Seien X1 , . . . , Xn unabhängig und Bernoulliverteilt mit Parameter p (und damit Var[Xi ] = p(1−p). Dann
d
ist X = X1 + . . . + Xn , also
Var[X] = Var[X1 + . . . + Xn ] = Var[X1 ] + . . . + Var[Xn ] = np(1 − p).
3
3.3 Varianzen
67
Beispiel 3.27 Seien n ∈ N und p ∈ (0, 1], sowie X ∼ b−
n,p . Seien X1 , . . . , Xn unabhängig Xi ∼ γp . (und
damit Var[Xi ] =
1−p
p2
d
nach Beispiel 3.20(iii)). Dann ist X = X1 + . . . + Xn − n, also
Var[X] = Var[X − n] = Var[X1 + . . . + Xn ] = n
1−p
.
p2
3
Korollar 3.28 Sind X, Y ∈ L2 , so gilt die Cauchy-Schwarz-Ungleichung
2
(Cov[X, Y ]) ≤ Var[X] Var[Y ].
(3.15)
In (3.15) gilt Gleichheit genau dann, wenn es Zahlen a, b ∈ R gibt mit P[X = aY + b] = 1. In diesem
Fall nennen wir X und Y perfekt korreliert.
Beweis Die Cauchy-Schwarz Ungleichung gilt für jede positiv semidefinite Bilinearform · , · auf einem
Vektorraum V . Es gilt jeweils Gleichheit x, y2 = x, xy, y genau dann, wenn es eine Zahl a ∈ R gibt
mit x − ay, x − ay = 0. Wenden wir dies auf die positiv semidefinite Bilinearform Cov[ · , · ] auf L2 (P)
an, so erhalten wir die Cauchy-Schwarz Ungleichung für X, Y ∈ L2 mit Gleichheit genau dann, wenn
Var[X − aY ] = 0, also genau dann, wenn (vergleiche Satz 3.23(iii)) P[X = aY − E[X] + aE[Y ]] = 1,
also die gewünschte Aussage mit b = aE[Y ] − E[X].
Zeigen wir nun also die Aussage für die allgemeine positiv semidefinite Bilinearform. Ohne Einschränkung
gilt y, y > 0 (sonst ist die Aussage trivial). Es gilt dann
0 ≤ y, yx − x, yy, y, yx − x, yy
= y, y2 x, x − 2y, yx, y2 + y, yx, y2
= y, y y, yx, x − x, y2 ,
also
y, yx, x − x, y2 ≥ 0.
Es gilt Gleichheit genau dann, wenn
x, y
x, y
y, x −
y
x−
y, y
y, y
!
= 0.
2
Satz 3.29 (Formel von Blackwell-Girshick) Seien T, X1 , X2 , . . . unabhängige reelle Zufallsvariablen in
L2 (P). Es sei P[T ∈ N0 ] = 1, und es seien X1 , X2 , . . . identisch verteilt. Wir setzen
ST :=
T
Xi .
i=1
Dann ist ST ∈ L2 (P) und
Var[ST ] = E[X1 ]2 Var[T ] + E[T ]Var[X1 ].
68
Erwartungswerte, Varianzen
Beweis Es ist
E[ST2 ] =
∞
n=0
⎡
E ⎣1T =n
n
2 ⎤
Xi
⎦
i=1
⎡
2 ⎤
∞
n
=
E[1T =n ]E ⎣
Xi ⎦
n=0
i=1
⎛ ⎡
2 ⎤ n
2 ⎞
∞
n
=
P[T = n] ⎝E ⎣
(Xi − E[Xi ]) ⎦ +
E[Xi ] ⎠
n=0
=
∞
i=1
i=1
P[T = n] nVar[X1 ] + n2 E[X1 ]2
n=0
= E[T ]Var[X1 ] + E[T 2 ]E[X1 ]2 .
Nach der Wald’schen Identität (Satz 3.15) ist E[ST ] = E[T ]E[X1 ], also ist
Var[ST ] = E[ST2 ] − E[ST ]2 = E[T ]Var[X1 ] + (E[T 2 ] − E[T ]2 )E[X1 ]2 .
2
Dies ist aber die Behauptung.
Wir kommen nun zu einer weiteren wichtigen Ungleichung für reellwertige Zufallsvariablen. Trotz der
Einfachheit des Argumentes ist diese Aussage fundamental.
Satz 3.30 (Markoffungleichung, Tschebyscheffungleichung)
(i) Sei X eine reelle Zufallsvariable und
f : [0, ∞) → [0, ∞) eine monotone Funktion. Dann gilt für jedes a > 0 mit f (a) > 0 die Markoffungleichung
E[f (|X|)]
.
(3.16)
P[|X| ≥ a] ≤
f (a)
(ii) Speziell gilt für X ∈ L2 (P) die Tschebyscheffungleichung
P[|X − E[X]| > a] ≤
Beweis
Var[X]
.
a2
(3.17)
(i) Betrachte die Zufallsvariable Y := f (a)1{|X|≥a} . Dann ist Y ≤ f (|X|), also (nach Satz 3.5(iv))
E[f (|X|)] ≥ E[Y ] = f (a)P[|X| ≥ a].
(ii) Wende (i) auf die Zufallsvariable X = X − E[X] an mit f (x) = x2 .
2
Beispiel 3.31 Sei X ∼ b−
n,p . Wie können wir für a ∈ N die Wahrscheinlichkeit P[X ≥ a] einfach
abschätzen?
1−p
Es ist E[X] = n 1−p
p (siehe Beispiel 3.6) und Var[X] = n p2 (Beispiel 3.20). Daher liefert die Tschebyscheffungleichung
"
P[X ≥ a] ≤ P |X − E[X]| ≥ a − E[X] ≤
Var[X]
1−p
=
.
2
(a − E[X])
(ap − n(1 − p))2
3.4 Der Median
69
3
Beispiel 3.32 Sei X ∼ Poiλ für ein λ > 0. Wie groß ist P[X ≥ a]?
Wir wenden zunächst die Tschebyscheffungleichung an. Es ist E[X] = λ und Var[X] = λ (siehe Beispiel 3.20(ii)). Also ist
Var[X]
λ
P[X ≥ a] ≤
=
.
(3.18)
(a − E[X])2
(a − λ)2
Wir wollen diese Abschätzung verbessern, indem wir eine geeignetere Funktion in der Markoffungleichung
wählen. Setze f (x) := exp(θx), wobei θ := log(a/λ). Dann ist
P[X ≥ a] ≤ e−θa E[eθX ]
∞
λk
= e−θa
e−λ eθk
k!
k=0
−θa −λ λeθ
=e
e
e
θ
= e−θa e−λ(1−e ) .
Dieser Ausdruck wird minimal genau für unsere Wahl von θ, und es folgt
a P[X ≥ a] ≤ exp a − λ − a log
.
λ
(3.19)
3
Für große a ist diese Abschätzung besser als (3.18).
3.4
Der Median
Für reelle Zufallsvariablen X, die keinen Erwartungswert besitzen, ist es nützlich, eine andere Kenngröße
anzugeben, die einen typischen Wert angibt. Dies kann der Median sein, der als derjenige Wert mX definiert ist, so dass X mit Wahrscheinlichkeit mindestens 12 Werte kleiner als mX annimmt, ebenfalls mit
Wahrscheinlichkeit mindestens 12 Werte größer als mX .
Definition 3.33 (Median) Sei µ ein Wahrscheinlichkeitsmaß auf R. Dann heißt jede Zahl m ∈ R mit
µ((−∞, m]) ≥
1
2
und
µ([m, ∞)) ≥
1
2
(3.20)
ein Median von µ. Ist speziell X eine reelle Zufallsvariable, so heißt mX Median von X, falls mX der
Median von PX ist, also falls
P[X ≤ mX ] ≥
1
2
und
P[X ≥ mX ] ≥
1
.
2
(3.21)
Satz 3.34 Die Menge Mµ = {m ∈ R : mist Median von µ} =: [m− , m+ ] ist ein kompaktes Intervall, das
möglicherweise aus nur einem Punkt besteht.
Beweis Seien m1 , m2 ∈ Mµ , m1 ≥ m2 , so ist für jedes m ∈ [m1 , m2 ]:
µ((−∞, m]) ≥ µ((−∞, m2 ]) ≥
1
2
und
µ([m, ∞)) ≥ µ([m1 , ∞)) ≥
1
.
2
70
Erwartungswerte, Varianzen
Also ist m ∈ Mµ . Außerdem gilt µ((−∞, x]) → 0 für x → −∞, also existiert ein x ∈ R mit µ((−∞, x]) ≤
1
4 . Klar ist x ≤ m für alle m ∈ Mµ . Analog existiert ein y ∈ R mit y > m für alle m ∈ Mµ . Also ist Mµ
beschränkt.
Ist #Mµ = 1, so ist klar Mµ kompakt. Sei also nun Mµ ein nicht entartetes Intervall und m− := inf Mµ ∈
R. Sei mn ∈ Mµ für jedes n ∈ N und m1 > m2 > m3 > . . . sowie m− = limn→∞ mn , so ist
µ((−∞, m− ]) = lim µ((−∞, mn ]) ≥
n→∞
1
2
und
1
.
2
Mithin ist m− ∈ Mµ . Analog folgt m+ := sup Mµ ∈ Mµ , also ist Mµ abgeschlossen und damit kompakt.
2
µ([m− , ∞) ≥ µ((m− , ∞)) = lim µ([mn , ∞)) ≥
n→∞
Der Median hat eine einfache Transformationseigenschaft.
Satz 3.35 Sei X eine reelle Zufallsvariable und ϕ : R → R eine monoton wachsende, oder monoton
fallende, Abbildung. Sei ferner mX ein Median von X. Dann ist ϕ(mX ) ein Median der Zufallsvariablen
ϕ(X).
Beweis Sei zunächst ϕ monoton wachsend. Für alle x ∈ R ist {ϕ(X) ≤ ϕ(x)} ⊃ {X ≤ x} und
{ϕ(X) ≥ ϕ(x)} ⊃ {X ≥ x}. Daher ist
P[ϕ(X) ≤ ϕ(mX )] ≥ P[X ≤ mX ] ≥
1
2
und
P[ϕ(X) ≥ ϕ(mX )] ≥ P[X ≥ mX ] ≥
1
.
2
Analog ist für ϕ monoton fallend {ϕ(X) ≤ ϕ(x)} ⊃ {X ≥ x} und {ϕ(X) ≥ ϕ(x)} ⊃ {X ≤ x}. Daher
ist
P[ϕ(X) ≤ ϕ(mX )] ≥ P[X ≥ mX ] ≥
1
2
und
P[ϕ(X) ≥ ϕ(mX )] ≥ P[X ≤ mX ] ≥
1
.
2
2
Beispiel 3.36 Wir nehmen an, dass ein an einem Faden aufgehängter frei drehbarer Spiegel eine zufällige
Lage X einnimmt, die gleichverteilt sein soll in dem Intervall (0, π/2). Um die Lage abzulesen, verwenden
wir einen Laserstrahl, der einen Messpunkt Y auf einem Längeneinheiten entfernten Wandschirm liefert.
Wir können annehmen, dass die Winkel so angegeben sind, dass gilt: Y = tan(X). Welches ist eine gute
Kenngröße für Y ? Die Stammfunktion von x → tan(x) ist x → − log(cos(x)). Also ist
E[Y ] =
0
π/2
x=π/2
2
π
tan(x) dx = − log(cos(x))
= ∞.
π
2
x=0
Andererseits ist von X der Median mX = π4 , also von Y der Median mY = tan(π/4) = . Können wir
nun experimentell mY bestimmen, so können wir ebenfalls auf den Median von X rückschließen durch
3
mX = arctan(mY /
).
Bemerkung 3.37 Ist die Verteilungsfunktion x → FX (x) = P[X ≤ x] streng monoton wachsend, so ist
der Median eindeutig.
3
Beweis Übung!
2
3.4 Der Median
71
Satz 3.38 Ist X ∈ L1 (P), so ist jeder Median mX ein Minimierer des L1 -Abstands zu X:
E[|X − a|] ≥ E[|X − mX |]
für alle x ∈ R]
(3.22)
a ist eine Median von X.
(3.23)
und
E[|X − a|] = E[|X − mX |]
⇐⇒
Beweis Definiere
h(a) := E[|X − a|],
Dann ist
h(a) =
=
=
∞
0 ∞
0 ∞
a ∈ R.
P[|X − a| ≥ t] dt
P[X − a ≥ t] + P[X − a ≤ −t] dt
a
P[X ≥ t] dt +
P[X ≤ t] dt.
−∞
a
Für t < mX ist 1 − P[X ≤ t] − P[X < t] ≤ 0. Für a ≤ b ≤ mX ist daher
h(b) − h(a) =
b
a
=
P[X ≥ t] dt +
a
P[X ≤ t] dt
b
b
(1 − P[X ≤ t] − P[X < t]) dt
a
=
b
(1 − P[X ≤ t] − P[X < t]) dt
a
≤ 0.
Speziell ist h(mX ) ≥ h(a) für alle a ≤ mX . Analog erhält man m(mX ) ≥ h(a) für alle a ≥ mX . Sei nun
m− der kleinste Median von X und b < m− . Dann ist für alle t ∈ (b, m− ) sogar 1 − P[X ≤ t] − P[X <
t] < 0, also h(b) − h(m− ) > 0. Analog erhält man h(b) − h(m+ ) > 0 für alle b die echt größer sind als
2
der größte Median m+ .
Korollar 3.39 Ist X ∈ L2 (P) und ist m ein Median von X, so ist
|m − E[X]| ≤ Var[X] .
(3.24)
Beweis Für jedes c ∈ R ist |E[X] − c| = |E[X − c]| ≤ |E[|X − c|]| = E[|X − c|]. Außerdem ist für
Y ∈ L2 (P) stets E[Y 2 ] = Var[Y ]+E[Y ]2 ≥ E[Y ]2 . Wir wenden dies an mit c = m und Y = |X −E[X]|
und erhalten
|E[X] − m| ≤ E[|X − m|]
Satz 3.38
≤
E[|X − E[X]|] ≤ E[(X − E[X])2 ] = Var[X].
2
Herunterladen