§ 2 Zufallsvariable und Verteilungsfunktionen

Werbung
18
§ 2 Zufallsvariable und Verteilungsfunktionen
Häufig ist es so, dass den Ausgängen eines Zufallexperiments, d.h. den Elementen der
Ereignisalgebra, eine Zahl zugeordnet wird. Das wollen wir etwas mathematischer fassen.
2.1 Grundlagen
Definition 2.1.
Gegeben sei ein Wahrscheinlichkeitsraum (Ω, A, p). Eine Funktion X : Ω → R heißt
eine Zufallsvariable, wenn für alle x ∈ R und alle Intervalle I ⊂ R (offen, abgeschlossen,
beschränkt bzw. unbeschränkt) sowie deren Vereinigungen, Durchschnitte und Differenzen
die Urbilder X −1 (x) bzw. X −1 (I) Elemente von A sind; d.h.
X −1 (B) ∈ A ∀ B ∈ B1 .
Beispiel 2.2.
Wir betrachten einen Laplace-Würfel; wir werfen ihn dreimal. X ordne jeden Wurf die
Augensumme zu; dann ist X(Ω) = {3, 4, . . . , 18}. Wir berechnen z. B.
X −1 ({4}) = {(1, 1, 2), (1, 2, 1), (2, 1, 1)}
oder
X −1 ([2.5, 4.8]) = X −1 ({3}) ∪ X −1 ({4}) = {(1, 1, 1)} ∪ X −1 ({4}).
Betrachten wir dann die Wahrscheinlichkeit p(X −1 ({4})) , so erhalten wir
p(X −1 ({4})) =
3
1
= .
216
72
1
Man schreibt auch p(X = 4) = . Damit haben wir Teilmengen von R über den Wahr72
scheinlichkeitsraum eine Wahrscheinlichkeit zugeordnet.
Definition 2.3.
Eine Zufallsvariable X : Ω → R heißt diskret, wenn sie endlich viele bzw. abzählbar
unendlich viele Werte x1 , x2 . . . annehmen kann mit
p(X = xi ) > 0 für alle i und
!
p(X = xi ) = 1.
i
Die Funktion F (= FX ) : R → [0, 1] mit
F (x) = p(X ≤ x) =
!
p(X = xj )
xj ≤x
heißt Verteilungsfunktion von X; dabei ist
(X = x) := {ω ∈ Ω | X(ω) = x} bzw. (X ≤ x) := {ω ∈ Ω | X(ω) ≤ x} .
19
Für a < b gibt
F (b) − F (a) =
!
xj ≤b
p(X = xj ) −
!
p(X = xj ) =
xj ≤a
!
p(X = xj )
a<xj ≤b
die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X einen Wert im Intervall ]a, b]
annimmt.
Beispiel 2.4.
Ein Laplace-Würfel wird dreimal geworfen. Die Zufallsvariable X bezeichne die Anzahl
der ungeraden Zahlen, die dabei geworfen wird. Es ist X(Ω) = {0, 1, 2, 3}. Bezeichnet G
das Ergebnis, dass eine gerade Augenzahl gewürfelt wird und U das Ereignis, dass sich eine
ungerade Augenzahl ergibt, so erhalten wir (wegen der Unabhängigkeit der Ereignisse)
1
p(X = 0) = p(GGG) = ( )3 = 0.125,
2
p(X = 1) = p(U GG) + p(GU G)) + p(GGU )
1
= 3 · ( )3 = 0.375
2
p(X = 2) = p(U U G) + p(U GU ) + p(GU U )
1
= 3 · ( )3 = 0.375
2
und
1
p(X = 3) = p(U U U ) = ( )3 = 0.125 .
3
Die Verteilungsfunktion von X ist dann eine Treppenfunktion mit
FX (x) =



















0
0.125
0.5
0.875
1
für
für
für
für
für
x<0
0≤x<1
1≤x<2 .
2≤x<3
3≤x
Definition 2.5.
Eine Funktion f : R → R heißt Dichtefunktion oder Wahrscheinlichkeitsdichte, wenn
folgende Bedingungen erfüllt sind:
(i) f (x) ≥ 0 für alle x ∈ R.
(ii) f ist bis auf endlich viele Punkte stetig auf R
(allgemeiner: f ist integrierbar über R).
(iii)
& ∞
−∞
f (x)dx = 1 .
20
Eine Zufallsvariable X : Ω → R heißt stetig , wenn sich ihre Verteilungsfunktion
F = FX mit F (x) = p(X ≤ x) mit Hilfe einer Wahrscheinlichkeitsdichte f in der Form
F (x) =
& x
−∞
f (u)du
darstellen läßt. Wir erhalten dann für a, b ∈ R mit a < b
p(a < X ≤ b) = F (b) − F (a) =
(Es ist nämlich
& b
a
f (x)dx.
p(a < X ≤ b) = p((X ≤ b) ∩ (X ≤ a)) = p(X ≤ b) − p(X ≤ a)
wegen X ≤ a ⊂ X ≤ b , also X ≤ a ⊃ X ≤ b
also
und damit
X ≤a∪X ≤ b = Ω ,
p(X ≤ b ∩ X ≤ a) = p(X ≤ b) + p(X ≤ a) − p(X ≤ a ∪ X ≤ b)
= p(X ≤ b) + 1 − p(X ≤ a) − p(Ω)
= p(X ≤ b) − p(X ≤ a).)
F (b) − F (a) gibt also die Wahrscheinlichkkeit dafür an, dass die Zufallsvariable X einen
Wert im Intervall ]a, b] annimmt.
Beispiel 2.6.
1
x2
√
Es sei f (x) =
exp(− ) für x ∈ R; dann ist f nichtnegativ, stetig, und es gilt nach
2
2π
Satz 5.30 (aus Math. für Inf. 1)
& ∞
−∞
1
x2
√ exp(− ) dx = 1.
2
2π
Wir definieren nun für ein Intervall I =]a, b]
p(I) := F (b) − F (a) =
wobei durch
& b
a
1
x2
√ exp(− ) dx,
2
2π
& x
1
x2
√
F (x) =
exp(− ) dx
2
−∞
2π
die Verteilungsfunktion zu der Wahrscheinlichkeitsdichte f gegeben ist. p(I) gibt also den
Flächeninhalt an, der unter der ”Flächenkurve” zwischen x = a und x = b liegt.
Definition 2.7.
Zwei Zufallsvariable X und Y heißen unabhängig, wenn die Ereignisse X ≤ x und Y ≤ y
für beliebige (x, y) ∈ R2 unabhängig sind, d.h. wenn
p((X ≤ x) ∩ (Y ≤ y)) = p(X ≤ x) · p(Y ≤ y)
gilt. Sonst heißen X und Y abhängig.
21
2.2 Erwartungswert, Varianz und Standardabweichung
Welche Augenzahl erwarten wir im Mittel beim Werfen eines Würfels; ein Maß wäre die
Summe aller Möglichkeiten dividiert durch die Mindestanzahl, mit der man dies erreichen
kann:
1
(1 + 2 . . . + 6) = 3, 5 .
6
Diese Zahl ergibt sich bei keinem Wurf als Ergebnis, ist also mehr eine ”theoretische”
Zahl.
Definition 2.8.
Ist X eine diskrete Zufallsvariable mit den Werten x1 , x2 , . . . und den Wahrscheinlichkeiten
pk = p(X = xk ), so heißt
!
E(X) =
xi pi
i
der Erwartungswert von X. Dabei setzen wir voraus, dass die eventuell entstehende unendliche Reihe konvergiert.
Ist X eine stetige Zufallsvariable mit der Dichtefunktion f , so heißt
E(X) :=
& ∞
−∞
xf (x)dx
derErwartungswert von X .
Beispiel 2.9.
Wir betrachten das wiederholte Würfeln mit einem fairen Würfel. Wie lange muss man
im Mittel auf die erste Sechs warten. Wir haben es hier mit einem Experiment mit zwei
möglichen Ergebnissen zu tun, nämlich mit Erfolg (eine Sechs) oder Misserfolg (keine
1
Sechs). Bei einem fairen Würfel tritt der Erfolg mit der Wahrscheinlichkeit p = und der
6
5
Misserfolg mit der Wahrscheinlichkeit q = 1 − p = ein. Gibt die Zufallsvariable X die
6
Anzahl der Versuche bis zum 1. Auftreten des Erfolgs an, so ist
pk = p(X = k) = q k−1 p .
Dann gilt
∞
!
p(X = k) = p
k=1
∞
!
k=1
q
k−1
=p
∞
!
qk =
k=0
p
=1.
1−q
Für den Erwartungswert erhalten wir
E(X) =
∞
!
k=1
kpq k−1 = p
∞
!
kq k−1 .
k=1
Um den Reihenwert zu bestimmen, betrachten wir die Potenzreihe
∞
!
k=0
xk , die für |x| < 1
konvergiert; wir dürfen gemäß Satz 6.11 aus Math. für Inf. 1 die Potenzreihe differenzieren,
22
indem wir gliedweise differenzieren; wir erhalten so
∞
!
k−1
kx
k=1
'
(
d
1
1
=
=
.
dx 1 − x
(1 − x)2
In unserem Beispiel ergibt sich daher
E(X) = p
1
1
= .
2
(1 − q)
p
1
Der Erwartungswert beim Würfeln mit p =
ist damit E(X) = 6, d.h. dass man im
6
Durchschnitt 6 Würfe benötigt, um eine Sechs zu würfeln.
Wir wollen nun zeigen, dass der Erwartungswert linear ist, d.h. dass für zwei Zufallsvariable X und Y und zwei reelle Zahlen a, b ∈ R gilt
E(aX + bY ) = aE(X) + bE(Y ) .
Dazu halten wir zunächst fest:
Bemerkung 2.10.
Ist X eine diskrete Zufallsvariable und g : R → R eine Funktion, so ist auch g ◦ X eine
diskrete Zufallsvariable, und es gilt
E(g ◦ X) =
falls die Reihe
!
i
!
i
g(xi )p(g ◦ X = g(xi )) =
!
g(xi )p(X = xi ),
i
|g(xi )|p(X = xi ) konvergiert. Speziell für g(x) = a · x + b mit zwei
Konstanten a, b ∈ R erhalten wir
E(aX + b) = aE(X) + b .
Satz 2.11.
Sind X, Y zwei Zufallsgrößen mit existierenden Erwartungswerten, so gelten folgende
Aussagen:
für beliebige Konstanten a, b ∈ R.
(i) E(aX + b) = aE(X) + b
(ii) E(X + Y ) = E(X) + E(Y ).
(iii) E(X · Y ) = E(X) · E(Y )
für zwei unabhängige Zufallsvariable X und Y .
(iv) Gilt X ≤ Y , d.h. X(ω) ≤ Y (ω) für alle ω ∈ Ω, so folgt E(X) ≤ E(Y ).
Beweis: Wir beweisen (ii) für diskrete Zufallsvariable. Es gilt
E(X) =
!
i
xi p(X = xi ) =
!
i
xi p({ω|X(ω) = xi })
23
=
!
!
xi p({ω}) =
i ω | X(ω)=xi
=
!
!
!
X(ω)p({ω})
i ω | X(ω)=xi
X(ω)p({ω}) .
ω
Hieraus folgt
E(X + Y ) =
!
(X(ω) + Y (ω))p({ω})
ω
=
!
X(ω)p({ω}) +
ω
!
Y (ω)p({ω}) = E(X) + E(Y ) .
ω
Während der Erwartungswert eine Maßzahl für den ”Schwerpunkt” einer Verteilung ist,
ist die Varianz eine Maßzahl für die Streuung um diesen Schwerpunkt.
Definition 2.12.
Ist X eine diskrete Zufallsvariable wie in Definition 2.8 und exisitiert E(X 2 ), so heißt
V ar(X) := D2 (X) := E((X − E(X))2 ) =
!
i
(xi − E(X))2 pi
die Varianz von X . Ist X eine stetige Zufallsvariable mit der Dichtefunktion f derart,
dass E(X 2 ) existiert, so definiert man die Varianz durch
V ar(X) := D2 (X) :=
)
& ∞
−∞
(x − E(X))2 f (x)dx.
σ = σX = D2 (X) heißt Standardabweichung von X.
Ist Y eine weitere diskrete Zufallsvariable, für die E(Y 2 ) existiert, so heißt
Cov(X, Y ) := E((X − E(X))(Y − E(Y )))
die Covarianz von X und Y und
ρXY =
Cov(X, Y )
σX · σY
der Korrelationskoeffizient von X und Y . X und Y heißen unkorreliert , wenn die Covarianz Cov(X, Y ) = 0 ist.
Beispiel 2.13
Die Zufallsvariable gebe die höchste Augenzahl beim zweimaligen Würfeln an. Ist Ω :=
{(i, j) | 1 ≤ i, j ≤ 6}, so ist X(ω) := max(i, j) für ω = (i, j). Definieren wir für ein
1
Elementarereignis p(ω) = , so erhalten wir:
36
p(X = 1) =
p(X = 4) =
1
,
36
7
,
36
p(X = 2) =
p(X = 5) =
3
,
36
9
,
36
p(X = 3) =
5
,
36
und p(X = 6) =
11
.
36
24
Für den Erwartungswert ergibt sich somit
E(X) = 1 ·
1
3
5
7
9
11
161
17
+2·
+3·
+4·
+5·
+6·
=
=4 .
36
36
36
36
36
36
36
36
Nun berechnen wir die Varianz
V ar(X) =
6 '
!
i=1
161
i−
36
(2
·
2555
2i − 1
=
≈ 1.97 .
36
1296
Satz 2.14. (Rechenregeln)
Sind X, Y Zufallsvariable, für die E(X 2 ) und E(Y 2 ) existieren, so gilt
(i) V ar(X) = E(X 2 ) − E(X)2 .
(ii) V ar(aX + b) = a2 V ar(X).
(iii) Cov(X, Y ) = E(XY ) − E(X)E(Y ).
(iv) Sind X, Y unabhängig, so sind sie auch unkorreliert.
(v) Sind X1 , . . . , Xn unabhängig, so gilt
V ar(X1 + . . . + Xn ) =
n
!
V ar(Xk ).
k=1
2.3 Schwaches Gesetz großer Zahlen
Als Vorbereitung zum schwachen Gesetz für große Zahlen zeigen wir
Satz 2.15. (Tschebyscheffsche Ungleichung)
Es seien (Ω, P(Ω), p) eine diskreter Wahrscheinlichkeitsraum (mit endlichem bzw. abzählbar unendlichem Ω) und X eine Zufallsvariable mit endlicher Varianz. Dann gilt für jedes
ε > 0:
V ar(X)
.
p(|X − E(X)| ≥ ε) ≤
ε2
Beweis: Sei Z = X − E(X). Wir definieren Y : Ω → R durch


Dann ist Y ≤ Z 2 , also
Y (ω) = 
0
für ω mit |Z(ω)| < ε
ε2 für ω mit |Z(ω)| ≥ ε
.
V ar(X) = E(Z 2 ) ≥ E(Y ) = ε2 p(Y = ε2 ) = ε2 p(|X − E(X)| ≥ ε) .
!
Hieraus folgern wir
25
Satz 2.16. (Schwaches Gesetz der großen Zahlen für unabhängige Zufallsvariable mit
beschränkter Varianz)
Seien X1 , . . . , Xn unabhängige Zufallsvariable mit gleichem Erwartungswert und endlicher
Varianz V ar(Xk ) ≤ M für 1 ≤ k ≤ n. Dann gilt für alle ε > 0:
'*
*1
p ** (X1
n
Beweis: Es sei X :=
*
*
+ . . . + Xn ) − E(X1 )**
(
≥ε ≤
M
.
nε2
1
(X1 + . . . + Xn ). Dann ist E(X) = E(X1 ) und
n
V ar(X) =
n
1
1 !
M
V
ar(X
+
.
.
.
+
X
)
=
V ar(Xn ) ≤
.
1
n
2
2
n
n k=1
n
Die direkte Anwendung der Tschebyscheffschen Ungleichung liefert die Behauptung.
!
Bemerkung 2.17.
a) Sind Y1 , Y2 , . . . Zufallsvariable, die auf einem gemeinsamen Wahrscheinlichkeitsraum
definiert sind, und ist a eine reelle Zahl mit der Eigenschaft
lim p(|Yn − a| ≥ ε) = 0 für jedes ε > 0 ,
n→∞
so sagt man, dass die Folge (Yn ) stochastisch gegen a konvergiert.
b) Das schwache Gesetz der großen Zahlen besagt, dass die Folge der arithmetischen
Mittel von unahängigen Zufallsvariablen mit gleichem Erwartungswert µ und beschränkter Varianz stochastisch gegen µ konvergiert. In diesem Sinne wird die intuitive Vorstellung des Erwartungswertes als eines bei häufiger Durchführung des
Experimentes erhaltenen durchschnittlichen Wertes präzisiert.
Herunterladen