ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE

KAPITEL
8
ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
In diesem Kapitel werden wir den Begriﬀ des Erwartungswertes für diskrete
reelle Zufallsvariable einführen. Ein eigenes Kapitel hierfür wäre kaum
gerechtfertigt, wenn man zunächst die Integrationstheorie für beliebige Zufallsvariable behandeln würde, die auf einem abstrakten Wahrscheinlichkeitsraum (Ω, A, P) deﬁniert sind. Im Gegensatz dazu kann man zum Studium
des Erwartungswertes von reellen, diskreten Zufallsvariablen direkt von
dem wahrscheinlichkeitstheoretischen (Bild-)Raum (R, B1 , PX ) ausgehen. Der
Zusammenhang zwischen diesen beiden Ansätzen wird durch den sogenannten Transportsatz zum Ausdruck gebracht. Eine diskrete Version dieser Aussage wird in diesem Kapitel formuliert.
1. Transformation von Zufallsvariablen
Satz 1.1. — Es sei X eine n-dimensionale diskrete Zufallsvariable mit
der Verteilung
αk εxk
PX =
k
und g eine auf (Rn , Bn ) deﬁnierte messbare Funktion mit Werten in Rp .
Dann ist die Komposition g ◦ X eine p-dimensionale diskrete Zufallsvariable
mit der Verteilung
αk εg(xk ) .
Pg◦X =
k
X
g
In der Schreibweise der Komposition (Ω, A, P) → (Rn , Bn , PX ) → (Rp , Bp )
gilt dann für jedes z ∈ Rp
(1.1)
Pg◦X {z} = PX {g = z} = P{g ◦ X = z}.
Beweis. — Oﬀensichtlich nimmt die Zufallsvariable g ◦ X Werte in Rp an.
Andererseits gilt g(X(ω)) = z genau dann, wenn X(ω) ∈ g −1 (z) ist. Folglich
hat man Pg◦X {z} = P{g ◦ X =z} = P{X ∈ g −1 (z)} = PX (g −1 (z)) =
PX {g = z} = PX {x : g(x) = z} = k {αk : g(xk ) = z}.
98
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
Korollar 1.2. — Ist T = (X, Y ) eine zweidimensionale diskrete
Zufallsvariable mit der Verteilung
PT =
p(xi , yj )ε(xi ,yj ) ,
i,j
wobei {(xi , yj ) : (i, j) ∈ I × J} eine endliche oder abzählbare Folge von
Elementen aus R2 ist, so sind X und Y diskrete Zufallsvariable mit den
Verteilungen
PX =
i∈I
p(xi , yj ) εxi
und
PY =
j∈J
j∈J
p(xi , yj ) εyj .
i∈I
Die Verteilungen PX und PY heissen Randverteilungen (in X, Y ) zu der
(gemeinsamen) Verteilung PT .
Beweis. — Es genügt die Feststellung, dass die beiden Projektionen
π1 : (x, y) → x und π2 : (x, y) → y messbare Abbildungen von R2 in R
sind und dass sowohl X = π1 ◦ T als auch Y = π2 ◦ T gilt.
Korollar 1.3. — Mit den gleichen Bezeichnungen wie eben ist die
Verteilung von X + Y durch
PX+Y =
p(xi , yj )ε(xi +yj )
i,j
gegeben.
Beweis. — Es gilt X + Y = g ◦ T mit g(x, y) = x + y.
Korollar 1.2 besagt, dass die Verteilung von T die Verteilungen von X
und Y vollständig bestimmt. Die Umkehrung dieser Aussage gilt nicht: sind
nämlich X und Y reelle Zufallsvariable, die auf demselben Wahrscheinlichkeitsraum (Ω, A, P) deﬁniert sind, und welche die Verteilungen
(1.2)
PX =
i∈I
P{X = xi }εxi
und
PY =
P{Y = yj }εyj
j∈J
haben, so ist es im allgemeinen nicht möglich, aus dieser Information alleine
die Verteilung von T = (X, Y ) zu rekonstruieren, denn dazu müsste man die
Daten p(xi , yj ) = P{X = xi , Y = yj } für alle (i, j) ∈ I × J kennen.
3. FALTUNG VON DISKRETEN VERTEILUNGEN
99
2. Unabhängigkeit. — Es seien nun X und Y reellwertige Zufallsvariable, die auf demselben Wahrscheinlichkeitsraum (Ω, A, P) deﬁniert sind und
deren Verteilungen PX und PY durch die Formeln (1.2) gegeben sind. Dann
kann man die Verteilung des Paares (X, Y ) bestimmen, wie es im Korollar
zum folgenden Satz beschrieben wird.
Satz 2.1. — Die reellen Zufallsvariablen X und Y sind genau dann
unabhängig, wenn
(2.1)
P{X = xi , Y = yi } = P{X = xi } P{Y = yj }
für alle i ∈ I und j ∈ J gilt.
Beweis. — Tatsächlich sind X und Y genau dann unabhängig, wenn
P{X ∈ A, Y ∈ B} = P{X ∈ A}P{Y ∈ B} für jedes Paar A, B von BorelMengen gilt. Speziell für A = {xi } und B = {yj } reduziert sich das auf (2.1).
Ist umgekehrt (2.1) für alle i ∈ I und j ∈ J erfüllt, und sind A, B zwei
Borel-Mengen, so gilt
P{X ∈ A, Y ∈ B} =
P{X = xi , Y = yj } : xi ∈ A, yj ∈ B
P{X = xi }P{Y = yj } : xi ∈ A, yj ∈ B
=
P{X = xi } : xi ∈ A
P{Y = yj } : yj ∈ B
=
= P{X ∈ A} P{Y ∈ B}.
Dies bedeutet aber gerade die Unabhängigkeit von X und Y .
Korollar 2.2. — Sind X und Y unabhängige Zufallsvariable, so ist die
Verteilung von T = (X, Y ) vollständig durch die Verteilungen von X und Y
bestimmt.
Das Korollar folgt unmittelbar aus Gleichung (2.1).
3. Faltung von diskreten Verteilungen
Deﬁnition. — Es seien P = i∈I αi εxi und Q = j∈J βj εyj zwei diskrete
Wahrscheinlichkeitsverteilungen. Als Faltungsprodukt von P mit Q, notiert als
P ∗ Q, bezeichnet man die durch
(3.1)
P∗Q=
(i,j)∈I×J
deﬁnierte Wahrscheinlichkeitsverteilung.
αi βj ε(xi +yj )
100
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
Dass P ∗ Q tatsächlich eine Wahrscheinlichkeitsverteilung ist, folgt aus
elementaren Eigenschaften absolut konvergenter Reihen. Weiter ergibt sich
daraus auch sofort, dass das Faltungsprodukt kommutativ und assoziativ ist.
Die Binomialverteilungen und die Poissonverteilungen sind verträglich mit
dem Faltungsprodukt. Dies besagt der folgende Satz.
Satz 3.1. — Bezeichnet B(n, p) die Binomialverteilung mit Parametern
(n, p) (0 ≤ p ≤ 1, n ≥ 0), sowie πλ die Poisson-Verteilung mit Parameter λ
(λ > 0), so gilt
B(n, p) ∗ B(m, p) = B(n + m, p)
(n, m ∈ N) ;
(λ > 0, ν > 0).
πλ ∗ πν = πλ+ν
Beweis. — Man hat
B(n, p) ∗ B(m, p) =
n m
pi+j q n+m−i−j εi+j =
i=0 j=0
n+m
γk pk q n+m−k εk ,
k=0
wobei für k = 0, 1, . . . , n + m der Koeﬃzient γk durch
k n
m
γk =
i
k−i
i=0
gegeben ist. Diese Summe ist aber wegen der Binomialformel gleich
dies beweist die erste Behauptung.
Um die zweite Behauptung zu veriﬁzieren, schreibt man
πλ ∗ πν =
∞ ∞
i=0 j=0
k
;
∞
µj
εi+j = e−(λ+µ)
γk εk ,
i! j!
i
−(λ+µ) λ
e
n+m
k=0
wobei man für k = 0, 1, . . .
k
λi µk−i
γk =
i! (k − i)!
i=0
gesetzt hat. Diese Summe ist aber nichts anderes als (λ + µ)k /k!
Satz 3.2. — Sind X und Y auf demselben Wahrscheinlichkeitsraum
deﬁnierte unabhängige, reelle, diskrete Zufallsvariable mit den Verteilungen
PX und PY , so ist die Verteilung der Zufallsvariablen X +Y das Faltungsprodukt von PX mit PY , also
PX+Y = PX ∗ PY .
Diese Aussage ist eine unmittelbare Folgerung aus Korollar 1.3 und
Satz 2.1.
101
4. ERWARTUNGSWERT
4. Erwartungswert. — Genau so, wie man in der Mechanik den
Begriﬀ des Schwerpunktes von Massepunkten einführt, spricht man in der
Wahrscheinlichkeitsrechnung von dem Mittelwert oder dem Erwartungswert
einer reellen Zufallsvariablen X. Jeder von X angenommene Wert wird mit
einer Masse belegt, die gleich der Wahrscheinlichkeit ist, dass X diesen
Wert annimmt. Der Erwartungswert von X, notiert mit E[X], ist dann
der Schwerpunkt dieses Systems von Massepunkten. Diese Beschreibung ist
ausreichend, um den Fall diskreter Zufallsvariablen zu behandeln.
Deﬁnition. — Der Erwartungswert
einer reellen, diskreten Zufallsvariablen
X mit Verteilung PX = i αi εxi wird durch
E[X] =
α i xi
i
deﬁniert, wobei vorausgesetzt wird, dass die Reihe auf der rechten Seite
absolut konvergiert. In diesem Fallsagt man, dass X einen endlichen Erwartungswert hat. Falls die Reihe i αi |xi | divergiert, so sagt man, dass X
keinen endlichen Erwartungswert hat.
Es sei j βj εyj ein Ausdruck für die Wahrscheinlichkeitsverteilung PX ,
wobei alle yj als verschieden angenommen werden. Für jedes
j ist also die
αi xi absolut
Zahl βj die Summe aller αi mitxi = yj . Falls die Reihe
konvergiert, ist auch die Reihe
j yj βj selbst absolut konvergent und ihr
Wert hängt nicht von der Nummerierung der Paare (βj , yj ) ab. Ausserdem
gilt
xi α i =
yj
αi =
yj βj
i
j
i ; xi =yj
j
aus Gründen der verallgemeinerten Assoziativität. Folglich hängt der Erwartungswert von X weder von dem konkreten Ausdruck
für PX , noch von
der Nummerierung der Paare (αi , xi ) in der Summation i xi αi ab. Diese
Eigenschaft der vollständigen Kommutativität rechtfertigt die Interpretation
des Erwartungswertes als Schwerpunkt.
Der Transportsatz, den wir nun formulieren werden, zeigt die Flexibilität
des Begriﬀes des Erwartungswertes. Dazu betrachten wir einen Wahrscheinlichkeitsraum (Ω, A, P), wobei Ω höchstens abzählbar sei, sowie eine auf
diesem Raum deﬁnierte reelle Zufallsvariable X. Das Bild von Ω unter X
ist selbst höchstens abzählbar, etwa X(Ω) = {xn : n ∈ N}. Ausserdem bezeichne PX die Verteilung von X.
Theorem 4.1 (Transportsatz). — Es gilt
ω∈Ω
X(ω)P({ω}) =
n
xn PX ({xn })
102
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
unter der Voraussetzung, dass eine der beiden in dieser Identität vorkommenden Reihen absolut konvergiert (die andere tut dies dann auch). Falls
dies zutriﬀt, nennt man den gemeinsamen Wert auf beiden Seiten den Erwartungswert von X.
Beweis. — Es sei An = X −1 ({xn }); die Familie {An } bildet dann eine
Partition von Ω und es gilt (zumindest formal)
X(ω)P({ω}) =
X(ω)P({ω}) .
n ω∈An
ω∈Ω
Weil X(ω) = xn für jedes ω ∈ An gilt, ist
X(ω)P({ω}) =
xn
P({ω})
n
ω∈Ω
=
n
ω∈An
xn P(An ) =
xn PX ({xn }).
n
Diese formalen Rechnungen sind (im analytischen Sinne) gültig, sobald
mindestens eine der beteiligten Reihen absolut konvergiert.
Bevor wir nun die grundlegenden Eigenschaften des Erwartungswertes
behandeln, wollen wir den Begriﬀ einführen, dass eine Eigenschaft fast sicher
gilt.
Deﬁnition. — Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum und P eine
Eigenschaft, die auf jedes ω ∈ Ω zutreﬀen kann oder nicht. Man sagt, dass
P fast sicher (f.s.) gilt, wenn es ein A ∈ A mit P(A) = 0 gibt derart, dass P
für alle ω ∈ Ac zutriﬀt.
In dieser Deﬁnition wird nicht unterstellt, dass die Menge A derjenigen
ω ∈ Ω, auf die die Eigenschaft P nicht zutriﬀt, die Wahrscheinlichkeit Null
hat, denn A muss nicht notwendig zu A gehören. Tatsächlich gilt A ⊂ A,
A ∈ A, P(A) = 0 und P ist wahr in Ac (aber P ist auch wahr in A \ A ).
Theorem 4.2. — Es seien X und Y zwei auf einem Wahrscheinlichkeitsraum (Ω, A, P) deﬁnierte diskrete Zufallsvariable. Dann gilt
(D1) E[X] ist endlich genau dann, wenn E[ |X| ] endlich ist;
(D2) ist | X| ≤ Y und E[Y ] endlich, so ist auch E[X] endlich;
(D3) −∞ < a ≤ X ≤ b < +∞ =⇒ a ≤ E[X] ≤ b;
(D4) X = a f.s. =⇒ E[X] = a;
(D5) E[X] endlich =⇒ |E[X]| ≤ E[ |X| ].
Beweis. — Die Eigenschaft (D1) ist eine unmittelbare Folge aus der
Deﬁnition des Erwartungswertes.
Um (D2) zu zeigen, greifen wir auf die Bezeichnungen von Korollar 1.2
π
T
zurück. In der Komposition Ω → T (Ω) →2 Y (Ω) ist die Menge T (Ω)
103
4. ERWARTUNGSWERT
höchstens abzählbar. Andererseits gilt für jedes yj , gemäss Formel (1.1),
PY {yj } = Pπ2 ◦T {yj } = PT {π2 = yj }. Setzen wir Q = PT , so ist Q ein
Wahrscheinlichkeitsmass auf der Menge T (Ω), das von den Paaren (xi , yj )
getragen wird. Bezeichnet nun Qπ2 die Verteilung der Zufallsvariablen π2 , die
auf dem Wahrscheinlichkeitsraum (T (Ω), P(T (Ω)), Q) deﬁniert ist, so erhält
man PY {yj } = Q{π2 = yj } = Qπ2 {yj }. Die Anwendung des Transportsatzes
auf diesen Raum und die Zufallsvariable π2 liefert dann
E[Y ] =
yj PY {yj } =
yj Qπ2 {yj }
j
=
j
π2 (xi , yj )Q{(xi , yj )}
(xi ,yj )∈T (Ω)
=
yj Q{(xi , yj )}.
(xi ,yj )∈T (Ω)
Nun hat |X| ≤ Y aber (xi , yj ) ∈ T (Ω) ⇒ |xi | ≤ yj zur Folge, also gilt
|xi |Q{(xi , yj )}
E[Y ] ≥
(xi ,yj )∈T (Ω)
≥
xi Q{(xi , yj )}
(xi ,yj )∈T (Ω)
≥ E[X],
wobei man dieses Mal den Transportsatz auf die Zufallsvariable X = π1 ◦ T
anwendet.
Um die Eigenschaft (D3) zu beweisen, schreibt man
P{X = xk }a ≤ P{X = xk }xk ≤ P{X = xk }b ,
woraus sich
a=
P{X = xk }a ≤
P{X = xk }xk ≤
P{X = xk }b = b
k
k
k
ergibt.
Für den Nachweis von (D4) genügt es, sich klarzumachen, dass aus X = a
fast sicher folgt, dass X die Verteilung εa hat und somit E[X] = a gilt.
Eigenschaft (D5) folgt schliesslich ganz einfach aus
P{X = xk }xk ≤
P{X = xk } |xk | = E[ |X| ].
|E[X]| = k
k
Die wichtigsten Eigenschaften des Erwartungswertes sind im folgenden
Theorem zusammengestellt.
104
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
Theorem 4.3. — Es seien X und Y zwei auf dem Wahrscheinlichkeitsraum (Ω, A, P) deﬁnierte diskrete Zufallsvariable. Falls E[ | X| ] < ∞ und
E[ | Y | ] < ∞ gelten, so hat man die folgenden Eigenschaften:
A. Linearität
(A1) E[X + Y ] = E[X] + E[Y ];
(A2) E[λX] = λ E[X] (λ ∈ R).
B. Monotonie
(B1) X ≥ 0 =⇒ E[X] ≥ 0;
(B2) X ≥ Y =⇒ E[X] ≥ E[Y ];
(B3) X = Y f.s. =⇒ E[X] = E[Y ].
C. Unabhängigkeit. — Sind X und Y unabhängig, so ist E[XY ] endlich
und es gilt E[XY ] = E[X] E[Y ].
P{X
=
x
}
ε
und
Beweis. — Mit
i
x
i
i
j P{Y = yj } εyj sollen die
jeweiligen Verteilungen von X und von Y bezeichnet werden.
Um (A1) zu beweisen, wird auf die gemeinsame Verteilung von X und Y
Bezug genommen. Es gilt
P{X = xi , Y = yj } |xi | = P{X = xi } |xi |
j
und daher
i
P{X = xi , Y = yj } |xi | =
P{X = xi } |xi | = E[ |X| ] < +∞.
j
i
Analog zeigt man
j
P{X = xi , Y = yj } |yj | = E[ |Y | ] < +∞.
i
Damit erweist sich die Doppelreihe
i,j P{X = xi , Y = yj }(xi + yj ) als
absolut konvergent, und man kann schliessen, dass
P{X = xi , Y = yj }(xi + yj )
i,j
P{X = xi , Y = yj } xi +
P{X = xi , Y = yj } yj
=
i
j
j
i
gilt; das besagt aber gerade
E[X + Y ] = E[X] + E[Y ].
Die Eigenschaft (A2) ist einfach nachzuvollziehen. Für (B1) beachte
man, dass
im Falle X ≥ 0 jedes der xinicht negativ und daher auch
E[X] = i P{X = xi }xi ≥ 0 ist. Sei nun k P{Z = zk } εzk die Verteilung
von Z = X − Y . Wenn Z ≥ 0 ist, so gilt E[Z] = E[X] − E[Y ] ≥ 0,
daher gilt (B2). Für (B3) schliesslich beachte man, dass aus Z = 0 f.s.
5. MOMENTE
105
P{Z = 0} = 1 folgt. Somit ist P{Z = z} = 0 für alle z = 0 und daher
E[Z] = k P{Z = zk }zk = 0.
Um (C) zu zeigen, setzt man XY = g◦T mit T = (X, Y ) und g(x, y) = xy.
Ausgangspunkt ist die Verteilung des Paares T . Nach Satz 1.1 kann man die
Verteilung des Produktes XY mit Hilfe der Verteilung von T in der Form
P{X = xi , Y = yj }εxi yj =
P{X = xi } P{Y = yj }εxi yj
PXY =
i,j
i,j
schreiben, weil X und Y unabhängig sind. Folglich ist
P{X = xi } P{Y = yj }xi yj
E[XY ] =
i,j
=
i
P{X = xi }xi
P{Y = yj }yj = E[X] E[Y ].
j
5. Momente. — Der Erwartungswert einer Zufallsvariablen X hängt
nur von der Verteilung von X ab und gibt den mittleren Wert an, um
den sich die Werte der Variablen X verteilen. Man führt nun noch andere
charakteristische Werte der Verteilung von X ein, in denen die Streuung
dieser Verteilung zum Ausdruck kommt, so beispielsweise die Momente. Wir
beginnen mit einem Lemma, das es erlaubt, Momente verschiedener Ordnung
miteinander zu vergleichen.
Lemma 5.1. — Es seien r und s zwei reelle Zahlen mit 0 < s < r und
r
s
X eine reelle Zufallsvariable. Wenn E[ |X| ] endlich ist, so ist auch E[ |X| ]
endlich.
Beweis. — In der Tat, für jedes a > 0 gilt die Ungleichung as ≤ 1 + ar ,
denn für a ≥ 1 kann man ar = as ar−s ≥ as schreiben und für a < 1 gilt
natürlich as < 1.
s
Wenden wir diese Ungleichung auf |X(ω)| an. Es ergibt sich |X(ω)| ≤
r
r
r
1 + |X(ω)| für alle ω ∈ Ω. Aber E[1 + |X| ] = 1 + E[ |X| ] existiert und
ist nach Voraussetzung endlich. Aus der obigen Eigenschaft (D2) folgt also,
s
dass auch E[ |X| ] endlich ist.
Deﬁnition. — Es sei X eine reelle, diskrete Zufallsvariable mit der
r
Verteilung PX = i∈I αi εxi . Es seien a und r reelle Zahlen. Falls E[ |X − a| ]
endlich ist, so deﬁniert man das in a zentrierte Moment r-ter Ordnung von
X durch
r
m
=
E[(X
−
a)
]
=
αi (xi − a)r .
a r
i∈I
Das Moment r-ter Ordnung (zentriert in 0) wird durch
mr = E[X r ]
106
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
r
deﬁniert. Falls E[X] und E[ |X − E[X]| ] endlich sind, wird entsprechend das
(im Mittel) zentrierte Moment r-ter Ordnung durch
µr = E[(X − E[X])r ]
deﬁniert. Für r = 1 hat man m1 = E[X] und µ1 = 0. Für r = 2 wird das
zentrierte Moment zweiter Ordnung µ2 auch als Varianz von X bezeichnet
und
Var X = E[(X − E[X])2 ]
geschrieben. Die Quadratwurzel von Var X wird mit σ(X) bezeichnet und
Standardabweichung von X genannt. Die Zufallsvariablen (X − E[X]) bzw.
(X − E[X])/σ(X) heissen Zentrierte bzw. reduzierte Zentrierte von X (wobei
man im letzten Fall σ(X) > 0 annimmt).
Aus dem obigen Lemma folgt insbesondere, dass jede Zufallsvariable,
die ein endliches Moment zweiter Ordnung hat, auch einen endlichen Erwartungswert hat.
Satz 5.2. — Eine reelle Zufallsvariable X hat ein endliches Moment
zweiter Ordnung E[X 2 ] genau dann, wenn ihr Erwartungswert E[X] und ihre
Varianz Var X existieren und endlich sind. Es gilt dann
(5.1)
Var X = E[X 2 ] − (E[X])2 .
Beweis. — Wenn X ein endliches Moment zweiter Ordnung hat, so ist
auch der Erwartungswert von X endlich und es ist
(X − E[X])2 = X 2 − 2X E[X] + (E[X])2 .
Der Erwartungswert dieser Grösse ist nichts anderes als Var X und wegen der
Linearitätseigenschaften (A1) und (A2) ist er durch E[X 2 ]−(E[X])2 gegeben.
Umgekehrt nimmt man an, dass E[ |X| ] und Var X endlich sind. Schreibt
man dann
X 2 = (X − E[X] + E[X])2 = (X − E[X])2 + (E[X])2 + 2 E[X] (X − E[X]),
so sieht man, dass alle Glieder auf der rechten Seite einen endlichen Erwartungswert haben. Aus den Linearitätseigenschaften des Erwartungswertes
folgt wiederum, dass E[X 2 ] endlich ist. Da zusätzlich
E[ E[X] (X − E[X])] = E[X] E[X − E[X]] = 0
gilt, erhält man noch einmal die Formel (5.1).
107
6. KOVARIANZ
Satz 5.3. — Es sei X eine Zufallsvariable mit E[X 2 ] < ∞. Dann gilt
für jede reelle Zahl a die Ungleichung
2
= σ2.
E[(X − a)2 ] ≥ E X − E[X]
Man sieht also, dass das Moment zweiter Ordnung relativ zum Erwartungswert minimal wird und dieser minimale Wert gerade die Varianz
ist. Nimmt man den Erwartungswert als charakteristische Grösse für die Position, so ist es naheliegend, die Varianz als charakteristischen Wert für die
Streuung anzusehen.
Beweis. — Sei g(a) = E[(X − a)2 ] und µ = E[X]. Dann gilt
2
g(a) = E (X − µ) + (µ − a)
= E (X − µ)2 + 2(µ − a) E[X − µ] + (µ − a)2
= σ 2 + (µ − a)2 .
Deﬁnition. — Es sei r eine ganze Zahl ≥ 1 und X eine Zufallsvariable.
r
Falls E[ |X| ] endlich ist, deﬁniert man das faktorielle Moment r-ter Ordnung
durch
E[X(X − 1) . . . (X − r + 1)].
Diese Momente spielen vor allem für solche Zufallsvariable eine Rolle, deren
Werte in N liegen.
Deﬁnition. — Es sei r eine reelle Zahl und X eine Zufallsvariable. Ist
r
E[ |X| ] < +∞, so deﬁniert man das (in 0 zentrierte) absolute Moment r-ter
r
Ordnung durch E[ |X| ]. Im Fall r = 0 deﬁniert man weiter die Abweichung
r-ter Ordnung (relativ zu 0) als
r
er = E[ |X| ]
1/r
.
Wie man sieht, ist für zentriertes X das Moment e2 die Standardabweichung.
6. Kovarianz. — Es sei T = (X, Y ) ein Paar von reellen Zufallsvariablen
mit der Verteilung
P{X = xi , Y = yj } ε(xi ,yj ) .
PT =
i,j
Die Zufallsvariable XY hat den Erwartungswert
E[XY ] =
P{X = xi , Y = yj } xi yj
i,j
108
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
unter der Voraussetzung, dass die Reihe auf der rechten Seite absolut
konvergiert. Wegen |xi yj | ≤ (x2i + yj2 )/2 stellt man fest, dass E[XY ] existiert,
sofern X und Y endliche Momente zweiter Ordnung haben. In diesem Fall
existieren auch die Erwartungswerte und sind endlich. Folglich hat auch
(X − E[X])(Y − E[Y ]) einen endlichen Erwartungswert und die folgende
Deﬁnition ist daher sinnvoll.
Deﬁnition. — Es sei (X, Y ) eine Paar von Zufallsvariablen mit gegebener
gemeinsamer Verteilung. Falls X und Y endliche Momente zweiter Ordnung
haben, deﬁniert man die Kovarianz von X und Y durch
Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X] E[Y ].
Falls Cov(X, Y ) = 0 ist, bezeichnet man X und Y als unkorreliert.
Aus dieser Deﬁnition und der Eigenschaft C (Unabhängigkeit, Theorem 4.3) folgt unmittelbar, dass für unabhängige X und Y die Kovarianz Cov(X, Y ) verschwindet. Die Umkehrung triﬀt nicht zu, denn zwei Zufallsvariable können unkorreliert sein, ohne unabhängig zu sein.
Beispiel. — Es sei X eine Zufallsvariable mit PX = 13 (ε−1 + ε0 + ε1 ) als
Verteilung. Setzt man Y = X 2 , so ist die Verteilung des Paares T = (X, Y )
durch
1
PT = (ε(−1,1) + ε(0,0) + ε(1,1) )
3
gegeben. Es gilt E[X] = 0 und E[XY ] = 0, und daher Cov(X, Y ) = 0. Aber
gleichwohl hat man Y = X 2 .
Satz 6.1. — Es sei (X1 , X2 , . . . , Xn ) eine Familie von n Zufallsvariablen,
die alle endliche Momente zweiter Ordnung haben. Dann gilt
(6.1)
Var
n
Xk =
i=1
n
Var Xk + 2
i=1
Cov(Xj , Xk ).
1≤j<k≤n
Falls die Zufallsvariablen paarweise unabhängig (oder auch nur paarweise
unkorreliert) sind, so gilt
Var
n
Xk =
i=1
n
Var Xk .
i=1
Beweis. — Man kann ohne Einschränkung der Allgemeinheit annehmen,
dass die Zufallsvariablen X1 , X2 , . . . , Xn alle zentriert sind. Man kann
2 2
Xk =
Xk + 2
Xj Xk
k
k
1≤j<k≤n
7. DER LINEARE KORRELATIONSKOEFFIZIENT
109
schreiben. Indem man nun den Erwartungswert auf beiden Seiten bildet,
erhält man (6.1). Sind nun X1 , . . . , Xn paarweise nicht korreliert, so
verschwinden die Kovarianzen Cov(Xj , Xk ) für 1 ≤ j < k ≤ n und man
erhält die zweite Aussage.
Man veriﬁziert ohne weiteres, dass Cov(aX + b, cY + d) = ac Cov(X, Y )
gilt, d.h. dass die Kovarianz invariant gegenüber Verschiebung des Ursprungs
auf den Achsen 0x und 0y ist, nicht aber unter Änderung des Massstabs. Das
kann sich bei statistischen Anwendungen als unangenehm herausstellen. Wie
man dies korrigiert, wird im nächsten Paragraphen behandelt.
7. Der lineare Korrelationskoeﬃzient
Deﬁnition. — Es sei (X, Y ) ein Paar von reellen Zufallsvariablen mit
E[X 2 ] < ∞ und E[Y 2 ] < ∞. Weiter wird angenommen, dass σ(X)σ(Y ) > 0
sei. Man bezeichnet dann die Zahl
! X − E[X] Y − E[Y ] "
Cov(X, Y )
=E
r(X, Y ) =
σ(X)σ(Y )
σ(X)
σ(Y )
als den (linearen) Korrelationskoeﬃzienten des Paares (X, Y ).
Man veriﬁziert sofort, dass r(aX + b, cY + d) = sg(ac) r(X, Y ) gilt, falls
ac = 0 ist. Im Fall a > 0, c > 0 sieht man, dass der lineare Korrelationskoeﬃzient sowohl gegenüber Verschiebungen des Ursprungs, als auch gegen
Änderungen des Massstabs entlang der Achsen 0x und 0y invariant ist. Das
ist von Vorteil, denn so man kann bei Berechnungen, in denen r(X, Y ) eine
Rolle spielt, annehmen, dass die Randverteilungen X und Y zentriert und
reduziert sind.
Eigenschaft 7.1. —
|r(X, Y )| ≤ 1.
Beweis. — Man nimmt X und Y als zentriert und reduziert an. Dann gilt
für jedes λ
0 ≤ E[(X + λY )2 ] = E[X 2 ] + 2 λ E[XY ] + λ2 E[Y 2 ] = 1 + 2λr + λ2 .
Das ist ein Trinom zweiten Grades in λ und es ist nicht negativ; die
Diskriminante muss daher negativ oder Null sein. Somit ist r 2 ≤ 1.
Eigenschaft 7.2. — Ist r(X, Y ) = ±1, so sind X und Y über eine
lineare (besser gesagt: aﬃne) funktionale Beziehung miteinander verbunden.
(Daher der Name “linearer Korrelationskoeﬃzient” für r.)
110
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
Beweis. — Wir behandeln den Fall r = 1. X und Y werden als zentriert
und reduziert angenommen. Dann gilt für alle λ
0 ≤ E[(X + λ Y )2 ] = 1 + 2λ + λ2 = (λ + 1)2 .
Für λ = −1 ist dann E[(X − Y )2 ] = 0, d.h. Y = X fast sicher. Im Falle
r = −1 ﬁndet man Y = −X fast sicher.
Sind X, Y nicht zentriert und reduziert, so hängen sie über die lineare
Beziehung
Y − E[Y ]
X − E[X]
=±
f.s.
σ(Y )
σ(X)
zusammen.
8. Die Ungleichung von Tchebychev. — Es handelt sich hierbei um
eine ausserordentlich nützliche Ungleichung, die bei vielen Abschätzungen
von Wahrscheinlichkeiten verwendet wird, speziell bei Untersuchungen zur
stochastischen Konvergenz.
Satz 8.1. — Es sei r > 0 ein reelle Zahl und X eine auf dem Wahrscheinr
lichkeitsraum (Ω, A, P) deﬁnierte reelle Zufallsvariable. Ist E[ |X| ] endlich,
so gilt für alle reellen t > 0 die Ungleichung
r
P{ |X| ≥ t} ≤
E[ |X| ]
;
tr
äquivalent dazu ist die Ungleichung
P{ |X| ≥ ter } ≤
1
tr
für jedes reelle t > 0, wobei er die Abweichung r-ter Ordnung bezeichnet.
Beweis. — Tatsächlich gilt
{ |X| ≥ t} ⇔ { |X|r ≥ tr }
für t, r > 0, und daher
tr I{ |X|≥t } = tr I{ |X|r ≥tr } ≤ |X|r .
Man erhält die Behauptung, indem man von beiden Seiten den Erwartungswert nimmt.
Für r = 1, 2 erhält man die Ungleichung von Markov, beziehungsweise
die von Tchebychev oder Bienaymé). Die am meisten verwendete Form der
Ungleichung von Tchebychev bezieht sich auf eine zentrierte Zufallsvariable
(X − E[X]).
111
9. UNGLEICHUNGEN FÜR MOMENTE
Korollar 8.2. —
Ungleichung
Ist E[X 2 ] < +∞, so gilt für jedes t > 0 die
P{|X − E[X]| ≥ t} ≤
Var X
.
t2
Bemerkung 1. — Setzt man µ = E[X], σ 2 = Var X, so gilt für jedes t > 0
die Ungleichung
P{|X − µ| ≥ t} ≤
σ2
,
t2
oder äquivalent
P{|X − µ| ≥ tσ} ≤
1
;
t2
d.h. es ist
1
1
und
P{X
∈]µ
−
tσ,
µ
+
tσ[}
≥
1
−
.
t2
t2
Speziell für t = 2 und t = 3 erhält man
1
(*)
P{X ∈]µ − 2σ, µ + 2σ[} ≥ 1 − = 0, 75 ;
4
1
(**)
P{X ∈]µ − 3σ, µ + 3σ[} ≥ 1 − ≈ 0, 88.
9
P{|X − µ| < tσ} ≥ 1 −
Dies zeigt deutlich die Rolle der Standardabweichung.
Bemerkung 2. — Die Ungleichung von Tchebychev ist universell, d.h. sie
gilt für jede Zufallsvariable, deren zweites Moment existiert. Andererseits ist
sie aber auch recht grob. Davon kann man sich beispielsweise im Falle einer
normalverteilten Zufallsvariablen X überzeugen. Für die Verteilung N (µ, σ)
(siehe Kap. 14, § 3), gilt
P{X ∈]µ − 2σ, µ + 2σ[} ≈ 0, 95 ;
[ 2 σ -Regel]
P{X ∈]µ − 3σ, µ + 3σ[} ≈ 0, 997.
Die Abschätzungen (∗) und (∗∗) sind also recht schwach.
9. Ungleichungen für Momente im endlichen Fall. — Es sei X eine
endliche, diskrete Zufallsvariable mit positiven Werten. Um konkret zu sein,
nehmen wir an, dass ihre Verteilung PX durch
PX =
l
l
αk εxk
k=1
mit α1 , . . . , αl ≥ 0,
αk = 1 und 0 < x1 < · · · < xl < +∞ gegeben sei.
k=1
Dann
a) existiert für jede reelle Zahl r das (absolute) Moment r-ter Ordnung
und ist gleich
l
r
αk xrk ;
mr = E[X ] =
k=1
112
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
b) existiert für jede reelle Zahl r = 0 die Abweichung r-ter Ordnung und
ist gleich
1/r
er = mr
.
Satz und Definition 9.1. — Wenn r gegen 0 konvergiert, so strebt die
Abweichung r-ter Ordnung er gegen einen endlichen Grenzwert, der mit e0
bezeichnet wird. Es gilt
l
k
e0 =
xα
k .
k=1
Die Zahl e0 heisst das geometrische Mittel von X.
Beweis. — Die Umformung
1
1
αk xrk = Log
αk exp(r Log xk )
Log er = Log
r
r
=
l
l
k=1
k=1
l
1
αk 1 + r Log xk + o(r)
Log
r
k=1
l
1
αk Log xk + o(r)
= Log 1 + r
r
k=1
l
αk Log xk konvergiert, wenn r gegen 0 strebt.
zeigt, dass Log er gegen
k=1
Theorem 9.2. — Die durch
 1/r
m
(Abweichung r-ter Ordnung),

 r
l
er = αk
xk (geometrisches Mittel),


falls r = 0 ;
falls r = 0.
k=1
deﬁnierte Abbildung r → er von R in R+ ist monoton wachsend.
Beweis.
a) Die Funktion r → Log mr (r ∈ R) ist konvex. In der Tat gilt für
r, s ∈ R nach der Ungleichung von Schwarz
l
k=1
(r+s)/2
αk xk
≤
l
k=1
αk xrk
l
1/2 αk xsk
1/2
;
k=1
1/2
m(r+s)/2 ≤ mr ms
;
1
Log m(r+s)/2 ≤ Log mr + Log ms .
2
Daraus folgt die Behauptung, da die Funktion r → Log mr stetig ist.
9. UNGLEICHUNGEN FÜR MOMENTE
113
b) Die Funktion r → er (r ∈ R \ {0}) ist monoton wachsend in ] − ∞, 0[
und in ]0, +∞[. Denn wegen a) ist der Graph der Funktion r → Log mr
(r ∈ R) konvex und geht durch den Nullpunkt (wegen m0 = 1). Für r = 0
ist Log er = 1r Log mr = 1r (Log mr − Log m0 ) die Steigung der Geraden, die
den Nullpunkt mit dem Punkt (r, Log mr ) verbindet. Aus a) folgt, dass die
Funktion r → Log er monoton wachsend sowohl auf ] − ∞, 0[ als auch auf
]0, +∞[ ist. Dies gilt dann auch für die Funktion r → er .
l
k
c) Mit e0 = k=1 xα
k wird die Funktion r → er (r ∈ R \ {0}) stetig in
den Nullpunkt r = 0 fortgesetzt. Damit ist alles bewiesen.
Bemerkung. — Die gerade beschriebene Abbildung von R in R+ kann zu
einer Abbildung von R in R+ fortgesetzt werden; tatsächlich gilt
l
lim er = min xk = x1
r→−∞
k=1
l
lim er = max xk = xl
r→+∞
k=1
(= e−∞ ) ;
(= e+∞ ).
Spezialfall 1. — Für r = n ∈ N∗ ergibt Theorem 9.2 die Ungleichung
von Liapunov. Speziell für n = 1 besagt
en ≤ en+1 ; dies ist die Ungleichung
$
2
eine zentrierte
dies e1 ≤ e2 , d.h. E[ |X| ] ≤ E[X ]. Nimmt man nun für X $
E[(X − µ)2 ],
Zufallsvariable (X − µ) (µ = E[X]), so ist E[ |X − µ| ] ≤
und das heisst, dass die absolute Abweichung, bezogen auf µ, durch die
Standardabweichung majorisiert wird.
Spezialfall 2. — Aus Theorem 9.2 folgt e−1 ≤ e0 ≤ e1 , wobei
e−1 = E[X
e0 =
l
−1
]
−1
=
l
α −1
k
k=1
k
xα
k
k=1
e1 = E[X] =
xk
das harmonische Mittel ist;
das geometrische Mittel ist;
l
αk xk das arithmetische Mittel ist.
k=1
Auf diese Weise erhält man die klassischen Ungleichungen zwischen diesen
Mittelwerten.
Spezialfall 3. — Wie in Theorem 9.2 festgestellt, gilt für jedes Paar (r, s)
von reellen Zahlen m(r+s)/2 ≤ (mr ms )1/2 . Speziell für r = 2n, s = 2n + 2
(n ∈ N) erhält man mit m2n+1 ≤ (m2n m2n+2 )1/2 eine Ungleichung, die es
einem erlaubt, jedes Moment ungerader Ordnung durch Momente gerader
Ordnung zu majorisieren.
114
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
10. Median. Minimale mittlere Abweichung. — Wir führen hier
eine neue, Median genannte, charakteristische Grösse ein, die gegenüber dem
Erwartungswert den Vorteil hat, für jede Zufallsvariable zu existieren.
Deﬁnition. — Es sei X eine reelle Zufallsvariable. Als Median von X
bezeichnet man jede Zahl M mit
P{X ≤ M } ≥
1
,
2
P{X ≥ M } ≥
1
.
2
Bemerkung 1. — Aus der Deﬁnition folgt unmittelbar, dass die Ungleichungen
P{X ≤ M } ≥
1
≥ P{X > M } und
2
P{X ≥ M } ≥
1
≥ P{X < M }
2
für jeden Median M von X gelten.
Bemerkung 2. — Jede Zufallsvariable X besitzt mindestens einen Median,
es kann aber mehrere geben, die alle die gleiche Rolle spielen. Falls die
Verteilungsfunktion F von X stetig und streng monoton wachsend ist, so
ist der Median M von X eindeutig bestimmt und es gilt F(M ) = 12 .
Theorem 10.1. — Es sei X eine Zufallsvariable mit E[ |X| ] < +∞. Ist
M ein Median von X, so gilt für jede reelle Zahl a die Ungleichung
E[ |X − a| ] ≥ E[ |X − M | ].
Beweis. — Wir geben
den Beweis im Fall einer diskreten Zufallsvariablen
X mit Verteilung PX = k αk εxk . Wenn der Erwartungswert erst einmal für
beliebige Zufallsvariable deﬁniert sein wird (cf. Kap. 11), wird sich zeigen,
dass in dem allgemeinen Fall der Beweis ganz analog verläuft. Betrachten
wir nun den Fall, dass M < a ist. Man kann dann R in die drei disjunkten
Intervalle ] − ∞, M ], ]M, a], ]a, +∞[ aufteilen und schreiben:
|xk − a| − |xk − M | αk
E[ |X − a| ] − E[ |X − M | ] =
=
k
(a − M )αk +
xk ∈]−∞,M ]
(a + M − 2xk )αk +
xk ∈]M,a]
(M − a)αk .
xk ∈]a,+∞[
Bezeichnen A, B und C die drei Summationen in der vorigen Zeile, so gilt
A = (a − M ) P{X ≤ M } ;
B≥
(M − a)xk = (M − a) P{M < X ≤ a} ;
xk ∈]M,a]
C = (M − a) P{X > a},
ERGÄNZUNGEN UND ÜBUNGEN
115
und somit schliesslich
E[ |X − a| ] − E[ |X − M | ] ≥ (a − M ) P{X ≤ M } − P{X > M } .
Da aber M ein Median ist, ist der Ausdruck auf der rechten Seite nicht
negativ. Der Beweis verläuft im Fall M > a ganz analog.
Bemerkung. — Es sei X eine Zufallsvariable mit E[ |X| ] < +∞. Dann
hat der Ausdruck E[ |X − M | ] den gleichen Wert für jeden Median M von
X. Sind nämlich M1 , M2 zwei Mediane von X mit M1 = M2 und wählt man
einerseits a = M1 , M = M2 , andererseits a = M2 , M = M1 , so ergibt die
Ungleichung von Theorem 10.1, dass E[ |X − M1 | ] = E[ |X − M2 | ] ist. Diese
Beobachtung rechtfertigt die folgende Deﬁnition.
Deﬁnition. — Es sei X eine reelle Zufallsvariable mit E[ |X| ] < +∞.
Dann nimmt E[ |X − M | ] sein Minimum für jeden Median M von X an;
dieser gemeinsame Wert heisst minimale mittlere Abweichung oder MedianAbweichung von X.
Theorem 10.1 spielt eine zu Theorem 5.3 analoge Rolle. Wählt man einen
Median als charakteristischen Wert für die Position, so sollte man ihm die
minimale mittlere Abweichung als charakteristischen Wert für die Streuung
zuordnen.
Satz 10.2. — Die Median-Abweichung wird von der Standardabweichung
majorisiert.
Beweis. — Aus Theorem 9.2 folgt E[ |X − µ| ] ≤ σ. Da aber M ein
Median ist, folgt aus Theorem 10.1, angewendet für a = µ, die Ungleichung
E[ |X − M | ] ≤ E[ |X − µ| ]. Daraus ergibt sich die Behauptung.
ERGÄNZUNGEN UND ÜBUNGEN
1. — Man berechne den Erwartungswert und die Varianz einer binomialverteilten bzw. Poisson-verteilten Zufallsvariablen.
2. — Ein Hausmeister hat n Schlüssel, von denen ein einziger eine
bestimmte Tür schliesst. Er versucht sie nacheinander, wobei er nach jedem
Fehlversuch den nicht passenden Schlüssel eliminiert. Wieviele Versuche
benötigt er im Mittel, um den richtigen Schlüssel zu ﬁnden?
3. — Ein Bernoulli-Prozess mit Parameter p ist eine Folge (Xn ) (n =
1, 2, . . . ) von unabhängigen Zufallsvariablen, von denen jede nur zwei Werte
116
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
(etwa 1 und 0) annimmt, wobei p und q = 1 − p die entsprechenden
Wahrscheinlichkeiten sind. Man kann Xn als das Resultat (Erfolg oder
Misserfolg) im n-ten Versuch eines wiederholt ausgeführten Experiments
ansehen, wobei die Bedingungen immer gleich sind und die Resultate der
verschiedenen Versuche sich nicht gegenseitig beeinﬂussen.
a) Man zeige, dass die Verteilung der Zufallsvariablen Sn = X1 +· · ·+Xn
(Anzahl der Erfolge in den n ersten Versuchen) nichts anderes ist als
die Binomialverteilung B(n, p). Man ermittle (ohne zu rechnen!) nochmals
Erwartungswert und Varianz einer solchen Verteilung.
b) Es bezeichne L die grösste ganze Zahl mit X1 = X2 = · · · = XL und
M die grösste ganze Zahl mit XL+1 = XL+2 = · · · = XL+M . Man bestimme
die Verteilungen der Zufallsvariablen L und M , deren Erwartungswerte und
Varianzen. Man zeige, dass die Verteilungen von L und M genau dann
übereinstimmen, falls p = 1/2 ist.
c) (E. Kosmanek) Man beweise die Aussagen E[L] ≥ E[M ] = 2,
Var L ≥ Var M ≥ 2, Cov(L, M ) = −(p − q)2 /(pq) und − 12 ≤ r(L, M ) ≤ 0.
d) (E. Kosmanek) Man zeige, dass für jedes n ≥ 1 gilt

 pn−1 q, falls p < 1/2;
lim P{M = n | L = l} = q n−1 p, falls p > 1/2;
l→∞

falls p = 1/2.
1/2n ,
e) Es sei T die Anzahl der Misserfolge, die dem ersten Erfolg vorausgehen,
d.h. die kleinste Zahl T mit XT +1 = 1. Man zeige, dass PT =
k
k≥0 pq εk (modiﬁzierte geometrische Verteilung) ist und berechne E[T ].
f) Allgemeiner sei nun r ≥ 1 eine ganze Zahl und es bezeichne Tr die
Anzahl der Misserfolge, die dem r-ten Erfolg vorausgehen. Man zeige
r+k−1 r k
−r r
p q =
p (−q)k
P{Tr = k} =
k
k
(negative Binomialverteilung) und E[Tr ] = rq/p.
4. — Wir kommen zu Aufgabe 2 zurück und nehmen nun an, dass der
Hausmeister nach jedem vergeblichen Versuch den jeweiligen Schlüssel in
seine Schlüsselsammlung zurücklegt. Dann liegt ein Bernoulli-Prozess mit
p = 1/n vor. Man berechne in dieser Situation den Erwartungswert für die
Anzahl der Versuche, die benötigt werden, um den passenden Schlüssel zu
ﬁnden.
5. — Es sei X eine Zufallsvariable, die Werte xk annimmt, sowie A ein
Ereignis mit positiver Wahrscheinlichkeit. Man setzt
xk P{X = xk | A}.
E[X | A] =
k
ERGÄNZUNGEN UND ÜBUNGEN
117
Ist nun (Bn ) (n = 1, 2, . . . ) ein vollständiges System von Ereignissen, so zeige
man
P(Bn )E[X | Bn ].
E[X] =
n
6. — Es sei (Xn ) (n = 1, 2, . . . ) eine Folge von gleichverteilten Zufallsvariablen und N eine Zufallsvariable mit ganzzahligen Werten, wobei
die Glieder der Folge N, X1 , X2 , . . . unabhängig sein sollen. Man setzt nun
SN = X1 + · · · + XN . Mittels der vorhergehenden Aufgabe und Satz 6.2 aus
Kapitel 6 beweise man die Formel von Wald: E[SN ] = E[N ] E[X1 ].
7. — Es sei (Zn ) (n = 1, 2, . . . ) eine Folge von Zufallsvariablen, die jeweils
nur zwei Werte, etwa 0 und 1, annehmen. Man zeige, dass die Zufallsvariablen
Zn unabhängig sind, falls die Ereignisse {Zn = 0} (n = 1, 2, . . . ) als
Gesamtheit unabhängig sind.
8. — Ein Spieler hat a unterscheidbare Münzen und spielt eine Reihe
von Partien, wobei jede Partie darin besteht, alle Münzen zu werfen. Es soll
nun die mittlere Anzahl von Münzen berechnet werden, die im Verlauf der
n ersten Partien mindestens einmal Zahl zeigen. Ebenso soll die mittlere
Anzahl von Partien bestimmt werden, die gespielt werden müssen, bis jede
Münze mindestens einmal Zahl ergeben hat.
Wir betrachten für n = 1, 2, . . . die Zufallsvariablen ξin mit dem Wert 1
oder 0, je nachdem, ob in der n-ten Partie die i-te Münze Zahl oder Kopf zeigt. Unterstellt wird, dass die Zufallsvariablen ξin (i = 1, 2, . . . , a ; n =
1, 2, . . . ) unabhängig sind und dieselbe Verteilung 12 (ε0 + ε1 ) haben.
Es bezeichne Yn die Anzahl der Münzen, die in der n-ten Partie erstmals
Zahl zeigen, sowie X
n die Anzahl der Münzen, die mindestens einmal im
Verlauf der
ersten n Partien Zahl zeigen. Dann gilt Xn = Y1 + · · · + Yn
und Yn = i∈An ξin , wobei An die Menge der i mit ξi1 = · · · = ξin−1 = 0
bezeichnet.
a) Man zeige card An = a − Xn−1 . Daraus folgere man mit Hilfe von
Aufgabe 6 die Beziehung E[Xn ] = 12 E[Xn−1 ] + (a/2). Man berechne E[Xn ].
b) Für festes n und 1 ≤ i ≤ a bezeichne Zi die Variable mit Werten 1 und
0, je nachdem, ob im Verlauf der n ersten Partien die i-te Münze mindestens
einmal Zahl gezeigt hat oder nicht. Es ist also Zi = sup1≤k≤n ξik , sowie
Xn = Z1 + · · · + Za .
Man zeige, dass die Zi (für festes n) unabhängig sind. Man bestimme
k a−k
1
a
1
deren Verteilung und folgere P{Xn = k} =
1− n
. Man
2
2n
k
bestimme nochmals E[Xn ] und berechne Var Xn .
9. — An der Garderobe eines Restaurants geben n Personen ihre Hüte
ab. Nach dem Essen ﬁnden sie ihre Hüte völlig durcheinander vor und jeder
118
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
nimmt sich zufällig einen Hut. Es bezeichne nun Xk (k = 1, 2, . . . , n) die
Zufallsvariable, die den Wert 1 annimmt, falls die k-te Person ihren eigenen
Hut wiedererhält, andernfalls sei der Wert von Xk gleich 0. Dann gibt
Sn = X1 + · · · + Xn die Anzahl der Personen an, die ihren Hut zurück
erhalten.
a) Man konstruiere einen Wahrscheinlichkeitsraum, der dieses Experiment beschreibt.
b) Man berechne E[Sn ] und Var Sn .
c) Man zeige, dass die Wahrscheinlichkeit dafür, dass Sn mindestens
gleich 11 ist, höchstens gleich 0, 01 ist, und dies für beliebige n ≥ 11.
10. — Es sei (X, Y, Z) ein Tripel von Zufallsvariablen mit X +Y +Z = 1.
Es wird angenommen, dass Var X ≤ Var Y ≤ Var Z < +∞ gilt. Man zeige,
a) dass die Variable Z negative Korrelation sowohl mit X als auch mit Y
hat;
b) dass Cov(X, Y ) ≥ 0 genau dann gilt, wenn Var X + Var Y ≤ Var Z;
c) dass |Cov(X, Z)| ≤ |Cov(Y, Z)| gilt.
11. — Eine Zufallsvariable X mit unbekannter Verteilung habe einen
Erwartungswert µ = 10 und eine Varianz σ = 5. Man zeige, dass für jedes
n ≥ 50 die Wahrscheinlichkeit des Ereignisses {10 − n < X < 10 + n}
mindestens gleich 0, 99 ist.
12. — Es sei X eine Zufallsvariable. Man zeige, dass aus E[ |X| ] = 0 die
Aussage X = 0 fast sicher folgt. Die gleiche Folgerung gilt für E[X 2 ] = 0.
13. — Es seien a, b zwei positive reelle Zahlen. Man setzt
! 1 1 1 "−1
√
a+b
A=
.
, G = ab, H =
+
2
2 a b
√
Zu zeigen ist H ≤ G ≤ A und G = AH. (G ist das geometrische Mittel
von A und von H.)
14. — Es sei X eine Zufallsvariable mit nichtnegativen Werten, wobei
E[X] < +∞, E[1/X] < +∞ gelte. Man zeige, dass dann E[X] E[1/X] ≥ 1
ist.
15. — Es sei X eine Zufallsvariable und r eine positive reelle Zahl mit
r
E[ |X| ] < +∞. Man zeige, dass dann P{ |X| ≥ n} = o(1/nr ) gilt, falls n
gegen +∞ strebt.
16. — Es sei (X1 , X2 , Y1 , Y2 ) ein System von vier Zufallsvariablen, die
Momente zweiter Ordnung besitzen. Man zeige: falls das Paar (X1 , X2 )
119
ERGÄNZUNGEN UND ÜBUNGEN
von dem Paar (Y1 , Y2 ) unabhängig ist, so gilt Cov(X1 + Y1 , X2 + Y2 ) =
Cov(X1 , X2 ) + Cov(Y1 , Y2 ).
17. — Es sei (X, Y ) ein Paar von Indikatorvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P), d.h. X = IA , Y = IB für A, B ∈ A. Man zeige,
dass X und Y genau dann unabhängig sind, wenn sie unkorreliert sind.
18. — Es sei (X, Y ) ein Paar von Zufallsvariablen mit Var X = Var Y <
+∞. Man zeige, dass die Zufallsvariablen X + Y und X − Y unkorreliert
sind.
19. (Der Erwartungswert als Approximation eines Parameters). — Eine
Urne enthalte Kugeln, die von 1 bis N durchnummeriert sind. Man führt n
Ziehungen (mit Zurücklegen) aus und bezeichnet mit X die grösste gezogene
Zahl. Man kann X als Zufallsvariable mit Werten in {1, . . . , N } ansehen,
deren Verteilungsfunktion und Erwartungswert durch
k n
(k ∈ {1, . . . , N }),
P{X ≤ k} = P{die n gezogenen Zahlen sind ≤ k} =
N
N−1
N−1
N−1
1 n
1 − P{X ≤ k} = N − n
P{X > k} =
k ,
E[X] =
N
k=0
gegeben sind. Nun ist aber
k=0
N−1
k=0
k n ∼ N n+1 /(n + 1) und daher E[X] ∼
k=0
(n/(n + 1))N . Man erkennt, dass für grosse Werte von n der Erwartungswert
E[X] eine gute Approximation für die Anzahl der Kugeln in der Urne
darstellt. (In der Praxis würde man, um N zu schätzen, anstelle von E[X]
eher X, die grösste gezogene Zahl, nehmen.)
20. — Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum und es seien A, B
zwei Elemente von A mit Indikatorfunktionen IA ,IB .
a) Es gilt Cov(IA , IB ) = P(A ∩ B) − P(A)P(B).
α) Cov(IA , IB ) = 0 gilt genau dann, wenn A und B unabhängig sind.
β) Cov(IAc , IB ) = − Cov(IA , IB ) (man beachte IAc = 1 − IA ).
b) Es gilt σ 2 (IA ) = Var(IA ) = P(A)(1 − P(A)) und daher Var(IAc ) =
Var(IA ).
c) Falls 0 < P(A), P(B) < 1 ist, kann man den linearen Korrelationskoeﬃzienten des Paares (IA , IB ) deﬁnieren (vgl. § 7). Dann gilt
α) r(IAc , IB ) = −r(IA , IB );
β) r(IA , IB ) = 1 genau dann, wenn B = A und r(IA , IB ) = −1 genau
dann, wenn B = Ac .
Da diese Übung nur einfaches Nachvollziehen erfordert, wird kein Beweis
angegeben.
120
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
21. — Es sei X eine Bernoulli-verteilte Zufallsvariable mit Verteilung
qε0 + pε1 , wobei p, q ≥ 0 und p + q = 1.
a) Falls p = q ist, hat X genau einen Median M , und zwar gleich 0, falls
p < q ist und gleich 1, falls p > q ist.
b) Ist p = q = 12 , so ist jede Zahl aus dem Intervall [0, 1] ein Median
von X.
http://www.springer.com/978-3-7643-6169-3