ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE

Werbung
KAPITEL
8
ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
In diesem Kapitel werden wir den Begriff des Erwartungswertes für diskrete
reelle Zufallsvariable einführen. Ein eigenes Kapitel hierfür wäre kaum
gerechtfertigt, wenn man zunächst die Integrationstheorie für beliebige Zufallsvariable behandeln würde, die auf einem abstrakten Wahrscheinlichkeitsraum (Ω, A, P) definiert sind. Im Gegensatz dazu kann man zum Studium
des Erwartungswertes von reellen, diskreten Zufallsvariablen direkt von
dem wahrscheinlichkeitstheoretischen (Bild-)Raum (R, B1 , PX ) ausgehen. Der
Zusammenhang zwischen diesen beiden Ansätzen wird durch den sogenannten Transportsatz zum Ausdruck gebracht. Eine diskrete Version dieser Aussage wird in diesem Kapitel formuliert.
1. Transformation von Zufallsvariablen
Satz 1.1. — Es sei X eine n-dimensionale diskrete Zufallsvariable mit
der Verteilung
αk εxk
PX =
k
und g eine auf (Rn , Bn ) definierte messbare Funktion mit Werten in Rp .
Dann ist die Komposition g ◦ X eine p-dimensionale diskrete Zufallsvariable
mit der Verteilung
αk εg(xk ) .
Pg◦X =
k
X
g
In der Schreibweise der Komposition (Ω, A, P) → (Rn , Bn , PX ) → (Rp , Bp )
gilt dann für jedes z ∈ Rp
(1.1)
Pg◦X {z} = PX {g = z} = P{g ◦ X = z}.
Beweis. — Offensichtlich nimmt die Zufallsvariable g ◦ X Werte in Rp an.
Andererseits gilt g(X(ω)) = z genau dann, wenn X(ω) ∈ g −1 (z) ist. Folglich
hat man Pg◦X {z} = P{g ◦ X =z} = P{X ∈ g −1 (z)} = PX (g −1 (z)) =
PX {g = z} = PX {x : g(x) = z} = k {αk : g(xk ) = z}.
98
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
Korollar 1.2. — Ist T = (X, Y ) eine zweidimensionale diskrete
Zufallsvariable mit der Verteilung
PT =
p(xi , yj )ε(xi ,yj ) ,
i,j
wobei {(xi , yj ) : (i, j) ∈ I × J} eine endliche oder abzählbare Folge von
Elementen aus R2 ist, so sind X und Y diskrete Zufallsvariable mit den
Verteilungen
PX =
i∈I
p(xi , yj ) εxi
und
PY =
j∈J
j∈J
p(xi , yj ) εyj .
i∈I
Die Verteilungen PX und PY heissen Randverteilungen (in X, Y ) zu der
(gemeinsamen) Verteilung PT .
Beweis. — Es genügt die Feststellung, dass die beiden Projektionen
π1 : (x, y) → x und π2 : (x, y) → y messbare Abbildungen von R2 in R
sind und dass sowohl X = π1 ◦ T als auch Y = π2 ◦ T gilt.
Korollar 1.3. — Mit den gleichen Bezeichnungen wie eben ist die
Verteilung von X + Y durch
PX+Y =
p(xi , yj )ε(xi +yj )
i,j
gegeben.
Beweis. — Es gilt X + Y = g ◦ T mit g(x, y) = x + y.
Korollar 1.2 besagt, dass die Verteilung von T die Verteilungen von X
und Y vollständig bestimmt. Die Umkehrung dieser Aussage gilt nicht: sind
nämlich X und Y reelle Zufallsvariable, die auf demselben Wahrscheinlichkeitsraum (Ω, A, P) definiert sind, und welche die Verteilungen
(1.2)
PX =
i∈I
P{X = xi }εxi
und
PY =
P{Y = yj }εyj
j∈J
haben, so ist es im allgemeinen nicht möglich, aus dieser Information alleine
die Verteilung von T = (X, Y ) zu rekonstruieren, denn dazu müsste man die
Daten p(xi , yj ) = P{X = xi , Y = yj } für alle (i, j) ∈ I × J kennen.
3. FALTUNG VON DISKRETEN VERTEILUNGEN
99
2. Unabhängigkeit. — Es seien nun X und Y reellwertige Zufallsvariable, die auf demselben Wahrscheinlichkeitsraum (Ω, A, P) definiert sind und
deren Verteilungen PX und PY durch die Formeln (1.2) gegeben sind. Dann
kann man die Verteilung des Paares (X, Y ) bestimmen, wie es im Korollar
zum folgenden Satz beschrieben wird.
Satz 2.1. — Die reellen Zufallsvariablen X und Y sind genau dann
unabhängig, wenn
(2.1)
P{X = xi , Y = yi } = P{X = xi } P{Y = yj }
für alle i ∈ I und j ∈ J gilt.
Beweis. — Tatsächlich sind X und Y genau dann unabhängig, wenn
P{X ∈ A, Y ∈ B} = P{X ∈ A}P{Y ∈ B} für jedes Paar A, B von BorelMengen gilt. Speziell für A = {xi } und B = {yj } reduziert sich das auf (2.1).
Ist umgekehrt (2.1) für alle i ∈ I und j ∈ J erfüllt, und sind A, B zwei
Borel-Mengen, so gilt
P{X ∈ A, Y ∈ B} =
P{X = xi , Y = yj } : xi ∈ A, yj ∈ B
P{X = xi }P{Y = yj } : xi ∈ A, yj ∈ B
=
P{X = xi } : xi ∈ A
P{Y = yj } : yj ∈ B
=
= P{X ∈ A} P{Y ∈ B}.
Dies bedeutet aber gerade die Unabhängigkeit von X und Y .
Korollar 2.2. — Sind X und Y unabhängige Zufallsvariable, so ist die
Verteilung von T = (X, Y ) vollständig durch die Verteilungen von X und Y
bestimmt.
Das Korollar folgt unmittelbar aus Gleichung (2.1).
3. Faltung von diskreten Verteilungen
Definition. — Es seien P = i∈I αi εxi und Q = j∈J βj εyj zwei diskrete
Wahrscheinlichkeitsverteilungen. Als Faltungsprodukt von P mit Q, notiert als
P ∗ Q, bezeichnet man die durch
(3.1)
P∗Q=
(i,j)∈I×J
definierte Wahrscheinlichkeitsverteilung.
αi βj ε(xi +yj )
100
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
Dass P ∗ Q tatsächlich eine Wahrscheinlichkeitsverteilung ist, folgt aus
elementaren Eigenschaften absolut konvergenter Reihen. Weiter ergibt sich
daraus auch sofort, dass das Faltungsprodukt kommutativ und assoziativ ist.
Die Binomialverteilungen und die Poissonverteilungen sind verträglich mit
dem Faltungsprodukt. Dies besagt der folgende Satz.
Satz 3.1. — Bezeichnet B(n, p) die Binomialverteilung mit Parametern
(n, p) (0 ≤ p ≤ 1, n ≥ 0), sowie πλ die Poisson-Verteilung mit Parameter λ
(λ > 0), so gilt
B(n, p) ∗ B(m, p) = B(n + m, p)
(n, m ∈ N) ;
(λ > 0, ν > 0).
πλ ∗ πν = πλ+ν
Beweis. — Man hat
B(n, p) ∗ B(m, p) =
n m
pi+j q n+m−i−j εi+j =
i=0 j=0
n+m
γk pk q n+m−k εk ,
k=0
wobei für k = 0, 1, . . . , n + m der Koeffizient γk durch
k n
m
γk =
i
k−i
i=0
gegeben ist. Diese Summe ist aber wegen der Binomialformel gleich
dies beweist die erste Behauptung.
Um die zweite Behauptung zu verifizieren, schreibt man
πλ ∗ πν =
∞ ∞
i=0 j=0
k
;
∞
µj
εi+j = e−(λ+µ)
γk εk ,
i! j!
i
−(λ+µ) λ
e
n+m
k=0
wobei man für k = 0, 1, . . .
k
λi µk−i
γk =
i! (k − i)!
i=0
gesetzt hat. Diese Summe ist aber nichts anderes als (λ + µ)k /k!
Satz 3.2. — Sind X und Y auf demselben Wahrscheinlichkeitsraum
definierte unabhängige, reelle, diskrete Zufallsvariable mit den Verteilungen
PX und PY , so ist die Verteilung der Zufallsvariablen X +Y das Faltungsprodukt von PX mit PY , also
PX+Y = PX ∗ PY .
Diese Aussage ist eine unmittelbare Folgerung aus Korollar 1.3 und
Satz 2.1.
101
4. ERWARTUNGSWERT
4. Erwartungswert. — Genau so, wie man in der Mechanik den
Begriff des Schwerpunktes von Massepunkten einführt, spricht man in der
Wahrscheinlichkeitsrechnung von dem Mittelwert oder dem Erwartungswert
einer reellen Zufallsvariablen X. Jeder von X angenommene Wert wird mit
einer Masse belegt, die gleich der Wahrscheinlichkeit ist, dass X diesen
Wert annimmt. Der Erwartungswert von X, notiert mit E[X], ist dann
der Schwerpunkt dieses Systems von Massepunkten. Diese Beschreibung ist
ausreichend, um den Fall diskreter Zufallsvariablen zu behandeln.
Definition. — Der Erwartungswert
einer reellen, diskreten Zufallsvariablen
X mit Verteilung PX = i αi εxi wird durch
E[X] =
α i xi
i
definiert, wobei vorausgesetzt wird, dass die Reihe auf der rechten Seite
absolut konvergiert. In diesem Fallsagt man, dass X einen endlichen Erwartungswert hat. Falls die Reihe i αi |xi | divergiert, so sagt man, dass X
keinen endlichen Erwartungswert hat.
Es sei j βj εyj ein Ausdruck für die Wahrscheinlichkeitsverteilung PX ,
wobei alle yj als verschieden angenommen werden. Für jedes
j ist also die
αi xi absolut
Zahl βj die Summe aller αi mitxi = yj . Falls die Reihe
konvergiert, ist auch die Reihe
j yj βj selbst absolut konvergent und ihr
Wert hängt nicht von der Nummerierung der Paare (βj , yj ) ab. Ausserdem
gilt
xi α i =
yj
αi =
yj βj
i
j
i ; xi =yj
j
aus Gründen der verallgemeinerten Assoziativität. Folglich hängt der Erwartungswert von X weder von dem konkreten Ausdruck
für PX , noch von
der Nummerierung der Paare (αi , xi ) in der Summation i xi αi ab. Diese
Eigenschaft der vollständigen Kommutativität rechtfertigt die Interpretation
des Erwartungswertes als Schwerpunkt.
Der Transportsatz, den wir nun formulieren werden, zeigt die Flexibilität
des Begriffes des Erwartungswertes. Dazu betrachten wir einen Wahrscheinlichkeitsraum (Ω, A, P), wobei Ω höchstens abzählbar sei, sowie eine auf
diesem Raum definierte reelle Zufallsvariable X. Das Bild von Ω unter X
ist selbst höchstens abzählbar, etwa X(Ω) = {xn : n ∈ N}. Ausserdem bezeichne PX die Verteilung von X.
Theorem 4.1 (Transportsatz). — Es gilt
ω∈Ω
X(ω)P({ω}) =
n
xn PX ({xn })
102
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
unter der Voraussetzung, dass eine der beiden in dieser Identität vorkommenden Reihen absolut konvergiert (die andere tut dies dann auch). Falls
dies zutrifft, nennt man den gemeinsamen Wert auf beiden Seiten den Erwartungswert von X.
Beweis. — Es sei An = X −1 ({xn }); die Familie {An } bildet dann eine
Partition von Ω und es gilt (zumindest formal)
X(ω)P({ω}) =
X(ω)P({ω}) .
n ω∈An
ω∈Ω
Weil X(ω) = xn für jedes ω ∈ An gilt, ist
X(ω)P({ω}) =
xn
P({ω})
n
ω∈Ω
=
n
ω∈An
xn P(An ) =
xn PX ({xn }).
n
Diese formalen Rechnungen sind (im analytischen Sinne) gültig, sobald
mindestens eine der beteiligten Reihen absolut konvergiert.
Bevor wir nun die grundlegenden Eigenschaften des Erwartungswertes
behandeln, wollen wir den Begriff einführen, dass eine Eigenschaft fast sicher
gilt.
Definition. — Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum und P eine
Eigenschaft, die auf jedes ω ∈ Ω zutreffen kann oder nicht. Man sagt, dass
P fast sicher (f.s.) gilt, wenn es ein A ∈ A mit P(A) = 0 gibt derart, dass P
für alle ω ∈ Ac zutrifft.
In dieser Definition wird nicht unterstellt, dass die Menge A derjenigen
ω ∈ Ω, auf die die Eigenschaft P nicht zutrifft, die Wahrscheinlichkeit Null
hat, denn A muss nicht notwendig zu A gehören. Tatsächlich gilt A ⊂ A,
A ∈ A, P(A) = 0 und P ist wahr in Ac (aber P ist auch wahr in A \ A ).
Theorem 4.2. — Es seien X und Y zwei auf einem Wahrscheinlichkeitsraum (Ω, A, P) definierte diskrete Zufallsvariable. Dann gilt
(D1) E[X] ist endlich genau dann, wenn E[ |X| ] endlich ist;
(D2) ist | X| ≤ Y und E[Y ] endlich, so ist auch E[X] endlich;
(D3) −∞ < a ≤ X ≤ b < +∞ =⇒ a ≤ E[X] ≤ b;
(D4) X = a f.s. =⇒ E[X] = a;
(D5) E[X] endlich =⇒ |E[X]| ≤ E[ |X| ].
Beweis. — Die Eigenschaft (D1) ist eine unmittelbare Folge aus der
Definition des Erwartungswertes.
Um (D2) zu zeigen, greifen wir auf die Bezeichnungen von Korollar 1.2
π
T
zurück. In der Komposition Ω → T (Ω) →2 Y (Ω) ist die Menge T (Ω)
103
4. ERWARTUNGSWERT
höchstens abzählbar. Andererseits gilt für jedes yj , gemäss Formel (1.1),
PY {yj } = Pπ2 ◦T {yj } = PT {π2 = yj }. Setzen wir Q = PT , so ist Q ein
Wahrscheinlichkeitsmass auf der Menge T (Ω), das von den Paaren (xi , yj )
getragen wird. Bezeichnet nun Qπ2 die Verteilung der Zufallsvariablen π2 , die
auf dem Wahrscheinlichkeitsraum (T (Ω), P(T (Ω)), Q) definiert ist, so erhält
man PY {yj } = Q{π2 = yj } = Qπ2 {yj }. Die Anwendung des Transportsatzes
auf diesen Raum und die Zufallsvariable π2 liefert dann
E[Y ] =
yj PY {yj } =
yj Qπ2 {yj }
j
=
j
π2 (xi , yj )Q{(xi , yj )}
(xi ,yj )∈T (Ω)
=
yj Q{(xi , yj )}.
(xi ,yj )∈T (Ω)
Nun hat |X| ≤ Y aber (xi , yj ) ∈ T (Ω) ⇒ |xi | ≤ yj zur Folge, also gilt
|xi |Q{(xi , yj )}
E[Y ] ≥
(xi ,yj )∈T (Ω)
≥
xi Q{(xi , yj )}
(xi ,yj )∈T (Ω)
≥ E[X],
wobei man dieses Mal den Transportsatz auf die Zufallsvariable X = π1 ◦ T
anwendet.
Um die Eigenschaft (D3) zu beweisen, schreibt man
P{X = xk }a ≤ P{X = xk }xk ≤ P{X = xk }b ,
woraus sich
a=
P{X = xk }a ≤
P{X = xk }xk ≤
P{X = xk }b = b
k
k
k
ergibt.
Für den Nachweis von (D4) genügt es, sich klarzumachen, dass aus X = a
fast sicher folgt, dass X die Verteilung εa hat und somit E[X] = a gilt.
Eigenschaft (D5) folgt schliesslich ganz einfach aus
P{X = xk }xk ≤
P{X = xk } |xk | = E[ |X| ].
|E[X]| = k
k
Die wichtigsten Eigenschaften des Erwartungswertes sind im folgenden
Theorem zusammengestellt.
104
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
Theorem 4.3. — Es seien X und Y zwei auf dem Wahrscheinlichkeitsraum (Ω, A, P) definierte diskrete Zufallsvariable. Falls E[ | X| ] < ∞ und
E[ | Y | ] < ∞ gelten, so hat man die folgenden Eigenschaften:
A. Linearität
(A1) E[X + Y ] = E[X] + E[Y ];
(A2) E[λX] = λ E[X] (λ ∈ R).
B. Monotonie
(B1) X ≥ 0 =⇒ E[X] ≥ 0;
(B2) X ≥ Y =⇒ E[X] ≥ E[Y ];
(B3) X = Y f.s. =⇒ E[X] = E[Y ].
C. Unabhängigkeit. — Sind X und Y unabhängig, so ist E[XY ] endlich
und es gilt E[XY ] = E[X] E[Y ].
P{X
=
x
}
ε
und
Beweis. — Mit
i
x
i
i
j P{Y = yj } εyj sollen die
jeweiligen Verteilungen von X und von Y bezeichnet werden.
Um (A1) zu beweisen, wird auf die gemeinsame Verteilung von X und Y
Bezug genommen. Es gilt
P{X = xi , Y = yj } |xi | = P{X = xi } |xi |
j
und daher
i
P{X = xi , Y = yj } |xi | =
P{X = xi } |xi | = E[ |X| ] < +∞.
j
i
Analog zeigt man
j
P{X = xi , Y = yj } |yj | = E[ |Y | ] < +∞.
i
Damit erweist sich die Doppelreihe
i,j P{X = xi , Y = yj }(xi + yj ) als
absolut konvergent, und man kann schliessen, dass
P{X = xi , Y = yj }(xi + yj )
i,j
P{X = xi , Y = yj } xi +
P{X = xi , Y = yj } yj
=
i
j
j
i
gilt; das besagt aber gerade
E[X + Y ] = E[X] + E[Y ].
Die Eigenschaft (A2) ist einfach nachzuvollziehen. Für (B1) beachte
man, dass
im Falle X ≥ 0 jedes der xinicht negativ und daher auch
E[X] = i P{X = xi }xi ≥ 0 ist. Sei nun k P{Z = zk } εzk die Verteilung
von Z = X − Y . Wenn Z ≥ 0 ist, so gilt E[Z] = E[X] − E[Y ] ≥ 0,
daher gilt (B2). Für (B3) schliesslich beachte man, dass aus Z = 0 f.s.
5. MOMENTE
105
P{Z = 0} = 1 folgt. Somit ist P{Z = z} = 0 für alle z = 0 und daher
E[Z] = k P{Z = zk }zk = 0.
Um (C) zu zeigen, setzt man XY = g◦T mit T = (X, Y ) und g(x, y) = xy.
Ausgangspunkt ist die Verteilung des Paares T . Nach Satz 1.1 kann man die
Verteilung des Produktes XY mit Hilfe der Verteilung von T in der Form
P{X = xi , Y = yj }εxi yj =
P{X = xi } P{Y = yj }εxi yj
PXY =
i,j
i,j
schreiben, weil X und Y unabhängig sind. Folglich ist
P{X = xi } P{Y = yj }xi yj
E[XY ] =
i,j
=
i
P{X = xi }xi
P{Y = yj }yj = E[X] E[Y ].
j
5. Momente. — Der Erwartungswert einer Zufallsvariablen X hängt
nur von der Verteilung von X ab und gibt den mittleren Wert an, um
den sich die Werte der Variablen X verteilen. Man führt nun noch andere
charakteristische Werte der Verteilung von X ein, in denen die Streuung
dieser Verteilung zum Ausdruck kommt, so beispielsweise die Momente. Wir
beginnen mit einem Lemma, das es erlaubt, Momente verschiedener Ordnung
miteinander zu vergleichen.
Lemma 5.1. — Es seien r und s zwei reelle Zahlen mit 0 < s < r und
r
s
X eine reelle Zufallsvariable. Wenn E[ |X| ] endlich ist, so ist auch E[ |X| ]
endlich.
Beweis. — In der Tat, für jedes a > 0 gilt die Ungleichung as ≤ 1 + ar ,
denn für a ≥ 1 kann man ar = as ar−s ≥ as schreiben und für a < 1 gilt
natürlich as < 1.
s
Wenden wir diese Ungleichung auf |X(ω)| an. Es ergibt sich |X(ω)| ≤
r
r
r
1 + |X(ω)| für alle ω ∈ Ω. Aber E[1 + |X| ] = 1 + E[ |X| ] existiert und
ist nach Voraussetzung endlich. Aus der obigen Eigenschaft (D2) folgt also,
s
dass auch E[ |X| ] endlich ist.
Definition. — Es sei X eine reelle, diskrete Zufallsvariable mit der
r
Verteilung PX = i∈I αi εxi . Es seien a und r reelle Zahlen. Falls E[ |X − a| ]
endlich ist, so definiert man das in a zentrierte Moment r-ter Ordnung von
X durch
r
m
=
E[(X
−
a)
]
=
αi (xi − a)r .
a r
i∈I
Das Moment r-ter Ordnung (zentriert in 0) wird durch
mr = E[X r ]
106
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
r
definiert. Falls E[X] und E[ |X − E[X]| ] endlich sind, wird entsprechend das
(im Mittel) zentrierte Moment r-ter Ordnung durch
µr = E[(X − E[X])r ]
definiert. Für r = 1 hat man m1 = E[X] und µ1 = 0. Für r = 2 wird das
zentrierte Moment zweiter Ordnung µ2 auch als Varianz von X bezeichnet
und
Var X = E[(X − E[X])2 ]
geschrieben. Die Quadratwurzel von Var X wird mit σ(X) bezeichnet und
Standardabweichung von X genannt. Die Zufallsvariablen (X − E[X]) bzw.
(X − E[X])/σ(X) heissen Zentrierte bzw. reduzierte Zentrierte von X (wobei
man im letzten Fall σ(X) > 0 annimmt).
Aus dem obigen Lemma folgt insbesondere, dass jede Zufallsvariable,
die ein endliches Moment zweiter Ordnung hat, auch einen endlichen Erwartungswert hat.
Satz 5.2. — Eine reelle Zufallsvariable X hat ein endliches Moment
zweiter Ordnung E[X 2 ] genau dann, wenn ihr Erwartungswert E[X] und ihre
Varianz Var X existieren und endlich sind. Es gilt dann
(5.1)
Var X = E[X 2 ] − (E[X])2 .
Beweis. — Wenn X ein endliches Moment zweiter Ordnung hat, so ist
auch der Erwartungswert von X endlich und es ist
(X − E[X])2 = X 2 − 2X E[X] + (E[X])2 .
Der Erwartungswert dieser Grösse ist nichts anderes als Var X und wegen der
Linearitätseigenschaften (A1) und (A2) ist er durch E[X 2 ]−(E[X])2 gegeben.
Umgekehrt nimmt man an, dass E[ |X| ] und Var X endlich sind. Schreibt
man dann
X 2 = (X − E[X] + E[X])2 = (X − E[X])2 + (E[X])2 + 2 E[X] (X − E[X]),
so sieht man, dass alle Glieder auf der rechten Seite einen endlichen Erwartungswert haben. Aus den Linearitätseigenschaften des Erwartungswertes
folgt wiederum, dass E[X 2 ] endlich ist. Da zusätzlich
E[ E[X] (X − E[X])] = E[X] E[X − E[X]] = 0
gilt, erhält man noch einmal die Formel (5.1).
107
6. KOVARIANZ
Satz 5.3. — Es sei X eine Zufallsvariable mit E[X 2 ] < ∞. Dann gilt
für jede reelle Zahl a die Ungleichung
2
= σ2.
E[(X − a)2 ] ≥ E X − E[X]
Man sieht also, dass das Moment zweiter Ordnung relativ zum Erwartungswert minimal wird und dieser minimale Wert gerade die Varianz
ist. Nimmt man den Erwartungswert als charakteristische Grösse für die Position, so ist es naheliegend, die Varianz als charakteristischen Wert für die
Streuung anzusehen.
Beweis. — Sei g(a) = E[(X − a)2 ] und µ = E[X]. Dann gilt
2
g(a) = E (X − µ) + (µ − a)
= E (X − µ)2 + 2(µ − a) E[X − µ] + (µ − a)2
= σ 2 + (µ − a)2 .
Definition. — Es sei r eine ganze Zahl ≥ 1 und X eine Zufallsvariable.
r
Falls E[ |X| ] endlich ist, definiert man das faktorielle Moment r-ter Ordnung
durch
E[X(X − 1) . . . (X − r + 1)].
Diese Momente spielen vor allem für solche Zufallsvariable eine Rolle, deren
Werte in N liegen.
Definition. — Es sei r eine reelle Zahl und X eine Zufallsvariable. Ist
r
E[ |X| ] < +∞, so definiert man das (in 0 zentrierte) absolute Moment r-ter
r
Ordnung durch E[ |X| ]. Im Fall r = 0 definiert man weiter die Abweichung
r-ter Ordnung (relativ zu 0) als
r
er = E[ |X| ]
1/r
.
Wie man sieht, ist für zentriertes X das Moment e2 die Standardabweichung.
6. Kovarianz. — Es sei T = (X, Y ) ein Paar von reellen Zufallsvariablen
mit der Verteilung
P{X = xi , Y = yj } ε(xi ,yj ) .
PT =
i,j
Die Zufallsvariable XY hat den Erwartungswert
E[XY ] =
P{X = xi , Y = yj } xi yj
i,j
108
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
unter der Voraussetzung, dass die Reihe auf der rechten Seite absolut
konvergiert. Wegen |xi yj | ≤ (x2i + yj2 )/2 stellt man fest, dass E[XY ] existiert,
sofern X und Y endliche Momente zweiter Ordnung haben. In diesem Fall
existieren auch die Erwartungswerte und sind endlich. Folglich hat auch
(X − E[X])(Y − E[Y ]) einen endlichen Erwartungswert und die folgende
Definition ist daher sinnvoll.
Definition. — Es sei (X, Y ) eine Paar von Zufallsvariablen mit gegebener
gemeinsamer Verteilung. Falls X und Y endliche Momente zweiter Ordnung
haben, definiert man die Kovarianz von X und Y durch
Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X] E[Y ].
Falls Cov(X, Y ) = 0 ist, bezeichnet man X und Y als unkorreliert.
Aus dieser Definition und der Eigenschaft C (Unabhängigkeit, Theorem 4.3) folgt unmittelbar, dass für unabhängige X und Y die Kovarianz Cov(X, Y ) verschwindet. Die Umkehrung trifft nicht zu, denn zwei Zufallsvariable können unkorreliert sein, ohne unabhängig zu sein.
Beispiel. — Es sei X eine Zufallsvariable mit PX = 13 (ε−1 + ε0 + ε1 ) als
Verteilung. Setzt man Y = X 2 , so ist die Verteilung des Paares T = (X, Y )
durch
1
PT = (ε(−1,1) + ε(0,0) + ε(1,1) )
3
gegeben. Es gilt E[X] = 0 und E[XY ] = 0, und daher Cov(X, Y ) = 0. Aber
gleichwohl hat man Y = X 2 .
Satz 6.1. — Es sei (X1 , X2 , . . . , Xn ) eine Familie von n Zufallsvariablen,
die alle endliche Momente zweiter Ordnung haben. Dann gilt
(6.1)
Var
n
Xk =
i=1
n
Var Xk + 2
i=1
Cov(Xj , Xk ).
1≤j<k≤n
Falls die Zufallsvariablen paarweise unabhängig (oder auch nur paarweise
unkorreliert) sind, so gilt
Var
n
Xk =
i=1
n
Var Xk .
i=1
Beweis. — Man kann ohne Einschränkung der Allgemeinheit annehmen,
dass die Zufallsvariablen X1 , X2 , . . . , Xn alle zentriert sind. Man kann
2 2
Xk =
Xk + 2
Xj Xk
k
k
1≤j<k≤n
7. DER LINEARE KORRELATIONSKOEFFIZIENT
109
schreiben. Indem man nun den Erwartungswert auf beiden Seiten bildet,
erhält man (6.1). Sind nun X1 , . . . , Xn paarweise nicht korreliert, so
verschwinden die Kovarianzen Cov(Xj , Xk ) für 1 ≤ j < k ≤ n und man
erhält die zweite Aussage.
Man verifiziert ohne weiteres, dass Cov(aX + b, cY + d) = ac Cov(X, Y )
gilt, d.h. dass die Kovarianz invariant gegenüber Verschiebung des Ursprungs
auf den Achsen 0x und 0y ist, nicht aber unter Änderung des Massstabs. Das
kann sich bei statistischen Anwendungen als unangenehm herausstellen. Wie
man dies korrigiert, wird im nächsten Paragraphen behandelt.
7. Der lineare Korrelationskoeffizient
Definition. — Es sei (X, Y ) ein Paar von reellen Zufallsvariablen mit
E[X 2 ] < ∞ und E[Y 2 ] < ∞. Weiter wird angenommen, dass σ(X)σ(Y ) > 0
sei. Man bezeichnet dann die Zahl
! X − E[X] Y − E[Y ] "
Cov(X, Y )
=E
r(X, Y ) =
σ(X)σ(Y )
σ(X)
σ(Y )
als den (linearen) Korrelationskoeffizienten des Paares (X, Y ).
Man verifiziert sofort, dass r(aX + b, cY + d) = sg(ac) r(X, Y ) gilt, falls
ac = 0 ist. Im Fall a > 0, c > 0 sieht man, dass der lineare Korrelationskoeffizient sowohl gegenüber Verschiebungen des Ursprungs, als auch gegen
Änderungen des Massstabs entlang der Achsen 0x und 0y invariant ist. Das
ist von Vorteil, denn so man kann bei Berechnungen, in denen r(X, Y ) eine
Rolle spielt, annehmen, dass die Randverteilungen X und Y zentriert und
reduziert sind.
Eigenschaft 7.1. —
|r(X, Y )| ≤ 1.
Beweis. — Man nimmt X und Y als zentriert und reduziert an. Dann gilt
für jedes λ
0 ≤ E[(X + λY )2 ] = E[X 2 ] + 2 λ E[XY ] + λ2 E[Y 2 ] = 1 + 2λr + λ2 .
Das ist ein Trinom zweiten Grades in λ und es ist nicht negativ; die
Diskriminante muss daher negativ oder Null sein. Somit ist r 2 ≤ 1.
Eigenschaft 7.2. — Ist r(X, Y ) = ±1, so sind X und Y über eine
lineare (besser gesagt: affine) funktionale Beziehung miteinander verbunden.
(Daher der Name “linearer Korrelationskoeffizient” für r.)
110
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
Beweis. — Wir behandeln den Fall r = 1. X und Y werden als zentriert
und reduziert angenommen. Dann gilt für alle λ
0 ≤ E[(X + λ Y )2 ] = 1 + 2λ + λ2 = (λ + 1)2 .
Für λ = −1 ist dann E[(X − Y )2 ] = 0, d.h. Y = X fast sicher. Im Falle
r = −1 findet man Y = −X fast sicher.
Sind X, Y nicht zentriert und reduziert, so hängen sie über die lineare
Beziehung
Y − E[Y ]
X − E[X]
=±
f.s.
σ(Y )
σ(X)
zusammen.
8. Die Ungleichung von Tchebychev. — Es handelt sich hierbei um
eine ausserordentlich nützliche Ungleichung, die bei vielen Abschätzungen
von Wahrscheinlichkeiten verwendet wird, speziell bei Untersuchungen zur
stochastischen Konvergenz.
Satz 8.1. — Es sei r > 0 ein reelle Zahl und X eine auf dem Wahrscheinr
lichkeitsraum (Ω, A, P) definierte reelle Zufallsvariable. Ist E[ |X| ] endlich,
so gilt für alle reellen t > 0 die Ungleichung
r
P{ |X| ≥ t} ≤
E[ |X| ]
;
tr
äquivalent dazu ist die Ungleichung
P{ |X| ≥ ter } ≤
1
tr
für jedes reelle t > 0, wobei er die Abweichung r-ter Ordnung bezeichnet.
Beweis. — Tatsächlich gilt
{ |X| ≥ t} ⇔ { |X|r ≥ tr }
für t, r > 0, und daher
tr I{ |X|≥t } = tr I{ |X|r ≥tr } ≤ |X|r .
Man erhält die Behauptung, indem man von beiden Seiten den Erwartungswert nimmt.
Für r = 1, 2 erhält man die Ungleichung von Markov, beziehungsweise
die von Tchebychev oder Bienaymé). Die am meisten verwendete Form der
Ungleichung von Tchebychev bezieht sich auf eine zentrierte Zufallsvariable
(X − E[X]).
111
9. UNGLEICHUNGEN FÜR MOMENTE
Korollar 8.2. —
Ungleichung
Ist E[X 2 ] < +∞, so gilt für jedes t > 0 die
P{|X − E[X]| ≥ t} ≤
Var X
.
t2
Bemerkung 1. — Setzt man µ = E[X], σ 2 = Var X, so gilt für jedes t > 0
die Ungleichung
P{|X − µ| ≥ t} ≤
σ2
,
t2
oder äquivalent
P{|X − µ| ≥ tσ} ≤
1
;
t2
d.h. es ist
1
1
und
P{X
∈]µ
−
tσ,
µ
+
tσ[}
≥
1
−
.
t2
t2
Speziell für t = 2 und t = 3 erhält man
1
(*)
P{X ∈]µ − 2σ, µ + 2σ[} ≥ 1 − = 0, 75 ;
4
1
(**)
P{X ∈]µ − 3σ, µ + 3σ[} ≥ 1 − ≈ 0, 88.
9
P{|X − µ| < tσ} ≥ 1 −
Dies zeigt deutlich die Rolle der Standardabweichung.
Bemerkung 2. — Die Ungleichung von Tchebychev ist universell, d.h. sie
gilt für jede Zufallsvariable, deren zweites Moment existiert. Andererseits ist
sie aber auch recht grob. Davon kann man sich beispielsweise im Falle einer
normalverteilten Zufallsvariablen X überzeugen. Für die Verteilung N (µ, σ)
(siehe Kap. 14, § 3), gilt
P{X ∈]µ − 2σ, µ + 2σ[} ≈ 0, 95 ;
[ 2 σ -Regel]
P{X ∈]µ − 3σ, µ + 3σ[} ≈ 0, 997.
Die Abschätzungen (∗) und (∗∗) sind also recht schwach.
9. Ungleichungen für Momente im endlichen Fall. — Es sei X eine
endliche, diskrete Zufallsvariable mit positiven Werten. Um konkret zu sein,
nehmen wir an, dass ihre Verteilung PX durch
PX =
l
l
αk εxk
k=1
mit α1 , . . . , αl ≥ 0,
αk = 1 und 0 < x1 < · · · < xl < +∞ gegeben sei.
k=1
Dann
a) existiert für jede reelle Zahl r das (absolute) Moment r-ter Ordnung
und ist gleich
l
r
αk xrk ;
mr = E[X ] =
k=1
112
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
b) existiert für jede reelle Zahl r = 0 die Abweichung r-ter Ordnung und
ist gleich
1/r
er = mr
.
Satz und Definition 9.1. — Wenn r gegen 0 konvergiert, so strebt die
Abweichung r-ter Ordnung er gegen einen endlichen Grenzwert, der mit e0
bezeichnet wird. Es gilt
l
k
e0 =
xα
k .
k=1
Die Zahl e0 heisst das geometrische Mittel von X.
Beweis. — Die Umformung
1
1
αk xrk = Log
αk exp(r Log xk )
Log er = Log
r
r
=
l
l
k=1
k=1
l
1
αk 1 + r Log xk + o(r)
Log
r
k=1
l
1
αk Log xk + o(r)
= Log 1 + r
r
k=1
l
αk Log xk konvergiert, wenn r gegen 0 strebt.
zeigt, dass Log er gegen
k=1
Theorem 9.2. — Die durch
 1/r
m
(Abweichung r-ter Ordnung),

 r
l
er = αk
xk (geometrisches Mittel),


falls r = 0 ;
falls r = 0.
k=1
definierte Abbildung r → er von R in R+ ist monoton wachsend.
Beweis.
a) Die Funktion r → Log mr (r ∈ R) ist konvex. In der Tat gilt für
r, s ∈ R nach der Ungleichung von Schwarz
l
k=1
(r+s)/2
αk xk
≤
l
k=1
αk xrk
l
1/2 αk xsk
1/2
;
k=1
1/2
m(r+s)/2 ≤ mr ms
;
1
Log m(r+s)/2 ≤ Log mr + Log ms .
2
Daraus folgt die Behauptung, da die Funktion r → Log mr stetig ist.
9. UNGLEICHUNGEN FÜR MOMENTE
113
b) Die Funktion r → er (r ∈ R \ {0}) ist monoton wachsend in ] − ∞, 0[
und in ]0, +∞[. Denn wegen a) ist der Graph der Funktion r → Log mr
(r ∈ R) konvex und geht durch den Nullpunkt (wegen m0 = 1). Für r = 0
ist Log er = 1r Log mr = 1r (Log mr − Log m0 ) die Steigung der Geraden, die
den Nullpunkt mit dem Punkt (r, Log mr ) verbindet. Aus a) folgt, dass die
Funktion r → Log er monoton wachsend sowohl auf ] − ∞, 0[ als auch auf
]0, +∞[ ist. Dies gilt dann auch für die Funktion r → er .
l
k
c) Mit e0 = k=1 xα
k wird die Funktion r → er (r ∈ R \ {0}) stetig in
den Nullpunkt r = 0 fortgesetzt. Damit ist alles bewiesen.
Bemerkung. — Die gerade beschriebene Abbildung von R in R+ kann zu
einer Abbildung von R in R+ fortgesetzt werden; tatsächlich gilt
l
lim er = min xk = x1
r→−∞
k=1
l
lim er = max xk = xl
r→+∞
k=1
(= e−∞ ) ;
(= e+∞ ).
Spezialfall 1. — Für r = n ∈ N∗ ergibt Theorem 9.2 die Ungleichung
von Liapunov. Speziell für n = 1 besagt
en ≤ en+1 ; dies ist die Ungleichung
$
2
eine zentrierte
dies e1 ≤ e2 , d.h. E[ |X| ] ≤ E[X ]. Nimmt man nun für X $
E[(X − µ)2 ],
Zufallsvariable (X − µ) (µ = E[X]), so ist E[ |X − µ| ] ≤
und das heisst, dass die absolute Abweichung, bezogen auf µ, durch die
Standardabweichung majorisiert wird.
Spezialfall 2. — Aus Theorem 9.2 folgt e−1 ≤ e0 ≤ e1 , wobei
e−1 = E[X
e0 =
l
−1
]
−1
=
l
α −1
k
k=1
k
xα
k
k=1
e1 = E[X] =
xk
das harmonische Mittel ist;
das geometrische Mittel ist;
l
αk xk das arithmetische Mittel ist.
k=1
Auf diese Weise erhält man die klassischen Ungleichungen zwischen diesen
Mittelwerten.
Spezialfall 3. — Wie in Theorem 9.2 festgestellt, gilt für jedes Paar (r, s)
von reellen Zahlen m(r+s)/2 ≤ (mr ms )1/2 . Speziell für r = 2n, s = 2n + 2
(n ∈ N) erhält man mit m2n+1 ≤ (m2n m2n+2 )1/2 eine Ungleichung, die es
einem erlaubt, jedes Moment ungerader Ordnung durch Momente gerader
Ordnung zu majorisieren.
114
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
10. Median. Minimale mittlere Abweichung. — Wir führen hier
eine neue, Median genannte, charakteristische Grösse ein, die gegenüber dem
Erwartungswert den Vorteil hat, für jede Zufallsvariable zu existieren.
Definition. — Es sei X eine reelle Zufallsvariable. Als Median von X
bezeichnet man jede Zahl M mit
P{X ≤ M } ≥
1
,
2
P{X ≥ M } ≥
1
.
2
Bemerkung 1. — Aus der Definition folgt unmittelbar, dass die Ungleichungen
P{X ≤ M } ≥
1
≥ P{X > M } und
2
P{X ≥ M } ≥
1
≥ P{X < M }
2
für jeden Median M von X gelten.
Bemerkung 2. — Jede Zufallsvariable X besitzt mindestens einen Median,
es kann aber mehrere geben, die alle die gleiche Rolle spielen. Falls die
Verteilungsfunktion F von X stetig und streng monoton wachsend ist, so
ist der Median M von X eindeutig bestimmt und es gilt F(M ) = 12 .
Theorem 10.1. — Es sei X eine Zufallsvariable mit E[ |X| ] < +∞. Ist
M ein Median von X, so gilt für jede reelle Zahl a die Ungleichung
E[ |X − a| ] ≥ E[ |X − M | ].
Beweis. — Wir geben
den Beweis im Fall einer diskreten Zufallsvariablen
X mit Verteilung PX = k αk εxk . Wenn der Erwartungswert erst einmal für
beliebige Zufallsvariable definiert sein wird (cf. Kap. 11), wird sich zeigen,
dass in dem allgemeinen Fall der Beweis ganz analog verläuft. Betrachten
wir nun den Fall, dass M < a ist. Man kann dann R in die drei disjunkten
Intervalle ] − ∞, M ], ]M, a], ]a, +∞[ aufteilen und schreiben:
|xk − a| − |xk − M | αk
E[ |X − a| ] − E[ |X − M | ] =
=
k
(a − M )αk +
xk ∈]−∞,M ]
(a + M − 2xk )αk +
xk ∈]M,a]
(M − a)αk .
xk ∈]a,+∞[
Bezeichnen A, B und C die drei Summationen in der vorigen Zeile, so gilt
A = (a − M ) P{X ≤ M } ;
B≥
(M − a)xk = (M − a) P{M < X ≤ a} ;
xk ∈]M,a]
C = (M − a) P{X > a},
ERGÄNZUNGEN UND ÜBUNGEN
115
und somit schliesslich
E[ |X − a| ] − E[ |X − M | ] ≥ (a − M ) P{X ≤ M } − P{X > M } .
Da aber M ein Median ist, ist der Ausdruck auf der rechten Seite nicht
negativ. Der Beweis verläuft im Fall M > a ganz analog.
Bemerkung. — Es sei X eine Zufallsvariable mit E[ |X| ] < +∞. Dann
hat der Ausdruck E[ |X − M | ] den gleichen Wert für jeden Median M von
X. Sind nämlich M1 , M2 zwei Mediane von X mit M1 = M2 und wählt man
einerseits a = M1 , M = M2 , andererseits a = M2 , M = M1 , so ergibt die
Ungleichung von Theorem 10.1, dass E[ |X − M1 | ] = E[ |X − M2 | ] ist. Diese
Beobachtung rechtfertigt die folgende Definition.
Definition. — Es sei X eine reelle Zufallsvariable mit E[ |X| ] < +∞.
Dann nimmt E[ |X − M | ] sein Minimum für jeden Median M von X an;
dieser gemeinsame Wert heisst minimale mittlere Abweichung oder MedianAbweichung von X.
Theorem 10.1 spielt eine zu Theorem 5.3 analoge Rolle. Wählt man einen
Median als charakteristischen Wert für die Position, so sollte man ihm die
minimale mittlere Abweichung als charakteristischen Wert für die Streuung
zuordnen.
Satz 10.2. — Die Median-Abweichung wird von der Standardabweichung
majorisiert.
Beweis. — Aus Theorem 9.2 folgt E[ |X − µ| ] ≤ σ. Da aber M ein
Median ist, folgt aus Theorem 10.1, angewendet für a = µ, die Ungleichung
E[ |X − M | ] ≤ E[ |X − µ| ]. Daraus ergibt sich die Behauptung.
ERGÄNZUNGEN UND ÜBUNGEN
1. — Man berechne den Erwartungswert und die Varianz einer binomialverteilten bzw. Poisson-verteilten Zufallsvariablen.
2. — Ein Hausmeister hat n Schlüssel, von denen ein einziger eine
bestimmte Tür schliesst. Er versucht sie nacheinander, wobei er nach jedem
Fehlversuch den nicht passenden Schlüssel eliminiert. Wieviele Versuche
benötigt er im Mittel, um den richtigen Schlüssel zu finden?
3. — Ein Bernoulli-Prozess mit Parameter p ist eine Folge (Xn ) (n =
1, 2, . . . ) von unabhängigen Zufallsvariablen, von denen jede nur zwei Werte
116
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
(etwa 1 und 0) annimmt, wobei p und q = 1 − p die entsprechenden
Wahrscheinlichkeiten sind. Man kann Xn als das Resultat (Erfolg oder
Misserfolg) im n-ten Versuch eines wiederholt ausgeführten Experiments
ansehen, wobei die Bedingungen immer gleich sind und die Resultate der
verschiedenen Versuche sich nicht gegenseitig beeinflussen.
a) Man zeige, dass die Verteilung der Zufallsvariablen Sn = X1 +· · ·+Xn
(Anzahl der Erfolge in den n ersten Versuchen) nichts anderes ist als
die Binomialverteilung B(n, p). Man ermittle (ohne zu rechnen!) nochmals
Erwartungswert und Varianz einer solchen Verteilung.
b) Es bezeichne L die grösste ganze Zahl mit X1 = X2 = · · · = XL und
M die grösste ganze Zahl mit XL+1 = XL+2 = · · · = XL+M . Man bestimme
die Verteilungen der Zufallsvariablen L und M , deren Erwartungswerte und
Varianzen. Man zeige, dass die Verteilungen von L und M genau dann
übereinstimmen, falls p = 1/2 ist.
c) (E. Kosmanek) Man beweise die Aussagen E[L] ≥ E[M ] = 2,
Var L ≥ Var M ≥ 2, Cov(L, M ) = −(p − q)2 /(pq) und − 12 ≤ r(L, M ) ≤ 0.
d) (E. Kosmanek) Man zeige, dass für jedes n ≥ 1 gilt

 pn−1 q, falls p < 1/2;
lim P{M = n | L = l} = q n−1 p, falls p > 1/2;
l→∞

falls p = 1/2.
1/2n ,
e) Es sei T die Anzahl der Misserfolge, die dem ersten Erfolg vorausgehen,
d.h. die kleinste Zahl T mit XT +1 = 1. Man zeige, dass PT =
k
k≥0 pq εk (modifizierte geometrische Verteilung) ist und berechne E[T ].
f) Allgemeiner sei nun r ≥ 1 eine ganze Zahl und es bezeichne Tr die
Anzahl der Misserfolge, die dem r-ten Erfolg vorausgehen. Man zeige
r+k−1 r k
−r r
p q =
p (−q)k
P{Tr = k} =
k
k
(negative Binomialverteilung) und E[Tr ] = rq/p.
4. — Wir kommen zu Aufgabe 2 zurück und nehmen nun an, dass der
Hausmeister nach jedem vergeblichen Versuch den jeweiligen Schlüssel in
seine Schlüsselsammlung zurücklegt. Dann liegt ein Bernoulli-Prozess mit
p = 1/n vor. Man berechne in dieser Situation den Erwartungswert für die
Anzahl der Versuche, die benötigt werden, um den passenden Schlüssel zu
finden.
5. — Es sei X eine Zufallsvariable, die Werte xk annimmt, sowie A ein
Ereignis mit positiver Wahrscheinlichkeit. Man setzt
xk P{X = xk | A}.
E[X | A] =
k
ERGÄNZUNGEN UND ÜBUNGEN
117
Ist nun (Bn ) (n = 1, 2, . . . ) ein vollständiges System von Ereignissen, so zeige
man
P(Bn )E[X | Bn ].
E[X] =
n
6. — Es sei (Xn ) (n = 1, 2, . . . ) eine Folge von gleichverteilten Zufallsvariablen und N eine Zufallsvariable mit ganzzahligen Werten, wobei
die Glieder der Folge N, X1 , X2 , . . . unabhängig sein sollen. Man setzt nun
SN = X1 + · · · + XN . Mittels der vorhergehenden Aufgabe und Satz 6.2 aus
Kapitel 6 beweise man die Formel von Wald: E[SN ] = E[N ] E[X1 ].
7. — Es sei (Zn ) (n = 1, 2, . . . ) eine Folge von Zufallsvariablen, die jeweils
nur zwei Werte, etwa 0 und 1, annehmen. Man zeige, dass die Zufallsvariablen
Zn unabhängig sind, falls die Ereignisse {Zn = 0} (n = 1, 2, . . . ) als
Gesamtheit unabhängig sind.
8. — Ein Spieler hat a unterscheidbare Münzen und spielt eine Reihe
von Partien, wobei jede Partie darin besteht, alle Münzen zu werfen. Es soll
nun die mittlere Anzahl von Münzen berechnet werden, die im Verlauf der
n ersten Partien mindestens einmal Zahl zeigen. Ebenso soll die mittlere
Anzahl von Partien bestimmt werden, die gespielt werden müssen, bis jede
Münze mindestens einmal Zahl ergeben hat.
Wir betrachten für n = 1, 2, . . . die Zufallsvariablen ξin mit dem Wert 1
oder 0, je nachdem, ob in der n-ten Partie die i-te Münze Zahl oder Kopf zeigt. Unterstellt wird, dass die Zufallsvariablen ξin (i = 1, 2, . . . , a ; n =
1, 2, . . . ) unabhängig sind und dieselbe Verteilung 12 (ε0 + ε1 ) haben.
Es bezeichne Yn die Anzahl der Münzen, die in der n-ten Partie erstmals
Zahl zeigen, sowie X
n die Anzahl der Münzen, die mindestens einmal im
Verlauf der
ersten n Partien Zahl zeigen. Dann gilt Xn = Y1 + · · · + Yn
und Yn = i∈An ξin , wobei An die Menge der i mit ξi1 = · · · = ξin−1 = 0
bezeichnet.
a) Man zeige card An = a − Xn−1 . Daraus folgere man mit Hilfe von
Aufgabe 6 die Beziehung E[Xn ] = 12 E[Xn−1 ] + (a/2). Man berechne E[Xn ].
b) Für festes n und 1 ≤ i ≤ a bezeichne Zi die Variable mit Werten 1 und
0, je nachdem, ob im Verlauf der n ersten Partien die i-te Münze mindestens
einmal Zahl gezeigt hat oder nicht. Es ist also Zi = sup1≤k≤n ξik , sowie
Xn = Z1 + · · · + Za .
Man zeige, dass die Zi (für festes n) unabhängig sind. Man bestimme
k a−k
1
a
1
deren Verteilung und folgere P{Xn = k} =
1− n
. Man
2
2n
k
bestimme nochmals E[Xn ] und berechne Var Xn .
9. — An der Garderobe eines Restaurants geben n Personen ihre Hüte
ab. Nach dem Essen finden sie ihre Hüte völlig durcheinander vor und jeder
118
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
nimmt sich zufällig einen Hut. Es bezeichne nun Xk (k = 1, 2, . . . , n) die
Zufallsvariable, die den Wert 1 annimmt, falls die k-te Person ihren eigenen
Hut wiedererhält, andernfalls sei der Wert von Xk gleich 0. Dann gibt
Sn = X1 + · · · + Xn die Anzahl der Personen an, die ihren Hut zurück
erhalten.
a) Man konstruiere einen Wahrscheinlichkeitsraum, der dieses Experiment beschreibt.
b) Man berechne E[Sn ] und Var Sn .
c) Man zeige, dass die Wahrscheinlichkeit dafür, dass Sn mindestens
gleich 11 ist, höchstens gleich 0, 01 ist, und dies für beliebige n ≥ 11.
10. — Es sei (X, Y, Z) ein Tripel von Zufallsvariablen mit X +Y +Z = 1.
Es wird angenommen, dass Var X ≤ Var Y ≤ Var Z < +∞ gilt. Man zeige,
a) dass die Variable Z negative Korrelation sowohl mit X als auch mit Y
hat;
b) dass Cov(X, Y ) ≥ 0 genau dann gilt, wenn Var X + Var Y ≤ Var Z;
c) dass |Cov(X, Z)| ≤ |Cov(Y, Z)| gilt.
11. — Eine Zufallsvariable X mit unbekannter Verteilung habe einen
Erwartungswert µ = 10 und eine Varianz σ = 5. Man zeige, dass für jedes
n ≥ 50 die Wahrscheinlichkeit des Ereignisses {10 − n < X < 10 + n}
mindestens gleich 0, 99 ist.
12. — Es sei X eine Zufallsvariable. Man zeige, dass aus E[ |X| ] = 0 die
Aussage X = 0 fast sicher folgt. Die gleiche Folgerung gilt für E[X 2 ] = 0.
13. — Es seien a, b zwei positive reelle Zahlen. Man setzt
! 1 1 1 "−1
√
a+b
A=
.
, G = ab, H =
+
2
2 a b
√
Zu zeigen ist H ≤ G ≤ A und G = AH. (G ist das geometrische Mittel
von A und von H.)
14. — Es sei X eine Zufallsvariable mit nichtnegativen Werten, wobei
E[X] < +∞, E[1/X] < +∞ gelte. Man zeige, dass dann E[X] E[1/X] ≥ 1
ist.
15. — Es sei X eine Zufallsvariable und r eine positive reelle Zahl mit
r
E[ |X| ] < +∞. Man zeige, dass dann P{ |X| ≥ n} = o(1/nr ) gilt, falls n
gegen +∞ strebt.
16. — Es sei (X1 , X2 , Y1 , Y2 ) ein System von vier Zufallsvariablen, die
Momente zweiter Ordnung besitzen. Man zeige: falls das Paar (X1 , X2 )
119
ERGÄNZUNGEN UND ÜBUNGEN
von dem Paar (Y1 , Y2 ) unabhängig ist, so gilt Cov(X1 + Y1 , X2 + Y2 ) =
Cov(X1 , X2 ) + Cov(Y1 , Y2 ).
17. — Es sei (X, Y ) ein Paar von Indikatorvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P), d.h. X = IA , Y = IB für A, B ∈ A. Man zeige,
dass X und Y genau dann unabhängig sind, wenn sie unkorreliert sind.
18. — Es sei (X, Y ) ein Paar von Zufallsvariablen mit Var X = Var Y <
+∞. Man zeige, dass die Zufallsvariablen X + Y und X − Y unkorreliert
sind.
19. (Der Erwartungswert als Approximation eines Parameters). — Eine
Urne enthalte Kugeln, die von 1 bis N durchnummeriert sind. Man führt n
Ziehungen (mit Zurücklegen) aus und bezeichnet mit X die grösste gezogene
Zahl. Man kann X als Zufallsvariable mit Werten in {1, . . . , N } ansehen,
deren Verteilungsfunktion und Erwartungswert durch
k n
(k ∈ {1, . . . , N }),
P{X ≤ k} = P{die n gezogenen Zahlen sind ≤ k} =
N
N−1
N−1
N−1
1 n
1 − P{X ≤ k} = N − n
P{X > k} =
k ,
E[X] =
N
k=0
gegeben sind. Nun ist aber
k=0
N−1
k=0
k n ∼ N n+1 /(n + 1) und daher E[X] ∼
k=0
(n/(n + 1))N . Man erkennt, dass für grosse Werte von n der Erwartungswert
E[X] eine gute Approximation für die Anzahl der Kugeln in der Urne
darstellt. (In der Praxis würde man, um N zu schätzen, anstelle von E[X]
eher X, die grösste gezogene Zahl, nehmen.)
20. — Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum und es seien A, B
zwei Elemente von A mit Indikatorfunktionen IA ,IB .
a) Es gilt Cov(IA , IB ) = P(A ∩ B) − P(A)P(B).
α) Cov(IA , IB ) = 0 gilt genau dann, wenn A und B unabhängig sind.
β) Cov(IAc , IB ) = − Cov(IA , IB ) (man beachte IAc = 1 − IA ).
b) Es gilt σ 2 (IA ) = Var(IA ) = P(A)(1 − P(A)) und daher Var(IAc ) =
Var(IA ).
c) Falls 0 < P(A), P(B) < 1 ist, kann man den linearen Korrelationskoeffizienten des Paares (IA , IB ) definieren (vgl. § 7). Dann gilt
α) r(IAc , IB ) = −r(IA , IB );
β) r(IA , IB ) = 1 genau dann, wenn B = A und r(IA , IB ) = −1 genau
dann, wenn B = Ac .
Da diese Übung nur einfaches Nachvollziehen erfordert, wird kein Beweis
angegeben.
120
KAPITEL 8: ERWARTUNGSWERT, CHARAKTERISTISCHE WERTE
21. — Es sei X eine Bernoulli-verteilte Zufallsvariable mit Verteilung
qε0 + pε1 , wobei p, q ≥ 0 und p + q = 1.
a) Falls p = q ist, hat X genau einen Median M , und zwar gleich 0, falls
p < q ist und gleich 1, falls p > q ist.
b) Ist p = q = 12 , so ist jede Zahl aus dem Intervall [0, 1] ein Median
von X.
http://www.springer.com/978-3-7643-6169-3
Herunterladen