Grundbegriffe der Wahrscheinlichkeit

Kapitel 0
Grundbegriffe der
Wahrscheinlichkeit
0.1
Der Wahrscheinlichkeitsraum
Definition 0.1.1. Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, F, P), wobei Ω
eine nichtleere Menge, F eine σ-Algebra von Teilmengen von Ω, und P : F → R
eine Abbildung ist, die folgende drei Eigenschaften erfüllt:
Axiom I: Für alle A ∈ F sei 0 ≤ P[A] ≤ 1.
Axiom II: Es gelte P[Ω] = 1.
Axiom III: Für eine Folge (An )n∈N von paarweise disjunkten Elementen aus F
gelte
∞
h [∞
i X
P
An =
P[An ] .
n=1
n=1
Diese Eigenschaft von P heisst σ-Additivität.
Ist die Menge Ω endlich, so sprechen wir von einem endlichen Wahrscheinlichkeitsraum, ist Ω endlich oder abzählbar unendlich, so nennen wir (Ω, F, P) einen
diskreten Wahrscheinlichkeitsraum.
Ein Element A ∈ F heisst ein Ereignis. Ist {ω} ∈ F für ω ∈ Ω, so wird {ω} ein
Elementarereignis genannt. Die Abbildung P heisst Wahrscheinlichkeit oder Wahrscheinlichkeitsmass. Für ein Ereignis A wird der Wert P[A] als Wahrscheinlichkeit
des Ereignisses A bezeichnet.
Aus den Axiomen I bis III können wir erste Eigenschaften der Wahrscheinlichkeit
P folgern:
1. Mit Axiom II und Axiom III folgt, indem wir für alle n ∈ N An := ∅ setzen,
P[∅] = 0 .
(0.1.1)
2. Ist m ∈ N fest gewählt, und setzen wir in Axiom III An := ∅ für alle n > m,
so erhalten wir wegen (0.1.1) die Gleichung
P
h [m
n=1
m
i X
An =
P[An ]
n=1
für paarweise disjunkte Ereignisse. Wir nennen diese Eigenschaft die Additivität von P oder bezeichnen sie als Axiom IIIendl.
1
3. Als speziellen Fall der Additivität, mit A1 := A und A2 := Ac , erhält man
P[Ac ] = P[Ω\A] = 1 − P[A] .
4. Sind A und B Ereignisse mit A ⊂ B, so folgt aus der Additivität und Axiom
I die Ungleichung
P[A] ≤ P[B] .
(0.1.2)
5. Sei (Bn )n∈N eine Folge von beliebigen Ereignissen aus F. Die σ-Additivität
impiziert mit (0.1.2) die Boolesche Ungleichung
P
h [∞
n=1
∞
i X
Bn ≤
P[Bn ] .
(0.1.3)
n=1
Entsprechend gilt für eine endliche Folge (Bn )1≤n≤m die Ungleichung
P
h [m
n=1
m
i X
Bn ≤
P[Bn ] .
n=1
Wahrscheinlichkeit und relative Häufigkeit
Wir können uns fragen, welche Vorstellung hinter der Definition 0.1.1, beziehungsweise hinter dem Begriff der Wahrscheinlichkeit P steht?
Nehmen wir an, es werde eine gewisse Anzahl, etwa n, Experimente durchgeführt.
Diese sollen in dem Sinne unabhängig sein, dass der Ausgang eines Experiments
keinen Einfluss auf die Resultate der folgenden Experimente hat. Die Experimente
werden auch als identisch vorausgesetzt: die Rahmenbedingungen seien jedesmal
dieselben.
Uns interessiert ein Ereignis A, das bei jedem Experiment eintreten kann oder nicht.
Sei nA ≤ n die Anzahl der Experimente, bei denen A beobachtet wurde. Wir nennen nA die absolute Häufigkeit von A.
Wird eine grosse Zahl n solcher Experimente durchgeführt, so beobachtet man, dass
sich die relative Häufigkeit nA /n einem Grenzwert nähert. Dieser entspricht intuitiv
der Wahrscheinlichkeit des Eintretens von A.
Um die Anschauung aufrechtzuerhalten, sollte also eine naive Definition der Wahrscheinlichkeit P durch
nA
P[A] := lim
n→∞ n
Definition 0.1.1 nicht widersprechen.
1. Offenbar widerspricht dies Axiom I der Definition von P nicht, denn es gilt
stets 0 ≤ nA /n ≤ 1.
2. Auch Axiom II wird erfüllt: Die Menge Ω wird aufgefasst als das Ereignis,
überhaupt ein Resultat des Experiments zu beobachten. Es ist also nΩ = n.
3. Wie steht es um das dritte Axiom? Seien A und B zwei disjunkte Ereignisse,
in dem Sinne, dass sie nie zusammen als Ergebins eines Experiments auftreten können. Die Zahl nA∪B ist also die Anzahl der Experimente, bei denen
entweder A oder B beobachtet wurde. Es gilt offenbar nA∪B = nA + nB , also
nA∪B /n = nA /n + nB /n. Eine entsprechende Aussage gilt für m > 2 paarweise disjunkter Ereignisse. Damit wird zumindest Axiom IIIendl erfüllt, also
zumindest ein Spezialfall des dritten Axioms.
Tatsächlich wird später als Konsequenz des Starken Gesetzes der Grossen Zahlen
gezeigt werden, dass relative Häufigkeiten gegen die Wahrscheinlichkeit, wie in Definition 0.1.1 eingeführt, konvergieren.
2
Fall 1: Ω endlich
Konstruktion von Wahrscheinlichkeiten im endlichen Fall
In diesem Fall können wir zeigen, dass jede Wahrscheinlichkeit P durch eine Familie
reeller Zahlen (pi )1≤i≤n mit
n
X
pi = 1
(0.1.4)
i=1
und
pi ≥ 0 für alle 1 ≤ i ≤ n
(0.1.5)
eindeutig bestimmt ist. Die Zahlen pi sind gerade die Werte von P auf den Elementarereignissen.
1. Sei Ω := {ω1 , ω2 , . . . , ωn } eine endliche, nichtleere Menge. Sei (pi )1≤i≤n eine
Ω
Familie reeller Zahlen mit
P (0.1.4) und (0.1.5). DieΩ Abbildung P : 2 → R,
definiert durch P[A] := i:ωi ∈A pi für alle A ∈ 2 , erfüllt die drei Axiome
aus Definition 0.1.1. Das heisst P ist eine Wahrscheinlichkeit auf 2Ω , und
(Ω, 2Ω , P) somit ein Wahrscheinlichkeitsraum. Insbesondere ist P[{ωi }] = pi
für 1 ≤ i ≤ n.
2. Sei Ω = {ω1 , ω2 , . . . , ωn } eine endliche, nichtleere Menge und (Ω, 2Ω , P) ein
Wahrscheinlichkeitsraum. Nach dem vorhergehenden Punkt existiert ein solcher tatsächlich. Wir setzen pi := P[{ωi }] für alle 1 ≤ i ≤ n. Die Wahrscheinlichkeit eines Ereignisses A ∈ 2Ω ist dann wegen Axiom III gegeben durch
h[
i
X
X
P[A] = P
{ωi } =
P[{ωi }] =
pi .
i:ωi ∈A
i:ωi ∈A
i:ωi ∈A
Wir sehen also, dass in jedem Wahrscheinlichkeitsraum (Ω, 2Ω , P) mit endlicher Menge Ω, die Wahrscheinlichkeit P durch ihre Werte für die Elementarereignisse
Pn eindeutig bestimmt ist. Insbesondere folgt mit Axiom II weiter,
dass i=1 pi = 1, und Axiom I impliziert pi ≥ 0 für alle 1 ≤ i ≤ n.
Wir wollen möglichst vielen Teilmengen aus Ω eine Wahrscheinlichkeit zuordnen
können, die σ-Algebra F des Wahrscheinlichkeitsraumes (Ω, F, P) also möglichst
gross wählen. Die obigen Ausführungen zeigen, dass wir, falls Ω endlich ist, immer
F := 2Ω setzen können.
Beispiele von Wahrscheinlichkeiten im endlichen Fall
Im folgenden sei unseren Überlegungen stets ein endlicher Wahrscheinlichkeitsraum
(Ω, 2Ω , P) zugrundegelegt.
Die im vorhergehenden Abschnitt beschriebene Konstruktion von P mittels einer
Familie reeller Zahlen, die (0.1.4) und (0.1.5) erfüllt, liefert wichtige Beispiele von
Wahrscheinlichkeitsräumen.
1. Uniformverteilung:
Sei Ω := {ω1 , ω2 , . . . , ωn } für P
ein n ∈ N. Wir setzen pi := 1/|Ω| = 1/n
n
für 1 ≤ i ≤ n. Offenbar gilt
i=1 pi = 1 und pi ≥ 0. Daher wird durch
P[ωi ] := 1/|Ω| eine Wahrscheinlichkeit auf 2Ω definiert. Wir nennen P die
Uniformverteilung U[Ω] auf Ω.
2. Bernoulli-Verteilung:
Sei Ω := {ω1 , ω2 }. Sei p1 := p ∈ [0, 1] und p1 := 1 − p. Nach Konstruktion gilt
trivialerweise p1 + p2 = 1 und p1 , p2 ≥ 0. Daher wird durch P[{ω1 }] := p und
P[{ω2 }] := 1 − p eine Wahrscheinlichkeit, die Bernoulli-Verteilung Be(p), auf
2Ω definiert.
3
3. Binomialverteilung:
Sei Ω := {0, . . . , n} ⊂ Z+ . Sei für 1 ≤ i ≤ n
n i
pi :=
p (1 − p)n−i ,
i
Pn
wobei p ∈ [0, 1] fest gegeben. Nach der Binomischen Formel gilt i=1 pi =
P
n
n i
n−i
= (p + (1 − p))n = 1. Offenbar ist auch pi ≥ 0, und
i=1 i p (1 − p)
somit wird mittels P[{i}] := ni pi (1 − p)n−i eine Wahrscheinlichkeit auf 2Ω
definiert, die Binomialverteilung Bi(n, p).
Für n = 1 erhalten wir die Bernoulli-Verteilung Be(p).
Betrachten wir ein paar Beispiele zu den oben konstruierten Wahrscheinlichkeiten.
Beispiel 0.1.2 (Würfelwurf ). Wir betrachten die Menge Ω := {1, 2, 3, 4, 5, 6} der
möglichen Augenzahlen eines Würfels. Ist der Würfel fair, so sollte bei einem Wurf
jede Augenzahl mit derselben Wahrscheinlichkeit auftreten. Es gilt also P[{i}] = 16
für alle i ∈ Ω. Wir erhalten also die Uniformverteilung auf Ω.
Beispiel 0.1.3 (Münzwurf ). Sei Ω := {Kopf, Zahl} die Menge der möglichen
Resultate eines Münzwurfs. Ist die Münze fair, so gilt P[{Kopf}] = P[{Zahl}] = 21 .
Wir haben also eine Bernoulli- und zugleich eine Uniformverteilung auf Ω.
Beispiel 0.1.4 (Anzahl Kopf im mehrfachen Münzwurf ). Wir versuchen die
Binomialverteilung auch auf anschauliche Weise aus der Bernoulli-Verteilung herzuleiten:
Dazu betrachten wir ein Experiment, das aus der unabhängigen n-fachen Wiederholung eines Einzelexperiments mit nur zwei möglichen Ausgängen besteht. Beispielsweise werfen wir n-mal hintereinender eine (möglicherweise unfaire) Münze.
Kopf soll dabei mit der Wahrscheinlichkeit p oben liegen, Zahl mit Wahrscheinlichkeit 1 − p. Die Ereignisse Kopf und Zahl werden also modelliert durch die Menge
Ω1 := {Kopf, Zahl}, und P1 [Kopf] := p, P1 [Zahl] := 1 − p.
Für das Gesamtexperiment, den n-fachen Münzwurf, betrachten wir Ω2 := Ωn1 =
{(ω1 , ω2 , . . . , ωn ) | ωi ∈ Ω1 , 1 ≤ i ≤ n} für n ∈ N. Bezeichnen mit n(ω) die Anzahl
Einer im n-Tupel ω ∈ Ω2 , so wird durch
P2 [{ω}] := P1 [{Kopf}]n(ω) P1 [{Zahl}]n−n(ω) = pn(ω) (1 − p)n−n(ω)
die Wahrscheinlichkeit, genau die Abfolge ω von Kopf und Zahl zu werfen, definiert. Sind wir lediglich an der Anzahl der in einem n-Tupel ω auftretenden Ereignisse Kopf interessiert, so betrachten wir die Menge Ω3 := {0, 1, 2, . . . , n}. Die
Wahrscheinlichkeit P3 in n Würfen genau i-mal Kopf zuwerfen, ist nun
X
n i
P3 [{i}] =
P2 [{ω}] =
p (1 − p)1−i .
i
ω∈Ω2 : n(w)=i
Im n-fachen Münzwurf ist die Anzahl Kopf zu werfen also Bi(n, p)-verteilt.
Fall 2: Ω abzählbar unendlich
Konstruktion von Wahrscheinlichkeiten im abzählbar unendlichen Fall
Analog zum endlichen Fall können wir hier zeigen, dass jede Wahrscheinlichkeit P
durch eine Folge reeller Zahlen (pi )i≥1 mit
∞
X
pi = 1
i=1
4
(0.1.6)
und
pi ≥ 0 für alle i ∈ N
(0.1.7)
eindeutig bestimmt ist. Die pi sind gerade die Werte von P auf den Elementarereignissen.
1. Sei Ω := {ω1 , ω2 , . . .} eine abzählbar unendliche Menge. Sei die Folge (pi )i≥1
Ω
mit (0.1.6)
P und (0.1.7) gegeben. ΩDie Abbildung P : 2 → R, definiert durch
P[A] := i:ωi ∈A pi für alle A ∈ 2 , erfüllt die Axiome I, II und III. Das heisst
P ist eine Wahrscheinlichkeit auf 2Ω , und (Ω, 2Ω , P) damit ein Wahrscheinlichkeitsraum. Speziell gilt P[{ωi }] = pi für i ≥ 1.
2. Sei nun (Ω, 2Ω , P) ein Wahrscheinlichkeitsraum (wegen der obigen Ausführungen wissen wir, dass es einen solchen Raum tatsächlich gibt). Wir setzen
pi := P[{ωi }] für alle i ≥ 1. Die Wahrscheinlichkeit eines Ereignisses A ∈ 2Ω
ist dann wegen Axiom III gegeben durch
h[
i
X
X
P[A] = P
{ωi } =
P[{ωi }] =
pi .
i:ωi ∈A
i:ωi ∈A
i:ωi ∈A
Wir sehen also, dass in jedem Wahrscheinlichkeitsraum (Ω, 2Ω , P) mit endlicher Menge Ω, die Wahrscheinlichkeit P durch ihre Werte für die Elementarereignisse
eindeutig bestimmt ist. Insbesondere folgt weiter mit Axiom II, dass
P∞
p
i=1 i = 1, und Axiom I impliziert pi ≥ 0 für alle i ≥ 1.
Wie im endlichen Fall wollen wir möglichst vielen Teilmengen aus Ω eine Wahrscheinlichkeit zuordnen können, die σ-Algebra F des Wahrscheinlichkeitsraumes
(Ω, F, P) also möglichst gross wählen. Die obigen Ausführungen zeigen, dass auch
im abzählbar unendlichen Fall stets F := 2Ω gesetzt werden kann.
Beispiele von Wahrscheinlichkeiten auf abzählbar unendlichen Mengen
Wir setzen in diesem Abschnitt einen Wahrscheinlichkeitsraum (Ω, 2Ω , P) mit abzählbar unendlicher Menge Ω voraus.
Die vorher beschriebene Konstruktion von P mittels einer Folge reeller Zahlen, die
(0.1.6) und (0.1.7) erfüllt, verwenden wir nun um wichtige Beispiele von Wahrscheinlichkeitsräumen zu konstruieren.
1. Es gibt keine Uniformverteilung im abzählbar unendlichen Fall:
Sei Ω := {ω1 , ω2 , . . .}. Wir versuchen analog zum endlichen Fall eine UniformVerteilung auf Ω zu definieren.
Sei dazu pi := p ∈ [0, 1] für alle i ∈ N.
P∞
Ist
p
=
0,
so
haben
wir
p
= 0. Ist andererseits p > 0, so gilt
i
i=1
P∞
p
=
∞.
Damit
wird
immer
Axiom II verletzt.
i
i=1
2. Geometrische Verteilung:
Erste Version: Sei Ω := N. Sei pi := (1 − p)i−1 p für i ≥ 1, wobei p ∈ (0, 1]
fest. Es gilt pi ≥ 0 und
∞
X
i=1
pi = p
∞
X
(1 − p)i−1 = p
i=1
1
=1,
1 − (1 − p)
da (pi )i≥1 eine geometrische Reihe bildet. Mittels P[{i}] := (1−p)i−1 p wird also eine Wahrscheinlichkeit auf 2N definiert, die Geometrische Verteilung Ge(p).
Zweite Version: Oft wird die Geometrische Verteilung auch auf folgende Weise
5
definiert: Sei Ω := Z+ und pi := (1 − p)i p für i ≥ 0, wobei p ∈ (0, 1] fest. Es
gilt pi ≥ 0 und
∞
X
pi = p
i=0
∞
X
(1 − p)i = p
i=0
1
=1,
1 − (1 − p)
da (pi )i≥1 eine geometrische Reihe bildet. Mittels P[{i}] := (1 − p)i p wird also
eine Wahrscheinlichkeit auf 2Z+ definiert, die Geometrische Verteilung Ge(p).
3. Negativ-Binomialverteilung:
Sei Ω := Z+ . Seien n ∈ N und p ∈ (0, 1] fest. Wir definieren für i ≥ 0
n+i−1
pi :=
(1 − p)i pn .
i
Offenbar ist stets pi ≥ 0. Darüberhinaus kann mittels vollständiger Induktion
über n gezeigt werden, dass
∞ X
n+i−1
1
(1 − p)i = n
p
i
i=0
gilt. Also wird durch P[{i}] := pi in der Tat eine Wahrscheinlichkeit auf 2Ω
definiert wird. Dies ist die Negativ-Binomialverteilung NB(n, p).
Für n = 1 erhalten wir die Geometrische Vertaeilung Ge(p) auf Z+ .
4. Multinomialverteilung:
Pd
Sei Ω := Zd+ . Seien für 1 ≤ j ≤ d Zahlen qj ≥ 0 mit j=1 qj = 1 gegeben.
Für alle d-Tupel (n1 , . . . , nd ) ∈ Zd+ setzen wir
(
Pd
0
für
j=1 nj 6= n
p(n1 ,...,nd ) :=
Q
P
n
d
d
j
n!
für
j=1 qj
j=1 nj = n
n1 !···nd !
Da offenbar p(n1 ,...,nd ) ≥ 0 für jedes solche d-Tupel gilt, und weiter
Yd
X
X
n!
nj
p(n1 ,...,nd ) =
q
j=1 j
n1 ! · · · nd !
Pd
d
(n1 ,...,nd )∈Z+
(n1 ,...,nd ):
=
j=1
nj =n
(q1 + · · · + qd )n = 1 ,
erfüllt ist, wird durch P[{(n1 , . . . , nd )}] := p(n1 ,...,nd ) eine Wahrscheinlichkeit
auf 2Ω definiert. Wir nennen sie die Multinomialverteilung MNd (n; q1 , . . . , qd ).
Pd
Wir können diese Verteilung auch auf Ω := {(n1 , . . . , nd ) ∈ Zd+ | j=1 = n},
also einer endlichen Menge, gegeben auffassen.
Im Spezialfall d = 2 ist n2 durch n und k := n1 bereits eindeutig bestimmt,
und man erhält die Binomialverteilung Bi(n, p):
X
n!
MN2 (n; p, 1 − p) [{(n1 , n2 )}] =
pn1 (1 − p)n2
n1 !n2 !
(n1 ,n2 ):n1 +n2 =n
n X
n
=
k=0
k
pk (1 − p)n−k = Bi(n, p)[{k}] .
5. Poisson-Verteilung:
Sei Ω := Z+ . Für ein festes λ > 0 setzen wir pi := e−λ λi /i! für alle i ≥ 0.
Offenbar ist pi ≥ 0. Weiter erhalten wir
∞
X
i=0
pi = e−λ
∞
X
λi
i=0
6
i!
= e−λ eλ = 1 .
Also wird durch P[{i}] := e−λ λi /i! eine Wahrscheinlichkeit auf 2Ω bestimmt.
Dies ist die Poisson-Verteilung Po(λ).
Beispiel 0.1.5 (Poissonscher Grenzwertsatz). Die Binomialverteilung lässt
sich durch die Poisson-Verteilung approximieren: Sei λ > 0 und sei (p(n))n≥1 eine
Folge von Zahlen im Intervall [0, 1] mit limn→∞ = np(n) = λ. Für n → ∞ gilt dann
n
Bi(n, p(n))[{i}] =
p(n)i (1 − p(n))n−i
i
n −i
n(n − 1) · · · (n − i + 1) ni p(n)i
np(n)
np(n)
=
1−
1−
ni
i!
n
n
λi −λ
−→
e
= Po(λ)[{i}] .
i!
Die zahlentheoretische Dichte
Im vorhergehenden Abschnitt haben wir Beispiele von Wahrscheinlichkeitsräumen
der Form (Ω, 2Ω , P) mit abzählbar unendlicher Menge Ω kennengelernt. Im Gegensatz zum endlichen Fall, kann hier Axiom IIIendl sinnvoll von Axiom III unterschieden werden. Wie wir weiter gesehen haben, rechtfertigt eine Beschreibung der
Wahrscheinlichkeit als Grenzwert relativer Häufigkeiten sicherlich Axiom IIIendl.
Es stellt sich die Frage, ob aus Axiom I, Axiom II und Axiom IIIendl nicht bereits
Axiom III folgt.
Die Antwort lautet nein, wie das Beispiel der zahlentheoretischen Dichte zeigt.
Definition 0.1.6. Sei A ⊂ N. Existiert der Grenzwert limn→∞ n−1 |A∩{1, 2, . . . , n}|,
so heisst die Zahl
1
D[A] := lim |A ∩ {1, 2, . . . , n}|
n→∞ n
die zahlentheoretische Dichte der Menge A.
Betrachten wir zunächst Beispiele von Teilmengen von N für die die zahlentheoretische Dichte D existiert.
1. Sei A ⊂ N eine endliche Menge. Dann gilt offenbar D[A] = 0.
2. Für ein n ∈ N sei An := {m ∈ N | n teilt m}. Dann lässt sich zeigen, dass
D[An ] = 1/n.
3. Sei P die Menge der Primzahlen. Der Primzahlsatz besagt, dass die Anzahl
π(n) aller Primzahlen kleiner oder gleich n konvergenzäquivalent zu n log(n)−1
ist. Daher gilt D[P ] = limn→∞ log(n)−1 = 0.
4. Betrachten wir das Beispiel einer Menge, für die die zahlentheoretische Dichte
nicht existiert. Wir setzen
∞ n
o
[
r
A :=
22r+1 + 1, 22 +1 + 2, . . . , 22(r+1) .
r=0
Für n(r) := 22r+1 gilt, wenn r → ∞:
1
|A ∩ {1, 2, . . . , n(r)}|
n(r)
=
=
−→
7
21 + 23 + · · · + 22r−3 + 22r−1
22r+1
1
1
1
1
+ 4 + 6 . . . + 2r
22
2
2
2
1
1
4
1 = 3 .
1− 4
Für n(r) := 22(r+1) gilt, wenn r → ∞:
1
|A ∩ {1, 2, . . . , n(r)}|
n(r)
=
=
−→
21 + 23 + · · · + 22r−1 + 22r+1
22(r+1)
1
1
1
1
+
+ 5 . . . + 2r+1
2 23
2
2
1
2
2
= .
3
1 − 14
Daher existiert für diese Menge A der Grenzwert nicht.
Wir untersuchen nun, ob die Axiome der Definition 0.1.1 auf die zahlentheoretische
Dichte zutreffen.
1. Ist A eine Teilmenge von N, für die D[A] definiert ist, so gilt offenbar
0 ≤ D[A] ≤ 1, das heisst Axiom I wird erfüllt.
2. Es gilt n−1 |N ∩ {1, 2, . . . , n}| = 1 für alle n ∈ N, daher gilt D[N] = 1. Mit
Ω := N ist damit Axiom II erfüllt.
3. Sind B1 und B2 disjunkte Teilmengen von N, für D definiert ist. Offenbar gilt
für jedes n ∈ N n−1 |(B1 ∪ B2 ) ∩ {1, 2, . . . , n}| = n−1 |B1 ∩ {1, 2, . . . , n}| +
n−1 |B2 ∩ {1, 2, . . . , n}|, und daher haben wir D[B1 ∪ B2 ] = D[B1 ] + D[B2 ].
Also erfüllt D Axiom IIIendl.
4. Wir betrachen nun die Folge
S∞ (Ai )i≥1 , wobei Ai := {i}.
S∞Offenbar sind die Ai
paarweise disjunkt, und i=1 Ai = N. Es gilt also D[ i=1
P∞Ai ] = 1. Da jedoch
|Ai ∩ {1, 2, . . . , n}| ∈ {0, 1}, so gilt D[Ai ] = 0, und so i=1 D[Ai ] = 0. Man
erhält also
∞
h [∞
i
X
D
Ai 6=
D[Ai ] ,
i=1
i=1
Axiom III ist also nicht erfüllt.
Bemerkung 0.1.7. Obwohl D nicht auf jeder Teilmenge von N definiert ist, so
lässt sich zeigen, dass D mittels des Satzes von Hahn-Banach zu einer Abbildung D̄ :
2N → [0, 1], die additiv, jedoch nicht σ-additiv ist, fortgesetzt werden kann. Damit
erhalten wir einen Raum (N, 2N , D̄), der bis auf die σ-Additivität alle Eigenschaften
eines Wahrscheinlichkeitsraums erfüllt.
Fall 3: Ω überabzählbar unendlich
Konstruktion von Wahrscheinlichkeiten im überabzählbar unendlichen
Fall
Im abzählbar unendlichen Fall wurde gezeigt, dass es keine Uniformverteilung geben
kann. Ist es möglich auf einer überabzählbaren Menge Ω in anderer Form eine
Uniformverteilung zu konstruieren?
Wir versuchen dies auf der Menge Ω := (0, 1] ⊂ R. Für ein beliebiges Intervall
(a, b] ⊂ (0, 1] liegt es intuitiv nahe, die Wahrscheinlichkeit P als durch
P[(a, b]] = b − a
(0.1.8)
gegeben zu betrachten.
Wie ist aber die σ-Algebra F zu wählen? Wir betrachten hierzu die kleinste σAlgebra von Teilmengen in (0, 1], die von allen Intervallen der Form (a, b] mit 0 <
8
a < b ≤ 1 erzeugt wird. Dies ist die Borelsche σ-Algebra B((0, 1]) := (0, 1] ∩
B(R). Der Erweiterungssatz der Masstheorie besagt, dass ein eindeutig bestimmtes
Wahrscheinlichkeitsmass P auf B((0, 1]) existiert, das für jedes Intervall (a, b] mit
0 < a < b ≤ 1 die Gleichung (0.1.8) erfüllt. Auf diese Weise erhalten wir einen
Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), P). Wir nennen P die Uniformverteilung
U[(0, 1]].
Bemerkung 0.1.8. Wäre es hier aber nicht möglich wie im diskreten Fall als σAlgebra die Potenzmenge 2(0,1] zu wählen? Nein. Man kann zeigen, dass das durch
(0.1.8) bestimmte P nicht konsistent auf die Potenzmenge von (0, 1] fortgesetzt werden kann.
Die Idee der Konstruktion der Uniformverteilung auf (0, 1] soll nun erweitert werden, damit wir Wahrscheinlichkeitsräume mit Ω := R konstruieren können. Dazu
benötigen wir folgende Definition:
Definition 0.1.9. Eine Funktion F : R → [0, 1] heisst Verteilungsfunktion, wenn
sie rechtsstetig und monoton wachsend ist, und wenn limx→−∞ F (x) = 0 und
limx→+∞ F (x) = 1 gilt.
Bemerkung 0.1.10. Aus den Eigenschaften der Verteilungsfunktion folgt, dass
diese in jedem Punkt in R den linksseitigen Limes besizt. Rechtsstetige Funktionen
mit linksseitigen Limites werden auch als càdlàg-Funktionen bezeichnet ( continue
à droit - limite á gauche).
Jedes Wahrscheinlichkeitsmass auf B(R) kann auf eindeutige Weise durch eine Verteilungsfunktion beschrieben werden:
1. Sei eine Verteilungsfunktion F gegeben. Nach dem Erweiterungssatz aus der
Masstheorie gibt es ein eindeutig bestimmtes Wahrscheinlichkeitsmass P auf
B(R), das für jedes Intervall (a, b] die Gleichung
P[(a, b]] = F (b) − F (a)
erfüllt. Die Verteilungsfunktion definiert also in eindeutiger Weise den Wahrscheinlichkeitsraum (R, B(R), P).
2. Ist umgekehrt ein Wahrscheinlichkeitsraum (R, B(R), P) gegeben, so erfüllt die
durch
F (x) := P[(−∞, x]]
eindeutig bestimmte Funktion alle Eigenschaften einer Verteilungsfunktion F .
Beispiel 0.1.11. Betrachte die Funktion

 0 für
x für
F (x) :=

1 für
x≤0
x ∈ (0, 1]
x>1.
Dies ist offenbar eine Verteilungsfunktion. Sie definiert gerade die Uniformverteilung U[(0, 1]].
Beispiel 0.1.12. Sei (R, B(R), P) ein Wahrscheinlichkeitsraum, und sei F die
durch P bestimmte Verteilungsfunktion. Dann gilt für alle x ∈ R
P[{x}] := F (x) − F (x−) .
Ist F stetig im Punkt x, so haben wir insbesondere P[{x}] = 0.
9
Eine wichtige Klasse von Verteilungsfunktionen wird über Wahrscheinlichkeitsdichten definiert.
Definition 0.1.13. Eine Wahrscheinlichkeitsdichte ist eine integrierbare Funktion
f : R → R+ mit
Z +∞
f (t)dt = 1 .
−∞
Ist f eine Dichte, so wird durch
F (x) :=
Z
x
f (t)dt
−∞
eine stetige Verteilungsfunktion F , und damit auch eine Wahrscheinlichkeit P auf
B(R), definiert.
Bemerkung 0.1.14. Der Begriff der Dichte lässt sich auch allgemeiner fassen.
Eine integrierbare Funktion f : Rn → R+ heisse Wahrscheinlichkeitsdichte, wenn
Z
f (x1 , . . . , xn ) d(x1 , . . . , xn ) = 1
Rn
gilt. Nach dem Erweiterungssatz der Masstheorie gibt es ein eindeutig bestimmtes
Wahrscheinlichkeitsmass P auf B(Rn ), so dass für jedes n-dimensionale Intervall
(a, b] ⊂ Rn gilt:
Z
P[(a, b]] =
f (x1 , . . . , xn ) d(x1 , . . . , xn ) .
(0.1.9)
(a,b]
Wir erhalten so Wahrscheinlichkeitsräume der Form (Rn , B(Rn ), P). Der Begriff
der Verteilungsfunktion wird im mehrdimensionalen Fall selten verwendet.
Beispiele von Wahrscheinlichkeiten auf überabzählbar unendlichen Mengen
1. Negativ-Exponentialverteilung:
Sei Ω := R. Sei λ > 0 fest gewählt. Die Funktion
0
für x < 0
fλ (x) :=
λe−λx für x ≥ 0
ist eine Dichte, wie man leicht nachprüft. Die dadurch definierte Verteilungsfunktion ist
0
für x < 0
Fλ (x) =
1 − e−λx für x ≥ 0 .
Die entsprechende Verteilung heisst Negativ-Exponentialverteilung NE(λ).
2. Normalverteilung:
Sei Ω := R. Es kann gezeigt werden, dass die Funktion
x2
1
ϕ0,1 (x) := √ e− 2
2π
eine Wahrscheinlichkeitsdichte ist. Die entsprechende Verteilungsfunktion bezeichen wir mit
Z x
t2
1
Φ0,1 (x) := √
e− 2 dt .
2π −∞
10
Wir nennen die durch ϕ0,1 bestimmte Verteilung die Standard-Normalverteilung
N (0, 1).
Seien nun µ ∈ R und σ ∈ R+ fest gewählt. Da ϕ0,1 eine Dichte ist, folgt
mittels Substitution y := σ −1 (x − µ), dass
ϕµ,σ2 (x) :=
(x−µ)2
1
√ e− 2σ2
σ 2π
ebenfalls eine Dichtefunktion ist. Die Verteilungsfunktion ist dann
Z x
(t−µ)2
1
e− 2σ2 dt .
Φµ,σ2 (x) := √
σ 2π −∞
Diese definiert die Normalverteilung N (µ, σ 2 ).
3. Bivariate Normalverteilung:
Sei Ω := R2 . Man kann zeigen, dass
f (x, y) :=
1 − 1 (x2 +y2 )
e 2
2π
eine 2-dimensionale Dichte ist. Die durch sie bestimmte Verteilung wird bivariate Standard-Normalverteilung genannt.
4. Cauchy-Verteilung:
Sei Ω := R. Betrachte für reelle Zahlen d > 0 und λ ∈ R die Funktion
fλ,d (x) :=
1
d
.
2
π d + (x − λ)2
(0.1.10)
Dies ist eine Dichte. Denn mittels der Substitution y := d−1 (x − λ) erhalten
wir
Z +∞
Z +∞
d
1
dx
=
dy = lim [arctan(x)]+n
−n = π .
2 + (x − λ)2
2
n→∞
d
1
+
y
−∞
−∞
Die Dichte fλ,d bestimmt die Cauchy-Verteilung C(λ, d). Speziell nennen wir
C(0, 1) die Standard-Cauchy-Verteilung.
5. Gamma-Verteilung:
Sei Ω := R. Seien λ ∈ 0 und a > 0 fest gewählt. Wir betrachten die Funktion
(
0
für x < 0
f(a,λ) (x) :=
λa xa−1 e−λx
für x ≥ 0
Γ(a)
Dabei bezeichnet Γ die Gamma-Funktion. Da mit y := λx
Z ∞
Z ∞
a−1 −y
Γ(a) :=
y
e dy =
λn xa−1 e−λx dx
0
0
gilt, sieht man, dass es sich bei f(a,λ) um eine Dichte handelt. Wir nennen die
entsprechende Verteilung die Gamma-verteilung Γ(a, λ).
Für n = 1 erhalten wir gerade die Negativ-Exponentialverteilung NE(λ).
Ein für die Statistik wichtiger wichtiger Spezialfall ist die Verteilung Γ(n/2, 1/2)
für n ∈ N. Wir nennen sie die Chi-Quadrat-Verteilung χ2n mit n Freiheitsgraden.
11
0.2
Zufallsvariablen und ihre Verteilungen
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Definition 0.2.1. Eine (reelle) Zufallsvariable auf Ω ist eine F-B(Rn )-messbare
Abbildung X : Ω → Rn . Für n ≥ 2 nennen wir X auch Zufallsvektor.
Ist X(Ω) endlich oder abzählbar unendlich, so sprechen wir von einer diskreten
Zufallsvariable.
Wir werden auch dann von einer diskreten Zufallsvariablen X sprechen, wenn die
Menge aller x ∈ Rn mit P[{ω ∈ Ω | X(ω) = x}] > 0 endlich oder abzählbar unendlich
ist. Das Bild X(Ω) werden wir dann als die Menge der Punkte, die mit positiver
Wahrscheinlichkeit getroffen werden, auffassen.
Wir verwenden im folgenden die abkürzende Schreibeweise
{X ∈ B} := X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} , für B ⊂ R ,
bzw. {X = c}, {X ≤ c} u.s.w., für c ∈ R.
Ist B ∈ B(Rn ) eine Ereignis, so ist X −1 (B) ∈ F, und wir verwenden entsprechend
die Notation
P[X ∈ B] := P[X −1 (B)] .
Satz 0.2.2. Sei X : Ω → Rn eine Zufallsvariable. Sei PX : B(Rn ) → R definiert
durch
PX [B] := P[X ∈ B] .
Dann ist PX eine Wahrscheinlichkeit auf B(Rn ), also (Rn , B(Rn ), PX ) ein Wahrscheinlichkeitsraum.
Beweis: Wir prüfen die drei Axiome der Definition 0.1.1 nach, indem wir die
Eigenchaften der Wahrscheinlichkeit P ausnützen.
Sei B ∈ B(Rn ). Dann ist X −1 (B) ∈ F und nach Definition PX [B] = P[X −1 (B)].
Daher ist 0 ≤ PX [B] ≤ 1 und Axiom I erfüllt.
Auch das zweite Axiom gilt, denn PX [Rn ] = P[X −1 (Rn )] = P[Ω] = 1.
Sei (Bi )i≥1 eine Folge von paarweise disjunkten Mengen aus B(Rn ). Dann gilt
PX
h [∞
i=1
Bi
i
h
[∞
i
h[
= P X −1
Bi = P
i=1
=
∞
X
i=1
∞
i X
P[X −1 (Bi )]
X −1 (Bi ) =
i=1
PX [Bi ] .
i=1
Axiom III gilt also auch.
2
Anstelle von PX wird auch die Schreibweise PX −1 verwendet. Wir nennen PX die
Verteilung der Zufallsvariablen X und verwenden die Notation X ∼ PX . Speziell verwenden wir für die in den Beispielen betrachteten Verteilungen die Notation
X ∼ Po(λ), X ∼ N (µ, σ 2 ), X ∼ U[(0, 1]], u.s.w.
Ist X eine R-wertige Zufallsvariable, so bezeichen wir mit FX die durch PX definierte Verteilungsfunktion.
Betrachten wir einige grundlegende Beispiele von Zufallsvariablen:
12
1. Sei c ∈ R eine Konstante, und sei X : Ω → R gegeben durch X(ω) := c für
alle ω ∈ Ω. Die Abbildung X ist eine Zufallsvariable, deren Verteilung PX
gegeben ist durch
1 falls c ∈ B
PX [B] =
0 falls c 6∈ B
für B ∈ B(R).
2. Sei A ∈ F ein fest gewähltes Ereignis. Wir definieren die Abbildung
X : Ω → R durch
1 falls ω ∈ A
X(ω) :=
.
0 falls ω ∈
6 A
Diese Abbildung ist eine Zufallsvariable, Wir nennen X die Indikatorvariable
zum Ereignis A. Ihre Verteilung PX ist gegeben durch

1
falls 1 ∈ B und 0 ∈ B



P[A]
falls 1 ∈ B und 0 6∈ B
PX [B] =
.
(0.2.1)
P[Ac ] falls 1 6∈ B und 0 ∈ B



0
falls 1 6∈ B und 0 6∈ B
3. Sei Ω abzählbar und F := 2Ω . Dann ist jede Abbildung X : Ω → R messbar
und daher eine Zufallsvariable.
Die Menge X(Ω) der möglichen Werte von X ist abzählbar. Sei (xi )i≥1 eine
Auflistung dieser Werte. Dann ist PX bestimmt durch die Werte
PX [{xi }] = P[X = xi ]
für i ∈ N. Entsprechende Aussagen gelten natürlich im Fall, dass Ω endlich
ist.
Wir betrachten nun einige Beispiele dazu, wie sich aus gegebenen Zufallsvariablen
neue bilden lassen.
1. Sind Xi : Ω → R F-B(R)-messbare Zufallsvariablen für alle 1 ≤ i ≤ n, so ist
(X1 , . . . , Xn ) : Ω → Rn , definiert durch
(X1 , . . . , Xn )(ω) := (X1 (ω), . . . , Xn (ω)) ,
eine F-B(Rn )-messbare Zufallsvariable
und umgekehrt. Dies folgt aus der EiNn
genschaft, dass B(Rn ) =
i=1 B(R) die von B(R) × · · · × B(R) erzeugte σAlgebra ist.
2. Sei X : Ω → Rn eine Zufallsvariable und g : Rn → Rm eine B(Rn )-B(Rm )messbare Abbildung. Dann ist durch
g(X)(ω) := g(X(ω))
eine Zufallsvariable g(X) : Ω → Rm definiert.
3. Aus den vorhergehenden beiden Punkten ergibt sich, dass wenn X : Ω → R
und Y : Ω → R Zufallsvariablen sind, auch X+Y , XY und eX Zufallsvariablen
sind.
4. Sei (Xi )i≥1 eine Folge von Zufallsvariablen Xi : Ω → R. Existiert supi≥1 Xi
in R, so ist supi≥1 Xi : Ω → R, gegeben durch
(supi≥1 Xi )(ω) := supi≥1 (Xi (ω)) ,
eine
T Zufallsvariable. Dies folgt, da für jedes x ∈ R {supi≥1 Xi ≤ x} =
i≥1 {Xi ≤ x} ein abzählbarer Schnitt von messbaren Mengen ist. Entsprechend zeigt man, dass falls inf i≥1 Xi in R existiert, dies eine Zufallsvariable
ist.
13
5. Sei wie vorher (Xi )i≥1 eine Folge von Zufallsvariablen. Existieren
lim supi→∞ Xi := inf j≥1 (supk≥j Xk ), bzw. lim inf i→∞ Xi := supj≥1 (inf k≥j Xk )
in R, so sind dies wegen vorhergehendem Punkt ebenfalls Zufallsvariablen.
6. Betrachte wiederum (Xi )i≥1 eine Folge von Zufallsvariablen. Existiert
limi→∞ Xi in R, so haben wir insbesondere limi→∞ Xi = lim supi→∞ Xi , und
so eine Zufallsvariable lim
Xi : Ω → R. P
Pi→∞
∞
j
Konvergiert die Summe i=1 Xi := limj→∞ i=1 Xi , so ist diese wiederum
eine Zufallsvariable.
Kehren wir zurück zu Punkt 2 der obigen Liste: Wir betrachten eine Zufallsvariable
X : Ω → R mit der Verteilung PX und eine messbare Funktion g : R → R. Was
können wir über die Verteilung Pg(X) der Zufallsvariablen g(X) aussagen?
Betrachten wir dazu zwei Beispiele.
Beispiel 0.2.3. Sei g : R → R bijektiv. Für die Verteilungsfunktion Fg(X) gilt:
Fg(X) (x)
:= Pg(X) [(−∞, x]] = P[g(X) ≤ x]
=
=
P[X ≤ g −1 (x)] = PX [(−∞, g(x)]]
FX (g −1 (x))
für alle x ∈ R.
Beispiel 0.2.4. Aus dem vorhergehenden Beipiel erhalten wir einen wichtigen Spezialfall. Seien dazu µ ∈ R und σ ∈ (0, ∞) gegeben. Betrachte eine Zufallsvariable
X ∼ N (0, 1) und setze
Y := σX + µ .
Dann ist Y ∼ N (µ, σ 2 ).
Ist umgekehrt eine Zufallsvariable Y ∼ N (µ, σ 2 ) vorgegeben, so folgt
X :=
Y −µ
σ
der Standard-Normalverteilung N (0, 1).
Dieser Sachverhalt wurde bereits in Abschnitt 0.1 in der Herleitung der Dichte der
Normalverteilung aus der Dichte der Standard-Normalverteilung verwendet.
Beispiel 0.2.5. Sei g : R → R gegeben durch x 7→ x2 . Dann gilt für x ∈ R
FX 2 (x)
:= PX 2 [(−∞, x]] = P[X 2 ≤ x]
√
√
√
√
= P[− x ≤ X ≤ x] = P[X ≤ x] − P[X < − x]
√
√
= FX ( x) − FX (− x−) .
Satz 0.2.6 (Dichtetransformation). Sei X : Ω → R eine Zufallvariable mit
Dichte fX . Sei g : R → R eine messbare Abbildung und Y := g(X).
Ist g im Wertebereich X(Ω) von X stetig differenzierbar mit strikt postiver Ableitung
g 0 > 0, so ist die Dichte fY von Y gegeben durch
(
fX (g −1 (x))
für x ∈ g(X(Ω))
0 (g −1 (x))|
|g
fY (x) =
0
für x 6∈ g(X(Ω))
Die gleiche Aussage folgt, wenn vorausgestzt wird, dass g eine strikt negative Ableitung g 0 < 0 hat.
Beweis: Dies folgt aus der Substitutionsregel der Differential- und Integralrechnung.
2
14
0.3
Bedingte Wahrscheinlichkeit
In einer Fernseh-Show kann ein aus dem Publikum ausgewählter Kandidat auf folgende Art ein neues Auto gewinnen: Er hat drei geschlossene Türen zur Auswahl,
wobei hinter genau einer das Auto versteckt worden ist. Nun darf er sich für eine
Tür die er öffnen will entscheiden. Bevor diese geöffnet wird, teilt er seine Entscheidung dem Quizmaster mit. Dieser, der natürlich weiss, hinter welcher Türe sich das
Auto verbirgt, öffnet nun eine der beiden Türen die der Kandidat nicht ausgwählt
hat. Er öffnet jedoch nicht diejenige hinter der sich das Auto befindet. Der Kandidat
hat nun die Möglichkeit bei seiner Entscheidung zu bleiben oder zur anderen noch
geschlossenen Türe zu wechseln, um diese dann öffnen zu lassen.
Wie soll er sich entscheiden? Soll er die Türe wechseln oder bei seiner ersten Entscheidung bleiben?
Man könnte der Ansicht sein, dass es keine Rolle spielt, ob der Kandidat wechselt
oder nicht.
Um dieses Problem genau zu untersuchen, wird der Begriff der bedingten Wahrscheinlichkeit benötigt. Sei dazu im folgenden unseren Betrachtungen stets ein
Wahrscheinlichkeitsraum (Ω, F, P) zugrundegelegt.
Definition 0.3.1. Seien A, B ∈ F Ereignisse mit P[A] > 0. Dann heisst
P[B|A] :=
P[A ∩ B]
P[A]
die bedingte Wahrscheinlichkeit von B, gegeben das Ereignis A.
Aus der Definition lässt sich sofort schliessen:
1. Die Wahrscheinlichkeit P[B|A] ist für festes A mit P[A] > 0 für alle B ∈ F
definiert.
2. Offenbar gilt für jedes B ∈ F die Eigenschaft P[B|A] = P[A ∩ B|A].
3. Speziell haben wir P[A|A] = 1.
Satz 0.3.2. Sei das Ereignis A ∈ F fest gegeben. Dann ist PA : F → R, definiert
durch PA [B] := P[A|B] für B ∈ F, eine Wahrscheinlichkeit; das heisst (Ω, F, PA )
ist ein Wahrscheinlichkeitsraum.
Beweis: Prüfen wir die drei Axiome der Definition 0.1.1 nach. Sei dazu B ∈ F
gegeben.
Nach Voraussetzung ist P[A] > 0. Ferner erfüllt P Axiom I ; daher ist P[A ∩ B] ≥ 0,
und somit auch PA [B] ≥ 0. Weiter folgt aus A ∩ B ⊂ A, dass P[A ∩ B] ≤ P[B] und
somit PA [B] ≤ 1. Axiom I wird also erfüllt.
Wir haben P[A ∩ Ω] = P[A], also auch PA [Ω] = 1. Damit wurde Axiom II nachgewiesen.
Sei (Bn )n≥1 eine Folge paarweise disjunkter Ereignisse aus F. Dann ist auch
(A ∩ Bn )n≥1 eine Folge paarweise disjunkter Ereignisse und wir erhalten
S∞
P∞
S∞
h [∞
i
P [ n=1 (A ∩ Bn )]
P[A ∩ Bn ]
P [A ∩ n=1 Bn ]
=
= n=1
PA
Bn
=
n=1
P[A]
P[A]
P[A]
∞
X
=
PA [Bn ] .
n=1
Das dritte Axiom wird auch erfüllt.
2
15
Satz 0.3.3 (Formel der totalen Wahrscheinlichkeit (FTW)). Sei (An )n≥1
eine Folge von Ereignissen aus F, S
die eine Partition von Ω bildet. Die Ereignisse
∞
seien also paarweise disjunkt, und n=1 An = Ω.
Dann gilt für alle B ∈ F:
P[B] =
∞
X
P[B|An ]P[An ] ,
n=1
wobei P[B|An ]P[An ] := 0 gesetzt wird, falls P[An ] = 0.
Beweis: Sei BS
∈ F. Da (An )n≥1 eine Partition von Ω ist, kann das Ereignis B in
∞
der Form B = n=1
∩ An ) als eine disjunkte Vereinigung geschrieben werden.
P(B
∞
Damit gilt P[B] = n=1 P[B ∩ An ].
Ist P[An ] = 0, so ist auch P[B ∩ An ] = 0. In diesem Fall setzen wir
P[B|An ]P[An ] := P[B ∩ An ] = 0 .
Ist andererseits P[An ] > 0, so ist nach Definition 0.3.1 P[B|An ] = P[B ∩ An ]/P[An ],
beziehungsweise P[B ∩ An ] = P[B|An ]P[An ].
2
Satz 0.3.4 (Bayes). Seien A, B ∈ F mit P[A] > 0 und P[B] > 0. Dann gilt:
P[B|A] =
P[A|B]P[B]
.
P[A]
Beweis: Dies ergibt sich direkt aus der Definition 0.3.1 mit P[A∩B] = P[A|B]P[B]:
P[B|A] =
P[A|B]P[B]
P[A ∩ B]
=
.
P[A]
P[A]
2
Beispiel 0.3.5 (Klinische Tests). Für eine Krankeit, zum Beispiel die Tuberkulose, gibt es Testverfahren, mit dem Aussagen darüber gemacht werden können, ob
eine bestimmte Person krank ist oder nicht.
Sei A das Ereignis, dass die Person tatsächlich an Tuberkulose leidet. Die Wahrscheinlichkeit dafür is klein, etwa P[A] := 1/10000.
Sei B das Ereignis, dass ein Test positiv ausfällt, also auf das Vorhandensein der
Krankheit hinweist, und sei B c das Ereignis, dass der Test negativ ausfällt.
Oft sind in solchen Situationen die Wahrscheinlichkeiten bekannt:
1. P[B c |A]: Die Wahrscheinlichkeit, dass der Test negativ ausfällt, obwohl die getestete Person in Wirklichkeit krank ist. Diese Fehlerwahrscheinlichkeit sollte
eher klein sein, etwa P[B c |A] := 1/20.
2. P[B|A]: Die Wahrscheinlichkeit, dass der Test positiv ausfällt, obwohl die getestete Person gar nicht an Tuberkulose erkrank ist. Auch diese Fehlerwahrscheinlichkeit sollte klein sein, beispielsweise P[B|Ac ] := 1/40.
Nun interessiert man sich für die Wahrscheinlichkeit P[A|B], dass eine positiv getestete Person tatsächlich Tuberkulose hat.
Diese Wahrscheinlichkeit können wir mit Hilfe der Formel der totalen Wahrscheinlichkeit und des Satzes von Bayes berechnen:
Nach Satz 0.3.3 gilt mit der Partition A ∪ Ac = Ω
P[B] = P[B|A]P[A] + P[B|Ac ]P[Ac ] .
16
Mit Satz 0.3.4 folgt dann
P[A|B]
=
P[B|A]P[A]
P[B|A]P[A]
=
P[B]
P[B|A]P[A] + P[B|Ac ]P[Ac ]
=
(1 − P[B c |A])P[A]
(1 − P[B c |A])P[A]
=
P[B]
(1 − P[B c |A])P[A] + P[B|Ac ]P[Ac ]
≈
1
.
250
Die Wahrscheinlichkeit bei positivem Testresultat tatsächlich krank zu sein ist ziemlich gering. Dies liegt in diesem Fall daran, dass P[A] klein, und P[B|Ac ] im Vergleich zu P[A] relativ gross ist.
Kommen wir zum am Anfang dieses Abschnitts betrachteten Quiz zurück. Um die
Frage zu zu beantworten nehmen wir ohne Einschränkung an, das Auto wurde hinter
der ersten Türe versteckt. Dem Quizmaster ist dies bekannt, er wird daher entweder
die zweite oder dritte Tür öffnen, was auch immer der Kandidat wählen wird.
Wir bezeichen mit Ai das Ereignis, dass der Kandidat Türe i auswählt. Der Kandidat hat keine Preferenz für eine der Türen, daher ist P[A1 ] = P[A2 ] = P[A3 ] = 1/3.
Sei weiter B das Ereignis, dass der Quizmaster Tür 2 aufmacht, und B c somit das
Ereignis, dass er Tür 3 öffnet.
Nun gilt:
1. Wählt der Kandidat die erste, also richtige Türe, so öffnet der Quizmaster die
zweite Tür mit einer gewissen Wahrscheinlichkeit P[B|A1 ] =: p ∈ [0, 1], bzw.
die dritte Tür mit der Wahrscheinlichkeit P[B c |A1 ] = 1 − p =: q.
2. Wählt der Kandidat die zweite Türe, so kann der Quizmaster diese nicht
öffnen, also P[B|A2 ] = 0.
3. Entscheidet sich der Kandidat für Türe 3, so kann der Quizmaster nur die
zweite Türe öffnen. Daher gilt P[B|A3 ] = 1.
Uns interessieren nun die Wahrscheinlichkeiten P[Ai |B], beziehungsweise P[Ai |B]
für i = 1, 2, 3, also die Wahrscheinlichkeiten die richtige Türe zu treffen, nachdem
der Quizmaster eine der Türen geöffnet hat. Dies können wir wiederum mit den
Sätzen 0.3.3 und 0.3.4:
1. Die Wahrscheinlichkeit mit der Wahl der ersten Türe das Auto zu erhalten,
wenn der Quizmaster die zweite Tür geöffnet hat, ist
P[A1 |B] =
P[B|A1 ]P[A1 ]
p
=
.
P[B|A1 ]P[A1 ] + P[B|A2 ]P[A2 ] + P[B|A3 ]P[A3 ]
1+p
2. Wenn der Quizmaster die zweite Tür öffnet ist das Auto natürlich nicht dahinter versteckt, also P[A2 |B] = 0.
3. Die Wahrscheinlichkeit mit der Wahl von Tür 3 das Auto zu erhalten, wenn
der Quizmaster die zweite Tür geöffnet hat, ist schliesslich
P[A3 |B] = 1 − P[A1 |B] − P[A2 |B] =
1
.
1+p
Analog erhalten wir die Wahrscheinlichkeiten, falls der Quizmaster die dritte Türe
geöffnet hat:
1. P[A1 |B c ] = q/(1 + q).
17
2. P[A2 |B c ] = 1/(1 + q).
3. P[A3 |B c ] = 0.
Da stets gilt
1/(1 + p) ≥ p/(1 + p)
(0.3.1)
1/(1 + q) ≥ q/(1 + q) ,
(0.3.2)
und
ist es in jedem Fall besser die Tür zu wechseln nachdem der Quizmaster eine geöffnet hat. Dies ist auch in den Fällen p = 1 und p = 0 so. Denn bei p = 1 ist q = 0,
und bei (0.3.1) erhalten wir zwar Gleichheit, bei (0.3.2) aber sogar 1 > 0. Entsprechend folgt im Fall p = 0, dass q = 1, und wir erhalten bei (0.3.2) Gleichheit, dafür
aber bei (0.3.1) die Ungleichung 1 > 0.
Eine natürliche Annahme ist p = q = 1/2 anzunehmen. Damit wächst die Chance
das Auto zu gewinnen mit einem Wechsel der Türen von 1/3 auf 2/3.
Kehren wir nun zurück zur Formel der totalen Wahrscheinlichkeit. Die in Satz 0.3.3
vorausgesetzte Partition der Menge Ω wird häufig in Verbindung mit Zufallsvariablen definiert.
Betrachte zunächst eine diskrete Zufallsvariable X : Ω → R. Sei (xn )n≥1 eine
Aufzählung ihres Wertebereichs. Dann ist durch (An )n≥1 , wobei An := {X = xn }
für alle n ∈ N, eine Partition von Ω definiert. Mit Satz 0.3.3 gilt demnach für alle
Ereignisse B ∈ F:
P[B] =
∞
X
P[B|X = xn ]P[X = xn ] =
n=1
∞
X
P[B|X = xn ]PX [xn ] .
(0.3.3)
n=1
Diese Formel lässt sich aber nur im diskreten Fall verwenden.
Was aber haben wir, wenn die Verteilung X : Ω → R durch eine Dichte fX bestimmt
ist? Hier haben wir offenbar P[X = x] = 0 für alle x ∈ R, und P[B|X = x] ist
nirgends definiert.
Bemerkung 0.3.6. Sei X : Ω → R eine beliebige Zufallsvariable. Wir betrachten
ein fest gewähltes Ereignis B ∈ F. Es kann gezeigt werden, dass eine messbare, PX integrierbare Funktion gB : R → R existiert, die für alle A ∈ B(R) die Gleichung
Z
gB dPX = P[B ∩ {X ∈ A}]
(0.3.4)
A
erfüllt. Die Funktion gB ist dadurch ( PX -fast sicher) eindeutig bestimmt.
Wir definieren nun
P[B|X = ·] := gB (·) .
Setzen wir weiter in Gleichung (0.3.4) A := R ein, so erhalten wir
Z
P[B|X = x] dPX = P[B ∩ {X ∈ R}] = P[B ∩ Ω] = P[B] .
R
Ist die Verteilung PX über die Dichte fX gegeben ist, folgt nun mittels Transformation das stetige Analogon zu Gleichung (0.3.3):
P[B] =
Z
+∞
P[B|X = x]fX (x) dx .
−∞
Betrachten wir hierzu ein Beispiel.
18
(0.3.5)
Beispiel 0.3.7. Gegeben seien zwei Zufallsvariablen X, Y : Ω → R. Es sei X ∼
Γ(n, λ). Und sei
xk
P[Y = k|X = x] := e−x
k!
für alle x ∈ R und alle k ∈ Z+ . Das heisst unter der Bedingung X = x, ist Y
Po(x)-verteilt. Was ist nun die Verteilung von Y , ohne eine Bedingung?
Nach (0.3.5) gilt unter Verwendung der Substitution y := (λ + 1)x
P[Y = k]
=
=
=
∞
e−x xk λn xn−1 e−λx
dx
k!
Γ(n)
0
Z ∞
λn
1
(λ + 1)n+k xn+k−1 e−(λ+1)x dx
Γ(n)k! (λ + 1)n+k 0
Z ∞
λn
1
y n+k−1 e−y dx
Γ(n)k! (λ + 1)n+k 0
Z
λn
1
Γ(n + k)
Γ(n)k! (λ + 1)n+k
n+k−1
λn
=
k
(λ + 1)n+k
k n
n+k−1
1
1
1−
=
.
k
λ+1
λ+1
=
Die Zufallsvariable Y ist also NB(n, p)-verteilt, mit p := 1 − (λ + 1)−1 .
0.4
Unabhängigkeit
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Unabhängigkeit von Ereignissen
Wir betrachten zwei Ereignisse A und B aus F. Anschaulich verstehen wir unter der
Unabhängigkeit des Ereignisses A von B, dass die Wahrscheinlichkeit des Eintretens
von A nicht von der Wahrscheinlichkeit des Eintretens von B abhängt, also (im Falle
dass P[B] > 0 und P[B c ] > 0):
P[A|B] = P[A] und P[A|B c ] = P[A] .
Genauso ist B unabhängig von A, wenn (im Falle dass P[A] > 0 und P[Ac ] > 0)
P[B|A] = P[B] und P[B|Ac ] = P[B]
gilt. Jede dieser vier Gleichungen ist äquivalent zur Gleichung P[A ∩ B] = P[A]P[B],
wobei diese auch im Fall P[A] = 0 oder P[B] = 0 erfüllt ist. Damit können wir die
folgende Definition rechtfertigen:
Definition 0.4.1. Zwei Ereignisse A und B aus F heissen genau dann unabhängig,
wenn sie der Gleichung
P[A ∩ B] = P[A]P[B]
(0.4.1)
genügen.
Drei Spezialfälle sind bemerkenswert:
19
1. Die Ereignisse A und B seien disjunkt. In diesem Fall sind A und B genau
dann unabhängig, wenn P[A] = 0 oder P[B] = 0 gilt.
2. Sei P[B] ∈ {0, 1}. Dann folgt aus der Definition, dass A und B stets unabhängig sind. Mit anderen Worten: Jedes Ereignis ist unabhängig von einem
fast sicheren oder fast unmöglichen Ereignis.
3. Sei A ⊂ B. In diesem Fall sind A und B genau dann unabhängig, wenn
P[A] = 0 oder P[B] = 1 gilt.
Beispiel 0.4.2 (Zweimaliges Würfeln). Sei Ω := {(i, j) ∈ N × N | 1 ≤ i, j ≤ 6}
und P[{(i, j)}] := 1/36. Sei A := {(i, j) ∈ Ω | i gerade} das Ereignis im ersten
Wurf eine gerade Augenzahl zu werfen. Sei B := {(i, j) ∈ Ω | j = 6} das Ereignis
im zweiten Wurf eine Sechs zu werfen. Dann gilt P[A] = 1/2, P[B] = 1/6 und
P[A ∩ B] = 1/12. Die Gleichung (0.4.1) ist demnach erfüllt, und die Ereignisse A
und B sind daher unabhängig.
Erweitern wir nun die Definition der Unabhängigkeit auf eine beliebige Anzahl von
Ereignissen:
Definition 0.4.3. Sei N eine endliche oder abzählbar unendliche Indexmenge. Seien (An )n∈N Ereignisse aus F. Sei an ∈ {0, 1} und setze A0n := Acn , A1n := An für
alle n ∈ N. Die Ereignisse (An )n∈N heissen unabhängig, wenn für jede endliche
Teilmenge M ⊂ N gilt
h\
i
Y
(0.4.2)
P
Aann =
P[Aann ] .
n∈M
n∈M
Wir bemerken zu dieser Definition:
1. Mittels vollständiger Induktion über |M | kann gezeigt werden, dass Gleichung
(0.4.2) äquivalent ist zu
h\
i
Y
P
An =
P[An ] .
(0.4.3)
n∈M
n∈M
Diese äquivalente Formulierung ist für den expliziten Nachweis der Unabhängigkeit der Ereignisse (An )n∈N offenbar besser geeignet als die Gleichung (0.4.2).
2. Mit dem vorhergehenden Punkt folgt weiter, dass die Definition 0.4.1 mit der
allgemeinen Definition 0.4.3 verträglich ist.
3. Seien die Ereignisse (An )n∈N unabhängig. Sei weiter N 0 ⊂ N eine Teilmenge
der Indexmenge N . Aus Definition 0.4.3 folgt sofort, dass auch die Teilfamilie
(An )n∈N 0 unabhängig ist.
Die Gleichungen (0.4.2), beziehungsweise (0.4.3) müssen für jede Teilmenge M ⊂ N
verifiziert werden um Unabhängigkeit der Ereignisse (An )n∈N nachzuweisen. Es ist
nicht hinreichend die Gleichungen lediglich für M := N zu überprüfen, wie folgendes
Beispiel zeigt.
Beispiel 0.4.4. Sei Ω := {1, 2, 3, 4, 5, 6} mit der Uniformverteilung versehen, also
P[{i}] = 1/6 für alle 1 ≤ i ≤ 6. Es seien die drei Ereignisse A = {1, 2, 3}, B =
{2, 4, 6} und C = {1, 2, 4, 5} gegeben. Es folgt
P[A ∩ B ∩ C] =
P[A ∩ C]
=
P[B ∩ C] =
1
= P[A]P[B]P[C] ,
6
1
= P[A]P[C] ,
3
1
= P[B]P[C] .
3
20
Hingegen ist
P[A ∩ B] =
1
1
6= = P[A]P[B] .
6
4
Die drei Ereignisse sind somit nicht unabhängig, auch wenn die Gleichung (0.4.3)
für M := N = 3 gilt.
Nach Punkt 3 der obigen Aufzählung folgt aus der Unabhängigkeit von Ereignissen
auch deren paarweise Unabhängigkeit. Die Umkehrung dieser Aussage gilt jedoch
nicht, wie das nächste Beispiel deutlich macht.
Beispiel 0.4.5. Sei Ω := {1, 2, 3, 4} mit der Uniformverteilung versehen, also
P[{i}] = 1/4 für alle 1 ≤ i ≤ 4. Betrachte folgende drei Ereignisse: A := {1, 2},
B := {2, 4} und C := {2, 3}. Dann gilt
P[A ∩ B]
=
P[A ∩ C] =
P[B ∩ C] =
1
= P[A]P[B] ,
4
1
= P[A]P[C] ,
4
1
= P[B]P[C] .
4
Die Ereignisse A, B und C sind also paarweise unabhängig. Es gilt jedoch
P[A ∩ B ∩ C] =
1
1
6= = P[A]P[B]P[C] .
4
8
Die drei Ereignisse sind demnach nicht unabhängig, obwohl sie paarweise unabhängig
sind.
Unabhängigkeit von Zufallsvariablen
Zum Begriff der Unabhängigkeit der Zufallsvariablen gelangen wir über die Unabhängigkeit von Ereignissen.
Definition 0.4.6. Sei N eine endliche oder abzählbar unendliche Indexmenge. Sei
(Xn )n∈N eine Folge von Zufallsvariablen mit Xn : Ω → Rkn . Die Zufallsvariablen
heissen unabhängig, wenn für alle Bn ∈ B(Rkn ) die Ereignisse {Xn ∈ Bn }, n ∈ N ,
unabhängig sind, das heisst wenn für jede endliche Teilmenge M ⊂ N und beliebige
Ereignisse Bn ∈ B(Rkn ) gilt:
h\
i
Y
P
{Xn ∈ Bn } =
P[Xn ∈ Bn ] .
(0.4.4)
n∈M
n∈M
Einige Bemerkungen zu dieser Definition:
1. Es kann gezeigt werden, dass eine Folge von Ereignissen (An )n∈N ist genau
dann unabhängig ist, wenn die entsprechenden Indikatorvariablen (I[An ])n∈N
unabhängig sind.
2. Seien die Zufallsvariablen (Xn )n∈N unabhängig. Sei weiter N 0 ⊂ N eine Teilmenge der Indexmenge N . Aus Definition folgt, dass auch die Teilfamilie
(Xn )n∈N 0 unabhängig ist.
3. Sei N eine endliche Indexmenge. Gilt (0.4.4) für alle M ⊂ N , so insbesondere
auch
h\
i
Y
P
{Xn ∈ Bn } =
P[Xn ∈ Bn ]
(0.4.5)
n∈N
n∈N
21
für beliebige Bn ∈ B(Rkn ).
Ist (0.4.5) andererseits für alle Bn ∈ B(Rkn ) erfüllt, und M ⊂ N vorgegeben,
so können wir Bn := Rkn für alle n ∈ N \M setzen, und erhalten wegen
P[Xn ∈ Rkn ] = 1 die Gleichung (0.4.4) zurück.
Im endlichen Fall genügt es daher für die Unabhängigkeit der Zufallsvariablen
(Xn )n∈N die Gleichung (0.4.4) für M := N zu überprüfen.
4. Die Borelsche σ-Algebren B(Rkn ) wird erzeugt von kn -dimensionalen Intervallen der Form
(a, b] := (a1 , b1 ] × · · · × (akn , bkn ]
mit ai ∈ R ∪ {−∞}, bi ∈ R und ai < bi für alle 1 ≤ i ≤ kn .
Aus des Masstheorie folgt, dass es für die Unabhängigkeit der (Xn )n∈N hinreichend ist, die Gleichung (0.4.4) für solche Intervalle nachzuprüfen, also
h\
i
Y
P
{Xn ∈ (a, b]} =
P[Xn ∈ (a, b]] .
(0.4.6)
n∈M
n∈M
für alle kn -dimensionalen (a, b] zu verifizieren.
Ist die Unabhängigkeit endlich vieler diskreter Zufallsvariablen nachzuweisen, ist
das folgende Lemma hilfreich:
Lemma 0.4.7. Sei (Xn )1≤n≤m eine Familie diskreter Zufallsvariablen auf Ω, wobei
Xn (Ω) = {xn1 , xn2 , . . .} Aufzählungen ihrer Wertebereiche sind Die Zufallsvariablen
Xn sind genau dann unabhängig, wenn für alle xnin ∈ Xn (Ω) mit n ∈ N gilt:
P
h \m
n=1
i
{Xn = xnin } =
m
Y
P[Xn = xnin ] .
(0.4.7)
n=1
Beweis: Wegen Definition 0.4.6, folgt aus der Unabhängigkeit von (Xn )1≤n≤m
offenbar (0.4.7), da {xnin } ∈ B(Rkn ).
Sei umgekehrt (0.4.7) erfüllt. Wir zeigen, dass eine Gleichung der Form (0.4.5)
gilt. Seien dazu Bn ∈ B(Rkn ). Da die Zufallsvariablen diskret sind, gilt für alle
1 ≤ n ≤ m:
[
X
P[Xn = xni ] .
{Xn = xni } =
P[Xn ∈ Bn ] = P
i: xni ∈Bn
i: xni ∈Bn
Nun folgt weiter
h \m
i
P
{Xn ∈ Bn }
n=1
[
[
···
ω ∈ Ω | X1 (ω) = x1i , . . . , Xm (ω) = xmj
= P
i: x1i ∈B1
j: xmj ∈Bm
X
X
···
P {X1 = x1i } ∩ . . . ∩ {Xm = xmj }
=
i: x1i ∈B1
=
=
j: xmj ∈Bm
X
···
i: x1i ∈B1
j: xmj ∈Bm
X
P[X1 = x1i ] · · ·
i: x1i ∈B1
X
P[X1 = x1i ] · · · P[Xm = xmj ]
X
P[Xm = xmj ]
j: xmj ∈Bm
= P[X1 ∈ B1 ] · · · P[Xn ∈ Bn ] ,
wobei im dritten Schritt die Voraussetzung (0.4.7) verwendet wurde.
22
2
Korollar 0.4.8. Sei (Xn )1≤n≤m eine Familie unabhängiger diskreter Zufallsvariablen auf Ω, wobei Xn (Ω) = {xn1 , xn2 , . . .} Aufzählungen ihrer Wertebereiche sind.
Dann gilt, falls P[X1 = x1i1 , . . . , Xn−1 = x(n−1)i(n−1) ] > 0 erfüllt ist:
P[Xn = xnin | X1 = x1i1 , . . . , Xn−1 = x(n−1)i(n−1) ] = P[Xn = xnin ] .
Beweis: Dies folgt direkt aus Definition 0.3.1 und Lemma 0.4.7.
2
Beispiel 0.4.9 (Zweimaliges Würfeln). Sei Ω := {(i, j) ∈ N × N | 1 ≤ i, j ≤ 6}
und sei P definiert durch P[{(i, j)}] := 1/36. Wir betrachten zwei Zufallvariablen
X1 und X2 auf Ω, definiert durch X1 (i, j) := i, beziehungsweise X2 (i, j) := j. Diese
modellieren den ersten, resp. zweiten Würfelwurf. Die beiden Zufallsvariablen sind
unabhängig, weil
P [{X1 = i} ∩ {X2 = j}] =
1
= P[X1 = i]P[X2 = j]
36
für alle 1 ≤ i, j ≤ 6 gilt.
Eine 0.4.7 entsprechende Aussage für unabhängige Zufallsvariablen mit Dichten
kann mit Hilfe der Masstheorie ebenfalls bewiesen werden. Der Beweis ist nicht allzu
schwierig. Der Satz soll hier dennoch lediglich als Bemerkung formuliert werden:
Bemerkung 0.4.10. Seien Xi : Ω → R Zufallsvariablen für alle 1 ≤ i ≤ n. Sei
weiter der Zufallsvektor X := (X1 , . . . , Xn ) : Ω → Rn gegeben. Dann gilt:
1. Sind die Xi unabhängig und haben die Dichten fXi , so hat X eine Wahrscheinlichkeitsdichte fX , gegeben durch
fX (x1 , . . . , xn ) := fX1 (x1 ) · · · fXn (xn ) .
2. Hat der Zufallsvektor X die eine Dichte der Form fX := fX1 · · · fXn , so sind
die Xi unabhängig und besitzen die Dichten fXi .
Die nächsten zwei Sätze können in Kombination verwendet werden, um die Unabhängigkeit von Zufallsvariablen auf die Unabhängigkeit anderer Zufallsvariablen
zurückzuführen.
Satz 0.4.11. Seien Xn : Ω → R, 1 ≤ n ≤ m, unabhängige Zufallsvariablen.
Gegeben seien weiter die Zufallsvektoren
Yij := (Xij +1 , Xij +2 , . . . , Xij+1 ) : Ω → Rij+1 −ij ,
wobei 1 ≤ j < q für ein festes q ≤ m, und i1 := 1, iq := m. Dann sind die
Zufallsvektoren (Yij )1≤j<q unabhängig.
Beweis: Um die Unabhängigkeit der Zufallsvektoren Yij zu zeigen, betrachten
wir im Hinblick auf (0.4.6) Intervalle der Form (aij +1 , bij +1 ] × · · · × (aij+1 , bij+1 ] ⊂
Rij+1 −ij . Es gilt dann
\
q−1 P
Yij ∈ (aij +1 , bij +1 ] × · · · × (aij+1 , bij+1 ]
j=1
\
q−1 \ij+1 −ij = P
Xij +s ∈ (aij +s , bij +s ]
j=1
=
q−1
Y
j=1
=
q−1
Y
j=1
P
s=1
\
ij+1 −ij s=1
Xij +s ∈ (aij +s , bij +s ]
P Yij ∈ (aij +1 , bij +1 ] × · · · × (aij+1 , bij+1 ] .
23
Die Unabhängigkeit ist damit gezeigt.
2
Satz 0.4.12. Seien Xn : Ω → Rkn , 1 ≤ n ≤ m unabhängige Zufallsvariablen. Seien
weiter messbare Abbildungen ϕn : Rkn → Rln , für 1 ≤ n ≤ m, gegeben. Dann sind
die Zufallsvariablen ϕn (Xn ) : Ω → Rln unabhängig.
Beweis: Dies folgt direkt aus (0.4.5) und der Messbarkeit der Abbildungen ϕn . 2
Dieses nützliche Korollar, das im nächsten Abschnitt noch häufig angewendet werden wird, folgt direkt aus den zwei vorhergehenden Sätzen:
Korollar 0.4.13. Seien Xn : Ω → R, 1P≤ n ≤ m + 1 unabhängige Zufallsvariablen.
m
Dann sind die Zufallsvariablen Sm := n=1 Xn und Xm+1 unabhängig.
Beweis:
Nach Satz 0.4.11 sind (X1 , . . . , Xm ) und Xm unabhängig. Da ϕ(X1 , . . . , Xm ) :=
Pm
X
messbar ist, folgt die Behauptung jetzt mit Satz 0.4.12.
2
n
n=1
Summen unabhängiger Zufallsvariablen
Es soll nun die Frage nach der Verteilung der Summe unabhängiger Zufallsvariablen
untersucht werden. Obwohl diese Frage für beliebige endliche Familien unabhängiger Rk -wertiger Zufallsvariablen mittels der Faltung ihrer Verteilungen beantwortet
werden kann, werden wir uns hier auf den Fall der diskreten Zufallsvariablen und
den Fall der R-wertigen Zufallsvariablen, deren Verteilungen durch Dichten gegeben
sind, beschränken.
Satz 0.4.14 (Faltungformel im diskreten Fall). Seien X, Y : Ω → Rk unabhängige diskrete Zufallsvariablen. Sei (xi )i≥1 eine Aufzählung des Wertebereichs
von X. Dann gilt für z ∈ Rk
P[X + Y = z] =
∞
X
P[X = xi ]P[Y = z − xi ] .
i=1
Beweis: Der Satz folgt direkt aus der Formel der totalen Wahrscheinlichkeit 0.3.3:
P[X + Y = z]
=
=
=
∞
X
i=1
∞
X
i=1
∞
X
P[X = xi ]P[X + Y = z | X = xi ]
P[X = xi ]P[Y = z − xi | X = xi ]
P[X = xi ]P[Y = z − xi ] ,
i=1
wobei der letzte Schritt wegen der Unabhängigkeit der X und Y mit Korollar 0.4.8
folgt.
2
Satz 0.4.15 (Faltungsformel im stetigen Fall). Seien X, Y : Ω → R unabhängige Zufallsvariablen mit Dichten fX , resp. fY . Dann hat die Zufallsvariable X + Y
eine Dichte fX+Y , gegeben durch
Z +∞
fX (x)fY (z − x) dx
fX+Y (z) =
−∞
für z ∈ R.
24
Beweis: Da die Zufallsvariablen X und Y unabhängig sind, hat der Zufallsvektor
(X, Y ) : Ω → R2 wegen Bemerkung 0.4.10 die Dichte f(X,Y ) = fX fY .
Ist z ∈ R fest gegeben, so gilt X(ω) + Y (ω) ≤ z genau dann, wenn (X, Y )(ω) ∈
B := {(x, y) ∈ R2 | x + y ≤ z}. Mit Gleichung (0.1.9) folgt dann
Z
Z
P[X + Y ≤ z] =
f(X,Y ) (x, y) d(x, y)
fX (x)fY (y) d(x, y) ,
B
B
und mit dem Transformationssatz für integrierbare Funktionen und der Transformation (x, y) 7→ (x, y − x) weiter
Z
Z
fX (x)fY (y) d(x, y) =
fX (x)fY (y − x) d(x, y) ,
B0
B
wobei B 0 := {(x, y) ∈ R2 | y ≤ z} = (−∞, +∞) × (−∞, z]. Mit dem Satz von Fubini
erhalten wir schliesslich
Z
Z z Z +∞
fX (x)fY (y − x) d(x, y) =
fX (x)fY (y − x) dx dy .
B0
−∞
−∞
2
Betrachten wir einige Beispiele:
Beispiel 0.4.16. Seien Xi : Ω → {0, 1}, 1 ≤ i ≤ n + 1,P
unabhängige Be(p)-verteilte
n
Zufallsvariablen. Dann gilt Sn ∼ Bi(n, p), wobei Sn := i=1 Xi . Wir beweisen dies
durch vollständige Induktion über n.
Für n = 1 gilt S1 = X1 ∼ Be(p) = Bi(1, p).
Sei daher n > 1 und Sn ∼ Bi(n, p). Wegen Korollar 0.4.13 sind Sn und Xn+1
unabhängig. Daher folgt mit Satz 0.4.14 für alle 1 ≤ k ≤ n + 1:
P[Sn+1 = k]
= P[Sn + Xn+1 = k]
= P[Xn+1 = 0]P[Sn = k] + P[Xn+1 = 1]P[Sn = k − 1]
n k
n
= (1 − p)
p (1 − p)n−k + p
pk−1 (1 − p)n−k+1
k
k−1
n
n
+
pk (1 − p)n+1−k
=
k
k−1
n + 1 n+1
=
p
(1 − p)n+1−k .
k
Beispiel 0.4.17. Seien X, Y : Ω → Z+ unabhängige Zufallsvariablen, wobei X ∼
Po(λ) und Y ∼ Po(µ). Dann ist die Summe dieser Zufallsvariablen wieder Poissonverteilt: X + Y ∼ Po(λ + µ).
Wir verwenden für den Beweis wiederum die Faltungsformel 0.4.14. Für k ∈ Z+
gilt so:
P[X + Y = k]
=
=
=
=
∞
X
P[X = i]P[Y = k − i]
i=0
∞
X
e−λ λi e−µ µk−i
i! (k − i)!
i=0
∞ e−(λ+µ) X k i k−i
λµ
k!
i
i=0
e−(λ+µ)
(λ + µ)k .
k!
25
Mit analogen Argumenten wie bei den ersten beiden Beispielen lässt sich zeigen:
1. Die Summe von n unabhängigen Z+ -wertigen Ge(p)-verteilten Zufallsvariablen ist NB(n, p)-verteilt.
2. Die Summe von n unabhängigen NE(λ)-verteilten Zufallsvariablen ist Γ(n, λ)verteilt.
3. Sind X ∼ N (µ1 , σ12 ) und Y ∼ N (µ2 , σ22 ) unbhängige Zufallsvaraiblen, so ist
X + Y ∼ N (µ1 + µ2 , σ12 + σ22 ). Die Summen unabhängiger normalverteilter
Zufallsvariablen sind also wieder normalverteilt.
Bei den beiden folgenden, ein wenig umfangreicheren Beispielen kommt die Multinomialverteilung ins Spiel:
Pd
Beispiel 0.4.18. Seien für 1 ≤ j ≤ d Zahlen pj ≥ 0 mit j=1 pj = 1 gegeben.
Seien weiter unabhängige Zufallsvektoren Xi : Ω → Zd+ , 1 ≤ i ≤ n, gegeben, deren
Verteilung durch
(
0
wenn z 6= ej für alle j ∈ {1, . . . , d}
P[Xi = z] =
pj wenn z = ej für ein j ∈ {1, . . . , d}
definiert ist. Hierbei sei ej der j-te Einheitsvektor in Zd+ .
Pn
Wir zeigen mit vollständiger Induktion über n, dass die Summe Sn :=
i=1 Xi
MNd (n; p1 , . . . , pd )-verteilt ist, also
P[Sn = (n1 , . . . , nd )] =
(
0
Pd
für
n!
n1 !···nd !
nj
j=1 pj
Qd
j=1
Pd
für
j=1
nj 6= n
nj = n
Sei n = 1. In diesem Fall ist (n1 , . . . , nd ) = ej für ein 1 ≤ j ≤ d, äquivalent zu
Pd
Pd
k=1 nk = 1. Wenn
k=1 nk 6= 1 gilt, so haben wir nach Definition der Xi
P[S1 = (n1 , . . . , nd )] = P[X1 = (n1 , . . . , nd )] = 0 .
Pd
Wenn k=1 nk = 1 gilt, so existiert ein j mit nj = 1 und nk = 0 für alle k mit
k 6= j. Hier haben wir
P[S1 = (n1 , . . . , nd )] = P[X1 = (n1 , . . . , nd )] = pj =
Y
1!
p0k p1j .
1!0! · · · 0!
k6=j
Sei nun n > 1. Es gilt mit Korollar 0.4.13 Satz 0.4.14 folgt
P[Sn = (n1 , . . . , nd )]
= P[Sn−1 + Xn = (n1 , . . . , nd )]
∞
X
=
P[Xn = xi ]P[Sn−1 = (n1 , . . . , nd ) − xj ]
i=1
=
d
X
pj P[Sn−1 = (n1 , . . . , nd ) − ej ] .
(0.4.8)
j=1
Die Induktionsvoraussetzung für Sn−1 besagt, dass P[Sn−1 = (n1 , . . . , nd ) − ej ] = 0
Pd
für alle 1 ≤ j ≤ d genau dann gilt, wenn k=1 nk − 1 6= n − 1. Dies ist äquivalent
Pd
zu k=1 nk 6= n. Weiter erhält man in diesem Fall wegen (0.4.8)
P[Sn = (n1 , . . . , nd )] = 0 .
26
Ist andererseits
Pd
k=1
P[Sn = (n1 , . . . , nd )]
nk − 1 = n − 1, resp.
= p1
Pd
k=1
nk = n, so erhalten wir
Y n
(n − 1)!
pk k pn1 1 −1
(n1 − 1)!n2 ! · · · nd !
k6=1
Y n n −1
(n − 1)!
+ · · · + pd
pk k pd d
n1 ! · · · nd−1 !(nd − 1)!
k6=d
=
d
d
Y
(n − 1)!(n1 + · · · + nd ) Y nk
n!
pk =
pnk k .
n1 ! · · · n d !
n 1 ! · · · nd !
k=1
k=1
Damit ist die Behauptung bewiesen.
Beispiel 0.4.19. Seien (Xi )1≤i≤d unabhängige Poisson-verteilte Zufallsvariablen,
Pd
Xi ∼ Po(λi ) für alle 1 ≤ i ≤ d. Wir setzen λ := i=1 λi . Sei weiter n ∈ N fest.
Was ist die Verteilung des Zufallsverktors (X1 , . . . , Xd ) : Ω → Zd+ unter der BedinPd
gung i=1 Xi = n?
Pd
Beispiel 0.4.17 und Korollar 0.4.13 zeigen, dass i=1 Xi ∼ Po(λ) gilt. Daher ist
X
d
e−λ λn
>0,
c := P
Xi = n =
i=1
n!
Pd
und die bedingte Wahrscheinlichkeit P (X1 , . . . , Xd ) = (n1 , . . . , nd ) i=1 Xi = n
für alle Tupel (n1 , . . . , nd ) ∈ Zd+ wohldefiniert.
Pd
Wir wählen nun (n1 , . . . , nd ) ∈ Zd+ mit i=1 ni = n. Dann gilt:
Xd
P (X1 , . . . , Xd ) = (n1 , . . . , nd )
Xi = n
i=1
Xd
1
=
P (X1 , . . . , Xd ) = (n1 , . . . , nd ),
Xi = n
i=1
c
=
=
=
d
1
1 Y
P[X1 = n1 , . . . , Xd = nd ] =
P[Xi = ni ]
c
c i=1
n
d
d 1 Y e−λi λni i
1 −λ n Y λi i 1
= e λ
c i=1 ni !
c
λ
ni !
i=1
n
n
d d Y
1 e−λ λn Y λi i n!
λi i n!
=
.
c n! i=1 λ
ni !
λ
ni !
i=1
Pd
Ist (n1 , . . . , nd ) ∈ Zd+ mit i=1 ni 6= n, so ist
Xd
P (X1 , . . . , Xd ) = (n1 , . . . , nd ) i=1
Xi = n = 0 .
Damit gilt für alle (n1 , . . . , nd ) ∈ Zd+ die Gleichung
Xd
P (X1 , . . . , Xd ) = (n1 , . . . , nd )
Xi = n = P[Y = (n1 , . . . , nd )] ,
i=1
wobei Y : Ω → Zd+ , Y ∼ MNd (n; λ1 /λ, . . . , λd /λ).
Mit anderen Worten: Die Verteilung des Zufallsvektors (X1 , . . . , Xd ) von Po(λi )Pd
verteilten Zufallsvariablen, unter der Bedingung i=1 Xi = n, ist die Multinomialverteilung MNd (n; λ1 /λ, . . . , λd /λ).
27
0.5
Der Erwartungswert
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Definition 0.5.1. Sei X : Ω → R+ eine nicht-negative Zufallsvariable. Der Erwartungwert von X wird definiert als
Z
E(X) :=
X dP ∈ R+ ∪ {∞} .
(0.5.1)
Ω
Ist X eine nicht-negative diskrete Zufallsvariable, so erhalten wir gerade
X
E(X) =
X(ω) P[{ω}] .
(0.5.2)
ω∈Ω
Aus (0.5.1) folgt mittels des Transformationssatzes für Masse
Z
E(X) =
x dPX ,
(0.5.3)
[0,∞)
beziehungsweise im diskreten Fall aus (0.5.2)
E(X) =
∞
X
xi P[X = xi ] ,
(0.5.4)
i=1
wobei (xi )i≥1 eine Abzählung des Wertebereichs von X ist.
Ist die Verteilung PX von X durch eine Dichte fX bestimmt, so folgt (0.5.3) mit
Transformationssatz für Masse mit Dichten weiter
Z ∞
E(X) =
xfX (x) dx .
(0.5.5)
0
Bemerkung 0.5.2. Der Erwarungswert von X ≥ 0, wobei X diskret ist oder eine
Dichte besitzt, kann auch in der Form
Z ∞
Z ∞
E(X) =
P[X > x] dx =
(1 − FX (x)) dx
0
0
geschrieben werden. Hierbei bezeichnet FX die Verteilungsfunktion von X.
Im diskreten Fall mit X(Ω) = {x1 , x2 , x3 , . . .} sieht man dies durch
Z ∞
Z ∞ X
P[X > x] dx =
P[X = xi ] dx
0
0
=
=
=
Z
i: xi >x
∞
0
∞
X
i=1
∞
X
X∞
i=1
1{xi >x} P[X = xi ] dx
P[X = xi ]
Z
∞
0
1{xi >x} dx
xi P[X = xi ] .
i=1
Hat X andererseits eine Dichte fX , so folgt die Aussage durch partielle Integration
Z ∞
Z ∞
∞
E(X) :=
xfX (x) dx = [xFX (x)]0 −
FX (x) dx
0
0
und der Eigenschaft, dass
∞
[xFX (x)]0 = lim xFX (x) = lim x =
x→∞
x→∞
28
Z
0
∞
1 dx .
Betrachten wir nun einige Beispiele von Erwartungswerten nicht-negativer Zufallvariablen.
Beispiel 0.5.3. Sei X : Ω → {0, 1} Be(p)-verteilt. In diesem Fall folgt mit (0.5.4)
E(X) = 0 · P[X = 0] + 1 · P[X = 1] = p .
(0.5.6)
Beispiel 0.5.4. Sei Y : Ω → Z+ Po(λ)-verteilt. Dann gilt wegen (0.5.4)
=
E(X)
∞
X
i P[Y = i] =
i=0
∞
X
ie−λ
i=1
λi
i!
∞
∞
X
X
λi
λi−1
= λe−λ
= λe−λ
(i − 1)!
i!
i=1
i=0
= λe−λ eλ = λ .
Beispiel 0.5.5 (Erwartungswert unendlich). Sei Z : Ω → Z+ . Sei
−1
X
∞
1
c :=
.
n=0 1 + n2
Es gilt c < ∞. Definiere weiter
P[Z = n] = PZ [{n}] :=
c
1 + n2
für alle n ∈ Z+ . Wegen der Wahl von c ist PZ eine wohldefinierte Wahrscheinlichkeit auf 2Z+ . Für den Erwartungswert von Z gilt nun mit (0.5.4)
E(Z) =
∞
X
n=0
n
∞
X
c
=
1 + n2
n=1
1
n
∞
X
c
c
= ∞,
≥
1
+
n
+n
n=1
somit E(Z) = ∞.
Bisher wurden lediglich nicht-negative Zufallsvariablen und deren Erwartungswerte betrachtet. Die Definition des Erwartungswerts für eine beliebige reell-wertige
Zufallsvariablen wird zurückgeführt auf die Definition für nicht-negative Zufallsvariablen. Man definiert für eine Zufallsvariable X
X + := max(X, 0) und X − := min(X, 0) .
Sowohl X + als auch X − sind Zufallsvariablen. Offenbar ist X + ≥ 0, X − ≤ 0,
X = X + + X − und |X| = X + − X − .
Definition 0.5.6. Sei X eine reelle Zufallsvariable. Wir sagen der Erwartungswert
von X existiere, wenn E(X + ) < ∞ oder E(−X − ) < ∞ gilt.
In einem solchen Fall wird der Erwartungswert von X definiert durch
E(X) := E(X + ) − E(−X − ) ∈ R ∪ {±∞} .
Die Existenz des Erwartungswerts gemäss Definition 0.5.6 besagt, dass dieser als
Wert in R ∪ {±∞} gegeben ist.
Eine hinreichende Bedingung für die Existenz des Erwartungswerts von X ist
E(|X|) < ∞ .
Denn es gilt 0 ≤ X + ≤ |X| und 0 ≤ −X − ≤ |X| und somit folgt mit Definition
0.5.1 wegen der Monotonie des Integrals
E(X + ) ≤ E(|X|) < ∞ und E(−X − ) ≤ E(|X|) < ∞ .
29
Die Bedingung ist also äquivalent zur Intergrierbarkeit von X. Es gilt dann
Z
E(X) =
X dP .
Ω
Der Erwartungswert ist hier als (endliche) Zahl in R gegeben.
Mittels Transformationen erhalten wir die (0.5.2) bis (0.5.5) entsprechenden Gleichungen im allgemeinen Fall. Also beispielsweise
Z +∞
E(X) =
xfX (x) dx ,
(0.5.7)
−∞
wenn die Verteilung von X durch eine Dichte fX festgelegt ist.
Wir werden im folgenden, wenn nicht anders erwähnt, stets die Bedingung E(|X|) <
∞ voraussetzen.
Bemerkung 0.5.7. Ist eine Zufallsvariable X : Ω → R und eine messbare Funktion
ϕ : R → R gegeben, so folgt aus dem Transformationssatz, dass der Erwartungswert
von ϕ(X) genau dann existiert, wenn die Funktion ϕ PX -integrierbar ist, und dass
in diesem Fall gilt
Z
Z
E(ϕ(X)) =
ϕ(X) dP =
Ω
ϕ dPX .
(0.5.8)
R
Im diskreten Fall haben wir so gerade
E(ϕ(X)) =
∞
X
ϕ(xi )P[X = xi ] .
i=1
Ist die Verteilung von X durch eine Dichte fX gegeben, so erhält man aus (0.5.8)durch
eine weitere Transformation
Z +∞
E(ϕ(X)) =
ϕ(x)fX (x) dx .
(0.5.9)
−∞
Berechnen wir nun einige Erwartungswerte im allgemeinen Fall:
Beispiel 0.5.8. Sei X : Ω → R mit X ∼ N (0, 1). Wir zeigen zunächst, dass
E(|X|) < ∞. Als Verteilungsfunktion von |X| erhält man
F|X| (x) = 2Φ0,1 (x) − 1 ,
für x ∈ R, und als Dichte somit
f|X| (x) =
0
2ϕ0,1 (x)
für
für
x<0
.
x≥0
Die Berechnung von E(|X|) folgt analogen Argumenten, wie sie im Beispiel am Ende
von Abschnitt 0.2 verwendet wurden:
Z ∞
Z ∞
x2
2
x 2ϕ0,1 (x) dx = √
xe− 2 dx
E(|X|) =
2π 0
0
2
2 h − x2 i∞
−e 2
=√
<∞.
= √
0
2π
2π
Der Erwartungswert von X existiert somit. Es gilt weiter
Z +∞
Z +∞
h
i+∞
x2
x2
1
E(X) =
xϕ0,1 (x) dx = √
xe− 2 dx = −e− 2
=0.
−∞
2π −∞
−∞
30
Beispiel 0.5.9. Sei Y : Ω → R eine beliebige endliche reell-wertige Zufallsvariable
mit Wertebereich Y (Ω) = {y1 , y2 , . . . , yn } und P[Y = yi ] := n−1 für alle 1 ≤ i ≤ n.
Da Y nur endlich viele Werte annimmt, is der Erwartungswert von Y im Sinne
von Definition 0.5.6 existent, und wir haben
E(Y ) =
n
X
n
yi P[Y = yi ] =
i=1
1X
yi =: ȳ .
n i=1
Der Erwartungswert entspricht also genau dem arithmetischen Mittel der Werte
von Y .
Beispiel 0.5.10 (Erwartungswert nicht existent). Sei Z : Ω → R eine C(0, 1)verteilte Zufallsvariable. Der Erwartungswert von Z existiert im Sinne der Definition 0.5.6 nicht:
Die Dichte der Standard-Cauchy-Verteilung ist nach (0.1.10)
f0,1 (x) :=
1
.
π(1 + x2 )
Damit gilt wegen Gleichung (0.5.9)
Z +∞
Z
E(X + ) =
max(x, 0)f0,1 (x) dx =
−∞
=
=
∞
xf0,1 (x) dx
0
Z
Z ∞
1 ∞ x
1
1
=
dy
2
π 0 1+x
2π 0 1 + y
1
[log(1 + y)]∞
0 =∞,
2π
wobei die Substitution y = x2 verwendet wurde. Genauso erhält man E(−X − ) = ∞.
Satz 0.5.11 (Eigenschaften des Erwartungswerts). Seien X und Y Zufallsvariablen mit E(|X|) < ∞, beziehungsweise E(|Y |) < ∞. Sei weiter c ∈ R eine
Konstante. Dann gilt:
i) Ist X ≥ 0 P-fast sicher, so gilt E(X) ≥ 0.
ii) |E(X)| ≤ E(|X|).
iii) E(cX) = c E(X), insb. E(c) = c.
iv) E(X + Y ) = E(X) + E(Y ).
v) Ist X ≥ Y P-fast sicher, so folgt E(X) ≥ E(Y ).
vi) Sind X und Y unabhängig, so gilt E(|XY |) < ∞ und weiter E(XY ) =
E(X)E(Y ).
Beweis: Die Aussagen i) bis iv) folgen aus der Definition des Erwartungswerts als
Integral bezüglich des Wahrscheinlichkeitsmasses P.
Die Aussage v) kann auf i) zurückgeführt werden: Es gilt X − Y ≥ 0 P-fast sicher,
und daher E(X − Y ) ≥ 0. Danach schliesst man mit iii) und iv).
Die Aussage vi)
NOCH ZU ZEIGEN......
2
Bemerkung 0.5.12. In Aussage v) von Satz 0.5.11 ist es hinreichend E(|Y |) < ∞
vorauszusetzen und keine Bedingung an den Erwartungswert von X zu stellen. Denn
aus X ≥ Y folgt −X − ≤ −Y − ≤ |Y | und weiter E(−X − ) ≤ E(|Y |) < ∞. Nach
Definition 0.5.6 existiert also der Erwartungswert von X. Im Fall E(X) = ∞ gilt
dann natürlich E(X) ≥ E(Y ).
31
Beispiel 0.5.13. Die Umkehrung der Aussage in Satz 0.5.11 vi) gilt nicht, wie
folgende Situation zeigt:
Wir betrachten eine Zufallsvariable X, die die Werte −1, 0 und 1 mit je der Wahrscheinlichkeit 1/3 annimmt. Sei weiter die Zufallsvariable Y := X 2 gegeben. Diese
nimmt offenbar den Wert 0 mit der Wahrscheinlichkeit 1/3 und den Wert 1 mit
der Wahrscheinlichkeit 2/3 an. Weil
P[X = 1, Y = 0] = 0 6=
1
= P[X = 1]P[Y = 0]
9
gilt, sind die Zufallsvariablen nicht unabhängig. Es gilt jedoch E(X) = 0, E(Y ) =
2/3 und E(XY ) = E(X 3 ) = 0, also
E(X)E(Y ) = E(XY ) .
Pn
Beispiel 0.5.14. Sei Sn ∼ Bi(n, p), das heisst Sn = i=1 Xi , wobei Xi ∼ Be(p)
für 1 ≤ i ≤ n unabhängige Bernoulli-verteilte Zufallsvariablen sind. Mit Aussage
iv) von Satz 0.5.11 erhalten wir unter Beachtung von (0.5.6)
E(Sn ) =
n
X
E(Xi ) = np .
i=1
Beispiel 0.5.15. Aus Beispiel 0.5.8 wissen wir, dass für eine standardnormalverteilte Zufallsvariable X gilt E(X) = 0. Wir betrachten jetzt für µ ∈ R und σ ∈ (0, ∞)
die Zufallvariable Y := σX + µ ∼ N (µ, σ 2 ). Mit Satz 0.5.11 iii) und iv) folgt
E(Y ) = σE(X) + µ = µ .
Satz 0.5.16 (Jensen-Ungleichung). Sei X : Ω → R eine Zufallsvariable mit
E(|X|) < ∞. Sei f : R → R eine konvexe Funktion. Dann ist f (X) eine Zufallsvariable. Existiert der Erwartungswert von f (X), so gilt
f (E(X)) ≤ E(f (X)) .
Beweis: Sei a ∈ R beliebig aber fest. Es kann gezeigt werden, dass die Konvexität
0
(a) und rechtsseitigen Ableitung
von f die Existent der linksseitigen Ableitung f−
0
f+ (a) nach sich zieht. Die Funktion f ist daher stetig und somit messbar, f (X) also
eine wohldefinierte Zufallsvariable.
Es gilt für alle x ∈ R
0
f (x) ≥ f (a) + (x − a)f+
(a) ,
0
(a). Existiert
und insbesondere für alle ω ∈ Ω f (X(ω)) ≥ f (a) + (X(ω) − a)f+
E(f (X)), so impliziert Satz 0.5.11 v), iii) und iv) und Bemerkung 0.5.12
0
E(f (X)) ≥ f (a) + (E(X) − a)f+
(a) .
Mit a := E(X) folgt die Behauptung.
2
Einen wichtigen Spezialfall der Jensenschen Ungleichung erhält man für f (x) := x2 :
E(X 2 ) = E(|X|2 ) ≥ E(|X|).
Existiert also der Erwartungswert von X 2 als endlicher Wert, so gilt dasselbe für
den Erwartungswert von X.
Mit Hilfe der Jensen-Ungleichung kann gezeigt werden, dass für eine Zufallsvariable
X die Funktion g : [1, ∞) → [0, ∞], definiert durch
g(r) := E(|X|r )1/r ,
monoton wachsend ist. Sind insbesondere m, n ∈ N mit m < n, so folgt aus
E(|X n |) < ∞ auch E(|X m |) < ∞.
32
Beispiel 0.5.17. Dieses Beispiel zeigt, dass von E(|X|) < ∞ nicht auf E(X 2 ) < ∞
geschlossen werden kann. Zugleich zeigt es, dass die Endlichkeitsaussage in Satz
0.5.11 vi) nicht unbedingt mehr gilt, falls die Voraussetzung der Unabhängigkeit
fallengelassen wird.
Dazu sei eine Zufallsvariable mit der Dichte
2x−3 für x ≥ 1
f (x) :=
0 für x < 1
Dann gilt
E(|X|) = E(X) =
∞
Z
x 2x−3 dx = 2 < ∞ ,
1
aber mit Y := X erhält man
2
E(|XY |) = E(X ) =
Z
∞
x2 2x−3 = ∞ .
1
Satz 0.5.18 (Cauchy-Schwarz-Ungleichung). Seien X und Y Zufallsvariablen
auf Ω mit E(X 2 ) < ∞ und E(Y 2 ) < ∞. Dann gilt E(|XY |) < ∞ und weiter
E(XY )2 ≤ E(X 2 )E(Y 2 ) .
Beweis: Für alle ω ∈ Ω gilt
|X(ω)Y (ω)| ≤
1
(X(ω)2 + Y (ω)2 ) .
2
Mit Satz 0.5.11 v) und iv) und den Voraussetzungen erhalten wir
E(|XY |) ≤
1
(E(X 2 ) + E(Y 2 )) < ∞ .
2
Sei a ∈ R beliebig. Weil (X − aY )2 ≥ 0 gilt, können wir mit Satz 0.5.11 iii) und iv)
abschätzen, dass
E(X 2 ) − 2a E(XY ) + a2 E(Y 2 )
= E(X 2 − 2aXY + a2 Y 2 ) = E((X − aY )2 ) ≥ 0 .
(0.5.10)
Es werden jetzt zwei Fälle unterschieden:
Fall 1: Sei E(X 2 ) 6= 0 oder E(Y 2 ) 6= 0. Wir wählen ohne Einschränkung E(Y 2 ) 6= 0
und setzen
E(XY )
a :=
.
E(Y 2 )
Mit (0.5.10) folgt dann
E(X 2 ) −
E(XY )
≥0.
E(Y 2 )
Die Annahme E(X 2 ) führt mittels einer Symmetrieüberlegung zum selben Ziel.
Fall 2: Sei E(X 2 ) = E(Y 2 ) = 0. Dann gilt wegen (0.5.10)
−2a E(XY ) ≥ 0 .
Dies ist jedoch nur wenn E(XY ) = 0 für alle a ∈ R erfüllbar. Die Cauchy-SchwarzUngleichung gilt also auch in diesem Fall.
2
Bemerkung 0.5.19. Mit Hilfe von Gleichung (0.5.10) kann man sich überlegen,
dass in der Cauchy-Schwarz-Ungleichung genau dann Gleichheit gilt, wenn X und
Y P-fast sicher linear abhängig sind, nämlich X = aY .
33
Anwedung des Erwartungswerts: Abschätzen von Ramsey-Zahlen
In diesem Abschnitt werden wir Färbungen von Graphen betrachten. Was ist darunter anschaulich zu verstehen?
Einen Graphen in der Ebene kann man sich vorstellen als eine endliche Menge von
Punkten, den Knoten, wobei je zwei Punkte durch eine gerade Linie, eine Kante,
verbunden sein können oder nicht. Vollständige Graphen sind solche, bei denen jeder Knoten mit jedem anderen Knoten durch eine Kante verbunden ist. Bei einer
2-Färbung wird jede Kante eines Graphen mit einer aus zwei möglichen Farben
versehen.
Betrachten wir einen vollständigen Graphen mit n Knoten, so können wir uns fragen, wie gross die kleinste Anzahl n von Punkten ist, so dass wir bei jeder möglichen
2-Färbung des Graphen stets ein Dreieck mit drei gleichfarbigen Seiten erhalten.
Um diese Frage zumindest näherungsweise zu beantworten, formalisieren wir die
oben eingeführten Begriffe. Da bei einem vollständigen Graphen jeder Knoten mit
jedem anderen Knoten verbunden ist, liefert eine Angabe der Kanten keine weitere
Information, wir können also definieren:
Definition 0.5.20. Ein vollständiger Graph mit n Knoten in R2 ist eine endliche
Menge
Kn := {xi ∈ R2 | 1 ≤ i ≤ n}
von Elementen in R2 . Wir nennen die xi für alle 1 ≤ i ≤ n Knoten und die Mengen
{xi , xj }, wobei i 6= j für alle 1 ≤ i, j ≤ n die Kanten des Graphen. Mit
En := {xi , xj } 1 ≤ i, j ≤ n, i 6= j
bezeichen die Menge der Kanten des Graphen Kn .
Definition 0.5.21. Eine 2-Färbung f eines vollständigen Graphen Kn ⊂ R2 ist
eine Abbildung
f : En → {0, 1} .
Definition 0.5.22. Ist ein vollständiger Graph Kn := {xi ∈ R2 | 1 ≤ i ≤ n} gegeben, so sagen wir Kn enthalte ein monochromes k-Eck, wenn es einen vollständigen
Graphen Lk ⊂ Kn gibt, für dessen Kantenmenge Ek entweder
f (Ek ) = 0 oder f (Ek ) = 1
gilt.
Definition 0.5.23. Die Zahl
Rk,k
:= min{n ∈ N | jede 2-Färbung von des Graphen Kn
enthält ein monochromes k-Eck}
die k-te Ramsey-Zahl.
Es kann gezeigt werden, dass R3,3 = 6 und R4,4 = 18 ist. Die genauen Werte
der Ramsey-Zahlen Rk,k für k ≥ 5 sind bis heute nicht bekannt. Zumindest kennt
man Abschätzungen, die jedoch für mit wachsendem k immer ungenauer werden:
43 ≤ R5,5 ≤ 49, 102 ≤ R6,6 ≤ 165, 798 ≤ R10,10 ≤ 23556.
Eine von Paul Erdős entdeckte Methode eine untere Grenze für die Zahlen Rk,k zu
bestimmen verwendet Methoden der Wahrscheinlichkeitstheorie, insbesondere den
Begriff des Erwartungswerts. Diese soll im Beweis des folgenden Satzes vorgestellt
werden.
34
Satz 0.5.24 (Erdős). Für jedes k ≥ 3 ist die Ramsey-Zahl Rk,k grösser als 2k/2 .
Beweis: Sei also ein vollständiger Graph Kn ⊂ R2 mit n Knoten und der Kanten(K)
menge En gegeben. Sei weiter k ≥ 3 beliebig, aber fest.
Wir betrachten nun eine zufällige Färbung f von Kn und untersuchen die aus dieser Färbung resultierende Anzahl wf monochromer k-Ecke in Kn . Um f und wf
zu modellieren, konstruieren wir Zufallsvariablen auf einem geeigneten Wahrscheinlichkeitsraum (Ω, F, P). Zunächst betrachten für jede Kante e ∈ En die Be(1/2)verteilte Zufallsvariable
f (e) : Ω → {0, 1} .
(K)
Die Werte der |En | = n2 Zufallsvariablen f (e) bestimmen eindeutig eine Färbung
der Graphen Kn . Die zufällige Zahl der k-Ecke wird dann durch die Zufallsvariable
n
Wf : Ω → 0, 1, 2, . . . ,
k
gegeben, wobei
hn
o n
oi
X
(L)
(L)
Wf (ω) :=
I ω | f (e)(ω) = 1 ∀e ∈ Ek
∪ ω | f (e)(ω) = 1 ∀e ∈ Ek
,
Lk ⊂Kn
wobei über alle vollständigen Graphen Lk ⊂ Kn mit k Knoten und Kantenmengen
(L)
Ek summiert wird. Ist im Extremfall der gesamte Graph Kn monochrom, so ist
offenbar jede k-elementige Teilmenge
von Kn ein monochromes k-Eck. Das heisst
Wf kann höchstens den Wert nk annehmen.
Wir schätzen nun den Erwartungswert von Wf ab. Es gilt mit k ≥ 3:
X
(L)
(L)
E(Wf ) =
E I[{f (e) = 1 ∀e ∈ Ek } ∪ {f (e) = 1 ∀e ∈ Ek }]
Lk ⊂Kn
i
h
i
X h
(L)
(L)
P {f (e) = 1 ∀e ∈ Ek } + P {f (e) = 1 ∀e ∈ Ek }
=
Lk ⊂Kn
=
2
X
h
P {f (e) = 1 ∀e ∈
Lk ⊂Kn
≤ 2
nk
2k
i
(L)
Ek }
(k2)
n
1
=2
2
k
(k2)
2
1
= nk 21−k(k−1)/2−k ≤ nk 2k/2−k(k−1)/2−k = nk 2−k /2
2
2
Ist nun n < 2k/2 , so gilt nk 2−k /2 < 1 und wegen obiger Abschätzung auch
E(Wf ) < 1.
Wegen der Monotonie des Erwartungswerts, Satz 0.5.11 v), haben wir E(Wf ) ≥ 1,
falls Wf ≥ 1 P-fast sicher gilt. Daher muss ein ω ∈ Ω mit P[{ω}] > 0 und Wf (ω) < 1,
also Wf (ω) = 0, existieren.
Somit gibt es für jeden vollständigen Graphen Lk ⊂ Kn mit k Knoten Kanten
(L)
e1 , e2 ∈ Ek , so dass f (e1 )(ω) = 0 und f (e2 )(ω) = 1. Wir haben also eine Färbung
f von Kn gefunden, die kein monochromes k-Eck enthält. Somit muss Rk,k ≥ 2k/2
gelten.
2
Varianz, Kovarianz und Korrelation
Definition 0.5.25. Sei X eine Zufallsvariable mit existierendem Erwartungswert.
Dann heisst
Var(X) := E((X − E(X))2 ) ∈ [0, ∞]
35
die Varianz von X. Weiter nennt man
SA(X) :=
p
Var(X)
die Standardabweichung von X.
Die Varianz von X ist genau dann endlich, wenn E(X 2 ) < ∞. Denn ist E(X 2 )
endlich, so als Folge der Jensen-Ungleichung auch E(X) und nach Definition dann
auch die Varianz, wenn die Linearität des Erwartungswerts verwendet wird. Ist
umgekehrt Var(X) < ∞, so muss notwendigerweise auch E(X) eine endliche Zahl
sein. Dann ist aber
E(X 2 ) = E((X − E(X) + E(X))2 ) = Var(X) + E(X)2 < ∞ .
Satz 0.5.26 (Eigenschaften der Varianz und Standardabweichung). Sei X
eine Zufallsvariable mit E(X 2 ) < ∞ und c ∈ R eine Konstante. Dann gilt:
i) Var(X) = E(X 2 ) − E(X)2 .
ii) SA(X) ≥ E(|X − E(X)|).
iii) Var(X + c) = Var(X).
iv) Var(cX) = c2 Var(X).
v) SA(cX) = c SA(X).
vi) Var(X) ≤ E((X + c)2 ).
Beweis: Mit E(X 2 ) < ∞ folgt auch E(|X|) < ∞ wegen der Jensen-Ungleichung.
Die Aussagen ergeben sich daher aus den Eigenschaften des Erwartungswerts, insbesondere Satz 0.5.11.
2
Beispiel 0.5.27. Sei X : Ω → {0, 1} Be(p)-verteilt. Wir wissen bereits, dass
E(X) = p. Offenbar ist auch X 2 ∼ Be(p) und daher E(X 2 ) = p. Für die Varainz
von X erhält man nun mit Aussage i) von Satz 0.5.26
Var(X) = p − p2 = p(1 − p) .
Beispiel 0.5.28. Sei X eine Po(λ)-verteilte Zufallsvariable. Wir berechnen zunächst
den Erwartungswert der Zufallsvariablen X(X − 1):
E(X(X − 1))
=
∞
X
i(i − 1)eλ
i=0
λi
i!
= λ2
∞
X
eλ
λ( i − 2)
(i − 2)!
= λ2
∞
X
eλ
λi
= λ2
i!
i=2
i=0
Da der Erwartungswert der Zufallsvariable X bereits als λ bekannt ist, erhalten wir
jetzt den Erwartungswert von X 2 durch
λ + λ2 = E(X) + E(X(X − 1)) = E(X + X(X − 1)) = E(X 2 ) .
Die Varianz von X ist dann
Var(X) = E(X 2 ) − E(X)2 = λ + λ2 − λ2 = λ ,
das heisst identisch mit dem Erwartungswert.
36
Beispiel 0.5.29. Sei X ∼ N (0, 1). Wenn gezeigt werden kann, dass E(X 2 ) < ∞,
so gilt nach Satz 0.5.26 i) Var(X) = E(X 2 ) − E(X)2 . Da bereits gezeigt wurde, dass
E(X) = 0, gilt dann gerade Var(X) = E(X 2 ). Der Erwartungswert E(X 2 ) kann mit
partieller Integration berechnet werden:
Z
2
E(X ) =
x2 ϕ0,1 (X) dx
R
Z
−x2
1
x · xe 2 dx
= √
2π R
Z
i+∞
−x2
−x2
1 h
1
1 · e 2 dx
−xe 2
+√
= √
−∞
2π R
2π
Z
= 0 + ϕ0,1 (X) dx = 1 .
R
Die Varianz einer Standard-normalverteilten Zufallsavarablen ist also genau 1.
Ist Y ∼ N (µ, σ 2 ), so können wir schreiben Y = σX + µ, wobei X ∼ N (0, 1). Nach
Satz 0.5.26 iii) und iv) gilt
Var(Y ) = Var(σX + µ) = σ 2 Var(X) = σ 2 .
Beispiel 0.5.30. Sei Z : Ω → R eine beliebige endliche reell-wertige Zufallsvariable
mit Wertebereich Z(Ω) = {z1 , z2 , . . . , zn } und P[Z = zi ] := n−1 für
Pnalle 1 ≤ i ≤ n.
Wir haben den Erwartungswert von Z berechnet als E(Z) = n−1 i=1 zi =: z̄. Die
Varianz ist
∞
Var(Z) = E((Z − E(Z))2 ) = E((Z − z̄)2 ) =
1X
(zi − z̄) .
n i=1
Definition 0.5.31. Seien X und Y zwei Zufallsvariablen mit E(X 2 ) < ∞, resp.
E(Y 2 ) < ∞. Dann heisst
Kov(X, Y ) := E((X − E(X))(Y − E(Y )))
die Kovarianz von X und Y . Gilt Kov(X, Y ) = 0, so heissen die beiden Zufallsvariablen unkorreliert.
Definition 0.5.32. Seien X und Y zwei Zufallsvariablen mit E(X 2 ) < ∞, resp.
E(Y 2 ) < ∞ und Var(X) > 0, Var(Y ) > 0, so heisst die Zahl
Korr(X, Y ) :=
Kov(X, Y )
SA(X) SA(Y )
die Korrelation X und Y .
Satz 0.5.33 (Eigenschaften der Kovarianz und Korrelation). Seien X, Y
und Xi , 1 ≤ i ≤ n, Zufallsvariablen deren Quadrate endiche Erwartungswerte haben. Seien c, d ∈ R Konstanten. Dann gilt:
i) Kov(X, X) = Var(X)
ii) Kov(X, Y ) = E(XY ) − E(X)E(Y )
iii) Die Kovarianz ist skalenabhängig: Kov(cX, cY ) = cd Kov(X, Y )
Pn
Pn
P
iv) Var( i=1 Xi ) = i=1 Var(Xi ) + 2 j<k Kov(Xj , Xk )
v) Sind X und Y unabhängig, so auch unkorreliert.
37
Gilt zudem Var(X) > 0 und Var(Y ) > 0, so ist die Korrelation von X und Y
wohldefiniert und es folgt:
vi) | Korr(X, Y )| ≤ 1
vii) Die Korrelation kann als Mass für die lineare Abhängigkeit zweier Zufallsvariablen verstanden werden: Korr(X, Y ) = 1 gilt genau dann, wenn es ein a > 0
und ein b ∈ R gibt, so dass P-fast sicher Y = aX + b gilt; Korr(X, Y ) = −1
genau dann, wenn es ein a < 0 und ein b ∈ R gibt, so dass P-fast sicher
Y = aX + b gilt.
viii) Die Korrelation ist skalenunabhängig: Korr(cX, dY ) = Korr(X, Y )
Beweis: Alle Aussagen ergeben sich aus den Eigenschaften des Erwartungswerts,
also insbesondere den Aussagen von Satz 0.5.11. Für Punkt vi) und vii) wird zudem
die Cauchy-Schwarz-Ungleichung und die an deren Beweis anschliessende Bemerkung 0.5.19 benötigt.
2
Wir sehen aus Aussage ii) von Satz 0.5.33, dass die Zufallsvariablen X und Y
genau dann unkorreliert sind, wenn E(XY ) = E(X)E(Y ) gilt. Nach Satz 0.5.11 sind
also unabhängige Zufallsvariablen auch unkorreliert, sofern die Korrelation definiert
werden kann. Die Unkehrung gilt nicht, wie Beispiel 0.5.13 zeigt.
Satz 0.5.34 (Bienaymé). Seien Xi , 1 ≤ i ≤ n Zufallsvariablen, deren Quadrate
endliche Varianzen haben. Sind die Zufallvariablen paarweise unkorreliert, so gilt
Var
X n
i=1
n
X
Xi =
Var(Xi ) .
i=1
Beweis: Die Aussage folgt direkt aus Satz 0.5.33 iv) und Definition 0.5.31.
0.6
2
Die Bienaymé-Chebyshev-Ungleichung
und Anwendungen
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Satz 0.6.1 (Markov-Ungleichung). Sei X : Ω → R+ eine nicht-negative
Zufallsvariable mit existierendem Erwartungswert und c > 0 eine Konstante. Dann
gilt die Ungleichung
E(X)
.
P[X ≥ c] ≤
c
Beweis: Wir betrachten die Zerlegung 1 = I[X ≥ c] + I[X < c]. Damit folgt
X = X I[X ≥ c] + X I[X < c] ≥ X I[X ≥ c] ≥ c I[X ≥ c] ,
und für den Erwartungswert von X schliesslich
E(X) ≥ E(c I[X ≥ c]) = c E(I[X ≥ c]) = c P[X ≥ c] ,
also die Behauptung.
2
Es ist zu bemerken, dass nicht immer nützliche Informationen aus der MarkovUngleichung gewonnen werden können, so zum Beispiel falls E(X) = ∞ oder c <
E(X) gilt. Denn in beiden Fällen ist die rechte Seite der Ungleichung stets grösser
als 1.
38
Satz 0.6.2 (Bienaymé-Chebyshev-Ungleichung). Sei Y : Ω → R eine Zufallsvariable mit E(Y 2 ) < ∞ und d > 0 eine Konstante. Dann gilt die Ungleichung
Var(Y )
.
d2
P[|Y − E(Y )| ≥ d] ≤
Beweis: Wegen E(Y 2 ) < ∞ existiert der Erwartungswert von Y und ist insbesondere endlich. Wir wenden die Markov-Ungleichung auf X := (Y − E(Y ))2 und
c := d2 an und erhalten so
P[|Y − E(Y )| ≥ d] = P[(Y − E(Y ))2 ≥ d2 ] = P[X ≥ c] ≤ c−1 E(X) = d−2 Var(Y ) .
2
Die Bienaymé-Chebyshev-Ungleichung ist offenbar nur dann nützlich, wenn wir d >
SA(Y ) wählen, da andernfalls die rechte Seite der Ungleichung grösser als 1 ist.
Bemerkung 0.6.3. Setzen wir im vorhergehenden Satz d := k SA(Y ) für ein k ∈
N, so erhalten wir die praktische Abschätzung
P[|Y − E(Y )| ≥ k SA(Y )] ≤
Var(Y )
1
= 2 .
k 2 SA(Y )2
k
Offenbar erhält man erst für k ≥ 2 nützliche Information.
Als Anwendungen der Bienaymé-Chebyshev-Ungleichung beweisen wir
1. Aussagen über die schwache Konsistenz des Stichprobenmittelwerts und der
Stichprobenvarianz, die insbesondere in der Satistik Verwendung finden und
in Kapitel 1 noch wesentlich verschärft werden,
2. den Approximationssatz von Weierstrass aus der Analysis, demzufolge stetige
Funktionen auf kompakten Intervallen gleichmässig durch Polynome approximierbar sind,
3. und den Satz von Hardy und Ramanujan aus der Zahlentheorie, über die
Verteilung der Anzahl Primteiler natürlicher Zahlen.
Erste Anwendung: Schwache Konsistenz des Stichprobenmittelwerts und der Stichprobenvarianz
Definition 0.6.4. Sei (Xi )i≥1 eine Folge von reellwertigen Zufallsvariablen auf
Ω. Sei X : Ω → R eine weitere Zufallsvariable. Die Folge (Xi )i≥1 konvergiere in
Wahrscheinlichkeit gegen X, wenn für alle ε > 0 gilt:
lim P[|Xn − X| ≥ ε] = 0 .
n→∞
Satz 0.6.5. Sei (Xi )i≥1 eine Folge paarweise unkorrelierter, reeller Zufallsvariablen
mit beschränkten Varianzen Var(Xi ) ≤ A, für ein A > 0. Dann gilt für alle ε > 0:
h
i
Xn
lim P n−1
(Xi − E(Xi )) ≥ ε = 0 .
n→∞
i=1
Beweis: Mit der Bienaymé-Chebyshev-Ungleichung erhält man
h
i
h
i
Xn
Xn
Xn
P n−1
(Xi − E(Xi )) ≥ ε = P n−1
Xi − E n−1
Xi ≥ ε
i=1
i=1
i=1Xn
−2
−1
≤ ε Var n
Xi
i=1
= ε−2 n−2
n
X
i=1
39
Var(Xi ) ≤ ε−2 n−1 A .
Der letzte Ausdruck strebt mit n → ∞ gegen 0 und somit folgt die Behauptung. 2
Definition 0.6.6. Seien Xi : Ω → R, 1 ≤ i ≤ n, unabhängige, identisch verteilte
Zufallsvariablen. Eine Realisierung (x1 , . . . , xn ) := (X1 (ω), . . . , Xn (ω)) ∈ Rn heisst
eine Stichprobe vom Umfang n. Die Zahl
n
µ̂ := x̄(n) :=
1X
xi
n i=1
wird der Stichprobenmittelwert genannt. Der Wert
n
σ̂ 2 :=
2
1 X
xi − x̄(n)
n i=1
Pn
heisst Stichprobenvarianz.
Die entsprechenden Zufallsvariablen X̄ (n) := n−1 i=1 Xi
P
n
und n−1 i=1 (Xi − X̄ (n) )2 ) werden ebenfalls als Stichprobenmittelwert, beziehungsweise Stichprobenvarianz bezeichnet.
Definition 0.6.7. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller
Zufallsvariablen.
Pn
Sei E(|X1 |) < ∞. Der Stichprobenmittelwert
n−1 i=1 Xi heisst schwach konsistent
P
n
für den Erwartungswert E(X1 ), wenn n−1 i=1 Xi mit n → ∞ in Wahrscheinlichkeit gegen E(X1 ) konvergiert.
Sei nun sogar E(X12 ) < ∞. Entsprechend
Pn nennt man die Stichprobenvarianz schwach
konsistent für die Varianz, wenn n−1 i=1 (Xi − X̄ (n) )2 mit n → ∞ in Wahrscheinlichkeit gegen Var(X1 ) konvergiert.
Der folgende Satz gibt eine hinreichende Bedingung an die schwache Konsistenz
des Stichprobenmittelwertes. Der Satz wird manchmal auch Schwaches Gesetz der
grossen Zahlen genannt. Das entsprechende Starke Gesetz der grossen Zahlen ist
Thema von Kapitel 1.
Satz 0.6.8. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen mit endlicher Varianz Var(X1 ). Dann gilt für alle ε > 0
h
i
lim P X̄ (n) − E(X1 ) ≥ ε = 0 .
n→∞
Der Stichprobenmittelwert ist also schwach konsistent für den Erwartungswert, falls
die Varianz endlich ist.
Beweis: Der Satz ist eine direkte Folgerung aus Satz 0.6.5, wenn A := Var(X1 )
gesetzt wird.
2
In Abschnitt 1.1 wurde die Wahrscheinlichkeit p = P[A] eines Ereignisses A anschaulich als Grenzwert der relativen Häufigkeit nA /n, mit der A bei n unabhängigen Experimenten eintritt, interpretiert. Das folgende Korollar zu Satz 0.6.8 zeigt,
dass relative Häufigkeiten, als Mittelwert von unabhängigen Indikatorvariablen geschrieben, in Wahrscheinlichkeit gegen die Wahrscheinlichkeit p konvergieren.
Korollar 0.6.9. Sei (Ai )i≥1 eine Folge unabhängiger Ereignisse mit P[Ai ] = p für
alle i ≥ 1. Dann gilt für alle ε > 0
h
i
Xn
lim P n−1
I[Ai ] − p ≥ ε = 0 .
n→∞
i=1
40
Beweis: Da die Ereignisse Ai unabhängig sind, so sind es auch die Indikatorvariablen I[Ai ]. Weiter ist E(I[A1 ]) = p. Die Behauptung folgt jetzt mit Satz 0.6.8 2
Satz 0.6.10. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen mit E(X14 ) < ∞. Dann gilt für alle ε > 0
2
Xn lim P n−1
Xi − X̄ (n) − Var(X1 ) ≥ ε = 0 .
n→∞
i=1
Unter der Voraussetzung E(X14 ) < ∞ ist die Stichprobenvarianz also schwach konsistent für die Var(X1 ).
Beweis: Im folgenden schreiben wir kurz X̄ an Stelle von X̄ (n) . Wir betrachten
n−1
n
X
(Xi − X̄)2 − Var(X1 )
i=1
= n−1
n
X
= n−1
n
X
Xi2 − E(X12 ) − X̄ 2 + E(X1 )2
= n−1
n
X
Xi2 − E(X12 ) − (X̄ − E(X1 ))2 − 2E(X1 )(X̄ − E(X1 ))
Xi2 − 2Xi X̄ + X̄ 2 − E(X12 ) + E(X1 )2
i=1
i=1
i=1
und erhalten so die Ungleichung
−1 Xn
(Xi − X̄)2 − Var(X1 )
n
i=1
Xn
≤ n−1
Xi2 − E(X12 ) + (X̄ − E(X1 ))2 + 2|E(X1 )||X̄ − E(X1 )| .
i=1
Pn
Falls für ein η > 0 die Abschätzungen |n−1 i=1 Xi2 −E(X12 )| < η und |X̄−E(X1 )| <
η gelten, so folgt nun
−1 Xn
(Xi − X̄)2 − Var(X1 ) < η + η 2 + 2η|E(X1 )| =: ε .
n
i=1
Mit der Bienaymé-Chebyshev-Ungleichung ergibt sich schliesslich
h
i
Xn
P n−1
(Xi − X̄)2 − Var(X1 ) ≥ ε
i=1
h
i
Xn
= 1 − P n−1
(Xi − X̄ (n) )2 − Var(X1 ) < ε
i=1
hn
o i
−1 Xn
≤ 1 − P n
Xi2 − E(X12 ) < η ∩ |X̄ − E(X1 )| < η
i=1
o hn
i
−1 Xn
Xi2 − E(X12 ) ≥ η ∪ |X̄ − E(X1 )| ≥ η
= P n
i=1
i
h
−1 Xn
Xi2 − E(X12 ) ≥ η + P |X̄ − E(X1 )| ≥ η
≤ P n
i=1
≤ η
−2 −1
n
Var(X12 ) + η −2 n−1 Var(X1 ) .
Hierbei wurde verwendet, dass mit E(X14 ) < ∞ auch die Varianzen Var(X1 ) und
Var(X12 ) endlich sind. Der letzte Ausdruck strebt mit n → ∞ gegen 0. Da für ein
vorgegebenes ε > 0 stets ein η > 0 mit η + η 2 + 2η|E(X1 )| = ε gefunden werden
kann, ist der Satz somit bewiesen.
2
41
Zweite Anwendung: Der Approximationssatz von Weierstrass
Wir beweisen zunächst den Satz von Bernstein, aus dem dann der Approximationssatz folgt.
Satz 0.6.11 (Bernstein). Sei f : [0, 1] → R eine stetige Funktion. Für δ > 0 sei
Φ(δ) :=
|f (x) − f (y)| .
sup
|x−y|<δ
Dann existiert für jedes n ∈ N ein Polynom f (n) vom Grad n, so dass
kf k
sup |f (n) (x) − f (x)| ≤ inf Φ(δ) +
δ>0
2nδ 2
0≤x≤1
gilt. Dabei kann für f (n) das Bernstein-Polynom
n X
n i
(n)
f (x) :=
x (1 − x)n−i f n−1 i
i
i=1
(0.6.1)
gewählt werden.
Beweis: Sei x ∈ [0, 1] fest gewählt. Seien für alle n ∈ N Sn ∼ Bi(n, x) binomialverteilte Zufallsvariablen auf einer geeigneten Menge Ω.
Wegen Beispiel 0.5.14 gilt E(Sn ) = nx, und damit
f (n−1 E(Sn )) = f (x) .
Zudem ist
E(f (n
−1
Sn )) =
n
X
i=1
f n
−1
n i
i
x (1 − x)n−i =: f (n) (x)
i
genau das Bernstein-Polynom vom Grad n an der Stelle x.
Ist δ > 0 gegeben, und wird mit kf k die Supremumsnorm von f bezeichnet, erhält
man mit der Bienaymé-Chebyshev-Ungleichung die folgende Abschätzung:
|f (n) (x) − f (x)| = E f n−1 Sn − f n−1 E(Sn ) = E f n−1 Sn − f n−1 E(Sn ) ≤ E f n−1 Sn − f n−1 E(Sn ) = E f n−1 Sn − f n−1 E(Sn ) · I n−1 Sn − n−1 E(Sn ) < δ
+ E f n−1 Sn − f n−1 E(Sn ) · I n−1 Sn − n−1 E(Sn ) ≥ δ
≤ Φ(δ) · E I n−1 Sn − n−1 E(Sn ) < δ
+ 2kf k · E I n−1 Sn − n−1 E(Sn ) ≥ δ
= Φ(δ) · P n−1 Sn − n−1 E(Sn ) < δ
+ 2kf k · P n−1 Sn − n−1 E(Sn ) ≥ δ
≤ Φ(δ) · 1 + 2kf k δ −2 Var n−1 Sn
=
Φ(δ) + 2kf k n−1 δ −2 x(1 − x)
≤ Φ(δ) + 2kf k n−1 δ −2 4−1 = Φ(δ) + 2−1 n−1 δ −2 kf k .
Da diese Abschätzung für jedes δ > 0 gilt, und x ∈ [0, 1] beliebig gewählt wurde,
folgt die Behauptung.
2
42
Satz 0.6.12 (Approximationssatz von Weierstrass). Sei [a, b] ⊂ R ein Intervall und g : [a, b] → R eine stetige Funktion. Dann gibt es eine Folge von Polynomen
(gn )n≥1 , die auf [a, b] gleichmässig gegen die Funktion g konvergiert.
Beweis: Wir haben nachzuweisen, dass für jedes ε > 0 ein N existiert, so dass für
alle n > N und alle y ∈ [a, b] gilt: |gn (y) − g(y)| < ε.
Sei also ein ε > 0 vorgegeben. Im Fall a = b ist nichts zu zeigen, wir nehmen also
a < b an. Das Problem wird auf das Intervall [0, 1] zurückgeführt und dann der Satz
von Bernstein angewendet. Dazu betrachten wir die durch x 7→ y := (b − a)x + a
definierte Bijektion [0, 1] → [a, b]. Wir definieren für alle x ∈ [0, 1]
f (x) := g (x(b − a) + a) = g(y) .
Wegen der Stetigkeit von g auf [a, b] ist f stetig auf [0, 1]. Weiter definieren wir für
jedes y ∈ [a, b]
gn (y) := f (n) (b − a)−1 (y − a) = f (n) (x) ,
wobei f (n) das n-te Bernstein-Polynom ist. Daher ist auch gn ein Polynom. Ferner
gilt |f (n) (x) − f (x)| < ε für alle x ∈ [0, 1] genau dann, wenn für alle y ∈ [a, b]
|gn (y) − g(y)| < ε gilt.
Da f auf [0, 1] gleichmässig stetig ist, finden wir ein δ > 0, so dass |f (x1 ) − f (x2 )| <
ε/2 für alle x1 , x2 in [0, 1] mit |x1 − x2 | < δ. Damit gilt Φ(δ) ≤ ε/2, und aus dem
Satz von Bernstein folgt für alle x ∈ [0, 1]
|f (n) (x) − f (x)| ≤ Φ(δ) +
ε
kf k
kf k
≤ +
2
2nδ
2 2nδ 2
Setzen wir N := ε−1 δ −2 kf k + 1 , so ist
kf k
ε
<
2
2nδ
2
für alle n > N , und die Behauptung damit bewiesen.
2
Dritte Anwendung: Der Satz von Hardy-Ramanujan
Zuletzt wird noch eine Anwendung aus der Zahlentheorie, beweisen. Dort wird üblicherweise mit ω : N → N die Funktion bezeichnet, die jedem n die Anzahl der
Primteiler, ohne Vielfachheiten gezählt, zuordnet. So ist beispielsweise ω(45) = 2
oder ω(1024) = 1.
Weiter betrachten wir die Funktion γ : N → (0, ∞), definiert durch
γ(n) :=
X
p≤n, p prim
1
.
p
Es kann gezeigt werden, dass limn→∞ γ(n) = ∞. Weiter lässt sich beweisen, dass
lim
n→∞
γ(n)
=1.
ln ln n
(0.6.2)
Satz 0.6.13 (Hardy-Ramanujan). Sei ψ : (0, ∞) → (0, ∞) eine Funktion mit
limx→∞ ψ(x) = ∞. Dann gilt:
p
1 |ω(i) − γ(n)| ≤ γ(n)ψ(n) = 1 .
lim
i
≤
n
n→∞ n
43
Beweis: Sein n ∈ N fest gewählt. Betrachte Ωn := {1, 2, . . . , n} und die Uniformverteilung Pn auf Ωn . Die Einschränkung der oben definierten Funktion ω : N → N
auf Ωn ⊂ N ist eine Zufallsvariable, die mit Wn bezeichnet wird. Damit erhalten
wir
n
o
p
n−1 i ≤ n |ω(i) − γ(n)| ≤ γ(n)ψ(n) =
n
X
i=1
h
i
p
Pn [{i}] · I |Wn − γ(n)| ≤ γ(n)ψ(n) (i)
h
i
p
= Pn |Wn − γ(n)| ≤ γ(n)ψ(n)
Wenn also gezeigt werden kann, dass
i
h
p
lim Pn |Wn − γ(n)| > γ(n)ψ(n) = 0 ,
n→∞
so ist der Satz bewiesen. Wir wollen dazu diesen Ausdruck für ein festes n mit Hilfe
der Bienaymé-Chebyshev-Ungleichung abschätzen, und müssen daher den Erwartungswert und dann die Varianz von Wn berechnen.
Für eine Zahl q ≤ n betrachten wir die Indikatorvariable I[q|·] auf Ωn , wobei
I[q|i] :=
1,
0,
wenn q Teiler von i ist
sonst
Bezeichnen wir im folgenden mit p stets eine Primzahl, so ergibt sich für den Erwartungswert von Wn :
E(Wn )
= n−1
n
X
Wn (i) = n−1
i=1
= n−1
X X n
= n
X
I[p|i]
i=1 p≤n
i=1
p≤n
−1
n X
X
p
−1
X
I[p|i] = n−1
p−1 n
n−n
p≤n
p≤n
−1
X
p≤n
p
−1
n − p−1 n
= γ(n) − εn ,
wobei
0 ≤ εn := n−1
X
p≤n
p−1 n − p−1 n < 1 .
44
Mit ähnlichen Argumenten berechnen wir den Erwartungswert von Wn2 . Dabei bezeichnen in der folgenden Rechnung p, q und r Primzahlen:
E(Wn2 )
= n−1
= n−1
= n−1
n
X
i=1
n
X
Wn (i)2 = n−1
n X
X
i=1
X
i=1 p≤n
n X
X
I[p|i]2 + n−1
= E(Wn ) + n−1
X
X
X
q −1 r−1 n − n−1
q6=r, qr≤n
= E(Wn ) + n
−1
i=1
I[qr|i]
q −1 r−1 n
q6=r, qr≤n
2
= E(Wn ) + γ(n) −
X
I[q|i] I[r|i]
I[q|i] I[r|i]
i=1 q6=r, qr≤n
X n
q6=r, qr≤n
= E(Wn ) + n−1
X
i=1 q6=r, q≤n, r≤n
n
X X
I[p|i] + n−1
i=1 p≤n
p≤n
n
X
2
I[p|i]
X
q6=r, qr≤n
p≤n
p
−2
−
X
q −1 r−1 n − q −1 r−1 n
q6=r, q≤n, r≤n, qr>n
q −1 r−1 − ηn ,
wobei
0 ≤ ηn := n−1
X
q6=r, qr≤n
q −1 r−1 n − q −1 r−1 n < 2 .
Die Varianz von Wn kann nun abgeschätzt werden durch
Var(Wn )
=
≤
=
≤
E(Wn2 ) − E(Wn )2
E(Wn ) + γ(n)2 − ηn − E(Wn )2
γ(n) − εn + γ(n)2 − ηn − (γ(n) − εn )2
γ(n) + 2γ(n)εn < 3γ(n) .
Wegen |Wn − γ(n)| ≤ |Wn − E(Wn )| + εn < |Wn − E(Wn )| + 1 folgt jetzt mit der
Bienaymé-Chebyshev-Ungleichung
h
i
h
i
p
p
Pn |Wn − γ(n)| > γ(n)ψ(n) ≤ Pn |Wn − E(Wn )| > γ(n)ψ(n) − 1
p
−2
≤ Var(Wn )
γ(n)ψ(n) − 1
p
< 3(ψ(n) − 1/ γ(n))−2 ,
und dieser Ausdruck strebt mit n → ∞ gegen 0.
2
Wir betrachten den Fall ψ(x) := ln ln x. Wegen Gleichung (0.6.2) folgt aus dem
Satz, dass wenn für grosses n ∈ N eine Zahl i ∈ {1, 2, . . . , n} uniform ausgewählt
wird, mit hoher Wahrscheinlichkeit die Anzahl ihrer paarweise verschiedenen Primteiler kleiner als 2 ln ln n ist.
Betrachten wir den Fall n = 100. Dann ist 2 ln ln n ≈ 3.054. Die Wahrscheinlichkeit,
dass eine Zahl i ≤ n 3 oder weniger paarweise verschiedene Primteiler hat, ist in
der Tat 1, da wegen 2 · 3 · 5 · 7 > 100 jede der Zahlen weniger als 4 unterschiedliche
Primteiler hat.
Ist n = 1000 000, so hat eine uniform ausgewählte Zahl i ≤ n mit hoher Wahrscheinlichkeit weniger als 2 ln ln n ≈ 4.887, also weniger als 5, unterschiedliche Primteiler.
Tatsächlich können Zahlen kleiner oder gleich 1000 000 maximal 6 paarweise verschiedene Primteiler haben.
45
0.7
Bedingter Erwartungswert
In diesem Abschnitt werden wir den bedingten Erwartungswert einer Zufallvariablen
X über einem Wahrscheinlichkeitsraum (Ω, F, P) einführen. Dabei werden drei Fälle
des bedingten Erwartungswerts betrachten:
1. den bedingten Erwartungswert von X bei gegebenem Ereignis B aus F,
2. den bedingten Erwartungswert von X bei einer gegebener diskreter Zufallsvariable Y ,
3. und den bedingten Erwartungswert von X bei beliebiger vorgegebender Zufallsvariable Y .
Dies sind drei Spezialfälle des allgemeinen Begriffs des bedingten Erwartungswerts
einer Zufallsvariablen bei gegebener σ-Unteralgebra von F. In dieser Allgemeinheit
wird der Begriff hier jedoch nicht benötigt
Definition 0.7.1. Sei X eine Zufallsvariable auf Ω mit E(|X|) < ∞. Sei B ∈ F
ein Ereignis mit P[B] > 0. Dann heisst
E(X|B) :=
E(X I[B])
P[B]
der bedingte Erwartungswert von X bei gegebenem Ereignis B.
Der bedingte Erwartungswert von X gegeben B ∈ F ist genau der Erwartungswert von X bezüglich der in Satz 0.3.2 betrachteten bedingten Wahrscheinlichkeit
PB [·] := P[B|·]:
Z
Z
1
E(X|B) =
X dP =
X dPB .
P[B] B
Ω
Wird umgekehrt für ein Ereignis A ∈ F X := I[A] gesetzt, so erhält man obiger Definition 0.7.1 gerade die Definition 0.3.1 der bedingten Wahrscheinlichkeit.
Entsprechend wir auch die Formel der totalen Wahrscheinlichkeit, Satz 0.3.3, verallgemeinert:
Satz 0.7.2 (Formel des totalen Erwartungswerts (FTE)). Sei (Bi )i≥1 eine
Folge von Ereignissen aus F, die eine Partition von Ω bildet. Sei X eine Zufallsvariable auf Ω mit E(|X|) < ∞. Dann gilt:
E(X) =
∞
X
E(X|Bi )P[Bi ] ,
i=1
wobei E(X|Bi )P[Bi ] := 0 gesetzt wird, falls P[Bi ] = 0.
Beweis: Da die Mengen Bi paarweise disjunkt sind, gilt für jedes n ∈ N
n
X
|X| I[Bi ] = |X| I
i=1
h [n
i=1
i
Bi ≤ |X| .
Weiter gilt auch
lim X I
n→∞
h [n
i=1
46
i
Bi = X .
Nach Voraussetzung ist E(|X|) < ∞, daher folgt mit dem Satz über die majorisierte
Konvergenz:
∞
X
E(XI[Bi ])
=
i=1
lim
n→∞
n Z
X
i=1
XI[Bi ] dP
Ω
Z
h [n
i
lim
XI
Bi dP
n→∞ Ω
i=1
Z
=
X dP = E(X)
=
Ω
Ist P[Bi ] = 0, so verschwindet das Integral von X bezüglich P, und damit gilt auch
E(XI[Bi ]) = 0. Insgesamt haben wir:
E(X) =
∞
X
X
E(XI[Bi ]) =
i=1
E(XI[Bi ]) =
i≥1, P[Bi ]>0
X
E(X|Bi )P[Bi ] .
i≥1, P[Bi ]>0
2
Wir definieren nun den Erwartungswert der Zufallsvariablen X, bedingt durch eine
gegebene Zufallsvariable Y : Ω → Rn .
Dazu betrachten wir zunächst den Fall, dass Y diskret ist. Sei Y (Ω) der Wertebereich
von Y , in dem Sinne, dass P[Y = y] > 0 für jedes y ∈ Y (Ω) gelte. Der bedingte
Erwartungswert E(X|Y = y) von X bei gegebenem Ereignis {Y = y} ∈ F ist
gemäss Definition 0.7.1 bestimmt. Durch
E(X|Y = ·)(y) := E(X|Y = y) :=
E(XI[Y = y])
,
P[Y = y]
für alle y ∈ Y (Ω), wird daher eine eindeutig bestimmte messbare Abbildung
E(X|Y = ·) : Y (Ω) → R
definiert. Weiter ist durch
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) ,
für ω ∈ Ω, eine Abbildung auf Ω gegeben. Diese ist als Komposition zweier messbarer
Abbildungen messbar. Fassen wir diese Konstruktion in einer Definition zusammen:
Definition 0.7.3. Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞ und Y :
Ω → Rn eine diskrete Zufallsvariable. Der bedingte Erwartungswert von X bei
gegebener Zufallsvariablen Y ist die eindeutig bestimmte Zufallsvariable
E(X|Y ) : Ω → R ,
definiert durch
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) .
Ist Y (Ω) = {y1 , y2 , . . .} eine Aufzählung des Wertebereichs von Y , so erhalten wir
aus Satz 0.7.2 die Formel des totalen Erwartungswerts sofort in der speziellen Form
E(X) =
∞
X
E(X|Y = yi )P[Y = yi ] .
i=1
47
(0.7.1)
Formt man die rechte Seite von (0.7.1) noch weiter um, erhält man
X
E(X) =
(E(X|Y = ·) ◦ Y ) (ω)P[{ω}]
ω∈Ω
X
=
E(X|Y )(ω)P[{ω}]
ω∈Ω
= E(E(X|Y )) .
Wir betrachten jetz den Fall, dass Y : Ω → Rn eine beliebige Zufallsvariable ist. Hier
können wir den Begriff des bedingten Erwartungswerts nicht mehr wie im diskreten
Fall auf Definition 0.7.1 zurückführen, da, wenn beispielsweise die Verteilung von
Y durch eine Dichte gegeben ist, für jedes y ∈ Y (Ω) P[Y = y] = 0 gelten kann.
Bemerkung 0.7.4. Sei Y : Ω → Rn eine Zufallsvariable. Es kann bewiesen werden,
dass eine messbare, PY -integrierbare Funktion g : Rn → R mit
Z
Z
g dPY =
X dP
(0.7.2)
B
Y −1 (B)
für alle B ∈ B(Rn ) existiert. Die Funktion g ist durch diese Bedingung PY -fast
sicher eindeutig bestimmt.
Die Abbildung g ◦ Y : Ω → R ist dann eine P-fast sicher eindeutig bestimmte
Zufallsvariable. Sei N ⊂ Y (Ω) ⊂ Rn eine PY -Nullmenge, so dass g auf Y (Ω)\N
eindeutig bestimmt ist. In Analogie zum diskreten Fall setzen wir
E(X|Y = ·)(y) := E(X|Y = y) := g(y) .
für alle y ∈ Y (Ω)\N und
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y )(ω)
(0.7.3)
für alle ω ∈ Ω\Y −1 (N ). Diese Abbildung kann auf der Nullmenge Y −1 (N ) beliebig
fortgesetzt werden. Auf diese Weise wird eine P-fast sicher eindeutige Zufallsvariable
E(X|Y ) : Ω → R
bestimmt. Man definiert jetzt:
Definition 0.7.5. Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞ und
Y : Ω → Rn beliebige Zufallsvariable. Der bedingte Erwartungswert von X bei
gegebener Zufallsvariablen Y ist die P-fast sicher eindeutig bestimmte Zufallsvariable
E(X|Y ) : Ω → R ,
definiert durch
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) .
Die linke Seite der Gleichung (0.7.2), die g und damit E(X|Y ) fast sicher eindeutig
bestimmt, kann nun mit Hilfe des Transformationssatzes der Masstheorie umformuliert werden:
Z
Z
Z
g dPY =
g ◦ Y dP =
E(X|Y ) dP = E(E(X|Y )I[Y ∈ B]) ,
B
Y −1 (B)
Y −1 (B)
und Gleichung (0.7.2) kann daher in einer äquivalenten Form geschrieben werden
als
E(E(X|Y )I[Y ∈ B]) = E(XI[Y ∈ B]) .
(0.7.4)
48
Mit B := R folgt dann sofort
E(E(X|Y )) = E(X) .
(0.7.5)
Ist Y : Ω → R durch eine Dichte fY definiert, so erhält man stetiges Analogon zu
(0.7.1), denn (0.7.2) lässt sich mit B := R transformieren zu
Z +∞
Z
Z
E(X|Y = y)fY (y) dy =
g dPY =
X dP = E(X) .
−∞
R
Ω
Ist Z : Ω → Rm eine weitere Zufallsvariable, so definieren wir den bedingten Erwartungswert von X gegeben Y und Z durch
E(X|Y, Z) := E(X|(Y, Z)) .
wobei (Y, Z) : Ω → Rm+n . Es gilt hier P-fast sicher
E(X|(Y, Z)) = E(X|(Z, Y )) .
(0.7.6)
Dies folgt aus Bemerkung 0.7.4 mit folgender Überlegung:
Bezeichnen wir mit σ(M ) ⊂ F die kleinste σ-Algebra in F die eine Menge M ⊂ F
enthält, und für eine Zufallvariable Y
σ(Y ) := σ({Y −1 (B)|B ∈ B(Rn )}) .
so kann man zeigen, dass
σ((Y, Z)) = σ(σ(Y ) ∪ σ(X)) = σ(σ(Z) ∪ σ(Y )) = σ((Z, Y ))
gilt Mit dieser Eigenschaft und der, dass die Gleichung (0.7.4) für alle Borelmengen
B gilt, erhalten wir (0.7.6).
Genauso lässt sich der bedingte Erwartungswert von X gegeben Zufallsvariablen
Y1 , . . . , Yk durch
E(X|Y1 , . . . , Yk ) := E(X|(Y1 , . . . , Yk ))
definieren.
Da die bedingten Erwartungswerte nur P-fast sicher eindeutig bestimmt sind, gelten
Gleichungen, wie sie im nächsten Satz auftauchen ebenfalls nur P-fast sicher. Dies
wird im folgenden jedoch nicht mehr immer explizit erwähnt.
Satz 0.7.6 (Eigenschaften des bedingten Erwartungswerts). Seien X : Ω →
R und Y : Ω → Rn Zufallsvariablen, wobei E(|X|) < ∞.
i) Gibt es eine messbare Funktion f : Rn → R mit X = f (Y ), so gilt E(f (X|Y )) =
X. Insbesondere ist E(X|X) = X.
ii) Sind X und Y unabhängig, so ist E(X|Y ) = E(X).
iii) Ist g : Rn → R eine messbare beschränkte Funktion, so gilt E(g(Y )E(X|Y )) =
E(g(Y )X).
iv) Ist h : Rn → R eine messbare Funktion und gilt E(|h(Y )X|) < ∞, so ist
E(h(Y )X|Y ) = h(Y )E(X|Y ).
v) Ist Z : Ω → Rm eine weitere Zufallsvariable so haben wir E(X|Y ) = E(E(X|Y, Z)|Y ).
vi) Ist c ∈ R konstant und W : Ω → R eine Zufallsvariable mit E(|W |) < ∞, so
folgt E(X + cW |Y ) = E(X|Y ) + c E(W |Y ).
Beweis: FOLGT NOCH...
2
49
Martingale und die Ungleichung von Lévy-Kolmogorov
Definition 0.7.7. Sei (Xi )i≥0 eine Folge reell-wertiger Zufallsvariablen auf Ω mit
E(|Xi |) < ∞ für alle i ≥ 0. Die Folge (Xi )i≥0 heisst ein Martingal, wenn für jedes
i ≥ 0 gilt:
E(Xi+1 |X0 , X1 , . . . , Xi ) = Xi .
Sei (Yj )j≥0 eine Folge beliebiger Zufallsvariablen. Die Folge (Xi )i≥0 heisst ein Martingal bezüglich (Yj )j≥0 , wenn
E(Xi+1 |Y0 , X1 , . . . , Yi ) = Xi .
für alle i ≥ 0 gilt.
Seien dieselben Voraussetzungen wie in Definition 0.7.7 gegeben. Dann gilt für jedes
i ≥ 0 und alle j ≤ i die Gleichung
E(Xj |X0 , X1 , . . . , Xi ) = Xj ,
denn die Projektion hj : Ri → R auf die j-te Koordinate von Ri ist messbar und es
gilt Xj = h(X0 , X1 , . . . , Xi ). Die Behauptung ergibt sich jetzt mit Satz 0.7.6 i).
Die Folge (Xi )i≥0 ist wegen der Linearität des bedingten Erwartungswerts also
genau dann ein Martingal, wenn
E(Xi+1 − Xi |X0 , X1 , . . . , Xi ) = 0
gilt.
Lemma 0.7.8. Ist (Xi )i≥0 ein Martingal, so gilt P-fast sicher
E(Xi+k |X0 , X1 , . . . , Xi ) = Xi
für alle i ≥ 0 und k ≥ 1.
Beweis: Sei i ≥ 0 beliebig aber fest gewählt.
Der Fall k = 1 entspricht genau der Definition eines Martingals. Die Behauptung
sei nun für ein k ≥ 1 erfüllt. Dann gilt sie auch für k + 1, denn
E(Xi+k+1 |X0 , X1 , . . . , Xi )
= E(E(Xi+k+1 |(X0 , X1 , . . . , Xi ), (Xi+1 , . . . , Xi+k ))|X0 , X1 , . . . , Xi )
= E(Xi+k |X0 , X1 , . . . , Xi ) = Xi .
Dabei gilt die erste Gleichheit wegen Satz 0.7.6 v), die zweite Gleichheit da (Xi )i≥0
ein Martingal ist, und die dritte Gleichheit ist die Induktionsvoraussetzung.
2
Beispiel 0.7.9. Sei (Xi )i≥0 eine Folge unabhängiger Zufallsvariablen auf Ω mit
E(Xi ) = 0 für alle i ≥ 0. Dann ist die Summenfolge (Sn )n≥0 ein Martingal, denn
wir haben wegen Satz 0.7.6 vi), i) und ii)
E(Sn+1 |S0 , . . . , Sn )
= E(Sn |S0 , . . . , Sn ) + E(Xn+1 |S0 , . . . , Sn )
= Sn + E(Xn+1 ) = Sn .
Die Folge (Sn )n≥0 ist auch ein Martingal in Bezug auf (Xi )i≥0 , denn mit denselben
Argumenten wie bei der oberen Rechnung folgt
E(Sn+1 |X0 , . . . , Xn )
= E(Sn |X0 , . . . , Xn ) + E(Xn+1 |X0 , . . . , Xn )
= Sn + E(Xn+1 ) = Sn .
Zufallsvariablen Xi : Ω → {−1, 1} mit P[X = 1] = P[X = −1] = 1/2 oder Zufallsvariablen Xi ∼ N (0, σ 2 ) erfüllen die gewünschten Bedingungen besipielsweise.
50
Satz 0.7.10 (Ungleichung von Lévy-Kolmogorov). Sei (Xi )i≥0 ein Martingal,
mit Var(Xi ) < ∞ für alle i ≥ 0. Sei weiter P[X0 = 0] = 1. Sei a > 0 fest gegeben.
Dann gilt für alle n ∈ N:
P [max1≤i≤n |Xi | ≥ a] ≤
Var(Xn )
.
a2
Beweis: Wir bemerken zunächst, dass E(Xi ) = 0 für alle i ≥ 0 gilt. Mit Lemma
0.7.8 folgt nämlich E(Xk |X0 ) = X0 für alle k ≥ 0, und nach Voraussetzung ist
E(X0 ) = 0, also insgesamt mit (0.7.5)
E(Xk ) = E(E(Xk |X0 )) = E(X0 ) = 0 .
Wir betrachten nun weiter für j ≥ 0 das Ereignis
Aj := {ω ∈ Ω | |Xi (ω)| ≤ a für 0 ≤ i < j und |Xj (ω)| > a}
in F. Dies ist das Ereignis, dass das Martingal (Xi )i≥0 das Intervall (−a, a) zum
ersten Mal beim Zeitpunkt j verlässt.
Sei n ∈ N fest gegeben,
j ≤ n. Die Ereignisse A1 , . . . , An sind paarweise
Sn und sei 1S≤
n
disjunkt und es gilt i=1 Ai = i=1 {|Xi | ≥ a}. Für ein beliebiges j mit 1 ≤ j ≤ n
schätzen wir nun ab:
E(Xn2 I[Aj ])
= E((Xj + (Xn − Xj ))2 I[Aj ])
= E(Xj2 I[Aj ]) + 2 E(Xj I[Aj ](Xn − Xj )) + E((Xn − Xj )2 I[Aj ])
≥ a2 E(I[Aj ]) + 2 E(Xj I[Aj ](Xn − Xj ))
= a2 P[Aj ] + 2E(Xj I[Aj ](Xn − Xj )) .
Wenn gezeigt werden kann, dass
E(Xj I[Aj ](Xn − Xj )) = 0
(0.7.7)
gilt, so erhalten wir E(Xn2 I[Aj ]) ≥ a2 P[Aj ]. Durch Summation über alle 1 ≤ j ≤ n
erhält man dann weiter
h [n
i
a2 P [max1≤j≤n |Xj | ≥ a] ≤ a2 P
{|Xj | ≥ a}
j=1
≤ a2 P
≤
n
X
h [n
j=1
n
i
X
Aj = a2
P[Aj ]
j=1
E(Xn2 I[Aj ]) = E Xn2 I
j=1
h [n
j=1
Aj
i
≤ E(Xn2 ) = E(Xn2 ) − E(Xn )2 = Var(Xn ) ,
und damit die Behauptung. Es bleibt daher Gleichung (0.7.7) zu überprüfen:
E(Xj I[Aj ](Xn − Xj ))
=
=
=
=
E(E(Xj I[Aj ](Xn − Xj )|X0 , . . . , Xj ))
E(Xj I[Aj ]E(Xn − Xj |X0 , . . . , Xj ))
E(Xj I[Aj ](E(Xn |X0 , . . . , Xj ) − E(Xj |X0 , . . . , Xj ))
E(Xj I[Aj ](Xj − Xj )) = 0 .
Dabei wurde im dritten Schritt Satz 0.7.6 iv) verwendet, zusammen mit der Eigenschaft, dass Xj I[Aj ] = h(X0 , . . . , Xj ) für eine messbare Funktion h : Rj → R. 2
51
Bemerkung 0.7.11. Unter den Voraussetzungen der Lévy-Kolmogorov-Ungleichung
erhält man auch die Bienaymé-Chebyshev-Ungleichung:
Im obigen Beweis wurde gezeigt, dass E(Xn ) = 0 für alle n ≥ 0 gilt, und so erhält
man
P[|Xn − E(Xn )| ≥ a] ≤ P [max1≤i≤n |Xi − E(Xi )| ≥ a]
= P [max1≤i≤n |Xi | ≥ a] ≤ a−2 Var(Xn ) .
52