Grundbegriffe der Wahrscheinlichkeit

Werbung
Kapitel 0
Grundbegriffe der
Wahrscheinlichkeit
0.1
Der Wahrscheinlichkeitsraum
Definition 0.1.1. Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, F, P), wobei Ω
eine nichtleere Menge, F eine σ-Algebra von Teilmengen von Ω, und P : F → R
eine Abbildung ist, die folgende drei Eigenschaften erfüllt:
Axiom I: Für alle A ∈ F sei 0 ≤ P[A] ≤ 1.
Axiom II: Es gelte P[Ω] = 1.
Axiom III: Für eine Folge (An )n∈N von paarweise disjunkten Elementen aus F
gelte
∞
h [∞
i X
P
An =
P[An ] .
n=1
n=1
Diese Eigenschaft von P heisst σ-Additivität.
Ist die Menge Ω endlich, so sprechen wir von einem endlichen Wahrscheinlichkeitsraum, ist Ω endlich oder abzählbar unendlich, so nennen wir (Ω, F, P) einen
diskreten Wahrscheinlichkeitsraum.
Ein Element A ∈ F heisst ein Ereignis. Ist {ω} ∈ F für ω ∈ Ω, so wird {ω} ein
Elementarereignis genannt. Die Abbildung P heisst Wahrscheinlichkeit oder Wahrscheinlichkeitsmass. Für ein Ereignis A wird der Wert P[A] als Wahrscheinlichkeit
des Ereignisses A bezeichnet.
Aus den Axiomen I bis III können wir erste Eigenschaften der Wahrscheinlichkeit
P folgern:
1. Mit Axiom II und Axiom III folgt, indem wir für alle n ∈ N An := ∅ setzen,
P[∅] = 0 .
(0.1.1)
2. Ist m ∈ N fest gewählt, und setzen wir in Axiom III An := ∅ für alle n > m,
so erhalten wir wegen (0.1.1) die Gleichung
P
h [m
n=1
m
i X
An =
P[An ]
n=1
für paarweise disjunkte Ereignisse. Wir nennen diese Eigenschaft die Additivität von P oder bezeichnen sie als Axiom IIIendl.
1
3. Als speziellen Fall der Additivität, mit A1 := A und A2 := Ac , erhält man
P[Ac ] = P[Ω\A] = 1 − P[A] .
4. Sind A und B Ereignisse mit A ⊂ B, so folgt aus der Additivität und Axiom
I die Ungleichung
P[A] ≤ P[B] .
(0.1.2)
5. Sei (Bn )n∈N eine Folge von beliebigen Ereignissen aus F. Die σ-Additivität
impiziert mit (0.1.2) die Boolesche Ungleichung
P
h [∞
n=1
∞
i X
Bn ≤
P[Bn ] .
(0.1.3)
n=1
Entsprechend gilt für eine endliche Folge (Bn )1≤n≤m die Ungleichung
P
h [m
n=1
m
i X
Bn ≤
P[Bn ] .
n=1
Wahrscheinlichkeit und relative Häufigkeit
Wir können uns fragen, welche Vorstellung hinter der Definition 0.1.1, beziehungsweise hinter dem Begriff der Wahrscheinlichkeit P steht?
Nehmen wir an, es werde eine gewisse Anzahl, etwa n, Experimente durchgeführt.
Diese sollen in dem Sinne unabhängig sein, dass der Ausgang eines Experiments
keinen Einfluss auf die Resultate der folgenden Experimente hat. Die Experimente
werden auch als identisch vorausgesetzt: die Rahmenbedingungen seien jedesmal
dieselben.
Uns interessiert ein Ereignis A, das bei jedem Experiment eintreten kann oder nicht.
Sei nA ≤ n die Anzahl der Experimente, bei denen A beobachtet wurde. Wir nennen nA die absolute Häufigkeit von A.
Wird eine grosse Zahl n solcher Experimente durchgeführt, so beobachtet man, dass
sich die relative Häufigkeit nA /n einem Grenzwert nähert. Dieser entspricht intuitiv
der Wahrscheinlichkeit des Eintretens von A.
Um die Anschauung aufrechtzuerhalten, sollte also eine naive Definition der Wahrscheinlichkeit P durch
nA
P[A] := lim
n→∞ n
Definition 0.1.1 nicht widersprechen.
1. Offenbar widerspricht dies Axiom I der Definition von P nicht, denn es gilt
stets 0 ≤ nA /n ≤ 1.
2. Auch Axiom II wird erfüllt: Die Menge Ω wird aufgefasst als das Ereignis,
überhaupt ein Resultat des Experiments zu beobachten. Es ist also nΩ = n.
3. Wie steht es um das dritte Axiom? Seien A und B zwei disjunkte Ereignisse,
in dem Sinne, dass sie nie zusammen als Ergebins eines Experiments auftreten können. Die Zahl nA∪B ist also die Anzahl der Experimente, bei denen
entweder A oder B beobachtet wurde. Es gilt offenbar nA∪B = nA + nB , also
nA∪B /n = nA /n + nB /n. Eine entsprechende Aussage gilt für m > 2 paarweise disjunkter Ereignisse. Damit wird zumindest Axiom IIIendl erfüllt, also
zumindest ein Spezialfall des dritten Axioms.
Tatsächlich wird später als Konsequenz des Starken Gesetzes der Grossen Zahlen
gezeigt werden, dass relative Häufigkeiten gegen die Wahrscheinlichkeit, wie in Definition 0.1.1 eingeführt, konvergieren.
2
Fall 1: Ω endlich
Konstruktion von Wahrscheinlichkeiten im endlichen Fall
In diesem Fall können wir zeigen, dass jede Wahrscheinlichkeit P durch eine Familie
reeller Zahlen (pi )1≤i≤n mit
n
X
pi = 1
(0.1.4)
i=1
und
pi ≥ 0 für alle 1 ≤ i ≤ n
(0.1.5)
eindeutig bestimmt ist. Die Zahlen pi sind gerade die Werte von P auf den Elementarereignissen.
1. Sei Ω := {ω1 , ω2 , . . . , ωn } eine endliche, nichtleere Menge. Sei (pi )1≤i≤n eine
Ω
Familie reeller Zahlen mit
P (0.1.4) und (0.1.5). DieΩ Abbildung P : 2 → R,
definiert durch P[A] := i:ωi ∈A pi für alle A ∈ 2 , erfüllt die drei Axiome
aus Definition 0.1.1. Das heisst P ist eine Wahrscheinlichkeit auf 2Ω , und
(Ω, 2Ω , P) somit ein Wahrscheinlichkeitsraum. Insbesondere ist P[{ωi }] = pi
für 1 ≤ i ≤ n.
2. Sei Ω = {ω1 , ω2 , . . . , ωn } eine endliche, nichtleere Menge und (Ω, 2Ω , P) ein
Wahrscheinlichkeitsraum. Nach dem vorhergehenden Punkt existiert ein solcher tatsächlich. Wir setzen pi := P[{ωi }] für alle 1 ≤ i ≤ n. Die Wahrscheinlichkeit eines Ereignisses A ∈ 2Ω ist dann wegen Axiom III gegeben durch
h[
i
X
X
P[A] = P
{ωi } =
P[{ωi }] =
pi .
i:ωi ∈A
i:ωi ∈A
i:ωi ∈A
Wir sehen also, dass in jedem Wahrscheinlichkeitsraum (Ω, 2Ω , P) mit endlicher Menge Ω, die Wahrscheinlichkeit P durch ihre Werte für die Elementarereignisse
Pn eindeutig bestimmt ist. Insbesondere folgt mit Axiom II weiter,
dass i=1 pi = 1, und Axiom I impliziert pi ≥ 0 für alle 1 ≤ i ≤ n.
Wir wollen möglichst vielen Teilmengen aus Ω eine Wahrscheinlichkeit zuordnen
können, die σ-Algebra F des Wahrscheinlichkeitsraumes (Ω, F, P) also möglichst
gross wählen. Die obigen Ausführungen zeigen, dass wir, falls Ω endlich ist, immer
F := 2Ω setzen können.
Beispiele von Wahrscheinlichkeiten im endlichen Fall
Im folgenden sei unseren Überlegungen stets ein endlicher Wahrscheinlichkeitsraum
(Ω, 2Ω , P) zugrundegelegt.
Die im vorhergehenden Abschnitt beschriebene Konstruktion von P mittels einer
Familie reeller Zahlen, die (0.1.4) und (0.1.5) erfüllt, liefert wichtige Beispiele von
Wahrscheinlichkeitsräumen.
1. Uniformverteilung:
Sei Ω := {ω1 , ω2 , . . . , ωn } für P
ein n ∈ N. Wir setzen pi := 1/|Ω| = 1/n
n
für 1 ≤ i ≤ n. Offenbar gilt
i=1 pi = 1 und pi ≥ 0. Daher wird durch
P[ωi ] := 1/|Ω| eine Wahrscheinlichkeit auf 2Ω definiert. Wir nennen P die
Uniformverteilung U[Ω] auf Ω.
2. Bernoulli-Verteilung:
Sei Ω := {ω1 , ω2 }. Sei p1 := p ∈ [0, 1] und p1 := 1 − p. Nach Konstruktion gilt
trivialerweise p1 + p2 = 1 und p1 , p2 ≥ 0. Daher wird durch P[{ω1 }] := p und
P[{ω2 }] := 1 − p eine Wahrscheinlichkeit, die Bernoulli-Verteilung Be(p), auf
2Ω definiert.
3
3. Binomialverteilung:
Sei Ω := {0, . . . , n} ⊂ Z+ . Sei für 1 ≤ i ≤ n
n i
pi :=
p (1 − p)n−i ,
i
Pn
wobei p ∈ [0, 1] fest gegeben. Nach der Binomischen Formel gilt i=1 pi =
P
n
n i
n−i
= (p + (1 − p))n = 1. Offenbar ist auch pi ≥ 0, und
i=1 i p (1 − p)
somit wird mittels P[{i}] := ni pi (1 − p)n−i eine Wahrscheinlichkeit auf 2Ω
definiert, die Binomialverteilung Bi(n, p).
Für n = 1 erhalten wir die Bernoulli-Verteilung Be(p).
Betrachten wir ein paar Beispiele zu den oben konstruierten Wahrscheinlichkeiten.
Beispiel 0.1.2 (Würfelwurf ). Wir betrachten die Menge Ω := {1, 2, 3, 4, 5, 6} der
möglichen Augenzahlen eines Würfels. Ist der Würfel fair, so sollte bei einem Wurf
jede Augenzahl mit derselben Wahrscheinlichkeit auftreten. Es gilt also P[{i}] = 16
für alle i ∈ Ω. Wir erhalten also die Uniformverteilung auf Ω.
Beispiel 0.1.3 (Münzwurf ). Sei Ω := {Kopf, Zahl} die Menge der möglichen
Resultate eines Münzwurfs. Ist die Münze fair, so gilt P[{Kopf}] = P[{Zahl}] = 21 .
Wir haben also eine Bernoulli- und zugleich eine Uniformverteilung auf Ω.
Beispiel 0.1.4 (Anzahl Kopf im mehrfachen Münzwurf ). Wir versuchen die
Binomialverteilung auch auf anschauliche Weise aus der Bernoulli-Verteilung herzuleiten:
Dazu betrachten wir ein Experiment, das aus der unabhängigen n-fachen Wiederholung eines Einzelexperiments mit nur zwei möglichen Ausgängen besteht. Beispielsweise werfen wir n-mal hintereinender eine (möglicherweise unfaire) Münze.
Kopf soll dabei mit der Wahrscheinlichkeit p oben liegen, Zahl mit Wahrscheinlichkeit 1 − p. Die Ereignisse Kopf und Zahl werden also modelliert durch die Menge
Ω1 := {Kopf, Zahl}, und P1 [Kopf] := p, P1 [Zahl] := 1 − p.
Für das Gesamtexperiment, den n-fachen Münzwurf, betrachten wir Ω2 := Ωn1 =
{(ω1 , ω2 , . . . , ωn ) | ωi ∈ Ω1 , 1 ≤ i ≤ n} für n ∈ N. Bezeichnen mit n(ω) die Anzahl
Einer im n-Tupel ω ∈ Ω2 , so wird durch
P2 [{ω}] := P1 [{Kopf}]n(ω) P1 [{Zahl}]n−n(ω) = pn(ω) (1 − p)n−n(ω)
die Wahrscheinlichkeit, genau die Abfolge ω von Kopf und Zahl zu werfen, definiert. Sind wir lediglich an der Anzahl der in einem n-Tupel ω auftretenden Ereignisse Kopf interessiert, so betrachten wir die Menge Ω3 := {0, 1, 2, . . . , n}. Die
Wahrscheinlichkeit P3 in n Würfen genau i-mal Kopf zuwerfen, ist nun
X
n i
P3 [{i}] =
P2 [{ω}] =
p (1 − p)1−i .
i
ω∈Ω2 : n(w)=i
Im n-fachen Münzwurf ist die Anzahl Kopf zu werfen also Bi(n, p)-verteilt.
Fall 2: Ω abzählbar unendlich
Konstruktion von Wahrscheinlichkeiten im abzählbar unendlichen Fall
Analog zum endlichen Fall können wir hier zeigen, dass jede Wahrscheinlichkeit P
durch eine Folge reeller Zahlen (pi )i≥1 mit
∞
X
pi = 1
i=1
4
(0.1.6)
und
pi ≥ 0 für alle i ∈ N
(0.1.7)
eindeutig bestimmt ist. Die pi sind gerade die Werte von P auf den Elementarereignissen.
1. Sei Ω := {ω1 , ω2 , . . .} eine abzählbar unendliche Menge. Sei die Folge (pi )i≥1
Ω
mit (0.1.6)
P und (0.1.7) gegeben. ΩDie Abbildung P : 2 → R, definiert durch
P[A] := i:ωi ∈A pi für alle A ∈ 2 , erfüllt die Axiome I, II und III. Das heisst
P ist eine Wahrscheinlichkeit auf 2Ω , und (Ω, 2Ω , P) damit ein Wahrscheinlichkeitsraum. Speziell gilt P[{ωi }] = pi für i ≥ 1.
2. Sei nun (Ω, 2Ω , P) ein Wahrscheinlichkeitsraum (wegen der obigen Ausführungen wissen wir, dass es einen solchen Raum tatsächlich gibt). Wir setzen
pi := P[{ωi }] für alle i ≥ 1. Die Wahrscheinlichkeit eines Ereignisses A ∈ 2Ω
ist dann wegen Axiom III gegeben durch
h[
i
X
X
P[A] = P
{ωi } =
P[{ωi }] =
pi .
i:ωi ∈A
i:ωi ∈A
i:ωi ∈A
Wir sehen also, dass in jedem Wahrscheinlichkeitsraum (Ω, 2Ω , P) mit endlicher Menge Ω, die Wahrscheinlichkeit P durch ihre Werte für die Elementarereignisse
eindeutig bestimmt ist. Insbesondere folgt weiter mit Axiom II, dass
P∞
p
i=1 i = 1, und Axiom I impliziert pi ≥ 0 für alle i ≥ 1.
Wie im endlichen Fall wollen wir möglichst vielen Teilmengen aus Ω eine Wahrscheinlichkeit zuordnen können, die σ-Algebra F des Wahrscheinlichkeitsraumes
(Ω, F, P) also möglichst gross wählen. Die obigen Ausführungen zeigen, dass auch
im abzählbar unendlichen Fall stets F := 2Ω gesetzt werden kann.
Beispiele von Wahrscheinlichkeiten auf abzählbar unendlichen Mengen
Wir setzen in diesem Abschnitt einen Wahrscheinlichkeitsraum (Ω, 2Ω , P) mit abzählbar unendlicher Menge Ω voraus.
Die vorher beschriebene Konstruktion von P mittels einer Folge reeller Zahlen, die
(0.1.6) und (0.1.7) erfüllt, verwenden wir nun um wichtige Beispiele von Wahrscheinlichkeitsräumen zu konstruieren.
1. Es gibt keine Uniformverteilung im abzählbar unendlichen Fall:
Sei Ω := {ω1 , ω2 , . . .}. Wir versuchen analog zum endlichen Fall eine UniformVerteilung auf Ω zu definieren.
Sei dazu pi := p ∈ [0, 1] für alle i ∈ N.
P∞
Ist
p
=
0,
so
haben
wir
p
= 0. Ist andererseits p > 0, so gilt
i
i=1
P∞
p
=
∞.
Damit
wird
immer
Axiom II verletzt.
i
i=1
2. Geometrische Verteilung:
Erste Version: Sei Ω := N. Sei pi := (1 − p)i−1 p für i ≥ 1, wobei p ∈ (0, 1]
fest. Es gilt pi ≥ 0 und
∞
X
i=1
pi = p
∞
X
(1 − p)i−1 = p
i=1
1
=1,
1 − (1 − p)
da (pi )i≥1 eine geometrische Reihe bildet. Mittels P[{i}] := (1−p)i−1 p wird also eine Wahrscheinlichkeit auf 2N definiert, die Geometrische Verteilung Ge(p).
Zweite Version: Oft wird die Geometrische Verteilung auch auf folgende Weise
5
definiert: Sei Ω := Z+ und pi := (1 − p)i p für i ≥ 0, wobei p ∈ (0, 1] fest. Es
gilt pi ≥ 0 und
∞
X
pi = p
i=0
∞
X
(1 − p)i = p
i=0
1
=1,
1 − (1 − p)
da (pi )i≥1 eine geometrische Reihe bildet. Mittels P[{i}] := (1 − p)i p wird also
eine Wahrscheinlichkeit auf 2Z+ definiert, die Geometrische Verteilung Ge(p).
3. Negativ-Binomialverteilung:
Sei Ω := Z+ . Seien n ∈ N und p ∈ (0, 1] fest. Wir definieren für i ≥ 0
n+i−1
pi :=
(1 − p)i pn .
i
Offenbar ist stets pi ≥ 0. Darüberhinaus kann mittels vollständiger Induktion
über n gezeigt werden, dass
∞ X
n+i−1
1
(1 − p)i = n
p
i
i=0
gilt. Also wird durch P[{i}] := pi in der Tat eine Wahrscheinlichkeit auf 2Ω
definiert wird. Dies ist die Negativ-Binomialverteilung NB(n, p).
Für n = 1 erhalten wir die Geometrische Vertaeilung Ge(p) auf Z+ .
4. Multinomialverteilung:
Pd
Sei Ω := Zd+ . Seien für 1 ≤ j ≤ d Zahlen qj ≥ 0 mit j=1 qj = 1 gegeben.
Für alle d-Tupel (n1 , . . . , nd ) ∈ Zd+ setzen wir
(
Pd
0
für
j=1 nj 6= n
p(n1 ,...,nd ) :=
Q
P
n
d
d
j
n!
für
j=1 qj
j=1 nj = n
n1 !···nd !
Da offenbar p(n1 ,...,nd ) ≥ 0 für jedes solche d-Tupel gilt, und weiter
Yd
X
X
n!
nj
p(n1 ,...,nd ) =
q
j=1 j
n1 ! · · · nd !
Pd
d
(n1 ,...,nd )∈Z+
(n1 ,...,nd ):
=
j=1
nj =n
(q1 + · · · + qd )n = 1 ,
erfüllt ist, wird durch P[{(n1 , . . . , nd )}] := p(n1 ,...,nd ) eine Wahrscheinlichkeit
auf 2Ω definiert. Wir nennen sie die Multinomialverteilung MNd (n; q1 , . . . , qd ).
Pd
Wir können diese Verteilung auch auf Ω := {(n1 , . . . , nd ) ∈ Zd+ | j=1 = n},
also einer endlichen Menge, gegeben auffassen.
Im Spezialfall d = 2 ist n2 durch n und k := n1 bereits eindeutig bestimmt,
und man erhält die Binomialverteilung Bi(n, p):
X
n!
MN2 (n; p, 1 − p) [{(n1 , n2 )}] =
pn1 (1 − p)n2
n1 !n2 !
(n1 ,n2 ):n1 +n2 =n
n X
n
=
k=0
k
pk (1 − p)n−k = Bi(n, p)[{k}] .
5. Poisson-Verteilung:
Sei Ω := Z+ . Für ein festes λ > 0 setzen wir pi := e−λ λi /i! für alle i ≥ 0.
Offenbar ist pi ≥ 0. Weiter erhalten wir
∞
X
i=0
pi = e−λ
∞
X
λi
i=0
6
i!
= e−λ eλ = 1 .
Also wird durch P[{i}] := e−λ λi /i! eine Wahrscheinlichkeit auf 2Ω bestimmt.
Dies ist die Poisson-Verteilung Po(λ).
Beispiel 0.1.5 (Poissonscher Grenzwertsatz). Die Binomialverteilung lässt
sich durch die Poisson-Verteilung approximieren: Sei λ > 0 und sei (p(n))n≥1 eine
Folge von Zahlen im Intervall [0, 1] mit limn→∞ = np(n) = λ. Für n → ∞ gilt dann
n
Bi(n, p(n))[{i}] =
p(n)i (1 − p(n))n−i
i
n −i
n(n − 1) · · · (n − i + 1) ni p(n)i
np(n)
np(n)
=
1−
1−
ni
i!
n
n
λi −λ
−→
e
= Po(λ)[{i}] .
i!
Die zahlentheoretische Dichte
Im vorhergehenden Abschnitt haben wir Beispiele von Wahrscheinlichkeitsräumen
der Form (Ω, 2Ω , P) mit abzählbar unendlicher Menge Ω kennengelernt. Im Gegensatz zum endlichen Fall, kann hier Axiom IIIendl sinnvoll von Axiom III unterschieden werden. Wie wir weiter gesehen haben, rechtfertigt eine Beschreibung der
Wahrscheinlichkeit als Grenzwert relativer Häufigkeiten sicherlich Axiom IIIendl.
Es stellt sich die Frage, ob aus Axiom I, Axiom II und Axiom IIIendl nicht bereits
Axiom III folgt.
Die Antwort lautet nein, wie das Beispiel der zahlentheoretischen Dichte zeigt.
Definition 0.1.6. Sei A ⊂ N. Existiert der Grenzwert limn→∞ n−1 |A∩{1, 2, . . . , n}|,
so heisst die Zahl
1
D[A] := lim |A ∩ {1, 2, . . . , n}|
n→∞ n
die zahlentheoretische Dichte der Menge A.
Betrachten wir zunächst Beispiele von Teilmengen von N für die die zahlentheoretische Dichte D existiert.
1. Sei A ⊂ N eine endliche Menge. Dann gilt offenbar D[A] = 0.
2. Für ein n ∈ N sei An := {m ∈ N | n teilt m}. Dann lässt sich zeigen, dass
D[An ] = 1/n.
3. Sei P die Menge der Primzahlen. Der Primzahlsatz besagt, dass die Anzahl
π(n) aller Primzahlen kleiner oder gleich n konvergenzäquivalent zu n log(n)−1
ist. Daher gilt D[P ] = limn→∞ log(n)−1 = 0.
4. Betrachten wir das Beispiel einer Menge, für die die zahlentheoretische Dichte
nicht existiert. Wir setzen
∞ n
o
[
r
A :=
22r+1 + 1, 22 +1 + 2, . . . , 22(r+1) .
r=0
Für n(r) := 22r+1 gilt, wenn r → ∞:
1
|A ∩ {1, 2, . . . , n(r)}|
n(r)
=
=
−→
7
21 + 23 + · · · + 22r−3 + 22r−1
22r+1
1
1
1
1
+ 4 + 6 . . . + 2r
22
2
2
2
1
1
4
1 = 3 .
1− 4
Für n(r) := 22(r+1) gilt, wenn r → ∞:
1
|A ∩ {1, 2, . . . , n(r)}|
n(r)
=
=
−→
21 + 23 + · · · + 22r−1 + 22r+1
22(r+1)
1
1
1
1
+
+ 5 . . . + 2r+1
2 23
2
2
1
2
2
= .
3
1 − 14
Daher existiert für diese Menge A der Grenzwert nicht.
Wir untersuchen nun, ob die Axiome der Definition 0.1.1 auf die zahlentheoretische
Dichte zutreffen.
1. Ist A eine Teilmenge von N, für die D[A] definiert ist, so gilt offenbar
0 ≤ D[A] ≤ 1, das heisst Axiom I wird erfüllt.
2. Es gilt n−1 |N ∩ {1, 2, . . . , n}| = 1 für alle n ∈ N, daher gilt D[N] = 1. Mit
Ω := N ist damit Axiom II erfüllt.
3. Sind B1 und B2 disjunkte Teilmengen von N, für D definiert ist. Offenbar gilt
für jedes n ∈ N n−1 |(B1 ∪ B2 ) ∩ {1, 2, . . . , n}| = n−1 |B1 ∩ {1, 2, . . . , n}| +
n−1 |B2 ∩ {1, 2, . . . , n}|, und daher haben wir D[B1 ∪ B2 ] = D[B1 ] + D[B2 ].
Also erfüllt D Axiom IIIendl.
4. Wir betrachen nun die Folge
S∞ (Ai )i≥1 , wobei Ai := {i}.
S∞Offenbar sind die Ai
paarweise disjunkt, und i=1 Ai = N. Es gilt also D[ i=1
P∞Ai ] = 1. Da jedoch
|Ai ∩ {1, 2, . . . , n}| ∈ {0, 1}, so gilt D[Ai ] = 0, und so i=1 D[Ai ] = 0. Man
erhält also
∞
h [∞
i
X
D
Ai 6=
D[Ai ] ,
i=1
i=1
Axiom III ist also nicht erfüllt.
Bemerkung 0.1.7. Obwohl D nicht auf jeder Teilmenge von N definiert ist, so
lässt sich zeigen, dass D mittels des Satzes von Hahn-Banach zu einer Abbildung D̄ :
2N → [0, 1], die additiv, jedoch nicht σ-additiv ist, fortgesetzt werden kann. Damit
erhalten wir einen Raum (N, 2N , D̄), der bis auf die σ-Additivität alle Eigenschaften
eines Wahrscheinlichkeitsraums erfüllt.
Fall 3: Ω überabzählbar unendlich
Konstruktion von Wahrscheinlichkeiten im überabzählbar unendlichen
Fall
Im abzählbar unendlichen Fall wurde gezeigt, dass es keine Uniformverteilung geben
kann. Ist es möglich auf einer überabzählbaren Menge Ω in anderer Form eine
Uniformverteilung zu konstruieren?
Wir versuchen dies auf der Menge Ω := (0, 1] ⊂ R. Für ein beliebiges Intervall
(a, b] ⊂ (0, 1] liegt es intuitiv nahe, die Wahrscheinlichkeit P als durch
P[(a, b]] = b − a
(0.1.8)
gegeben zu betrachten.
Wie ist aber die σ-Algebra F zu wählen? Wir betrachten hierzu die kleinste σAlgebra von Teilmengen in (0, 1], die von allen Intervallen der Form (a, b] mit 0 <
8
a < b ≤ 1 erzeugt wird. Dies ist die Borelsche σ-Algebra B((0, 1]) := (0, 1] ∩
B(R). Der Erweiterungssatz der Masstheorie besagt, dass ein eindeutig bestimmtes
Wahrscheinlichkeitsmass P auf B((0, 1]) existiert, das für jedes Intervall (a, b] mit
0 < a < b ≤ 1 die Gleichung (0.1.8) erfüllt. Auf diese Weise erhalten wir einen
Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), P). Wir nennen P die Uniformverteilung
U[(0, 1]].
Bemerkung 0.1.8. Wäre es hier aber nicht möglich wie im diskreten Fall als σAlgebra die Potenzmenge 2(0,1] zu wählen? Nein. Man kann zeigen, dass das durch
(0.1.8) bestimmte P nicht konsistent auf die Potenzmenge von (0, 1] fortgesetzt werden kann.
Die Idee der Konstruktion der Uniformverteilung auf (0, 1] soll nun erweitert werden, damit wir Wahrscheinlichkeitsräume mit Ω := R konstruieren können. Dazu
benötigen wir folgende Definition:
Definition 0.1.9. Eine Funktion F : R → [0, 1] heisst Verteilungsfunktion, wenn
sie rechtsstetig und monoton wachsend ist, und wenn limx→−∞ F (x) = 0 und
limx→+∞ F (x) = 1 gilt.
Bemerkung 0.1.10. Aus den Eigenschaften der Verteilungsfunktion folgt, dass
diese in jedem Punkt in R den linksseitigen Limes besizt. Rechtsstetige Funktionen
mit linksseitigen Limites werden auch als càdlàg-Funktionen bezeichnet ( continue
à droit - limite á gauche).
Jedes Wahrscheinlichkeitsmass auf B(R) kann auf eindeutige Weise durch eine Verteilungsfunktion beschrieben werden:
1. Sei eine Verteilungsfunktion F gegeben. Nach dem Erweiterungssatz aus der
Masstheorie gibt es ein eindeutig bestimmtes Wahrscheinlichkeitsmass P auf
B(R), das für jedes Intervall (a, b] die Gleichung
P[(a, b]] = F (b) − F (a)
erfüllt. Die Verteilungsfunktion definiert also in eindeutiger Weise den Wahrscheinlichkeitsraum (R, B(R), P).
2. Ist umgekehrt ein Wahrscheinlichkeitsraum (R, B(R), P) gegeben, so erfüllt die
durch
F (x) := P[(−∞, x]]
eindeutig bestimmte Funktion alle Eigenschaften einer Verteilungsfunktion F .
Beispiel 0.1.11. Betrachte die Funktion

 0 für
x für
F (x) :=

1 für
x≤0
x ∈ (0, 1]
x>1.
Dies ist offenbar eine Verteilungsfunktion. Sie definiert gerade die Uniformverteilung U[(0, 1]].
Beispiel 0.1.12. Sei (R, B(R), P) ein Wahrscheinlichkeitsraum, und sei F die
durch P bestimmte Verteilungsfunktion. Dann gilt für alle x ∈ R
P[{x}] := F (x) − F (x−) .
Ist F stetig im Punkt x, so haben wir insbesondere P[{x}] = 0.
9
Eine wichtige Klasse von Verteilungsfunktionen wird über Wahrscheinlichkeitsdichten definiert.
Definition 0.1.13. Eine Wahrscheinlichkeitsdichte ist eine integrierbare Funktion
f : R → R+ mit
Z +∞
f (t)dt = 1 .
−∞
Ist f eine Dichte, so wird durch
F (x) :=
Z
x
f (t)dt
−∞
eine stetige Verteilungsfunktion F , und damit auch eine Wahrscheinlichkeit P auf
B(R), definiert.
Bemerkung 0.1.14. Der Begriff der Dichte lässt sich auch allgemeiner fassen.
Eine integrierbare Funktion f : Rn → R+ heisse Wahrscheinlichkeitsdichte, wenn
Z
f (x1 , . . . , xn ) d(x1 , . . . , xn ) = 1
Rn
gilt. Nach dem Erweiterungssatz der Masstheorie gibt es ein eindeutig bestimmtes
Wahrscheinlichkeitsmass P auf B(Rn ), so dass für jedes n-dimensionale Intervall
(a, b] ⊂ Rn gilt:
Z
P[(a, b]] =
f (x1 , . . . , xn ) d(x1 , . . . , xn ) .
(0.1.9)
(a,b]
Wir erhalten so Wahrscheinlichkeitsräume der Form (Rn , B(Rn ), P). Der Begriff
der Verteilungsfunktion wird im mehrdimensionalen Fall selten verwendet.
Beispiele von Wahrscheinlichkeiten auf überabzählbar unendlichen Mengen
1. Negativ-Exponentialverteilung:
Sei Ω := R. Sei λ > 0 fest gewählt. Die Funktion
0
für x < 0
fλ (x) :=
λe−λx für x ≥ 0
ist eine Dichte, wie man leicht nachprüft. Die dadurch definierte Verteilungsfunktion ist
0
für x < 0
Fλ (x) =
1 − e−λx für x ≥ 0 .
Die entsprechende Verteilung heisst Negativ-Exponentialverteilung NE(λ).
2. Normalverteilung:
Sei Ω := R. Es kann gezeigt werden, dass die Funktion
x2
1
ϕ0,1 (x) := √ e− 2
2π
eine Wahrscheinlichkeitsdichte ist. Die entsprechende Verteilungsfunktion bezeichen wir mit
Z x
t2
1
Φ0,1 (x) := √
e− 2 dt .
2π −∞
10
Wir nennen die durch ϕ0,1 bestimmte Verteilung die Standard-Normalverteilung
N (0, 1).
Seien nun µ ∈ R und σ ∈ R+ fest gewählt. Da ϕ0,1 eine Dichte ist, folgt
mittels Substitution y := σ −1 (x − µ), dass
ϕµ,σ2 (x) :=
(x−µ)2
1
√ e− 2σ2
σ 2π
ebenfalls eine Dichtefunktion ist. Die Verteilungsfunktion ist dann
Z x
(t−µ)2
1
e− 2σ2 dt .
Φµ,σ2 (x) := √
σ 2π −∞
Diese definiert die Normalverteilung N (µ, σ 2 ).
3. Bivariate Normalverteilung:
Sei Ω := R2 . Man kann zeigen, dass
f (x, y) :=
1 − 1 (x2 +y2 )
e 2
2π
eine 2-dimensionale Dichte ist. Die durch sie bestimmte Verteilung wird bivariate Standard-Normalverteilung genannt.
4. Cauchy-Verteilung:
Sei Ω := R. Betrachte für reelle Zahlen d > 0 und λ ∈ R die Funktion
fλ,d (x) :=
1
d
.
2
π d + (x − λ)2
(0.1.10)
Dies ist eine Dichte. Denn mittels der Substitution y := d−1 (x − λ) erhalten
wir
Z +∞
Z +∞
d
1
dx
=
dy = lim [arctan(x)]+n
−n = π .
2 + (x − λ)2
2
n→∞
d
1
+
y
−∞
−∞
Die Dichte fλ,d bestimmt die Cauchy-Verteilung C(λ, d). Speziell nennen wir
C(0, 1) die Standard-Cauchy-Verteilung.
5. Gamma-Verteilung:
Sei Ω := R. Seien λ ∈ 0 und a > 0 fest gewählt. Wir betrachten die Funktion
(
0
für x < 0
f(a,λ) (x) :=
λa xa−1 e−λx
für x ≥ 0
Γ(a)
Dabei bezeichnet Γ die Gamma-Funktion. Da mit y := λx
Z ∞
Z ∞
a−1 −y
Γ(a) :=
y
e dy =
λn xa−1 e−λx dx
0
0
gilt, sieht man, dass es sich bei f(a,λ) um eine Dichte handelt. Wir nennen die
entsprechende Verteilung die Gamma-verteilung Γ(a, λ).
Für n = 1 erhalten wir gerade die Negativ-Exponentialverteilung NE(λ).
Ein für die Statistik wichtiger wichtiger Spezialfall ist die Verteilung Γ(n/2, 1/2)
für n ∈ N. Wir nennen sie die Chi-Quadrat-Verteilung χ2n mit n Freiheitsgraden.
11
0.2
Zufallsvariablen und ihre Verteilungen
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Definition 0.2.1. Eine (reelle) Zufallsvariable auf Ω ist eine F-B(Rn )-messbare
Abbildung X : Ω → Rn . Für n ≥ 2 nennen wir X auch Zufallsvektor.
Ist X(Ω) endlich oder abzählbar unendlich, so sprechen wir von einer diskreten
Zufallsvariable.
Wir werden auch dann von einer diskreten Zufallsvariablen X sprechen, wenn die
Menge aller x ∈ Rn mit P[{ω ∈ Ω | X(ω) = x}] > 0 endlich oder abzählbar unendlich
ist. Das Bild X(Ω) werden wir dann als die Menge der Punkte, die mit positiver
Wahrscheinlichkeit getroffen werden, auffassen.
Wir verwenden im folgenden die abkürzende Schreibeweise
{X ∈ B} := X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} , für B ⊂ R ,
bzw. {X = c}, {X ≤ c} u.s.w., für c ∈ R.
Ist B ∈ B(Rn ) eine Ereignis, so ist X −1 (B) ∈ F, und wir verwenden entsprechend
die Notation
P[X ∈ B] := P[X −1 (B)] .
Satz 0.2.2. Sei X : Ω → Rn eine Zufallsvariable. Sei PX : B(Rn ) → R definiert
durch
PX [B] := P[X ∈ B] .
Dann ist PX eine Wahrscheinlichkeit auf B(Rn ), also (Rn , B(Rn ), PX ) ein Wahrscheinlichkeitsraum.
Beweis: Wir prüfen die drei Axiome der Definition 0.1.1 nach, indem wir die
Eigenchaften der Wahrscheinlichkeit P ausnützen.
Sei B ∈ B(Rn ). Dann ist X −1 (B) ∈ F und nach Definition PX [B] = P[X −1 (B)].
Daher ist 0 ≤ PX [B] ≤ 1 und Axiom I erfüllt.
Auch das zweite Axiom gilt, denn PX [Rn ] = P[X −1 (Rn )] = P[Ω] = 1.
Sei (Bi )i≥1 eine Folge von paarweise disjunkten Mengen aus B(Rn ). Dann gilt
PX
h [∞
i=1
Bi
i
h
[∞
i
h[
= P X −1
Bi = P
i=1
=
∞
X
i=1
∞
i X
P[X −1 (Bi )]
X −1 (Bi ) =
i=1
PX [Bi ] .
i=1
Axiom III gilt also auch.
2
Anstelle von PX wird auch die Schreibweise PX −1 verwendet. Wir nennen PX die
Verteilung der Zufallsvariablen X und verwenden die Notation X ∼ PX . Speziell verwenden wir für die in den Beispielen betrachteten Verteilungen die Notation
X ∼ Po(λ), X ∼ N (µ, σ 2 ), X ∼ U[(0, 1]], u.s.w.
Ist X eine R-wertige Zufallsvariable, so bezeichen wir mit FX die durch PX definierte Verteilungsfunktion.
Betrachten wir einige grundlegende Beispiele von Zufallsvariablen:
12
1. Sei c ∈ R eine Konstante, und sei X : Ω → R gegeben durch X(ω) := c für
alle ω ∈ Ω. Die Abbildung X ist eine Zufallsvariable, deren Verteilung PX
gegeben ist durch
1 falls c ∈ B
PX [B] =
0 falls c 6∈ B
für B ∈ B(R).
2. Sei A ∈ F ein fest gewähltes Ereignis. Wir definieren die Abbildung
X : Ω → R durch
1 falls ω ∈ A
X(ω) :=
.
0 falls ω ∈
6 A
Diese Abbildung ist eine Zufallsvariable, Wir nennen X die Indikatorvariable
zum Ereignis A. Ihre Verteilung PX ist gegeben durch

1
falls 1 ∈ B und 0 ∈ B



P[A]
falls 1 ∈ B und 0 6∈ B
PX [B] =
.
(0.2.1)
P[Ac ] falls 1 6∈ B und 0 ∈ B



0
falls 1 6∈ B und 0 6∈ B
3. Sei Ω abzählbar und F := 2Ω . Dann ist jede Abbildung X : Ω → R messbar
und daher eine Zufallsvariable.
Die Menge X(Ω) der möglichen Werte von X ist abzählbar. Sei (xi )i≥1 eine
Auflistung dieser Werte. Dann ist PX bestimmt durch die Werte
PX [{xi }] = P[X = xi ]
für i ∈ N. Entsprechende Aussagen gelten natürlich im Fall, dass Ω endlich
ist.
Wir betrachten nun einige Beispiele dazu, wie sich aus gegebenen Zufallsvariablen
neue bilden lassen.
1. Sind Xi : Ω → R F-B(R)-messbare Zufallsvariablen für alle 1 ≤ i ≤ n, so ist
(X1 , . . . , Xn ) : Ω → Rn , definiert durch
(X1 , . . . , Xn )(ω) := (X1 (ω), . . . , Xn (ω)) ,
eine F-B(Rn )-messbare Zufallsvariable
und umgekehrt. Dies folgt aus der EiNn
genschaft, dass B(Rn ) =
i=1 B(R) die von B(R) × · · · × B(R) erzeugte σAlgebra ist.
2. Sei X : Ω → Rn eine Zufallsvariable und g : Rn → Rm eine B(Rn )-B(Rm )messbare Abbildung. Dann ist durch
g(X)(ω) := g(X(ω))
eine Zufallsvariable g(X) : Ω → Rm definiert.
3. Aus den vorhergehenden beiden Punkten ergibt sich, dass wenn X : Ω → R
und Y : Ω → R Zufallsvariablen sind, auch X+Y , XY und eX Zufallsvariablen
sind.
4. Sei (Xi )i≥1 eine Folge von Zufallsvariablen Xi : Ω → R. Existiert supi≥1 Xi
in R, so ist supi≥1 Xi : Ω → R, gegeben durch
(supi≥1 Xi )(ω) := supi≥1 (Xi (ω)) ,
eine
T Zufallsvariable. Dies folgt, da für jedes x ∈ R {supi≥1 Xi ≤ x} =
i≥1 {Xi ≤ x} ein abzählbarer Schnitt von messbaren Mengen ist. Entsprechend zeigt man, dass falls inf i≥1 Xi in R existiert, dies eine Zufallsvariable
ist.
13
5. Sei wie vorher (Xi )i≥1 eine Folge von Zufallsvariablen. Existieren
lim supi→∞ Xi := inf j≥1 (supk≥j Xk ), bzw. lim inf i→∞ Xi := supj≥1 (inf k≥j Xk )
in R, so sind dies wegen vorhergehendem Punkt ebenfalls Zufallsvariablen.
6. Betrachte wiederum (Xi )i≥1 eine Folge von Zufallsvariablen. Existiert
limi→∞ Xi in R, so haben wir insbesondere limi→∞ Xi = lim supi→∞ Xi , und
so eine Zufallsvariable lim
Xi : Ω → R. P
Pi→∞
∞
j
Konvergiert die Summe i=1 Xi := limj→∞ i=1 Xi , so ist diese wiederum
eine Zufallsvariable.
Kehren wir zurück zu Punkt 2 der obigen Liste: Wir betrachten eine Zufallsvariable
X : Ω → R mit der Verteilung PX und eine messbare Funktion g : R → R. Was
können wir über die Verteilung Pg(X) der Zufallsvariablen g(X) aussagen?
Betrachten wir dazu zwei Beispiele.
Beispiel 0.2.3. Sei g : R → R bijektiv. Für die Verteilungsfunktion Fg(X) gilt:
Fg(X) (x)
:= Pg(X) [(−∞, x]] = P[g(X) ≤ x]
=
=
P[X ≤ g −1 (x)] = PX [(−∞, g(x)]]
FX (g −1 (x))
für alle x ∈ R.
Beispiel 0.2.4. Aus dem vorhergehenden Beipiel erhalten wir einen wichtigen Spezialfall. Seien dazu µ ∈ R und σ ∈ (0, ∞) gegeben. Betrachte eine Zufallsvariable
X ∼ N (0, 1) und setze
Y := σX + µ .
Dann ist Y ∼ N (µ, σ 2 ).
Ist umgekehrt eine Zufallsvariable Y ∼ N (µ, σ 2 ) vorgegeben, so folgt
X :=
Y −µ
σ
der Standard-Normalverteilung N (0, 1).
Dieser Sachverhalt wurde bereits in Abschnitt 0.1 in der Herleitung der Dichte der
Normalverteilung aus der Dichte der Standard-Normalverteilung verwendet.
Beispiel 0.2.5. Sei g : R → R gegeben durch x 7→ x2 . Dann gilt für x ∈ R
FX 2 (x)
:= PX 2 [(−∞, x]] = P[X 2 ≤ x]
√
√
√
√
= P[− x ≤ X ≤ x] = P[X ≤ x] − P[X < − x]
√
√
= FX ( x) − FX (− x−) .
Satz 0.2.6 (Dichtetransformation). Sei X : Ω → R eine Zufallvariable mit
Dichte fX . Sei g : R → R eine messbare Abbildung und Y := g(X).
Ist g im Wertebereich X(Ω) von X stetig differenzierbar mit strikt postiver Ableitung
g 0 > 0, so ist die Dichte fY von Y gegeben durch
(
fX (g −1 (x))
für x ∈ g(X(Ω))
0 (g −1 (x))|
|g
fY (x) =
0
für x 6∈ g(X(Ω))
Die gleiche Aussage folgt, wenn vorausgestzt wird, dass g eine strikt negative Ableitung g 0 < 0 hat.
Beweis: Dies folgt aus der Substitutionsregel der Differential- und Integralrechnung.
2
14
0.3
Bedingte Wahrscheinlichkeit
In einer Fernseh-Show kann ein aus dem Publikum ausgewählter Kandidat auf folgende Art ein neues Auto gewinnen: Er hat drei geschlossene Türen zur Auswahl,
wobei hinter genau einer das Auto versteckt worden ist. Nun darf er sich für eine
Tür die er öffnen will entscheiden. Bevor diese geöffnet wird, teilt er seine Entscheidung dem Quizmaster mit. Dieser, der natürlich weiss, hinter welcher Türe sich das
Auto verbirgt, öffnet nun eine der beiden Türen die der Kandidat nicht ausgwählt
hat. Er öffnet jedoch nicht diejenige hinter der sich das Auto befindet. Der Kandidat
hat nun die Möglichkeit bei seiner Entscheidung zu bleiben oder zur anderen noch
geschlossenen Türe zu wechseln, um diese dann öffnen zu lassen.
Wie soll er sich entscheiden? Soll er die Türe wechseln oder bei seiner ersten Entscheidung bleiben?
Man könnte der Ansicht sein, dass es keine Rolle spielt, ob der Kandidat wechselt
oder nicht.
Um dieses Problem genau zu untersuchen, wird der Begriff der bedingten Wahrscheinlichkeit benötigt. Sei dazu im folgenden unseren Betrachtungen stets ein
Wahrscheinlichkeitsraum (Ω, F, P) zugrundegelegt.
Definition 0.3.1. Seien A, B ∈ F Ereignisse mit P[A] > 0. Dann heisst
P[B|A] :=
P[A ∩ B]
P[A]
die bedingte Wahrscheinlichkeit von B, gegeben das Ereignis A.
Aus der Definition lässt sich sofort schliessen:
1. Die Wahrscheinlichkeit P[B|A] ist für festes A mit P[A] > 0 für alle B ∈ F
definiert.
2. Offenbar gilt für jedes B ∈ F die Eigenschaft P[B|A] = P[A ∩ B|A].
3. Speziell haben wir P[A|A] = 1.
Satz 0.3.2. Sei das Ereignis A ∈ F fest gegeben. Dann ist PA : F → R, definiert
durch PA [B] := P[A|B] für B ∈ F, eine Wahrscheinlichkeit; das heisst (Ω, F, PA )
ist ein Wahrscheinlichkeitsraum.
Beweis: Prüfen wir die drei Axiome der Definition 0.1.1 nach. Sei dazu B ∈ F
gegeben.
Nach Voraussetzung ist P[A] > 0. Ferner erfüllt P Axiom I ; daher ist P[A ∩ B] ≥ 0,
und somit auch PA [B] ≥ 0. Weiter folgt aus A ∩ B ⊂ A, dass P[A ∩ B] ≤ P[B] und
somit PA [B] ≤ 1. Axiom I wird also erfüllt.
Wir haben P[A ∩ Ω] = P[A], also auch PA [Ω] = 1. Damit wurde Axiom II nachgewiesen.
Sei (Bn )n≥1 eine Folge paarweise disjunkter Ereignisse aus F. Dann ist auch
(A ∩ Bn )n≥1 eine Folge paarweise disjunkter Ereignisse und wir erhalten
S∞
P∞
S∞
h [∞
i
P [ n=1 (A ∩ Bn )]
P[A ∩ Bn ]
P [A ∩ n=1 Bn ]
=
= n=1
PA
Bn
=
n=1
P[A]
P[A]
P[A]
∞
X
=
PA [Bn ] .
n=1
Das dritte Axiom wird auch erfüllt.
2
15
Satz 0.3.3 (Formel der totalen Wahrscheinlichkeit (FTW)). Sei (An )n≥1
eine Folge von Ereignissen aus F, S
die eine Partition von Ω bildet. Die Ereignisse
∞
seien also paarweise disjunkt, und n=1 An = Ω.
Dann gilt für alle B ∈ F:
P[B] =
∞
X
P[B|An ]P[An ] ,
n=1
wobei P[B|An ]P[An ] := 0 gesetzt wird, falls P[An ] = 0.
Beweis: Sei BS
∈ F. Da (An )n≥1 eine Partition von Ω ist, kann das Ereignis B in
∞
der Form B = n=1
∩ An ) als eine disjunkte Vereinigung geschrieben werden.
P(B
∞
Damit gilt P[B] = n=1 P[B ∩ An ].
Ist P[An ] = 0, so ist auch P[B ∩ An ] = 0. In diesem Fall setzen wir
P[B|An ]P[An ] := P[B ∩ An ] = 0 .
Ist andererseits P[An ] > 0, so ist nach Definition 0.3.1 P[B|An ] = P[B ∩ An ]/P[An ],
beziehungsweise P[B ∩ An ] = P[B|An ]P[An ].
2
Satz 0.3.4 (Bayes). Seien A, B ∈ F mit P[A] > 0 und P[B] > 0. Dann gilt:
P[B|A] =
P[A|B]P[B]
.
P[A]
Beweis: Dies ergibt sich direkt aus der Definition 0.3.1 mit P[A∩B] = P[A|B]P[B]:
P[B|A] =
P[A|B]P[B]
P[A ∩ B]
=
.
P[A]
P[A]
2
Beispiel 0.3.5 (Klinische Tests). Für eine Krankeit, zum Beispiel die Tuberkulose, gibt es Testverfahren, mit dem Aussagen darüber gemacht werden können, ob
eine bestimmte Person krank ist oder nicht.
Sei A das Ereignis, dass die Person tatsächlich an Tuberkulose leidet. Die Wahrscheinlichkeit dafür is klein, etwa P[A] := 1/10000.
Sei B das Ereignis, dass ein Test positiv ausfällt, also auf das Vorhandensein der
Krankheit hinweist, und sei B c das Ereignis, dass der Test negativ ausfällt.
Oft sind in solchen Situationen die Wahrscheinlichkeiten bekannt:
1. P[B c |A]: Die Wahrscheinlichkeit, dass der Test negativ ausfällt, obwohl die getestete Person in Wirklichkeit krank ist. Diese Fehlerwahrscheinlichkeit sollte
eher klein sein, etwa P[B c |A] := 1/20.
2. P[B|A]: Die Wahrscheinlichkeit, dass der Test positiv ausfällt, obwohl die getestete Person gar nicht an Tuberkulose erkrank ist. Auch diese Fehlerwahrscheinlichkeit sollte klein sein, beispielsweise P[B|Ac ] := 1/40.
Nun interessiert man sich für die Wahrscheinlichkeit P[A|B], dass eine positiv getestete Person tatsächlich Tuberkulose hat.
Diese Wahrscheinlichkeit können wir mit Hilfe der Formel der totalen Wahrscheinlichkeit und des Satzes von Bayes berechnen:
Nach Satz 0.3.3 gilt mit der Partition A ∪ Ac = Ω
P[B] = P[B|A]P[A] + P[B|Ac ]P[Ac ] .
16
Mit Satz 0.3.4 folgt dann
P[A|B]
=
P[B|A]P[A]
P[B|A]P[A]
=
P[B]
P[B|A]P[A] + P[B|Ac ]P[Ac ]
=
(1 − P[B c |A])P[A]
(1 − P[B c |A])P[A]
=
P[B]
(1 − P[B c |A])P[A] + P[B|Ac ]P[Ac ]
≈
1
.
250
Die Wahrscheinlichkeit bei positivem Testresultat tatsächlich krank zu sein ist ziemlich gering. Dies liegt in diesem Fall daran, dass P[A] klein, und P[B|Ac ] im Vergleich zu P[A] relativ gross ist.
Kommen wir zum am Anfang dieses Abschnitts betrachteten Quiz zurück. Um die
Frage zu zu beantworten nehmen wir ohne Einschränkung an, das Auto wurde hinter
der ersten Türe versteckt. Dem Quizmaster ist dies bekannt, er wird daher entweder
die zweite oder dritte Tür öffnen, was auch immer der Kandidat wählen wird.
Wir bezeichen mit Ai das Ereignis, dass der Kandidat Türe i auswählt. Der Kandidat hat keine Preferenz für eine der Türen, daher ist P[A1 ] = P[A2 ] = P[A3 ] = 1/3.
Sei weiter B das Ereignis, dass der Quizmaster Tür 2 aufmacht, und B c somit das
Ereignis, dass er Tür 3 öffnet.
Nun gilt:
1. Wählt der Kandidat die erste, also richtige Türe, so öffnet der Quizmaster die
zweite Tür mit einer gewissen Wahrscheinlichkeit P[B|A1 ] =: p ∈ [0, 1], bzw.
die dritte Tür mit der Wahrscheinlichkeit P[B c |A1 ] = 1 − p =: q.
2. Wählt der Kandidat die zweite Türe, so kann der Quizmaster diese nicht
öffnen, also P[B|A2 ] = 0.
3. Entscheidet sich der Kandidat für Türe 3, so kann der Quizmaster nur die
zweite Türe öffnen. Daher gilt P[B|A3 ] = 1.
Uns interessieren nun die Wahrscheinlichkeiten P[Ai |B], beziehungsweise P[Ai |B]
für i = 1, 2, 3, also die Wahrscheinlichkeiten die richtige Türe zu treffen, nachdem
der Quizmaster eine der Türen geöffnet hat. Dies können wir wiederum mit den
Sätzen 0.3.3 und 0.3.4:
1. Die Wahrscheinlichkeit mit der Wahl der ersten Türe das Auto zu erhalten,
wenn der Quizmaster die zweite Tür geöffnet hat, ist
P[A1 |B] =
P[B|A1 ]P[A1 ]
p
=
.
P[B|A1 ]P[A1 ] + P[B|A2 ]P[A2 ] + P[B|A3 ]P[A3 ]
1+p
2. Wenn der Quizmaster die zweite Tür öffnet ist das Auto natürlich nicht dahinter versteckt, also P[A2 |B] = 0.
3. Die Wahrscheinlichkeit mit der Wahl von Tür 3 das Auto zu erhalten, wenn
der Quizmaster die zweite Tür geöffnet hat, ist schliesslich
P[A3 |B] = 1 − P[A1 |B] − P[A2 |B] =
1
.
1+p
Analog erhalten wir die Wahrscheinlichkeiten, falls der Quizmaster die dritte Türe
geöffnet hat:
1. P[A1 |B c ] = q/(1 + q).
17
2. P[A2 |B c ] = 1/(1 + q).
3. P[A3 |B c ] = 0.
Da stets gilt
1/(1 + p) ≥ p/(1 + p)
(0.3.1)
1/(1 + q) ≥ q/(1 + q) ,
(0.3.2)
und
ist es in jedem Fall besser die Tür zu wechseln nachdem der Quizmaster eine geöffnet hat. Dies ist auch in den Fällen p = 1 und p = 0 so. Denn bei p = 1 ist q = 0,
und bei (0.3.1) erhalten wir zwar Gleichheit, bei (0.3.2) aber sogar 1 > 0. Entsprechend folgt im Fall p = 0, dass q = 1, und wir erhalten bei (0.3.2) Gleichheit, dafür
aber bei (0.3.1) die Ungleichung 1 > 0.
Eine natürliche Annahme ist p = q = 1/2 anzunehmen. Damit wächst die Chance
das Auto zu gewinnen mit einem Wechsel der Türen von 1/3 auf 2/3.
Kehren wir nun zurück zur Formel der totalen Wahrscheinlichkeit. Die in Satz 0.3.3
vorausgesetzte Partition der Menge Ω wird häufig in Verbindung mit Zufallsvariablen definiert.
Betrachte zunächst eine diskrete Zufallsvariable X : Ω → R. Sei (xn )n≥1 eine
Aufzählung ihres Wertebereichs. Dann ist durch (An )n≥1 , wobei An := {X = xn }
für alle n ∈ N, eine Partition von Ω definiert. Mit Satz 0.3.3 gilt demnach für alle
Ereignisse B ∈ F:
P[B] =
∞
X
P[B|X = xn ]P[X = xn ] =
n=1
∞
X
P[B|X = xn ]PX [xn ] .
(0.3.3)
n=1
Diese Formel lässt sich aber nur im diskreten Fall verwenden.
Was aber haben wir, wenn die Verteilung X : Ω → R durch eine Dichte fX bestimmt
ist? Hier haben wir offenbar P[X = x] = 0 für alle x ∈ R, und P[B|X = x] ist
nirgends definiert.
Bemerkung 0.3.6. Sei X : Ω → R eine beliebige Zufallsvariable. Wir betrachten
ein fest gewähltes Ereignis B ∈ F. Es kann gezeigt werden, dass eine messbare, PX integrierbare Funktion gB : R → R existiert, die für alle A ∈ B(R) die Gleichung
Z
gB dPX = P[B ∩ {X ∈ A}]
(0.3.4)
A
erfüllt. Die Funktion gB ist dadurch ( PX -fast sicher) eindeutig bestimmt.
Wir definieren nun
P[B|X = ·] := gB (·) .
Setzen wir weiter in Gleichung (0.3.4) A := R ein, so erhalten wir
Z
P[B|X = x] dPX = P[B ∩ {X ∈ R}] = P[B ∩ Ω] = P[B] .
R
Ist die Verteilung PX über die Dichte fX gegeben ist, folgt nun mittels Transformation das stetige Analogon zu Gleichung (0.3.3):
P[B] =
Z
+∞
P[B|X = x]fX (x) dx .
−∞
Betrachten wir hierzu ein Beispiel.
18
(0.3.5)
Beispiel 0.3.7. Gegeben seien zwei Zufallsvariablen X, Y : Ω → R. Es sei X ∼
Γ(n, λ). Und sei
xk
P[Y = k|X = x] := e−x
k!
für alle x ∈ R und alle k ∈ Z+ . Das heisst unter der Bedingung X = x, ist Y
Po(x)-verteilt. Was ist nun die Verteilung von Y , ohne eine Bedingung?
Nach (0.3.5) gilt unter Verwendung der Substitution y := (λ + 1)x
P[Y = k]
=
=
=
∞
e−x xk λn xn−1 e−λx
dx
k!
Γ(n)
0
Z ∞
λn
1
(λ + 1)n+k xn+k−1 e−(λ+1)x dx
Γ(n)k! (λ + 1)n+k 0
Z ∞
λn
1
y n+k−1 e−y dx
Γ(n)k! (λ + 1)n+k 0
Z
λn
1
Γ(n + k)
Γ(n)k! (λ + 1)n+k
n+k−1
λn
=
k
(λ + 1)n+k
k n
n+k−1
1
1
1−
=
.
k
λ+1
λ+1
=
Die Zufallsvariable Y ist also NB(n, p)-verteilt, mit p := 1 − (λ + 1)−1 .
0.4
Unabhängigkeit
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Unabhängigkeit von Ereignissen
Wir betrachten zwei Ereignisse A und B aus F. Anschaulich verstehen wir unter der
Unabhängigkeit des Ereignisses A von B, dass die Wahrscheinlichkeit des Eintretens
von A nicht von der Wahrscheinlichkeit des Eintretens von B abhängt, also (im Falle
dass P[B] > 0 und P[B c ] > 0):
P[A|B] = P[A] und P[A|B c ] = P[A] .
Genauso ist B unabhängig von A, wenn (im Falle dass P[A] > 0 und P[Ac ] > 0)
P[B|A] = P[B] und P[B|Ac ] = P[B]
gilt. Jede dieser vier Gleichungen ist äquivalent zur Gleichung P[A ∩ B] = P[A]P[B],
wobei diese auch im Fall P[A] = 0 oder P[B] = 0 erfüllt ist. Damit können wir die
folgende Definition rechtfertigen:
Definition 0.4.1. Zwei Ereignisse A und B aus F heissen genau dann unabhängig,
wenn sie der Gleichung
P[A ∩ B] = P[A]P[B]
(0.4.1)
genügen.
Drei Spezialfälle sind bemerkenswert:
19
1. Die Ereignisse A und B seien disjunkt. In diesem Fall sind A und B genau
dann unabhängig, wenn P[A] = 0 oder P[B] = 0 gilt.
2. Sei P[B] ∈ {0, 1}. Dann folgt aus der Definition, dass A und B stets unabhängig sind. Mit anderen Worten: Jedes Ereignis ist unabhängig von einem
fast sicheren oder fast unmöglichen Ereignis.
3. Sei A ⊂ B. In diesem Fall sind A und B genau dann unabhängig, wenn
P[A] = 0 oder P[B] = 1 gilt.
Beispiel 0.4.2 (Zweimaliges Würfeln). Sei Ω := {(i, j) ∈ N × N | 1 ≤ i, j ≤ 6}
und P[{(i, j)}] := 1/36. Sei A := {(i, j) ∈ Ω | i gerade} das Ereignis im ersten
Wurf eine gerade Augenzahl zu werfen. Sei B := {(i, j) ∈ Ω | j = 6} das Ereignis
im zweiten Wurf eine Sechs zu werfen. Dann gilt P[A] = 1/2, P[B] = 1/6 und
P[A ∩ B] = 1/12. Die Gleichung (0.4.1) ist demnach erfüllt, und die Ereignisse A
und B sind daher unabhängig.
Erweitern wir nun die Definition der Unabhängigkeit auf eine beliebige Anzahl von
Ereignissen:
Definition 0.4.3. Sei N eine endliche oder abzählbar unendliche Indexmenge. Seien (An )n∈N Ereignisse aus F. Sei an ∈ {0, 1} und setze A0n := Acn , A1n := An für
alle n ∈ N. Die Ereignisse (An )n∈N heissen unabhängig, wenn für jede endliche
Teilmenge M ⊂ N gilt
h\
i
Y
(0.4.2)
P
Aann =
P[Aann ] .
n∈M
n∈M
Wir bemerken zu dieser Definition:
1. Mittels vollständiger Induktion über |M | kann gezeigt werden, dass Gleichung
(0.4.2) äquivalent ist zu
h\
i
Y
P
An =
P[An ] .
(0.4.3)
n∈M
n∈M
Diese äquivalente Formulierung ist für den expliziten Nachweis der Unabhängigkeit der Ereignisse (An )n∈N offenbar besser geeignet als die Gleichung (0.4.2).
2. Mit dem vorhergehenden Punkt folgt weiter, dass die Definition 0.4.1 mit der
allgemeinen Definition 0.4.3 verträglich ist.
3. Seien die Ereignisse (An )n∈N unabhängig. Sei weiter N 0 ⊂ N eine Teilmenge
der Indexmenge N . Aus Definition 0.4.3 folgt sofort, dass auch die Teilfamilie
(An )n∈N 0 unabhängig ist.
Die Gleichungen (0.4.2), beziehungsweise (0.4.3) müssen für jede Teilmenge M ⊂ N
verifiziert werden um Unabhängigkeit der Ereignisse (An )n∈N nachzuweisen. Es ist
nicht hinreichend die Gleichungen lediglich für M := N zu überprüfen, wie folgendes
Beispiel zeigt.
Beispiel 0.4.4. Sei Ω := {1, 2, 3, 4, 5, 6} mit der Uniformverteilung versehen, also
P[{i}] = 1/6 für alle 1 ≤ i ≤ 6. Es seien die drei Ereignisse A = {1, 2, 3}, B =
{2, 4, 6} und C = {1, 2, 4, 5} gegeben. Es folgt
P[A ∩ B ∩ C] =
P[A ∩ C]
=
P[B ∩ C] =
1
= P[A]P[B]P[C] ,
6
1
= P[A]P[C] ,
3
1
= P[B]P[C] .
3
20
Hingegen ist
P[A ∩ B] =
1
1
6= = P[A]P[B] .
6
4
Die drei Ereignisse sind somit nicht unabhängig, auch wenn die Gleichung (0.4.3)
für M := N = 3 gilt.
Nach Punkt 3 der obigen Aufzählung folgt aus der Unabhängigkeit von Ereignissen
auch deren paarweise Unabhängigkeit. Die Umkehrung dieser Aussage gilt jedoch
nicht, wie das nächste Beispiel deutlich macht.
Beispiel 0.4.5. Sei Ω := {1, 2, 3, 4} mit der Uniformverteilung versehen, also
P[{i}] = 1/4 für alle 1 ≤ i ≤ 4. Betrachte folgende drei Ereignisse: A := {1, 2},
B := {2, 4} und C := {2, 3}. Dann gilt
P[A ∩ B]
=
P[A ∩ C] =
P[B ∩ C] =
1
= P[A]P[B] ,
4
1
= P[A]P[C] ,
4
1
= P[B]P[C] .
4
Die Ereignisse A, B und C sind also paarweise unabhängig. Es gilt jedoch
P[A ∩ B ∩ C] =
1
1
6= = P[A]P[B]P[C] .
4
8
Die drei Ereignisse sind demnach nicht unabhängig, obwohl sie paarweise unabhängig
sind.
Unabhängigkeit von Zufallsvariablen
Zum Begriff der Unabhängigkeit der Zufallsvariablen gelangen wir über die Unabhängigkeit von Ereignissen.
Definition 0.4.6. Sei N eine endliche oder abzählbar unendliche Indexmenge. Sei
(Xn )n∈N eine Folge von Zufallsvariablen mit Xn : Ω → Rkn . Die Zufallsvariablen
heissen unabhängig, wenn für alle Bn ∈ B(Rkn ) die Ereignisse {Xn ∈ Bn }, n ∈ N ,
unabhängig sind, das heisst wenn für jede endliche Teilmenge M ⊂ N und beliebige
Ereignisse Bn ∈ B(Rkn ) gilt:
h\
i
Y
P
{Xn ∈ Bn } =
P[Xn ∈ Bn ] .
(0.4.4)
n∈M
n∈M
Einige Bemerkungen zu dieser Definition:
1. Es kann gezeigt werden, dass eine Folge von Ereignissen (An )n∈N ist genau
dann unabhängig ist, wenn die entsprechenden Indikatorvariablen (I[An ])n∈N
unabhängig sind.
2. Seien die Zufallsvariablen (Xn )n∈N unabhängig. Sei weiter N 0 ⊂ N eine Teilmenge der Indexmenge N . Aus Definition folgt, dass auch die Teilfamilie
(Xn )n∈N 0 unabhängig ist.
3. Sei N eine endliche Indexmenge. Gilt (0.4.4) für alle M ⊂ N , so insbesondere
auch
h\
i
Y
P
{Xn ∈ Bn } =
P[Xn ∈ Bn ]
(0.4.5)
n∈N
n∈N
21
für beliebige Bn ∈ B(Rkn ).
Ist (0.4.5) andererseits für alle Bn ∈ B(Rkn ) erfüllt, und M ⊂ N vorgegeben,
so können wir Bn := Rkn für alle n ∈ N \M setzen, und erhalten wegen
P[Xn ∈ Rkn ] = 1 die Gleichung (0.4.4) zurück.
Im endlichen Fall genügt es daher für die Unabhängigkeit der Zufallsvariablen
(Xn )n∈N die Gleichung (0.4.4) für M := N zu überprüfen.
4. Die Borelsche σ-Algebren B(Rkn ) wird erzeugt von kn -dimensionalen Intervallen der Form
(a, b] := (a1 , b1 ] × · · · × (akn , bkn ]
mit ai ∈ R ∪ {−∞}, bi ∈ R und ai < bi für alle 1 ≤ i ≤ kn .
Aus des Masstheorie folgt, dass es für die Unabhängigkeit der (Xn )n∈N hinreichend ist, die Gleichung (0.4.4) für solche Intervalle nachzuprüfen, also
h\
i
Y
P
{Xn ∈ (a, b]} =
P[Xn ∈ (a, b]] .
(0.4.6)
n∈M
n∈M
für alle kn -dimensionalen (a, b] zu verifizieren.
Ist die Unabhängigkeit endlich vieler diskreter Zufallsvariablen nachzuweisen, ist
das folgende Lemma hilfreich:
Lemma 0.4.7. Sei (Xn )1≤n≤m eine Familie diskreter Zufallsvariablen auf Ω, wobei
Xn (Ω) = {xn1 , xn2 , . . .} Aufzählungen ihrer Wertebereiche sind Die Zufallsvariablen
Xn sind genau dann unabhängig, wenn für alle xnin ∈ Xn (Ω) mit n ∈ N gilt:
P
h \m
n=1
i
{Xn = xnin } =
m
Y
P[Xn = xnin ] .
(0.4.7)
n=1
Beweis: Wegen Definition 0.4.6, folgt aus der Unabhängigkeit von (Xn )1≤n≤m
offenbar (0.4.7), da {xnin } ∈ B(Rkn ).
Sei umgekehrt (0.4.7) erfüllt. Wir zeigen, dass eine Gleichung der Form (0.4.5)
gilt. Seien dazu Bn ∈ B(Rkn ). Da die Zufallsvariablen diskret sind, gilt für alle
1 ≤ n ≤ m:
[
X
P[Xn = xni ] .
{Xn = xni } =
P[Xn ∈ Bn ] = P
i: xni ∈Bn
i: xni ∈Bn
Nun folgt weiter
h \m
i
P
{Xn ∈ Bn }
n=1
[
[
···
ω ∈ Ω | X1 (ω) = x1i , . . . , Xm (ω) = xmj
= P
i: x1i ∈B1
j: xmj ∈Bm
X
X
···
P {X1 = x1i } ∩ . . . ∩ {Xm = xmj }
=
i: x1i ∈B1
=
=
j: xmj ∈Bm
X
···
i: x1i ∈B1
j: xmj ∈Bm
X
P[X1 = x1i ] · · ·
i: x1i ∈B1
X
P[X1 = x1i ] · · · P[Xm = xmj ]
X
P[Xm = xmj ]
j: xmj ∈Bm
= P[X1 ∈ B1 ] · · · P[Xn ∈ Bn ] ,
wobei im dritten Schritt die Voraussetzung (0.4.7) verwendet wurde.
22
2
Korollar 0.4.8. Sei (Xn )1≤n≤m eine Familie unabhängiger diskreter Zufallsvariablen auf Ω, wobei Xn (Ω) = {xn1 , xn2 , . . .} Aufzählungen ihrer Wertebereiche sind.
Dann gilt, falls P[X1 = x1i1 , . . . , Xn−1 = x(n−1)i(n−1) ] > 0 erfüllt ist:
P[Xn = xnin | X1 = x1i1 , . . . , Xn−1 = x(n−1)i(n−1) ] = P[Xn = xnin ] .
Beweis: Dies folgt direkt aus Definition 0.3.1 und Lemma 0.4.7.
2
Beispiel 0.4.9 (Zweimaliges Würfeln). Sei Ω := {(i, j) ∈ N × N | 1 ≤ i, j ≤ 6}
und sei P definiert durch P[{(i, j)}] := 1/36. Wir betrachten zwei Zufallvariablen
X1 und X2 auf Ω, definiert durch X1 (i, j) := i, beziehungsweise X2 (i, j) := j. Diese
modellieren den ersten, resp. zweiten Würfelwurf. Die beiden Zufallsvariablen sind
unabhängig, weil
P [{X1 = i} ∩ {X2 = j}] =
1
= P[X1 = i]P[X2 = j]
36
für alle 1 ≤ i, j ≤ 6 gilt.
Eine 0.4.7 entsprechende Aussage für unabhängige Zufallsvariablen mit Dichten
kann mit Hilfe der Masstheorie ebenfalls bewiesen werden. Der Beweis ist nicht allzu
schwierig. Der Satz soll hier dennoch lediglich als Bemerkung formuliert werden:
Bemerkung 0.4.10. Seien Xi : Ω → R Zufallsvariablen für alle 1 ≤ i ≤ n. Sei
weiter der Zufallsvektor X := (X1 , . . . , Xn ) : Ω → Rn gegeben. Dann gilt:
1. Sind die Xi unabhängig und haben die Dichten fXi , so hat X eine Wahrscheinlichkeitsdichte fX , gegeben durch
fX (x1 , . . . , xn ) := fX1 (x1 ) · · · fXn (xn ) .
2. Hat der Zufallsvektor X die eine Dichte der Form fX := fX1 · · · fXn , so sind
die Xi unabhängig und besitzen die Dichten fXi .
Die nächsten zwei Sätze können in Kombination verwendet werden, um die Unabhängigkeit von Zufallsvariablen auf die Unabhängigkeit anderer Zufallsvariablen
zurückzuführen.
Satz 0.4.11. Seien Xn : Ω → R, 1 ≤ n ≤ m, unabhängige Zufallsvariablen.
Gegeben seien weiter die Zufallsvektoren
Yij := (Xij +1 , Xij +2 , . . . , Xij+1 ) : Ω → Rij+1 −ij ,
wobei 1 ≤ j < q für ein festes q ≤ m, und i1 := 1, iq := m. Dann sind die
Zufallsvektoren (Yij )1≤j<q unabhängig.
Beweis: Um die Unabhängigkeit der Zufallsvektoren Yij zu zeigen, betrachten
wir im Hinblick auf (0.4.6) Intervalle der Form (aij +1 , bij +1 ] × · · · × (aij+1 , bij+1 ] ⊂
Rij+1 −ij . Es gilt dann
\
q−1 P
Yij ∈ (aij +1 , bij +1 ] × · · · × (aij+1 , bij+1 ]
j=1
\
q−1 \ij+1 −ij = P
Xij +s ∈ (aij +s , bij +s ]
j=1
=
q−1
Y
j=1
=
q−1
Y
j=1
P
s=1
\
ij+1 −ij s=1
Xij +s ∈ (aij +s , bij +s ]
P Yij ∈ (aij +1 , bij +1 ] × · · · × (aij+1 , bij+1 ] .
23
Die Unabhängigkeit ist damit gezeigt.
2
Satz 0.4.12. Seien Xn : Ω → Rkn , 1 ≤ n ≤ m unabhängige Zufallsvariablen. Seien
weiter messbare Abbildungen ϕn : Rkn → Rln , für 1 ≤ n ≤ m, gegeben. Dann sind
die Zufallsvariablen ϕn (Xn ) : Ω → Rln unabhängig.
Beweis: Dies folgt direkt aus (0.4.5) und der Messbarkeit der Abbildungen ϕn . 2
Dieses nützliche Korollar, das im nächsten Abschnitt noch häufig angewendet werden wird, folgt direkt aus den zwei vorhergehenden Sätzen:
Korollar 0.4.13. Seien Xn : Ω → R, 1P≤ n ≤ m + 1 unabhängige Zufallsvariablen.
m
Dann sind die Zufallsvariablen Sm := n=1 Xn und Xm+1 unabhängig.
Beweis:
Nach Satz 0.4.11 sind (X1 , . . . , Xm ) und Xm unabhängig. Da ϕ(X1 , . . . , Xm ) :=
Pm
X
messbar ist, folgt die Behauptung jetzt mit Satz 0.4.12.
2
n
n=1
Summen unabhängiger Zufallsvariablen
Es soll nun die Frage nach der Verteilung der Summe unabhängiger Zufallsvariablen
untersucht werden. Obwohl diese Frage für beliebige endliche Familien unabhängiger Rk -wertiger Zufallsvariablen mittels der Faltung ihrer Verteilungen beantwortet
werden kann, werden wir uns hier auf den Fall der diskreten Zufallsvariablen und
den Fall der R-wertigen Zufallsvariablen, deren Verteilungen durch Dichten gegeben
sind, beschränken.
Satz 0.4.14 (Faltungformel im diskreten Fall). Seien X, Y : Ω → Rk unabhängige diskrete Zufallsvariablen. Sei (xi )i≥1 eine Aufzählung des Wertebereichs
von X. Dann gilt für z ∈ Rk
P[X + Y = z] =
∞
X
P[X = xi ]P[Y = z − xi ] .
i=1
Beweis: Der Satz folgt direkt aus der Formel der totalen Wahrscheinlichkeit 0.3.3:
P[X + Y = z]
=
=
=
∞
X
i=1
∞
X
i=1
∞
X
P[X = xi ]P[X + Y = z | X = xi ]
P[X = xi ]P[Y = z − xi | X = xi ]
P[X = xi ]P[Y = z − xi ] ,
i=1
wobei der letzte Schritt wegen der Unabhängigkeit der X und Y mit Korollar 0.4.8
folgt.
2
Satz 0.4.15 (Faltungsformel im stetigen Fall). Seien X, Y : Ω → R unabhängige Zufallsvariablen mit Dichten fX , resp. fY . Dann hat die Zufallsvariable X + Y
eine Dichte fX+Y , gegeben durch
Z +∞
fX (x)fY (z − x) dx
fX+Y (z) =
−∞
für z ∈ R.
24
Beweis: Da die Zufallsvariablen X und Y unabhängig sind, hat der Zufallsvektor
(X, Y ) : Ω → R2 wegen Bemerkung 0.4.10 die Dichte f(X,Y ) = fX fY .
Ist z ∈ R fest gegeben, so gilt X(ω) + Y (ω) ≤ z genau dann, wenn (X, Y )(ω) ∈
B := {(x, y) ∈ R2 | x + y ≤ z}. Mit Gleichung (0.1.9) folgt dann
Z
Z
P[X + Y ≤ z] =
f(X,Y ) (x, y) d(x, y)
fX (x)fY (y) d(x, y) ,
B
B
und mit dem Transformationssatz für integrierbare Funktionen und der Transformation (x, y) 7→ (x, y − x) weiter
Z
Z
fX (x)fY (y) d(x, y) =
fX (x)fY (y − x) d(x, y) ,
B0
B
wobei B 0 := {(x, y) ∈ R2 | y ≤ z} = (−∞, +∞) × (−∞, z]. Mit dem Satz von Fubini
erhalten wir schliesslich
Z
Z z Z +∞
fX (x)fY (y − x) d(x, y) =
fX (x)fY (y − x) dx dy .
B0
−∞
−∞
2
Betrachten wir einige Beispiele:
Beispiel 0.4.16. Seien Xi : Ω → {0, 1}, 1 ≤ i ≤ n + 1,P
unabhängige Be(p)-verteilte
n
Zufallsvariablen. Dann gilt Sn ∼ Bi(n, p), wobei Sn := i=1 Xi . Wir beweisen dies
durch vollständige Induktion über n.
Für n = 1 gilt S1 = X1 ∼ Be(p) = Bi(1, p).
Sei daher n > 1 und Sn ∼ Bi(n, p). Wegen Korollar 0.4.13 sind Sn und Xn+1
unabhängig. Daher folgt mit Satz 0.4.14 für alle 1 ≤ k ≤ n + 1:
P[Sn+1 = k]
= P[Sn + Xn+1 = k]
= P[Xn+1 = 0]P[Sn = k] + P[Xn+1 = 1]P[Sn = k − 1]
n k
n
= (1 − p)
p (1 − p)n−k + p
pk−1 (1 − p)n−k+1
k
k−1
n
n
+
pk (1 − p)n+1−k
=
k
k−1
n + 1 n+1
=
p
(1 − p)n+1−k .
k
Beispiel 0.4.17. Seien X, Y : Ω → Z+ unabhängige Zufallsvariablen, wobei X ∼
Po(λ) und Y ∼ Po(µ). Dann ist die Summe dieser Zufallsvariablen wieder Poissonverteilt: X + Y ∼ Po(λ + µ).
Wir verwenden für den Beweis wiederum die Faltungsformel 0.4.14. Für k ∈ Z+
gilt so:
P[X + Y = k]
=
=
=
=
∞
X
P[X = i]P[Y = k − i]
i=0
∞
X
e−λ λi e−µ µk−i
i! (k − i)!
i=0
∞ e−(λ+µ) X k i k−i
λµ
k!
i
i=0
e−(λ+µ)
(λ + µ)k .
k!
25
Mit analogen Argumenten wie bei den ersten beiden Beispielen lässt sich zeigen:
1. Die Summe von n unabhängigen Z+ -wertigen Ge(p)-verteilten Zufallsvariablen ist NB(n, p)-verteilt.
2. Die Summe von n unabhängigen NE(λ)-verteilten Zufallsvariablen ist Γ(n, λ)verteilt.
3. Sind X ∼ N (µ1 , σ12 ) und Y ∼ N (µ2 , σ22 ) unbhängige Zufallsvaraiblen, so ist
X + Y ∼ N (µ1 + µ2 , σ12 + σ22 ). Die Summen unabhängiger normalverteilter
Zufallsvariablen sind also wieder normalverteilt.
Bei den beiden folgenden, ein wenig umfangreicheren Beispielen kommt die Multinomialverteilung ins Spiel:
Pd
Beispiel 0.4.18. Seien für 1 ≤ j ≤ d Zahlen pj ≥ 0 mit j=1 pj = 1 gegeben.
Seien weiter unabhängige Zufallsvektoren Xi : Ω → Zd+ , 1 ≤ i ≤ n, gegeben, deren
Verteilung durch
(
0
wenn z 6= ej für alle j ∈ {1, . . . , d}
P[Xi = z] =
pj wenn z = ej für ein j ∈ {1, . . . , d}
definiert ist. Hierbei sei ej der j-te Einheitsvektor in Zd+ .
Pn
Wir zeigen mit vollständiger Induktion über n, dass die Summe Sn :=
i=1 Xi
MNd (n; p1 , . . . , pd )-verteilt ist, also
P[Sn = (n1 , . . . , nd )] =
(
0
Pd
für
n!
n1 !···nd !
nj
j=1 pj
Qd
j=1
Pd
für
j=1
nj 6= n
nj = n
Sei n = 1. In diesem Fall ist (n1 , . . . , nd ) = ej für ein 1 ≤ j ≤ d, äquivalent zu
Pd
Pd
k=1 nk = 1. Wenn
k=1 nk 6= 1 gilt, so haben wir nach Definition der Xi
P[S1 = (n1 , . . . , nd )] = P[X1 = (n1 , . . . , nd )] = 0 .
Pd
Wenn k=1 nk = 1 gilt, so existiert ein j mit nj = 1 und nk = 0 für alle k mit
k 6= j. Hier haben wir
P[S1 = (n1 , . . . , nd )] = P[X1 = (n1 , . . . , nd )] = pj =
Y
1!
p0k p1j .
1!0! · · · 0!
k6=j
Sei nun n > 1. Es gilt mit Korollar 0.4.13 Satz 0.4.14 folgt
P[Sn = (n1 , . . . , nd )]
= P[Sn−1 + Xn = (n1 , . . . , nd )]
∞
X
=
P[Xn = xi ]P[Sn−1 = (n1 , . . . , nd ) − xj ]
i=1
=
d
X
pj P[Sn−1 = (n1 , . . . , nd ) − ej ] .
(0.4.8)
j=1
Die Induktionsvoraussetzung für Sn−1 besagt, dass P[Sn−1 = (n1 , . . . , nd ) − ej ] = 0
Pd
für alle 1 ≤ j ≤ d genau dann gilt, wenn k=1 nk − 1 6= n − 1. Dies ist äquivalent
Pd
zu k=1 nk 6= n. Weiter erhält man in diesem Fall wegen (0.4.8)
P[Sn = (n1 , . . . , nd )] = 0 .
26
Ist andererseits
Pd
k=1
P[Sn = (n1 , . . . , nd )]
nk − 1 = n − 1, resp.
= p1
Pd
k=1
nk = n, so erhalten wir
Y n
(n − 1)!
pk k pn1 1 −1
(n1 − 1)!n2 ! · · · nd !
k6=1
Y n n −1
(n − 1)!
+ · · · + pd
pk k pd d
n1 ! · · · nd−1 !(nd − 1)!
k6=d
=
d
d
Y
(n − 1)!(n1 + · · · + nd ) Y nk
n!
pk =
pnk k .
n1 ! · · · n d !
n 1 ! · · · nd !
k=1
k=1
Damit ist die Behauptung bewiesen.
Beispiel 0.4.19. Seien (Xi )1≤i≤d unabhängige Poisson-verteilte Zufallsvariablen,
Pd
Xi ∼ Po(λi ) für alle 1 ≤ i ≤ d. Wir setzen λ := i=1 λi . Sei weiter n ∈ N fest.
Was ist die Verteilung des Zufallsverktors (X1 , . . . , Xd ) : Ω → Zd+ unter der BedinPd
gung i=1 Xi = n?
Pd
Beispiel 0.4.17 und Korollar 0.4.13 zeigen, dass i=1 Xi ∼ Po(λ) gilt. Daher ist
X
d
e−λ λn
>0,
c := P
Xi = n =
i=1
n!
Pd
und die bedingte Wahrscheinlichkeit P (X1 , . . . , Xd ) = (n1 , . . . , nd ) i=1 Xi = n
für alle Tupel (n1 , . . . , nd ) ∈ Zd+ wohldefiniert.
Pd
Wir wählen nun (n1 , . . . , nd ) ∈ Zd+ mit i=1 ni = n. Dann gilt:
Xd
P (X1 , . . . , Xd ) = (n1 , . . . , nd )
Xi = n
i=1
Xd
1
=
P (X1 , . . . , Xd ) = (n1 , . . . , nd ),
Xi = n
i=1
c
=
=
=
d
1
1 Y
P[X1 = n1 , . . . , Xd = nd ] =
P[Xi = ni ]
c
c i=1
n
d
d 1 Y e−λi λni i
1 −λ n Y λi i 1
= e λ
c i=1 ni !
c
λ
ni !
i=1
n
n
d d Y
1 e−λ λn Y λi i n!
λi i n!
=
.
c n! i=1 λ
ni !
λ
ni !
i=1
Pd
Ist (n1 , . . . , nd ) ∈ Zd+ mit i=1 ni 6= n, so ist
Xd
P (X1 , . . . , Xd ) = (n1 , . . . , nd ) i=1
Xi = n = 0 .
Damit gilt für alle (n1 , . . . , nd ) ∈ Zd+ die Gleichung
Xd
P (X1 , . . . , Xd ) = (n1 , . . . , nd )
Xi = n = P[Y = (n1 , . . . , nd )] ,
i=1
wobei Y : Ω → Zd+ , Y ∼ MNd (n; λ1 /λ, . . . , λd /λ).
Mit anderen Worten: Die Verteilung des Zufallsvektors (X1 , . . . , Xd ) von Po(λi )Pd
verteilten Zufallsvariablen, unter der Bedingung i=1 Xi = n, ist die Multinomialverteilung MNd (n; λ1 /λ, . . . , λd /λ).
27
0.5
Der Erwartungswert
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Definition 0.5.1. Sei X : Ω → R+ eine nicht-negative Zufallsvariable. Der Erwartungwert von X wird definiert als
Z
E(X) :=
X dP ∈ R+ ∪ {∞} .
(0.5.1)
Ω
Ist X eine nicht-negative diskrete Zufallsvariable, so erhalten wir gerade
X
E(X) =
X(ω) P[{ω}] .
(0.5.2)
ω∈Ω
Aus (0.5.1) folgt mittels des Transformationssatzes für Masse
Z
E(X) =
x dPX ,
(0.5.3)
[0,∞)
beziehungsweise im diskreten Fall aus (0.5.2)
E(X) =
∞
X
xi P[X = xi ] ,
(0.5.4)
i=1
wobei (xi )i≥1 eine Abzählung des Wertebereichs von X ist.
Ist die Verteilung PX von X durch eine Dichte fX bestimmt, so folgt (0.5.3) mit
Transformationssatz für Masse mit Dichten weiter
Z ∞
E(X) =
xfX (x) dx .
(0.5.5)
0
Bemerkung 0.5.2. Der Erwarungswert von X ≥ 0, wobei X diskret ist oder eine
Dichte besitzt, kann auch in der Form
Z ∞
Z ∞
E(X) =
P[X > x] dx =
(1 − FX (x)) dx
0
0
geschrieben werden. Hierbei bezeichnet FX die Verteilungsfunktion von X.
Im diskreten Fall mit X(Ω) = {x1 , x2 , x3 , . . .} sieht man dies durch
Z ∞
Z ∞ X
P[X > x] dx =
P[X = xi ] dx
0
0
=
=
=
Z
i: xi >x
∞
0
∞
X
i=1
∞
X
X∞
i=1
1{xi >x} P[X = xi ] dx
P[X = xi ]
Z
∞
0
1{xi >x} dx
xi P[X = xi ] .
i=1
Hat X andererseits eine Dichte fX , so folgt die Aussage durch partielle Integration
Z ∞
Z ∞
∞
E(X) :=
xfX (x) dx = [xFX (x)]0 −
FX (x) dx
0
0
und der Eigenschaft, dass
∞
[xFX (x)]0 = lim xFX (x) = lim x =
x→∞
x→∞
28
Z
0
∞
1 dx .
Betrachten wir nun einige Beispiele von Erwartungswerten nicht-negativer Zufallvariablen.
Beispiel 0.5.3. Sei X : Ω → {0, 1} Be(p)-verteilt. In diesem Fall folgt mit (0.5.4)
E(X) = 0 · P[X = 0] + 1 · P[X = 1] = p .
(0.5.6)
Beispiel 0.5.4. Sei Y : Ω → Z+ Po(λ)-verteilt. Dann gilt wegen (0.5.4)
=
E(X)
∞
X
i P[Y = i] =
i=0
∞
X
ie−λ
i=1
λi
i!
∞
∞
X
X
λi
λi−1
= λe−λ
= λe−λ
(i − 1)!
i!
i=1
i=0
= λe−λ eλ = λ .
Beispiel 0.5.5 (Erwartungswert unendlich). Sei Z : Ω → Z+ . Sei
−1
X
∞
1
c :=
.
n=0 1 + n2
Es gilt c < ∞. Definiere weiter
P[Z = n] = PZ [{n}] :=
c
1 + n2
für alle n ∈ Z+ . Wegen der Wahl von c ist PZ eine wohldefinierte Wahrscheinlichkeit auf 2Z+ . Für den Erwartungswert von Z gilt nun mit (0.5.4)
E(Z) =
∞
X
n=0
n
∞
X
c
=
1 + n2
n=1
1
n
∞
X
c
c
= ∞,
≥
1
+
n
+n
n=1
somit E(Z) = ∞.
Bisher wurden lediglich nicht-negative Zufallsvariablen und deren Erwartungswerte betrachtet. Die Definition des Erwartungswerts für eine beliebige reell-wertige
Zufallsvariablen wird zurückgeführt auf die Definition für nicht-negative Zufallsvariablen. Man definiert für eine Zufallsvariable X
X + := max(X, 0) und X − := min(X, 0) .
Sowohl X + als auch X − sind Zufallsvariablen. Offenbar ist X + ≥ 0, X − ≤ 0,
X = X + + X − und |X| = X + − X − .
Definition 0.5.6. Sei X eine reelle Zufallsvariable. Wir sagen der Erwartungswert
von X existiere, wenn E(X + ) < ∞ oder E(−X − ) < ∞ gilt.
In einem solchen Fall wird der Erwartungswert von X definiert durch
E(X) := E(X + ) − E(−X − ) ∈ R ∪ {±∞} .
Die Existenz des Erwartungswerts gemäss Definition 0.5.6 besagt, dass dieser als
Wert in R ∪ {±∞} gegeben ist.
Eine hinreichende Bedingung für die Existenz des Erwartungswerts von X ist
E(|X|) < ∞ .
Denn es gilt 0 ≤ X + ≤ |X| und 0 ≤ −X − ≤ |X| und somit folgt mit Definition
0.5.1 wegen der Monotonie des Integrals
E(X + ) ≤ E(|X|) < ∞ und E(−X − ) ≤ E(|X|) < ∞ .
29
Die Bedingung ist also äquivalent zur Intergrierbarkeit von X. Es gilt dann
Z
E(X) =
X dP .
Ω
Der Erwartungswert ist hier als (endliche) Zahl in R gegeben.
Mittels Transformationen erhalten wir die (0.5.2) bis (0.5.5) entsprechenden Gleichungen im allgemeinen Fall. Also beispielsweise
Z +∞
E(X) =
xfX (x) dx ,
(0.5.7)
−∞
wenn die Verteilung von X durch eine Dichte fX festgelegt ist.
Wir werden im folgenden, wenn nicht anders erwähnt, stets die Bedingung E(|X|) <
∞ voraussetzen.
Bemerkung 0.5.7. Ist eine Zufallsvariable X : Ω → R und eine messbare Funktion
ϕ : R → R gegeben, so folgt aus dem Transformationssatz, dass der Erwartungswert
von ϕ(X) genau dann existiert, wenn die Funktion ϕ PX -integrierbar ist, und dass
in diesem Fall gilt
Z
Z
E(ϕ(X)) =
ϕ(X) dP =
Ω
ϕ dPX .
(0.5.8)
R
Im diskreten Fall haben wir so gerade
E(ϕ(X)) =
∞
X
ϕ(xi )P[X = xi ] .
i=1
Ist die Verteilung von X durch eine Dichte fX gegeben, so erhält man aus (0.5.8)durch
eine weitere Transformation
Z +∞
E(ϕ(X)) =
ϕ(x)fX (x) dx .
(0.5.9)
−∞
Berechnen wir nun einige Erwartungswerte im allgemeinen Fall:
Beispiel 0.5.8. Sei X : Ω → R mit X ∼ N (0, 1). Wir zeigen zunächst, dass
E(|X|) < ∞. Als Verteilungsfunktion von |X| erhält man
F|X| (x) = 2Φ0,1 (x) − 1 ,
für x ∈ R, und als Dichte somit
f|X| (x) =
0
2ϕ0,1 (x)
für
für
x<0
.
x≥0
Die Berechnung von E(|X|) folgt analogen Argumenten, wie sie im Beispiel am Ende
von Abschnitt 0.2 verwendet wurden:
Z ∞
Z ∞
x2
2
x 2ϕ0,1 (x) dx = √
xe− 2 dx
E(|X|) =
2π 0
0
2
2 h − x2 i∞
−e 2
=√
<∞.
= √
0
2π
2π
Der Erwartungswert von X existiert somit. Es gilt weiter
Z +∞
Z +∞
h
i+∞
x2
x2
1
E(X) =
xϕ0,1 (x) dx = √
xe− 2 dx = −e− 2
=0.
−∞
2π −∞
−∞
30
Beispiel 0.5.9. Sei Y : Ω → R eine beliebige endliche reell-wertige Zufallsvariable
mit Wertebereich Y (Ω) = {y1 , y2 , . . . , yn } und P[Y = yi ] := n−1 für alle 1 ≤ i ≤ n.
Da Y nur endlich viele Werte annimmt, is der Erwartungswert von Y im Sinne
von Definition 0.5.6 existent, und wir haben
E(Y ) =
n
X
n
yi P[Y = yi ] =
i=1
1X
yi =: ȳ .
n i=1
Der Erwartungswert entspricht also genau dem arithmetischen Mittel der Werte
von Y .
Beispiel 0.5.10 (Erwartungswert nicht existent). Sei Z : Ω → R eine C(0, 1)verteilte Zufallsvariable. Der Erwartungswert von Z existiert im Sinne der Definition 0.5.6 nicht:
Die Dichte der Standard-Cauchy-Verteilung ist nach (0.1.10)
f0,1 (x) :=
1
.
π(1 + x2 )
Damit gilt wegen Gleichung (0.5.9)
Z +∞
Z
E(X + ) =
max(x, 0)f0,1 (x) dx =
−∞
=
=
∞
xf0,1 (x) dx
0
Z
Z ∞
1 ∞ x
1
1
=
dy
2
π 0 1+x
2π 0 1 + y
1
[log(1 + y)]∞
0 =∞,
2π
wobei die Substitution y = x2 verwendet wurde. Genauso erhält man E(−X − ) = ∞.
Satz 0.5.11 (Eigenschaften des Erwartungswerts). Seien X und Y Zufallsvariablen mit E(|X|) < ∞, beziehungsweise E(|Y |) < ∞. Sei weiter c ∈ R eine
Konstante. Dann gilt:
i) Ist X ≥ 0 P-fast sicher, so gilt E(X) ≥ 0.
ii) |E(X)| ≤ E(|X|).
iii) E(cX) = c E(X), insb. E(c) = c.
iv) E(X + Y ) = E(X) + E(Y ).
v) Ist X ≥ Y P-fast sicher, so folgt E(X) ≥ E(Y ).
vi) Sind X und Y unabhängig, so gilt E(|XY |) < ∞ und weiter E(XY ) =
E(X)E(Y ).
Beweis: Die Aussagen i) bis iv) folgen aus der Definition des Erwartungswerts als
Integral bezüglich des Wahrscheinlichkeitsmasses P.
Die Aussage v) kann auf i) zurückgeführt werden: Es gilt X − Y ≥ 0 P-fast sicher,
und daher E(X − Y ) ≥ 0. Danach schliesst man mit iii) und iv).
Die Aussage vi)
NOCH ZU ZEIGEN......
2
Bemerkung 0.5.12. In Aussage v) von Satz 0.5.11 ist es hinreichend E(|Y |) < ∞
vorauszusetzen und keine Bedingung an den Erwartungswert von X zu stellen. Denn
aus X ≥ Y folgt −X − ≤ −Y − ≤ |Y | und weiter E(−X − ) ≤ E(|Y |) < ∞. Nach
Definition 0.5.6 existiert also der Erwartungswert von X. Im Fall E(X) = ∞ gilt
dann natürlich E(X) ≥ E(Y ).
31
Beispiel 0.5.13. Die Umkehrung der Aussage in Satz 0.5.11 vi) gilt nicht, wie
folgende Situation zeigt:
Wir betrachten eine Zufallsvariable X, die die Werte −1, 0 und 1 mit je der Wahrscheinlichkeit 1/3 annimmt. Sei weiter die Zufallsvariable Y := X 2 gegeben. Diese
nimmt offenbar den Wert 0 mit der Wahrscheinlichkeit 1/3 und den Wert 1 mit
der Wahrscheinlichkeit 2/3 an. Weil
P[X = 1, Y = 0] = 0 6=
1
= P[X = 1]P[Y = 0]
9
gilt, sind die Zufallsvariablen nicht unabhängig. Es gilt jedoch E(X) = 0, E(Y ) =
2/3 und E(XY ) = E(X 3 ) = 0, also
E(X)E(Y ) = E(XY ) .
Pn
Beispiel 0.5.14. Sei Sn ∼ Bi(n, p), das heisst Sn = i=1 Xi , wobei Xi ∼ Be(p)
für 1 ≤ i ≤ n unabhängige Bernoulli-verteilte Zufallsvariablen sind. Mit Aussage
iv) von Satz 0.5.11 erhalten wir unter Beachtung von (0.5.6)
E(Sn ) =
n
X
E(Xi ) = np .
i=1
Beispiel 0.5.15. Aus Beispiel 0.5.8 wissen wir, dass für eine standardnormalverteilte Zufallsvariable X gilt E(X) = 0. Wir betrachten jetzt für µ ∈ R und σ ∈ (0, ∞)
die Zufallvariable Y := σX + µ ∼ N (µ, σ 2 ). Mit Satz 0.5.11 iii) und iv) folgt
E(Y ) = σE(X) + µ = µ .
Satz 0.5.16 (Jensen-Ungleichung). Sei X : Ω → R eine Zufallsvariable mit
E(|X|) < ∞. Sei f : R → R eine konvexe Funktion. Dann ist f (X) eine Zufallsvariable. Existiert der Erwartungswert von f (X), so gilt
f (E(X)) ≤ E(f (X)) .
Beweis: Sei a ∈ R beliebig aber fest. Es kann gezeigt werden, dass die Konvexität
0
(a) und rechtsseitigen Ableitung
von f die Existent der linksseitigen Ableitung f−
0
f+ (a) nach sich zieht. Die Funktion f ist daher stetig und somit messbar, f (X) also
eine wohldefinierte Zufallsvariable.
Es gilt für alle x ∈ R
0
f (x) ≥ f (a) + (x − a)f+
(a) ,
0
(a). Existiert
und insbesondere für alle ω ∈ Ω f (X(ω)) ≥ f (a) + (X(ω) − a)f+
E(f (X)), so impliziert Satz 0.5.11 v), iii) und iv) und Bemerkung 0.5.12
0
E(f (X)) ≥ f (a) + (E(X) − a)f+
(a) .
Mit a := E(X) folgt die Behauptung.
2
Einen wichtigen Spezialfall der Jensenschen Ungleichung erhält man für f (x) := x2 :
E(X 2 ) = E(|X|2 ) ≥ E(|X|).
Existiert also der Erwartungswert von X 2 als endlicher Wert, so gilt dasselbe für
den Erwartungswert von X.
Mit Hilfe der Jensen-Ungleichung kann gezeigt werden, dass für eine Zufallsvariable
X die Funktion g : [1, ∞) → [0, ∞], definiert durch
g(r) := E(|X|r )1/r ,
monoton wachsend ist. Sind insbesondere m, n ∈ N mit m < n, so folgt aus
E(|X n |) < ∞ auch E(|X m |) < ∞.
32
Beispiel 0.5.17. Dieses Beispiel zeigt, dass von E(|X|) < ∞ nicht auf E(X 2 ) < ∞
geschlossen werden kann. Zugleich zeigt es, dass die Endlichkeitsaussage in Satz
0.5.11 vi) nicht unbedingt mehr gilt, falls die Voraussetzung der Unabhängigkeit
fallengelassen wird.
Dazu sei eine Zufallsvariable mit der Dichte
2x−3 für x ≥ 1
f (x) :=
0 für x < 1
Dann gilt
E(|X|) = E(X) =
∞
Z
x 2x−3 dx = 2 < ∞ ,
1
aber mit Y := X erhält man
2
E(|XY |) = E(X ) =
Z
∞
x2 2x−3 = ∞ .
1
Satz 0.5.18 (Cauchy-Schwarz-Ungleichung). Seien X und Y Zufallsvariablen
auf Ω mit E(X 2 ) < ∞ und E(Y 2 ) < ∞. Dann gilt E(|XY |) < ∞ und weiter
E(XY )2 ≤ E(X 2 )E(Y 2 ) .
Beweis: Für alle ω ∈ Ω gilt
|X(ω)Y (ω)| ≤
1
(X(ω)2 + Y (ω)2 ) .
2
Mit Satz 0.5.11 v) und iv) und den Voraussetzungen erhalten wir
E(|XY |) ≤
1
(E(X 2 ) + E(Y 2 )) < ∞ .
2
Sei a ∈ R beliebig. Weil (X − aY )2 ≥ 0 gilt, können wir mit Satz 0.5.11 iii) und iv)
abschätzen, dass
E(X 2 ) − 2a E(XY ) + a2 E(Y 2 )
= E(X 2 − 2aXY + a2 Y 2 ) = E((X − aY )2 ) ≥ 0 .
(0.5.10)
Es werden jetzt zwei Fälle unterschieden:
Fall 1: Sei E(X 2 ) 6= 0 oder E(Y 2 ) 6= 0. Wir wählen ohne Einschränkung E(Y 2 ) 6= 0
und setzen
E(XY )
a :=
.
E(Y 2 )
Mit (0.5.10) folgt dann
E(X 2 ) −
E(XY )
≥0.
E(Y 2 )
Die Annahme E(X 2 ) führt mittels einer Symmetrieüberlegung zum selben Ziel.
Fall 2: Sei E(X 2 ) = E(Y 2 ) = 0. Dann gilt wegen (0.5.10)
−2a E(XY ) ≥ 0 .
Dies ist jedoch nur wenn E(XY ) = 0 für alle a ∈ R erfüllbar. Die Cauchy-SchwarzUngleichung gilt also auch in diesem Fall.
2
Bemerkung 0.5.19. Mit Hilfe von Gleichung (0.5.10) kann man sich überlegen,
dass in der Cauchy-Schwarz-Ungleichung genau dann Gleichheit gilt, wenn X und
Y P-fast sicher linear abhängig sind, nämlich X = aY .
33
Anwedung des Erwartungswerts: Abschätzen von Ramsey-Zahlen
In diesem Abschnitt werden wir Färbungen von Graphen betrachten. Was ist darunter anschaulich zu verstehen?
Einen Graphen in der Ebene kann man sich vorstellen als eine endliche Menge von
Punkten, den Knoten, wobei je zwei Punkte durch eine gerade Linie, eine Kante,
verbunden sein können oder nicht. Vollständige Graphen sind solche, bei denen jeder Knoten mit jedem anderen Knoten durch eine Kante verbunden ist. Bei einer
2-Färbung wird jede Kante eines Graphen mit einer aus zwei möglichen Farben
versehen.
Betrachten wir einen vollständigen Graphen mit n Knoten, so können wir uns fragen, wie gross die kleinste Anzahl n von Punkten ist, so dass wir bei jeder möglichen
2-Färbung des Graphen stets ein Dreieck mit drei gleichfarbigen Seiten erhalten.
Um diese Frage zumindest näherungsweise zu beantworten, formalisieren wir die
oben eingeführten Begriffe. Da bei einem vollständigen Graphen jeder Knoten mit
jedem anderen Knoten verbunden ist, liefert eine Angabe der Kanten keine weitere
Information, wir können also definieren:
Definition 0.5.20. Ein vollständiger Graph mit n Knoten in R2 ist eine endliche
Menge
Kn := {xi ∈ R2 | 1 ≤ i ≤ n}
von Elementen in R2 . Wir nennen die xi für alle 1 ≤ i ≤ n Knoten und die Mengen
{xi , xj }, wobei i 6= j für alle 1 ≤ i, j ≤ n die Kanten des Graphen. Mit
En := {xi , xj } 1 ≤ i, j ≤ n, i 6= j
bezeichen die Menge der Kanten des Graphen Kn .
Definition 0.5.21. Eine 2-Färbung f eines vollständigen Graphen Kn ⊂ R2 ist
eine Abbildung
f : En → {0, 1} .
Definition 0.5.22. Ist ein vollständiger Graph Kn := {xi ∈ R2 | 1 ≤ i ≤ n} gegeben, so sagen wir Kn enthalte ein monochromes k-Eck, wenn es einen vollständigen
Graphen Lk ⊂ Kn gibt, für dessen Kantenmenge Ek entweder
f (Ek ) = 0 oder f (Ek ) = 1
gilt.
Definition 0.5.23. Die Zahl
Rk,k
:= min{n ∈ N | jede 2-Färbung von des Graphen Kn
enthält ein monochromes k-Eck}
die k-te Ramsey-Zahl.
Es kann gezeigt werden, dass R3,3 = 6 und R4,4 = 18 ist. Die genauen Werte
der Ramsey-Zahlen Rk,k für k ≥ 5 sind bis heute nicht bekannt. Zumindest kennt
man Abschätzungen, die jedoch für mit wachsendem k immer ungenauer werden:
43 ≤ R5,5 ≤ 49, 102 ≤ R6,6 ≤ 165, 798 ≤ R10,10 ≤ 23556.
Eine von Paul Erdős entdeckte Methode eine untere Grenze für die Zahlen Rk,k zu
bestimmen verwendet Methoden der Wahrscheinlichkeitstheorie, insbesondere den
Begriff des Erwartungswerts. Diese soll im Beweis des folgenden Satzes vorgestellt
werden.
34
Satz 0.5.24 (Erdős). Für jedes k ≥ 3 ist die Ramsey-Zahl Rk,k grösser als 2k/2 .
Beweis: Sei also ein vollständiger Graph Kn ⊂ R2 mit n Knoten und der Kanten(K)
menge En gegeben. Sei weiter k ≥ 3 beliebig, aber fest.
Wir betrachten nun eine zufällige Färbung f von Kn und untersuchen die aus dieser Färbung resultierende Anzahl wf monochromer k-Ecke in Kn . Um f und wf
zu modellieren, konstruieren wir Zufallsvariablen auf einem geeigneten Wahrscheinlichkeitsraum (Ω, F, P). Zunächst betrachten für jede Kante e ∈ En die Be(1/2)verteilte Zufallsvariable
f (e) : Ω → {0, 1} .
(K)
Die Werte der |En | = n2 Zufallsvariablen f (e) bestimmen eindeutig eine Färbung
der Graphen Kn . Die zufällige Zahl der k-Ecke wird dann durch die Zufallsvariable
n
Wf : Ω → 0, 1, 2, . . . ,
k
gegeben, wobei
hn
o n
oi
X
(L)
(L)
Wf (ω) :=
I ω | f (e)(ω) = 1 ∀e ∈ Ek
∪ ω | f (e)(ω) = 1 ∀e ∈ Ek
,
Lk ⊂Kn
wobei über alle vollständigen Graphen Lk ⊂ Kn mit k Knoten und Kantenmengen
(L)
Ek summiert wird. Ist im Extremfall der gesamte Graph Kn monochrom, so ist
offenbar jede k-elementige Teilmenge
von Kn ein monochromes k-Eck. Das heisst
Wf kann höchstens den Wert nk annehmen.
Wir schätzen nun den Erwartungswert von Wf ab. Es gilt mit k ≥ 3:
X
(L)
(L)
E(Wf ) =
E I[{f (e) = 1 ∀e ∈ Ek } ∪ {f (e) = 1 ∀e ∈ Ek }]
Lk ⊂Kn
i
h
i
X h
(L)
(L)
P {f (e) = 1 ∀e ∈ Ek } + P {f (e) = 1 ∀e ∈ Ek }
=
Lk ⊂Kn
=
2
X
h
P {f (e) = 1 ∀e ∈
Lk ⊂Kn
≤ 2
nk
2k
i
(L)
Ek }
(k2)
n
1
=2
2
k
(k2)
2
1
= nk 21−k(k−1)/2−k ≤ nk 2k/2−k(k−1)/2−k = nk 2−k /2
2
2
Ist nun n < 2k/2 , so gilt nk 2−k /2 < 1 und wegen obiger Abschätzung auch
E(Wf ) < 1.
Wegen der Monotonie des Erwartungswerts, Satz 0.5.11 v), haben wir E(Wf ) ≥ 1,
falls Wf ≥ 1 P-fast sicher gilt. Daher muss ein ω ∈ Ω mit P[{ω}] > 0 und Wf (ω) < 1,
also Wf (ω) = 0, existieren.
Somit gibt es für jeden vollständigen Graphen Lk ⊂ Kn mit k Knoten Kanten
(L)
e1 , e2 ∈ Ek , so dass f (e1 )(ω) = 0 und f (e2 )(ω) = 1. Wir haben also eine Färbung
f von Kn gefunden, die kein monochromes k-Eck enthält. Somit muss Rk,k ≥ 2k/2
gelten.
2
Varianz, Kovarianz und Korrelation
Definition 0.5.25. Sei X eine Zufallsvariable mit existierendem Erwartungswert.
Dann heisst
Var(X) := E((X − E(X))2 ) ∈ [0, ∞]
35
die Varianz von X. Weiter nennt man
SA(X) :=
p
Var(X)
die Standardabweichung von X.
Die Varianz von X ist genau dann endlich, wenn E(X 2 ) < ∞. Denn ist E(X 2 )
endlich, so als Folge der Jensen-Ungleichung auch E(X) und nach Definition dann
auch die Varianz, wenn die Linearität des Erwartungswerts verwendet wird. Ist
umgekehrt Var(X) < ∞, so muss notwendigerweise auch E(X) eine endliche Zahl
sein. Dann ist aber
E(X 2 ) = E((X − E(X) + E(X))2 ) = Var(X) + E(X)2 < ∞ .
Satz 0.5.26 (Eigenschaften der Varianz und Standardabweichung). Sei X
eine Zufallsvariable mit E(X 2 ) < ∞ und c ∈ R eine Konstante. Dann gilt:
i) Var(X) = E(X 2 ) − E(X)2 .
ii) SA(X) ≥ E(|X − E(X)|).
iii) Var(X + c) = Var(X).
iv) Var(cX) = c2 Var(X).
v) SA(cX) = c SA(X).
vi) Var(X) ≤ E((X + c)2 ).
Beweis: Mit E(X 2 ) < ∞ folgt auch E(|X|) < ∞ wegen der Jensen-Ungleichung.
Die Aussagen ergeben sich daher aus den Eigenschaften des Erwartungswerts, insbesondere Satz 0.5.11.
2
Beispiel 0.5.27. Sei X : Ω → {0, 1} Be(p)-verteilt. Wir wissen bereits, dass
E(X) = p. Offenbar ist auch X 2 ∼ Be(p) und daher E(X 2 ) = p. Für die Varainz
von X erhält man nun mit Aussage i) von Satz 0.5.26
Var(X) = p − p2 = p(1 − p) .
Beispiel 0.5.28. Sei X eine Po(λ)-verteilte Zufallsvariable. Wir berechnen zunächst
den Erwartungswert der Zufallsvariablen X(X − 1):
E(X(X − 1))
=
∞
X
i(i − 1)eλ
i=0
λi
i!
= λ2
∞
X
eλ
λ( i − 2)
(i − 2)!
= λ2
∞
X
eλ
λi
= λ2
i!
i=2
i=0
Da der Erwartungswert der Zufallsvariable X bereits als λ bekannt ist, erhalten wir
jetzt den Erwartungswert von X 2 durch
λ + λ2 = E(X) + E(X(X − 1)) = E(X + X(X − 1)) = E(X 2 ) .
Die Varianz von X ist dann
Var(X) = E(X 2 ) − E(X)2 = λ + λ2 − λ2 = λ ,
das heisst identisch mit dem Erwartungswert.
36
Beispiel 0.5.29. Sei X ∼ N (0, 1). Wenn gezeigt werden kann, dass E(X 2 ) < ∞,
so gilt nach Satz 0.5.26 i) Var(X) = E(X 2 ) − E(X)2 . Da bereits gezeigt wurde, dass
E(X) = 0, gilt dann gerade Var(X) = E(X 2 ). Der Erwartungswert E(X 2 ) kann mit
partieller Integration berechnet werden:
Z
2
E(X ) =
x2 ϕ0,1 (X) dx
R
Z
−x2
1
x · xe 2 dx
= √
2π R
Z
i+∞
−x2
−x2
1 h
1
1 · e 2 dx
−xe 2
+√
= √
−∞
2π R
2π
Z
= 0 + ϕ0,1 (X) dx = 1 .
R
Die Varianz einer Standard-normalverteilten Zufallsavarablen ist also genau 1.
Ist Y ∼ N (µ, σ 2 ), so können wir schreiben Y = σX + µ, wobei X ∼ N (0, 1). Nach
Satz 0.5.26 iii) und iv) gilt
Var(Y ) = Var(σX + µ) = σ 2 Var(X) = σ 2 .
Beispiel 0.5.30. Sei Z : Ω → R eine beliebige endliche reell-wertige Zufallsvariable
mit Wertebereich Z(Ω) = {z1 , z2 , . . . , zn } und P[Z = zi ] := n−1 für
Pnalle 1 ≤ i ≤ n.
Wir haben den Erwartungswert von Z berechnet als E(Z) = n−1 i=1 zi =: z̄. Die
Varianz ist
∞
Var(Z) = E((Z − E(Z))2 ) = E((Z − z̄)2 ) =
1X
(zi − z̄) .
n i=1
Definition 0.5.31. Seien X und Y zwei Zufallsvariablen mit E(X 2 ) < ∞, resp.
E(Y 2 ) < ∞. Dann heisst
Kov(X, Y ) := E((X − E(X))(Y − E(Y )))
die Kovarianz von X und Y . Gilt Kov(X, Y ) = 0, so heissen die beiden Zufallsvariablen unkorreliert.
Definition 0.5.32. Seien X und Y zwei Zufallsvariablen mit E(X 2 ) < ∞, resp.
E(Y 2 ) < ∞ und Var(X) > 0, Var(Y ) > 0, so heisst die Zahl
Korr(X, Y ) :=
Kov(X, Y )
SA(X) SA(Y )
die Korrelation X und Y .
Satz 0.5.33 (Eigenschaften der Kovarianz und Korrelation). Seien X, Y
und Xi , 1 ≤ i ≤ n, Zufallsvariablen deren Quadrate endiche Erwartungswerte haben. Seien c, d ∈ R Konstanten. Dann gilt:
i) Kov(X, X) = Var(X)
ii) Kov(X, Y ) = E(XY ) − E(X)E(Y )
iii) Die Kovarianz ist skalenabhängig: Kov(cX, cY ) = cd Kov(X, Y )
Pn
Pn
P
iv) Var( i=1 Xi ) = i=1 Var(Xi ) + 2 j<k Kov(Xj , Xk )
v) Sind X und Y unabhängig, so auch unkorreliert.
37
Gilt zudem Var(X) > 0 und Var(Y ) > 0, so ist die Korrelation von X und Y
wohldefiniert und es folgt:
vi) | Korr(X, Y )| ≤ 1
vii) Die Korrelation kann als Mass für die lineare Abhängigkeit zweier Zufallsvariablen verstanden werden: Korr(X, Y ) = 1 gilt genau dann, wenn es ein a > 0
und ein b ∈ R gibt, so dass P-fast sicher Y = aX + b gilt; Korr(X, Y ) = −1
genau dann, wenn es ein a < 0 und ein b ∈ R gibt, so dass P-fast sicher
Y = aX + b gilt.
viii) Die Korrelation ist skalenunabhängig: Korr(cX, dY ) = Korr(X, Y )
Beweis: Alle Aussagen ergeben sich aus den Eigenschaften des Erwartungswerts,
also insbesondere den Aussagen von Satz 0.5.11. Für Punkt vi) und vii) wird zudem
die Cauchy-Schwarz-Ungleichung und die an deren Beweis anschliessende Bemerkung 0.5.19 benötigt.
2
Wir sehen aus Aussage ii) von Satz 0.5.33, dass die Zufallsvariablen X und Y
genau dann unkorreliert sind, wenn E(XY ) = E(X)E(Y ) gilt. Nach Satz 0.5.11 sind
also unabhängige Zufallsvariablen auch unkorreliert, sofern die Korrelation definiert
werden kann. Die Unkehrung gilt nicht, wie Beispiel 0.5.13 zeigt.
Satz 0.5.34 (Bienaymé). Seien Xi , 1 ≤ i ≤ n Zufallsvariablen, deren Quadrate
endliche Varianzen haben. Sind die Zufallvariablen paarweise unkorreliert, so gilt
Var
X n
i=1
n
X
Xi =
Var(Xi ) .
i=1
Beweis: Die Aussage folgt direkt aus Satz 0.5.33 iv) und Definition 0.5.31.
0.6
2
Die Bienaymé-Chebyshev-Ungleichung
und Anwendungen
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Satz 0.6.1 (Markov-Ungleichung). Sei X : Ω → R+ eine nicht-negative
Zufallsvariable mit existierendem Erwartungswert und c > 0 eine Konstante. Dann
gilt die Ungleichung
E(X)
.
P[X ≥ c] ≤
c
Beweis: Wir betrachten die Zerlegung 1 = I[X ≥ c] + I[X < c]. Damit folgt
X = X I[X ≥ c] + X I[X < c] ≥ X I[X ≥ c] ≥ c I[X ≥ c] ,
und für den Erwartungswert von X schliesslich
E(X) ≥ E(c I[X ≥ c]) = c E(I[X ≥ c]) = c P[X ≥ c] ,
also die Behauptung.
2
Es ist zu bemerken, dass nicht immer nützliche Informationen aus der MarkovUngleichung gewonnen werden können, so zum Beispiel falls E(X) = ∞ oder c <
E(X) gilt. Denn in beiden Fällen ist die rechte Seite der Ungleichung stets grösser
als 1.
38
Satz 0.6.2 (Bienaymé-Chebyshev-Ungleichung). Sei Y : Ω → R eine Zufallsvariable mit E(Y 2 ) < ∞ und d > 0 eine Konstante. Dann gilt die Ungleichung
Var(Y )
.
d2
P[|Y − E(Y )| ≥ d] ≤
Beweis: Wegen E(Y 2 ) < ∞ existiert der Erwartungswert von Y und ist insbesondere endlich. Wir wenden die Markov-Ungleichung auf X := (Y − E(Y ))2 und
c := d2 an und erhalten so
P[|Y − E(Y )| ≥ d] = P[(Y − E(Y ))2 ≥ d2 ] = P[X ≥ c] ≤ c−1 E(X) = d−2 Var(Y ) .
2
Die Bienaymé-Chebyshev-Ungleichung ist offenbar nur dann nützlich, wenn wir d >
SA(Y ) wählen, da andernfalls die rechte Seite der Ungleichung grösser als 1 ist.
Bemerkung 0.6.3. Setzen wir im vorhergehenden Satz d := k SA(Y ) für ein k ∈
N, so erhalten wir die praktische Abschätzung
P[|Y − E(Y )| ≥ k SA(Y )] ≤
Var(Y )
1
= 2 .
k 2 SA(Y )2
k
Offenbar erhält man erst für k ≥ 2 nützliche Information.
Als Anwendungen der Bienaymé-Chebyshev-Ungleichung beweisen wir
1. Aussagen über die schwache Konsistenz des Stichprobenmittelwerts und der
Stichprobenvarianz, die insbesondere in der Satistik Verwendung finden und
in Kapitel 1 noch wesentlich verschärft werden,
2. den Approximationssatz von Weierstrass aus der Analysis, demzufolge stetige
Funktionen auf kompakten Intervallen gleichmässig durch Polynome approximierbar sind,
3. und den Satz von Hardy und Ramanujan aus der Zahlentheorie, über die
Verteilung der Anzahl Primteiler natürlicher Zahlen.
Erste Anwendung: Schwache Konsistenz des Stichprobenmittelwerts und der Stichprobenvarianz
Definition 0.6.4. Sei (Xi )i≥1 eine Folge von reellwertigen Zufallsvariablen auf
Ω. Sei X : Ω → R eine weitere Zufallsvariable. Die Folge (Xi )i≥1 konvergiere in
Wahrscheinlichkeit gegen X, wenn für alle ε > 0 gilt:
lim P[|Xn − X| ≥ ε] = 0 .
n→∞
Satz 0.6.5. Sei (Xi )i≥1 eine Folge paarweise unkorrelierter, reeller Zufallsvariablen
mit beschränkten Varianzen Var(Xi ) ≤ A, für ein A > 0. Dann gilt für alle ε > 0:
h
i
Xn
lim P n−1
(Xi − E(Xi )) ≥ ε = 0 .
n→∞
i=1
Beweis: Mit der Bienaymé-Chebyshev-Ungleichung erhält man
h
i
h
i
Xn
Xn
Xn
P n−1
(Xi − E(Xi )) ≥ ε = P n−1
Xi − E n−1
Xi ≥ ε
i=1
i=1
i=1Xn
−2
−1
≤ ε Var n
Xi
i=1
= ε−2 n−2
n
X
i=1
39
Var(Xi ) ≤ ε−2 n−1 A .
Der letzte Ausdruck strebt mit n → ∞ gegen 0 und somit folgt die Behauptung. 2
Definition 0.6.6. Seien Xi : Ω → R, 1 ≤ i ≤ n, unabhängige, identisch verteilte
Zufallsvariablen. Eine Realisierung (x1 , . . . , xn ) := (X1 (ω), . . . , Xn (ω)) ∈ Rn heisst
eine Stichprobe vom Umfang n. Die Zahl
n
µ̂ := x̄(n) :=
1X
xi
n i=1
wird der Stichprobenmittelwert genannt. Der Wert
n
σ̂ 2 :=
2
1 X
xi − x̄(n)
n i=1
Pn
heisst Stichprobenvarianz.
Die entsprechenden Zufallsvariablen X̄ (n) := n−1 i=1 Xi
P
n
und n−1 i=1 (Xi − X̄ (n) )2 ) werden ebenfalls als Stichprobenmittelwert, beziehungsweise Stichprobenvarianz bezeichnet.
Definition 0.6.7. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller
Zufallsvariablen.
Pn
Sei E(|X1 |) < ∞. Der Stichprobenmittelwert
n−1 i=1 Xi heisst schwach konsistent
P
n
für den Erwartungswert E(X1 ), wenn n−1 i=1 Xi mit n → ∞ in Wahrscheinlichkeit gegen E(X1 ) konvergiert.
Sei nun sogar E(X12 ) < ∞. Entsprechend
Pn nennt man die Stichprobenvarianz schwach
konsistent für die Varianz, wenn n−1 i=1 (Xi − X̄ (n) )2 mit n → ∞ in Wahrscheinlichkeit gegen Var(X1 ) konvergiert.
Der folgende Satz gibt eine hinreichende Bedingung an die schwache Konsistenz
des Stichprobenmittelwertes. Der Satz wird manchmal auch Schwaches Gesetz der
grossen Zahlen genannt. Das entsprechende Starke Gesetz der grossen Zahlen ist
Thema von Kapitel 1.
Satz 0.6.8. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen mit endlicher Varianz Var(X1 ). Dann gilt für alle ε > 0
h
i
lim P X̄ (n) − E(X1 ) ≥ ε = 0 .
n→∞
Der Stichprobenmittelwert ist also schwach konsistent für den Erwartungswert, falls
die Varianz endlich ist.
Beweis: Der Satz ist eine direkte Folgerung aus Satz 0.6.5, wenn A := Var(X1 )
gesetzt wird.
2
In Abschnitt 1.1 wurde die Wahrscheinlichkeit p = P[A] eines Ereignisses A anschaulich als Grenzwert der relativen Häufigkeit nA /n, mit der A bei n unabhängigen Experimenten eintritt, interpretiert. Das folgende Korollar zu Satz 0.6.8 zeigt,
dass relative Häufigkeiten, als Mittelwert von unabhängigen Indikatorvariablen geschrieben, in Wahrscheinlichkeit gegen die Wahrscheinlichkeit p konvergieren.
Korollar 0.6.9. Sei (Ai )i≥1 eine Folge unabhängiger Ereignisse mit P[Ai ] = p für
alle i ≥ 1. Dann gilt für alle ε > 0
h
i
Xn
lim P n−1
I[Ai ] − p ≥ ε = 0 .
n→∞
i=1
40
Beweis: Da die Ereignisse Ai unabhängig sind, so sind es auch die Indikatorvariablen I[Ai ]. Weiter ist E(I[A1 ]) = p. Die Behauptung folgt jetzt mit Satz 0.6.8 2
Satz 0.6.10. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen mit E(X14 ) < ∞. Dann gilt für alle ε > 0
2
Xn lim P n−1
Xi − X̄ (n) − Var(X1 ) ≥ ε = 0 .
n→∞
i=1
Unter der Voraussetzung E(X14 ) < ∞ ist die Stichprobenvarianz also schwach konsistent für die Var(X1 ).
Beweis: Im folgenden schreiben wir kurz X̄ an Stelle von X̄ (n) . Wir betrachten
n−1
n
X
(Xi − X̄)2 − Var(X1 )
i=1
= n−1
n
X
= n−1
n
X
Xi2 − E(X12 ) − X̄ 2 + E(X1 )2
= n−1
n
X
Xi2 − E(X12 ) − (X̄ − E(X1 ))2 − 2E(X1 )(X̄ − E(X1 ))
Xi2 − 2Xi X̄ + X̄ 2 − E(X12 ) + E(X1 )2
i=1
i=1
i=1
und erhalten so die Ungleichung
−1 Xn
(Xi − X̄)2 − Var(X1 )
n
i=1
Xn
≤ n−1
Xi2 − E(X12 ) + (X̄ − E(X1 ))2 + 2|E(X1 )||X̄ − E(X1 )| .
i=1
Pn
Falls für ein η > 0 die Abschätzungen |n−1 i=1 Xi2 −E(X12 )| < η und |X̄−E(X1 )| <
η gelten, so folgt nun
−1 Xn
(Xi − X̄)2 − Var(X1 ) < η + η 2 + 2η|E(X1 )| =: ε .
n
i=1
Mit der Bienaymé-Chebyshev-Ungleichung ergibt sich schliesslich
h
i
Xn
P n−1
(Xi − X̄)2 − Var(X1 ) ≥ ε
i=1
h
i
Xn
= 1 − P n−1
(Xi − X̄ (n) )2 − Var(X1 ) < ε
i=1
hn
o i
−1 Xn
≤ 1 − P n
Xi2 − E(X12 ) < η ∩ |X̄ − E(X1 )| < η
i=1
o hn
i
−1 Xn
Xi2 − E(X12 ) ≥ η ∪ |X̄ − E(X1 )| ≥ η
= P n
i=1
i
h
−1 Xn
Xi2 − E(X12 ) ≥ η + P |X̄ − E(X1 )| ≥ η
≤ P n
i=1
≤ η
−2 −1
n
Var(X12 ) + η −2 n−1 Var(X1 ) .
Hierbei wurde verwendet, dass mit E(X14 ) < ∞ auch die Varianzen Var(X1 ) und
Var(X12 ) endlich sind. Der letzte Ausdruck strebt mit n → ∞ gegen 0. Da für ein
vorgegebenes ε > 0 stets ein η > 0 mit η + η 2 + 2η|E(X1 )| = ε gefunden werden
kann, ist der Satz somit bewiesen.
2
41
Zweite Anwendung: Der Approximationssatz von Weierstrass
Wir beweisen zunächst den Satz von Bernstein, aus dem dann der Approximationssatz folgt.
Satz 0.6.11 (Bernstein). Sei f : [0, 1] → R eine stetige Funktion. Für δ > 0 sei
Φ(δ) :=
|f (x) − f (y)| .
sup
|x−y|<δ
Dann existiert für jedes n ∈ N ein Polynom f (n) vom Grad n, so dass
kf k
sup |f (n) (x) − f (x)| ≤ inf Φ(δ) +
δ>0
2nδ 2
0≤x≤1
gilt. Dabei kann für f (n) das Bernstein-Polynom
n X
n i
(n)
f (x) :=
x (1 − x)n−i f n−1 i
i
i=1
(0.6.1)
gewählt werden.
Beweis: Sei x ∈ [0, 1] fest gewählt. Seien für alle n ∈ N Sn ∼ Bi(n, x) binomialverteilte Zufallsvariablen auf einer geeigneten Menge Ω.
Wegen Beispiel 0.5.14 gilt E(Sn ) = nx, und damit
f (n−1 E(Sn )) = f (x) .
Zudem ist
E(f (n
−1
Sn )) =
n
X
i=1
f n
−1
n i
i
x (1 − x)n−i =: f (n) (x)
i
genau das Bernstein-Polynom vom Grad n an der Stelle x.
Ist δ > 0 gegeben, und wird mit kf k die Supremumsnorm von f bezeichnet, erhält
man mit der Bienaymé-Chebyshev-Ungleichung die folgende Abschätzung:
|f (n) (x) − f (x)| = E f n−1 Sn − f n−1 E(Sn ) = E f n−1 Sn − f n−1 E(Sn ) ≤ E f n−1 Sn − f n−1 E(Sn ) = E f n−1 Sn − f n−1 E(Sn ) · I n−1 Sn − n−1 E(Sn ) < δ
+ E f n−1 Sn − f n−1 E(Sn ) · I n−1 Sn − n−1 E(Sn ) ≥ δ
≤ Φ(δ) · E I n−1 Sn − n−1 E(Sn ) < δ
+ 2kf k · E I n−1 Sn − n−1 E(Sn ) ≥ δ
= Φ(δ) · P n−1 Sn − n−1 E(Sn ) < δ
+ 2kf k · P n−1 Sn − n−1 E(Sn ) ≥ δ
≤ Φ(δ) · 1 + 2kf k δ −2 Var n−1 Sn
=
Φ(δ) + 2kf k n−1 δ −2 x(1 − x)
≤ Φ(δ) + 2kf k n−1 δ −2 4−1 = Φ(δ) + 2−1 n−1 δ −2 kf k .
Da diese Abschätzung für jedes δ > 0 gilt, und x ∈ [0, 1] beliebig gewählt wurde,
folgt die Behauptung.
2
42
Satz 0.6.12 (Approximationssatz von Weierstrass). Sei [a, b] ⊂ R ein Intervall und g : [a, b] → R eine stetige Funktion. Dann gibt es eine Folge von Polynomen
(gn )n≥1 , die auf [a, b] gleichmässig gegen die Funktion g konvergiert.
Beweis: Wir haben nachzuweisen, dass für jedes ε > 0 ein N existiert, so dass für
alle n > N und alle y ∈ [a, b] gilt: |gn (y) − g(y)| < ε.
Sei also ein ε > 0 vorgegeben. Im Fall a = b ist nichts zu zeigen, wir nehmen also
a < b an. Das Problem wird auf das Intervall [0, 1] zurückgeführt und dann der Satz
von Bernstein angewendet. Dazu betrachten wir die durch x 7→ y := (b − a)x + a
definierte Bijektion [0, 1] → [a, b]. Wir definieren für alle x ∈ [0, 1]
f (x) := g (x(b − a) + a) = g(y) .
Wegen der Stetigkeit von g auf [a, b] ist f stetig auf [0, 1]. Weiter definieren wir für
jedes y ∈ [a, b]
gn (y) := f (n) (b − a)−1 (y − a) = f (n) (x) ,
wobei f (n) das n-te Bernstein-Polynom ist. Daher ist auch gn ein Polynom. Ferner
gilt |f (n) (x) − f (x)| < ε für alle x ∈ [0, 1] genau dann, wenn für alle y ∈ [a, b]
|gn (y) − g(y)| < ε gilt.
Da f auf [0, 1] gleichmässig stetig ist, finden wir ein δ > 0, so dass |f (x1 ) − f (x2 )| <
ε/2 für alle x1 , x2 in [0, 1] mit |x1 − x2 | < δ. Damit gilt Φ(δ) ≤ ε/2, und aus dem
Satz von Bernstein folgt für alle x ∈ [0, 1]
|f (n) (x) − f (x)| ≤ Φ(δ) +
ε
kf k
kf k
≤ +
2
2nδ
2 2nδ 2
Setzen wir N := ε−1 δ −2 kf k + 1 , so ist
kf k
ε
<
2
2nδ
2
für alle n > N , und die Behauptung damit bewiesen.
2
Dritte Anwendung: Der Satz von Hardy-Ramanujan
Zuletzt wird noch eine Anwendung aus der Zahlentheorie, beweisen. Dort wird üblicherweise mit ω : N → N die Funktion bezeichnet, die jedem n die Anzahl der
Primteiler, ohne Vielfachheiten gezählt, zuordnet. So ist beispielsweise ω(45) = 2
oder ω(1024) = 1.
Weiter betrachten wir die Funktion γ : N → (0, ∞), definiert durch
γ(n) :=
X
p≤n, p prim
1
.
p
Es kann gezeigt werden, dass limn→∞ γ(n) = ∞. Weiter lässt sich beweisen, dass
lim
n→∞
γ(n)
=1.
ln ln n
(0.6.2)
Satz 0.6.13 (Hardy-Ramanujan). Sei ψ : (0, ∞) → (0, ∞) eine Funktion mit
limx→∞ ψ(x) = ∞. Dann gilt:
p
1 |ω(i) − γ(n)| ≤ γ(n)ψ(n) = 1 .
lim
i
≤
n
n→∞ n
43
Beweis: Sein n ∈ N fest gewählt. Betrachte Ωn := {1, 2, . . . , n} und die Uniformverteilung Pn auf Ωn . Die Einschränkung der oben definierten Funktion ω : N → N
auf Ωn ⊂ N ist eine Zufallsvariable, die mit Wn bezeichnet wird. Damit erhalten
wir
n
o
p
n−1 i ≤ n |ω(i) − γ(n)| ≤ γ(n)ψ(n) =
n
X
i=1
h
i
p
Pn [{i}] · I |Wn − γ(n)| ≤ γ(n)ψ(n) (i)
h
i
p
= Pn |Wn − γ(n)| ≤ γ(n)ψ(n)
Wenn also gezeigt werden kann, dass
i
h
p
lim Pn |Wn − γ(n)| > γ(n)ψ(n) = 0 ,
n→∞
so ist der Satz bewiesen. Wir wollen dazu diesen Ausdruck für ein festes n mit Hilfe
der Bienaymé-Chebyshev-Ungleichung abschätzen, und müssen daher den Erwartungswert und dann die Varianz von Wn berechnen.
Für eine Zahl q ≤ n betrachten wir die Indikatorvariable I[q|·] auf Ωn , wobei
I[q|i] :=
1,
0,
wenn q Teiler von i ist
sonst
Bezeichnen wir im folgenden mit p stets eine Primzahl, so ergibt sich für den Erwartungswert von Wn :
E(Wn )
= n−1
n
X
Wn (i) = n−1
i=1
= n−1
X X n
= n
X
I[p|i]
i=1 p≤n
i=1
p≤n
−1
n X
X
p
−1
X
I[p|i] = n−1
p−1 n
n−n
p≤n
p≤n
−1
X
p≤n
p
−1
n − p−1 n
= γ(n) − εn ,
wobei
0 ≤ εn := n−1
X
p≤n
p−1 n − p−1 n < 1 .
44
Mit ähnlichen Argumenten berechnen wir den Erwartungswert von Wn2 . Dabei bezeichnen in der folgenden Rechnung p, q und r Primzahlen:
E(Wn2 )
= n−1
= n−1
= n−1
n
X
i=1
n
X
Wn (i)2 = n−1
n X
X
i=1
X
i=1 p≤n
n X
X
I[p|i]2 + n−1
= E(Wn ) + n−1
X
X
X
q −1 r−1 n − n−1
q6=r, qr≤n
= E(Wn ) + n
−1
i=1
I[qr|i]
q −1 r−1 n
q6=r, qr≤n
2
= E(Wn ) + γ(n) −
X
I[q|i] I[r|i]
I[q|i] I[r|i]
i=1 q6=r, qr≤n
X n
q6=r, qr≤n
= E(Wn ) + n−1
X
i=1 q6=r, q≤n, r≤n
n
X X
I[p|i] + n−1
i=1 p≤n
p≤n
n
X
2
I[p|i]
X
q6=r, qr≤n
p≤n
p
−2
−
X
q −1 r−1 n − q −1 r−1 n
q6=r, q≤n, r≤n, qr>n
q −1 r−1 − ηn ,
wobei
0 ≤ ηn := n−1
X
q6=r, qr≤n
q −1 r−1 n − q −1 r−1 n < 2 .
Die Varianz von Wn kann nun abgeschätzt werden durch
Var(Wn )
=
≤
=
≤
E(Wn2 ) − E(Wn )2
E(Wn ) + γ(n)2 − ηn − E(Wn )2
γ(n) − εn + γ(n)2 − ηn − (γ(n) − εn )2
γ(n) + 2γ(n)εn < 3γ(n) .
Wegen |Wn − γ(n)| ≤ |Wn − E(Wn )| + εn < |Wn − E(Wn )| + 1 folgt jetzt mit der
Bienaymé-Chebyshev-Ungleichung
h
i
h
i
p
p
Pn |Wn − γ(n)| > γ(n)ψ(n) ≤ Pn |Wn − E(Wn )| > γ(n)ψ(n) − 1
p
−2
≤ Var(Wn )
γ(n)ψ(n) − 1
p
< 3(ψ(n) − 1/ γ(n))−2 ,
und dieser Ausdruck strebt mit n → ∞ gegen 0.
2
Wir betrachten den Fall ψ(x) := ln ln x. Wegen Gleichung (0.6.2) folgt aus dem
Satz, dass wenn für grosses n ∈ N eine Zahl i ∈ {1, 2, . . . , n} uniform ausgewählt
wird, mit hoher Wahrscheinlichkeit die Anzahl ihrer paarweise verschiedenen Primteiler kleiner als 2 ln ln n ist.
Betrachten wir den Fall n = 100. Dann ist 2 ln ln n ≈ 3.054. Die Wahrscheinlichkeit,
dass eine Zahl i ≤ n 3 oder weniger paarweise verschiedene Primteiler hat, ist in
der Tat 1, da wegen 2 · 3 · 5 · 7 > 100 jede der Zahlen weniger als 4 unterschiedliche
Primteiler hat.
Ist n = 1000 000, so hat eine uniform ausgewählte Zahl i ≤ n mit hoher Wahrscheinlichkeit weniger als 2 ln ln n ≈ 4.887, also weniger als 5, unterschiedliche Primteiler.
Tatsächlich können Zahlen kleiner oder gleich 1000 000 maximal 6 paarweise verschiedene Primteiler haben.
45
0.7
Bedingter Erwartungswert
In diesem Abschnitt werden wir den bedingten Erwartungswert einer Zufallvariablen
X über einem Wahrscheinlichkeitsraum (Ω, F, P) einführen. Dabei werden drei Fälle
des bedingten Erwartungswerts betrachten:
1. den bedingten Erwartungswert von X bei gegebenem Ereignis B aus F,
2. den bedingten Erwartungswert von X bei einer gegebener diskreter Zufallsvariable Y ,
3. und den bedingten Erwartungswert von X bei beliebiger vorgegebender Zufallsvariable Y .
Dies sind drei Spezialfälle des allgemeinen Begriffs des bedingten Erwartungswerts
einer Zufallsvariablen bei gegebener σ-Unteralgebra von F. In dieser Allgemeinheit
wird der Begriff hier jedoch nicht benötigt
Definition 0.7.1. Sei X eine Zufallsvariable auf Ω mit E(|X|) < ∞. Sei B ∈ F
ein Ereignis mit P[B] > 0. Dann heisst
E(X|B) :=
E(X I[B])
P[B]
der bedingte Erwartungswert von X bei gegebenem Ereignis B.
Der bedingte Erwartungswert von X gegeben B ∈ F ist genau der Erwartungswert von X bezüglich der in Satz 0.3.2 betrachteten bedingten Wahrscheinlichkeit
PB [·] := P[B|·]:
Z
Z
1
E(X|B) =
X dP =
X dPB .
P[B] B
Ω
Wird umgekehrt für ein Ereignis A ∈ F X := I[A] gesetzt, so erhält man obiger Definition 0.7.1 gerade die Definition 0.3.1 der bedingten Wahrscheinlichkeit.
Entsprechend wir auch die Formel der totalen Wahrscheinlichkeit, Satz 0.3.3, verallgemeinert:
Satz 0.7.2 (Formel des totalen Erwartungswerts (FTE)). Sei (Bi )i≥1 eine
Folge von Ereignissen aus F, die eine Partition von Ω bildet. Sei X eine Zufallsvariable auf Ω mit E(|X|) < ∞. Dann gilt:
E(X) =
∞
X
E(X|Bi )P[Bi ] ,
i=1
wobei E(X|Bi )P[Bi ] := 0 gesetzt wird, falls P[Bi ] = 0.
Beweis: Da die Mengen Bi paarweise disjunkt sind, gilt für jedes n ∈ N
n
X
|X| I[Bi ] = |X| I
i=1
h [n
i=1
i
Bi ≤ |X| .
Weiter gilt auch
lim X I
n→∞
h [n
i=1
46
i
Bi = X .
Nach Voraussetzung ist E(|X|) < ∞, daher folgt mit dem Satz über die majorisierte
Konvergenz:
∞
X
E(XI[Bi ])
=
i=1
lim
n→∞
n Z
X
i=1
XI[Bi ] dP
Ω
Z
h [n
i
lim
XI
Bi dP
n→∞ Ω
i=1
Z
=
X dP = E(X)
=
Ω
Ist P[Bi ] = 0, so verschwindet das Integral von X bezüglich P, und damit gilt auch
E(XI[Bi ]) = 0. Insgesamt haben wir:
E(X) =
∞
X
X
E(XI[Bi ]) =
i=1
E(XI[Bi ]) =
i≥1, P[Bi ]>0
X
E(X|Bi )P[Bi ] .
i≥1, P[Bi ]>0
2
Wir definieren nun den Erwartungswert der Zufallsvariablen X, bedingt durch eine
gegebene Zufallsvariable Y : Ω → Rn .
Dazu betrachten wir zunächst den Fall, dass Y diskret ist. Sei Y (Ω) der Wertebereich
von Y , in dem Sinne, dass P[Y = y] > 0 für jedes y ∈ Y (Ω) gelte. Der bedingte
Erwartungswert E(X|Y = y) von X bei gegebenem Ereignis {Y = y} ∈ F ist
gemäss Definition 0.7.1 bestimmt. Durch
E(X|Y = ·)(y) := E(X|Y = y) :=
E(XI[Y = y])
,
P[Y = y]
für alle y ∈ Y (Ω), wird daher eine eindeutig bestimmte messbare Abbildung
E(X|Y = ·) : Y (Ω) → R
definiert. Weiter ist durch
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) ,
für ω ∈ Ω, eine Abbildung auf Ω gegeben. Diese ist als Komposition zweier messbarer
Abbildungen messbar. Fassen wir diese Konstruktion in einer Definition zusammen:
Definition 0.7.3. Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞ und Y :
Ω → Rn eine diskrete Zufallsvariable. Der bedingte Erwartungswert von X bei
gegebener Zufallsvariablen Y ist die eindeutig bestimmte Zufallsvariable
E(X|Y ) : Ω → R ,
definiert durch
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) .
Ist Y (Ω) = {y1 , y2 , . . .} eine Aufzählung des Wertebereichs von Y , so erhalten wir
aus Satz 0.7.2 die Formel des totalen Erwartungswerts sofort in der speziellen Form
E(X) =
∞
X
E(X|Y = yi )P[Y = yi ] .
i=1
47
(0.7.1)
Formt man die rechte Seite von (0.7.1) noch weiter um, erhält man
X
E(X) =
(E(X|Y = ·) ◦ Y ) (ω)P[{ω}]
ω∈Ω
X
=
E(X|Y )(ω)P[{ω}]
ω∈Ω
= E(E(X|Y )) .
Wir betrachten jetz den Fall, dass Y : Ω → Rn eine beliebige Zufallsvariable ist. Hier
können wir den Begriff des bedingten Erwartungswerts nicht mehr wie im diskreten
Fall auf Definition 0.7.1 zurückführen, da, wenn beispielsweise die Verteilung von
Y durch eine Dichte gegeben ist, für jedes y ∈ Y (Ω) P[Y = y] = 0 gelten kann.
Bemerkung 0.7.4. Sei Y : Ω → Rn eine Zufallsvariable. Es kann bewiesen werden,
dass eine messbare, PY -integrierbare Funktion g : Rn → R mit
Z
Z
g dPY =
X dP
(0.7.2)
B
Y −1 (B)
für alle B ∈ B(Rn ) existiert. Die Funktion g ist durch diese Bedingung PY -fast
sicher eindeutig bestimmt.
Die Abbildung g ◦ Y : Ω → R ist dann eine P-fast sicher eindeutig bestimmte
Zufallsvariable. Sei N ⊂ Y (Ω) ⊂ Rn eine PY -Nullmenge, so dass g auf Y (Ω)\N
eindeutig bestimmt ist. In Analogie zum diskreten Fall setzen wir
E(X|Y = ·)(y) := E(X|Y = y) := g(y) .
für alle y ∈ Y (Ω)\N und
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y )(ω)
(0.7.3)
für alle ω ∈ Ω\Y −1 (N ). Diese Abbildung kann auf der Nullmenge Y −1 (N ) beliebig
fortgesetzt werden. Auf diese Weise wird eine P-fast sicher eindeutige Zufallsvariable
E(X|Y ) : Ω → R
bestimmt. Man definiert jetzt:
Definition 0.7.5. Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞ und
Y : Ω → Rn beliebige Zufallsvariable. Der bedingte Erwartungswert von X bei
gegebener Zufallsvariablen Y ist die P-fast sicher eindeutig bestimmte Zufallsvariable
E(X|Y ) : Ω → R ,
definiert durch
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) .
Die linke Seite der Gleichung (0.7.2), die g und damit E(X|Y ) fast sicher eindeutig
bestimmt, kann nun mit Hilfe des Transformationssatzes der Masstheorie umformuliert werden:
Z
Z
Z
g dPY =
g ◦ Y dP =
E(X|Y ) dP = E(E(X|Y )I[Y ∈ B]) ,
B
Y −1 (B)
Y −1 (B)
und Gleichung (0.7.2) kann daher in einer äquivalenten Form geschrieben werden
als
E(E(X|Y )I[Y ∈ B]) = E(XI[Y ∈ B]) .
(0.7.4)
48
Mit B := R folgt dann sofort
E(E(X|Y )) = E(X) .
(0.7.5)
Ist Y : Ω → R durch eine Dichte fY definiert, so erhält man stetiges Analogon zu
(0.7.1), denn (0.7.2) lässt sich mit B := R transformieren zu
Z +∞
Z
Z
E(X|Y = y)fY (y) dy =
g dPY =
X dP = E(X) .
−∞
R
Ω
Ist Z : Ω → Rm eine weitere Zufallsvariable, so definieren wir den bedingten Erwartungswert von X gegeben Y und Z durch
E(X|Y, Z) := E(X|(Y, Z)) .
wobei (Y, Z) : Ω → Rm+n . Es gilt hier P-fast sicher
E(X|(Y, Z)) = E(X|(Z, Y )) .
(0.7.6)
Dies folgt aus Bemerkung 0.7.4 mit folgender Überlegung:
Bezeichnen wir mit σ(M ) ⊂ F die kleinste σ-Algebra in F die eine Menge M ⊂ F
enthält, und für eine Zufallvariable Y
σ(Y ) := σ({Y −1 (B)|B ∈ B(Rn )}) .
so kann man zeigen, dass
σ((Y, Z)) = σ(σ(Y ) ∪ σ(X)) = σ(σ(Z) ∪ σ(Y )) = σ((Z, Y ))
gilt Mit dieser Eigenschaft und der, dass die Gleichung (0.7.4) für alle Borelmengen
B gilt, erhalten wir (0.7.6).
Genauso lässt sich der bedingte Erwartungswert von X gegeben Zufallsvariablen
Y1 , . . . , Yk durch
E(X|Y1 , . . . , Yk ) := E(X|(Y1 , . . . , Yk ))
definieren.
Da die bedingten Erwartungswerte nur P-fast sicher eindeutig bestimmt sind, gelten
Gleichungen, wie sie im nächsten Satz auftauchen ebenfalls nur P-fast sicher. Dies
wird im folgenden jedoch nicht mehr immer explizit erwähnt.
Satz 0.7.6 (Eigenschaften des bedingten Erwartungswerts). Seien X : Ω →
R und Y : Ω → Rn Zufallsvariablen, wobei E(|X|) < ∞.
i) Gibt es eine messbare Funktion f : Rn → R mit X = f (Y ), so gilt E(f (X|Y )) =
X. Insbesondere ist E(X|X) = X.
ii) Sind X und Y unabhängig, so ist E(X|Y ) = E(X).
iii) Ist g : Rn → R eine messbare beschränkte Funktion, so gilt E(g(Y )E(X|Y )) =
E(g(Y )X).
iv) Ist h : Rn → R eine messbare Funktion und gilt E(|h(Y )X|) < ∞, so ist
E(h(Y )X|Y ) = h(Y )E(X|Y ).
v) Ist Z : Ω → Rm eine weitere Zufallsvariable so haben wir E(X|Y ) = E(E(X|Y, Z)|Y ).
vi) Ist c ∈ R konstant und W : Ω → R eine Zufallsvariable mit E(|W |) < ∞, so
folgt E(X + cW |Y ) = E(X|Y ) + c E(W |Y ).
Beweis: FOLGT NOCH...
2
49
Martingale und die Ungleichung von Lévy-Kolmogorov
Definition 0.7.7. Sei (Xi )i≥0 eine Folge reell-wertiger Zufallsvariablen auf Ω mit
E(|Xi |) < ∞ für alle i ≥ 0. Die Folge (Xi )i≥0 heisst ein Martingal, wenn für jedes
i ≥ 0 gilt:
E(Xi+1 |X0 , X1 , . . . , Xi ) = Xi .
Sei (Yj )j≥0 eine Folge beliebiger Zufallsvariablen. Die Folge (Xi )i≥0 heisst ein Martingal bezüglich (Yj )j≥0 , wenn
E(Xi+1 |Y0 , X1 , . . . , Yi ) = Xi .
für alle i ≥ 0 gilt.
Seien dieselben Voraussetzungen wie in Definition 0.7.7 gegeben. Dann gilt für jedes
i ≥ 0 und alle j ≤ i die Gleichung
E(Xj |X0 , X1 , . . . , Xi ) = Xj ,
denn die Projektion hj : Ri → R auf die j-te Koordinate von Ri ist messbar und es
gilt Xj = h(X0 , X1 , . . . , Xi ). Die Behauptung ergibt sich jetzt mit Satz 0.7.6 i).
Die Folge (Xi )i≥0 ist wegen der Linearität des bedingten Erwartungswerts also
genau dann ein Martingal, wenn
E(Xi+1 − Xi |X0 , X1 , . . . , Xi ) = 0
gilt.
Lemma 0.7.8. Ist (Xi )i≥0 ein Martingal, so gilt P-fast sicher
E(Xi+k |X0 , X1 , . . . , Xi ) = Xi
für alle i ≥ 0 und k ≥ 1.
Beweis: Sei i ≥ 0 beliebig aber fest gewählt.
Der Fall k = 1 entspricht genau der Definition eines Martingals. Die Behauptung
sei nun für ein k ≥ 1 erfüllt. Dann gilt sie auch für k + 1, denn
E(Xi+k+1 |X0 , X1 , . . . , Xi )
= E(E(Xi+k+1 |(X0 , X1 , . . . , Xi ), (Xi+1 , . . . , Xi+k ))|X0 , X1 , . . . , Xi )
= E(Xi+k |X0 , X1 , . . . , Xi ) = Xi .
Dabei gilt die erste Gleichheit wegen Satz 0.7.6 v), die zweite Gleichheit da (Xi )i≥0
ein Martingal ist, und die dritte Gleichheit ist die Induktionsvoraussetzung.
2
Beispiel 0.7.9. Sei (Xi )i≥0 eine Folge unabhängiger Zufallsvariablen auf Ω mit
E(Xi ) = 0 für alle i ≥ 0. Dann ist die Summenfolge (Sn )n≥0 ein Martingal, denn
wir haben wegen Satz 0.7.6 vi), i) und ii)
E(Sn+1 |S0 , . . . , Sn )
= E(Sn |S0 , . . . , Sn ) + E(Xn+1 |S0 , . . . , Sn )
= Sn + E(Xn+1 ) = Sn .
Die Folge (Sn )n≥0 ist auch ein Martingal in Bezug auf (Xi )i≥0 , denn mit denselben
Argumenten wie bei der oberen Rechnung folgt
E(Sn+1 |X0 , . . . , Xn )
= E(Sn |X0 , . . . , Xn ) + E(Xn+1 |X0 , . . . , Xn )
= Sn + E(Xn+1 ) = Sn .
Zufallsvariablen Xi : Ω → {−1, 1} mit P[X = 1] = P[X = −1] = 1/2 oder Zufallsvariablen Xi ∼ N (0, σ 2 ) erfüllen die gewünschten Bedingungen besipielsweise.
50
Satz 0.7.10 (Ungleichung von Lévy-Kolmogorov). Sei (Xi )i≥0 ein Martingal,
mit Var(Xi ) < ∞ für alle i ≥ 0. Sei weiter P[X0 = 0] = 1. Sei a > 0 fest gegeben.
Dann gilt für alle n ∈ N:
P [max1≤i≤n |Xi | ≥ a] ≤
Var(Xn )
.
a2
Beweis: Wir bemerken zunächst, dass E(Xi ) = 0 für alle i ≥ 0 gilt. Mit Lemma
0.7.8 folgt nämlich E(Xk |X0 ) = X0 für alle k ≥ 0, und nach Voraussetzung ist
E(X0 ) = 0, also insgesamt mit (0.7.5)
E(Xk ) = E(E(Xk |X0 )) = E(X0 ) = 0 .
Wir betrachten nun weiter für j ≥ 0 das Ereignis
Aj := {ω ∈ Ω | |Xi (ω)| ≤ a für 0 ≤ i < j und |Xj (ω)| > a}
in F. Dies ist das Ereignis, dass das Martingal (Xi )i≥0 das Intervall (−a, a) zum
ersten Mal beim Zeitpunkt j verlässt.
Sei n ∈ N fest gegeben,
j ≤ n. Die Ereignisse A1 , . . . , An sind paarweise
Sn und sei 1S≤
n
disjunkt und es gilt i=1 Ai = i=1 {|Xi | ≥ a}. Für ein beliebiges j mit 1 ≤ j ≤ n
schätzen wir nun ab:
E(Xn2 I[Aj ])
= E((Xj + (Xn − Xj ))2 I[Aj ])
= E(Xj2 I[Aj ]) + 2 E(Xj I[Aj ](Xn − Xj )) + E((Xn − Xj )2 I[Aj ])
≥ a2 E(I[Aj ]) + 2 E(Xj I[Aj ](Xn − Xj ))
= a2 P[Aj ] + 2E(Xj I[Aj ](Xn − Xj )) .
Wenn gezeigt werden kann, dass
E(Xj I[Aj ](Xn − Xj )) = 0
(0.7.7)
gilt, so erhalten wir E(Xn2 I[Aj ]) ≥ a2 P[Aj ]. Durch Summation über alle 1 ≤ j ≤ n
erhält man dann weiter
h [n
i
a2 P [max1≤j≤n |Xj | ≥ a] ≤ a2 P
{|Xj | ≥ a}
j=1
≤ a2 P
≤
n
X
h [n
j=1
n
i
X
Aj = a2
P[Aj ]
j=1
E(Xn2 I[Aj ]) = E Xn2 I
j=1
h [n
j=1
Aj
i
≤ E(Xn2 ) = E(Xn2 ) − E(Xn )2 = Var(Xn ) ,
und damit die Behauptung. Es bleibt daher Gleichung (0.7.7) zu überprüfen:
E(Xj I[Aj ](Xn − Xj ))
=
=
=
=
E(E(Xj I[Aj ](Xn − Xj )|X0 , . . . , Xj ))
E(Xj I[Aj ]E(Xn − Xj |X0 , . . . , Xj ))
E(Xj I[Aj ](E(Xn |X0 , . . . , Xj ) − E(Xj |X0 , . . . , Xj ))
E(Xj I[Aj ](Xj − Xj )) = 0 .
Dabei wurde im dritten Schritt Satz 0.7.6 iv) verwendet, zusammen mit der Eigenschaft, dass Xj I[Aj ] = h(X0 , . . . , Xj ) für eine messbare Funktion h : Rj → R. 2
51
Bemerkung 0.7.11. Unter den Voraussetzungen der Lévy-Kolmogorov-Ungleichung
erhält man auch die Bienaymé-Chebyshev-Ungleichung:
Im obigen Beweis wurde gezeigt, dass E(Xn ) = 0 für alle n ≥ 0 gilt, und so erhält
man
P[|Xn − E(Xn )| ≥ a] ≤ P [max1≤i≤n |Xi − E(Xi )| ≥ a]
= P [max1≤i≤n |Xi | ≥ a] ≤ a−2 Var(Xn ) .
52
Herunterladen