Skript zur Vorlesung Stochastik

Skript zur Vorlesung Stochastik
Frühlingsemester 2015
Prof. Benjamin Schlein
Inhaltsverzeichnis
1 Einführung
1.1 Zufallsexperimente und Glückspiele . . . . . . . . . . . .
1.2 Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmasse
1.3 Kombinatorische Wahrscheinlichkeit . . . . . . . . . . .
1.4 Wahrscheinlichkeit und Frequenzen . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
5
7
9
2 Masstheoretische Zugang zu Wahrscheinlichkeitstheorie
2.1 Charakterisierung von Wahrscheinlichkeitsmasse . . . . . .
2.2 Wahrscheinlichkeitsdichte für absolut stetige Masse . . . . .
2.3 Wichtige Beispiele von Wahrscheinlichkeitsmasse . . . . . .
2.4 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Erwartungswert und Varianz einer Zufallvariable . . . . . .
2.6 Charakteristische Funktion . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
10
15
23
26
28
35
.
.
.
.
40
40
43
48
59
4 Konvergenzbegriffe
4.1 Konvergenz von Wahrscheinlichkeitsmasse . . . . . . . . . . . . . . . . .
4.2 Konvergenz von Zufallvariablen . . . . . . . . . . . . . . . . . . . . . . .
64
64
67
5 Das
5.1
5.2
5.3
73
73
73
78
3 Bedingte Wahrscheinlichkeit und Unabhängigkeit
3.1 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . .
3.2 Unabhängige Zufallvariablen . . . . . . . . . . . . . .
3.3 Unendliche Produkte und stochastische Prozesse . .
3.4 Asymptotische Ereignisse . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Gesetz der grossen Zahlen
Schwaches Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . .
Starkes Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . . .
Anwendungen in der Statistik . . . . . . . . . . . . . . . . . . . . . . . .
6 Der zentrale Grenzwertsatz
83
7 Markovketten
7.1 Markovketten mit stationären Übergangswahrscheinlichkeiten . . . . . .
7.2 Invariante Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Stoppzeiten und der starke Ergodensatz . . . . . . . . . . . . . . . . . .
1
89
92
94
107
1
Einführung
Der zentrale Begriff dieser Vorlesung ist der Zufall. Wir sprechen von Zufall, wenn wir
mit Ereignissen zu tun haben, die nicht mit Sicherheit vorhersehbar sind, und bei denen
mit verschiedenen Wahrscheinlichkeiten verschiedene Ergebnissen möglich sind.
Die Wahrscheinlichkeitstheorie, die Theorie des Zufalls, hat enorm viele Anwendungen im Alltag (das Lottospiel und andere Glückspiele, Wetterprognose,...), in der Wirtschaft (Versicherungen, Finanz,...) und auch in der Naturwissenschaft (Physik, Chemie,...). Zufall wird zur Beschreibung von Systemen benutzt, wo Informationen fehlen.
Literatur. Das Buch, das die Vorlesung am nächsten kommt ist
Hans-Otto Georgii. Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auslage, 2009, de Gruyter.
Ein Klassiker ist
William Feller. An Introduction to probability theory and its applications. Vol. I. Wiley.
Teile der Vorlesungen werde ich auch aus dem Skript von Prof. Anton Bovier, aus
der Universität Bonn, nehmen (zB. die Einführung von Wahrscheinlichkeiten als Bewertungen von Ereignissen in Zufallsexperimenten)
1.1
Zufallsexperimente und Glückspiele
Ein Zufallsexperiment ist ein Experiment, bei dem verschiedene Ergebnisse möglich sind.
Ein Paar einfache Bespiele von Zufallsexperimente sind das Münzwurf (zwei mögliche
Ergebnisse, “Kopf” und “Zahl”), das Würfeln (6 mögliche Ergebnisse, die wir mit den
Zahlen 1, 2, ,̇6 bezeichnen), die Roulette (37 mögliche Ergebnisse, die wir mit den Zahlen
0, 1, . . . , 36), das Lotto (von einer Urne mit 45 numerierte Kugel werden 6 herausgefisch; es gibt also 45!/(6!39!) = 8, 145, 060 mögliche Ergebnisse). Man nennt die Menge
der mögliche Ergebnisse der Ergebnisraum des Zufallsexperiment, und wir bezeichnen
ihn normalerweise mit Ω. Zum Beispiel, Ω = {“Kopf”, “Zahl”} beim Münzwurf, Ω =
{1, 2, 3, 4, 5, 6} beim Würfeln, Ω = {0, 1, . . . , 36} bei der Roulette, Ω = {(n1 , . . . , n6 ) :
1 ≤ n1 < n2 < · · · < n6 ≤ 45} bei dem Lotto.
In einem Glücksspiel wetten Spieler über das Ergebnis x ∈ Ω eines Zufallsexperiments. Spieler dürfen einen Einsatz g auf Teilmengen A ⊂ Ω setzen. Wenn das Ereigniss
x ∈ A eintritt, zahlt die Bank ein Vielfaches nA g vom Einsatz g an dem Spieler aus (der
reine Gewinn vom Spieler ist (nA − 1)g). Die Zahl nA wird von der Bank festgelegt; sie
gibt eine Abschätzung der Wahrscheinlichkeit, dass A eintritt. Nehmen wir als Beispiel
das Roulette-Spiel. Man darf zB. auf der Teilmenge A = {25} wetten, die aus einer einzigen Zahl besteht. Wenn die Kugel gerade auf der Zahl 25 fällt, also wenn das Ereignis
A eintritt, so bezahlt die Bank 36 Mal den Einsatz vom Spieler. Man kann auch auf der
Teilmenge B = {1, 3, 5, . . . , 35} (ungerade Zahlen) wetten. Tritt B ein, so bezahlt die
Bank 2 Mal den Einsatz. Also, nA = 36 und nB = 2. Es gibt keine eindeutige Wahl dieser
Bewertungen. Die Bank könnte zB. nA = 10 setzen; dann würden aber die Spieler das
Spiel nicht als fair empfinden, und sie würden deswegen weniger Geld spielen. Die Bank
könnte auch nA = 50 setzen; dann würde sie aber bald Geld verlieren. Es stellt sich die
2
Frage, welche Bedingungen müssen die Bewertungen nA erfüllen, damit die Bank kein
Geld verliert und, anderseits, damit das Spiel von den Spielern als fair empfunden wird.
Um diese Frage zu beantworten, betrachten wir ein allgemeines Glückspiel. Wir
bezeichnen mit Ω der Ergebnisraum eines Zufallsexperiments. Weiter, sei A ⊂ P (Ω) die
Menge aller Teilmengen von Ω über welche die Spieler wetten dürfen. Wir nehmen an,
A sei eine Algebra, d.h. i) Ω ∈ A, ii) Ist A ∈ A so ist auch Ac ∈ A, iii) Sind A, B ∈ A,
dann ist auch A ∪ B ∈ A. Die Bank muss Zahlen nA für alle A ∈ A festlegen.
Eine Bewertung {nA }A∈A heisst zulässig, falls es für die Spieler nicht möglich ist,
ein Gewinn zu erzielen, unabängig aus dem Ergebnis des Zufallsexperiments.
Die erste offenbare Bedingung, die erfüllt sein muss, damit eine Bewertung zulässig
sein kann, ist die Ungleichung nΩ ≤ 1 (weil das Ereignis x ∈ Ω immer mit Sicherheit
erfüllt ist). Ferner finden wir: jede zulässige Bewertung muss die Bedingung
1
1
+
≥1
nA nAc
(1)
für alle A ∈ A erfüllen. In der Tat, betrachten wir die folgende Situation. Ein Spieler
setzt den Einsatz gA auf dem Ereignis A ∈ A und den Einsatz gAc auf dem Ereignis
Ac . Wählt der Spieler gAc = nA gA /nAc , dann erzielt er den Gewinn nA gA = nAc gAc
unabhängig aus dem Resultat des Experiments. Damit die Bewertung zulässig ist, muss
also
nA gA ≤ gA + gAc = gA + nA gA /nAc
gelten. Das impliziert, dass nA ≤ 1 + nA /nAc und (1) folgt.
Die Bewertung {nA }A∈A heisst fair, wenn
1
1
+
=1
nA nAc
für alle A ∈ A (Banken benutzen tatsächlich keine faire Bewertungen, weil sonst würden
sie kein Geld verdienen). Es folgt sofort aus der Definition, dass für eine zulässige und
faire Bewertung nΩ = 1 und n∅ = ∞ gelten muss. Tatsächlich haben die Zulässigkeit
und das Fairness einer Bewertung mehrere Folgerungen, wie wir im nächsten Lemma
zeigen.
Lemma 1.1. Sei {nA }A∈A eine faire, zulässige Bewertung. Dann gilt, für alle A, B ∈ A,
1
nA∪B
=
1
1
1
+
−
nA nB
nA∩B
(2)
Beweis. Wir betrachten zunächst den Fall A ∩ B = ∅. Wir müssen dann zeigen, dass
−1
−1
n−1
A∪B = nA + nB
(weil nΩ = 1 und deswegen n∅ = ∞).
Betrachte die drei Ereignisse A, B und (A ∪ B)c . Nehmen wir an, dass ein Spieler
die Einsätze gA , gB und g(A∪B)c auf dieser drei Ereignisse so wählt, dass
nA gA = nB gB = n(A∪B)c g(A∪B)c
3
Nach dem Experiment bekommt der Spieler von der Bank die Summe nA gA , unabhängig
aus dem Ergebnis von Experiment. Damit die Bewertung zulässig ist, muss also sicher
nA gA ≤ gA + gB + g(A∪B)c = gA + gA
gelten. Das zeigt, dass
nA ≤ 1 +
nA
nA
+ gA
nB
n(A∪B)c
nA
nA
+
nB
n(A∪B)c
und damit, dass
1≤
1
1
1
1
1
1
+
+
+
+1−
=
nA nB
n(A∪B)c
nA nB
nA∪B
weil das Spiel fair ist. Also
−1
−1
n−1
A∪B ≤ nA + nB
(3)
Um die umgekehrte Ungleichung zu zeigen, betrachten wir ein Spieler, der die Einsätze
gAc , gB c und gA∪B auf den drei Ereignissen Ac , B c , A ∪ B so wählt, dass nAc gAc =
nB c gB c = nA∪B gA∪B . Der Gewinn vom Spieler beträgt dann 2nAc gAc , unabhängig vom
Ergebniss vom Experiment (unabhängig aus dem Ergebniss sind immer zwei der drei
Ereignisse erfüllt). Damit das Spiel zulässig ist, muss also
gAc + gB c + gA∪B ≥ 2nAc gAc
oder
1
1
1
+
+
≤2
c
c
nA
nB
nA∪B
−1
−1
−1
Aus dem Fairness vom Spiel wissen wir, dass n−1
Ac = 1 − nA und nB c = 1 − nB . Damit
finden wir
1
1
1
≤
+
nA∪B
nA nB
Aus (3) finden wir
1
nA∪B
=
1
1
+
nA nB
für alle A, B ∈ A, mit A ∩ B = ∅. Um (2) zu zeigen müssen wir nun einfach die Menge
A∪B als Vereining von den drei disjunkten Mengen A\B, B\A und A∩B darstellen.
Wir haben also gezeigt, dass die einfachen Bedingungen, dass die Bewertungen
zulässig und fair sein müssen, sofort die Eigenschaften
i)
ii)
nΩ = 1
−1
−1
n−1
A∪B = nA + nB
für alle A, B ∈ A, mit A ∩ B = ∅
(4)
implizieren. Anderseits, kann man sich leicht überzeugen, dass diese Bedingungen hinreichend sind, um sicher zu sein, dass es keine Wette existiert, bei der die Spieler ein
Gewinn sichern können. Um diese Tatsache zu zeigen, nehmen wir der Einfachkeits halber an, dass Ω eine endliche Menge ist und, dass {x} ∈ A, für alle x ∈ Ω (d.h. man
kann immer auf Ereignisse wetten, die aus einem einzigen Ergebnis bestehen). Nehmen
4
wir an, ein Spieler wettet den Einsatz gA auf dem Ergebnis A ∈ A, für alle A ∈ A (er
kann also gleichzeitig auf mehrere Ergebnisse wetten). Wir bezeichnen dann mit r(x)
den Gewinn oder den Verlust vom Spieler, wenn beim Experiment das Ergebnis x ∈ Ω
eintritt. Es gilt
X
X
r(x) =
gA nA 1A (x) −
gA
A∈A
A∈A
Aus der Bedingungen nΩ = 1 und (2) folgt, dass
X
n−1
x r(x) =
x∈Ω
X
n−1
x
x∈Ω
X
=
A∈A
gA
= 1. Daher
nA gA 1A (x) −
A∈A
"
X
−1
x∈Ω nx
P
X
gA
A∈A
#
X
n−1
x nA − 1 = 0
x∈A
aus (2). Das zeigt, dass wenn x ∈ Ω existiert, mit n−1
x r(x) > 0 (was ein Gewinn für den
Spieler garantiert), dann muss auch y ∈ Ω existieren, mit n−1
y r(y) < 0 (was ein Verlust
für den Spieler darstellt). Mit andere Wörter: es existiert keine Wette, die ein sicherer
Gewinn sichert.
Zusammenfassend: die Bedingungen (4) sind notwending und hinreichend, um zu
garantieren, dass eine Bewertung zulässig und fair ist.
Bemerke, aber, dass die Bedingungen (4) die Bewertung nicht eindeutig festlegen. Es
gibt immer noch sehr viele Freiheit in der Wahl der Zahlen nA , die die Bank benutzen
soll, um Verluste zu vermeiden (beim Münzwurf wäre zB. die Bewertung nKopf = 8 und
nZahl = 8/7 zulässig und fair; wenn aber die Spieler immer auf “Kopf” wetten würden,
würde die Bank bald viel Geld verlieren). Die Tatsache, dass die Bank eine zulässige und
faire Bewertung {nA }A∈A wählt bedeutet, dass die Bank die Wahrscheinlichkeit n−1
A
zum Ereigniss A zuordnet. In dieser Weise sind Wahrscheinlichkeiten, wie Bewertungen,
subjektiv; sie hängen von der Schätzung der Bank ab. Wir können also den Begriff
von zulässige und faire Bewertung um den Begriff von Wahrscheinlichkeit axiomatisch
einzuführen.
1.2
Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmasse
Wir betrachten allgemein ein Zufallsexperiment mit einem beliebigen Ergebnisraum Ω.
Im letzten Abschnitt haben wir angenommen, dass die Ereignisse über welche die Spieler wetten dürfen eine Algebra A von Teilmengen von Ω bilden. Für den Fall, dass der
Ergebnisraum Ω unendlich viele Elemente enthält, lohnt es sich zu verlangen, dass A
eine σ-Algebra über Ω ist (das wird uns erlauben, Wahrscheinlichkeiten von unendliche Vereinigungen von Mengen in A zu betrachten). Wir erinneren aus Analysis 3 die
Definition einer σ-Algebra.
Definition 1.2. Sei Ω eine Menge. Eine Menge A von Teilmengen von Ω heisst eine
σ-Algebra auf Ω falls die folgende Bedingungen erfüllt sind.
i) Ω ∈ A.
ii) Falls A ∈ A, so ist auch Ac ∈ A.
5
iii) Ist {An }n∈N eine Folge in A, so ist auch
[
An ∈ A
n∈N
Also, σ-Algebren enthalten Ω und ∅ und sie sind bezüglich der Operation A → Ac
und bezüglich abzählbare Vereinigungen abgeschlossen. Ist Ω eine endliche Menge, so
ist jede Algebra auf Ω auch eine σ-Algebra.
Ist nun Ω eine Menge, und A eine σ-Algebra auf Ω, so können wir den Begriff von
Wahrscheinlichkeitsmass wie folgt definieren.
Definition 1.3. Sei Ω eine Menge und A eine σ-Algebra auf Ω. Ein Wahrscheinlichkeitsmass auf (Ω, A) ist eine Funktion P : A → R mit den Eigenschaften
i) P(∅) = 0,
ii) P(Ω) = 1,
iii) σ-Additivität: sei {An }n∈N eine Folge in A von disjukten Teilmengen von Ω, d.h.
Ai ∩ Aj = ∅ für alle i 6= j. Dann gilt


[
X
P
Aj  =
P(Aj ) .
j∈N
j∈N
Bemerkungen:
• Das Tripel (Ω, A, P), mit Ω ein Ergebnismenge, A eine σ-Algebra auf Ω und P ein
Wahrscheinlichkeitsmass auf (Ω, A), wird als Wahrscheinlichkeitsraum bezeichnet.
• Ein Wahrscheinlichkeitsmass ist einfach ein Mass (im Sinne von der Masstheorie),
mit der zusätzliche Bedingung P(Ω) = 1.
• Statt Wahrscheinlichkeitsmass benutzt man oft auch die Bezeichnung Wahrscheinlichkietsverteilung oder einfach Verteilung.
• Die Bedingungen P(∅) = 0 und P(Ω) = 1 entsprechen genau die Bedingungen n∅ = ∞ und nΩ = 1 für zulässige faire Bewertungen. Die σ-Additivität
ist dagegen eine Verallgemeinerung zu abzählbare Vereinigung der Additivität
P(A ∪ B) = P(A) + P(B) für disjukte A, B ∈ A. Die Additivität eines Wahrscheinlichkeitsmasses entspricht die Bedingung ii) in (4) für zulässige und faire
Bewertungen. Mit andere Wörter, wir haben die wichtigste Eigenschaften von Bewertungen genommen (Zulässigkeit und Fairness), und wir haben sie als Axiome
für Wahrscheinlichkeitsmasse postuliert.
Die Def. 1.3 gibt eine axiomatische Definition von Wahrscheinlichkeitsmass (nach
Kolmogorov). Sie bestimmt aber nicht welches Wahrscheinlichkeitsmass fuer die Beschreibung eines Zufallsexperiments benutzt werden soll.
6
1.3
Kombinatorische Wahrscheinlichkeit
Wenn Ω eine endliche Menge ist, gibt es ein Wahrscheinlichkeitsmass, das eine besonder
wichtige Rolle spielt. Das ist die Gleichverteilung, wo jedem Element x ∈ Ω die selbe
Wahrscheinlichkeit P({x}) = 1/|Ω| zugeordnet wird. Beim Münzwurf, beim Würfeln,
bei der Roulette erwarten wir eine Gleichverteilung aus Symmetrie-Gründen (zB. beim
Würfeln gibt es keinen Grund, warum das Ergebnis 6 wahrscheinlicher als das Ergebnis
3 sein sollte, usw.). Unter Annahme einer Gleichverteilung gilt einfach P(A) = |A|/|Ω|.
Um Wahrscheinlichkeiten von Ereignissen zu bestimmen, müssen wir dann nur die Kardinalität von Teilmengen von Ω berechnen. Das ist oft ein nicht triviales Problem. Wir
diskutieren hier ein Paar klassischen Beispiele.
Wir betrachten als Zufallsexperiment die Auswahl von r Elemente aus einer Population von n Elemente. Das Experiment kann in verscheidene Weise durchgeführt werden;
das führt zu verschiedene Ergebnisräume und zu verschiedenen Wahrscheinlichkeiten.
Die erste Frage, ist ob für uns die Reihenfolge der r ausgewählten Elemente eine Rolle spielt oder nicht. Die zweite Frage ist, ob wir die ausgewählte Elemente nach dem
Wahl zurück in der ursprünglichen Population legen oder nicht. Man spricht von Auswahl mit oder ohne Zurücklegen (manchmal auch “mit oder ohne Wiederholung”). Wir
betrachten die 4 Fälle separat:
• Mit Reihenfolge, mit Zurückziehen. Wenn die Reihenfolge wichtig ist, und wenn
nach jeder Auswahl das ausgewählte Element zurückgezogen wird, gibt es genau
nr mögliche Auswähle von r Elemente aus einer Population von n (wir haben n
mögliche Auswähle für das erste Element, n für das zweite, usw.).
• Mit Reihenfolge, ohne Zurückziehen. Hier muss r ≤ n sein. Es gibt dann genau
n(n − 1)(n − 2) . . . (n − r + 1) =
n!
(n − r)!
mögliche Auswähle von r Elemente aus einer Population von n.
• Ohne Reihenfolge, mit Zurückziehen. Es gibt in diesem Fall
n+r−1
r
mögliche Ergebnisse.
• Ohne Reihenfolge, ohne Zurückziehen. Auch hier muss r ≤ n sein. Das Zufallsexperiment hat dann
n
n!
=
r
r!(n − r)!
mögliche Ergebnisse.
Viele Probleme in der kombinatorische Wahrscheinlichkeitstheorie können auf einem
Auswahl-Problem zurückgeführt werden. Wir diskutieren ein Paar Beispiele.
7
• Karten mit verschiedenen Werten. Wir wählen 5 Karten aus einem Stapel mit 52
Karten. Was ist die Wahrscheinlichkeit dafür, dass die 5 Karten 5 verschiedene
Werten tragen?
Wir nehmen an, alle Kombinationen von 5 Karten haben dieselbe Wahrscheinlichkeit. Da die Reihenfolge der Karte keine Rolle spielt, und da die Karten ohne
Zurückziehen ausgewählt werden, besteht der Ergebnisraum aus
52
|Ω| =
5
Elementen. Sei nun A der Ereignis, dass die 5 gewählte Karte fünf verschiedene
Werten haben. Die Frage ist, was ist die Kardinalität von A. Es gibt
13
5
Weise, um die Werten der 5 Karten zu wählen. Wenn wir die Werten der 5 Karten
festgewählt haben, können wir noch die Farben der 5 Karten wählen. Also
45 13
|A|
444036
45 · 13 cot 12 · 11 · 10 · 9
5
P(A) =
= 52 =
=
' 0.51
|Ω|
52 · 51 · 50 · 49 · 48
515049
5
• Belegungsproblem 1). r (unterscheidbare) Kugeln werden in n unterscheidbare Zellen verteilt. Was ist die Wahrscheinlichkeit dafür, dass eine gegebene Zelle genau
k Kugel enthält?
Die Anzahl mögliche Verteilungen der r Kugeln in den n Zellen ist einfach nr (jede
Kugel kann in n verschiedenen Zellen gelegt werden). Sei Ak das Ereignis, dass die
gewählte Zelle genau k Kugeln enthält. Wir haben
r
|Ak | =
(n − 1)r−k
k
Also,
r (n − 1)r−k
r 1
1 r−k
P(Ak ) =
=
1−
k
k nk
nr
n
Man nennt P(Ak ) die binomiale Verteilung. Bemerke, dass, wie erwartet,
r
X
P(Ak ) = 1
k=0
• Belegungsproblem 2). Wir betrachten das selbe Zufallsexperiment wie im letzten
Beispiel, d.h. wir möchten r (unterscheidbare) Kugeln in n unterscheidbare Zellen
verteilen. Die Frage ist nun: Was ist die Wahscheinlichkeit dafür, dass die j-te
Zelle genau rj Kugeln enthält, für alle j = 1, . . . , n (unter der Annahme, dass
r1 + r2 + · · · + rn = r)?
8
Wie im letzten Beispiel, die Anzahl mögliche Verteilungen ist einfach nr . Die Kardinalität vom Ereignis A =“rj Kugel im j-te Zelle, für alle j = 1, . . . , n” ist
dagegen
r!
r − r1 − · · · − rn−1
r
r − r1
=
...
rn
r2
r1
r1 !r2 ! . . . rn !
Also,
P(A) =
1
r!
r
n r1 !r2 ! . . . rn !
• Zerlegungproblem. Wir müssen n ununterscheidbare Kugel in k unterscheidbare
Zellen teilen (die Zellen dürfen auch leer sein). Was ist die Wahrscheinlichkeit
dafür, dass alle Elemente in der ersten Zelle sind?
Das Problem ist ähnlich wie das Belegungsproblem, hier sind aber die Kugeln
ununterscheidbar (wichtig ist nur wieviele Kugel in den verschiedenen Zellen sind;
welche Kugel in welche Zelle ist spielt dagegen keine Rolle). Um das Problem zu
lösen, müssen wir bestimmen, wie viele Wahle von ganzen Zahlen r1 , . . . , rk ≥ 0
existieren, die die Bedingung r1 + r2 + · · · + rk = n erfüllen. Die Antwort ist
n+k−1
(n + k − 1)!
(n + k − 1)(n + k − 2) . . . (n)
=
=
k
k!(n − 1)!
k(k − 1) . . . 1
Also, die Wahrscheinlichkeit für das Ereignis “n Kugel in der ersten Zelle” ist
n+k−1 −1
.
k
1.4
Wahrscheinlichkeit und Frequenzen
Im letzten Abschnitt haben wir gesehen, dass aus Symmetrie-Gründen die Gleichverteilung eine wichtige Rolle bei Experimenten mit einem endlichen Ergebnisraum spielt. In
der Praxis ist aber die Symmetrie nie perfekt; es stellt sich also die Frage, ob eine Spielbank bei einem Spiel wie das Würfeln oder die Roulette wirklich die Gleichverteilung
als Wahrscheinlichkeitsmass wählen soll, um Geldverluste zu vermeiden.
Wir betrachten nun ein unendlich oft wiederholbar Zufallsexperiment (wie zum Beispiel die Roulette oder das Würfeln) mit endlichen Ergebnisraum Ω und mit σ-Algebra
A. Wir nehmen an ein Spieler wiederholt k Mal das Zufallsexperiment, immer mit den
gleichen Einsätzen {gA }A∈A . Wir bezeichnen die Ergebnisse der k Experimenten mit
x1 , . . . , xk ∈ Ω. Wir definieren auf A die Funktion
fk (A) =
k
1X
1(xi ∈ A)
k
i=1
Man kann leicht überprüfen, dass (für alle x1 , ,̇xk ∈ Ω) die Funktion fk : A → [0; ∞) ein
Wahrscheinlichkeitsmass ist. fk heisst die empirische Verteilung der Ergebnisse.
Lemma 1.4. Ist nA = 1/fk (A) für alle A ∈ A, dann ist die Summe der Auszahlungen
der Bank in den k Spielen gleich zur Summer der Einsätze des Spielers. Für jede andere
zulässige und faire Bewertung gibt es eine mögliche Einsatzstrategie (d.h. eine Wahl der
Einsätze {gA }A∈A ), die einen positiven Gewinn garantiert.
9
Beweis. Nehmen wir zunächst an, dass nA = 1/fk (A) für alle A ∈ A. Die Auszahlung
der Bank beträgt (erinnere, dass der Spieler k Mal mit den gleichen Einsätzen spielt)
k X
X
gA nA 1(xi ∈ A) =
j=1 A
X
gA na kfk (A) = k
A
X
gA
A
was genau die gesamte Summe entspricht, die vom Spieler in den k Experimenten eingesetzt wird.
Wenn A ∈ A existiert, mit nA 6= 1/fk (A), haben wir entweder nA > 1/fk (A) oder
nAc > 1/fk (Ac ). O.B.d.A. können wir annehmen, dass nA > 1/fk (A). Dann wählen wir
die Einsätze gA = 1 und gB = 0 für alle B ∈ A mit B 6= A. In den k Spielen gewinnt
der Spieler die Summe
k
X
nA 1(xi ∈ A) = knA fk (A) > k
i=1
also mehr als der gesamten Einsatz k.
Das Problem mit der empirische Verteilung fk ist, dass die Bank die Bewertung vor
den Spielen festlegen muss. Der frequentistischen Ansatz zu Wahrscheinlichkeiten und
Bewertungen ist deswegen nur sinnvoll, wenn die Frequenzen fk im Limes k → ∞ einen
Grenzwert f haben. In diesem Fall ist f : A → [0; ∞) ein Wahrscheinlichkeitsmass, und
die Bewertung nA = 1/f (A) ist optimal im Sinne, dass
k
1 XX
gA (nA 1(xi ∈ A) − 1) = 0
k→∞ k
lim
i=1 A
für jede Einsatzstrategie {gA }A∈A . In der Statistik heissen die Frequenzen fk Schätzer
für die Wahrscheinlichkeitsdichte f .
2
2.1
Masstheoretische Zugang zu Wahrscheinlichkeitstheorie
Charakterisierung von Wahrscheinlichkeitsmasse
Wir betrachten ein Ergebnisraum Ω, und eine σ-Algebra A auf Ω. In diesem Abschnitt
untersuchen wir die Frage, wie können wir ein Wahrscheinlichkeitsmass P auf A characterizieren? Die Antwort zu dieser Frage ist einfach, falls Ω endlich ist.
Nehmen wir zunächst
P an, dass A = P (Ω) die Potenzmenge von Ω ist. Seien pi ∈ [0; 1],
für alle i ∈ Ω, mit
pi = 1. Dann gibt es ein eindeutiges Wahrscheinlichkeitsmass
P : A → [0; ∞) mit P({i}) = pi für alle i ∈ Ω. Mit anderen Wörter, jede Wahrscheinlichkeitsmass P wird eindeutig durch die Werten von P auf den Mengen {i}, i ∈ Ω, bestimmt.
Das folgt einfach aus der Tatsache, dass jede Menge in A als abzählbare Vereinigung
von disjukten Mengen der Form {i}i∈Ω geschrieben werden kann.
Nun, falls A =
6 P (Ω), finden wir trotzdem eine minimale Partition π1 , . . . , πn von Ω
mit Ω = ∪nj=1 πj und πk ∩ B ∈ {∅, πk } für alle B ∈ A und alle k = 1, . . . , n. Dann gilt:
10
P
für alle p1 , . . . , pn ∈ [0; 1] mit nj=1 pj = 1 gibt es genau ein Wahrscheinlichkeitsmass P
auf A mit P(πj ) = pj für alle j = 1, . . . , n.
Jetzt kommen wir zurück zum allgemeinen Fall, wo Ω nicht notwendigerweise endlich
ist. Das folgende wichtige Theorem zeigt, dass ein Wahrscheinlichkeitsmass P auf einer
σ-Algebra A eindeutig durch die Werten von P auf einer beliebigen Teilmenge G ⊂ A,
die A erzeugt, characterisiert wird.
Theorem 2.1 (Carathéodory Erweiterungstheorem). Sei (Ω, A) ein messbarer Raum
und G eine Algebra auf Ω, mit σ(G) = A. Sei P0 : G → [0; 1] mit P0 (∅) = 0, P0 (Ω) = 1,
und
!
X
[
P0 (An )
P0
An =
n∈N
n∈N
für alle Folge {An }n∈N in G mit ∪n∈N An ∈ G und An ∩ Am = ∅ für alle n 6= m. Dann
gibt es ein eindeutiges Wahrscheinlichkeitsmass P auf A, mit P|G = P0 .
Bemerkungen: Sei G ein Ring auf einer Menge Ω (ein Ring ist eine Familie von
Teilmengen von Ω, mit ∅ ∈ G und abgeschlossen bezüglich Differenzen und endliche
Vereinigungen).
Eine Funktion µ0 : G → [0; ∞] mit µ0 (∅) = 0 und µ0 (∪n∈N An ) =
P
µ
(A
)
für
alle Folge An in G mit ∪n An ∈ G heisst ein Prämass auf G (ein
0
n
n∈N
Prämass auf einer σ-Algebra ist ein Mass). In seiner allgemeiner Version besagt das
Erweiterungstheorem von Carathéodory, dass es ein Mass µ auf σ(G) existiert, mit µ|G =
µ0 (d.h. dass jede Prämass auf einem Ring G zu einem Mass auf dem von G erzeugten σAlgebra erweitert werden kann). Die Erweiterung ist eindeutig, wenn G stabil bezüglich
Durchschnitte ist (was in einer Algebra immer den Fall ist), und falls eine Folge En in
G existiert, mit ∪n∈N En = Ω und mit µ0 (En ) < ∞ für alle n ∈ N (diese Bedingung ist
automatisch erfüllt für ein Wahrscheinlichkeitsmass, weil es endlich ist).
Beweis. Für beliebige A ⊂ Ω wir definieren
CA = {Folge (An )n∈N in G mit
[
An ⊃ A}
n∈N
Auf der Potenzmenge P (Ω) definieren wir die Abbildung
(
)
X
∗
P0 (An ) : (An ) ∈ CA
P (A) := inf
n∈N
(da Ω ∈ G ist CA sicher nicht leer).
Schritt 1. P∗ (A) = P0 (A) für alle A ∈ G.
Einerseits, mit der Folge (A, ∅, ∅, . . . ) ∈ CA finden
wir, dass P∗ (A) ≤ P0 (A). AnderS
seits, falls (An )n∈N eine Folge in CA ist, dann ist n∈N (An ∩ A) = A und deswegen (aus
Subadditivität der Abbildung P0 auf G)
X
X
P0 (A) ≤
P0 (An ∩ A) ≤
P0 (An )
n∈N
n∈N
Also, P0 (A) ≤ P∗ (A). Das zeigt, dass P0 (A) = P∗ (A) für alle A ∈ G.
11
Schritt 2. P∗ : P (Ω) → [0; ∞] ist ein äusseres Mass.
Wir müssen zeigen, dass i) P∗ (∅) = 0 (klar), ii) ist A ⊂ B, so gilt P∗ (A) ≤ P∗ (B)
(auch klar), iii) ist (An )n∈N eine Folge in P (Ω), so gilt
!
X
[
P∗
P∗ (An )
(5)
An ≤
n∈N
n∈N
Um (5) zu zeigen bemerken wir, dass, aus der Definition von P∗ , finden wir zu jedem
ε > 0 und n ∈ N eine Folge (An,m )m∈N in CAn (die Mengen An,m sind insbesondere in
G) mit
X
ε
P∗ (An ) ≥
P0 (An,m ) − n
2
m∈N
Dann ist die Doppelfolge (An,m )n,m∈N in C∪n An und deswegen
!
XX
X
[
∗
P
P0 (An,m ) ≤
P∗ (An ) + ε
An ≤
n∈N
n∈N m∈N
n∈N
Da ε > 0 beliebig ist, finden wir (5).
Schritt 3. Jede A ∈ G ist P∗ -messbar.
Wir erinnern aus Analysis 3, dass A ⊂ Ω P∗ -messbar ist, wenn
P∗ (B) = P∗ (B ∩ A) + P∗ (B ∩ Ac )
für alle B ⊂ Ω.
Sei nun A ∈ G, und B ⊂ Ω beliebig. Zu beliebigem ε > 0 finden wir eine Folge An
in CB mit
X
P∗ (B) ≥
P0 (An ) − ε
n∈N
Wegen der Additivität von P0 auf G finden wir
P0 (An ) = P0 (An ∩ A) + P0 (An ∩ Ac )
für alle n ∈ N, und deswegen
X
X
P∗ (B) ≥
P0 (An ∩ A) +
P0 (An ∩ Ac ) − ε ≥ P∗ (B ∩ A) + P∗ (B ∩ Ac ) − ε
n∈N
n∈N
weil die Folgen (An ∩ A)n∈N und (An ∩ Ac )n∈N in CB∩A , bzw. in CB∩Ac liegen. Da ε > 0
beleibig war, erhalten wir
P∗ (B) ≥ P∗ (B ∩ A) + P∗ (B ∩ Ac )
Aus der Subadditivität des äusseres Masses P∗ , schliessen wir, dass
P∗ (B) = P∗ (B ∩ A) + P∗ (B ∩ Ac )
12
und also, dass G ⊂ MP∗ . Das impliziert auch, dass σ(G) ⊂ MP∗ . Das zeigt, dass die
Einschränkung von P∗ auf σ(G) ein Mass ist, das auf G mit P0 übereinstimmt.
Schritt 4. Eindeutigkeit: seien P1 und P2 zwei Wahrscheinlichkeitsmasse auf σ(G),
mit P1 (A) = P2 (A) für alle A ∈ G. Wir behaupten, dass P1 = P2 .
Wir setzen
D = {B ∈ σ(G) : P1 (B) = P2 (B)}
Wir zeigen, dass D ein Dynkin-System ist. Wir müssen zeigen, dass Ω ∈ D und, dass
D stabil ist, bezüglich der Operation B → B c und bezüglich abzählbare Vereinigungen
von disjukten Mengen. Ω ∈ D ist offenbar weil Ω ∈ G. Sei nun B ∈ D. Dann gilt
P1 (B c ) = 1 − P1 (B) = 1 − P2 (B) = P2 (B c )
Also, B c ∈ D. Schlussendlich, sei (Bn )n∈N eine Folge disjunkten Mengen in D. Dann
gilt, aus der σ-Additivität von P1 und P2 ,
!
!
X
X
[
[
P1 (Bn ) =
P2 (Bn ) = P2
Bn
P1
Bn =
n
n
n
n
und deswegen ist auch ∪n Bn ∈ D. Das zeigt, dass D ein Dynkin-System ist.
Es gilt offenbar G ⊂ D. Sei nun δ(G) das Dynkin System, das von G erzeugt wird (d.h.
das kleinste Dynkin System, das G enthält). Dann gilt auch δ(G) ⊂ D. Da aber G eine
Algebra ist (und deswegen stabil bezüglich Durchschnitte), gilt δ(G) = σ(G) (Analysis
3, Satz 2.14). Wir haben gezeigt, dass σ(G) = D, d.h. P1 und P2 stimmen auf der ganze
σ-Algebra σ(G) überein.
Eine Anwendung vom Carathéodory Erweiterungstheorem ist die folgende Charackterisierung von Wahrscheinlichkeitsmasse auf R.
Satz 2.2. Für jede monoton wachsende rechtsstetige Funktion F : R → R mit
lim F (x) = 0,
x→−∞
und
lim F (x) = 1
x→∞
gibt es genau ein Wahrscheinlichkeitsmass P auf (R, B(R)) so, dass P((a; b]) = F (b) −
F (a) für alle −∞ < a < b < ∞.
Beweis. Wir bezeichnen mit G0 die Menge aller halboffenen Intervalle (s; t] mit −∞ ≤
s < t < ∞ und aller Intervalle der Form (s; ∞), mit s ∈ R. Wir bezeichnen mit G die
Menge aller endlichen Vereinigungen von Mengen aus G0 . Dann ist G eine Algebra. Auf
G0 definieren wir
P0 ((s; t]) = F (t) − F (s)
und P0 ((s; ∞)) = F (∞) − F (s) = 1 − F (s). Durch endliche Additivität kann P0 auf der
ganze Algebra G definiert werden. Wichtig dabei ist die Tatsache, dass
P0 ((s; t]) + P0 ((t; r]) = P0 ((s; r]),
und P0 ((s; t]) + P0 (t; ∞)) = P0 ((s; ∞)),
die leicht überprüft werden kann.
13
Damit ist P0 ein endlich additives Mass auf der Algebra G. Um Theorem 2.1 anzuwenden, müssen wir überprüfen, dass
!
X
[
P0 (An )
P0
An =
n∈N
n∈N
für alle Folge (An )n∈N in G mit ∪n An ∈ G (d.h. wir müssen überprüfen, dass P0 ein
Prämass ist). Wir haben in Analysis 3 gezeigt (Proposition 2.20), dass ein endlich additives Mass µ auch σ-additiv ist, wenn limn→∞ µ(An ) = 0 für jede monoton fallende
Folge (An )n∈N mit ∩n∈N An = ∅. Also, um zu zeigen, dass P0 ein Prämass ist, müssen
wir beweisen, dass
lim P0 (An ) = 0
n→∞
für jede Folge (An )n∈N in G mit An ⊂ An−1 für alle n ∈ N und ∩n An = ∅.
Sei also (An )n∈N eine Folge in G mit An ⊂ An−1 für alle n ∈ N und ∩n∈N An = ∅
aber mit
lim P0 (An ) = a > 0
n→∞
(aus der Monotonie, der Limes existiert immer).
Wir bemerken, dass für jedes Intervall I ∈ G0 (also entweder I = (s; t] oder I =
(s; ∞)) und jedes ε > 0, eine kompakte Menge K und ein Intervall I 0 ∈ G0 existieren,
mit I 0 ⊂ K ⊂ I und P0 (I 0 ) ≥ P(I) − ε. Hier spielt die Annahme, dass F rechtsstetig
ist eine wichtige Rolle; zu einem gegebenen Intervall I = (s; t], die Tatsache, dass F
rechtsstetig ist, erlaubt uns s0 ∈ (s; t) zu finden, mit F (s0 ) − F (s) < ε. Dann können wir
I 0 = (s0 ; t] und K = [(s+s0 )/2, t] wählen (analog können wir im Fall I = (s; ∞) vorgehen,
durch Benutzung der Rechtsstetigkeit und der Annahme F (∞) = limt→∞ F (t) = 1).
Also, für alle n ∈ N finden wir Bn ∈ G und Kn kompakt, mit Bn ⊂ Kn ⊂ An und
P0 (Bn ) ≥ P0 (An ) − a2−n−1 .
Da An ⊂ An−1 für alle n, finden wir, dass
An ⊂ (B1 ∩ B2 ∩ · · · ∩ Bn ) ∪
n
[
(Aj \Bj )
j=1
Das impliziert, dass

P0 (B1 ∩ · · · ∩ Bn ) ≥ P0 (An ) − P0 
n
[

(Aj \Bj ) ≥ P0 (An ) −
j=1
n
X
a2−j−1 ≥ a/2
j=1
gleichmässig in n. Wir setzen nun K n = K1 ∩ · · · ∩ Kn . K n ist dann eine fallende Folge
von kompakten Mengen. Es gilt
k
\
K n = K k 6= ∅
(6)
n=1
weil K k ⊃ B1 ∩ B2 ∩ · · · ∩ Bk und P0 (B1 ∩ · · · ∩ Bk ) ≥ a/2. Da K n kompakt ist, für alle
n ∈ N, es folgt, dass
∞
\
K n 6= ∅
(7)
n=1
14
c
c
In der Tat, falls ∩n∈N K n = ∅, dann wäre ∪n∈N K n = R und also K m ⊂ ∪n∈N K n . D.h.
c
(K n )n∈N wäre eine offene Überdeckung von K m . Da K m kompakt ist, würde es dann
eine endliche Teilüberdeckung existieren. D.h. es würde n0 existieren, mit
Km ⊂
n0
[
c
Kn
n=1
Das impliziert, dass
n0
[
c
c
Kn ∪ Km = R
n0
\
d.h.
n=1
Kn ∩ Km = ∅
n=1
in Widerspruch zu (6). Das zeigt (7). Da
\
\
Kn ⊂
An
n∈N
n∈N
es folgt, dass ∩n An 6= ∅, in Widerspruch zu (7). Das zeigt, dass P0 ein Prämass ist. Mit
Theorem 2.1, erhalten wir das gewünschte Resultat, weil σ(G) = B(R).
Satz 2.2 zeigt, dass jede rechtsstetige und monoton wachsende Funktion F : R → R
mit F (−∞) = 0 und F (∞) = 1 ein eindeutiges Wahrscheinlichkeitsmass P auf (R, B(R))
definiert, mit P((s; t]) = F (t) − F (s). Umgekehrt, jedes Wahrscheinlichkeitsmass P auf
(R, B(R)) definiert durch F (t) := P((−∞; t]) eine rechtsstetige und monoton wachsende
Funktion (mit F (−∞) = 0 und F (∞) = 1). Wir nennen F : R → R die Verteilungsfunktion vom Wahrscheinlichkeitsmass P.
2.2
Wahrscheinlichkeitsdichte für absolut stetige Masse
Neben der Verteilungsfunktion F : R → [0; 1], spielt für Wahrscheinlichkeitsmasse P auf
(R, B(R)) die Wahrscheinlichkeitsdichte ρ, wann sie existiert, eine wichtige Rolle. Die
Dichte eines Wahrscheinlichkeitsmasses P auf (R, B(R)) ist eine nicht-negative messbare
und integrierbare Funktion ρ : R → [0; ∞) mit
Z
P((s; t]) = F (t) − F (s) =
t
ρ(x)dλ(x)
s
für alle −∞ ≤ s < t < ∞. Hier ist λ das Lebesgue Mass auf (R, B(R)). Nicht jedes
Wahrscheinlichkeitsmass hat eine Dichte. Wir zeigen in Theorem 2.4, dass jedes “absolut
stetiges” Wahrscheinlichkeitsmass eine Dichte hat.
Definition 2.3. Sei (Ω, A) ein messbarer Raum und µ und ν zwei Masse auf (Ω, A).
Wir sagen, dass ν absolut stetig bezüglich µ ist, wenn
A ∈ A mit µ(A) = 0
⇒
ν(A) = 0
Wir schreiben in diesem Fall ν µ. Ein Mass ν auf (Rn , B(Rn )) heisst einfach absolut
stetig, wenn sie bezüglich das Lebesgue Mass λn absolut stetig ist.
15
Sei (Ω, A, µ) ein Massraum. Für jede f : Ω → [0; ∞) messbar und bezüglich µ
integrierbar, betrachten wir das Mass
Z
f dµ
νf (A) =
A
Ist dann A ∈ A mit µ(A) = 0 so muss offenbar auch νf (A) = 0 sein (weil das Integrand
f χA ausserhalb einer Menge mit Mass Null verschwindet). Also νf µ für alle f ∈
L1 (Ω, A, µ) mit nicht-negativen Werten. Wir zeigen im nächsten Theorem, dass jede
absolut stetige Mass (bzg. einem σ-endlichen Mass µ) in dieser Weise geschrieben werden
kann.
Theorem 2.4 (Radon-Nikodym Theorem). Sei (Ω, A) ein messbarer Raum und seien
µ, ν zwei σ-endliche Masse auf (Ω, A). Ist ν µ, so existiert eine Funktion g : Ω →
[0; ∞) messbar, mit
Z
gdµ
ν(A) =
A
für alle A ∈ A. Die Funktion g ist eindeutig, bis auf Gleichheit auf einer µ-Nullmenge.
g heisst die Radon-Nikodym derivative of ν bezüglich µ.
Sei P ein Wahrscheinlichkeitsmass auf (Rn , B(Rn )), das absolut stetig bezüglich dem
Lebesgue Mass λn auf Rn ist. Es folgt aus Theorem 2.4, dass eine Lebesgue messbare
nicht-negative Funktion ρ : Rn → [0; ∞) existiert, mit
Z
P(A) =
ρ dλn
A
für alle A ∈ B(Rn ). D.h. die Wahrscheinlichkeit vom Ereignis A kann einfach ausgerechnet werden, indem man das Lebesgue Integral von ρ auf A berechnet. Wir nennen ρ
die Wahrscheinlichkeitsdichte von P. Bemerke, dass Wahrscheinlichkeitsdichte immer so
normiert sind, dass
Z
ρdλn = 1
(weil P(Rn ) = 1). Insbesodere, falls P ein absolut stetiges Wahrscheinlichkeitsmass auf
(R, B(R)) ist, so können wir eine Dichte ρ : R → [0; ∞) finden, mit
Z
P((s; t]) =
t
ρdλ
s
für alle −∞ ≤ s < t < ∞.
Um Theorem 2.4 zu zeigen, führen wir den Begriff von signierten Mass ein.
Definition 2.5. Sei (Ω, A) ein messbarer Raum. Eine Funktion µ : A → [−∞; ∞] heisst
ein signiertes Mass auf (Ω, A) wenn µ(∅) = 0 und wenn, für jede Folge (An )n∈N von
disjukten Mengen in A, es gilt
!
[
X
µ
An =
µ(An )
n∈N
n∈N
16
P
Damit µ : A → [−∞; ∞] ein signiertes Mass ist, muss die Summe
n∈N µ(An )
wohldefiniert sein, für jede Folge disjunkter Mengen in A. Insbesonde kann µ nur den
Wert +∞ oder den Wert −∞ annehmen, aber nicht beide. Ist |µ(Ω)| < ∞ so muss
µ(A) < ∞ endlich sein, für alle A ⊂ Ω. Ist µ(Ω) = +∞, so kann es kein A ∈ A existieren
mit µ(A) = −∞. Ist dagegen µ(Ω) = −∞, so wird es kein A ⊂ Ω mit µ(A) = +∞. Es ist
einfach zu üeberprüfen, dass ein signiertes Mass viele der Eigenschaften eines positiven
Mass hat. Z.B. wenn (An )n∈N eine wachsende Folge von Mengen in A,
!
[
µ
An = lim µ(An )
n→∞
n∈N
Ist (An )n∈N eine fallende Folge in A mit µ(An ) endlich für ein n ∈ N, so gilt
!
\
µ
An = lim µ(An )
n→∞
n∈N
Sei nun (Ω, A) ein messbarer Raum und µ ein signiertes Mass auf (Ω, A). Wir sagen
A ∈ A ist eine positive Menge für µ, falls µ(B) ≥ 0 für alle B ⊂ A. Wir sagen A ∈ A
ist eine negative Menge für µ, falls µ(B) ≤ 0 für alle B ⊂ A.
Lemma 2.6. Sei µ ein signiertes Mass auf ein messbarer Raum (Ω, A), und sei A ∈ A
mit −∞ < µ(A) < 0. Dann existiert eine negative Menge B ∈ A mit B ⊂ A und
µ(B) ≤ µ(A).
Proof. Sei
δ1 = sup {µ(E) : E ∈ A und E ⊂ A}
und sei A1 ∈ A mit A1 ⊂ A und mit
µ(A1 ) ≥ min(1, δ1 /2)
Sei nun
δ2 = sup {µ(E) : E ∈ A und E ⊂ A\A1 }
und A2 ∈ A mit A2 ⊂ A\A1 mit
µ(A2 ) ≥ min(1, δ2 /2)
Wir iterieren diese Konstruktion und definieren
(
δn = sup µ(E) : E ∈ A und E ⊂ A\
n−1
[
k=1
und dann wählen wir An ∈ A mit An ⊂ A\
Sn
j=1 Aj
und mit
µ(An ) ≥ min(1, δn /2)
Wir definieren dann
A∞ =
∞
[
An
und
n=1
17
B = A\A∞
!)
Ak
und wir behaupten, B hat die gewünschte Eigenschaften. In der Tat, An ∈ A sind
disjuknt mit µ(An ) ≥ 0 für alle n ∈ N. Also
µ(A) = µ(A∞ ) + µ(B) ≥ µ(B)
Wir müssen nun die Tatsache zeigen, dassPB eine negative Menge ist. Da µ(A) > −∞,
muss µ(A∞ ) < ∞ sein. Da aber µ(A∞ ) = n µ(An ), es folgt, dass µ(An ) → 0. Deswegen
muss δn → 0. Für ein beliebiges E ⊂ B haben wir nun µ(E) ≤ δn für alle n ∈ N, es
muss µ(E) ≤ 0 gelten.
Mit Hilfe des letzten Lemma können wir nun zeigen, dass jedes signierte Mass µ auf
(Ω, A) eine Hahn Zerlegung (P, N ) besitzt, wobei P, N ∈ A mit P ∪ N = Ω und so, dass
P eine positive und N eine negative Menge für µ sind.
Theorem 2.7 (Hahn’sche Zerlegungstheorem). Sei (Ω, A) ein messbarer Raum, und
sei µ ein signiertes Mass auf (Ω, A). Dann existieren P, N ∈ A so, dass P eine positive
und N eine negative Menge für µ sind und so, dass P ∪ N = Ω.
Beweis. Nehmen wir an µ nimmt den Wert −∞ nicht an (sonst nimmt µ den Wert +∞
nicht an, und man kann analog vorgehen). Sei
L = inf {µ(A) : A eine negative Menge für µ ist}
Sei nun (An )n∈N eine Folge in A von negativen Mengen für µ, mit L = limn→∞ µ(An ). Sei
N = ∪n∈N An . Dann ist N offenbar eine negative Menge für µ. Also L ≤ µ(N ) ≤ µ(An )
für alle n ∈ N. Es folgt, dass L = µ(N ) > −∞ (weil µ den Wert −∞ nicht annimmt). Sei
nun P = N c . Wir müssen noch zeigen, dass P eine positive Menge für µ ist. Nehmen wir
indirekt an, dass A ⊂ P in A existiert, mit µ(A) < 0. Dann existiert aber aus Lemma
2.6 eine negative Menge B ⊂ A. In diesem Fall wäre aber auch B ∪ N eine negative
Menge für µ, mit
µ(N ∪ B) = µ(N ) + µ(B) < µ(N ) = L
in Widerspruch zur Definition von L.
Wir können nun das Radon-Nykodim Theorem beweisen.
Beweis von Theorem 2.4. Wir betrachten zunächst den Fall, dass µ, ν endliche Masse
sind. Sei
Z
F = f : Ω → [0; ∞] messbar, s.d.
f dµ ≤ ν(A) für alle A ∈ A
A
Dann ist F nicht leer, weil die Konstante Funktion f = 0 sicher in F gehört.
Schritt 1. Es existiert g ∈ F, mit
Z
Z
gdµ = sup
f dµ : f ∈ F
Um die Behauptung zu zeigen, bemerken wir zunächst, dass
f1 , f2 ∈ F
⇒
max{f1 , f2 } ∈ F
18
In der Tat, für ein beliebiges A ∈ A, wir können A1 = {x ∈ A : f1 (x) > f2 (x)} und
A2 = {x ∈ A : f1 (x) ≤ f2 (x)} definieren. Dann gilt
Z
Z
Z
f2 dµ ≤ ν(A1 ) + ν(A2 ) = ν(A1 ∪ A2 ) = ν(A)
f1 dµ +
max{f1 , f2 } dµ =
A1
A
A2
Sei nun (fn )n∈N eine Folge in F mit
Z
Z
lim
fn dµ = sup
f dµ : f ∈ F
n→∞
Dann gilt offenbar auch
Z
Z
lim
max(f1 , . . . , fn )dµ = sup
f dµ : f ∈ F
n→∞
Da die Folge max(f1 , . . . , fn ) monoton wachsend ist, können wir den Limes
g = lim max(f1 , . . . , fn )
n→∞
punktweise definieren. Das monoton Konvergenz Theorem zeigt, dass
Z
Z
gdµ = lim
max(f1 , . . . , fn )dµ ≤ ν(A)
n→∞ A
A
weil max(f1 , . . . , fn ) ∈ F für alle n ∈ N und auch, dass
Z
Z
Z
gdµ = lim
max(f1 , . . . , fn )dµ = sup
f dµ : f ∈ F
n→∞
Schritt 2. Sei g wie im Schritt 1. Wir behaupten, dass
Z
ν(A) =
gdµ
A
für alle A ∈ A.
Für ein beliebiges A ∈ A, wir setzen
Z
ν0 (A) = ν(A) −
gdµ
A
Da g ∈ F, ist ν0 : A → [0; ∞] ein Mass auf A. Zu zeigen bleibt, dass ν0 = 0. Nehmen wir
an ν0 6= 0. Dann finden wir ε > 0 mit ν0 (Ω) > εµ(Ω) (weil µ ist endlich, nach Annahme).
Es ist einfach zu überprüfen, dass ν0 − εµ : A → [−∞; ∞] ein signiertes Mass auf A ist.
Sei (P, N ) eine Hahn’sche Zerlegung von ν0 − εµ.
Also, P, N ∈ A mit P ∪ N = Ω und so, dass P eine positive und N eine negative
Menge für ν0 − εµ sind. Wir bemerken sofort, dass µ(P ) > 0 sein muss. Wäre nämlich
µ(P ) = 0, dann müsste auch ν(P ) = 0 (aus der absolute Stetigkeit ν µ) und also
ν0 (P ) = 0. Deswegen wäre
ν0 (Ω) − εµ(Ω) = (ν0 − εµ)(N ) ≤ 0
19
in Widerspruch mit der Annahme, dass ν0 (Ω) > εµ(Ω). Das zeigt, dass µ(P ) > 0. Ferner,
für ein beliebiges A ∈ A gilt ν0 (A ∩ P ) ≥ εµ(A ∩ P ). Deswegen
Z
Z
Z
Z
gdµ + εµ(A ∩ P ) = (g + ε1P )dµ
gdµ + ν0 (A ∩ P ) ≥
gdµ + ν0 (A) ≥
ν(A) =
A
A
A
A
Das zeigt, dass g + ε1P ∈ F. Da aber
Z
gdµ ≤ ν(Ω) < ∞
und
Z
Z
(g + ε1P )dµ =
Z
gdµ + εµ(P ) >
gdµ
finden wir ein Widerspruch zur Definition von g in Schritt 1. Das zeigt, dass ν0 = 0 und
also, dass
Z
gdµ
ν(A) =
A
für alle A ∈ A.
Schritt 1 und 2 zeigen das Theorem im Fall, dass ν, µ endlich sind. In allgemein
finden wir eine Folge (An )n∈N von disjunkten Mengen in A mit ∪n An = Ω und so, dass
µ(An ) und ν(An ) endlich sind, für alle n ∈ N. Für alle n ∈ N finden wir dann eine
Funktion gn : An → [0; ∞] mit
Z
ν(E) =
gn dµ
E
für alle E ∈ A mit E ⊂ An . Wir können g : Ω → [0; ∞] durch g = gn auf An , für alle
n ∈ N, definieren. Es ist dann einfach zu überprüfen, dass g die gewünschte Eigenschaften
hat.
Schlussendlich zeigen wir die Eindeutigkeit der Funktion g. Wir betrachten zunächst
den Fall, dass ν endlich ist. Nehmen wir an g, h : Ω → [0; ∞] sind beide A-messbar und
so, dass
Z
Z
ν(A) =
gdµ =
A
hdµ
A
für alle A ∈ A. Da ν endlich ist, es folgt, dass
Z
(g − h)dµ = 0
A
für alle A ∈ A. Wenn wir zunächst A = {x ∈ Ω : g(x) ≥ h(x)} und dann A = {x ∈ Ω :
g(x) > h(x)} wählen, finden wir, dass
Z
|g − h|dµ = 0
und damit, dass g = h µ-fast überall. Wenn ν σ-endlich aber nicht unbedingt endlich
ist, finden wir eine Folge von disjukten Mengen (An )n∈N in A mit Ω = ∪n An und so,
dass ν(An ) < ∞ für alle n ∈ N. Wie oben können wir dann zeigen, dass g = h µ-f.ü. auf
An , für alle n ∈ N. Das zeigt auch, dass g = h µ-f.ü. auf Ω.
20
Theorem 2.4 zeigt, dass jedes absolut stetiges Wahrscheinlichkeitsmass auf Rn eine
Wahrscheinlichkeitsdichte hat. Natürlich sind nicht alle Wahrscheinlichkeitsmasse absolut stetig bezüglich das Lebesgue Mass. Was man aber zeigen kann ist, dass jede
Wahrscheinlichkeitsmass in der Summe eines absolut stetigen und eines singulären Teil
zerlegt werden kann. Was ein singuläres Mass ist (bezüglich dem Lebesgue Mass) wird
in der nächste Definition erklärt.
Definition 2.8. Sei (Ω, A) ein messbarer Raum. Wir sagen ein Mass µ ist auf einer
Menge A ⊂ Ω geträgt, falls µ(Ac ) = 0. Zwei Masse µ, ν auf (Ω, A) heissen zuenander
singulär, falls eine Menge E ∈ A existiert so, dass µ auf E und ν auf E c geträgt werden.
In diesem Fall schreiben wir µ ⊥ ν.
Mit dieser Definition können wir nun zeigen, dass ein beliebiges Mass in einem absolut
stetigen und einem singulären Teil zerlegt werden kann.
Theorem 2.9 (Lebesgue’sche Zerlegungstheorem). Sei (Ω, A) ein messbarer Raum, µ
ein Mass und ν ein σ-endliches Mass auf (Ω, A). Dann existieren eindeutige Masse νa , νs
auf (Ω, A) so, dass νa µ, νs ⊥ µ und ν = νa + νs . νs und νa heissen den singulären
und den absolut stetigen Teil von ν bezüglich µ.
Beweis. Wir definieren
Nµ = {B ∈ A : µ(B) = 0}
Wir wählen eine Folge (Bj )j∈N in Nµ so, dass
lim ν(Bj ) = sup{ν(B) : B ∈ Nµ }
j→∞
Sei N = ∪j∈N Bj . Wir definieren νa und νs durch
νa (A) = ν(A ∩ N c ),
νs (A) = ν(A ∩ N )
Offenbar ν = νa + νs . Ferner,
µ(N ) ≤
X
µ(Bj ) = 0
j
und deswegen ist νs ⊥ µ. Anderseits, wir haben
ν(N ) = sup{ν(B) : B ∈ Nµ } .
Ist nun A ∈ A mit A ⊂ N c und mit µ(A) = 0, so muss N ∪ A ∈ Nµ und also
ν(N ) + ν(A) = ν(N ∪ A) ≤ sup{ν(B) : B ∈ Nµ } = ν(N )
Deswegen muss auch ν(A) = 0. Das zeigt, dass νa (A) = 0 für alle A ∈ A mit µ(A) =
0.
Das einfachste Beispiel einer bezüglich Lebesgue singulären Mass auf (Rn , B(Rn )) ist
das Dirac’sche δ-Mass in einem Punkt x ∈ Rn , definiert durch δx (A) = 1, falls x ∈ A,
und δx (A) = 0 sonst. Das Mass δx ist im Punkt x geträgt, also auf einer Menge mit
Lebesgue Mass Null. Das bedeutet, dass δx ⊥ λn .
21
Jede abzählbare konvexe Kombinationen von Dirac-δ Masse definiert wieder ein
Wahrscheinlichkeitsmass auf (Rn ; B(Rn )), dasP
singulär bezüglich λn ist. Sei nämlich
(pj )j∈N eine Folge von Zahlen 0 ≤ pj ≤ 1, mit j pj = 1, und (xj )j∈N irgendeine Folge
in Rn . Dann ist
X
P :=
pj δxj
(8)
j∈N
ein Wahrscheinlichkeitsmass auf (Rn ; B(Rn )), das auf der Menge {xj : j ∈ N} geträgt
wird. Da jede abzählbare Menge Lebesgue Mass Null hat, ist ν ⊥ λn . Punkten x ∈ Rn ,
mit P({x}) > 0 heissen Atome für das Wahrscheinlichkeitsmass P (die Elemente xj sind
Atome für das Mass (8)). Man nennt ein Mass wie (8), das auf abzählbar viele Atome
geträgt wird, ein diskretes Mass.
Für Wahrscheinlichkeitsmasse auf (R, B(R)) entspricht jede Atome eine Unstetigkeit
in der Verteilungsfunktion. In der Tat, mit F (t) = P((−∞; t]), finden wir, für eine Folge
tn , die monoton von links gegen einem Punkt t ∈ R strebt,
lim F (tn ) = lim P((−∞; tn ]) = P((−∞; t)) = P((−∞; t]) − P({t}) = F (t) − P({t})
n→∞
n→∞
Das zeigt, dass F genau dann im Punkt t ∈ R unstetig ist, wenn t ein Atom des
Wahrscheinlichkeitsmasses P ist. Da eine Verteilungsfunktion auf R höchstens abzählbar
viele Unstetigkeiten hat, hat jedes Wahrscheinlichkeitsmass höchstens abzählbar viele
Atome. Ist P ein diskretes Mass (d.h. wird P auf abzählbar viele Punkte geträgt), so ist
F konstant bis auf abzählbar viele Punkte, wo sie ein Sprung hat.
Neben diskrete Masse existieren auch komplizierteren Beispiele von singuläre Masse,
die auf überabzählbare Lebesgue Nullmengen in Rn geträgt werden. Es ist einfach ein
Beispiel mit Hilfe der Cantor Funktion zu konstruieren. Sei K = ∩n∈N Kn ⊂ [0; 1] die
Cantor Menge (K0 = [0; 1], K1 = [0; 1/3] ∪ [2/3; 1] wird definiert, indem man den
mittlere Drittel von K0 entfernt, und so weiter). Wir erinneren, dass die Cantor Funktion
f : R → [0; 1] wie folgt definiert wird. Man setzt im ersten Schritt f (x) = 1/2 für
x ∈ K0 \K1 = (1/3; 2/3). Im n-te Schritt wird f auf Kn \Kn−1 definiert. Kn \Kn−1
besteht aus 2n−1 offene Intervalle der Länge 3−n . Die Funktion f wird so definiert, dass
sie den Wert (2k −1)/2n in der k-te Intervall, für k = 1, . . . , 2n−1 annimmt. Das definiert
f auf [0; 1]\K. Wir erweitern f auf R indem wir f (x) = 0 für alle x ≤ 0, f (x) = 1 für
alle x ≥ 1, und
f (x) = sup{f (t) : t ∈ [0; 1]\K und t < x}
für alle x ∈ K definieren. Dann ist f monoton wachsend, mit f (−∞) = 0 und f (+∞) =
1. Wir haben in Analysis 3 gezeigt, dass f stetig ist. Das zeigt, dass f die Verteilungsfunktion eines Masses Pcantor auf (R; B(R)) ist. Da f auf K c Konstant ist, und da
λ(K) = 0, ist Pcantor ein singuläres Mass bezüglich dem Lebesgue Mass. Anderseits, da
f stetig ist, gilt Pcantor ({x}) = 0 für alle x ∈ R. Also Pcantor enthält keine Atome. Man
nennt ein Mass wie Pcantor auf (R, B(R)), das singulär bezüglich dem Lebesgue Mass ist
aber keine Atome enthält (d.h. die Verteilungfunktion ist stetig) ein singuläres stetiges
Mass (“singular continuous measure” auf Englisch).
Wir finden: jede Wahrscheinlichkeitsmass P auf (R; B(R)) kann in der Summe von
drei Teilen zerlegt werden P = Pac + Pd + Psc , wobei Pac absolut stetig bezüglich dem
22
Lebesgue Mass λ ist, Pd ein diskretes Mass ist, das auf abzählbar viele Punkten (Atome)
geträgt wird und Psc ein singuläres stetiges Mass ist, das singulär bezüglich λ ist und eine
stetige Verteilungsfunktion hat (also keine Atome). Der absolut stetiger Teil Pac kann
einfach durch eine Wahrscheinlichkeitsdichte ρ beschrieben werden, mit der Eigenschaft
Z
ρ dλ
Pac (A) =
A
Der diskreter Teil hat die Form
Pd =
X
pn δxn
n∈N
P
für Folgen (xn )n∈N in R und (pn )n∈N in [0; 1] mit
pn = 1. Es ist schwieriger den
singulären stetigen Teil zu beschreiben (man braucht in diesem Fall die stetige Verteilungsfunktion zu geben).
Man bemerke, es ist einfach aus der Verteilungsfunktion F eines Wahrscheinlichkeitsmasses P auf (R, B(R)) die Wahrscheinlichkeitsdichte ρ von Pac zu bestimmen. In der
Tat, es gilt die folgende Tatsache (Beweis kann zB. auf dem Buch “Measure theory” von
D.L.Cohn gefunden werden): die Verteilungsfunktion F eines beliebigen Wahrscheinlichkeitsmasses P : B(R) → [0; 1] ist λ-fast überall differenzierbar. Die Funktion
0
F (x)
falls F an der Stelle x differenzierbar ist
ρ(x) :=
0
sonst
ist eine Wahrscheinlichkeitsdichte für den absolut stetigen Teil Pac von P.
2.3
Wichtige Beispiele von Wahrscheinlichkeitsmasse
In diesem Abschnitt diskutieren wir ein Paar Beispiele von Wahrscheinlichkeitsmasse,
die eine wichtige Rolle in der Wahrscheinlichkeitstheorie spielen.
Wir beginnen mit ein Paar diskrete Masse.
Bernoulli Verteilung. Die Bernoulli Vertilung kommt aus dem Münzwurf. Wir betrachten also ein Ergebniss Raum mit nur zwei Elementen, zB. Ω = {0, 1} (oder auch
“Kopf” und “Zahl”). Auf der σ-Algebra P (Ω) = {∅, {0}, {1}, {0, 1}} definieren wir, für
p ∈ [0; 1] ein Wahrscheinlichkeitsmass P durch Pp ({0}) = p, Pp ({1}) = 1 − p. Das
Wahrscheinlichkeitsmass Pp auf (Ω, P (Ω)) heisst eine Bernoulli Verteilung. Man kann
die Bernoulli Verteilung auch als ein Wahrscheinlichkeitsmass auf (R, B(R)), definiert
durch
Pp = pδ0 + (1 − p)δ1
Pp ist ein diskretes Wahrscheinlichkeitsmass.
Binomiale Verteilung. Wir betrachten n Münzwurfe, die, wie bei der Bernoulli Verteilung, mit Wahrscheinlichkeit p das Ergebniss 0 und mit Wahrscheinlichkeit (1−p) das
Ergebniss 1 liefern. Wir sind an der Anzahl von Ergebnisse 0 in den n Wurfe interessiert.
Der Ergebnisraum ist also Ω = {0, 1, . . . , n}. Man erwartet, dass
n k
Pn,p ({k}) =
p (1 − p)n−k
k
23
Diese Formel definiert Pn,p auf der Potenzmenge P (Ω) eindeutig (mit der Bedingung,
dass Pn,k additiv ist). Die Tatsache, dass Pn,k richtig normiert ist, folgt aus der Bemerkung, dass
n X
n k
p (1 − p)n−k = (p + 1 − p)n = 1
k
k=0
Das Wahrscheinlichkeitsmass Pn,p auf {0, 1, . . . , n} heisst eine binomiale Verteilung. Man
kann auch die binomiale Verteilung als ein diskretes Mass auf R, mit
Pn,p =
n X
n
k=0
k
pk (1 − p)n−k δk
interpretieren.
Poisson Verteilung. Die Poisson-Verteilung ist ein Wahrscheinlichkeitsmass auf der
Menge N (versehen mit der σ-Algebra P (N )). Für ein festgewählte Parameter ρ > 0,
die Poisson Verteilung Pρ wird durch
Pρ ({n}) =
ρn −ρ
e
n!
charakterisiert, für ein Parameter ρ > 0. Man kann die Poisson Verteilung als einen
Grenzwert der Binomialverteilung verstehen. Betrachten wir nämlich eine Binomialverteilung auf {0, 1, . . . , n} mit Wahrscheinlichkeit p = ρ/n von der Ordnung 1/n. Dann
gilt
n!
ρ n−k
ρk ρk −ρ
Pn,ρ/n ({k}) =
1
−
→
e
k!(n − k)! nk
n
k!
als n → ∞, für jede k ∈ N fest. Bemerke, dass die Poisson Verteilung richtig normiert
ist, weil
X ρn
e−ρ = 1
n!
n∈N
Geometrische Verteilung. Hier werfen wir ein Münz unendlich oft; bei jeder Wurf
kann entweder 0 (mit Wahrscheinlichkeit p ∈ [0; 1]) oder 1 (mit Wahrscheinlichkeit
q = 1 − p) vorkommen. Wir sind an der Nummer des Münzwurfs interessiert, bei dem
erstmalig 0 erscheint (wir beginnen mit dem Null-ten Versuch). Auf dem Ergebnisraum
Ω = N, definieren wir also das Ergebnismass
Pq ({k}) = q k (1 − q)
Pq definiert die geometrische Verteilung auf der Potenzmenge P (N). Die Normierung ist
aus
∞
X
1
q k (1 − q) =
(1 − q) = 1
1−q
k=0
garantiert.
Wir betrachten nun ein Paar absolut stetige Wahrscheinlichkeitsmasse auf (R, B(R)).
24
Gleichverteilung. Sei I ⊂ R ein Intervall. Die Gleichverteilung PI auf I wird durch
die Wahrscheinlickeitsdichte ρI = |I|−1 1I definiert. D.h. für jede A ∈ B(R),
Z
|I ∩ A|
1
χI dλ =
PI (A) =
|I| A
|I|
Die Verteilungsfunktion von PI ist dann (mit der Notation I = [a; b])

falls t ≤ a
 0
t−a
falls
a≤t≤b
F (t) = PI ((−∞, t]) =
 b−a
1
falls t ≥ b
Gaussverteilung. Die wichtigste Verteilung auf (R, B(R)) ist die sogenannte Normalverteilung, oder Gauss-Verteilung. Sie hängt aus zwei Parameter: die Gauss-Verteilung
mit Mittelwert m ∈ R und Standardabweichung σ > 0 ist aus der Dichte
ρm,σ (x) = √
1
2πσ 2
e−
(x−m)2
2σ 2
Die Normierung der Gaussverteilung ist aus der Berechnung
Z ∞
Z ∞
√
(x−m)2
2
−
2
e−x /2 dx = 2πσ 2
e 2σ dx = σ
−∞
−∞
garantiert. Wir werden sehen, die Gaussverteilung spielt eine extrem wichtige Rolle in
der Bescrheibung der Verteilung von Abweichungen um ein typisches Verhalten (der
zentrale Grenzwertsatz wird diese Aussage erklären).
Exponentialverteilung. Die Exponentialverteilung spielt eine wichtige Rolle als Verteilung von Wartezeiten. Für ein Parameter a > 0 ist die Dichte der Exponentialverteilung
aus
ρ(x) = ae−ax 1[0;∞) (x)
gegeben. Die Verteilungsfunktion F (t) = P((−∞; t]) ist in diesem Fall aus F (t) = 0 für
alle t < 0 und aus
Z t
F (t) =
dxae−ax = 1 − e−at
0
für alle t > 0 gegeben. Die Tatsache, dass F (+∞) = 1 zeigt, dass wir ρ richtig normiert
haben.
Cauchy-Verteilung. Auch die Cauchy-Verteilung hängt aus einem Parameter a > 0.
Die Dichte ist dann
a
1
ρ(x) =
π a2 + x2
und die Verteilungsfunktion
Z
Z t
1 t/a 1
1 1
F (t) =
dx = + arctan(t/a)
ρ(x)dx =
2
π
1
+
x
2 π
−∞
−∞
Das definiert Wahrscheinlichkeitsmasse Pa auf (R, B(R)) für alle a > 0. Die CauchyVerteilung ist mathematisch sehr interessant, weil sie sehr langsam ins Unendlichen
nach Null strebt. Wir werden sehen, dass sie deswegen kein Mittelwert besitzt.
25
2.4
Zufallsvariablen
Wir erinnern aus Analysis 3 den Begriff von messbarer Funktion. Sei (Ω, A) ein messbarer
Raum. Eine Funktion f : Ω → R heisst messbar, wenn eine (und also alle) der folgende
equivalente Bedingungen erfüllt sind:
f −1 ((−∞; t]) = {x ∈ Ω : f (x) ≤ t} ∈ A für alle t ∈ R
f −1 ((−∞; t)) = {x ∈ Ω : f (x) < t} ∈ A für alle t ∈ R
f −1 ((t; ∞)) = {x ∈ Ω : f (x) > t} ∈ A für alle t ∈ R
f −1 ([t; ∞)) = {x ∈ Ω : f (x) ≥ t} ∈ A für alle t ∈ R
Es ist auch einfach zu sehen (wie in Analysis 3 diskutiert wurde), dass f genau dann
messbar ist, wenn f −1 (A) ∈ A für alle A ∈ B(R). Diese letzte Bemerkung erlaubt
uns den Begriff von Messbarkeit auf beliebigen Funktionen zwischen zwei messbarer
Räume zu verallgemeinern. Seien also (Ω, A) und (Ω0 , A0 ) zwei messbarer Räume. Eine
Abbildung f : Ω → Ω0 heisst messbar (bezüglich der σ-Algebren A, A0 ) wenn f −1 (B) ∈
A für alle B ∈ A0 , d.h. wenn das Urbild einer Menge in A0 immer in der σ-Algebra A
enthalten ist. Wir werden sehen, dass dieser Begriff von Messbarkeit sehr wichtig in der
Wahrscheinlichkeitstheorie ist.
Um den Begriff von Zufallsvariablen einzuführen, betrachten wir ein einfaches Beispiel eines Zufallsexperiment, das aus n unabhängige Münzwürfe (mit mögliche Ergebnisse 0 oder 1) besteht. Was der Ergebnisraum dieses Experiment ist hängt davon ab,
was wir untersuchen möchten. Das vollständige Ergebnis des Experiment wird durch
eine Folge x = (x1 , . . . , xn ) ∈ {0, 1}n . Der entsprechende Ergebnisraum enthält 2n Elementen. Es könnte aber sein, wir möchten nur wissen, wie oft das Ergebnis 0 gefallen ist.
In diesem Fall ist der richtige Ergebnisraum Ω0 = {0, 1, . . . , n}, viel kleiner als früher.
Ω0 entspricht einer geringerer Beobachtungstiefe. Wie können wir die Beobachtungstiefe
eines Zufallsexperiments ändern? Offenbar entspricht jedes Ergebnis in Ω genau einem
Ergebnis in Ω0 . Wir können nämlich die Abbildung X : Ω → Ω0 durch
X(x) =
n
X
1(xj = 0)
j=0
definieren. Das Bild von x ∈ Ω ist genau die Anzahl Würfe, wo 0 gefallen ist. Wichtig
für die Abbildung X : Ω → Ω0 ist die Tatsache, dass für jede A ∈ A0 , X −1 (A) ∈ A gilt,
d.h., dass jede messbare Ereignis im neuen Raum Ω0 , zu einem messbarer Ereignis in Ω
entspricht (wie können wir nämlich die Wahrscheinlichkeit eines Ereignis in Ω0 messen,
wenn wir die Wahrschenilichkeit des entsprechenden Ereignis im ursprünglicher Raum
Ω (mit höheren Beobachtungsgrad) nicht bestimmen können). Diese Bedingung ist in
unserem Beispiel mit den n Münzwürfe nicht wichtig, weil A = P (Ω); sie spielt aber
eine wichtige Rolle für kontinuirlichen Ω, wann A eine echte Teilmenge von P (Ω) ist.
Definition 2.10. Seien (Ω, A) und (Ω0 , A0 ) zwei messbaren Räume. Eine Abbildung
X : Ω → Ω0 heisst eine Zufallvariable von Ω nach Ω0 , wenn sie messbar ist, d.h. wenn
X −1 (B) ∈ A für alle B ∈ A0 .
Ist A = P (Ω), so ist jede Abbildung X : Ω → Ω0 eine Zufallvariable (unabhängig aus
der Wahl von A0 ). In Allgemein, also wenn A nicht unbedingt die Potenzmenge P (Ω)
26
ist, ist das folgende Lemma nützlich um nachzuprüfen, ob eine Abbildung X : Ω → Ω0
eine Zufallvariable ist.
Lemma 2.11. Seien (Ω, A), (Ω0 , A0 ) zwei messbare Räume. Sei G 0 ⊂ P (Ω0 ) mit σ(G 0 ) =
A0 . Die Abbildung X : Ω → Ω0 ist genau dann eine Zufallvariable von Ω nach Ω0 , wenn
X −1 (B) ∈ A für alle B ∈ G 0 .
Beweis. Ist X : Ω → Ω0 messbar, so ist X −1 (B) ∈ A für alle B ∈ A0 , also insbesonde
für B ∈ G 0 . Nehmen wir nun an, dass X −1 (B) ∈ A für alle B ∈ G 0 . Dann bemerken wir,
dass die Menge
F := B ⊂ Ω0 : X −1 (B) ∈ A
eine σ-Algebra ist (das würde in Analysis 3 bewiesen). Da nach Annahme G 0 ⊂ F,
und da A0 = σ(G 0 ) die kleinste σ-Algebra ist, die G 0 enthält, muss A0 ⊂ F sein. Also
X −1 (B) ∈ A für alle B ∈ A0 , und X : Ω → Ω0 ist eine Zufallvariable.
Beispiel. Mit Lemma 2.11 finden wir, dass eine Abbildung X : Ω → R eine Zufallvariable, genau dann, wenn zB. X −1 ((−∞; t]) ∈ A für alle t ∈ R. D.h. wir erhalten zurück
die ursprüngliche Definition von Messbarkeit einer reelwertige Funktion.
Bei der Definition von Zufallvariable spielt das Wahrscheinlichkeitsmass keine Rolle;
nur die σ-Algebra ist wichtig. Jetzt betrachten wir ein Wahrscheinlichkeitraum (Ω, A, P),
ein messbarer Raum (Ω0 , A0 ) und eine Zufallvariable X : Ω → Ω0 . Im nächsten Satz zeigen wir, dass das Wahrscheinlichkeitsmass P auf (Ω, A) ein Wahrscheinlichkeitsmass auf
(Ω0 , A0 ) induziert. Intuitiv, das ist klar: wenn wir die Wahrscheinlichkeit der Ereignissen
in Ω kennen, so können wir auch die Wahrscheinlichkeit der Ereignissen in Ω0 berechnen.
Satz 2.12. Sei (Ω, A, P) ein Wahrscheinlichkeitraum und (Ω0 , A0 ) ein messbarer Raum.
Sei X : Ω → Ω0 eine Zufallvariable. Dann definiert
P0 (B) := P(X −1 (B))
für alle B ∈ A0 ,
ein Wahrscheinlichkeitsmass auf Ω0 .
Beweis. Bemerke zunächst, dass P0 wohldefiniert ist, weil X messbar ist. Offenbar ist
P0 (∅) = 0 und P0 (Ω0 ) = P(X −1 (Ω0 )) = P(Ω) = 1. Sei nun (Bn )n∈N eine Folge disjunkten
Mengen in A0 . Dann ist X −1 (Bn ) eine Folge disjunkter Mengen in A. Da
!
[
[
−1
−1
X (Bn ) = X
Bn ,
n∈N
n∈N
finden wir
!
0
P
[
Bn
!!
=P X
−1
n∈N
[
Bn
n∈N
!
=P
[
X −1 (Bn )
n∈N
=
X
n∈N
27
P(X −1 (Bn )) =
X
n∈N
P0 (Bn )
Das Wahrscheinlichkeitsmass P0 induziert durch X auf (Ω0 , A0 ) heisst die Verteilung der Zufallvariable X und wird oft mit PX bezeichnet. Zwei Zufallvariaben heissen
identisch verteilt, wenn Sie die selbe Verteilung haben.
Im Beispiel mit den n Münzwürfe haben wir Ω =P{0, 1}n , Ω0 = {0, 1, . . . , n} und die
Zufallvariable X : Ω → Ω0 , definiert durch X(x) = nj=1 1(xj ), die die Anzahl Erfolge
(Ergebnis 0) misst. Auf Ω (versehen einfach mit der σ-Algebra P (Ω)) es scheint sinnvoll
eine Gleichverteilung zu betrachten; das Warscheinlichkeitmass ist durch P(x) = 2−n
für alle x ∈ Ω definiert. Die Zufallvariable X induziert dann auf Ω0 das Wahrscheinlichkeitsmass PX = P ◦ X −1 , das durch
|{x ∈ Ω : X(x) = k}|
n 1
PX ({k}) = P(X −1 ({k})) = P({x ∈ Ω : X(x) = k}) =
=
2n
k 2n
definiert ist. Hier haben wir die Tatsache benutzt, dass die Anzahl x ∈ Ω mit X(x) = k
genau nk ist. Also, die Zufallvariable X hat eine Binomialverteilung, mit Parameter
p = 1/2.
Im Fall (Ω0 , A0 ) = (R; B(R)), ist die Abbildung X : Ω → R eine Zufallvariable
(bezüglich der σ-Algebra A auf Ω) genau dann, wenn eine der folgende equivalente
Bedingungen erfüllt ist
X −1 ((−∞; t]) = {x ∈ Ω : X(x) ≤ t} ∈ A,
für alle t ∈ R
X −1 ((−∞; t)) = {x ∈ Ω : X(x) < t} ∈ A,
für alle t ∈ R
−1
((t; ∞)) = {x ∈ Ω : X(x) > t} ∈ A,
für alle t ∈ R
X −1 ([t; ∞)) = {x ∈ Ω : X(x) > t} ∈ A,
für alle t ∈ R
X
Zum Beispiel, wenn Ω ⊂ Rn und A = B(Ω) ist die Borel σ-Algebra auf Ω, dann ist
jede stetige Funktion f : Ω → R Borel-messbar (zB. weil das Urbild f −1 ((−∞; t)) sicher
offen ist, wenn f stetig ist). Ist nun (Ω, A, P) ein belibiger Wahrscheinlichkeitsraum,
und X : Ω → R eine reelwertige Zufallvariable, so können wir wie in Satz 2.12, die
Verteilung PX : R → [0; 1] durch PX (B) := P(X −1 (B)) definieren, für alle B ∈ B(R)).
Insbesondere, wir können die Verteilungsfunktion
FX (t) := PX ((−∞; t]) = P(X −1 ((−∞; t])) = P({x ∈ Ω : X(x) ≤ t})
definieren. Oft schreiben wir einfach FX (t) = P(X ≤ t). FX ist die Verteilungsfunktion des Wahrscheinlichkeitsmasses, das die Zufallvariable X auf (R; B(R)) induziert; sie
heisst die Verteilungsfunktion der Zufallvariable X.
2.5
Erwartungswert und Varianz einer Zufallvariable
Wir betrachten in diesem Abschnitt Zufallvariablen mit Werten in R, oder in einer
Teilmenge von R (möglicherweise auch eine diskrete Teilmenge von R). Wir möchten
einfache Grösse einführen, die die wichtigste Eigenschaften diesen Zufallvariablen beschreiben. Die erste solche Grösse ist der Erwartungswert.
Definition 2.13. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine
reelwertige Zufallvariable. Ist X auf Ω integrierbar, so definieren wir den Erwartungswert
von X durch
Z
E X :=
XdP
Ω
28
Bemerkung. Der Raum von allen Funktionen auf Ω, die bzg. A messbar und bzg. P
integrierbar sind, wurde in Analysis 3 mit L1 (Ω, A, P) bezeichnet. Der Erwartungswert
ist also für alle Zufallvariablen X ∈ L1 (Ω, A, P) definiert. Wie wir schon in Analysis 3
gemacht haben, kann man Zufallvariablen als Equivalenzklassen von messbaren Funktionen definieren. In diesem Fall wird der Erwartungswert für alle X ∈ L1 (Ω, A, P)
definiert.
Beispiel. Sei Ω = [−1/2; 1/2] ⊂ R versehen mit der Borel σ-Algebra auf Ω. Sei P die
Gleichverteilung auf Ω, d.h. P(A) = λ(A) für alle A ∈ B(Ω) (λ(A) ist hier das Lebesgue
Mass von A). Wir betrachten die Zufallvariable X : Ω → R, definiert durch X(x) = x2 .
Dann ist X ∈ L1 (Ω, B(Ω), P) und
Z 1/2
Z
Z
1
2
x2 dx =
x dλ(x) =
EX = XdP =
12
−1/2
[−1/2;1/2]
Man kann der Erwartungswert auch für Zufallvariablen definieren, die Werte auf
einer diskrete Teilmenge von R nehmen. Betrachten wir zB. eine Funktion X : Ω → Ω0 ,
mit |Ω0 | < ∞. In diesem Fall ist der Erwartungswert immer wohldefiniert, und
Z
X
X
E X = XdP =
λP ({x ∈ Ω : X(x) = λ}) =
λP(X = λ)
(9)
λ∈Ω0
λ∈Ω0
In diesem Fall sieht man sehr klar, dass der Erwartungswert von X die Mittelung über
alle mögliche Werte der Zufallvariable X ist, gewogen mit der entsprechende Wahrscheinlichkeit. Die Formel (9) kann auch benutzt werden, wenn |Ω0 | abzählbar ist; in
diesem
P Fall muss man zunächst aber die Integrierbarkeit von X (d.h. die Endlichkeit
von λ |λ|P(X = λ)) überprüfen.
Beispiel: betrachten wir wieder das Beispiel mit den n Münzwürfe. Sei Ω = {0, 1}n ,
und sei X : Ω → {0, 1, . . . , n} die Zufallvariable,
die der Anzahl Erfolge (ein Erfolg ist
Pn
ein Ergebnis 0) misst, d.h. X(x) = j=1 1(xj = 0). Auf Ω definieren wir die Gleichverteilung P(A) = |A|/2n für jede Teilmenge A ⊂ Ω. Wir möchten den Erwartungswert
von X berechnen. Wir finden
n
n
X
X
EX =
kP(X = k) =
kP ({x ∈ Ω : X(x) = k})
=
k=0
n
X
k=0
k=0
n n 1
n X n−1
n
k
= n
=
n
k 2
2
k−1
2
k=1
wie wir intutitiv erwarten könnten.
Der Erwartungswert einer Zufallvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P)
ist also einfach das Integral einer Funktion auf Ω. Alle Eigenschaften vom Integral, die in
Analysis 3 besprochen wurden, können also direkt auf dem Erwartungswert angewandt
werden. Wir fassen die wichtigste Eigenscahften im nächsten Theorem zusammen.
Theorem 2.14. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. X, Y ∈ L1 (Ω, A, P) zwei
reelwertige Zufallsvariablen, und α ∈ R. Dann
a) Linearität: X + αY ∈ L1 (Ω, A, P) und
E(X + αY ) = EX + αEY
29
b) Monotonie: ist X(x) ≤ Y (x) für alle x ∈ Ω, dann gilt
EX ≤ EY
Ähnlich kann man auch das Theorem der monotone Konvergenz und das Theorem
der dominierte Konvergenz benutzen, um Grenzwerte von Erwartungswerte zu berechnen.
Bemerke auch, dass den Begriff von Erwartungswert auch auf Zufallvariablen mit
Werten in Rn (der Erwartungswert wird dann komponenteweise definiert, wie das Integral) oder in C (man nimmt separat den Erwartungswert von reellen und imaginäre
Teil) erweitert werden kann. Wir sparen uns die offenbare Definitionen.
Wir haben im letzten Abschnitt gesehen, die Zufallvariabel X : Ω → R, definiert auf
einem Wahrscheinlichkeitsraum (Ω, A, P), induziert ein Wahrscheinlichkeitsmass PX =
P ◦ X −1 auf (R; B(R)); wir haben PX als die Verteilung der Zufallvariable X bezeichnet.
Es ist dann natürlich zu fragen, ob es möglich ist, der Erwartungswert von X direkt
mit Hilfe der Verteilung PX zu berechnen, ohne Benutzung des Masses P. Im nächsten
Theorem zeigen wir, dass das tatsächlich möglich ist. Eigentlich beweisen wir noch mehr;
der Erwartungswert von jeder Funktion von X (gesehen als eine neue Zufallvariabel auf
Ω) kann mit Hilfe der Verteilung PX berechnet werden.
Satz 2.15. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine reelwertige
und bezüglich P integrierbare Zufallvariabel. Sei PX = P ◦ X −1 die Verteilung der Zufallvariable X (PX ist dann ein Wahrscheinlichkeitsmass auf R, versehen mit der Borel
σ-Algebra B(R)). Dann gilt
Z
xdPX (x)
E X = EPX 1 =
R
wobei 1 : R → R die Identität 1(x) = x ist (insbesondere ist die Funktion 1 bezüglich
PX integrierbar). Hier ist EPX 1 der Erwartungswert der Zufallvariable 1 bezüglich dem
Wahrscheinlichkeitsmass PX . Ferner, für jede messbare Funktion f : R → R, mit f ◦X ∈
L1 (Ω, A, P) gilt f ∈ L1 (R, B(R), PX ) und
Z
E (f ◦ X) = EPX f = f (x)dPX (x)
(10)
Beweis. Wir zeigen direkt (10). Sei zunächst f eine charakteristische Funktion, d.h.
f = 1A , für ein A ∈ B(R). Dann ist (f ◦ X)(x) = f (X(x)) = 1A (X(x)) = 1X −1 (A) (x)
und deswegen
Z
Z
Z
−1
E(f ◦ X) = (f ◦ X) dP = 1X −1 (A) dP = P(X (A)) = PX (A) = 1A dPX = EPX f
Mit Hilfe der Linearität des Erwartungswertes, folgt die Behauptung für beliebige einfache Funktionen f : R → R. Ist nun f positiv, aber nicht unbedingt einfach, so können
wir eine Folge einfache Funktionen fn finden, die monoton gegen f konvergieren. Das
Theorem der monotone Konvergenz impliziert dann, dass
E(f ◦ X) = lim E(fn ◦ X) = lim EPX fn = EPX f
n→∞
n→∞
30
Für eine beliebige (nicht unbedingt positive) f , schreiben wir f = f+ −f− . Aus Annahme
sind f+ ◦ X und f− ◦ X integrierbar und positiv. Es folgt, dass E(f ◦ X) = EPX f , wie
behauptet.
Es folgt aus dem letzten Satz, dass alle Eigenscahften einer Zufallvariable X werden
durch die Verteilung PX bestimmt. Um Erwartungswerten von Funktionen von X zu
berechnen brauchen wir gar nicht zu wissen, auf welchem Wahrscheinlichkeitsraum X
ursprünglich definiert war. Alles was wir brauchen ist die Verteilungsfunktion PX von
X. Oft in der Wahrscheinlichkeitstheorie wird deswegen den abstrakten Wahrscheinlichkeitsraum vergessen, und Zufallvariablen werden nur durch ihrer Verteilungsfunktion
PX definiert (die Bedeutung und die Interpretation der Zufallvariable X ist aber nur
klar, wenn man weisst, wo X ursprünglich definiert war). Die Notation X ∼ PX bedeutet, dass X eine Zufallvariable ist (auf irgendeinem Wahrscheinlichkeitsraum), mit
Verteilung PX . Z.B. wenn N (m, v) eine Normalverteilung mit Erwartungswert m und
Varianz v bezeichnet, so bedeutet X ∼ N (m, v), dass X eine Zufallvariable ist, mit
Normalverteilung.
Anderseits, jedes Wahrscheinlichkeitsmass P auf (R; B(R)) kann als die Verteilung
einer Zufallvariable verstanden werden, nämlich von der Variable X = 1, definiert auf
R. In diesem Sinn kann man auch der Erwartungswert eines Wahrscheinlichkeitsmass
berechnen; was gemeint wird ist immer den Erwartungswert der Zufallvariable mit Verteilung P, also
Z
EP 1 =
x dP(x)
R
Ist insbesondere ein Wahrscheinlichkeitsmass P auf (R; B(R)) absolut stetig, dann
können wir der Erwartungswert von P mit Hilfe seiner Wahrscheinlichkeitsdichte ρ berechnen. Erinnere, dass die Dichte ρ eines absolut stetiges Mass so definiert ist, dass
Z
P(A) =
ρ dλ
A
für alle A ∈ B(R) (ρ ist die Radon-Nikodym derivative von P bezüglich dem Lebesgue
Mass λ). Also
Z
Z
EP 1 = x dP(x) =
xρ(x) dλ(x)
R
Beispiele.
i) Betrachten wir eine Zufallvariable X ∼ Exp (a) (Exp (a) bezeichnet die Exponentialverteilung, mit Parameter a, dessen Dichte aus ρ(x) = ae−ax 1(x > 0) gegeben
ist). Was ist den Erwartungswert von X? Wir berechnen
Z
EX =
xae−ax 1(x > 0)dλ(x)
ZR∞
axe−ax dx
=
0
Z ∞
e−ax ∞
1
−ax ∞
= −xe |0 +
e−ax dx = −
|0 =
a
a
0
31
ii) Sei nun X ∼ N (m, v). Der Erwartungswert von X ist dann
Z
Z
(x−m)2
(x−m)2
1
1
−
2
2σ
xe
=m+ √
(x − m)e− 2σ2 = m
EX = √
2πσ 2 R
2πσ 2 R
Neben dem Erwartungswert kann man einer reelwertigen Zufallvariable X auch anderen Grösse zuordnen. Die wichtigste ist die Varianz, die die Breite der Verteilung von
X misst.
Definition 2.16. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine Zufallvariable. Wir nehmen an, dass X 2 bezüglich P integrierbar ist (also X 2 ∈
L1 (Ω, A, P), oder, wenn wir an equivalenzklassen von Funktionen denken, einfach, dass
X ∈ L2 (Ω, A, P)). Dann definieren wir die Varianz von X durch
Z
2
Var X = E(X − EX) = (X − EX)2 dP
(Da P ein Wahrscheinlichkeitsmass ist, impliziert die Tatsache, dass X 2 integrierbar
auch, dass X integrierbar ist; das muss also nicht separat angenommen werden).
Von der Definition sieht man klar, dass die Varianz die Fluktuationen einer Zufallvariable um ihr Erwartungswert misst. Die Varianz ist immer positiv. Sie ist gerade dann
gleich Null wenn X = EX P-fast überall, also wenn X den Wert EX mit Wahrscheinlichkeit 1 annimmt. Wir bemerke, dass die Varianz von X auch durch
Var X = E(X − EX)2 = E(X 2 + 2X(EX) − (EX)2 ) = EX 2 − (EX)2
(11)
berechnet werden kann. Es folgt aus Satz 2.15, dass die Varianz auch mit Hilfe der
Verteilung PX von X berechnet werden kann. In der Tat
2
Z
VarX = E(X − EX) =
Z
2
(x − EX) dPX (x) =
2
x dPX (x) −
Z
2
xdPX (x)
Wenn die Verteilung PX absolut stetig ist, dann können wir die Varianz mit Hilfe ihrer
Wahrscheinlichkeitdichte ρ berechnen. Wir finden
Z
Var X =
x2 ρ(x)dλ(x) −
Z
2
xρ(x)dλ(x)
Beispiele.
i) Betrachten wir die diskrete Zufallsvariable X mit Werten in {1, . . . , n} und Verteilung
1 n
PX ({k}) = n
2 k
Wir haben früher gesehen, dass X die Anzahl Erfolge in n Münzwürfe misst (das ist
aber nicht mehr wichtig, zur Berechnung der Varianz; Kenntniss von der Verteilung
32
PX ist genug). Wir haben schon gesehen, dass EX = n/2. Zur Berechnung der
Varianz müssen wir noch
n
n
1 X
n!
n
1 X 2 n
2
k
= n
k(k − 1)
+
EX = n
2
2
k!(n − k)! 2
k
k=0
k=0
n
n(n − 1) X n − 2
n
n(n − 1) n
n(n + 1)
=
+ =
+ =
n
2
k−2
2
4
2
4
k=2
Also
Var X =
n(n + 1) n2
n
−
=
4
4
4
ii) Sei X ∼ Poi(λ) (Poi(λ) bezeichnet eine Poisson Verteilung, mit Parameter λ). Der
Erwartungswert von X ist
∞
∞
X
X
λk −λ
λk−1 −λ
EX =
k e =λ
e =λ
k!
(k − 1)!
k=0
k=1
Ferner
EX 2 =
∞
X
k=0
k2
∞
∞
k=0
k=2
X λk−2
λk
λk −λ X
e =
k(k − 1) e−λ + λ = λ2
e−λ + λ = λ2 + λ
k!
k!
(k − 1)!
Also
Var X = λ2 + λ − λ2 = λ
D.h. die Poisson-Verteilung mit Parameter λ hat Erwartungswert und Varianz
gleich λ.
Erwartungswert und Varianz werden mit Hilfe der Verteilung PX der Zufallsvariable
X berechnen. Anderseits, Kenntniss von EX und Var X geben wichtige Informationen
über die Verteilung von X. ZB. die Chebyshev Ungleichung zeigt, dass
1
1
E(X − EX)2 = 2 Var X
(12)
2
t
t
und erlaubt uns die Fluktuationen um EX zu schätzen. Um (12) zu beweisen, bemerken
wir einfach, dass
P(|X − EX| ≥ t) ≤
P(|Y | ≥ t) = P(t−1 |Y | ≥ 1) = E1(t−1 |Y | ≥ 1) ≤ Et−2 |Y |2 = t−2 E|Y |2
aus der Monotonie des Erwartungswertes.
Manchmal ist es auch nützlich die Erwartungswerte von höheren Potenzen einer
Zufallvariabel X zu berechnen. Sei r ∈ N, (Ω, A, P) ein Wahrscheinlichkeitsraum, und
X : Ω → R eine Zufallvariabel mit X r ∈ L1 (Ω, A, P). Wir bezeichnen mit PX = P ◦ X −1
die Verteilung der Zufallvariabel X. Wir definieren das p-te Moment von X durch
Z
Z
p
r
Mp = EX =
X dP =
xr dPX (x).
Ω
R
Momente sind manchmal wichtig, weil sie oft (aber nicht immer) Wahrscheinlichkeitsverteilungen eindeutig charakterisieren. Ein nützliches Kriterium ist in der folgenden Proposition gegeben (wir werden die Proposition hier nicht beweisen; ein Beweis
kann in .. gefunden werden).
33
Proposition 2.17. Sei Mn ∈ R eine Folge mit der Eigenschaft, dass Mp ≥ 0 für alle p
gerade und so, dass ein a > 0 existiert, mit
∞
X
p=1
M2p
a2p
<∞
(2p)!
Dann
existiert hc̈hstens ein Wahrscheinlichkeitsmass P auf (R, B(R)) so, dass Mn =
R
xdP
für alle n ∈ N.
R
Beispiel: Sei X eine Zufallvariable mit Normalverteilung, mit Erwartungswert 0 und
Varianz 1. Die Momente von X sind dann Mp = 0 falls p ungerade und
M2p =
(2p)!
2p p!
Beweis: Übung.
Statt alle Momente von X zu berechnen, es ist manchmal nützlich die sogenannte
Momenten erzeugende Funktion von X zu berechnen. Sei X eine reelle Zufallsvariable
auf einem Wahrscheinlichkeitsraum (Ω, A, P) so, dass ein a > 0 existiert mit Ee±aX < ∞.
Dann können wir die Momenten erzeugende Funktion von X durch
ψ(z) := EezX
definieren, für z in einer Umgebung von 0. Mit Hilfe von dominierte Konvergenz kann
man dann zeigen, dass ψ ist in Null beliebig oft differenzierbar, mit
ψ (p) (0) = EX p = Mp
für alle p ∈ N.
Beispiele: wir berechnen die Momenten erzuegende Funktion von ein Paar Verteilungen.
i) Sei X eine Zufallvariable mit Exponentialverteilung, d.h. mit Dichte ρa (x) =
ae−ax 1(x ≥ 0). Die Momenten erzeugende Funktion ist dann
Z
Z ∞
a
1
zX
zx
ψa (z) = E e =
e ρa (x)dλ(x) =
e(z−a)x adx =
=
a−z
1 − z/a
R
0
falls z < a. Damit finden wir
EX p = ψa(p) (0) =
p!
ap
für alle p ∈ N.
ii) Sei nun X eine Zufallvariable mit Poisson-Verteilung mit Parameter λ > 0, d.h.
X λk
PX =
e−λ δk
k!
k∈N
Wir berechnen die Momenten erzeugende Funktion:
∞
ψλ (z) = EezX =
X
k∈N
ezk
X (λez )k
λk −λ
z
z
e = e−λ
= e−λ eλe = e−λ(1−e )
k!
k!
k=0
für alle z ∈ R. Im Prinzip können wir damit alle Momente von X berechnen indem
wir die Ableitungen von ψλ an der Stelle Null bestimmen.
34
2.6
Charakteristische Funktion
Eine andere nützliche Funktion, die man einer Zufallvariabel zuordnen kann, ist ihre
charakteristische Funktion.
Definition 2.18. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine
reelwertige Zufallvariabel auf Ω, mit Wahrscheinlichkeitsverteilung PX = P ◦ X −1 . Dann
heisst
Z
Z
itX
itX
φX (t) = E e
=
e dP = eitx dPX (x)
Ω
die charakteristische Funktion von X.
Ist PX absolut stetig bezüglich dem Lebesgue Mass, und ist ρX : R → [0; ∞) die
Wahrscheinlichkeitsdichte von X, so ist
Z
φ(t) = eitx ρX (x)dλ(x)
die Fourier transformierte von ρX .
Im nächsten Lemma zeigen wir die Stetigkeit der charakteristische Funktion.
Lemma 2.19. Sei X : Ω → R eine reelwertige Zufallvariabel auf einem Wahrscheinlichkeitsraum (Ω, A, P). Dann ist die charakteristische Funktion φ(t) = EeitX gleichmässig
stetig auf R.
Beweis. Sei PX = P ◦ X −1 die Verteilung von X. Dann
Z
|φX (t) − φX (s)| = E|eitX − eisX | =
|eitx − eisx |dPX (x)
R
Z
i(t−s)x
=
|1 − e
|dPX (x)
Z
ZR
i(t−s)x
|1 − e
|dPX (x) +
|1 − ei(t−s)x |dPX (x)
=
(13)
|x|>N
|x|≤N
c
≤ N |t − s| + PX ([−N ; N ] )
weil |1 − eix | ≤ |x|. Nun, zu gegebenen ε > 0, finden wir N > 0 gross genug, damit
PX ([−N ; N ]c ) ≤ ε/2. Wir setzten dann δ = ε/2N . Dann, für alle t, s ∈ R mit |t − s| < δ,
finden wir aus (13), dass |φX (t) − φX (s)| ≤ ε. D.h. φX ist gleichmässig stetig.
Wie die Momenten erzeugende Funktion ist auch die charakteristische Funktion einer
Zufallvariable mit den Momenten von X verknp̈ft.
Lemma 2.20. Sei X eine reelwertige Zufallvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P). Sei n ∈ N mit E|X|n < ∞. Dann ist die charakteristische Funktion φX ∈
C n (R) und
(j)
φX (0) = ij EX j
für alle j = 0, 1, . . . , n.
35
Beweis. Wir betrachten zunächst den Fall n = 1. Dann gilt
Z i(t+ε)x
Z
e
− eitx
eiεx − 1
φX (t + ε) − φX (t)
eitx
=
dPX (x) =
dPX (x)
ε
ε
ε
R
R
Da
itx eiεx − 1 e
≤ |x|
ε
gleichmässig in ε, und da, nach Annahme |x| ∈ L1 (R, B(R), dPX ), es folgt aus dominierten Konvergenz, dass
Z
φX (t + ε) − φX (t)
(1)
lim
=
ixeitx dPX (x) =: φX (t)
ε→0
ε
R
(1)
Insbesondere ist φX differenzierbar. Die (gleichmässige) Stetigkeit von φX kann ähnlich
wie in Lemma 2.19 bewiesen werden. In der Tat
Z
Z
(1)
(1)
i(t−s)x
2
|x||1 − e
|dPX (x) ≤ N |t − s| + 2
|x|dPX (x)
φX (t) − φX (s) ≤
|x|>N
R
für alle N > 0. Zu gegebenen ε > 0 können wir nun N > 0 finden so, dass
Z
|x|dPX (x) < ε/2
|x|>N
(weil das Integral auf R ist endlich). Dann setzen wir einfach δ = ε/2N 2 , um zu zeigen,
(1)
(1)
dass |t − s| < δ impliziert, |φN (t) − φN (s)| ≤ ε. Das zeigt, dass φX ∈ C 1 (R). Iterativ
n
kann man zeigen, dass, falls E|X| < ∞, dann ist φX ∈ C n (R), mit
Z
(j)
φX (t) = (ix)j eitx dPX (x)
R
(j)
für alle j = 1, . . . , n. Insbesondere φX (0) = ij EX j .
Beispiele. Wir diskutieren ein Paar Beispiele.
i) Sei X eine Zufallvariable, mit Cauchy Verteilung, beschrieben aus der Wahrscheinlichkeitdichte ρa (x) = (a/π)(x2 + a2 )−1 . Die charakteristische Funktion von X ist
Z
Z
1
a ∞
eitx
ixt π
φX (t) =
e
dx
=
dx
a x2 + a2
π −∞ (x + ia)(x − ia)
R
Für t > 0 können wir das Integral im oberen Halbebene schliessen. Aus der Pol
an der Stelle x = ia finden wir den Beitrag
Z ∞
eitx
e−ta
dx = −
.
4πa
−∞ (x + ia)(x − ia)
Für t < 0 können wir dagegen das Integral im unteren Halbebene schliessen, und
wir kriegen
Z ∞
eitx
eta
dx = −
.
4πa
−∞ (x + ia)(x − ia)
36
Also, die charakteristische Funktion einer Zufallvariable mit Cauchy Verteilung ist
φX (t) =
1 −|t|a
e
(2π)2
ii) Sei X eine Zufallvariable mit Binomial-Verteilung auf {0, 1, . . . , n}. Die charakteristische Funktion ist dann
Z
n
X
itx
itk n
φX (t) =
e dPX (x) =
pk (1 − p)n−k = (eit p + (1 − p))n
e
k
R
k=0
iii) Sei nun X normalverteilt, mit Erwartungswert m und Varianz v. Die Dichte von
X ist
1
2
ρX (x) = √
e−(x−m) /2v
2πv
Die charakteristische Funktion ist dann
Z
Z ∞
1
eitm
2
2
φX (t) = √
eitx e−(x−m) /2v dλ(x) = √
eitx e−x /2v dx
2πv R
2πv −∞
Z
2
∞
eitm e−vt /2
2
√
=
e−(x−ivt) /2v
2πv
−∞
Wenn wir die Integration-variable y = x−ivt zurück auf der reellen Achse schieben,
finden wir
2
(14)
φX (t) = eitm e−vt /2 .
Die charakteristische Funktion spielt oft eine wichtige Rolle, weil sie die Verteilung
eindeutig festlegt.
Satz 2.21. Sei X eine reelwertige Zufallvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P). Die charakteristische Funktion von X legt die Verteilung von X eindeutig
fest. Mit andere Wörter, seien X, Y zwei reelwertige Zufallvariable auf (Ω, A, P) mit
φX = φY . Dann muss PX = PY gelten.
Um den Satz zu beweisen, brauchen wir das folgende Lemma.
Lemma 2.22. Sei (Rn , B(Rn ), P) ein Wahrscheinlichkeitsraum.
a) Für jede A ∈ B(Rn ) und ε > 0 gibt es Fε abgeschlossen und Gε offen mit Fε ⊂
A ⊂ Gε und P(Gε \Fε ) < ε.
b) Das Wahrscheinlichkeitsmass P wird eindeutig bestimmt durch die Werte der Integrale
Z
f dP,
für alle f ∈ Cb (Rn )
Hier bezeichnet Cb (Rn ) den Raum der stetigen und beschränkten Funktionen auf
Rn .
37
Beweis. a) Sei F die Menge aller abgeschlossenen Mengen in Rn und G die Menge aller
offenen Mengen. Wir setzen
H = {A ∈ B(Rn ) : ∀ ε > 0 ∃ Fε ∈ F und Gε ∈ G mit Fε ⊂ A ⊂ Gε und P(Gε \Fε ) < ε}
Es ist leicht zu sehen, dass H eine σ-Algebra ist. Es gilt F ⊂ H. In der Tat, falls A ∈ F,
setzen wir Fε = A. Um Gε zu definieren, setzen wir G̃n := {x ∈ Rn : d(x, A) < 1/n} für
alle n ∈ N. Es gilt G̃n+1 ⊂ G̃n für alle n. Deswegen ist
lim P(G̃n ) = P(∩n∈N G̃n ) = P(A)
n→∞
und wir können n ∈ N gross genug finden so, dass P(G̃n ) < P(A) + ε. Dann setzen
wir Gε = G̃n . Das zeigt, dass F ⊂ H. Da aber B(Rn ) die kleinste σ-Algebra ist, die F
enthält, muss H = B(Rn ).
b) Sei A ∈ B(Rn ) beliebig. Für alle n ∈ N finden wir Fn abgeschlossen, mit Fn ⊂ A
und P(Fn ) ≤ P(A) ≤ P(Fn ) + 1/n. O.B.d.A. können wir auch annehmen, dass die
Folge Fn monoton wachsend ist (sonst ersetzen wir Fn durch die abgeschlossene Menge
˙ n ). Also P(A) = limn→∞ P(Fn ), und P ist eindeutig durch die Werten P(F )
F1 ∪ ∪F
bestimmt.
Sei nun

t≤0
 1
1−t
0<t<1
ϕ(t) =

0
t≥1
Für eine abgeschlossene Menge F ⊂ Rn und n ∈ N setzen wir
ϕn,F (x) := ϕ(nd(x, F ))
für alle x ∈ Rn . Dann ist ϕn,F beschränkt und stetig für alle n ∈ N. Ferner, die Folge
ϕn,F ist monoton fallend, mit ϕn,F (x) → 1F (x) für n → ∞. Dominierte Konvergenz
impliziert, dass
Z
Z
lim
ϕn,F dP = 1F dP = P(F )
n→∞
Also, wie behauptet, das Wahrscheinlichkeitsmass P wird eindeutig durch die Integrale
von stetige und beschränkte Funktionen bestimmt.
Wir sind nun bereit, um Satz 2.21 zu beweisen.
Beweis. Sei X eine Zufallvariable, und PX die entsprechende Verteilung. Wir bezeichnen
mit φX die charakteristische Funktion von X. Wir möchten zeigen, dass PX eindeutig
durch φX ausgedruckt werden kann. Für v > 0 setzen wir
pv (x) = √
1
2
e−x /2v .
2πv
Ferner, definieren wir
Z
pv (x − y)dPX (y)
fv (x) =
R
38
Die rechte Seite definiert die Faltung von pv mit dem Mass PX (und wird also oft mit
(pv ∗ PX )(x) bezeichnet). Wir bezeichnen mit PX,v das Wahrscheinlichkeitsmass mit
Wahrscheinlichkeitsdichte fv , d.h.
Z
PX,v (A) =
fv dλ
A
für alle A ⊂ R. Wir zeigen, dass fv , und deswegen das Mass PX,v , eindeutig durch φX (t)
ausgedrückt werden kann. Dazu bemerken wir, dass
Z
√
x2
e−itx p1/v (t)dt
2πvpv (x) = e− 2v =
R
Also, mit Fubini,
Z
Z Z
1
−it(x−y)
pv (x − y)dPX (y) = √
fv (x) =
e
p1/v (t)dt dPX (y)
2πv R R
R
Z
Z
Z
1
1
−itx
ity
e
p1/v (t)
e dPX (y) dt = √
e−itx p1/v (t)φX (t)dt
=√
2πv R
2πv R
R
Das zeigt, dass fv nur mit Hilfe von φX bestimmt werden kann, für alle v > 0. Nun
behaupten wir, dass für jede stetige und beschränkte Funktion h : R → R, es gilt
Z
Z
lim
hdPX,v = hdPX
(15)
v→0+
Das bedeute jede Integral wie auf der rechten Seite von (15) wird eindeutig durch φX
bestimmt. Aus Lemma 2.22 folgt, dass PX eindeutig durch φX bestimmt wird, wie
behauptet.
Um (15) zu zeigen, bemerken wir, dass
Z
Z
Z
Z
hdPX,v = hfv dλ = h(y)
pv (y − x)dPX (x) dλ(y)
Z Z
Z
=
h(y)pv (x − y)dλ(y) dPX (x) = (h ∗ pv )dPX
Wir haben
Z
(h ∗ pv )(x) − h(x) =
pv (x − y)(h(y) − h(x))
Z
1
2
=√
e−(x−y) /2v (h(y) − h(x))dλ(y)
2πvZ
1
2
=√
e−y /2 (h(x + vy) − h(x))dλ(y)
2π
Für h beschränkt und stetig, finden wir aus domnierte Konvergenz, dass
lim (h ∗ pv )(x) = h(x)
v→0
für alle v > 0. Wir wenden noch einmal dominierte Konvergenz, um zu zeigen, dass
Z
Z
lim (h ∗ pv )dPX = hdPX
v→0
für alle h : R → R stetig und beschränkt.
39
3
Bedingte Wahrscheinlichkeit und Unabhängigkeit
3.1
Bedingte Wahrscheinlichkeit
In diesem Abschnitt führen wir den Begriff von bedingte Wahrscheinlichkeit ein. Wir
betrachten dazu ein Wahrscheinlichkeitsraum (Ω, A, P) und wir untersuchen, wie das
Eintreten von Ereignisse die Wahrscheinlichkeiten beeinflusst. Sei also B ∈ A ein Ereignis. Durch das Eintreten von B müssen wir die Wahrscheinlichkeiten der anderen
Ereignisse revidieren. Das Wahrscheinlichkeitsmass P wird durch ein neues Mass PB .
Wir verlangen, dass PB die folgenden Eigenschaften hat:
i)PB (B) = 1,
ii) ist A ∈ A und A ⊂ B, dann muss PB (A) = cB P(A).
(16)
Lemma 3.1. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und B ∈ A mit P(B) > 0.
Dann gibt es ein eindeutiges Wahrscheinlichkeitsmass PB mit den Eigenscahften (16),
gegeben aus
P(A ∩ B)
PB (A) =
(17)
P(B)
für alle A ∈ A.
Beweis. Einerseits ist es klar, dass (17) ein Waahrscheinlichkeitsmass ist, das die Bedingungen (16) erfüllt. In der Tat, P(B ∩B)/P(B) = 1 und, für A ⊂ B, ist P(A∩B)/P(B) =
P(A)/P(B) proportional zu P(A). Anderseits, wenn (16) gilt, dann, für ein beliebiges
A ∈ A, können wir schreiben
PB (A) = PB (A ∩ B) + PB (A\B) = cB P(A ∩ B)
weil PB (A\B) = 0 (das folgt aus der Bedingung i). Mit A = B finden wir cB = P(B)−1
und (17).
Das Lemma führt uns zur nächste Definition.
Definition 3.2. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Seien A, B ∈ A mit P(B) >
0. Dann definieren wir die bedingte Wahrscheinlichkeit von A gegeben B durch
P(A|B) =
P(A ∩ B)
P(B)
Es folgt aus Lemma 3.1, dass P(.|B) : A → [0; 1] ein Wahrscheinlichkeitsmass auf (Ω, A)
definiert (oder auch auf (B, A ∩ B)).
Die Definition von bedingter Wahrscheinlichkeit ist auch sinnvoll, wenn wir an der
frequentistischen Interpretation von Wahrscheinlichkeiten denken. In diesem Fall, wenn
wir das Zufallsexperiment n Mal wiederholen, das Ereignis B wird nP(B) fallen. Das
Ereignis A∩B wird dagegen nP(A∩B) Mal fallen. Also, wenn wir nur die Experimenten
betrachten, in welchen B gefallen ist (das ist die Bedeutung von “gegeben B”), die
Frequenz vom Ereignis A ist P(A ∩ B)/P(B).
Eine wichtige Folgerung aus der Definition ist die sogenannte Fallunterscheidungsformel, um die Wahrscheinlichkeit eines Ereignis A in bedingte Wahrscheinlichkeiten
P(A|Bn ) zu zerlegen, wenn (Bn ) eine Partition von Ω ist. Die Fallunterscheidungsformel
kann auch benutzt werden, um die Bayes-Formel für a-posteriori Wahrscheinlichkeiten
herzuleiten.
40
Lemma 3.3. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, I eine abzählbare Indexmenge
und (Bn )n∈I eine Folge disjukten Mengen in A mit ∪n∈I Bn = Ω und P(Bn ) > 0 für alle
n ∈ I.
a) Fallunterscheidungsformel: für alle A ∈ A gilt
X
P(A) =
P(A|Bn )P(Bn )
n∈N
b) Bayes-Formel: für alle A ∈ A mit P(A) > 0 und alle k ∈ N gilt
P(Bk )P(A|Bk )
n∈N P(Bi )P(A|Bi )
P(Bk |A) = P
Beweis. Wir haben
X
P(A|Bn )P(Bn ) =
n∈N
X
P(A ∩ Bn ) = P(A)
n∈N
weil die Mengen A ∩ Bn disjunkt sind (und ∪n (A ∩ Bn ) = A). Das zeigt a). Um b) zu
zeigen, bemerken wir, dass
P(Bk |A) =
P(Bk )
P(Bk ∩ A)
=
P(A|Bk )
P(A)
P(A)
Die Behauptung folgt dann aus a).
Mit einem Beispiel zeigen wir, wie die Bayes-Formel benutzt werden kann. Eine
Krankheit komme bei 2% einer Bevölkerung vor. Ein Testverfahren spreche bei 95% der
Kranken und bei 10% der Gesunden an. Mit welcher Wahrscheinlichkeit ist eine zufällige
Person krank, wenn der Test anspricht? Mit welche Wahrscheinlichkeit ist eine zufällige
Person krank, wenn der Test nicht anspricht? Um die zwei Fragen zu beantworten, wir
nennen Ω die endliche Menge der Bevölkerung. Auf Ω betrachten wir die Gleichverteilung
P(E) = |E|/|Ω| für alle E ⊂ Ω. Wir bezeichnen mit B1 die Menge der Kranken und mit
B2 die Menge der Gesunden. Offenbar gilt B1 ∪B2 = Ω. Ferner wir bezeichnen mit A ⊂ Ω
die Menge der Testpositiven. Wir wissen P(B1 ) = 0.02, P(B2 ) = 0.98, P(A|B1 ) = 0.95,
P(A|B2 ) = 0.10. Wir berechnen die Warscheinlichkeit, dass jemand wirklich krank ist,
wenn der Test anspricht:
P(B1 |A) =
P(A|B1 )P(B1 )
.95 · .02
=
' 0.16
P(A|B1 )P(B1 ) + P(A|B2 )P(B2 )
.95 · .02 + .10 · .98
Anderseits, die Wahrscheinlichkeit, dass jemand krank ist, wenn der Test nicht anspricht,
ist
P(Ac |B1 )P(B1 )
.05 · .02
P(B1 |Ac ) =
=
' .001
c
c
P(A |B1 )P(B1 ) + P(A |B2 )P(B2 )
.05 · .02 + .9 · .98
also extrem klein. Wenn der Test negativ ist, kann man also mit grosse Wahrscheinlichkeit erwarten, dass die Person gesund ist. Anderseits, wenn der Test positiv ist, bleibt
die Wahrscheinlichkeit, dass die Person wirklich krank ist, ziemlich klein (man braucht
dann andere Teste durchzuführen).
41
Oft bestehen Zufallsexperimente aus mehrere nacheinander ausgeführten Schritten
und die Wahrscheinlichkeiten am k-ten Schritt hängen von den Ergebnisse in den Schritten 1 bis (k − 1) (man denke zum Beispiel, am Ziehen von r Karten aus einem Stapel
von n Karten, ohne Zurückziehen). Um Wahrscheinlichkeiten zu berechnen ist dann oft
die Multiplikationsformel
P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 |A1 )P(A3 |A2 ∩ A1 ) . . . P(An |An−1 ∩ An−2 ∩ · · · ∩ A1 )
sehr nützlich.
Beispiel. Wir ziehen 3 Kugel ohne Zurückziehen aus einer Urne mit 5 weisse, 3 rote
und 2 schwarze Kugel. Was ist die Wahrscheinlichkeit, dass die erste Kugel weiss ist,
die zweite rot und die dritte wieder weiss? Wir bezeichnen mit A1 das Ereignis “erste
Kugel ist weiss”, mit A2 das Ereignis “zweite Kugel rot” und mit A3 das Ereignis “dritte
Kugel weiss”. Wir wissen P(A1 ) = 1/2, P(A2 |A1 ) = 1/3, P(A3 |A1 ∩ A2 ) = 1/2. Also
P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A2 ∩ A1 ) = 1/12
Wir können nun die bedingte Wahrscheinlichkeit benutzen, um den Begriff von unabhängigen Ereignisse zu definieren.
Definition 3.4. Sei (Ω, A, P) ein Wahrscheinlickeitsraum. Zwei Ereignisse A, B ∈ A
heissen unabhängig, wenn P(A ∩ B) = P(A)P(B). Ist P(A) = 0 oder P(B) = 0, dann
sind A und B immer unabhängig. Ist P(A), P(B) > 0, dann sind A und B genau dann
unabhängig, wenn P(A|B) = P(A) oder equivalent, wenn P(B|A) = P(B). Allgemeiner,
n Ereignisse A1 , . . . , An ∈ A heissen unabhängig, wenn für alle m ≤ n und für alle
1 ≤ i1 < · · · < im ≤ n gilt
!
m
m
Y
\
P(Aik )
P
Aik =
k=1
k=1
Bemerkung: Die Unabhängigkeit von n Ereignisse A1 , . . . , An folgt nicht aus der
paarweise Unabhängigkeit. Mit anderen Wörter, die Bedingung P(Ai ∩Aj ) = P(Ai )P(Aj )
für alle i, j ∈ {1, . . . , n} ist notwending aber nicht hinreichend, damit die Ereignisse
A1 , . . . , An unabhängig sind). Das können wir zeigen, mit einem Beispiel vom russischen
Mathematiker Bernstein (1927). In einer Urn sind 4 Zettel, mit den Zahlen 112, 121, 211,
222. Ein Zettel wird ausgezogen; jede Zettel hat Wahrscheinlichkeit 1/4. Wir betrachten
die folgende Ereignisse: A1 = {112, 121} (1 an der erste Stelle), A2 = {112, 211} (1 an
der zweite Stelle), A3 = {121, 211} (1 an der dritte Stelle). Es gilt P(A1 ) = P(A2 ) =
P(A3 ) = 1/2. Die Ereignisse A1 , A2 , A3 sind paarweise unabhängig, weil
P(A1 ∩ A2 ) = P({112}) = 1/4 = P(A1 )P(A2 )
P(A1 ∩ A3 ) = P({121}) = 1/4 = P(A1 )P(A3 )
P(A2 ∩ A3 ) = P({211}) = 1/4 = P(A2 )P(A3 )
Die drei Ereignisse sind aber nicht unabhängig, weil P(A1 ∩ A2 ∩ A3 ) = P(∅) = 0 6=
1/8 = P(A1 )P(A2 )P(A3 ).
42
3.2
Unabhängige Zufallvariablen
Um die Unabhängigkeit von Zufallvariablen zu definieren brauchen wir den Begriff der
von einer Zufallvariable erzeugten σ-Algebra einzuführen.
Definition 3.5. Seien (Ω, A) und (Ω0 , A0 ) messbare Räume und X : Ω → Ω0 eine
Zufallvariable. Wir bezeichnen mit σ(X) die kleinste in A enthaltene σ-Algebra auf Ω
mit der Eigenschaft, dass X : Ω → Ω0 messbar ist. σ(X) heisst die von X erzeugten
σ-Algebra auf Ω.
Bemerkung: es gilt
σ(X) = X −1 (A0 ) = {X −1 (B) : B ∈ A0 } .
In der Tat, einerseits muss σ(X) ⊃ {X −1 (B) : B ∈ A0 } weil sonst X nicht messbar sein
kann. Da anderseits {X −1 (B) : B ∈ A0 } eine σ-Algebra ist, muss σ(X) = {X −1 (B) :
B ∈ B(R)}). Insbesondere, falls X : Ω → R eine reelwertige Zufallvariable auf einem
Wahrscheinlichkeitsraum (Ω, A, P) ist, so ist σ(X) = X −1 (B(R)) das Urbild der Borel
σ-Algebra bezüglich X.
Aus der Definition ist klar, σ(X) = X −1 (A0 ) aus allen Ereignisse in Ω besteht (alle
Teilmengen von Ω), die durch X bestimmt werden können. Wenn wir wissen, dass, nach
einem Zufallsexperiment, X ∈ A für ein A ∈ A0 , können wir schliessen, dass in Ω das
Ereignis X −1 (A) gefallen ist. Wie wir bei der Einführung von Zufallvariablen diskutiert
haben, durch X wird einer geringeren Beobachtungsgrad vom Zufallsexperiment gegeben, verglichen mit der Beschreibung auf dem ursprünglicher Ergebnisraum Ω (ausser
wenn σ(X) = A). Das bedeutet, viele Ereignisse in Ω können nicht durch X bestimmt
werden. Ferner, die Wahrscheinlichkeit von vielen Ereignissen in Ω wird durch die Messung von der Zufallvariable X gar nicht beeinflusst. Diese Bemerkung führt uns zu der
Definition von Unabhängigkeit von Zufallsvariablen.
Definition 3.6. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und, für i = 1, 2 sei Xi :
Ω → Ω0i eine Zufallvariable mit Werten im messbarer Raum (Ω0i , A0i ). X1 und X2 heissen
unabhängig falls für jede Paar von Ereignisse A ∈ σ(X1 ) und B ∈ σ(X2 ) gilt P(A ∩
B) = P(A)P(B). Equivalent: die zwei Variable X1 , X2 sind unabhängig falls, für alle
A ∈ σ(X1 ) und B ∈ σ(X2 ) mit P(A), P(B) > 0 gilt P(A|B) = P(A). In diesem Fall
sagen wir auch X1 ist unabhängig aus der σ-Algebra σ(X2 ) (oder X2 ist unabhängig
aus der σ-Algebra σ(X1 )). Allgemeiner, n Zufallvariablen Xj : Ω → Ω0j mit Werten in
einem messbarer Raum (Ω0j , Pj ), j = 1, . . . , n, heissen unabhängig, falls für alle A1 ∈
σ(X1 ), . . . , An ∈ σ(Xn ), die Ereignisse A1 , . . . , An ∈ A unabhängig sind.
Bemerkung: da σ(Xj ) = Xj−1 (A0j ) finden wir, dass die Zufallvariablen X1 , . . . , Xn
genau dann unabhängig sind, wenn für jede Teilmenge J ⊂ {1, . . . , n}, es gilt


\
Y
P
Xj−1 (Bj ) =
P(Xj−1 (Bj ))
(18)
j∈J
j∈J
für alle Bj ∈ A0j für alle j ∈ J. Tatsächlich, es genug (18) zu überprüfen für alle Bj in
einer Teilmenge Gj0 von A0j , die A0j erzeugt (wenn Gj0 bezüglich Durchschnitt stabil sind).
Das zeigen wir im nächsten Lemma.
43
Lemma 3.7. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Für i = 1, . . . , n sei Xj :
Ω → Ω0j eine Zufallvariable mit Werten im messbarer Raum (Ω0j , A0j ). Sei Gj0 ⊂ A0j mit
σ(Gj0 ) = A0j (d.h. die Gj0 erzeugen A0j ). Dann sind die Variablen X1 , . . . , Xn genau dann
unabhängig, wenn für jede Teilmenge J ⊂ {1, . . . , n} es gilt


\
Y
P
Xj−1 (Bj ) =
P(Xj−1 (Bj ))
(19)
j∈J
j∈J
für alle {Bj ∈ Gj0 : j ∈ J}.
Beweis. Wir betrachten den Fall n = 2. Sind X1 , X2 unabhängig, so gilt offenbar (19).
Nehmen wir also an, es gilt (19). Wir möchten zeigen, dass X1 und X2 unabhängig sind.
Sei A ∈ G10 , mit P(X1−1 (A)) > 0. Dann betrachten wir das Wahrscheinlichekeitsmass
P(.|X1−1 (A)) ◦ X2−1 auf (Ω02 , A02 ). Nach Annahme, dies Mass stimmt mit P ◦ X2−1 auf G20 .
Nach Carathéodory Erweiterungstheorem, müssen die zwei Masse auf A02 übereinstimmen. Das bedeutet, dass P(X2−1 (B)|X1−1 (A)) = P(X2−1 (B)) und also, dass
P(X2−1 (B) ∩ X1−1 (A)) = P(X2−1 (B))P(X1−1 (A))
(20)
für alle B ∈ A02 und alle A ∈ G10 . Für ein beliebiges B ∈ A02 mit P(X2−1 (B)) > 0
betrachten wir also das Mass
P(.|X2−1 (B)) ◦ X1−1
auf A01 . Es folgt aus (20), dass dies Mass mit P ◦ X1−1 auf G10 übereinstimmt. Mit Carathéodory Erweiterungstheorem schliessen wir wieder, dass
P(X1−1 (A)|X2−1 (B)) = P(X1−1 (A))
für alle A ∈ A01 und alle B ∈ A02 . Das zeigt die Unabhängigkeit von X1 , X2 . Der Beweis
kann induktiv auf den Fall von n Zufallvariablen erweitert werden.
Anwendung. Seien X1 , . . . , Xn : Ω → R reelwertige Zufallvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Jede Zufallvariable hat eine Verteilung PXj : B(R) →
[0; 1], gegeben aus PXj = P ◦ Xj−1 . Die Verteilung PXj kann benutzt werden um Wahrscheinlichkeiten in σ(Xj ) zu berechnen; sie kann aber die Beziehungen zwischen den
verscheidenen Variablen nicht beschreiben. Wir können auch die gemeinsame Verteilung
von X1 , . . . , Xn betrachten, d.h. die Verteilung vom Zufallvektor (X1 , . . . , Xn ) : Ω → Rn
((X1 , . . . , Xn ) ist eine Zufallvariablen mit Werten auf Rn , weil B(Rn ) = B(R)×n ). Sie ist
gegeben aus
PX1 ,...,Xn = P ◦ (X1 , . . . , Xn )−1 : B(Rn ) → [0; 1]
In allgemein enthält PX1 ,...,Xn mehr Informationen als die n Verteilungen PXj , weil
σ(X1 , . . . , Xn ), die aus (X1 , . . . , Xn ) erzeugten σ-Algebra nicht nur aus Produktmengen
besteht. Wenn wir die gemeinsame Verteilung PX1 ,...,Xn der Zufallvariablen X1 , . . . , Xn
kennen, so können wir z.B. die Verteilung von X1 durch
PX1 (A) = PX1 ,...,Xn (A × Rn−1 )
für alle A ∈ B(R) berechnen, und analog für die Verteilung.
44
Es folgt aus Carathéodory Erweiterungstheorem, dass die Verteilung PX1 ,...,Xn des
Zufallvektors (X1 , . . . , Xn ) durch Angabe der Verteilungsfunktion
FX1 ,...,Xn (t1 , . . . , tn ) = PX1 ,...,Xn ((−∞; t1 ] × . . . (−∞; tn ])

= P(X1 ≤ t1 , X2 ≤ t2 , . . . , Xn ≤ tn ) = P 
n
\

Xj−1 ((−∞; tj ])
j=1
vollständig charakterisiert wird (aus der Verteilungsfunktion FX1 ,...,Xn können wir die
Verteilungsfunktion von X1 durch FX1 (t) = FX1 ,...,Xn (t, +∞, . . . , +∞) bestimmen). Ist
das Mass PX1 ,...,Xn absolut stetig bezüglich das Lebesgue Mass λn auf Rn , so können
wir PX1 ,...,Xn auch durch eine integrierbare Wahrscheinlichkeitsdichte ρX1 ,...,Xn : Rn →
[0; ∞) beschreiben, mit der Eigenschaft
Z
ρX1 ,...,Xn (x1 , . . . , xn )dλn (x1 , . . . , xn )
PX1 ,...,Xn (B) =
B
für alle B ∈
B(Rn ).
Dann gilt
Z
FX1 ,...,Xn (t1 , . . . , tn ) =
ρX1 ,...,Xn (x1 , . . . , xn )dλn (x1 , . . . , xn ) .
(−∞;t1 ]×···×(−∞;tn ]
Man bemerke, dass wenn PX1 ,...,Xn absolut stetig bezüglich das Lebesgue Mass auf Rn
ist, so ist PXj absolut stetig bezüglich Lebesgue Mass auf R, für alle j = 1, . . . , n. Die
Wahrscheinlichkeitsdichte von PXj ist dann aus
Z
ρX1 (x) = ρX1 ,...,Xn (x, x2 , . . . , xn )dλn−1 (x2 , . . . , xn )
gegeben (Beweis: Übung).
Nach Definition sind die n reelwertige Zufallvariablen X1 , . . . , Xn genau dann unabhängig, wenn für alle m = 1, . . . , n, 1 ≤ i1 < i2 < · · · < im ≤ n, es gilt
PXi1 ,...,Xim (A1 × · · · × Am ) = PXi1 (A1 ) . . . PXim (Am )
für alle A1 , . . . , Am ∈ B(R).
Aus Lemma 3.7 folgt, dass die n Variablen X1 , . . . , Xn genau dann unabhängig sind,
wenn, für alle m ≤ n und alle 1 ≤ i1 < i2 < · · · < im ≤ n, es gilt
FXi1 ,Xi2 ,...,Xin (t1 , . . . , tm ) =
m
Y
FXij (tj )
j=1
d.h. wenn die Verteilungsfunktionen faktorisieren. Ist PX1 ,...,Xn absolut stetig bezüglich
dem Lebesgue Mass λn , dann sind X1 , . . . , Xn genau dann unabhängig, wenn alle Dichte
faktorisieren, d.h. für alle m ≤ n und alle 1 ≤ i1 < i2 < · · · < im ≤ n, es gilt
ρXi1 ,Xi2 ,...,Xin (x1 , . . . , xm ) =
m
Y
ρXij (xj )
j=1
Betrachtet man reelwertige Zufallvariablen, so kann man auch die Unabhängigkeit
überprüfen, durch Untersuchung von Erwartungswerte.
45
Lemma 3.8. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und seien X1 , X2 : Ω → R zwei
unabhängige Zufallsvariablen. Dann gilt, für alle messbare Funktionen g1 , g2 : R → R,
mit gi ◦ Xi ∈ L1 (Ω, A, P) für i = 1, 2 (d.h. gi muss integrierbar sein, bezüglich der
Verteilung PXi ),
Z
Z
Z
g2 (X2 )dP = Eg1 (X1 ) Eg2 (X2 )
g1 (X1 )dP ·
g1 (X1 )g2 (X2 )dP =
Eg1 (X1 )g2 (X2 ) =
Ω
Ω
Ω
(21)
Um die Behauptung zu zeigen, bemerken wir einfach, dass, für jede messbare g :
R2 → R, mit g ◦ (X1 , X2 ) ∈ L1 (Ω, A, P), wir haben
Z
Z
Z
gdPX1 ,X2 = gdPX1 × dPX2
g(X1 , X2 )dP =
Eg ◦ (X1 , X2 ) =
R2
Ω
Also, für g = g1 g2 , finden wir
Z
Z
Eg1 (X1 )g2 (X2 ) = g1 (x1 )g2 (x2 )dPX1 ,X2 (x, y) = g1 (x1 )g2 (x2 )dPX1 (x1 )dPX2 (x2 )
Z
Z
= g1 (x1 )dPX1 (x2 ) g2 (x)2dPX2 (x2 ) = Eg( X1 )Eg2 (X2 )
wie behauptet.
Bemerkung: es gilt auch die Umkehrung von Lemma 3.8. D.h. wenn (21) für alle
messbare Funktionen g1 , g2 gilt, dann sind X1 und X2 unabhängige Zufallvariable. In
der Tat, für beliebige B1 , B2 ∈ B(R) finden wir mit (21), dass
P(X1 ∈ B1 ∧ X2 ∈ B2 ) = E1X −1 (B1 )∩X −1 (B2 ) = E1X −1 (B1 ) 1X −1 (B2 )
1
2
1
2
= E1X −1 (B1 ) E1X −1 (B2 ) = P(X1 ∈ B1 )P(X2 ∈ B2 )
1
2
Das zeigt die Unabhängigkeit von X1 , X2 .
Definition 3.9. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X1 , X2 : Ω → R zwei
Zufallvariable mit X1 , X2 , X1 · X2 ∈ L1 (Ω, A, P) (diese Bedingungen sind insbesondere
efüllt, wenn X12 , X22 ∈ L1 (Ω, A, P)). Wir definieren die Kovarianz von X1 und X2 durch
Cov(X1 , X2 ) = E(X1 − EX1 )(X2 − EX2 ) = E(X1 X2 ) − (EX1 )(EX2 )
Ist Cov(X1 , X2 ) = 0, so sagen wir, dass die Zufallsvariablen X1 , X2 unkorreliert sind.
Sind X1 , X2 integrierbar und unabhängig, dann sind sie wegen Lemma 3.8 unkorreliert. In Allgemein brauchen aber unkorrelierte Zufallvariablen nicht unabhängig zu
sein. Seien zum Beispiel X1 , X2 : Ω → R zwei unabhängige Zufallvariablen auf einem
Wahrscheinlichkeitsraum (Ω, A, P), beide mit einer Bernoulli-Verteilung
P(Xi = 1) = P(Xi = −1) = 1/2
für i = 1, 2. Dann sind Z = X1 + X2 und W = X1 − X2 unkorreliert, weil
E(ZW ) = EX12 − EX22 = 0
46
aber sicher nicht unabhängig, weil
P (W = 0|Z = 2) = 1 6= 1/2 = P(W = 0)
Beispiele von unabhängigen Ereignisse und unabhängigen Zufallvariable können sehr
einfach auf Produkt Räume konstrtuiert werden. Seien (Ω1 , A1 , P1 ) und (Ω2 , A2 , P2 ) zwei
Wahrscheinlichkeitsräume. Auf der Produktmenge Ω1 ×Ω2 können wir dann die Produktσ-Algebra A1 ×A2 definieren, als die kleinste σ-Algebra, die alle Produktmengen A1 ×A2 ,
mit A1 ∈ A1 und A2 ∈ A2 , enthält. In Analysis 3 wurde gezeigt, dass ein eindeutiges
Mass auf (Ω1 × Ω2 , A1 × A2 ) existiert, bezeichnet mit P1 × P2 , mit der Eigenschaft, dass
(P1 × P2 )(A1 × A2 ) = P1 (A1 )P2 (A2 )
für alle A1 ∈ A1 , A2 ∈ A2 . In der Tat, das Mass (P1 × P2 ) ist aus
Z
Z
P1 (E y )dP2 (y)
P2 (Ex )dP1 (x) =
(P1 × P2 )(E) =
Ω2
Ω1
wobei Ex = {y ∈ Ω2 : (x, y) ∈ E} und E y = {x ∈ Ω1 : (x, y) ∈ E} die Querschnitte von
E sind. Da
(P1 × P2 )(Ω1 × Ω2 ) = P1 (Ω1 )P2 (Ω2 ) = 1
es folgt, dass das Mass P1 × P2 ein Wahrscheinlichkeitsmass ist. Damit ist (Ω1 × Ω2 , A1 ×
A2 , P1 × P2 ) ein neues Wahrscheinlichkeitsraum.
Gegeben A1 ∈ A1 und A2 ∈ A2 , können wir die Ereignisse A1 × Ω2 und Ω1 × A2 in
A1 × A2 betrachten. Dann gilt
(P1 × P2 )((A1 × Ω2 ) ∩ (Ω1 × A2 )) = (P1 × P2 )(A1 × A2 ) = P1 (A1 )P2 (A2 )
= (P1 × P2 )(A1 × Ω2 )(P1 × P2 )(Ω1 × A2 )
D.h. die Ereignisse (A1 × Ω2 ) und (Ω1 × A2 ) sind unabhängig.
Analog, wenn fi : Ωi → Ω0i für i = 1, 2 zwei Zufallsvariablen sind mit Werten in
messbare Räume (Ω0i , A0i ), und wenn wir Xi : Ω1 × Ω2 → Ω0i durch X1 (x, y) = f1 (x)
und X2 (x, y) = f2 (y) definieren, dann sind die zwei Zufallvariablen X1 , X2 unabhängig.
In der Tat, für A ∈ Ω01 , gilt X1−1 (A) = f1−1 (A) × Ω2 . Für A ∈ Ω02 finden wir analog
X2−1 (A) = Ω1 × f2−1 (A). Deswegen sind X1−1 (A) und X2−1 (B) unabhängig, für alle
A, B ∈ B(R). Sind f1 , f2 reelwertig, dann kann man die Unabhängigkeit der Variablen
X1 , X2 auch überprüfen, indem man bemerkt, dass für alle messbare Funktionen g1 , g2 :
R → R mit gi ◦ Xi ∈ L1 (Ω, A, P), es gilt
Z
E (g1 ◦ X1 )(g2 ◦ X2 ) =
g1 (X1 (x))g2 (X2 (y))d(P1 × P2 )(x, y)
Ω1 ×Ω2
Z
Z
=
g1 (X1 (x))dP1 (x)
g2 (X2 (y))dP2 (y)
Ω1
Ω2
= E(g1 ◦ X1 )E(g2 ◦ X2 )
wo wir Fubini angewandt haben.
Der Begriff von Produkt von zwei Wahrscheinlichkeitsräume kann direkt auf dem
Produkt von n Wahrscheinlichkeitsräume erweitert werden. Sind nämlich (Ωi , Ai , Pi )
47
Wahrscheinlichkeitsräume für alle i = 1, . . . , n, so können wir iterativ den Produktraum
(Ω1 × · · · × Ωn , A1 × · · · × An , P1 × · · · × Pn ) definieren (es ist leicht zu sehen, dass
das Produkt von Wahrscheinlichkeitsräume associativ ist, d.h. (Ω1 × Ω2 ) × Ω3 = Ω1 ×
(Ω2 × Ω3 ), (A1 × A2 ) × A3 = A1 × (A2 × A3 ) und (P1 × P2 ) × P3 = P1 × (P2 × P3 );
deswegen dürfen wir die Bezeichnungen Ω1 × · · · × Ωn , A1 × · · · × An und P1 × · · · × Pn
benutzen). Das Produktmass P1 × Pn ist das eindeutiges Mass, mit der Eigenschaft, dass
(P1 × · · · × Pn )(A1 × · · · × An ) = P1 (A1 ) . . . Pn (An ) für alle A1 ∈ A1 , . . . , An ∈ An .
Die n Zufallvariablen Xi : Ω1 × · · · × Ωn → Ω0i , mit Xi (x1 , . . . , xn ) = fi (xi ), für
messbare Funktionen fi : Ωi → Ω0i mit Werten in einem messbarer Raum (Ω0i , A0i ) sind
dann unabhängig. In der Tat Xi−1 (A) = Ω1 × · · · × fi−1 (A) × · · · × Ωn für alle A ∈ A0i .
Deswegen für jede J ⊂ {1, . . . , n} und für jede Familie {Ai }i∈J mit Ai ∈ A0i , finden wir
(Ai` ))
(P1 × · · · × Pn )(Xi−1
(Ai1 ) ∩ · · · ∩ Xi−1
1
`
(Ai` ) × · · · × Ωn )
= (P1 . . . Pn )(Ω1 × · · · × fi−1
(Ai1 ) × · · · × fi−1
1
`
=
`
Y
j=1
Pij (fi−1
(Aij )) =
j
`
Y
(P1 × · · · × Pn )(Xi−1
(Aij ))
j
j=1
Beispiel. Betrachte das Werfen von n Münzen. Der Ergebnisraum für die j-te Münz
ist Ωj = {0, 1}. Auf Ωj ist das Bernoulli Wahrscheinlichkeitsmass Pj ({0}) = Pj ({1}) =
1/2. Der Ergebnisraum für die n Würfe ist dann Ω = Ω1 × · · · × Ωn = {0, 1}n . Auf Ω ist
das Produktmass P = P1 × P2 × . . . timsPn definiert. P ist genau die Gleichverteilung
auf Ω (jede Ergebnis x = (x1 , . . . , xn ) ∈ Ω entspricht zum Ereignis {x} und kann als
Produktmenge
{x} = {x1 } × · · · × {xn } geschrieben werden; deswegen gilt P({x}) =
Qn
−n ). Auf Ω können wir die Zufallsvariablen X (x , . . . , x ) = x defij 1
n
j
j=1 Pj ({xj }) = 2
nieren; Xj misst den Ergebnis vom j-ten Wurf. Dann sind die Zufallvariablen X1 , . . . , Xn
unabhängig. Ferner, sie haben alle die selbe Bernoulli Verteilung.
Beispiel. Auf Ω = Rn ist die Borel σ-Algebra B(Rn ) definiert. Auf B(Rn ) betrachten
wir das Gauss’sche Mass P, mit der Dichte
−
1
e
ρ(x1 , . . . , xn ) =
n/2
(2π)
x2
j
j=1 2σ 2
j
Pn
Es ist einfach zu sehen, dass die Zufallvariablen X1 , . . . , Xn : Ω → R, definiert durch
Xj (x1 , . . . , xn ) = xj für alle j = 1, . . . , n, unabängig sind. Tatsächlich, man kann
der Wahrscheinlichkeitsraum Ω als das Produkt von den n Wahrscheinlichkeitsräume
(R, B(R), Pj ), wobei Pj das Gauss’sche Wahrscheinlichkeitsmass ist, mit Dichte
2
2
1
ρj (x) = √ e−x /2σj
2π
Die Variablen X1 , . . . , Xn sind also unabhängig, weil sie auf verschiedene Komponenten
vom Produktraum definiert sind.
3.3
Unendliche Produkte und stochastische Prozesse
Oft möchten wir gleichzeitig unendlich viele Zufallexperimenten betrachten. Sei Ωi ,
i ∈ N, der Ergebnisraum vom i-ten Experiment. Die unendlich Folge von Experimente
48
können auf dem Produktraum
Y
Ωi = {ω = (ωj )j∈N }
i∈N
beschrieben werden. Für jede i ∈ N, sei Ai eine
Q σ-Algebra auf Ωi . Die Frage ist, welche
σ-Algebra sollen wir auf dem Produktraum i∈N Ωi definieren.
Schon im einfachen Fall von abzählbar vielenQMünzwürfe, mit Ωi = {0, 1} für alle
i ∈ N, und Ai = P (Ωi ),Qkann die σ-Algebra auf i∈N Ωi nicht die ganze Potenzmenge
sein. Wir wissen, dass i∈N Ωi , die Menge aller Folge mit Werten 0 und 1, mit dem
Intervall [0; 1] ⊂ R identifiziert werden kann. Anderseits wissen wir, dass es schwierig
ist auf der Potenzmenge von [0; 1] ein Mass zu definieren (man denke am Beispiel von
Vitali). Die selbe Probleme treten auf, wenn wir versuchen, auf dem unendliches Produkt
die Potenzmenge als σ-Algebra zu betrachten.
Q
In der Wahl der σ-Algebra auf der Produkt Menge j∈N Ωj lassen wir uns aus
der folgende Überlegung führen. Auch wenn wir unendlich viele Zufallsexperimenten
durchführen, sind wir an Ereignisse interessiert, die nur aus endlich viele Ergebnisse
abhängen.
Q
Definition 3.10. Seien (Ωi , Ai , Pi ), i ∈ N, Wahrscheinlichkeitsräume und Ω̂ = i∈N Ωi
der unendlich Produktraum. Wir definieren die Produkt σ-Algebra Â über Ω̂ als die
kleinste σ-Algebra, die alle Teilmenge von Ω̂ der Form
Y
Y
A=
Ai ×
Ωi
(22)
i6∈J
i∈J
enthält, wo J = (i1 , . . . , ik ) ⊂ N endlich ist. Mengen dieser Form heissen Zylindermengen. Auf A definieren wir das Produkt-Wahrscheinlichkeitsmass P̂ = ×i∈N Pi , als das
einziges Mass mit der Eigenschaft
Y
P̂(A) =
Pi (Ai )
(23)
i∈J
für alle Zylindermengen (22).
Wir bemerken, dass (23) die Wahrscheinlichkeit P̂ eindeutig definiert ist, weil die
Menge G ⊂ Â, die aus endlichen Vereinigungen von Zylindermengen besteht eine Algebra ist, die Â erzeugt (und deswegen kann Carathéodory Erweiterungstheorem angewandt werden). Die Definition vom Produktmass P̂ auf Â entspricht der Idee, dass die
verschiedenen Zufallexperimenten unabhängig sind.
Damit haben wir ein Wahrscheinlichkeitsraum (Ω̂, Â, P̂) konstruiert, wo die unendlich
viele Zufallexperimenten beschrieben werden können. Auf Ω̂ können wir Zufallvariablen
definieren. Es ist eigentlich natürlich Folgen von Zufallvariablen zu konstruieren. Das
führt zur
Sei Ωi = R und Ai = B(R) für alle i ∈ N. Wir bezeichnen
Q nächste Definition. Q
RN = i∈N Ωi und B(RN ) = i∈N Ai .
Definition 3.11. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann heisst eine messbare
Abbildung f : (Ω, A) → (RN , B(RN )) eine Zufallsfolge, oder ein stochastische Prozess
(mit diskreter Zeit).
49
Sei f : (Ω, A) → (RN , B(RN )) eine Zufallfolge. Die Verteilung der Zufallsfolge f ist
das Mass Pf = P ◦ f −1 : B(RN ) → [0; 1]. Die j-te Komponenten von f ist dann
Q eine
−1
reelwertige Zufallvariable fjQ: (Ω, A) → R, mit Verteilung Pfj (A) = P◦f (A× i6=j Ωj )
für alle A ∈ B(R). Ist Pf = j Pfj ein Produktmass, so heisst f eine Folge unabhängiger
Zufallvariablen. Sind die Verteilungen der Komponenten von f identisch, so heisst f eine
Folge unabhängiger identisch verteilter Zufallvariablen (auf English, “independent identically distributed random variables”). Unendliche Folgen unabhängiger Zufallsvariablen
sind die wichtigsten Bausteine der Wahrscheinklichkeitstheorie.
Man kann auch umgekehr vorgehen, und zunächst an der Zufallvariablen denken.
Für alle i ∈ N sei (Ω
Q i , Ai , Pi ) ein Wahrscheinlichkeitsraum. Dann können
Q wir auf dem
Produktraum Ω̂ = i∈N Ωi , versehen mit der Produkt-σ-Algebra A = j∈N Aj und mit
Q
dem Produkt Mass P̂ = j∈N Pi eine Folge unabhängige Zufallsvariablen (Xi )i∈N mit
den Verteilungen PXi = Pi definieren. Mit anderer Wörter, wir können ein Wahrscheinlichkeitsraum Ω̂ finden, so, dass (Xj )j∈N eine Folge unabhängige Zufallvariablen auf Ω̂
ist, mit der Eigenschaft, dass Xj die Verteilung Pj hat. Der Wahrscheinlichkeitsraum,
wo tatsächlich alle Xj definiert werden, spielt dann keine wichtige Rolle. Alles was uns
über die Folge Xj interessiert, kann dann durch die Verteilungen Pj berechnet werden
(weil die Variablen unabhängig sind).
Der Poisson-Prozess. Ein einfaches Beispiel eines stochastischen Prozess ist der sogenannte Poisson-Prozess. Sei α > 0 fest und (Lj )j∈N eine Folge unabhängiger Zufallvariablen mit Verteilung Lj ∼ Exp(α) (d.h. Lj ist eine reelwertige absolut stetige Variable
mit Wahrscheinlichkeitsdichte ρ(x) = αe−αx 1[0;∞) (x)). Es ist nicht wichtig auf welchem
Raum die Variablen Lj definiert sind; wichtig ist nur, dass ein Wahrscheinlichkeitsraum
existiert, wo alle Lj definiert werden können. Wir interpretieren die Zahlen Lj als Lücke
zwischen dem
P (i − 1)-te und dem i-te Punkt von dem Poisson Prozess. Für k ∈ N setzen
wir Tk = kj=1 Lj . Für t > 0 definieren wir weiter
Nt =
X
1(0;t] (Tk )
k≥1
Offenbar misst die Zufallvariable Nt wieviele Punkte Tk im Intervall (0; t] fallen.
Satz 3.12. Für alle 0 = t0 < t1 < · · · < tn sind die n Differenzen Nti+1 − Nti unabhängige Zufallvariablen, mit Poisson Verteilung zum Paramter α(ti+1 − ti ).
Bemerkung. Die Familie (Nt )t∈[0;∞) heisst ein Poisson Prozess zur Intensität α > 0.
Bemerke, dass in diesem Fall der stochastische Prozess nicht nur eine Folge ist, sondern
eine Funktion von einem reellen Variable t. Tatsächlich ist aber die in der Funktion Nt
enthaltene Information equivalent zur Information, die aus der Folge (Tk )k∈N gegeben
ist. Die (Tk )k∈N heissen die Sprungzeiten vom Poisson Prozess.
Beweis. Wir betrachten den Fall n = 2, der allgemein Fall folgt analog. Sei also 0 < s <
t. Wir behaupten, dass
(αs)k
(α(t − s))`
P(Ns = k, Nt − Ns = `) = e−αs
e−α(t−s)
(24)
k!
`!
50
für alle k, ` ∈ N. Das impliziert, dass Ns und Nt−s Poisson Verteilung haben, mit Parameter αs und, beziehungsweise, α(t − s). Ferner, es impliziert, dass Ns und Nt − Ns
unabhängig sind.
Um (24) zu zeigen, berechnen wir
P(Ns = k, Nt − Ns = `) = P(Tk ≤ s < Tk+1 ≤ Tk+` ≤ t < Tk+`+1 )
Für x = (x1 , . . . xk+`+1 ), setzen wir τj (x) = x1 + · · · + xj . Wir finden (die Integrationvariablen x1 , . . . , xk+`+1 spielen die Rolle der Variablen Lj )
Z ∞
Z ∞
dx1 . . . dxk+`+1 αk+`+1 e−ατk+`+1 (x)
...
P(Ns = k, Nt − Ns = `) =
0
0
1(τk (x) ≤ s < τk+1 (x) ≤ τk+` (x) < t ≤ τk+`+1 (x))
Wir berechnen zunächst das Integral über xk+`+1 , bei festgehaltenen x1 , . . . , xk+` . Mit
einer Verschiebung von der Integrationsvariable finden wir
Z ∞
Z ∞
−ατk+`+1
dzαe−αz = e−αt
dxk+`+1 αe
1(t ≤ τk+`+1 ) =
t
0
Nun, bei festgehlatene x1 , . . . , xk , wir integrieren über xk+1 , . . . , xk+` indem wir y1 =
τk+1 (x) − s und yj = xk+j für j = 2, . . . , ` setzen. Wir finden
Z ∞
Z ∞
...
dxk+1 . . . dxk+` 1(s < τk+1 ≤ τk+` < t)
0
0
Z ∞
Z ∞
(t − s)`
=
...
dy1 . . . dy` 1(y1 + y2 + · · · + y` < t − s) =
`!
0
0
Für die restliche Integrale finden wir
Z ∞
Z ∞
sk
...
dx1 . . . dxk 1x1 +···+xk ≤s =
k!
0
0
Insgesamt,
P(Ns = k, Nt − Ns = `) = αk+` e−αt
(t − s)` sk
`!
k!
und die Behauptung folgt.
Irrfahrt. Wir betrachten eine Folge (Xj )j∈N von unabhängige Zufallvariablen, mit
Verteilung P(Xj = 1) = p und P(Xj = −1) = 1 − p für ein p ∈ (0; 1) für alle j (also die
Xj sind unabhängig und identisch verteilte Zufallvariablen). Wir setzen
Sn =
n
X
Xi
i=1
Sn ist als eine messbare Funktion von X1 , . . . , Xn definiert, und ist also auch eine Zufallvariable. Also (Sn )n∈N ist eine Zufallfolge, allerdings natürlich keine unabhängigen.
Die Irrfahrt (Sn )n∈N beschreibt eine Wanderung auf N, wo man an jedem Schritt mit
ein Münzwurf entscheidet, nach rechts oder nach links weiterzugehen.
51
Wir können die Verteilung der Zufallvariable Sn bestimmen. Offenbar, Sn kann die
Werten −n, −n + 2, −n + 4, . . . , n − 2, n annehmen. Damit S2n = 2k ist, muss man n + k
Mal nach rechts gehen, und nur n − k Mal nach links. Die Wahrscheinlichkeit dafür ist
2n
P(S2n = 2k) =
pn+k (1 − p)n−k
n+k
für alle k = −n, −n + 1, . . . , n − 1, n. Das heisst S2n hat eine Binomialverteilung, shifted
um −n. Analog können wir die Verteilung von S2n+1 bestimmen, wir finden
2n + 1
P(S2n+1 = 2k + 1) =
pn+k+1 (1 − p)n−k
n+k+1
für alle k = −n − 1, −n, . . . , n. Mit Hilfe der Formel für die Verteilung von Sn können
wir viele Interessante Eigenschaften einer Irrfahrt bestimmen. Der Erwartungswert von
S2n ist
n
X
2n
E S2n =
2k
pn+k (1 − p)n−k
n+k
k=−n
2n
X
2n m
=
2(m − n)
p (1 − p)2n−m
m
m=0
= 4pn − 2n = 2np − 2n(1 − p)
Im Fall p = 1/2 ist E S2n = 0. Das bedeutet nicht, dass die Fahrt sich nicht bewegt,
sondern nur, dass sie mit der selben Wahrscheinlichkeit positive und negative Werten
annimmt. Wenn wir wissen wollen, wie weit die Fahrt kommt, dann sollen wir besser
seine Varianz berechnen. Wir finden (im Fall p = 1/2)
n 1 X
2n
2
ES2n = n
(2k)2
n+k
4
k=−n
2n 1 X 2n
= n−1
(m − n)2
4
m
m=0
2n 1 X 2n
= n−1
(m(m − 1) + m(1 − 2n) + n2 )
4
m
m=0
"
#
2n
2n
X
X
1
(2n)!
(2n)!
= n−1 4n n2 + (1 − 2n)
+
4
(m − 1)!(2n − m)!
(m − 2)!(2n − m)!
m=1
m=2
1 = n−1 4n n2 + +22n−1 2n(1 − 2n) + 22n−2 2n(2n − 1) = 2n
4
√
Diese Rechnung zeigt, dass Sn typischerweise Werte der Ordnung n annimmt. In der
Tat, man kann zeigen, dass
r
|Sn |
2
lim E √ =
n→∞
π
n
Eine andere Interessante Frage ist die folgende: was ist die Wahrscheinlichkeit, dass
eine Irrfahrt die in Null beginnt irgendwann nach Null zurück kommt? Im Gegensatz
52
zu den Fragen über Erwartungswert und Varianz von Sn , um diese neue Frage zu untersuchen müssen wir wirklich das unendlichen Prozess (Sn )n∈N betrachten, weil wir
nicht wissen, wann die Fahrt zurück nach Null kommt. Wir betrachten zunc̈hst den
symmetrischen Fall p = 1/2. Wir definieren iterativ
(1)
T0
= inf{m > 0 : Sm = 0}
und, für n > 1,
(n)
T0
(n−1)
= inf{m > T0
: Sm = 0}
(n)
Mit andere Wörter, T0 ist die n-te Zeitpunkt, wann die Fahrt zurück in Null kommt.
(1)
Wir möchten P(T0 < ∞) berechnen. Dazu berechnen wir zunächst P(Sm = 0). Für m
ungerade, P(Sm ) = 0. Für m = 2n, finden wir dagegen
2n 1
P(S2n = 0) =
n 22n
Mit Hilfe der Stirling Formel
√
n! ' nn e−n 2πn
wir finden
P(S2n
√
1
(2n)2n e−2n 4πn
=√
= 0) ' 2n 2n −2n
2 n e
(2πn)
πn
(25)
bis auf Fehler die kleiner sind, im Limes n → ∞.
Betrachte nun die Zufallvariable
N=
X
1Sm =0
m∈N
die die Anzahl Zeiten misst, in welchen die Fahrt in Null ist. Aus (25) finden wir
X
EN =
P(Sm = 0) = ∞
m∈N
Die Zufallvariable N kann auch anderes umgeschrieben werden. N ist die Anzahl von
(n)
ganze Zahlen n ∈ N, mit T0 < ∞. D.h.
X
N=
1T (n) <∞
n∈N
0
und
EN =
X
n∈N
(n)
P(T0
< ∞) =
X
(1)
P(T0
< ∞)n =
1
(1)
1 − P(T0
n∈N
(1)
< ∞)
Die Tatsache, dass E N = ∞ impliziert, dass P(T0 < ∞) = 1, d.h. die Irrfahrt kommt
mit Sicherheit irgendwann zurück an der Stelle wo sie angefangen hat. Man sagt deswegen, dass die Irrfahrt auf Z mit p = 1/2 rekurrent ist.
Die Situation ist anderes, falls p 6= 1/2. In diesem Fall haben wir
2n n
(4p(1 − p))n
√
P(S2n = 0) =
p (1 − p)n '
n
2πn
53
Da 4p(1 − p) < 1 für p 6= 1/2, finden wir in diesem Fall, dass der Erwartungswert von
der Anzahl Zeiten, in welchen die Fahrt in Null ist,
X
EN =
P(Sm = 0) < ∞
m∈N
endlich ist. Da aber
EN =
1
(1)
1 − P(T0
< ∞)
(1)
es folgt, dass P(T0 < ∞) < 1. Mit andere Wörter, für p 6= 1/2, es gibt eine nicht
verschwindende Wahrscheinlichkeit, dass eine Fahrt, die in Null anfängt, nie wieder im
Punkt Null zurückkommt (die Irrfahrt auf Z mit p 6= 1/2 heisst deswegen transient).
Man kann die Irrfahrt anders interpretieren, als das Kapital eines Spieler. Wir gehen
davon aus, dass ein Spieler ein Anfagnskapital V > 0 besitzt und nur so lange spielt bis
er entweder sein Kapital auf G > V vermehrt hat, oder alles verloren hat. Nach jedem
Spiel das Kapital kann um einen Beitrag Xi ∈ {±1} wachsen, wobei (Xi )i∈N eine Folge
unabhängige Variablen ist, mit Bernoulli Verteilung P(Xi = 1) = p, P(Xi = −1)P= 1−p.
Das Kapital des Spielers zum Zeitpunkt n ist dann K(n) = V + Sn , mit Sn = ni=1 Xi .
Wir untersuchen nun die Frage: was ist die Wahrscheinlichkeit dafür, dass der Spiel
mit dem Ruin des Spielers endet? Um diese Frage zu antworten, brauchen wir wirklich
das Problem im unendlichen Produktraum zu stellen.
Wir bezeichnen mit An das Ereignis, dass das Spiel mit dem Ruin des Spielers zum
Zeitpunkt n endet. Es gilt
An = {Sn = −V } ∩
n
\
{−V < Sk < G − V }
k=1
Das Ereignis “das Spiel endet mit dem Ruin des Spielers” ist dann aus
A=
∞
[
An
n=1
gegeben. Man kann dasselbe Ereignis auch anders schreiben, als
A = {inf {n : Sn = −V } < inf{n : Sn = G − V }}
= {inf {n : K(n) = 0} < inf{n : K(n) = G}}
Die Frage ist, was ist P(A)? Um diese Frage zu beantworten, definieren wir
h(K) = P (inf{n : K(n) = 0} < inf{n : K(n) = G}|K(0) = K)
für 0 < K < G. Wir setzen h(0) = 1, h(G) = 0. Es gilt P(A) = h(V ). Wenn wir mit das
Spiel mit dem Kapital K(0) = K beginnen, haben wir nach einem Schritt das Kapital
K + 1 mit Wahrscheinlichkeit p und das Kapital K − 1 mit Wahrscheinlichkeit 1 − p.
Aus diesem Grund, die Funktion h muss die folgende Relation erfüllen
h(K) = ph(K + 1) + (1 − p)h(K − 1)
54
(26)
mit der Randwerten h(0) = 1 und h(G) = 0. Aus (26) erhalten wir
(1 − p)(h(K) − h(K − 1)) = p(h(K + 1) − h(K)))
d.h.
1−p
(h(K) − h(K − 1))
p
Wir iterieren diese Gleichung K Mal. Wir finden
1−p K
(h(K + 1) − h(K)) =
(h(1) − h(0))
p
(h(K + 1) − h(K)) =
für alle K = 0, . . . , G − 1. Also
1 = h(G) − h(0) =
G−1
X
(h(K + 1) − h(K)) = (h(1) − h(0))
K=0
1
= (h(1) − h(0))
G−1
X
K=0
1−p
p
K
G
− 1−p
p
1−p
1− p
Das gibt
1 − 1−p
p
h(1) − h(0) =
G
1 − 1−p
p
und
V
−1 X
1 − 1−p
1−p K
p
P(A) = h(V ) =
(h(K + 1) − h(K)) =
G
p
K=0
K=0
1 − 1−p
p
V
V
1−p
1 − 1−p
1
−
1 − 1−p
p
p
p
=
=
G
G
1−p
1−p
1− p
1 − 1−p
1
−
p
p
V
−1
X
Im Fall p = 1/2, die Formel wird viel einfacher, und wir finden (mit einer ähnlicher
Rechnung)
V
P(A) = 1 −
G
Eine andere interessante Frage, bei P
der Untersuchung der einfache und symmetrische
Irrfahrt (Sn )n∈N definiert durch Sn = ni=1 Xi , wobei (Xi )i∈N eine Folge unabhängiger
Bernoulli Variablen, mit P(Xi = 1) = P(Xi = −1) = 1/2 ist die folgende: was ist der
Verhältnis der Zeit, die eine solche Fahrt positiv bzw. negativ ist?
Wir berechnen zunächst die Wahrscheinlichkeit dafür, dass die erste Rückkehr der
Fahrt nach Null zur Zeit 2n stattfindet:
f2n = P (inf{i > 0 : Si = 0} = 2n)
Mit der Definition
g2n = P (Sk > 0 für alle k = 1, . . . , 2n − 1 und S2n = 0)
55
finden wir offenbar f2n = 2g2n . Es gilt
1
g2n = P (Sk > 0 für alle k = 1, . . . , 2n − 2 und S2n−1 = 1)
2
Ferner
P Sk > 0 für alle k = 1, . . . , 2n − 2 und S2n−1 = 1
(27)
= P(S1 = 1 und S2n−1 )
− P (S1 = 1, S2n−1 = 1 und es existiert k = 1, . . . , 2n − s mit Sk ≤ 0)
Es ist einfach zu berechnen
P(S1 = 1 und S2n−1 = 1) = P(S1 = 1)P(S2n−1 = 1|S1 = 1)
= P(S1 = 1)P(S2n−2 = 0|S0 = 0)
2n − 2
1
2n − 2
1 1
=
=
2 22n−2 n − 1
22n−1 n − 1
Um den zweiten Term auf der rechten Seite von (27) zu berechnen, benutzen wir das
Reflexionsprinzip. Die Bemerkung hier ist, dass es eine Bijektion existiert, zwischen die
Pfade die S1 = 1 mit S2n−1 = 1 verbinden, und die mindensten einmal den Punkt Null
berühren und, anderseits, die Pfade die S1 = 1 mit S2n−1 = −1 verbinden. Die Bijektion
ist definiert, indem man der Pfad mit S1 = 1 und S2n−1 = 1 nach der ersten Rückkehr
bei Null um die Zeit-Achse reflektiert. Es folgt, dass
P (S1 = 1, S2n−1 = 1 und es existiert k = 1, . . . , 2n − s mit Sk ≤ 0)
= P(S1 = 1 und S2n−1 = −1) = P(S1 = 1) · P(S2n−1 = −1|S1 = 1)
1
2n − 2
= 2n−1
2
n
und
f2n = P (inf{i > 0 : Si = 0} = 2n)
1
2n − 2
2n − 2
1
2n − 2
−
= 2n−1
= 2n−1
2
n−1
n
2
n n−1
(28)
Wir bezeichnen die Wahrscheinlichkeit, dass die Fahrt zur Zeit 2n bei Null ist durch
1 2n
u2n = 2n
2
n
Aus (28) bemerken wir, dass
u2n−2 − u2n
2n − 2
1 2n
= 2n−2
− 2n
2
n−1
2
n
1
(2n − 2)!
2n(2n − 1)
= 2n−2
1−
2
(n − 1)!(n − 1)!
4n2
1
2n − 2
= 2n−1
= f2n
n2
n−1
1
56
Mit Hilfe dieser Ausdruck für f2n können wir nun die Wahrscheinlichkeit berechnen,
dass die symmetrische Irrfahrt bis zur Zeit 2n, 2k-Mal positiv ist. Wir definieren die
Variablen Yi durch
1
falls Si > 0 oder Si+1 > 0
Yi =
0
sonst
Dann ist Yi ein Indikator dafür, dass während dem i-te Schritt die Fahrt positiv ist. Wir
setzten
!
2n
X
p2k,2n = P
Y` = 2k
(29)
`=1
Wir möchten zunächst p0,2n = p2n,2n berechenen. Dafür bemerken wir, dass
p2n,2n = P(Sk ≥ 0
für alle k = 1, . . . , 2n) = 2P(Sk > 0
für alle k = 1, . . . , 2n) (30)
Um (30) zu zeigen, definieren wir eine Bijektion zwischen die nicht-negative Pfade
(S1 , . . . , S2n ), die mindestens einmal Null berühren, und die Pfade mit Sk > 0 für alle
k = 1, . . . , 2n. Sei nämlich A = (S1 , . . . , S2n ) eine nicht-negative Fahrt, mit mindestens
ein Rückkehr nach Null. Sei a ∈ {2, . . . , 2n} die erste Rückkehr nach Null. Dann bilden
wir A in der neue Fahrt B = (S1 , . . . , Sa−1 , Sa + 2, Sa+1 + 2, . . . S2n + s) ab. Offenbar ist
B eine Fahrt mit Sk > 0 für alle k = 1, . . . , 2n. Die Inverse dieser Abbildung kann wie
folgt konstruiert werden: sei B = (S1 , . . . , S2n ) mit Sk > 0 für alle k ∈ {1, . . . , 2n}. Sei
ferner b ∈ {1, . . . , 2n} das grösste Index, mit der Eigenschaft, dass Sb = 1. Dann bilden
wir B in der Fahrt A = (S1 , . . . , Sb , Sb+1 − 2, Sb+2 − 2, . . . , S2n − 2). Das zeigt, dass es
existiert eine Bijektion zwischen die nicht-negative Pfade die mindesten einmal bei Null
kommen, und die strikt positive Pfade. Das zeigt (30).
Also,
p2n,2n = 2P(Sk > 0, für alle k = 1, . . . , 2n)

 

n
n
X
X
1
=2·
1−
f2j  = 1 −
u2j−2 − u2j 
2
j=1
(31)
j=1
= [1 − u0 + u2n ] = u2n
Nun betrachten wir die Wahrscheinlichkeiten p2n,2k , für 0 < k < n. In diesem Fall
muss die Fahrt irgendwann durch Null gehen. Sei 2r die Zeit der erste Rückkehr nach
Null. Bis zu dieser Zeit ist dann die Fahrt entweder stets positiv oder stets negativ (ausser
bei S0 = 0). Beides tritt mit gleicher Wahrscheinlichkeit ein (d.h. die Wahrscheinlichkeit,
dass die erste Rückkehr der Fahrt nach 0 zur Zeit 2r stattfindet, und dass zwischen Zeit
0 und 2r die Fahrt immer positiv, bz. negativ ist, ist genau f2r /2). Falls die Fahrt bis
zur Zeit 2r positiv war, dann muss r < k sein. Falls die Fahrt bis zur Zeit 2r negativ
war, dann muss r < n − k. Nach der ersten Rückkehr nach Null sieht im weiteren alles
so aus wie am Anfang, nur dass wir nur noch 2n − 2r Schritte machen müssen. Das
impliziert die Relation
p2k,2n =
k
n−k
1X
1X
f2r p2k−2r,2n−2r +
f2r p2k,2n−2r
2
2
r=1
r=1
57
(32)
Mit Hilfe dieser Relation können wir nun
p2k,2n = u2k u2n−2k
(33)
induktiv zeigen. Die Formel gilt für k = 0 und alle n (siehe (31)). Wir nehmen an (33)
gilt für p2k,2m für alle m ≤ n − 1 und alle k = 0, . . . , m. Mit (32) finden wir
p2k,2n
k
n−k
1X
1X
f2r u2(k−r) u2(n−k) +
f2r u2k u2(n−r−k)
=
2
2
r=1
1
= u2(n−k)
2
k
X
r=1
r=1
n−k
X
1
f2r u2(k−r) + u2k
2
f2r u2(n−k−r) = u2k u2(n−k)
r=1
Wir haben hier die Tatsache benutzt, dass
k
X
f2r u2(k−r) = u2k
r=1
(das folgt aus der Interpretation der Wahrscheinlichkeiten f2r und u2(k−r) ). Das zeigt,
(33). Damit ist die Wahrscheinlichkeit, dass die Irrfahrt ist 2k Mal positiv bis zur Zeit
2n, aus
2(n − k)
1 2k
p2k,2n = n
(n − k)
k
4
gegeben ist. Insbesondere, können wir die Wahrscheinlichkeit im Limes n → ∞ betrachten. Dazu benutzen wir die Stirling Formel. Wir finden
p
√
1 (2k)2k (2(n − k))2(n−k) e−2n 4πk 4π(n − k)
p2k,2n ' n 2k −2k
4 k e (2πk)(n − k)2(n−k) e−2(n−k) (2π(n − k))
1
1
1
p
p
= p
=
n π k/n 1 − k/n
π k(n − k)
Damit ist die Wahrscheinlichkeit, dass k/n (der Bruch von der Zeit, während dem die
Fahrt positiv ist) zwischen 1/2 und α liegt, aus
Z α
X
√
1
1
1
2
1
p
p
p
'
dx = arcsin α − =: F (α)
n π k/n 1 − k/n
π
2
1/2 π x(1 − x)
n/2<k<αn
gegeben. Die entsprechende Wahrscheinlichkeitsdichte ist
ρ(α) = F 0 (α) =
2
1
p
π α(1 − α)
Es ist interessant zu bemerken, dass die Dichte ρ für α = 0 und α = 1 maximal ist (in
der Tat, sie divergiert an diesen Stellen); das bedeutet, dass die Irrfahrt typischerweise
entweder viel öfter positiv oder viel öfter negativ ist. Es passiert dagegen nur selten,
dass die Fahrt gleichlang bei den positiven wie bei den negativen Zahlen verbringt.
58
3.4
Asymptotische Ereignisse
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und für alle k ∈ N, sei (Ωk , Ak ) ein messbarer
Raum und Xk : Ω → Ωk eine Zufallsvariable. Damit ist (Xk )k∈N eine Zufallsfolge auf Ω.
Definition 3.13. Ein Ereignis
A ∈ A heisst asymptotisch für die Folge (Xk )k∈N , wenn,
Q
für alle n ∈ N, ein Bn ∈ k>n Ak existiert mit
A = (Xk )−1
k>n (Bn ) = {x ∈ Ω : (Xk (x))k>n ∈ Bn }
Mit andere Wörter, für alle n ∈ N, das Ereignis A hängt nur von Xk ab, für alle k > n.
Wir bezeichnen mit Aasym (Xk : k ≥ 1) die Teilmenge von A, die aus alle asymptotische
Ereignisse für die Folge (Xk )k∈N besteht.
Wir bemerken, dass Aasym (Xk : k ≥ 1) eine σ-Algebra ist.
Lemma 3.14. Sei (Xk )k∈N eine Zufallsfolge auf (Ω, A, P). Dann ist Aasym (Xk : k ≥ 1)
eine σ-Algebra auf Ω.
beweis. WirQzeigen zunächst, dass Ω ∈ AQasym (Xk : k ≥ 1). Für alle n ∈ N, setzen
wir Bn = k>n Ωk . Dann es gilt Bn ∈ k>n Ak und Ω = (Xk )−1
k>n (Bn ). Damit ist
Ω ∈ Aasym (Xk : k ≥ 1).
Nun zeigen wir, dass A ∈ Aasym (Xk : k ≥ 1) auch Ac ∈ Aasym (Xk : k ≥ Q
1) impliziert.
In der Tat, für A ∈ Aasym (Xk : k ≥ 1) und n ∈ N finden wir ein Bn ∈ k>n Ak mit
−1
c
c
c
A = (Xk )−1
k>n (Bn ). Damit gilt auch A = (Xk )k>n (Bn ) und A ∈ Aasym (Xk : k ≥ 1).
Schlussendlich beweisen wir, dass Aasym (Xk : k ≥ 1) stabil bezüglich abzählbare
Vereinigungen
Q ist. Sei nämlich (Aj )j∈N eine Folge in Aasymp . Für alle j, n ∈ N existiert
dann Bj,n ∈ k>n Ak mit Aj = (Xk )−1
k>n (Bj,n ). Deswegen


[
[
 Bj,n 
Aj = (Xk )−1
k>n
j
j
und ∪j Aj ∈ Aasym (Xk : k ≥ 1).
Man erinnere, dass eine Zufallvariable X : Ω → Ω0 auf dem Wahrscheinlichkeitsraum
(Ω, A, P) mit Werten in einem messbaren Raum (Ω0 , A0 ) die σ-Algebra σ(X) = X −1 (A0 )
auf Ω induziert. Die σ-Algebra σ(X) enthält alle Ereignissen in A, die durch den Wert
von X bestimmt werden können (Kenntniss des Wertes von X lässt uns eindeutig entscheiden, ob Ereignissen in σ(X) erfüllt sind oder nicht). Sind nun Xj : Ω → Ωj Zufallvariablen auf Ω, mit Werten auf messbaren Räume (Ωj , Aj ), für alle j = 1, . . . , n,
so können wir die σ-Algebra σ(X1 , . . . , Xn ) auf Ω definieren, die aus alle Mengen der
Form Xj−1 (Aj ) erzeugt wird. Mit andere Wörter, σ(X1 , . . . , Xn ) ist die σ-Algebra des
Zufallsvektors (X1 , . . . , Xn ) : (Ω, A) → (Ω1 × · · · × Ωn , A1 × · · · × An ), d.h.
σ(X1 , . . . , Xn ) = (X1 , . . . , Xn )−1 (A1 × · · · × An )
Um so mehr Zufallvariablen man hat, desto grösser wird die σ-Algebra σ(X1 , . . . , Xn ).
Man kann analog auch die σ-Algebra einer Zufallsfolge definieren. Für k ∈ N, sei Xk
eine Zufallvariable auf (Ω, A, P) mit Werten in einem messbaren Raum (Ωk , Ak ). Wir
59
betrachten dann die Zufallsfolge (Xk )k∈N auf (Ω, A, P). Die σ-Algebra der Folge (Xk )k∈N
ist dann durch


Y
σ((Xk )k≥1 ) = (Xk )−1 
Ak 
k≥1
k≥1
definiert. D.h. σ((Xk )k≥1 ) enthält alle Mengen der Form
{x ∈ Ω : (Xk (x))k≥1 ∈ B}
für ein B ∈
Q
k≥1 Ak .
Q
Für alle n ∈ N, ist nun (Xk )k>n eine Zufallfolge auf Ω, mit Werten in k>n Ωk . Die
σ-Algebra der asymptotischen Ereignissen für die Folge (Xk )k∈N ist dann durch
\
σ((Xk )k>n )
Aasym (Xk : k ≥ 1) =
n≥1
gegeben. Die σ-Algebra Aasym (Xk : k ≥ 1) enthält alle Ereignisse, die nur aus dem
asymptotischen Verhalten der Folge (Xk )k∈N abhängen.
Beispiele: wir betrachten ein Paar einfache Beispiele von asymptotischen Ereignissen.
• Für k ∈ N, sei Xk : Ω → Ωk eine Zufallvariable mit Werten im messbaren Raum
(Ωk , Ak ). Sei Ak ∈ Ak für alle k ∈ N. Wir betrachten dann das Ereignis
\ [
A = {x ∈ Ω : Xk (x) ∈ Ak für ∞-viele k ∈ N} =
Xk−1 (Ak )
m≥1 k≥m
Wir behaupten, dass A ∈ Aasym (Xk : k ≥ 1) ein asymptotisches Ereignis für die
Folge Xk ist. In der Tat, für alle n ∈ N wir haben
\ [
A=
Xk−1 (Ak ) = (Xk )−1
k>n (Bn )
m>n k≥m
mit Bn ∈
Q
k>n Ak
definiert durch

Bn =
\ [
 Ak ×
m>n k≥m

Y
Ωj 
j>n,j6=k
• Für k ∈ N, sei Xk : (Ω, A) → (R, B(R)) eine Zufallvariable. Wir definieren
)
(
N
1 X
Xk (x) existiert und ist in [a; b] enthalten
A = x ∈ Ω : lim
N →∞ N
k=1
Wir behaupten, dass A ∈ Aasym (Xk : k ≥ 1). In der Tat, für alle n ∈ N, wir haben
N
1 X
Xk+n (x) existiert und liegt in [a; b]
x ∈ Ω : lim
N →∞ N
(
A=
k=1
60
)
= (Xk )−1
k>n (Bn )
mit Bn ⊂
Q
k>n R
definiert durch
(
Bn =
(xn+1 , xn+2 , . . . ) ∈
Y
k>n
)
N
1 X
R : lim
xk+n existiert und liegt in [a; b]
N →∞ N
k=1
Q
Q
Man bemerke hier, dass Bn ∈ k>n B(R), weil die Projektionen Pj : k>n R → R,
definiert durch
Pj (xn+1 , xn+2 , . . . ) = xj
offenbar
messbar sind, für alle j >Pn (erinnere die DefinitionQ3.10 der σ-Algebra
Q
B(R)).
Dann ist auch N −1 N
j>n R messbar. Es
k>n
k=1 Pn+k , definiert auf
folgt, dass die Teilmenge von Ω, die aus alle Punkte besteht, wo der Limes
N
1 X
lim
Pn+k
N →∞ N
(34)
k=1
existiert, messbar ist und, dass die Funktion (34), definiert auf dieser Teilmenge,
messbar ist (und deswegen eine Zufallvariable). Also
N
1 X
Pk+n
Bn = lim
N →∞ N
"
#−1
([a; b]) ∈
k=1
Y
B(R)
k>n
für alle n ∈ N.
Diese zwei Beispiele zeigen, dass die σ-Algebra Aasym (Xk : k ≥ 1) nicht trivial ist.
Das Wahrscheinlichkeitsmass, eingeschränkt auf dieser σ-Algebra, ist dagegen immer
trivial, falls die Folge aus unabhängige Variablen besteht. Das ist der Inhalt von dem
nächsten wichtigen Theorem.
Theorem 3.15 (Null-Eins Gesetz von Kolmogorov). Sei (Xk )k∈N eine unabhängige
Zufallfolge auf einem Wahrscheinlichkeitsraum (Ω, A, P). Die Zufallvariable Xk nimmt
hier Werten in einem messbarer Raum (Ωk , Ak ). Sei A ∈ Aasym (Xk : k ≥ 1). Dann gilt
P(A) = 0 oder P(A) = 1.
Beweis. Sei A ∈ Aasym (Xk : k ≥ 1) beliebig. Sei
!
σ((Xk )k∈N ) =
(Xk )−1
k∈N
Y
Ak
k∈N
die σ-Algebra, die aus der Folge (Xk )k≥1 erzeugt
Q wird.
Wir bezeichnen mit G die Teilmenge von k≥1 Ak , die aus allen Zylindermengen der
Form
Y
C1 × · · · × Cn ×
Ωk
k>n
für ein n ∈ N und für C1 ∈ A1 , . . . , CQ
n ∈ An besteht. Es gilt: G ist stabil bezüglich
Q endlichen Durchschnitten und
G
erzeugt
A
(d.h.
die
kleinste
σ-Algebra
auf
k
k≥1
k≥1 Ωj ,
Q
die G enthält, ist genau k≥1 Ak ).
61
−1 Q
Das impliziert auch, dass (Xn )−1
n∈N (G), als Teilmenge von (Xn )n∈N ( k≥1 Ak ), stabil
bezüglich endlichen Durchschnitte ist, und, dass (Xn )−1
n∈N (G) die σ-Algebra σ((Xk )k∈N )
erzeugt. Um diese letzte Behauptung zu zeigen, man definiert die Menge




Y
−1
B= B∈
Ak : (Xk )−1
(B)
∈
σ((X
)
(G))
k k∈N
k≥1


k≥1
und man beweist, dass B eine σ-Algebra ist, die G enthält. Das impliziert, dass B =
Q
k≥1 Ak , und deswegen, dass
−1
σ((Xk )−1
k∈N (G)) = (Xk )k≥1 (
Y
Ak )
k≥1
Nun, für alle C ∈ G ist (Xn )−1
n∈N (C) ∈ A unabhängig aus A. In der Tat, da C ∈ G,
es existiert n < ∞, und C1 ∈ A1 , . . . , Cn ∈ An mit
Y
C = C1 × · · · × Cn ×
Ωk
k>n
Dann ist
(Xn )−1
n∈N (C) = {x ∈ Ω : Xj (x) ∈ Cj , für alle j = 1, . . . , n} =
n
\
Xj−1 (Cj )
j=1
Anderseits, es existiert Bn ∈
Q
k>n Ak
mit
A = (Xk )−1
k>n (Bn ) = {x ∈ Ω : (Xk (x))k>n ∈ Bn }
Da die Folge Xk unabhängig ist, ist A unabhängig aus (Xn )−1
n≥1 (C), wie behauptet.
Lemma 3.7 impliziert, dass A aus der ganze σ-Algebra σ((Xk )k∈N ) unabhängig ist.
Streng genommen, Lemma 3.7 gibt ein Kriterium für die Unabhängigkeit von Zufallvariablen; es ist aber sehr einfach die analoge Aussage für Ereignissen mit den selben
Ideen zu zeigen. Man nimmt nämlich an, dass P(A) > 0 (sonst es gibt nichts zu zeigen),
und man betrachtet auf σ((Xk )k≥1 ) das Wahrscheinlichkeitsmass P(.|A). Man bemerkt,
−1
dass für alle Mengen der Form (Xk )−1
k≥1 (C) für ein C ∈ G es gilt P((Xk )k∈N (C)|A) =
−1
P((Xk )−1
k≥1 (C)) (weil A und (Xk )k≥1 (C) unabhängig sind, für alle C ∈ G). Das Erweiterungstheorem von Carathéodory impliziert dann, dass P(B|A) = P(B) für alle
B ∈ σ((Xk )k≥1 ). Es folgt, dass A aus der ganze σ-Algebra σ((Xk )k≥1 ) unabhängig ist.
Insbesondere muss A aus A selber unabhängig sein. Also
P(A) = P(A ∩ A) = P(A)2
Das zeigt, dass P(A) = 0 oder P(A) = 1.
Eine erste Anwendung der 0 − 1 Gesetz von Kolmogorov ist das folgende Korollar.
62
Korollar 3.16. Sei (Xk )k∈N eine unabhängige Zufallsfolge auf eine Wahrscheinlichkeitsraum (Ω, A, P). Sei X : Ω → R eine reelwertige Zufallvariable auf Ω, die messbar
ist, bezüglich der σ-Algebra Aasym (Xk : k ≥ 1). D.h. es gelte
X −1 (A) ∈ Aasym (Xk : k ≥ 1)
für alle A ∈ B(R). Dann es existiert eine Konstante c ∈ R so, dass
P(X = c) = P({x ∈ Ω : X(x) = c}) = 1.
Beweis. Theorem 3.15 impliziert, dass die Verteilungsfunktion FX (x) = P(X ≤ x) =
P(X −1 ((−∞; x])) nur die Werten 0 oder 1 annehmen darf, für alle x ∈ R. Da F monoton
und rechtsstetig ist, es muss ein c ∈ R existieren, mit F (x) = 0 für alle x < c und
F (x) = 1 für alle x ≥ c. Das impliziert, dass P(X = c) = 1.
Hat das asymptotisches Ereignis A, wie im ersten Beispiel oben, die Form
A = {x ∈ Ω : Xk (x) ∈ Ak für unendlich viele k ∈ N}
wobei Ak ∈ Ak für alle k ∈ N, dann kann man oft das Lemma von Borel-Contelli
benutzen, um zu entscheiden, ob P(A) = 0 oder P(A) = 1.
Lemma 3.17 (Borel-Cantelli). Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und (Ak )k∈N
eine Folge von Ereignisse in A. Sei
\ [
A = {x ∈ Ω : x ∈ Ak für unendlich viele k ∈ N} =
Ak
n≥1 k≥n
Dann gilt:
P
a) Ist j≥1 P(Aj ) < ∞, so ist P(A) = 0.
P
b) Ist j≥1 P(Aj ) = ∞ und sind (Aj )j∈N unabhängig, so ist P(A) = 1.
Bemerke, dass die Aussage a) keine Unabhängigkeit der Ereignisse Aj braucht.
S
Beweis. Wir beginnen mit a). Es gilt A ⊂ k≥n Ak für alle n ∈ N. Deswegen muss
X
P(A) ≤
P(Ak )
(35)
k≥n
P
für alle n ∈ N. Ist nun j≥1 P(Aj ) < ∞, so muss die rechte Seite von (35) gegen Null
streben, für n → ∞. Also P(A) = 0, wie behauptet.
Nun zeigen wir b). Wir bemerken, dass
[ \
Ac =
Ack
n≥1 k≥n
Deswegen

P(Ac ) ≤
X
n≥1
=
X
n≥1
P

\
Ack  =
k≥n
lim
m→∞
m
Y
k=n
X
n≥1
lim P
m→∞
(1 − P(Ak )) ≤
X
n≥1
m
\
!
Ack
m→∞
63
X
n≥1
k=n
lim
=
m
Y
k=n
lim
m→∞
e−P(Ak ) =
m
Y
P(Ack )
k=n
X
n≥1
lim e−
m→∞
Pm
k=n
P(Ak )
=0
Beispiel. Eine Münze wird unendlich oft geworfen. Wir untersuchen die Wahrscheinlichkeit des Ereignis
A = {es wird unendlich oft zwei Mal hintereinander Kopf geworfen}
Besser gesagt, mit
An = {beim n-te und beim (n + 1)-te Wurf wird Kopft geworfen}
wir untersuchen

P(A) = P 

\ [
An 
m≥1 n≥m
Um P(A) zu bestimmen, betrachten wir die Folge (A2n )n≥1 die aus unabhängige Ereignisse besteht. Es gilt P(A2n ) = 1/4 für alle n ∈ N. Deswegen
X
P(A2n ) = ∞
n
und P(∩m≥1 ∪n≥m A2n ) = 1. Deswegen gilt auch P(A) = 1.
4
Konvergenzbegriffe
In diesem Abschnitt möchten wir einige Konvergenzbegriffe für Folge von Wahrscheinlichkeitsmasse und für Folge von Zufallvariablen diskutieren. Die Begriffe und einige
Zusammenhänge zwischen den verschiedenen Begriffe sind aus der Vorlesung Analysis 3
schon bekannt. Die Wahrscheinlichkeitstheoretische Interpretation spielt aber manchmal
eine wichtige neue Rolle.
4.1
Konvergenz von Wahrscheinlichkeitsmasse
Wir führen zunächst den Begriff von schwache Konvergenz von Wahrscheinlichkeitsmasse.
Definition 4.1. Sei Pk , k ∈ N eine Folge von Wahrscheinlichkeitsmasse auf (Rn , B(Rn ))
(für ein n ∈ N). Wir sagen, dass Pn schwach gegen ein Wahrscheinlichkeitsmass P auf
(Rn , B(Rn )) konvergiert, wenn
Z
Z
EPn g =
gdPn →
gdP = EP g
(36)
Rn
Rn
für alle beschränkte und stetige Funktionen g auf Rn .
Die Bedingung (36) ist hinreichend, um das Limes P eindeutig zu charakterisieren.
e so muss
Konvergiert nämlich die Folge Pk schwach gegen P und auch gegen P,
Z
Z
e
gdP =
gdP
Rn
Rn
64
e Das ist einfür alle g stetig und beschränkt. Lemma 2.22 impliziert dann, dass P = P.
gentlich der Grund warum mann Konvergenz für alle stetige und beschränkte Funktionen
fördert.
Ist n = 1, d.h. ist Pk eine Folge von Wahrscheinlichkeitsmasse auf (R, B(R)), dann
können wir jedes Wahrscheinlichkeitsmass durch die entsprechende Verteilungsfunktion beschreiben. Wir haben nämlich in Satz 2.2 gezeigt, dass eine Bijektion zwischen
Wahrscheinlickeitsmasse auf (R, B(R)) und monoton wachsende rechtsstetige Funktionen F : R → R mit F (−∞) = 0 und F (∞) = 1 existiert. Wir können also versuchen,
die schwache Konvergenz einer Folge von Wahrscheinlichkeitsmasse durch eine geeignete
Konvergenz von Verteilungsfunktionen zu überprüfen. Dafür brauchen wir die nächste
Definition.
Definition 4.2. Sei Fn , n ∈ N eine Folge von Verteilungsfunktionen. Wir sagen, dass
Fn schwach gegen eine Verteilungsfunktion F konvergiert, falls Fn (x) → F (x), für alle
x ∈ R, für welche F stetig ist.
Mit dieser Definition finden wir den folgenden Satz.
Satz 4.3. Sei Pn , n ∈ N eine Folge von Wahrscheinlichkeitsmasse auf (R, B(R)) und
Fn die zugehörige Verteilungsfunktionen. Dann konvergiert Pn schwach gegen ein Wahrscheinlichkeitsmass P mit Verteilungsfunktion F genau dann, wenn die Folge Fn schwach
gegen F konvergiert.
Beweis. Wir nehmen zunächst an, dass Pn schwach gegen P konvergiert. Wir behaupten
dann, dass Fn (c) → F (c) für alle c ∈ R, wo F stetig ist. Um die Behauptung zu zeigen,
wählen wir ε > 0 fest. Dann finden wir eine stetige Funktion gε mit 1(x ≤ c) ≤ gε (x) ≤
1(x ≤ c + ε). Dann gilt
Z
Z
Z
Z
Fn (c) =
1(x ≤ c)dPn (x) ≤ gε dPn → gε dP ≤ 1(x ≤ c + ε)dP = F (c + ε)
R
für alle n ∈ N. Insbesondere
lim sup Fn (c) ≤ F (c + ε)
n→∞
Da ε > 0 beliebig ist, und da F stetig an der Stelle c ist, es folgt, dass (an dieser Stelle
braucht man eigentlich nur die Rechtsstetigkeit, die immer gilt)
lim sup Fn (c) ≤ F (c)
n→∞
Analog kann man zeigen, dass
lim inf Fn (c) ≥ F (c − ε)
n→∞
für alle ε > 0 gilt. Das impliziert, aus der Stetigkeit von F an der Stelle c, dass (hier
braucht man tatsächlich die Linksstetigkeit, die nur aus Annahme gilt)
lim inf Fn (c) ≥ F (c)
n→∞
65
Es folgt, dass
lim Fn (c) = F (c)
n→∞
wie behauptet.
Nun nehmen wir an, dass Fn schwach gegen F konvergiert. Sei g ∈ Cb (R) stetig und
beschränkt; wir bezeichnen M = supx∈R |g(x)|. Wir zeigen, dass
Z
Z
gdP
gdPn →
R
R
für n → ∞.
Wir wählen dazu ε > 0 fest und wir finden −∞ < a < b < ∞ so, dass F stetig an
der Stelle a und b ist, und F (a) < ε/2M und F (b) > 1 − ε/2M . Dann gilt, für alle n ∈ N
gross genug, Fn (a) ≤ ε/M und Fn (b) ≥ 1 − ε/M . Deswegen
Z
Z
g dP ≤ ε
und
gdPn ≤ 2ε
R\[a;b]
R\[a;b]
Das zeigt, dass
Z
Z
Z
gdPn − gdP ≤ 3ε + gdPn −
g dP
[a;b]
[a;b]
Z
(37)
Da g stetig ist, ist g auf [a; b] gleichmässig stetig. Insbesondere, es existiert N = N (ε)
Punkten a = a1 < a2 < · · · < aN = b wo F stetig ist, mit
|g(x) − g(ak )| < ε
sup
x∈[ak ;ak+1 ]
für alle k = 1, . . . , N . Wir setzen dann
h(x) =
N
X
1(ak ,ak+1 ] (x)g(ak )
k=1
und wir bemerken, dass
sup |h(x) − g(x)| < ε
x∈[a;b]
h ist eine messbare einfache Funktion, mit
Z
hdPn =
R
N
X
g(ak )(Fn (ak+1 ) − Fn (ak ))
k=1
Da Fn schwach gegen F konvergiert, wir finden, dass
Z
Z
hdPn →
hdP
R
R
für n → ∞. Deswegen, es existiert n0 ∈ N mit
Z
Z
hdPn − hdP ≤ ε
66
für alle n > n0 . Also
Z
Z
Z
Z
gdPn −
gdP ≤
|g − h|dPn +
|g − h|dP + ε ≤ 3ε
[a;b]
[a;b]
[a;b]
[a;b]
Mit (37), wir finden
Z
Z
gdPn − gdP ≤ 6ε
Da ε > 0 beliebig ist, wir erhalten
Z
Z
gdPn →
4.2
gdP
Konvergenz von Zufallvariablen
Wir diskutieren nun drei verschiedene Begriffe von Konvergenz von Zufallvariablen.
Konvergenz in Verteilung. Sei (Xn )n∈N eine Folge von reelwertigen Zufallvariablen
mit Wahrscheinlichkeitsverteilung Pn und Verteilungsfunktion Fn . Sei X eine Zufallsvariable mit Wahrscheinlichkeitsverteilung P und Verteilungsfunktion F . Wir sagen, dass
Xn in Verteilung gegen eine Zufallsvariable X konvergiert, und wir schreiben Xn →D X,
falls Pn schwach gegen P, oder equivalent, falls Fn schwach gegen F konvergiert. Analog
kann man Konvergenz in Verteilung für eine Folge von Zufallvariablen mit Werten in
Rn , für n > 1, definieren (in diesem Fall kann man aber nicht die Verteilungsfunktionen
betrachten).
Bemerkung. Es ist nicht wichtig, auf welchem Wahrscheinlichkeitsraum die Variablen
Xn definiert sind. Sie können auch auf verschiedenen Räume definiert sein.
Ein wichtiges Beispiel einer Folge von Zufallvariablen, die in Verteilung konvergieren, ist eine reskalierte Irrfahrt. Der nächste Satz ist ein erstes Beispiel eines zentralen
Grenzwerttheorems.
Satz 4.4 (Moivre-Laplace). Sei Xj eine Folge unabhängigen Bernoullivariablen mit
P(Xj = 1) = p und P(Xj = 0) = 1 − p für ein p ∈ (0; 1). Dann konvergiert die Folge
n
1 X
(Xi − p)
Zn = √
n
i=1
in Verteilung gegen eine Gauss’sche Zufallvariable N (0, p(1 − p)) mit Erwartungswert
Null und mit Varianz p(1 − p).
Beweis. Sei I = [a; b]. Die Behauptung folgt, wenn wir zeigen können, dass
lim P(Zn ∈ I) = p
n→∞
1
2πp(1 − p)
67
Z
b
2
x
− 2p(1−p)
e
a
dx
P
für alle −∞ < a < b < ∞. Wir setzen Sn = nj=1 Xj . Die Variable Sn kann die Werten
0, 1, 2, . . . , n mit Wahrscheinlichkeit
n k
P(Sn = k) =
p (1 − p)n−k
k
√
√
annehmen. Wir sind am Ereignis interessiert, dass a/ n ≤ (Sn /n − p) ≤ b/ n. D.h. wir
√
√
sind an der Wahrscheinlichkeit, dass Sn = k interessiert, für p+a/ n ≤ k/n ≤ p+b/ n.
Ist n ∈ N gross genug, so muss insbesondere c1 ≤ k/n ≤ c2 , für zwei positive Konstante
c1 < c2 . Für solche Werte von k, können wir approximieren
√
n
nn 2πn
p
√
=
1 + O(n−1 )
(n−k)
k
k
k (n − k)
2πk 2π(n − k)
n s
1
1
1
1 + O(n−1 )
=√
k/n
1−k/n
k/n(1 − k/n)
2πn (k/n) (1 − k/n)
√
√
Also, für alle a/ n ≤ k/n − p ≤ b/ n, wir bekommen
s
"
#n
pk/n (1 − p)1−k/n
1
1
P(Sn = k) = √
(1 + O(n−1 ))
1−k/n
k/n
k/n(1
−
k/n)
(1 − k/n)
(k/n)
2πn
s
1
1
=√
exp(−nI(p, k/n))(1 + O(n−1 ))
2πn k/n(1 − k/n)
mit
I(p, x) = log((x/p)x ((1 − x)/(1 − p))1−x ) = x log(x/p) + (1 − x) log((1 − x)/(1 − p))
Wir bemerken: i) I(p, p) = 0, ii) I(p, x) ist konvex als Funktion von x ∈ (0; 1) und nimmt
ihr einziges Minimum an der Stelle x = p an, iii) es gilt ∂x2 I(p, x) = 1/x + 1/(1 − x) =
1/x(1 − x) ≥ 4, iv) I(p, x) ist unendlich oft differenzierbar in x ∈ (0; 1). Um diese
Behauptungen zu zeigen, muss man einfach berechnen, dass
x(1 − p)
∂x I(p, x) = log
p(1 − x)
und ∂x2 I(x, p) = 1/x + 1/(x − 1) = 1/(x(1 − x)). Die einzige Nullstelle von ∂x I(p, x) ist
an der Stelle x = p, wo I(p, p) = 0.
Für |x − p| ≤ cn−1/2 können wir dann Taylor entwickeln. Wir finden
∂x2 I(p, p)
∂ 3 I(ξ, p)
(x − p)2 + x
(x − p)3
2
6
1
∂ 3 I(ξ, p)
=
(x − p)2 + x
(x − p)3
2p(1 − p)
6
√
√
für ein geeignete |ξ − p| ≤ cn−1/2 . Deswegen, für k ∈ N mit a/ n ≤ k/n − p ≤ b/ n,
finden wir
2
(k/n
−
p)
I(p, k/n) −
≤ Cn−3/2
2p(1 − p) I(p, x) = I(p, p) + ∂x I(p, p)(x − p) +
68
Analog, wenn wir die Funktion Taylor Entwicklung (dies Mal nur zur erster Ordnung)
√
√
von (x(1 − x))−1/2 in der Nähe von x = p gibt, für a/ n ≤ k/n − p ≤ b/ n,
s
s
1
1
−
≤ Cn−1/2
(1 − k/n)k/n
p(1 − p) Damit erhalten wir
P(Zn ∈ I) =
X
P(Sn = k)
√a ≤k/n−p≤ √b
n
n
=
X
√
a≤ n(k/n−p)≤b
1
√
2πn
s
1
(k/n − p)2
exp −n
(1 + O(n−1/2 ))
p(1 − p)
2p(1 − p)
Wir erkennen die rechte Seite ist ein Riemann’sches Integral. Das gibt
Z
2
1
− x
e 2p(1−p) dx
lim P(Zn ∈ I) = p
n→∞
2πp(1 − p) I
Konvergenz in Wahrscheinlichkeit. Sei (Xn )n∈N eine Folge von reelwertigen Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei X : Ω → R eine weitere
Zufallvariable. Wir sagen, dass (Xn )n∈N in Wahrscheinlichkeit gegen X konvergiert,
falls für alle ε > 0,
lim P(|Xn − X| > ε) = 0
n→∞
Der Begriff von Konvergenz in Wahrscheinlichkeit ist mit der Konvergenz im Mass,
die in der Vorlesung Analysis 3 eingeführt wurde, äquivalent. Konvergenz in Wahrscheinlichkeit ist in allgemein stärker als Konvergenz in Verteilung. Ist aber der Grenzwert X
deterministisch (d.h. es existiert c ∈ R mit P(X = c) = 1), so ist Konvergenz in Wahrscheinlichkeit äquivalent mit Konvergenz in Verteilung. Das zeigen wir im nächsten
Lemma.
Lemma 4.5. Sei (Xn )n∈N eine Folge von reelwertigen Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P), und X : Ω → R eine weitere Zufallsvariable.
a) Konvergiert Xn → X in Wahrscheinlichkeit, so konvergiert Xn gegen X in Verteilung.
b) Existiert c ∈ R mit P(X = c) = 1 (d.h. ist die Variable X deterministisch) und es
gilt Xn →D X in Verteilung, dann gilt auch Xn → X in Wahrscheinlichkeit.
Beweis. a) Seien Fn (t) = P(Xn ≤ t) und F (t) = P(X ≤ t) die Verteilungsfunktionen von
Xn und X. Sei c ∈ R so, dass F stetig an der Stelle c ist. Wir nehmen an, dass Xn → X
in Wahrscheinlichkeit, und wir möchten zeigen, dass Fn (c) → F (c). Dazu bemerken wir,
dass
Fn (c) = P(Xn ≤ c) ≤ P(X ≤ c + ε) + P(|X − Xn | ≥ ε) = F (c + ε) + P(|X − Xn | ≥ ε)
69
Das impliziert, dass
lim sup Fn (c) ≤ F (c + ε)
n→∞
und, da ε > 0 beliebig ist und F an der Stelle c stetig ist, dass
lim sup Fn (c) ≤ F (c)
n→∞
Analog, wir finden
F (c − ε) = P(X ≤ c − ε) ≤ P(Xn ≤ c) + P(|X − Xn | ≥ ε)
und also, im Limes n → ∞,
lim inf Fn (c) ≥ F (c − ε)
n→∞
Da ε > 0 beliebig ist, und F an der Stelle c stetig ist, erhalten wir
lim inf Fn (c) ≥ F (c)
n→∞
Das zeigt, dass
lim Fn (c) = F (c)
n→∞
b) Sei X : Ω → R mit P(X = c) = 1 für ein c ∈ R und es gelte Xn → X in Verteilung.
Wir zeigen, dass Xn → X in Wahrscheinlichkeit. Sei ε > 0 festgewählt. Dann
P(|Xn −X| > ε) = P(|Xn −c| > ε) = P(Xn < c−ε)+P(Xn > c+ε) ≤ Fn (d1 )+(1−Fn (d2 ))
mit d1 , d2 ∈ R so, dass c − ε < d1 < c − ε/2 und c + ε/2 < d2 < c + ε und, dass F stetig
an der Stelle d1 , d2 ist. Dann gilt
lim P(|Xn − X| > ε) ≤ F (d1 ) + (1 − F (d2 )) = 0
n→∞
weil F (x) = 0 für x < c und F (x) = 1 für alle x ≥ c.
Fast sichere Konvergenz. Sei (Xn )n∈N eine Folge von reelwertige Zufallsvariablen auf
eine Wahrscheinlichkeitsraum (Ω, A, P) und X : Ω → R eine weitere Zufallsvariable. Wir
sagen, dass Xn fast sicher gegen X konvergiert, geschrieben Xn → X f.s., falls
P( lim Xn = X) = P ({x ∈ Ω : Xn (x) → X(x)}) = 1
n→∞
Bemerkung: die Definition ist sinnvoll, weil die Menge {x ∈ Ω : Xn (x) → X(x)}
in der σ-Algebra A enthalten ist. In der Tat, Xn − X ist messbar für alle n ∈ N. Das
impliziert, dass lim supn→∞ (Xn −X) und auch lim inf n→∞ (Xn −X) messbare Funktionen
sind. Das bedeutet, die Menge
{x ∈ Ω : lim Xn (x) = X(x)}
n→∞
= {x ∈ Ω : lim sup(Xn − X)(x) = 0} ∩ {x ∈ Ω : lim inf (Xn − X)(x) = 0}
n→∞
n→∞
sicher in A enthalten ist.
70
Der Begriff von fast sichere Konvergenz ist schon aus Analysis 3 bekannt. Dort
sprach man von punktweise fast überall Konvergenz. Wir erinneren aus Analysis 3,
dass auf endliche Massräume (also immer auf Wahrscheinlichkeitsräume), punktweise fast überall Konvergenz immer Konvergenz in Mass impliziert. Mit andere Wörter,
wenn die Folge von Zufallsvariablen (Xn )n∈N fast sicher gegen die Zufallsvariable X
konvergiert, dann konvergiert Xn immer gegen X in Wahrscheinlichkeit. Die Umkehrung gilt nicht; es existieren Folge von Zufallsvariablen die in Wahrscheinlichkeit aber
nicht fast sicher konvergieren. Um die Beziehung zwischen Konvergenz in Wahrscheinlichkeit und fast sichere Konvergenz besser zu verstehen, es lohnt sich das Ereignis
{x ∈ Ω : limn→∞ Xn (x) = X(x)} anders darzustellen, nämlich als
\ [ \
{x ∈ Ω : |Xn (x) − X(x)| ≤ 1/k} (38)
{x ∈ Ω : lim Xn (x) = X(x)} =
n→∞
k≥1 n0 ≥1 n≥n0
Diese Darstellung (die sofort impliziert, dass {x ∈ Ω : limn→∞ Xn (x) = X(x)} ∈ A)
erlaubt uns das nächste Lemma zu zeigen.
Lemma 4.6. Sei (Xn )n∈N eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei X : Ω → R eine weitere Zufallsvariable. Dann gilt Xn → X f.s.
genau dann, wenn für alle k ∈ N,
P({|Xn − X| > 1/k, u.o. ) = 0
Bemerkung: wir haben hier die Notation
{An , u.o.} = {An unendlich oft} = {An für unendlich viele n ∈ N} = ∩n0 ∈N ∪n>n0 {An }
eingeführt, für beliebige Aussage An mit der Eigenschaft, dass {An } = {x ∈ Ω :
An (x)} ∈ A für alle n ∈ N.
Beweis. Aus (38) erhalten wir
P( lim Xn = X) = 1 − P (∪k≥1 {|Xn − X| > 1/k für unendlich viele n ∈ N})
n→∞
Damit gilt P(limn→∞ Xn = X) = 1 genau dann, wenn
P (∪k {|Xn − X| > 1/k, u.o.}) = 0
Da
X
P({|Xn − X| > 1/k, u.o.}) ≥ P(∪k {|Xn − X| > 1/k, u.o.})
k∈N
≥ max P({|Xn − X| > 1/k, u.o.})
k∈N
wir erhalten, dass Xn → X fast sicher genau dann, wenn
P({|Xn − X| > 1/k, u.o.}) = 0
für alle k ∈ N.
71
Zur Berechnung der Wahrscheinlichekeit P({|Xn − X| > 1/k, u.o.}) können wir das
Borel-Cantelli Lemma anwenden. Wir erhalten den folgenden Satz.
Satz 4.7. Sei (Xn )n∈N eine Folge von reelwertigen Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P) und X : Ω → R eine weitere Zufallsvariable. Für alle ε > 0
es gelte
∞
X
P(|Xn − X| > ε) < ∞
(39)
n=1
Dann konvergiert Xn gegen X fast sicher. Ist ferner die Folge Xn − X unabhängig, so
ist die Bedingung (39) nicht nur hinreichend sondern auch notwending, um fast sicher
Konvergenz von Xn gegen X zu schliessen.
Beweis. Für n ∈ N, sei An = {x ∈ Ω : |Xn (x) − X(x)| > ε}. Nach Annahme gilt
X
P(An ) < ∞
n∈N
Wir betrachten das Ereignis
A = {x ∈ Ω : |Xn (x) − X(x)| > ε für unendlich viele n ∈ N}
= {x ∈ Ω : |Xn (x) − X(x)| > ε u.o.}
\ [
=
{x ∈ Ω : |Xn (x) − X(x)| > ε}
m≥1 n>m
Lemma 3.17, Teil a), zeigt, dass P(A) = 0. Da ε > 0 beliebig ist, es folgt aus Lemma
4.6, dass Xn → X fast sicher.
Sei nun zusätzlich (Xn − X)n∈N eine Folge unabhängige Zufallsvariablen. Dann definiert
An = {x ∈ Ω : |(Xn − X)(x)| > ε} = (Xn − X)−1 ((−ε; ε))
eine Folge unabhängiger Ereignisse. Wenn wir annehmen, dass es ε > 0 existiert, mit
∞
X
P(|Xn − X| > ε) =
n=1
∞
X
P(An ) = ∞
n=1
dann folgt aus Lemma 3.17, Teil b), dass
P({|Xn − X| > ε, u.o.) = 1
Das widerspricht fast sichere Konvergenz der Folge Xn − X gegen Null.
Satz 4.7 erklärt das Zusammenhang zwischen fast sichere Konvergenz und Konvergenz in Wahrscheinlichkeit. Fast sichere Konvergenz ist die stärkere Konvergenz und
impliziert immer Konvergenz in Wahrscheinlichkeit. Anderseits, eine Folge Xn die in
Wahrscheinlichkeit gegen X konvergiert, konvergiert auch fast sicher gegen X, falls die
Wahrscheinlichkeiten P(|Xn − X| > ε) genügend schnell gegen Null konvergieren (so
schnell, dass die Reihe summierbar ist). Ist die Folge Xn − X unabhängig dann ist fast
sichere Konvergenz mit dieser Bedingung sogar äquivalent. Sei zB. (Xn ) eine Folge unabhängige Zufallsvariablen mit P(Xn = 0) = 1 − n−α und P(Xn = 1) = n−α . Dann
konvergiert Xn → 0 in Wahrscheinlichkeit, für alle α > 0. Dagegen, Xn → 0 fast sicher
nur dann wenn α > 1.
72
5
5.1
Das Gesetz der grossen Zahlen
Schwaches Gesetz der grossen Zahlen
Wir betrachten eine Folge von N unabhängige und identisch verteilte reelwertige Zufallsvariablen X1 , . . . , XN , mit EXj = µ. Die arithmetische Mittelung der Variablen
X1 , . . . , XN , gegeben aus
1
1
SN =
(X1 + · · · + XN ) ,
N
N
ist eine neue Zufallvariable. Der Erwartungswert von SN /N ist ESN /N = µ. Das Gesetz
der grossen Zahlen besagt, dass, als N → ∞, die arithmetische Mittelung SN /N gegen
die Konstante µ konvergiert. Man unterscheidet zwischen schwaches Gesetz der grossen Zahlen (Konvergenz in Wahrscheinlichkeit) und starkes Gesetz der grossen Zahlen
(Konvergenz fast sicher).
Satz 5.1 (Schwaches Gesetz der grossen Zahlen). Seien Xj , j ∈ N, identisch verteilte und paarweise unkorrelierte Zufallsvariablen auf einem Wahrscheinlichkeitsraum
(Ω, A, P) mit endliche Varianz EX12 − (EX1 )2 = σ 2 . Dann gilt
n
1X
Xj → EX1
n
j=1
in Wahrscheinlichkeit.
Beweis. Wir haben


 
n
n
X
1 X
1
P 
Xj − EX1 > ε = P  (Xj − EXj ) ≥ 1
n
nε
j=1
j=1
Deswegen

2


n
n
X
1 X
1
Xj − EX1 > ε ≤ 2 2 E  (Xj − EXj )
P 
ε n
n j=1
j=1
=
=
n
1 X
E (Xj − EXj )(Xi − EXi )
ε2 n 2
1
2
ε n2
i,j=1
n
X
E(Xj − EXj )2 =
j=1
(40)
σ2
→0
nε2
für n → ∞.
5.2
Starkes Gesetz der grossen Zahlen
Um fast sichere Konvergenz zu beweisen, brauchen wir zu zeigen, dass die Wahrscheinlichkeiten


X
1 n
P 
Xj − EX1 > ε
n j=1
73
genügend schnell in n abfällt (so schnell, dass die Wahrscheinlichkeiten aufsummiert
werden können, gemäss Satz 4.7). Es ist einfach zu sehen, dass die Wahrscheinlichkeiten
diese Bedingung erfüllen, wenn Xj ein endliches vierte Moment hat.
Proposition 5.2 (Starkes Gesetz der grossen Zahlen mit Momentenbedingung). Sei
(Xj )j∈N eine Folge unabhängige, identische verteilte Zufallsvariablen mit EX14 < ∞.
Dann gilt
n
1X
Xj → EX1
n
j=1
fast sicher.
Beweis. O.B.d.A. können wir annehmen, dass EX1 = 0. Für ε > 0 haben wir


 
X
X
n
n
n
X
1
1
1
P 
Xj > ε = P  E Xj1 Xj2 Xj3 Xj4
Xj > 1 ≤ 4 4
εn ε n
n j=1 j1 ,j2 ,j3 ,j4 =1
j=1
Der Erwartungswert auf der rechten Seite ist Null, ausser wenn je zwei der Indizes gleich
sind. Wir finden
n
X
Xj1 . . . Xj4 = (3n2 − n)(EX12 )2 + nEX14
j1 ,...,j4 =1
Also,


n
1 X (3n2 − n)(EX12 )2 + nEX14
P 
Xj > ε ≤
≤ Cn−2
4 n4
n
ε
j=1 Das impliziert, dass


n
1 X P 
Xj > ε < ∞
n
n=1
j=1
∞
X
und deswegen, dass
n
1X
Xj → 0
n
j=1
fast sicher.
Wir möchten noch das starke Gesetz der grossen Zahlen, ohne Annahme auf dem
vierten Moment von Xj . Dazu brauchen wir die Kolmogorov Ungleichung.
Lemma 5.3 (Ungleichung von Kolmogorov). Seien (Xj )j∈N unabhängige reelwertige
Pn
Zufallsvariablen mit Mittelwerten EXj = µj und Varianzen σj2 . Sei Sn =
k=1 Xk ,
Pn
P
mn = k=1 µk und s2n = nk=1 σk2 (bemerke, dass µn und s2n Mittelwert und Varianz
von Sn sind). Dann gilt, für alle t > 0,
P (∃ k ≤ n : |Sk − mk | ≥ tsn ) ≤ t−2
74
Bemerkung: die Tatsache, dass
P(|Sn − mn | ≥ sn t) ≤ t−2
ist äquivalent zu P( n1 |Sn − mn | ≥ ε) ≤ 1/(nε2 ) und folgt also schon aus der Chebyshev
Ungleichung (40). Der Vorteil der Kolmogorov’sche Ungleichung, ist, dass sie die Wahrscheinlichkeit abschätzt, dass das Maximum von |Sk − mk | über alle k = 1, . . . , n gross
wird (was natürlich grösser ist, als die Wahrscheinlichkeit, dass |Sn − mn | gross ist.
Beweis. O.B.d.A. nehmen wir an, dass µk = 0 für alle k ≥ 1; sonst ersetzen wir Xj mit
der neuen Variablen Xj − mj . Dann ist auch mk = 0 für alle k ≥ 1.
Für k = 1, . . . , n, führen wir die Variablen
Y
Yk = 1(|Sk | ≥ tsn )
1(|S` | < tsn )
`<k
ein. Bemerke, dass Yk = 1(min{` : S` ≥ tsn } = k) das Ereignis ist, dass k das kleinste
ganze Zahl ist, mit |Sk | > tsn . Es existiert
Pnhöchstens ein k ∈ {1, . . . , n} mit Yk = 1.
Deswegen kann die Zufallsvariable Zn = k=1 Yk nur die Werten 0 und 1 annehmen.
Zn ist genau dann 1, wenn es existiert k ≤ n mit |Sk | ≥ tsn . Also
P (∃ k ≤ n : |Sk | > tsn ) = P(Zn = 1) = EZn
Wir betrachten nun das Produkt Zn Sn2 . Einerseits, da Zn ≤ 1, wir finden
n
X
EYk Sn2 = EZn Sn2 ≤ ESn2 = s2n .
(41)
k=1
Anderseits, wir schreiben Uk = Sn − Sk =
Sk und von Yk unabhängig ist. Damit
Pn
j=k+1 Xj
und wir bemerken, dass Uk von
EYk Sn2 = EYk (Uk + Sk )2 = EYk Sk2 + 2EUk Yk Sk + EUk2 Yk ≥ EYk Sk2
weil EUk Yk Sk = EYk Sk EUk = 0 und EUk2 Yk ≥ 0. Da aber Sk2 ≥ t2 s2n falls Yk 6= 0, wir
schliessen, dass
EYk Sn2 ≥ EYk Sk2 ≥ s2n t2 EYk
Aus (41), wir erhalten, dass
s2n ≥
n
X
EYk Sn2 ≥ s2n t2
k=1
n
X
EYk = s2n t2 EZn
k=1
Das gibt
P (∃ k ≤ n : |Sk | > tsn ) = P(Zn = 1) = EZn ≤ t−2
wie behauptet.
Mit Hilfe vom Satz von Kolmogorov zeigen wir nun ein starkes Gesetz der grossen
Zahlen für eine Folge unabhängiger (aber nicht unbedingt identisch verteilte) Zufallsvariablen, mit endlichen Varianz (so, dass die Varianzen nicht zu stark wachsen).
75
Proposition 5.4. Seien Xk , k ∈ N unabhängige Zufallsvariablen mit Mittelwerten
EXk = µk und Varianzen σk2 . Es gelte
∞
X
σ2
k
k=1
Dann
k2
<∞
n
1X
(Xk − µk ) → 0
n
k=1
fast sicher.
Beweis. Sei
n
X
Sn =
(Xk − µk )
k=1
Für ein ε > 0 setzen wir
[
Ap =
{|Sn | ≥ εn}
2p−1 <n≤2p
Wir werden zeigen, dass
∞
X
P(Ap ) < ∞
(42)
p=1
Aus dem Lemma von Borel-Cantelli folgt, dass


\ [
P
Ap  = 0
n≥1 p≥n
Das bedeutet, dass, mit Wahrscheinlichkeit 1, nur endlich viele p ∈ N existieren so, dass
Ap eintritt. D.h., mit Wahrscheinlichkeit 1 gibt es n0 ∈ N so, dass |Sn | ≤ εn für alle
n > n0 und deswegen
P lim n−1 Sn = 0 = 1
n→∞
wie behauptet. Wir müssen also (42) beweisen. Dazu bemerken wir, dass
P(Ap ) ≤ P ∃ 2p−1 < k ≤ 2p : |Sk | ≥ ε2p−1
s22p
p
≤ P ∃ k ≤ 2p : |Sk | ≥ ε2p−1 s−1
s
≤
p
2
2
4p−1 ε2
wo wir die Kolmogorov Ungleichung angewandt haben. Damit erhalten wir
∞
X
p=1
p
∞
∞
2
4 X s22p
4 X 1 X 2
P(Ap ) ≤ 2
=
σk
ε
4p
ε2
4p
=
4
ε2
p=1
∞
X
k=1
p=1
σk2
k=1
∞
X
X 1
16
≤ 2
p
4
3ε
p
p:2 ≥k
Das zeigt (42).
76
k=1
σk2
<∞
k2
Schlussendlich möchten wir noch das starke Gesetz der grossen Zahlen zeigen, ohne
anzunehmen, dass die Variablen Xj eine endliche Varianz haben.
Satz 5.5 (Starkes Gesetz der grossen Zahlen). Seien (Xj )j∈N unabhängige, identisch
verteilte, integrierbare Zufallsvariablen mit Mittelwert µ = EXj . Dann ist
lim
n→∞
1
(X1 + · · · + Xn ) = µ
n
fast sicher.
Bemerkung: auch hier, wie in Proposition 5.4, hätten wir eine Folge unabhängiger
Zufallsvariablen betrachten können, die nicht identisch verteilt sind. Mit µi = EXj
hätten wir dann gehabt
n
1X
(Xj − µj ) = 0
lim
n→∞ n
j=1
fast sicher.
Beweis. Um Proposition 5.4 anzuwenden, brauchen wir zunächst eine Trunkation der
Variablen Xj . Wir setzen Uk = Xk 1(|Xk | < k) und Vk = Xk 1(|Xk | ≥ k). Dann gilt
Xk = Uk + Vk und die Varianz von Uk ist endlich. In der Tat, wenn wir die Varianz von
Uk mit σk2 bezeichnen, finden wir
σk2 ≤ EUk2 ≤
k
X
EXk2 1(j − 1 ≤ |Xk | ≤ j) ≤
j=1
k
X
jE|Xk |1(j − 1 ≤ |Xk | ≤ j) =
j=1
k
X
jaj
j=1
mit aj = E|Xk |1j − 1 ≤ |Xk | ≤ j). Bemerke, dass aj nicht von k abhängt, weil die
Variablen Xk identisch verteilt sind. Wir erhalten,
∞
X
σ2
k=1
k
k2
∞
k
∞
∞
∞
X
X
X
X
1 X
1
≤
`a` =
`a`
≤2
a`
k2
k2
k=1
∞
X
=2
`=1
`=1
k=`
`=1
E|Xk |1(` − 1 ≤ |Xk | ≤ `) = 2E|Xk | < ∞
`=1
wo wir benutzt haben, dass
∞
X
1
1
≤
k2
`−1
k=`
für alle ` > 1. Proposition 5.4 impliziert also, dass
n
1X
(Uk − EUk ) → 0
n
k=1
fast sicher. Nun aber
EUk = µ − EXk 1(|Xk | ≥ k)
wobei
|EXk 1(|Xk | ≥ k)| ≤ E|Xk |1(|Xk | ≥ k) = E|X1 |1(|X1 | ≥ k)
77
weil alle Xk identisch verteilt sind. Da E|X1 | < ∞, es folgt, dass
|EXk 1(|Xk | ≥ k)| → 0
für k → ∞. Also EUk → µ für k → ∞, und deswegen
n
1X
EUk → µ
n
k=1
für n → ∞. Das zeigt, dass
n
1X
Uk → µ
n
(43)
k=1
fast sicher, für n → ∞.
Wir müssen noch zeigen, dass die Vk vernachlässigt werden können. Dazu bemerken
wir, dass
∞
X
a`+1
P(Vn 6= 0) = P(|Xn | ≥ n) = E1(|Xn | ≥ n) ≤
`
`=n
wobei wir erinnern, dass a` = E|Xk |1(` − 1 ≤ |Xk | ≤ `). Damit ist
∞
X
n=1
P(Vn 6= 0) ≤
∞ X
∞
X
a`+1
n=1 `=n
`
=
∞
`
X
a`+1 X
`=1
`
n=1
1=
∞
X
a`+1 < ∞
`=1
Das zeigt, mit Borel-Cantelli,
P(Vn 6= 0für unendlich viele n ∈ N) = 0
Mit anderen Wörter, mit Wahrscheinlichkeit 1, es existieren nur endlich viele n ∈ N so,
dass Vn 6= 0. Da zeigt, dass
n
1X
Vk → 0
n
k=1
fast sicher, und also, mit (43), dass
n
1X
Xk → µ
n
k=1
fast sicher.
5.3
Anwendungen in der Statistik
Das Gesetz der grossen Zahlen hat Anwendungen in der Statistik. Die Aufgabe der
Statistik ist die Beschreibung von Messungen, oder Beobachtungen, die als Realisierung von Zufallsvariablen X1 , . . . , Xn auf einem Wahrscheinlichkeitsraum interpretiert
werden. Die Verteilung der Zufallsvariablen ist a-priori nicht bekannt. Die Statistik versucht diese Verteilung durch die Beobachtungen zu bestimmen, oder, besser gesagt, zu
schätzen. Normalerweise ist es nicht möglich die Verteilung der Zufallsvariablen genau zu
78
bestimmen. Deswegen macht man Modellannahmen und man charakterisiert die gesuchte Verteilung durch (wenige) Parameter, die durch die Messungen abgeschätzt werden
sollten. Um die unbekannte Parameter abzuschätzen, konstruiert der Statistiker oder
die Statistikerin Schätzer, d.h. Funktionen der Variablen X1 , . . . , Xn , die die Parameter annähern. Ein konsistenter Schätzer für ein Parameter a ∈ Rk ist eine Folge von
messbaren Funktionen an : Rn → Rk , mit der Eigenschaft, dass
an (X1 , . . . , Xn ) → a
fast sicher, für n → ∞.
Die Beobachtungen können zum Beispiel die Ausgänge einer Folge von identischen
und sich nicht beeinflussenden Zufallsexperimenten. Dann macht es Sinn anzunehmen,
dass die Zufallsvariablen X1 , . . . , Xn eine Folge unabhängiger und identisch verteilte Zufallsvariablen mit Verteilung ν ist. Hier sind die Unabhängigkeit und die Tatsache, dass
die Xj identisch verteilt sind, Modellannahmen. Die Verteilung ν ist, zunächst unbekanntes, Modellparameter. Wie kann man ν bestimmen? ν ist ein Wahrscheinlichkeitsmass
auf R, definiert durch ν(A) = P(X1 ∈ A). Um ν zu bestimmen, schätzen wir ν(A), für
eine beliebige Borel Menge A ⊂ R. Als Schätzer für das Parameter ν(A) benutzen wir
die Frequenz der Ausgänge Xi ∈ A, definiert als
n
1X
νn (A) =
1A (Xi )
n
i=1
Bemerke, dass νn (A) ist eine messbare Funktion der Zufallsvariable X1 , . . . , Xn und
definiert deswegen wieder eine Zufallsvariable auf dem selben abstrakten Wahrscheinlichkeitsraum, wo die Variablen Xi definiert sind (der Wahrscheinlichkeitsraum spielt
hier keine wichtige Rolle). Das Gesetz der grossen Zahlen zeigt, dass νn ein konsistenter
Schätzer für νn (A) ist.
Lemma 5.6. Sei (Xi )i∈N eine Folge unabhängiger, identisch verteilter, reelwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei ν : B(R) → [0; 1] die
Wahrscheinlichkeitsverteilung von X1 (und deswegen von Xj , für alle j ∈ N), d.h.
ν(A) = P(X1 ∈ A). Dann gilt, für alle A ∈ B(R), νn (A) → ν(A) fast sicher (hier
wird νn (A) als eine Folge Zufallsvariablen interpretiert, ν(A) ist eine Zahl, d.h. eine
konstante Zufallsvariable).
Beweis. Sei Yj = 1A (Xj ) ist eine Folge unabhängiger Zufallsvariablen, mit EYj =
P(Xj ∈ A) = ν(A). Das Gesetz der grossen Zahlen impliziert, dass
n
1X
νn (A) =
Yj → EY1 = ν(A)
n
j=1
fast sicher, für n → ∞.
Statt eine Borel Menge A ⊂ R festzuwählen, und νn (A) als eine Folge von reelwertige Zufallsvariablen auf (Ω, A, P) zu betrachten, kann man auch νn als eine Folge von
masswertiges Zufallsvariablen, d.h. eine Folge von Funktionen auf Ω, mit Werten in den
79
Borel Massen auf R. Um die Abhängigkeit von νn von x ∈ Ω zu unterstriechen, schreiben wir νnx . Für alle x ∈ Ω ist dann νnx ein Wahrscheinlichkeitsmass auf B(R). Da jede
Borel Mass auf R durch eine Verteilungsfunktion beschrieben werden kann, können wir
νnx eine Folge Verteilungsfunktionen Fnx zuordnen, die durch
n
Fnx (t) = νnx ((−∞; t]) =
1X
1(Xi (x) ≤ t)
n
j=1
definiert sind, für alle x ∈ Ω (man kann also die Abbildung x → Fnx als eine Folge
von Zufallsvariablen betrachten, mit Werten in den Verteilungsfunktionen über R). Aus
Lemma 5.6 folgt, dass, für alle feste t ∈ R, Fnx (t) = νnx ((−∞; t]) → ν((−∞; t]) =: F (t)
für fast alle x ∈ Ω. Im nächsten Satz zeigen wir sogar, dass, für fast alle x ∈ Ω, Fnx → F
in Verteilung.
Satz 5.7. Sei (Xn )n∈N eine Folge reelwertiger, unabhängiger identisch verteilter Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei ν : B(R) → [0; 1] die Wahrscheinlichkeitsverteilung von X1 , und F die entsprechende Verteilungsfunktion (d.h.
F (x) = ν((−∞; x]) = P(X1 ≤ x)). Für x ∈ Ω, sei νnx : B(R) → [0; 1] das Borel
Mass, definiert durch
n
1X
νnx (A) =
1A (Xi (x))
n
j=1
P
Sei Fnx die Verteilungsfunktion von νnx , d.h. Fnx (t) = νn ((−∞; t]) = n1 nj=1 1(Xi (x) ≤ t).
e ∈ A mit P(Ω)
e = 1 so, dass für alle x ∈ Ω,
e F x → F in
Dann es existiert eine Menge Ω
n
Verteilung.
Beweis. Es folgt aus Lemma 5.6, dass für alle t ∈ R, Fnx (t) → F (t) fast sicher. D.h. für
alle t ∈ R, es existiert eine Menge Ωt ∈ A mit P(Ωt ) = 1 und so, dass Fnx (t) → F (t) für
alle x ∈ Ωt .
e = ∩q∈Q Ωq . Dann gilt P(Ω)
e = 1, weil
Wir setzen nun Ω
X
e c ) = P(∪q∈Q Ωc ) ≤
P(Ω
P(Ωcq ) = 0
q
q∈Q
e es gilt F x (t) → F (t) für alle t ∈ Q.
Ferner, für alle x ∈ Ω
n
Sei nun c ∈ R so, dass F stetig an der Stelle c ist, und ε > 0. Da F stetig an der
Stelle c ist, finden wir δ > 0 so, dass |F (t) − F (s)| < ε für alle s ∈ [c − δ; c + δ]. Wir
e
wählen dann d1 ∈ [c − δ, c] ∩ Q und d2 ∈ [c; c + δ] ∩ Q. Dann gilt, für alle x ∈ Ω,
lim sup Fnx (c) ≤ lim sup Fnx (d2 ) = F (d2 ) ≤ F (c) + ε
n→∞
n→∞
und
lim inf Fnx (c) ≥ lim inf Fnx (d1 ) = F (d1 ) ≥ F (c) − ε
n→∞
n→∞
wo wir die Monotonie der Verteilungsfunktionen Fnx benutzt haben zusammen mit der
e Fnx (t) → F (t) für alle t ∈ Q.
Tatsache, dass, für x ∈ Ω,
80
Lemma 5.6 und Satz 5.7 zeigen, dass die Frequenzen νn konsistenten Schätzer sind,
für die Wahrscheinlichkeiten ν(A) und allgemeiner für die Verteilung ν der Variablen
X1 , . . . , Xn . In der Anwendungen ist es auch wichtig Schranke für die Differenz zwischen
die gesuchte Wahrscheinlichkeiten ν(A) und die geschätzte Werte νn (A) zu bestimmen,
damit man weisst, wie gross n sein muss, um eine gute Approximation von ν(A) zu
haben. Solche Schranke (in der Statistik man spricht von Qualitätsabschätzungen) kann
man leicht mit Hilfe von der Chebyshev Ungleichung zeigen.
Lemma 5.8. Sei (Xj )j∈N eine Folge reelwertiger unabhängiger identisch verteilter Zufallsvariablen auf eine Wahrscheinlichkeitsraum (Ω, A, P). Sei F die Verteilungsfunktion
von X1 . Dann gilt, für alle A ∈ cB(R),
1
P (|νn (A) − ν(A)| > cν(A)) ≤
(44)
nc2 ν(A)
Beweis. Wir setzten Yj = 1(Xj ∈ A). Der Erwartungswert von Yj ist EYj = P(Xj ∈
A) = ν(A). Da Yj2 = Yj , die Varianz von Yj ist
E|Yj − EYj |2 = ν(A)(1 − ν(A)) ≤ ν(A)
Da
n
νn (A) − ν(A) =
1X
(Yj − EYj )
n
j=1
kriegen wir

P (|νn (A) − ν(A)| > cν(A) = P 
≤
1
|
ncν(A)
E|Y1 − EY1
nc2 ν 2 (A)
n
X

(Yj − EYj )| > 1
j=1
|2
≤
1
c2 nν(A)
Die Schranke (44) kann als
P (|νn (A) − ν(A)| > c) ≤
ν(A)
nc2
umgeschrieben werden. Normalerweise möchtet man aber, dass der relative Fehler, also |νn (A) − ν(A)|/ν(A) klein ist. Deswegen ist die Formel (44) so geschrieben. In der
Anwendungen wählt man zunächst wie gross der Fehler c sein kann (z.B. kann man
wählen, dass der Fehler höchstens 10 Prozent vom Wert ν(A) sein sollte; dann setzt
man c = 0.1). Dann man wählt wie gross soll die Wahrscheinlichkeit p sein, dass der
Fehler c tatsächlich kleiner als die gewählte Schranke ist (z.B. man wählt, dass der Fehler
kleiner als 10 Prozent sein sollte, mindestens mit Wahrscheinlichkeit 90 Prozent). Die
Schranke (44) gibt dann die Bedingung
1
nc2 ν(A)
≤ (1 − p)
81
damit der Fehler kleiner als c ist mit Wahrscheinlichkeit grösser als p. Das gibt eine
untere Schranke n ≥ ((1 − p)c2 ν(A))−1 an der Anzahl notwendinger Messungen (man
bemerke, dass die Anzahl notwendiger Messungen ist grösser, falls ν(A) klein ist; das
war zu erwarten, weil wenn ν(A) klein ist muss man lang warten, damit das Ergebnis A
überhaupt einmal fällt.
Statt an den Wahrscheinlichkeiten ν(A) kann man auch an anderen Eigenschaften
der Verteilung ν interessiert sein. Dann braucht man andere Schätzer. Z.B. kann man
versuchen der Erwartungswert oder die Varianz von ν zu schätzen. Das Gesetz der
grossen Zahlen gibt uns auch in diesem Fall konsistenten Schätzer.
Wir betrachten wie oben eine Folge unabhängiger und identisch verteilter reelwertiger Zufallsvariablen (Xn )n∈N , mit Erwartungswert EX1 = µ. Das Gesetz der grossen
Zahlen impliziert, dass
n
1X
Xj → EX1
n
j=1
fast sicher. Das bedeutet, in der Sprache der Statistik, dass die Zufallsvariablen
n
mn =
1X
Xj
n
j=1
ein Schätzer für den Erwartungswert µ = EX1 sind. Nimmt man an, dass X1 eine
endliche Varianz hat, so kann man auch hier eine Qualitätsabschätzung herleiten.
Lemma 5.9. Sei (Xj )j∈N eine Folge unabhängiger identisch verteilter Zufallsvariablen
mit EX1 = µ und E|X1 − EX1 |2 = σ 2 < ∞. Dann ist
n
mn =
1X
Xj
n
j=1
ein konsistenter Schätzer für µ und es gilt
P (|mn − µ| > cµ) ≤
σ2
nµ2 c2
(45)
Beweis. Die Chebyshev Ungleichung zeigt, dass


X
2
n
1
(Xj − µ) > 1 ≤ σ
P (|mn − µ| > cµ) = P 
cµn c2 µ2 n
j=1
In der Praxis ist die Schranke (45) nicht so nützlich, weil wir, auf der rechten Seite,
der Erwartungswert µ und die Varianz σ 2 nicht kennen (wir versuchen eben durch Beobachtungen die Eigenschaften der Verteilung ν zu bestimmen). Mindestens für µ haben
wir aber eine Schätzung, gegeben aus mn . Um die Formel (45) zu benutzen, brauchen
wir also auch eine Schätzung für die Varianz σ 2 . Dazu definieren wir die empirische
Varianz
n
1X
Vn =
(Xj − mn )2
n
j=1
82
Mit dieser Definition ist Vn eine Zufallsvariable auf dem selben Wahrscheinlichkeitsraum,
wo die Variablen Xj definiert sind. Im nächsten Lemma zeigen wir, dass Vn fast sicher
gegen der Varianz σ 2 konvergiert, unter der Annahme, dass σ 2 < ∞.
Lemma 5.10. Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit EX1 = µ und E(X1 − EX1 )2 = σ 2 < ∞. Dann konvergiert Vn → σ 2 fast
sicher.
Beweis. Mit der Definition
n
1X
mn =
Xj
n
j=1
können wir schreiben
Vn =
n
n
j=1
j=1
1X
1X 2
(Xj − mn )2 =
Xj − m2n
n
n
Da (Xj2 )j∈N eine Folge unabhängiger und identisch veteilter Zufallsvariablen mit endlichen Erwartungswert ist, folgt aus dem Gesetz der grossen Zahlen, dass
n
1X 2
Xj → EX12
lim
n→∞ n
j=1
fast sicher. Anderseits, da mn → µ fast sicher, bekommen wir auch, dass m2n → µ2 fast
sicher. Daraus folgt, dass
n
1X 2
Xj − m2n → EX12 − (EX1 )2 = σ 2
n
j=1
fast sicher.
Also, mit der Messungen von X1 , . . . , Xn kann man Abschätzungen mn und Vn für
die Varianz der Verteilung ν von X1 . Mit Hilfe dieser Abschätzungen, kann man dann
versuchen mit (45) zu bestimmen, wie gross der Fehler ist.
6
Der zentrale Grenzwertsatz
Sei (Xn )n∈N eine Folge unabhängiger identisch verteilter reelwertiger integrierbarer Zufallsvariablen mit EX1 = µ. Das Gesetz der grossen Zahlen impliziert, dass
n
1X
(Xj − µ) → 0
n
(46)
j=1
fast sicher, als n → ∞. Man könnte sich aber vorstellen, dass wenn wir mit einer geeignete Potenz von n multiplizieren, die linke Seite von (46) einen nicht trivialen Grenzwert
hat. Mit andere Wörter, das Gesetz der grossen Zahlen impliziert, dass
n
X
Xj ' nµ
j=1
83
(47)
Mit dem zentralen Grenzwertsatz untersuchen wir dann den Term nächster Ordnung in
dieser Entwicklung, die Fluktuationen um nµ. Bemerke, dass die Summe auf der linke
Seite von (47) eine Zufallsvariable ist. Obwohl der Hauptterm nµ auf der rechten Seite
eine Konstante ist, können wir uns also vorstellen, dass die Korrekturen Zufallsvariablen
sind, mit einer bestimmten Verteilung. Es gibt deswegen viele natürlichen Fragen, die
wir uns stellen können: wie gross ist der Term nächster Ordnung? Was ist die Verteilung
der Fluktuationen? Wovon hängt sie ab?
Um die erste Frage zu beantworten, nehmen wir an, dass EX12 < ∞, d.h., dass X1
eine endliche Varianz hat. Um die Grösse der Fluktuationen zu bestimmen, subtrahieren
wir den Hauptterm µn von der linken Seite von (47), und wir multiplizieren mit n−γ für
ein geeignete γ > 0. Wir berechnen dann die Varianz der resultierende Zufallsvariable:
2
n
n
X
X
−γ
−2γ


E n
(Xj − µ) = n
E(Xi − µ)(Xj − µ)

j=1
i,j=1
= n−2γ
n
X
E(Xj − EXj )2 = n1−2γ E(X1 − EX1 )2
j=1
Pn
−γ
Also die Variable n
j=1 (Xj − µ) kann nur dann eine Zufallsvariable der Ordnung 1
sein, falls γ = 1/2. Diese Berechnung zeigt, dass, wenn X1 eine endliche Varianz hat,
dann muss der nächsten Term in der Entwicklung (47) ein Term der Ordnung n1/2 sein.
Die nächste Frage ist: was ist die Verteilung der Fluktuationen. D.h. was ist der
Limes der Folge
n
1 X
√
(Xj − µ)
(48)
n
j=1
für n → ∞? Wir bemerken, dass wir diese Frage schon einmal geantwortet haben, für
den Fall, dass die Folge (Xj )j∈N aus unabhängiger und identisch verteilter Bernoulli
Variablen besteht, mit P(X1 = 0) = p und P(X1 = 0) = 1 − p für ein p ∈ (0; 1/2). In
diesem Fall, der Satz von Moivre-Laplace (Satz 4.4) zeigt, dass, (48) in Verteilung gegen
einer Gauss’sche Zufallsvariable mit Erwartung 0 und mit Varianz p(1 − p) konvergiert.
Man könnte sich vorstellen, dass das Auftauchen einer Gauss’sche Verteilung von der
Wahl der Bernoulli Variablen Xj abhängt, und, dass für andere Wahlen von Xj , die
Fluktuationen durch andere Verteilungen beschrieben werden. Das ist aber nicht der
Fall. Der zentrale Grenzwertsatz besagt, dass, falls EX12 < ∞, die Zufallsvariable (48) in
Verteilung gegen eine Gauss’sche Variable konvergiert, unabhängig aus der Verteilung
von X1 .
Satz 6.1 (Zentrale Grenzwertsatz). Sei (Xn )n∈N eine Folge unabhängiger identisch verteilter reelwertige Zufallsvariablen mit EX1 = µ und E(X1 − EX1 )2 = σ 2 < ∞. Dann
konvergiert die Folge
n
1 X
√
Zn =
(Xj − µ)
n
j=1
in Verteilung gegen eine Gauss’sche Zufallsvarible N (0, σ 2 ) mit Mittelwert µ und Varianz σ 2 .
84
Um den zentrale Grenzwertsatz zu zeigen, vergleichen wir die charakteristische Funktion von Zn mit der charakteristische Funktion einer Gauss’sche Variable N (0, σ 2 ). Wir
haben schon in Sektion 2.6 gezeigt, dass charakteristische Funktionen Zufallsvariablen
vollständig charakterisieren (siehe Satz 2.21). Wir brauchen noch zu zeigen, dass punktweise Konvergenz von charakteristische Funktionen Konvergenz in Verteilung impliziert.
Satz 6.2. Sei (Xn )n∈N eine Folge von Zufallsvariablen, mit charakteristische Funktionen
φn . Sei X eine weitere Zufallsvariable, mit charakteristische Funktion φ. Konvergiert
φn (t) → φ(t) für alle t ∈ R, dann konvergiert Xn in Verteilung gegen X.
Beweis. Seien Pn , P die Wahrscheinlichkeitsverteilungen von Xn und X. Wir müssen
zeigen, dass
Z
Z
f dPn → f dP
(49)
für n → ∞ und für alle f stetig und beschränkt. Wir zeigen zunächst, dass (49) für alle
f stetig und mit kompaktem Träger gilt. Dazu setzen wir, für σ > 0,
Z
1
1
2
2
pσ (x) = √
e−itx p1/σ (t)dt
e−x /2σ = √
2
2
2πσ
2πσ
Für alle σ > 0, wir behaupten, dass
Z
Z
pσ ∗ f dPn → pσ ∗ f dP
(50)
für alle f stetig mit kompakten Träger. In der Tat,
Z
Z Z
pσ ∗ f dPn =
pσ (y − x)f (x)dPn (y) dx
Z
Z
1
itx
=√
f (x)
p1/σ (t)φn (t)e dt dx
2πσ 2
Nach Annahme gilt φn (t) → φ(t) für alle t ∈ R. Da anderseits
p1/σ (t)φn (t)e−itx ≤ p1/σ (t)
und da die rechte Seite integrierbar ist, dominierte Konvergenz impliziert, dass
Z
Z
1
1
√
e−ixt p1/σ (t)φn (t)dt → √
e−ixt p1/σ (t)φ(t)dt
2
2
2πσ
2πσ
für alle x ∈ R. Da
Z
Z
1
1
−ixt
√
e
p1/σ (t)φn (t)dt ≤ √
p1/σ (t)dt < ∞
2πσ 2
2πσ 2
und da f stetig und kompakten Träger hat, können wir noch einmal dominierte Konvergenz auf dem x-Integral anwenden. Wir erhalten (50), für alle f stetig und mit kompakten Träger. Nun benutzen wir (50), um (49) zu bewiesen, für alle f stetig und mit
85
kompakten Träger. Dazu bemerken wir, dass, da f stetig ist und kompakten Träger hat,
ist f gleichmässig stetig. Das impliziert, dass
sup |pσ ∗ f (x) − f (x)| → 0
x
für σ → 0. Für jedes σ > 0, abschätzen wir dann
Z
Z
Z
Z
f dPn − f dP ≤
|f
−
p
∗
f
|dP
+
|f − pσ ∗ f |dP
σ
n
Z
Z
+ pσ ∗ f dPn − pσ ∗ f dP
Zu gegebenen ε > 0 können wir dann σ > 0 so klein wählen, dass
sup |pσ ∗ f (x) − f (x)| ≤ ε/3
x
Dann wählen wir n ∈ N so gross, dass
Z
Z
pσ ∗ f dPn − pσ ∗ f dP ≤ ε/3
(möglich wegen (50)). Wir schliessen, dass
Z
Z
f dPn − f dP ≤ ε
Da ε > 0 beliebig ist, finden wir (49), für alle stetige Funktionen mit kompakten Träger.
Wir müssen noch zeigen, dass (49) eigentlich für alle f stetig und beschränkt gilt. Sei
hk eine Folge von stetigen Funktionen mit kompaktem Träger und mit 0 ≤ hk (x) ≤ 1
für alle x ∈ R, so, dass hk (x) → 1 für alle x ∈ R. Dann ist f hk ebenfalls stetig mit
kompaktem Träger, und also
Z
Z
hk f dPn → hk f dP
für n → ∞. Ferner, es gilt
Z
Z
Z
Z
f dPn − f hk dPn ≤ |f ||1 − hk |dPn ≤ sup |f (x)| 1 − hk dPn
x
und analog
Z
Z
Z
f dP − f hk dP ≤ sup |f (x)| 1 − hk dP
x
Also, mit M = sup |f (x)|, erhalten wir
Z
Z
Z
Z
f dPn − f dP ≤ M 1 − hk dPn + M 1 − hk dP
Z
Z
+ f hk dPn − f hk dP
86
Wir haben
Z
Z
f hk dPn →
f hk dP
für n → ∞ und, da hk (x) → 1 für k → ∞, und |hk (x)| ≤ 1,
Z
hk dP → 1
für k → ∞. Das impliziert, dass für ein beliebiges ε > 0, wir finden zunächst ein k ∈ N
so, dass
Z
1 − hk dP ≤ ε/4M
Mit festem k ∈ N, wir wählen nun n ∈ N so, dass
Z
Z
M hk dPn − hk dP ≤ ε/4
und
Z
Z
f hk dPn − f hk dP ≤ ε/4
Dann gilt
Z
Z
f dPn − f dP ≤ ε
für alle n ∈ N gross genug.
Um die Konvergenz von
n
1 X
Zn = √
(Xj − µ)
n
j=1
gegen eine Gauss’sche Variable zu zeigen, brauchen wir also wegen Satz 6.2 zu zeigen, dass die charakteristische Funktion φZn gegen die charakteristische Funktion der
Gauss’sche Variable konvergiert. Ohne Beschränkung der Allgemeinheit können wir hier
annehmen, dass µ = 0 (sonst definieren wir die neue Folge Yj = Xj −µ). Sei φ(t) = EeitX1
die charakteristische Funktion von X1 (und also auch von Xn , für alle n ∈ N). Die charakteristische Funktion von Zn ist dann
Ee
it √1n
Pn
j=1
Xj
=E
n
Y
j=1
√
i(t/ n)Xj
e
=
n
Y
Ee
√
i(t/ n)Xj
j=1
=
n
Y
√
√
φ(t/ n) = φn (t/ n)
(51)
j=1
Die rechte Seite der letzte Gleichung muss also mit der charakteristische Funktion einer
Gauss’sche Variable mit Verteilung N (0, σ 2 ) verglichen werden. Aus (14) wissen wir, dass
die charakteristische Funktion einer Gauss’sche Variable mit Mittelwert 0 und Varianz
2 2
σ 2 aus φN (0,σ2 ) (t) = e−σ t /2 gegeben ist. Wir müssen also zeigen, dass, falls φ die
charakteristische Funktion der Variable X1 ist, dann gilt
√
2 2
φn (t/ n) → e−σ t /2
(52)
√
für n → ∞. Um das asymptotischen Verhalten von von φn (t/ n) zu bestimmen, brauchen wir das folgende Lemma.
87
Lemma 6.3. Sei an eine Folge reellen Zahlen mit limn→∞ an = a. Dann gilt
an n
= ea
lim 1 +
n→∞
n
Beweis. Wir bemerken, dass
|ex − 1 − x| ≤ Cx2
für alle |x| ≤ 1. Da an → a, für n → ∞, we folgt, dass |an |/n ≤ 1 für n gross genug.
Damit gilt
ean /n 1 − Ce−an /n n−2 ≤ 1 + an /n ≤ ean /n 1 + Ce−an /n n−2
und
n
n
ean 1 − Ce−an /n n−2 ≤ (1 + an /n)n ≤ ean 1 + Ce−an /n n−2
Für n → ∞, ean → ea , e−an /n → 1, (1 − Ce−an /n n−2 )n → 1. Also,
lim (1 + an /n)n = ea
n→∞
Mit Hilfe des letztes Lemma können wir nun das asymptotischen Verhalten von
√
φn (t/ n) untersuchen und den zentrale Grenzwertsatz beweisen.
Beweis von Satz 6.1. O.B.d.A. können wir annehmen, dass µ = 0 (sonst ersetzen wir
Xj durch die zentrierte Variablen Yj = Xj − µ). Dann ist die Varianz von X1 einfach
σ 2 = EX12 . Sei φ(t) = EeitX1 die charakteristische Funktion von X1 . Aus Lemma 2.20
wissen wir, dass φ ∈ C 2 (R), mit φ(0) = 1, φ0 (0) = iEX1 = 0 und φ00 (0) = −EX12 = −σ 2 .
Gemäss (52), Satz 6.1 folgt, wenn wir zeigen, dass, für alle t ∈ R,
√
2 2
lim φn (t/ n) = e−σ t /2
n→∞
gilt. Um (53) zu beweisen, setzen wir
R2 (s) = φ(s) − 1 −
s2 00
φ (0)
2
Da φ ∈ C 2 (R), mit φ(0) = 1 und φ0 (0) = 0, finden wir, dass
lim s−2 R2 (s) = 0
s→0
Also, für alle t ∈ R,
√
n
R2 (t/ n) = 0
2
n→∞ t
lim
Nun
n
√ n
√
t2 00
φ(t/ n) = 1 +
φ (0) + R2 (t/ n)
2n
Wir setzen
an =
√
t2 00
φ (0) + nR2 (t/ n)
2
88
(53)
Dann gilt
σ 2 t2
t2 00
φ (0) = −
2
2
für n → ∞. Lemma 6.3 impliziert also, dass
an →
√
σ 2 t2
lim φn (t/ n) = e− 2
n→∞
Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen, mit
EX1 = µ und E(X1 − EX1 )2 = σ 2 . Der zentrale Grenzwertsatz zeigt, dass
n
X
Xj ' nµ +
√
√
nZ + o( n)
(54)
j=1
wobei Z eine Gauss’sche Zufallsvariable ist, mit Mittelwert 0 und Varianz σ 2 . Es ist
hier wichtig zu bemerken, dass (54) unabhängig
von der Verteilung von X1 gilt. Bis auf
P
Fehler kleiner als n1/2 , die Verteilung von nj=1 Xj ist völlig aus Mittelwert und Varianz
von X1 bestimmt.
Schlussendlich können wir uns fragen, was passiert, wenn X1 keine endliche Varianz
hat? Dann sind die Fluktuationen grösser und man muss mit einer kleineren Potenz von
n multiplizieren, um ein nicht triviales Limes zu finden. Man kann in der Tat zeigen, dass
für integriebare Variablen mit unendlichen Varianz eine Verallgemeinerung vom zentral
Grenzwertsatz gilt: in Abhängigkeit vom Zerfall von X1 ins Unendlichen, es existiert
0 < γ ≤ 1/2 so, dass die Variable
n
1 X
(Xj − EXj )
nγ
j=1
in Verteilung gegen eine sogenannte α-stabile Verteilung konvergiert (die α-stabile Verteilung hängt von γ ab).
7
Markovketten
Der Begriff von stochastische Prozesse wurde in Definition 3.11 eingeführt; ein stochastische Prozess oder eine Zufallsfolge auf dem Wahrscheinlichkeitsraum (Ω, A, P)
ist eine messbare Abbildung X : (Ω, A) → (RN , B(R)N ). Für alle x ∈ Ω ist also
X(x) = (Xn (x))n∈N eine Folge in R. Das Index n ∈ N wird normalerweise als Zeit
interpretiert. Hier bezeichnet B(R)N die σ-Algebra auf RN , die aus alle Zylindermengen
erzeugt wird.
Statt Zufallsfolgen in R, kann man allgemeiner Zufallsfolgen betrachten, mit Werten
in einer Menge S, versehen mit eine σ-Algebra AS . Typischerweise ist S eine Teilmenge
von R oder von Rd . Eine messbare Abbildung X : (Ω, A) → (S N , AN
S ) heisst ein stochastische Prozess mit Zustandsraum S (und Indexmenge N). In diesem Kapitel werden wir
insbesondere Stochastische Prozess mit endlichem Zustandsraum betrachten. In diesem
Fall ist normalerweise AS = P(S) einfach die Potenzmenge von S (bemerke, dass AN
S
89
trotzdem kleiner ist, als die Potenzmenge von S N ). Eine wichtige Klasse von stochastische Prozess mit endlichen Zustandsraum sind die Markovketten. Diese Systeme sind
eine Verallgemeinerung der Begriffen von unabhängige Folgen und von Summen unabhängiger Folgen von Zufallsvariablen, die wir in den letzten Kapitel betrachtet haben.
Sie spielen eine extrem wichtige Rolle in der Modellierung des dynamischen Verhaltens
von vielen Systemen.
Definition 7.1. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und S eine endliche Menge
(man kann eigentlich die selbe Definition auch für abzählbare Zustandsräume anwenden).
Ein stochastisches Prozess X : (Ω, A) → (S N , AN
S ) heisst eine Markovkette, falls, für alle
n ∈ N und i1 , i2 , . . . , in ∈ N mit i1 < i2 < · · · < in und für alle x1 , . . . , xn ∈ S mit
P Xin−1 = xn−1 , Xin−2 = xn−2 , . . . , Xi1 = x1 > 0
es gilt
P Xin = xn |Xin−1 = xn−1 , . . . , Xi1 = x1 = P(Xin = xn |Xin−1 = xn−1 )
Ist X = (Xn )n∈N eine Folge unabhängiger Zufallsvariablen mit Werten auf einem
endlichen Zustandsraum S, so ist X offenbar eine Markovkette, weil
P Xin = xn |Xin−1 = xn−1 , . . . , Xi1 = x1 = P(Xin = xn |Xin−1 = xn−1 ) = P(Xin = xn )
Ist die endliche Menge S ⊂ R, so können wir auch die Folge Sn = X1 + · · · + Xn
betrachten. Die Folge Sn ist dann nicht unabhängig, aber trotzdem eine Markovkette,
weil, wenn wir wissen, dass Xin−1 = xn−1 ist, dann spielt der Wert von Xk für Zeit
k < in−1 keine Rolle mehr, um Xin zu bestimmen. Bei einer Markovkette dürfen die
zukünftige Wahrscheinlichkeiten von den gegenwärtige abhängen, aber nicht von der
vergangenen.
Insbesondere, es folgt aus der Definition mit der Wahl i1 = 1, i2 = 2, . . . , in = n,
dass, falls X : Ω → S N eine Markovkette ist, dann muss
P (Xn = xn |Xn−1 = xn−1 , Xn−2 = xn−2 , . . . , X1 = x1 ) = P (Xn = xn |Xn−1 = xn−1 )
(55)
Sei π0 : S → [0; 1] die Wahrscheinlichkeitsverteilung von X0 , d.h.
P(X0 = x) = π0 (x)
für alle x ∈ S. Dann können wir die Wahrscheinlichkeitsverteilung von Xn , für alle n ∈ N
mit Hilfe von π0 und von den Übergangswahrscheinlichkeiten
pn (x, y) = P(Xn = y|Xn−1 = x)
für alle x, y ∈ S und n ∈ N berechnen. In der Tat
X
P(Xn = xn ) =
P(Xn = xn |Xn−1 = xn−1 )P(Xn−1 = xn−1 )
xn−1 ∈S
=
X
pn (xn−1 , xn )P(Xn−1 = xn−1 )
xn−1 ∈S
90
Iteration dieser Identität führt uns zu
X
P(Xn = xn ) =
pn (xn−1 , xn )pn−1 (xn−2 , xn−1 ) . . . p1 (x0 , x1 )P(X0 = x0 )
xn−1 ,...,x0 ∈S
=
X
pn (xn−1 , xn )p(xn−2 , xn−1 ) . . . p(x0 , x1 )π0 (x0 )
xn−1 ,...,x0 ∈S
Sei also πn : S → [0; 1], definiert durch πn (x) = P(Xn = x), die Verteilung von Xn .
Dann haben wir
πn = π0 P1 · P2 · · · · · Pn ,
(56)
wobei Pj die |S| × |S| Matrix ist, mit Einträge pj (x, y). Auf der rechten Seite von (56),
P1 ·P2 bezeichnet das Produkt von Matrizen. Ferner, π0 P1 ·· · ··Pn bezeichnet das Produkt
von links vom Vektor π0 mit der P
Matrix P = P1 · · · · · Pn ; d.h. die x-te Komponente von
π0 P ist gegeben aus (π0 P )(x) = y∈S π0 (y)P (y, x).
Die Matrix Pn , mit den Einträge pn (x, y) heisst die n-te Übergangsmatrix von der
Markovkette. Die Einträge einer Übergangsmatrix sind immer so, dass 0 ≤ pn (x, y) ≤ 1
für alle x, y ∈ S und
X
X
pn (x, y) =
P(Xn = y|Xn−1 = x) = 1
(57)
y∈S
y∈S
für alle x ∈ S (das heisst, die Summe der Einträge auf jeder Zeile ist 1). Eine Matrix
mit Einträge zwischen 0 und 1 und mit der Eigenschaft (57) heisst eine stochastische
Matrix.
Umgekehrt: für jedes Wahrscheinlichkeitsmass π0 auf (S, AS ) und für jede Folge von
|S| × |S| stochastische Matrizen (Pj )j∈N gibt es eine Markovkette mit Übergangswahrscheinlichkeiten pj (x, y) gegeben aus der Einträge von Pj . Das folgt aus der Diskussion
in Sektion 3.3. In der Tat, mit Hilfe von den Übergagsmatrizen Pj und von der Anfangsverteilung π0 können wir die Wahrscheinlichkeiten
P(Xin = xn , . . . , Xi1 = x1 )
= P(Xin = xn |Xin−1 = xn−1 ) . . . P(Xi2 = x2 |Xi1 = x1 )P(Xi1 = x1 )






i1
i2
in
Y
X
Y
Y
=
π0 (x0 ) 
Pj  (x0 , x1 ) 
Pj  (x1 , x2 ) . . . 
Pj  (xn−1 , xn )
x0 ∈S
j=1
j=i1 +1
j=in−1 +1
(58)
bestimmen, für alle 1 ≤ i1 < i2 < · · · < in und alle x1 , . . . , xn ∈ S. Das bedeutet, wir
können P auf alle Zylindermengen in AN
S definieren. Es ist dann einfach zu überprüfen,
dass P, definiert auf der Algebra von allen endlichen Vereinigungen von Zylindermengen,
ein Wahrscheinlichkeitsmass ist. Das Erweiterungstheorem von Carathéodory impliziert
dann, dass es genau ein Wahrscheinlichkeitsmass P auf (S N , AN
S ) existiert, so, dass (58)
für alle n ∈ N, 1 ≤ i1 < i2 < · · · < in , x1 , . . . , xn ∈ S gilt. Mit andere Wörter, es
gibt eine Bijektion zwischen Markovketten auf einem endlichen Zustandsraum S und
die Folge von |S| × |S| Übergangsmatrizen (Pj )j∈N mit einer Anfangsverteilung π0 .
91
7.1
Markovketten mit stationären Übergangswahrscheinlichkeiten
Im folgendes betrachten wir Markovketten auf einem endlichen Zustandsraum mit der
Eigenschaft, dass die Übergangswahrscheinlichkeiten pn (x, y) nicht von n abhängen.
In diesem Fall spricht man von zeitlich homogene Markovketten oder Markovketten
mit stationären Übergangswahrscheinlichkeiten. Diese Markovketten werden durch eine
einzige |S| × |S| Übergangsmatrix P beschrieben. Ist π0 : S → [0; 1] die Verteilung von
X0 , dann ist πn = π0 P n die Verteilung von Xn .
Wir diskutieren nun ein Paar Beispiele von Markovketten mit stationäre Übergangswahrscheinlichkeiten.
• Unabhängige Folgen: Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter
Zufallsvariablen, mit Verteilung π0 : S → [0; 1] so, dass π0 (x) = P(X0 = x). Die
Übergangswahrscheinlichkeiten sind, in diesem Fall
pn (x, y) = P(Xn = y|Xn−1 = x) = P(Xn = y) = P(X0 = y) = π0 (y)
D.h. die Übergangsmatrix Pn mi Einträge pn (x, y) ist unabhängig von n und jede
seiner Zeile ist aus der Anfangsverteilung π0 gegeben. Die Markovkette hat also in
diesem Fall stationäre Übergangswahrscheinlichkeiten. Besteht die Folge (Xn )n∈N
aus unabhängigen aber nicht identisch verteilter Zufallsvariablen, so ist
pn (x, y) = P(Xn = y) = πn (y)
D.h. die Zeilen von Pn sind alle gleich und eine Kopie von πn . Im Gegensatz zu
dem Fall von identisch verteilter Zufallsvariablne, hat hier die Markovkette keine
stationäre Übergangswahrscheinlichkeiten.
• Irrfahrt mit Rand: Summe von unabhängige Variablen sind auch Markovketten. Sei
z.B. (Xj )j∈N eine Folge unabhängiger und identisch verteilter Bernoulli Variablen,
mit P(Xj = 1) = p und P(XP
j = −1) = 1 − p, für ein p ∈ [0; 1]. Wir betrachten das
stochastische Prozess Sn = nj=1 Xj . Sn ist dann eine Markovkette mit stationäre
Übergangswahrscheinlichkeiten, gegeben aus

falls j = i + 1
 p
1−p
falls j = i − 1
P(Sn = j|Sn−1 = i) =
(59)

0
sonst
Diese Markovkette passt aber nicht in unsere Definition, weil der entsprechende Zustandsraum S = Z unendlich ist. Die Übergangsmatrix P wäre in diesem
Fall eine unendliche
Matrix (ein lineares Operator auf dem Folgenraum `1 (Z) =
P
{(zj )j∈Z : j∈Z |zj | < ∞}). Um wieder eine Markovkette mit endlichen Zustandsraum zu kreigen, können wir ein Rand einführen, und postulieren, dass die Irrfahrt
anhält, wenn sie den Rand trifft. Mit andere Wörter, wir wählen L ∈ N, und wir
betrachten der endlichen Zustandsraum S = {−L, −L + 1, . . . , L − 1, L}. Die Irrfahrt mit Rand an der Stellen ±L ist dann als die Markovkette definiert, mit der
Übergangswahrscheinlichkeiten (59) für alle i ∈ {−L + 1, −L + 2, . . . , L − 2, L − 1},
und mit
1
falls j = ±L
P(Sn = j|Sn−1 = ±L) =
0
sonst
92
Die Übergangsmatrix P ist dann eine endliche (2L + 1) × (2L + 1) Matrix, mit der
Form


1
0
0
··· ···
··· 0
 1−p 0
p
0
···
··· 0 


 0
1−p 0
p
0
··· 0 


P =
(60)

···
··· ··· ···
···


 0
···
··· 0
1−p 0
p 
0
···
··· ··· 0
0
1
Wir hätten hier auch andere Randbedingungen definieren können. Z.B. periodische
Randbedingungen hätten uns zu der Übergangsmatrix


0
p
0
··· ···
···
(1 − p)

 1−p 0
p
0
···
···
0



 0
1−p 0
p
0
···
0


(61)
Pper = 

···
··· ··· ···
···



 0
···
··· 0
1−p 0
p
p
···
··· ··· 0
(1 − p) 0
geführt (wenn die Fahrt an der Stelle x = L sitzt und nach rechts gehen will, dann
kommt sie wieder an der Stelle x = −L im Zustandsraum herein).
Einfaches Wettermodell: Wir beschreiben das Wetter am Tag n durch eine Zufallsvariable Xn , die nur zwei Werten annehmen kann, Xn = 0 bedeutet Regen, Xn = 1
Sonne. Nimmt man an, (Xn ) ist eine Folge von unabhängige Zufallsvariablen, so
kriegt man nicht so eine gute Beschreibeung des Wetters (wenn heute sonnig ist,
kann man sich vorstellen, dass es eine höhere Wahrscheinlichkeit gibt, dass auch
morgen sonnig ist). Eine bessere Beschreibung finden wir, wenn wir die allgemeinere Annahme machen, dass (Xn )n∈N eine Markovkette ist. Nehmen wir zusätzlich
an, die Markovkette habe stationären Übergangswahrscheinlichkeiten, so können
wir das Modell durch eine 2 × 2 Übergangsmatrix beschreiben, mit Einträge
p(0, 0) = Wahrscheinlichkeit, dass morgen regnet, wenn heute regnet
p(1, 1) = Wahrscheinlichkeit, dass morgen sonnig ist, wenn heute sonnig ist
p(0, 1) = Wahrscheinlichkeit, dass morgen regnet, wenn heute sonnig ist
p(1, 0) = Wahrscheinlichkeit, dass morgen sonnig ist, wenn heute regnet
Wenn wir p0,1 ≡ p(0, 1) und p1,0 ≡ p(0, 1) setzen, dann muss p(0, 0) = 1 − p0,1 und
p(1, 1) = 1 − p1,0 . Die Übergangsmatrix ist also
1 − p0,1 p0,1
P =
(62)
p1,0
1 − p1,0
Zusammen mit der Anfangsverteilung π0 (0) = p0 und π0 (1) = 1 − p0 legt P
die Markovkette eindeutig fest. Es gibt also 3 Parameter, p0 , p0,1 , p1,0 die gewählt
werden können, um das Modell am besten am Wetter anzupassen.
93
7.2
Invariante Verteilungen
Eine wichtige Rolle in der Untersuchung von Markovketten mit stationären Übergangswahrscheinlichkeiten wird von invarianten Verteilungen gespielt.
Sei (Xn )n∈N eine Markovkette mit endlichen Zustandsraum S und mit stationäre
Übergangsmatrix P . Ein Wahrscheinlichkeitsmass π auf S heisst eine invariante Verteilung, falls π = πP , d.h. falls π ein links-Eigenvektor von P ist, mit Eigenwert 1.
Bemerke, ein links-Eigenvektor π von P zum Eigenwert
1 ist nur dann eine invariante
P
Verteilung, falls π(j) ≥ 0 für alle j ∈ S, und, falls j∈S π(j) = 1.
Sei π eine Invariante Verteilung. Wenn wir die Anfangsverteilung π0 = π wählen,
dann ist πn = π für alle n ∈ N (das erklärt warum π als invariante Verteilung bezeichnet
wird). Mit andere Wörter, wenn X0 die Verteilung π hat, so hat Xn die selbe Verteilung
für alle n ∈ N.
Wir betrachten ein Paar Beispiele.
• Ist (Xn ) eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit Verteilung π : S → [0; 1], so ist die Übergangsmatrix P eine |S| × |S| Matrix, wo jede
Reihe aus dem Vektor π gegeben ist. Dann ist offenbar πP = π; d.h. π ist eine
invariante Verteilung.
• Für die Irrfahrt mit absorbierenden Rand, mit dem Zustandsraum {−L, −L +
1, . . . , L − 1, L} durch die Übergangsmatrix (60), ist auch einfach invariante Verteilungen zu finden. In der Tat, die Verteilung πr , definiert durch πr (L) = 1 und
πr (j) = 0 für alle j 6= L, ist offenbar invariant (wenn wir schon am rechten
Rand sind, dann bleiben wir dort). Analog ist auch die Verteilung πl , definiert
durch πl (−L) = 1 und πl (j) = 0 für alle j 6= −L, invariant. Für die Irrfahrt mit
periodische Randbedingungen, definiert durch die Übergangsmatrix (61), ist die
gleichmässige Verteilung π(j) = 1/(2L + 1) für alle j ∈ {−L, −L + 1, . . . , L} invariant (weil in diesem Fall, nicht nur die Summe der Einträge auf jeder Reihe Eins
ist, sondern auch die Summe der Einträge auf jeder Kolumne).
Die Fragen die wir nun betrachten möchten sind: unter welchen Bedingungen existiert
eine invariante Verteilung einer Markovkette mit endlichen Zustandsraum und unter
welche Bedingungen ist sie eindeutig. Wie wir sehen werden, die Existenz einer eindeutige
invariante Verteilung ist sehr wichtig, weil dann jede die Entwicklung πn = π0 P n jeder
Anfangsverteilung π0 auf S konvergiert gegen die invariante Verteilung für n → ∞.
Um die Fragen zur Existenz und Eindeutigkeit der invariante Verteilung zu beantworten, brauchen wir ein wichtiges Theorem aus der linearen Algebra, nämlich das Theorem
von Perron-Frobenius.
Theorem 7.2 (Perron-Frobenius). Das Theorem besteht aus zwei Teilen:
i) Sei A eine d × d Matrix mit strikt positiven Einträge. Dann existiert ein Eigenvektor v mit strikt positiven Komponenten. Der entsprechende Eigenwert λ0 ist
einfach, positiv und es gilt |λj | < λ0 für alle andere Eigenwerte λj von A.
ii) Sei A 6= 0 eine d × d Matrix mit nicht-negativen Einträgen. Sei λ0 das Supremum
über alle P
λ ∈ R, für die ein Vektor v mit nicht-negativen reellen Einträge existiert
so, dass di=1 xi = 1 und (Ax)i ≥ λxi für alle i = 1, . . . , d. Dann: a) λ0 ist ein
94
Eigenwert von A. Der ensprechende Eigenvektor hat nicht-negative Einträge, b)
es gilt |λ| ≤ λ0 für alle λ Eigenwerte von A.
Beweis. i) Wir definieren die Menge
d
X
Λ = λ ∈ R : ∃ v ∈ Rd :
vj = 1, vj ≥ 0 und (Av)j ≥ λvj für alle j = 1, . . . , d (63)
j=1
und wir setzen λ0 = sup{λ : λ ∈ Λ}. Offenbar gilt λ0 > 0. Weiter, aus Definition vom
Supremum, finden wir eine Folge γj ∈ R mit γj → λ0 und, für alle j ∈ N, einen Vektor
P
(j)
(j)
(j)
v (j) ∈ Rd mit di=1 vi = 1, vi ≥ 0 und (Av (j) )i ≥ γj vi . Da die Menge
K = {x ∈ Rd :
d
X
xj = 1, xj ≥ 0}
j=1
kompakt ist, finden wir eine Teilfolge j` und ein v ∈ K so, dass v (j` ) → v für ` → ∞.
P
(∞)
(∞)
= 1 und
Da v (∞) ∈ K sind insbesondere seine Komponenten vj
so, dass dj=1 vj
(∞)
vj
≥ 0 für alle j = 1, . . . , d. Ferner,
(Av (∞) )i =
d
X
(∞)
Aim vm
= lim
m=1
`→∞
d
X
(j` )
(j` )
Aim vm
≥ lim γj` vi
`→∞
m=1
(∞)
= λ 0 vi
Pd
(∞)
(∞)
= 1, vi
≥ 0 und mit
Zusammenfassend, v (∞) ∈ Rd ist ein Vektor mit
i=1 vi
(∞)
(∞)
(Av )i ≥ λ0 vi
für alle i = 1, . . . , d. Nehmen wir an, es existiert, i ∈ {1, . . . , d} so,
dass
(∞)
(Av (∞) )i > λ0 vi
Dann setzen wir w = Av (∞) . Die Komponenten von w sind alle strikt positiv (da w` =
P
(∞)
m A`m vm ). Ferner, es gilt, dass
(Aw)j =
d
X
m=1
Ajm wm =
d
X
Ajm (Av
m=1
(∞)
)m > λ0
d
X
(∞)
Ajm vm
= λ 0 wj
m=1
für alle j = 1, . . . , d. Nach geeignete Normierung vom Vektor w finden wir ein w
e∈Λ
mit (Aw)
e j > λ0 wj . Das gibt ein Wiederspruch zur Definition von λ0 und impliziert
also, dass Av (∞) = λ0 v (∞) . Das zeigt, dass λ0 ein Eigenwert von A ist. Dann muss aber
Aw = λ0 w gelten: d.h. der Vektor w, mit strikt positiven Einträge ist ein Eigenvektor
von A zum Eigenwert λ0 .
Als nächstes zeigen wir, dass für jede Eigenwert λ 6= λ0 , es muss |λ| < λ0 gelten. Sei
nämlich λ 6= λ0 ein Eigenwert von A mit Eigenvektor z. Aus Az = λz finden wir
X
X
d
d
Aij zj ≤
Aij |zj |
|λ||zi | = j=1
j=1
P
P
Mit xj = |zj |/ dj=1 |zj | finden wir ein x = (x1 , . . . , xd ) ∈ Rd mit dj=1 xj = 1, xj ≥ 0
für alle j = 1, . . . , d, und (Ax)i ≥ |λ||zi |. Das zeigt, dass |λ| ∈ Λ, also |λ| ≤ λ0 . Nun
95
zeigen wir, dass |λ| < λ0 für alle Eigenwerten λ 6= λ0 . Dazu bemerken wir, dass für δ > 0
klein genug, die Matrix Aδ = A − δ noch immer strikt positive Einträge hat. Der grösste
Eigenwert von A − δ ist aber λ0 − δ. Alle andere Eigenwerte von A − δ haben die Form
λ − δ, wobei λ ein Eigenwert von A ist. Das zeigt, dass |λ − δ| ≤ λ0 − δ. Damit
|λ| ≤ |λ − δ| + δ ≤ λ0
Die Gleichheit |λ| = λ0 kann deswegen nur gelten, wenn |λ| = |λ − δ| + δ. Das ist aber
möglich (da δ > 0 ist), falls λ reel und positiv ist. Dann wäre aber λ = λ0 , was wir
ausgeschlossen haben. Das zeigt, dass |λ| < λ0 für alle Eigenwerte λ 6= λ0 .
Schliesslich zeigen wir, dass λ0 ein einfaches Eigenwert ist. Nehmen wir an, es existieren zwei linear unabhängige Vektoren x, y ∈ Rd mit Ax = λ0 x und Ay = λ0 y. Dann
ist auch z = x − cy, für ein beliebiges c ∈ R ein Eigenvektor von A zum Eigenwert λ0 .
Durch geeignete Wahl von c ∈ R, können wir sicher machen, dass z sowohl positive wie
auch negative Komponenten hat. Dann gilt
X
X
d
d
λ0 |zi | = Aij zj <
Aij |zj |
j=1
j=1
für alle i = 1, . . . , d. Damit finden wir auch ein δ > 0 so, dass
(λ0 + δ)|zi | <
d
X
Aij |zj |
j=1
Nach geeignete Normierung von dem Vektor mit Komponenten |z1 |, . . . , |zd |, finden wir
damit ein Wiederspruch zur Maximalität von λ0 .
Damit ist Teil i) vom Theorem von Perron-Frobenius gezeigt.
Nun zeigen wir Teil ii). Hier nehmen wir nur an, dass A nicht negative Einträge hat
(und, dass A 6= 0 ist). Wir definieren die Menge Λ wie in (63) und wir setzen wieder
λ0 = sup Λ. Wir möchten zeigen, dass λ0 ein Eigenwert von A ist, mit einem Eigenvektor
v mit nicht-negativen Einträge, und, dass |λ| ≤ λ0 für alle λ Eigenwerten von A.
Sei E die d×d Matrix mit Einträge Eij = 1 für alle i, j = 1, . . . , d. Die Matrix A+δE
hat, für alle δ > 0 strikt positiven Einträge. Für alle δ > 0 können wir die Menge
d
X
d
Λ(δ) = λ ∈ R : ∃ v ∈ R :
vj = 1, vj ≥ 0 und ((A + δE)v)j ≥ λvj für alle j
j=1
und λ0 (δ) = sup Λ(δ) definieren. Seien 0 < δ1 < δ2 ; dann gilt offenbar Λ ⊂ Λ(δ1 ) ⊂ Λ(δ2 )
und deswegen λ ≤ λ0 (δ1 ) ≤ λ0 (δ2 ).
Von Teil i) wissen wir, dass λ0 (δ) der grösste Eigenwert von A + δE ist, und, dass es
genau ein normierten Eigenvektor v(δ) von A + δE zum Eigenwert λ0 (δ) existiert, mit
strikt positiven Einträge.
Wegen Kompaktheit der Folge v(δ), existiert eine monotone Folge δj mit δj → 0 für
j → ∞ und ein v0 ∈ Rd , mit v(δj ) → v0 . Die Einträge von v0 sind hier nicht-negativ
(als Limes einer Folge strikt positiven Zahlen). Wegen Monotonie, die Folge λ0 (δj ) hat
96
e bezeichnen. Aus λ0 (δ) ≥ λ0 für alle δ > 0 finden wir
einen Grenzwert, den wir mit λ
e ≥ λ0 . Ferner, aus (A + δj E)v(δj ) = λ0 (δj )v(δj ) folgt, im Limes j → ∞, dass
auch λ
e 0
Av0 = λv
e ≤ λ0 . Damit muss λ
e = λ0 und λ0 ist eine Eigenwert von A mit dem
Insbesondere, λ
Eigenvektor v0 , der nur nicht-negativen Einträgen hat. Es bleibt noch zu zeigen, dass
|λ| ≤ λ0 für alle Eigenwerte λ von A. Das kann aber wie im Teil i) gezeigt werden. Ist
nämlich λ ein Eigenwert von A mit Eigenvektor v, so gilt λv = Av und deswegen
|λ||vj | ≤
d
X
Aji |vi | = (A|v|)j
i=1
Nach geeignete Normierung von |v| folgt es, dass |λ| ∈ Λ, und deswegen, dass |λ| ≤
λ0 .
Wir wenden zunächst Teil ii) vom Theorem von Perron-Frobenius um die Existenz
einer invariante Verteilung zu zeigen. Hier brauchen wir keine zusätzliche Bedingungen.
Satz 7.3. Jede stationäre Markovkette mit endlichem Zustandsraum besitzt mindestens
eine invariante Verteilung.
Beweis. Die Übergangsmatrix P ist eine d × d Matrix (mit d = |S|), mit nicht-negativen
Einträgen. Sie erfüllt also die Annahme vom Theorem von Perron Frobenius. Aus Theorem 7.2 finden wir insbesondere, dass P ein maximaler positiver Eigenwert λ0 besitzt,
mit einem
Pd links-Eigenvektor v, der nicht-negative Einträgen hat, und der die Normierung j=1 vj = 1 erfüllt (am besten wendet man den Satz auf die transponierte Matrix
P T ; ein “normaler” rechts-Eigenvektor von P T ist dann ein links-Eingevektor von P ).
Wir behaupten nun, dass λ0 = 1. In der Tat, die Identität
(vP )i =
d
X
vj pji = λ0 vi
j=1
für alle i = 1, . . . , d impliziert, dass
λ0
d
X
i=1
vi =
d X
d
X
vj pji =
i=1 j=1
d
X
j=1
vj
d
X
i=1
pji =
d
X
vj
j=1
weil P eine stochastische Matrix ist (d.h. die Summe der Einträge auf jeder Reihe ist
Eins). Das zeigt, dass v eine invariante Verteilung ist.
Die nächste Frage, die wir untersuchen möchten ist, ob die invariante Verteilung einer
Markovkette eindeutig ist. Aus dem Beispiel einer Irrfahrt mit absorbierenden Rand
wissen wir, dass nicht jede Markovkette eine eindeutige invariante Verteilung hat. Wir
werden deswegen geeignete Bedingungen brauchen, um die Eindeutigkeit der invariante
Verteilung zu zeigen.
Es ist nützlich für jede Übergangsmatrix einen gerichteten Graphen einzuführen. Sei
P die Übergangsmatrix einer Markovketten mit stationären Übergangswahrscheinlichkeiten auf der endlichen Menge S. Der entsprechende Graphen hat Knotenmengen S.
97
Die Kantenmenge E ist wie folgt definiert: für i, j ∈ S, wir haben (i, j) ∈ E genau dann,
wenn pij > 0, d.h. wenn ein Durchgang von i nach j möglich ist. Man sollte bemerken,
dass der Graphen hat eine Richtung: die Kanten (i, j) und (j, i) sind verschieden. Ein
Pfad γ auf dem Graphen (S, E) ist eine Folge von Kanten γ = (e1 , . . . , en ), mit e` ∈ E
und so, dass der Anfagnspunkt von e`+1 mit dem Endpunkt von e` übereinstimmt. Wir
sagen, dass zwei Knoten i, j ∈ S kommunizieren, wenn ein Pfad existiert, der i mit j
verbinden und ein Pfad existiert, der j mit i verbindet. Wir sagen immer, dass jeder
Zustand in S mit sich selber kommunizieren.
Die Relation i ∼ j, falls i mit j kommuniziert, ist dann eine Äquivalenzrelation (d.h.
sie ist reflexiv, symmetrisch und transitiv). Wir können also S in Äquivalenzklassen der
Form [j] = {i ∈ S : ikommuniziert mit j} teilen.
Definition 7.4. Wir sagen, dass eine Markovkette mit stationäre Übergangswahrscheinlichkeiten irreduzibel ist, falls der Quotientenraum S/ ∼ aus einer einzige Äquivalenzklasse besteht.
Ist der Graph einer Übergangsmatrix nicht zusammenhängend, so ist die Markovkette sicher nicht irreduzibel. Die Umkehrung dieser Aussage gilt nicht: es existieren Markovketten mit stationäre Übergangswahrscheinlichkeiten die einen zusammenhängenden
Graphen haben, aber nicht irreduzibel sind. Ein Beispiel davon ist die Irrfahrt mit absorbierenden Rand (sie besitzt drei Äquivalenzklassen).
Eine nützliche Charakterizierung von Irreduzibilität ist aus dem folgenden Lemma
gegeben.
Lemma 7.5. Eine Markovkette ist genau dann irreduzibel, wenn für alle (i, j) ∈ S × S
ein k ∈ N existiert, mit (P k )ij > 0.
Beweis. Wir haben
(P k )ij =
X
pi,i1 pi1 ,i2 . . . pik−1 j =
i1 ,...,ik−1
X
pe1 . . . pek
γ:i→j,|γ|=k
Die rechte Seite ist genau dann positiv für ein k ∈ N, wenn ein Pfad der Länge k mit
Anfangspunkt i und Endpunkt j existiert.
Der Begriff von Periodizität einer Markovkette spielt auch eine wichtige Rolle.
Definition 7.6. Wir betrachten weiter eine Markovkette auf einem endlichen Zustandsraum S mit stationären Übergangsmatrix P . Ein Zustand j ∈ S hat Periode d(j), falls
d(j) der grösste gemeinsamer Teiler aller Zahlen n ∈ N ist, für die (P n )jj > 0 ist. Ein
Zustand mit Periode 1 heisst aperiodisch.
Es ist leicht zu zeigen, dass die Periode von kommunizierenden Zuständen übereinstimmen müssen.
Lemma 7.7. Wenn i, j ∈ S kommunizieren, dann ist d(i) = d(j).
Beweis. Da i und j kommunizieren, wissen wir, dass es n, m ∈ N existieren so, dass
(P n )ji > 0 und (P m )ij > 0. Sei nun ` ∈ N, mit (P ` )ii > 0. Dann gilt auch
(P n+`+m )jj ≥ (P n )ji (P ` )ii (P m )ij > 0
98
Da auch Pii2` > 0, muss (P n+m+2` )jj > 0. d(j) muss also sowohl n + m + ` wie auch
n+m+2` teilen. Damit muss d(j) auch die Differenz (n+m+2`)−(n+m+`) = ` teilen.
Wir haben also gezeigt, dass d(j) teilt ` für alle ` ∈ N mit (P ` )ii > 0. Das bedeutet,
dass d(j) ≤ d(i) (da d(i) der grösste gemeinsamer Teiler ist). Aus der Symmetrie dieser
Argument folgt, dass d(j) = d(i).
Insbesondere, in einer irreduzibel Markovkette haben alle Zustände die selbe Periode.
Eine irreduzibel Markovkette heisst aperiodisch, falls alle Zustände Periode 1 haben.
Wir möchten nun zeigen, dass eine Markovkette genau dann irreduzibel und aperiodisch ist, falls ein k ∈ N existiert, so, dass P k strikt positiven Einträge hat. Bemerke
hier den Unterschied zu einfachen Irreduzibilität; gemäss Lemma 7.5, Irreduzibilität bedeutet, dass für alle i, j ∈ S ein k ∈ N existiert, mit (P k )ij > 0. Wir werden dagegen
zeigen, dass Irreduzibilität und Aperiodizität implizieren, dass ein k ∈ N existiert so,
dass die Bedingungen (P k )ij > 0 gleichzeitig für alle i, j ∈ S erfüllt sind. Um diese
Tatsache zu beweisen, brauchen wir das folgende Lemma.
Lemma 7.8. Hat i ∈ S die Periode d(i), so gibt es N ∈ N so, dass (P nd(i) )ii > 0 für
alle n ≥ N .
Um das Lemma zu zeigen, brauchen wir die folgende Tatsache aus der Zahlentheorie.
Proposition 7.9. Seien n1 , . . . , nk ∈ N mit grösstem gemeinsamen Teiler d. Dann
existiert M ∈ N mit der folgenden Eigenschaft: für alle m > M existieren c1 , . . . , ck ∈ N
mit
k
X
dm =
cj nj
j=1
Beweis. Ohne Beschränkung der Allgemeinheit können wir annehmen, dass d = 1 (sonst
dividieren wir alle nj durch d). Sei
k
X
A={
cj nj : c1 , . . . , ck ∈ N}
j=1
die Menge aller Zahlen die als lineare Kombinationen der nj geschrieben werden können,
mit Koeffizienten in N. Ferner, sei
B =A−A={
k
X
pj nj : p1 , . . . , pk ∈ Z}
j=1
die Menge der ganzzahlige lineare Kombinationen von Zahlen in A. Sei nun d0 der kleinste
positive Zahl in B. Nach Definition ist d0 ≥ 1. Wir behaupten, dass d0 jeder Zahl in A
teilt. Gäbe es nämlich eine Zahl N ∈ A, die nicht durch d0 geteilt wird, dann wären d0 −N
und N −`d0 für alle ` ∈ N in B und ungleich Null. Es ist dann aber einfach zu sehen, dass
eine von diesen Zahlen strikt positiv und kleiner als d0 sein wird, in Widerspruch zur
Definition von d0 . Das zeigt, dass d0 jede Element von A teilt. Insbesondere teilt d0 die
Zahlen n1 , . . . , nk . Da wir aber angenommen haben, dass der grösste gemeinsame Teiler
von n1 , . . . , nk gerade 1 ist, muss d0 = 1 sein. Es folgt, dass es existieren N1 , N2 ∈ A mit
99
N1 − N2 = 1. Sei nun m > N22 eine ganze Zahl. Dann können wir schreiben m = N22 + `,
für ein ` ∈ N, das als
` = bN2 + j
geschrieben werden kann, für ein b ∈ N und ein 0 ≤ j < N2 . Dann haben wir
m = N22 + bN2 + j = N22 + bN2 + j(N1 − N2 ) = (N2 − j)N2 + bN2 + jN1
(64)
Da die Koeffizienten (N2 −j), b, j nicht negativ sind, gibt (64) die gewünschte Darstellung
von m.
Mit Hilfe dieser Propositioin aus der Zahlentheorie können wir nun das Lemma
zeigen.
Beweis von Lemma 7.8. Der Zustand i hat Periode d(i). Das heisst, d(i) ist der grösste
gemeinsame Teiler von alle n ∈ N mit der Eigenschaft, dass (P n )ii > 0. Das bedeutet, es
existieren n1 , . . . , nk ∈ N mit grösster gemeinsamer Teiler d(i) und so, dass (P nj )ii > 0
für alle j = 1, . . . , k. Aus Proposition 7.9 folgt, dass N ∈ N existiert mit der Eigenschaft,
dass, für alle n > N , Zahlen c1 , . . . , ck ∈ N existieren, mit
d(i)n =
k
X
cj nj
j=1
Dann ist aber
P d(i)n =
k
Y
(P nj )cj
j=1
Bemerke, dass für beliebige d × d Matrizen A, B mit nicht negative Einträge und mit
Aii , Bii > 0 es gilt
d
X
(AB)ii =
Aij Bji ≥ Aii Bii > 0
j=1
Nach Annahme ist (P nj )ii > 0 für alle j = 1, . . . , k. Das impliziert also, dass ((P nj )cj )ii >
0 für alle j = 1, . . . , k. Deswegen ist auch


k
Y
(P d(i)n )ii =  (P nj )cj  > 0
j=1
ii
Mit Lemma 7.8 können wir nun zeigen, dass für jede irreduzibel und aperiodische
Markovkette ein k ∈ N existiert so, dass P k strikt positive Einträge hat (erinnere,
dass eine irreduzibel Markovkette heisst aperiodisch, falls ein und deswegen alle seiner
Zustände aperiodisch sind).
Lemma 7.10. Sei P die Übergangsmatrix einer irreduziblen und aperiodischen Markovketten mit stationären Übergangswahrscheinlichkeiten auf einem endlichen Zustandsraum S. Dann existiert k ∈ N so, dass (P k )ij > 0 für alle i, j ∈ S.
100
Beweis. Sei j ∈ S fest. Aus Lemma 7.8 finden wir Mj ∈ N, so, dass (P m )jj > 0 für alle
m > Mj . Da S endlich ist, finden wir auch M ∈ N so, dass (P m )jj > 0 für alle m > M
und alle j ∈ S. Aus der Irreduzibilität der Markovkette wissen wir auch, dass für alle
(i, j) ∈ S × S ein nij ∈ N existiert, mit (P nij )ij > 0. Für m ≥ M gilt aber (P m )jj > 0.
Das impliziert, dass
(P nij +m )ij > 0
für alle m > M . Wählen wir k ≥ maxij nij + M , so muss (P k )ij > 0 für alle i, j ∈ S.
Umgekehrt es gilt: Sei P die Übergangsmatrix einer Markovkette mit stationäre
Übergangswahrscheinlichkeiten. Existiert ein k ∈ N so, dass P k strikt positive Einträge
hat, dann ist die Markovkette irreduzibel und aperiodisch. Die Irreduzibilität folgt durch
Lemma 7.5. Um die Aperiodizität zu zeigen, bemerken wir, dass, wenn P k strikt positiven Einträge hat, dann hat auch P k+1 = P k ·P strikt positiven Einträge, und iterativ P n
hat strikt positiven Einträge für alle n ≥ k. Das bedeutet, insbesondere, dass (P n )ii > 0
für alle n ≥ k. Das bedeutet, dass der grösste gemeinsamer Teiler aller n ∈ N mit
(P n )ii > 0 ist d = 1.
Zusammenfassend, wir haben gezeigt, dass eine Markovkette mit Übergangsmatrix
P genau dann irreduzibel und aperiodisch ist, falls ein k ∈ N existiert so, dass P k strikt
positiven Einträgen hat.
Mit Hilfe dieser Charakterizierung zeigen wir im nächsten Satz, dass jede irreduzibel und aperiodische Markovkette genau eine invariante Verteilung besitzt. Eigentlich
zeigen wir noch mehr, nämlich, dass für eine beliebige Anfangsverteilung π0 , die evolvierte Verteilung πn = π0 P n , für n → ∞, gegen die eindeutige invariante Verteilung
µ konvergiert. Markovkette mit dieser Eigenscahft nennt man ergodisch. Der nächsten
Satz bedeutet also, dass jede irreduzibel und aperiodische Markovkette mit endlichen
Zustandsraum ergodisch ist.
Satz 7.11. Sei P die Übergangsmatrix einer irreduzibel und aperiodische Markovkette
mit endlichem Zustandsraum S und mit stationäre Übergangswahrscheinlichkeiten (wir
bezeichnen d = |S|). Dann es existiert eine eideutige invariante Verteilung µ mit µP =
µ. Ferner, es gilt
lim P n = Π0
n→∞
wobei Π0 die rank 1 Matrix

µ1 µ 2
 µ1 µ 2
Π0 = 

...
µ1 µ 2
...
...
...
...

µd
µd 


µd
(65)
ist. Das impliziert, dass für alle Anfangsverteilungen π0 : S → [0; 1] es gilt πn = π0 P n →
µ für n → ∞.
Für den Beweis des Satzes brauchen wir das folgende Lemma.
Lemma 7.12. Sei B eine d × d Matrix und r = max{|λ| : λ ist Eigenwert von B}.
Dann gilt
r = lim sup kB n k1/n
n→∞
101
Beweis. Es existiert eine invertierbare Matrix
diagonal ist, mit Blöcken der Form

λi 1
0
 0 λi 1


... ...
0 ... 0
U so, dass U −1 BU = J, wobei J block...
...
...
0

0
0 


λi
wo λi ein Eigenwert von B ist. Insbesondere J = D+N , wobei D diagonal ist, [D, N ] = 0
und es existiert d ∈ N so, dass N d = 0. Für n ≥ d gilt also
d−1 X
n
J =
Dn−k N k
k
n
k=0
und deswegen
kJ n k ≤
d−1
X
nk kDkn−k kN kk ≤ rn
k=0
d−1
X
nk r−k kN kk
k=0
Wir erhalten
n 1/n
lim sup kJ k
= r lim
n→∞
n→∞
Da U und
U −1
d−1
X
!1/n
r
−k
k k
kN k n
=r
k=0
beschränkt sind, erhalten wir auch, dass
lim sup kB n k1/n ≤ lim kJ n k1/n kU k1/n kU −1 k1/n ≤ r
n→∞
n→∞
Anderseits, nach Definition von r, es existiert ein Eigenwert λ von B mit |λ| = r. Dann
existiert ein Vektor v mit Bv = λv und also B n v = λn v. Deswegen muss kB n k ≥ rn ,
und
lim sup kB n k1/n ≥ r
n→∞
Das zeigt, dass
lim sup kB n k1/n = r
n→∞
wie behauptet.
Wir sind nun bereit, Satz 7.11 zu zeigen.
Beweis von Satz 7.11. Nach Lemma 7.10, es existiert k ∈ N so, dass P k strikt positiven
Einträge hat. Aus Theorem 7.2, es existiert ein eindeutiges Links-Eigenvektor µ von P k
mit strikt positiven Einträge. Der entsprechende Eigenwert muss 1 sein, einfach weil
µP k = λµ impliziert, dass
λ
d
X
i=1
µi =
d X
d
X
µj (P k )ji =
i=1 j=1
d
X
j=1
µj
d
X
i=1
(P k )ji =
d
X
µj
j=1
und also, dass λ = 1 (hier haben wir die Tatsache benutzt, dass P k eine stochastische
Matrix ist, und also die Summe der Einträge auf jeder Reihe 1 ist). Es folgt auch aus
102
dem Theorem von Perron-Frobenius, dass 1 ein einfaches Eigenwert ist, und, dass |λ| < 1
für alle andere Eigenwerte von P k .
Wir wissen schon, dass P den Eigenwert 1 besitzt. Sei ν den entsprechenden Eigenvektor. Dann gilt νP = ν und deswegen auch νP k = ν. Das impliziert, dass ν proportional zu µ sein muss. Sei nun λ ein Eigenwert von P , mit Eigenvektor v nicht proportional
zu µ. Dann ist λk ein Eigenwert von P k mit Eigenvektor v, nicht proportional zu µ.
Da 1 ein einfacher Eigenwert von P k ist, muss λk 6= 1 gelten, und also |λk | = |λ|k < 1.
Das zeigt, dass |λ| < 1. Damit haben wir gezeigt, dass 1 ein einfacher Eigenwert von P
ist, mit strikt positiven Eigenvektor µ, und, dass alle andere Eigenwerten von P sind in
Betrag strikt kleiner als 1.
Sei nun Π0 die in (65) definierte Rank-1 Matrik. Π0 ist eine Projektion auf µ und
deswegen Π20 = Π0 . Da µ ein Eigenvektor von P mit Eigenwert 1 ist, finden wir ferner
Π0 P = Π0 = P Π0
Also, mit Q = P − Π0 haben wir (weil Π20 = Π0 ), dass
Π0 Q = QΠ0 = 0
Wir behaupten nun, dass alle Eigenwerten von Q in Betrag strikt kleiner als 1 sind. Gilt
nämlich vQ = λv, dann muss
λvΠ0 = vQΠ0 = 0
Ist λ 6= 0, dann muss vΠ0 = 0 und also vP = v(Π0 + Q) = vQ = λv. D.h. λ ist auch
Eigenwert von P . Da aber vΠ0 = 0, kann v nicht proportional zu µ sein; wir schliessen,
dass |λ| < 1. Aus Lemma 7.12 folgt, dass
lim sup kQn k1/n < 1
n→∞
und deswegen, dass kQn k → 0 für n → ∞. Da aber
P n = (Π0 + Q)n = Πn0 + Qn = Π0 + Qn
erhalten wir, dass kP n − Π0 k = kQn k → 0, für N → ∞. Insbesondere, für eine beliebige
Anfangsverteilung π0 ,
lim π0 P n = π0 Π0 = µ
n→∞
Bemerkung: aus dem Beweis folgt auch eine Abschätzung für die Konvergenzgeschwindigkeit
kπ0 P n − µk = kπ0 Qn k ≤ C|λ1 |n
wobei λ1 der Eigenwert von Q ist, mit dem grössten Betrag (d.h. λ1 ist der Eigenwert
von P mit dem zweit-grössten Betrag, nach dem Eigenwert 1).
Es ist einfach Beispiele von nicht-aperiodische Markovkette zu finden, die nicht ergodisch sind. Sei nämlich
0 1
P =
1 0
103
Dann hat die entsprechende Markovkette die eindeutige invariante Verteilung µ =
(1/2, 1/2). Die Kette ist aber nicht ergodisch, weil
0 1
n
P =
1 0
für alle n ungerade, und
n
P =
1 0
0 1
für alle n gerade (hier sieht man, dass die Periode von beiden Zustände 2 ist). Das zeigt,
dass P n für n → ∞ nicht konvergieren kann (und also, dass die Kette nicht ergodisch
ist).
Das letzte Beispiel zeigt, dass wir, ohne Aperiodizität, keine Ergodizität erwartet
können. Für die Eindeutigkeit der invarianten Verteilung braucht man dagegen keine
Aperiodizität, Irreduzibilität ist genug.
Satz 7.13. Sei P die Übergangsmatrix einer irreduzibel Markovkette mit endlichen Zustandsraum. Dann besitzt P genau eine invariante Verteilung µ mit strikt positiven Komponenten.
Beweis. Sei ε > 0. Wir definieren Pε = ε1 + (1 − ε)P . Dann gilt:
• Pε ist eine stochastische Matrix, d.h. die Einträge sind alle nicht-negativ und die
Summe der Einträge auf jeder Reihe ist 1.
• Pε erzeugt eine irreduzibel und aperiodische Markovkette. In der Tat,
Pεn
n X
n n−`
=
ε (1 − ε)` P `
`
(66)
`=0
Nun, da P irreduzibel ist, finden wir für alle i, j ∈ S ein kij ∈ N mit (P kij )ij > 0.
Sei also k = maxij kij . Aus (66) finden wir, dass Pεn hat strikt positiven Einträge,
für alle n ≥ k.
• P und Pε haben die selbe Links-Eigenvektoren. In der Tat, νP = λν impliziert,
dass νPε = εν + (1 − ε)λν = (ε + (1 − ε)λ)ν, d.h. dass ν auch Eigenvektor von Pε
ist. Analog zeigt, man, dass jeder Eigenvektor von Pε auch Eigenvektor von P ist.
• µ ist eine invariante Verteilung von P genau dann wenn µ ist eine invariante
Verteilung von Pε . In der Tat, µP = µ genau dann, wenn µPε = µ.
Da Pε irreduzibel und aperiodisch ist, es folgt aus Satz 7.11, dass Pε eine eindeutige
invariante Verteilung µ besitzt. Dann ist µ auch eine invariante Verteilung von P . Ferner,
es gibt keine andere invariante Verteilung (sonst hätte auch Pε eine zweite invariante
Verteilung, und wir wissen das kann nicht sein).
Man kann sich noch fragen, was passiert im Fall, dass eine Markovkette nicht irreduzibel ist. Man findet, dass, auch für nicht irreduzibel Ketten, die invariante Verteilungen
klassifiziert werden können. Das wird im nächsten Satz besser erklärt.
104
Sei S der endliche Zustandsraum. Ist die Markovkette nicht irreduzibel, dann existieren Zustände i, j ∈ S die nicht kommunizieren. Mit anderen Wörter, es existieren
mehrere Äquivalenzklassen. Wir unterscheiden in diesem Fall zwei Gruppe von Äquivalenzklassen. Äquivalenzklassen aus denen man in eine andere Klasse austreten kann
heissen unwesentliche Klassen. Äquivalenzklassen aus denen man nicht mehr austreten
kann (wo man aber möglicherweise aus einer anderen Klasse eintreten kann) heissen
wesentliche Klasse.
Satz 7.14. Sei X eine Markovkette mit endlichen Zustandsraum S. Sei S die Vereinigung der wesentlichen Klassen C1 , . . . , C` und der unwesentlichen Klassen D1 , . . . , Dk .
Dann gibt es ` invariante Verteilungen µ1 , . . . , µ` mit Träger auf den wesentlichen Klasse
C1 , . . . , C`−1 , C` . Ferner, jede invariante Verteilung µ auf S hat die Form
µ=
`
X
αi µi
(67)
i=1
mit αi ≥ 0 so, dass
Verteilung).
P`
i=1 αi
= 1 (offenbar ist jede µ der Form (67) eine invariante
Beweis. Sei C eine wesentliche Klasse. Die Einschränkung von P auf C definiert die
Übergangsmatrix einer irreduzibel Markovkette mit Zustandsraum C (aus Definition von
wesentlichen Klassen). Satz 7.13 impliziert, dass es eine eindeutige invariante Verteilung
vC auf C existiert. Der Vektor µC (j) = v(j), falls j ∈ C und µC (j) = 0 für j 6∈ C
definiert dann eine invariante Verteilung auf S. Das gilt für alle wesentliche Klassen C
in S.
P Sei nun µ eine beliebige invariante Verteilung auf S. Wir behaupten, dass µ(D) =
j∈D µ(j) = 0 für alle unwesentliche Klassen D. Um diese Behauptung zu zeigen,
bemerken wir zunächst, dass es mindestens eine unwesentliche Klasse D1 existiert, die
man aus keiner andere Klasse eintreten kann (sonst müssten zwei unwesentlichen Klassen
e existieren, so, dass man von D nach D
e und auch von D
e nach D springen kann;
D und D
e kommunizieren,
das würde aber bedeuten, dass Elementen in D mit Elementen in D
e
und also, dass D = D). Wir zeigen, dass µ(D1 ) = 0. In der Tat, da µ invariant ist, muss
(µP )(D) = µ(D). Hier ist
X
XX
XX
(µP )(D) =
(µP )(j) =
µ(i)pij =
µ(i)pij
j∈D
j∈D i∈S
j∈D i∈D
weil, nach Annahme, pij = 0 falls j ∈ D und i 6∈ D. Deswegen
X
X
X
X
X
(µP )(D) =
µ(i)
pij =
µ(i) −
µ(i)
pij ≤ µ(D)
i∈D
j∈D
i∈D
i∈D
j6∈D
Gleichheit kann hier nur erfüllt sein, falls µ(i) = 0 für alle i ∈ D gilt, für die ein j 6∈ D
existiert, mit pij > 0. Da D eine unwesentliche Klasse ist, es existiert mindestens ein
i0 ∈ D mit dieser Eigenschaft. Dann muss µ(i0 ) = 0 gelten. Alle andere j ∈ D müssen
nun mit i0 kommunizieren. D.h. für alle j ∈ D finden wir k ∈ N mit (P k )ji0 > 0. Aus
µ = P k µ folgt
X
0 = µ(i0 ) =
µ(`)(P k )`i0 ≥ µ(j)(P k )ji0
`∈S
105
und deswegen muss µ(j) = 0 für alle j ∈ D. Damit haben wir gezeigt, dass µ(D) = 0
für eine unwesentliche Klasse D, in die man nicht von einer andere Klasse eintreten
kann. Wir können also die Markovkette auf den verbliebenden Zustandsraum S\D einschränken (die Kette wird S\D nie verlassen, weil wir angenommen haben, sie kann
nicht in D von einer andere Klasse eintreten). Wenn die reduzierte Markovkette noch
e geben, in
unwesentliche Klassen besitzt, muss mindestens eine unwesentliche Klasse D
die man nicht mehr von den anderen verbliebenden Klassen eintreten kann. Deswegen
e = 0. Durch iteration
können wir das Argument wiederholen, um zu zeigen, dass µ(D)
folgt, dass µ auf alle unwesentliche Klassen verschwindet. Nach Elimination von alle
unwesentliche Klassen, die Gleichung µ = P µ reduziert zu einem entkoppelten System
für die wesentlichen Klassen (es gibt keine Kopplung zwischen den wesentliche Systeme,
weil die Kette kann eine wesentliche Klasse nicht verlassen). In jeder wesentliche Klasse
Ci existiert aber eine eindeutige invariante Verteilung µi . Also, die Einschränkung von
µ auf der wesentliche Klasse Ci muss µ(j) = αi µi (j) erfüllen, für alle j ∈ Ci und für
eine geeignete Konstante αi ≥ 0. Damit haben wir gezeigt, dass
X
µ=
αi µi
i=1
Beispiele:
• Irrfahrt mit absorbierenden Rand. Wir betrachten die Markovkette mit Zustandsraum {−L, −L + 1, . . . , L − 1, L} und mit Übergangswahrscheinlichkeiten (60). Es
gibt in diesem Fall drei Äquivalnezklassen, {−L}, {L} und {−L + 1, . . . , L − 1}.
Die zwei Klasse C1 = {−L} und C2 = {L} sind wesentlich und die Klasse
D = {−L + 1, . . . , L − 1} ist unwesentlich. Die wesentliche Klasse C1 hat die
invariante Verteilung (1, 0, . . . , 0). Die wesentliche Klasse C2 hat die invariante
Verteilung (0, . . . , 0, 1). Die allgemeinste invariante Verteilung hat also die Form
µ = (α1 , 0, . . . , 0, α2 )
für α1 , α2 ≥ 0 mit α1 + α2 = 1.
• Einfaches Wettermodell: wie in (62) betrachten wir eine Markovkette mit Zustandsraum {0, 1} (0 bedeutet Regen, 1 Sonne) und mit Übergangsmatrix
1 − p0,1 p0,1
P =
p1,0
1 − p1,0
Die Kette ist irreduzible, falls p0,1 , p1,0 > 0. In diesem Fall existiert eine eindeutige
invariante Verteilung µ = (µ1 , µ2 ). Die Gleichung µ = µP führt uns zum System
µ1 (1 − p0,1 ) + µ2 p1,0 = µ1 µ1 p0,1 + µ2 (1 − p1,0 ) = µ2
und damit zu µ1 p0,1 = µ2 p1,0 . Nach geeignete Normierung finden wir die eindeutige
invariante Verteilung
p1,0
p0,1
µ=(
,
)
p1,0 + p0,1 p1,0 + p0,1
106
Ist nun p0,1 = 0 und p1,0 > 0, dann gibt es zwei Klassen, C = {0} ist eine
wesentliche und D = {1} eine unwesentliche Klasse. Auch in diesem Fall gibt es
eine eindeutige invariante Verteilung, nämlich µ = (1, 0) (das ist die invariante
Verteilung von der wesentliche Klasse C. Analog, falls p1,0 > 0 und p0,1 = 0,
dann sind C = {1} ein wesentliche und D = {0} eine unwesentliche Klasse. In
diesem Fall ist die eindeutige invariante Verteilung µ = (0, 1). Schlussendlich, falls
p0,1 = p1,0 = 0 dann gibt es zwei wesentliche Klassen C1 = {0} und C2 = {1}.
Jede Verteilung
µ = alpha1 (1, 0) + α2 (0, 1) = (α1 , α2 )
mit α1 , α2 ≥ 0 und α1 + α2 = 1 ist in diesem Fall eine invariante Verteilung.
7.3
Stoppzeiten und der starke Ergodensatz
Wir betrachten wieder eine Markovkette mit endlichem Zustandsraum S, d.h. eine
messbare Abbildung X : Ω → S N definiert auf einem Wahrscheinlichkeitsraum (Ω, A, P).
Das Wahrscheinlichkeitsmass P auf Ω induziert ein Wahrscheinlichkeitsmass PX auf
(S N , P (S)N ), gegeben aus PX (B) = P(X −1 (B)) für alle B ∈ P (S)N (P (S)N , das Produkt
von abzählbar viele Kopien der Potenzmenge P (S) von S, wird von allen Zylindermengen erzeugt).
Es lohnt sich manchmal (Ω, A, P) mit (S N , P (S)N , PX ) zu identifizieren (auf dem
neuen Wahrscheinlichkeitsraum ist X(x) = x, für alle Folgen x = (xn )n∈N mit xn ∈ S
für alle n ∈ N).
Wir bezeichnen mit Fn = σ(X0 , X1 , . . . , Xn ) die σ-Algebra auf Ω die aus den Zufallsvariablen X0 , . . . , Xn erzeugt wird. Mit anderen Wörter, Fn ist die kleinste σ-Algebra
auf Ω, die aus Mengen der Form (X0 , . . . , Xn )−1 (B), mit B ⊂ S n besteht. Es ist einfach
zu sehen, dass Fn aus Mengen der Form X0−1 (B1 ) ∩ · · · ∩ Xn−1 (Bn ) mit B1 , . . . , Bn ⊂ S
erzeugt wird.
Identifizieren wir (Ω, A, P) mit (S N , P(S)N , PX ), dann ist Fn eine σ-Algebra auf S N .
Fn ist nämlich die σ-Algebra auf S N die aus Mengen der Form B1 ×· · ·×Bn ×S ×S ×. . .
für B1 , . . . , Bn ⊂ S beliebig erzeugt wird.
Definition 7.15. Eine Abbildung T : Ω → N heisst eine Stoppzeit, wenn für alle n ∈ N
das Ereignis {x ∈ Ω : T (x) = n} ∈ Fn . Mit andere Wörter, eine N-wertige Zufallsvariable T ist eine Stoppzeit für die Markovkette X falls, für alle n ∈ N, die Kenntniss der
Vergangenheit von Xn uns bestimmen lässt, ob T = n erfüllt ist.
Das standard Beispiel von Stoppzeiten sind Eintrittszeiten. Sei nämlich D ⊂ S. Dann
ist
τD = inf{n > 0 : Xn ∈ D}
(68)
eine Stoppzeit, weil
{x ∈ Ω : τD (x) = n} =
\
Xk−1 (Dc ) ∩ Xn−1 (D)
1≤k<n
offenbar in Fn ist, für alle n ∈ N (man könnte auch τD anders definieren, mit dem
Infimum über alle n ≥ 0; für uns wird aber später die Definition (68) nützlicher sein).
107
Bemerke, dass im Gegensatz zu ersten Eintrittszeiten sind letzten Austrittzeiten, definiert durch
σD = sup{n ≥ 0 : Xn ∈ D},
keine Stoppzeiten.
Wir betrachten eine Markovkette mit endlichem Zustasndsraum S, definiert auf dem
Wahrscheinlichkeitsraum (Ω, A, P). Die Kette hat dann Werte auf S N , versehen mit der
σ-Algebra P (S)N . Das Mass P induziert ein Mass PX auf (S N , P (S)N ), definiert durch
PX (B) = P(X = B) = P(X −1 (B))
für alle B ⊂ P (S)N . Für ein beliebiges x ∈ S können wir nun ein neues Wahrscheinlichkeitsmass auf P (S)N definieren, indem wir die Bedingung X0 = x annehmen. Wir
definieren also Px : P (S)N → [0; 1] durch
Px (B) = P(X = B|X0 = x) = P(X −1 (B)|X0−1 (x)) =
P(X −1 (B) ∩ X0−1 (x))
P(X0−1 (x))
Wir bezeichnen mit Ex den Erwartungswert bezüglich Px . Mit anderen Wörter, für eine
Funktion Y : S N → R, messbar bezüglich P (S)N und integrierbar bezüglich Px , haben
wir
E1(X0 = x)Y
Ex Y = E [Y |X0 = x] =
P(X0 = x)
Bedingte Erwartungen von Stoppzeiten können benutzt werden um invariante Verteilungen zu bestimmen.
Proposition 7.16. Sei X eine irreduzible Markovkette mit endlichem Zustandsraum S.
Sei µ die eindeutige invariante Verteilung von X. Für ` ∈ S, sei τ` = inf{n > 0 : Xn =
`} die erste positive Eintrittszeit im Zustand `. Dann gilt, für alle j, ` ∈ S,
P`
1(Xt = j)]
E` [ τt=1
µ(j) =
E` τ`
Bemerkung: Der Nenner E` τ` ist der Erwartungswert für die erste Rückkehrzeit im
Zustand
P ` `, unter der Annahme, dass die Kette im Zustand ` beginnt. Der Numerator
1(Xt = j) ist dagegen der Erwartungswert von der Anzahl Besuchen im ZuE` τt=1
stand j vor dem ersten Rückkehrzeit im Zustand `, unter Annahme, dass die Kette im
Zustand ` beginnt.
Beweis. Wir beginnen zu zeigen, dass E` τ` < ∞. Wir nehmen zunächst an, dass die
Kette aperiodisch ist. Dann existiert k ∈ N mit (P k )ij > 0 für alle i, j ∈ S. Sei c =
108
mini,j∈S (P k )ij > 0. Dann gilt
P` (τ` > t) = P(τ` > t|X0 = `)
≤ P(Xkn 6= ` für alle n ∈ N\{0} mit kn ≤ t|X0 = `)


Y
=
P(Xkn 6= `|Xk(n−1) 6= `) · P(Xk 6= `|X0 = `)
n≥2 :kn≤t

=
Y
1 − P(Xkn = `|Xk(n−1)

(69)
6= `)  · (1 − P(Xk = `|X0 = `))
n≥2:kn≤t
≤
Y
(1 − min(P k )i` )
i∈S
n:nk≤t
≤ (1 − c)t/k
Hier haben wir benutzt, dass
P(Xkn = `|Xk(n−1) 6= `) =
P(Xkn = ` ∩ Xk(n−1) 6= `) X P(Xkn = ` ∩ Xk(n−1) = j)
=
P(Xk(n−1) 6= `
P(Xk(n−1) 6= `
j6=`
=
X
P(Xkn = `|Xk(n−1) = j)
j6=`
P(Xk(n−1) = j)
≥ min(P k )j`
j∈S
P(Xk(n−1) 6= `
Aus (69) finden wir
E` τ` =
X
P` (τ` > t) ≤
t≥0
X
(1 − c)t/k < ∞
t≥0
Sei nun die Kette irreduzible aber nicht notwendigerweise aperiodisch. Dann existiert für
alle j ∈ S ein kj ∈ N mit (P kj )j` > 0. Sei c = minj∈S (P kj )j` > 0. Mit k ∗ = maxj∈S kj
gilt dann offenbar
Pj (Xt 6= ` für alle t ≤ k ∗ ) ≤ Pj (Xkj 6= `) = 1 − P(Xkj = `|X0 = j) = 1 − (P kj )j` ≤ 1 − c
für alle j ∈ S. Sei t = k ∗ n für ein n ∈ N. Dann ist
P` (τ` > t) =
n
Y
P(Xm 6= ` für alle k ∗ (j − 1) < m ≤ k ∗ j|Xk∗ (j−1) 6= `)
j=2
× P(Xm 6= ` für alle 0 < m ≤ k ∗ |X0 = `)
≤ (1 − c)n = (1 − c)t/k
∗
Das zeigt, dass auch in diesem Fall, E` τ` < ∞. Man bemerke, dass das Argument auch
die Endlichkeit von Ej τ` zeigt, für alle j ∈ S. Insbesondere, wir erhalten, dass Eτ` < ∞
und deswegen, dass τ` < ∞ fast sicher (diese Tatsache wird in diesem Beweis nicht
explizit benutzt; sie wird aber in Satz 7.19 eine wichtige Rolle spielen).
Sei nun
τ
X̀
ν` (j) = E`
1(Xt = j)
t=1
109
der Erwartungswert von der Anzahl Besuchen im Punkt j ∈ S bis zum ersten Rückkehr
zu `, unter der Annahme, dass die Kette im Punkt ` anfängt. Wir möchten zeigen, dass
ν` die Gleichung ν` = ν` P erfüllt. Wir schreiben
"∞
#
X
ν` (j) = E`
1(Xt = j)1(t ≤ τ` )
t=1
=
∞
X
P` (Xt = j, t ≤ τ` )
t=1
∞
XX
=
P` (Xt−1 = m, Xt = j, t ≤ τ` )
m∈S t=1
Das Ereignis {t ≤ τ` } = {τ` ≤ t − 1}c ∈ Ft−1 . Deswegen ist auch {Xt−1 = m} ∩ {t ≤
τ` } ∈ Ft−1 . Aus der Markov-Eigenschaft
P` (Xt−1 = m, Xt = j, t ≤ τ` ) = P` (Xt = j|Xt−1 = m, t ≤ τ` )P` (Xt−1 = m, t ≤ τ` )
= P(Xt = j|Xt−1 = m)P(Xt−1 = m, t ≤ τ` )
= pmj P(Xt−1 = m, t ≤ τ` )
Also
"
ν` (j) =
X
m∈S
E`
∞
X
"
#
1(Xt−1 = m)1(t ≤ τ` ) pmj =
t=1
X
E`
m∈S
Wir haben
τ
X̀
1(Xt−1 = m) =
t=1
τ
X̀
τ
X̀
#
1(Xt−1 = m) pmj
t=1
1(Xt = m)
t=1
weil, unter der Bedingung, dass X0 = `, X0 = Xτ` . Wir erhalten
"τ
#
X
X̀
X
ν` (j) =
E`
1(Xt = m) pmj =
ν` (m)pmj
m∈S
t=1
m∈S
Das zeigt, dass ν` = ν` P . Mit
µ(j) =
ν` (j)
E` τ`
gilt dann auch µ = µP . Da aber
"τ
#
τ X
X
X
X̀
X̀
ν` (j) =
E`
1(Xt = j) = E`
1(Xt = j) = E` τ`
j∈S
j∈S
t=1
t=1 j∈S
ist µ eine invariante Verteilung, wie behauptet.
Wir erhalten sofort das folgende Korollar.
110
Korollar 7.17. Sei X eine irreduzible Markovkette mit endlichem Zustandsraum. Dann
ist die eindeutige invariante Verteilung durch
1
µ(j) =
Ej τj
gegeben.
Beweis. Es gilt
ν(j) =
E`
Pτ`
t=1 1(Xt
= j)
E` τ`
für alle ` ∈ S. Mit der Wahl ` = j haben wir
Ej
τj
X
1(Xt = j) = 1
t=1
(der Summand ist 1 für t = τj und Null für alle t < τj ). Wir schliessen, dass
ν(j) =
1
Ej νj
Eine wichtige Eigenschaft von Stoppzeiten ist die starke Markov-Eigenschaft. Sie besagt, dass Erwartungswerten von Produkten an Stoppzeiten faktorisiert werden können.
Sei T eine Stoppzeit für eine Markovkette X mit endlichem Zustandsraum S. Wir
definieren die σ-Algebra FT ⊂ A auf Ω, als die Menge alle Ereignisse die nur von Xn
abhängen, für alle n ≤ T . Wir nennen FT die σ-Algebra der τ -Vergangenheit. Formal
ist
FT = {A ∈ A : A ∩ {x : T (x) ≤ n} ∈ Fn für alle n ∈ N}
Beispiel: Sei X = (Xn )n∈N eine Markovkette mit endlichem Zustandsraum S =
{x1 < x2 < · · · < XN } mit xj ∈ R. Sei τ = inf{n > 0 : Xn ≥ x10 } die erste Eintrittszeit in der Menge {x10 , x11 , . . . , xN } ⊂ S. Wir betrachten nun die Ereignisse A = {supn∈N Xn ≥ x6 } und B = {supn∈N Xn ≥ x12 }. Wir bemerken, dass
{x ∈ Ω : τ (x) ≤ n} ⊂ A und also A ∩ {τ ≤ n} = {τ ≤ n} ∈ Fn . Deswegen ist
A ∈ Fτ . Anderseits, die Tatsache, dass τ ≤ n impliziert nicht, dass B erfüllt ist, und
also B ∩ {τ ≤ n} ist nicht in Fn enthalten. Das bedeutet, dass B 6∈ Fτ nicht in der
τ -Vergangenheit gehört.
Für eine allgemeine Stoppzeit T , ein Beispiel einer Zufallsvariable die bezüglich FT
messbar ist, ist die Funktion XT , definiert durch XT (x) = XT (x) (x). In der Tat, für
n ∈ N und D ⊂ S, (XT )−1 (D) = {x ∈ Ω : XT (x) (x) ∈ D}. Damit
(XT )−1 (D) ∩ {T ≤ n} = {x ∈ Ω : XT (x) (x) ∈ D} ∩ {x ∈ Ω : T (x) ≤ n}
n
[
=
{x ∈ Ω : XT (x) (x) ∈ D} ∩ {x ∈ Ω : T (x) = j}
=
=
j=0
n
[
{x ∈ Ω : Xj (x) ∈ D} ∩ {x ∈ Ω : T (x) = j}
j=0
n
[
Xj−1 (D) ∩ {x ∈ Ω : T (x) = j} ∈ Fn
j=0
111
Ähnlichkerweise sind auch die Variablen XT −1 oder XT /2 bezüglich FT messbar.
Es lohnt sich hier den abstrakten Raum (Ω, A, P) mit (S N , P (S)N , PX ) zu identifizieren. Dann ist FT ⊂ P (S)N .
Sei nun F : S N → R messbar bezüglich FT . Ferner, für eine Funktion G : S N → R
(messbar bezüglich P (S)N ), und m ∈ N, definieren wir die Zeitverschiebung
G ◦ θm (x1 , x2 , . . . ) = G(xm , xm+1 , . . . )
Insbesondere können wir die Zeitverschiebung G ◦ θT betrachten, unter der Annahme,
dass T < ∞. Die Variable G ◦ θT gehört dann zum Zukunft von der Stoppzeit T . Durch
Angabe von XT wird also G ◦ θT unabhängig von F (weil F gehört zur Vergangenheit
von T ). Dann faktorisiert den Erwartungswert vom Produkt F (G ◦ θT ). Das ist der
Inhalt vom nächsten wichtigen Satz.
Satz 7.18 (Starke Markov-Eigenschaft). Sei X eine stationäre Markovkette mit endlichem Zustandsraum. Sei T eine Stoppzeit und F, G reelwertige Funktionen auf S N ,
messbar bezüglich P (S)N . Wir nehmen an, F ist bezüglich FT messbar. Dann gilt, für
alle x ∈ S, dass
Ex [1T <∞ F (G ◦ θT )] = Ex [1T <∞ F EXT [G]]
Mit anderen Wörter
Ex 1T (X0 ,X1 ,... )<∞ F (X0 , X1 , . . . )G(XT , XT +1 , . . . )
= E 1T (X0 ,X1 ,... )<∞ F (X0 , X1 , . . . )E[G(X00 , X10 , . . . )|X00 = XT ]|X0 = x
wobei X 0 eine unabhängige Kopie von X ist.
Beweis. Es genugt offenbar den Fall F = 1A und G = 1B zu betrachten, für ein A ∈ FT
und ein B ∈ P (S)N beliebig. Dann gilt
Ex 1T (X)<∞ 1A (X)1B (θT (X))
1
=
P (X0 = x, T (X) < ∞, X ∈ A, θT (X) ∈ B)
P(X0 = x)
X
1
=
P (X0 = x, T (X) = n, X ∈ A, θn (X) ∈ B)
P(X0 = x)
n∈N
XX
1
=
P (X0 = x, T (X) = n, Xn = j, X ∈ A, θn (X) ∈ B)
P(X0 = x)
n∈N j∈S
=
1
XX
P(X0 = x)
n∈N j∈S
P (θn (X) ∈ B|X0 = x, T (X) = n, Xn = j, X ∈ A)
× P (X0 = x, T (X) = n, Xn = j, X ∈ A)
Nun, da die Ereignisse {X0 = x}, {Xn = j} und A ∩ {T = n} in der σ-Algebra Fn
enthalten sind (weil A ∈ FT ), die Markov-Eigenschaft impliziert, dass
P (θn (X) ∈ B|X0 = x, T (X) = n, Xn = j, X ∈ A)
= P ((Xn , Xn+1 , . . . ) ∈ B|X0 = x, T (X) = n, Xn = j, X ∈ A)
= P ((Xn , Xn+1 , . . . ) ∈ B|Xn = j)
= P ((X0 , X1 , . . . ) ∈ B|X0 = j) = Pj (X ∈ B) = Ej 1B (X)
112
Wir erhalten, dass
Ex 1T (X)<∞ 1A (X)1B (θT (X))
XX
1
Ej [1B (X)] P (X0 = x, T (X) = n, Xn = j, X ∈ A)
=
P(X0 = x)
n∈N j∈S
=
=
1
XX
P(X0 = x)
n∈N j∈S
1
XX
P(X0 = x)
n∈N j∈S
Ej [1B (X)] E [1(X0 = x)1(T (X) = n)1(Xn = j)1A (X)]
E [1(X0 = x)1(T (X) = n)1(Xn = j)1A (X) EXn [1B (X)]]
= Ex [1(T (X) < ∞)1A (X)EXT [1B (X)]]
Als Anwendung der starke Markoveigenschaft zeigen wir nun den starken Ergodensatz für irreduzible Markovketten.
Satz 7.19 (Starker Ergodensatz). Sei X eine irreduzible Markovkette mit endlichem
Zustandsraum S und invarianter Verteilung µ. Sei f : S → R eine beschränkte messbare
Funktion (da S endlich ist, sind diese Annahme immer erfüllt). Dann gilt
n
1X
lim
f (Xk ) =
n→∞ n
k=1
Z
f dµ
S
fast sicher.
Beweis. Es genügt offenbar den Satz für f = 1i , für i ∈ S zu beweisen. Für ein festgewähltes i ∈ S definieren wir die Folge von Stoppzeiten
t0 = inf{k ≥ 0 : Xk = i}
t` = inf{k ≥ t`−1 : Xk = i}
Mit f = 1i finden wir
n
X
k=1
f (Xk ) =
n
X
1(Xk = i) = max{` ∈ N : t` ≤ n} .
k=1
Sei nun σ` = t` − t`−1 . Für ` ≥ 1 sind die σ` unabhängige und identisch verteilte
Zufallsvariablen. Das folgt aus der starken Markoveigenschaft. Sei zB. ` < j. Wie im
Beweis von Proposition 7.16 kann man zeigen, dass die Stoppzeit t`−1 < ∞ fast sicher.
Anwendung vom starken Markoveigenschaft zur Stoppzeit t`−1 gibt also
Ex [g(σ` )h(σj )] = Ex [1(t`−1 < ∞)g(σ` )h(σj )] = Ex 1(t`−1 < ∞) EXt` −1 [g(τi )h(σj−`+1 )]
= Ex Ei [g(τi )h(σj−`+1 )] = Ei [g(τi )h(σj−`+1 )]
weil, nach Definition, Xt`−1 = i mit Wahrscheinlichkeit 1. Hier haben wir die Stoppzeit
τi = inf{n > 0 : Xn = i} eingeführt. Nun aber, da τi ∈ Ftj−` in der Vergangenheit von
113
der Stoppzeit tj−` ist, Anwendung von der starken Markov-Eigenschaft zur Zeit tj−`
gibt
Ei [g(τi )h(σj−`+1 )] = Ei [1(tj−`+1 < ∞)g(τi )h(σj−`+1 )]
i
h
= Ei 1(tj−`+1 < ∞)g(τi )EXtj−` h(τi0 )
wobei τi0 eine unabhängige Kopie von τi ist. Wir erhalten
Ex [g(σ` )h(σj )] = [Ei g(τi )] [Ei h(τi )]
für alle x ∈ S. Also
E [g(σ` )h(σj )] = [Ei g(τi )] [Ei h(τi )]
für alle ` 6= j. Insbesondere, mit g = 1 finden wir E h(σj ) = Ei h(τi ) für alle j ∈ N. Das
zeigt, dass die Variablen σj sind unabhängig und identisch verteilt. Die Verteilung jeder
σj ist also identisch zur Verteilung von τi , bezüglich dem Mass Pi (bedingt auf X0 = i).
Wir haben schon im Beweis von Proposition 7.16 gezeigt, dass Eσ` = Ei τi < ∞. Das
Gesetz der grossen Zahlen impliziert also, dass
n
1X
tn
= lim
σj = E σ1 = Ei τi
lim
n→∞ n
n→∞ n
j=1
e ⊂ Ω mit P(Ω)
e = 1 und so, dass, für alle x ∈ Ω,
e
fast sicher. D.h. es gibt eine Teilmenge Ω
lim
n→∞
tn (x)
= Ei τi
n
e und für ein beliebiges ε > 0 können wir also n0 ∈ N finden, mit
Für ein x ∈ Ω
t` (x)
≤ε
−
E
τ
i
i
`
für alle n > n0 . Das bedeutet, dass
`Ei τi − `ε ≤ t` (x) ≤ `Ei τi + `ε
für alle ` > n0 und deswegen, dass
n
n
≤ max{` ≥ n0 : t` (x) ≤ n} ≤
Ei τi + ε
Ei τi − ε
Wir bemerken, dass
max{` ≥ n0 : t` (x) ≤ n} = max{` ≥ 0 : t` (x) ≤ n}
e ⊂ Ω, mit
falls tn0 (x) ≤ n. Da tn0 < ∞ fast sicher, finden wir eine Teilmenge Ω0 ⊂ Ω
0
P(Ω ) = 1 so, dass
max{` ≥ n0 : t` (x) ≤ n} = max{` ≥ 0 : t` (x) ≤ n}
114
für alle x ∈ Ω0 . Das iimpliziert, dass
1
1
1
≤ max{` ≥ 0 : t` (x) ≤ n} ≤
Ei τi + ε
n
Ei τi − ε
für alle x ∈ Ω0 . Das gibt
1
1
1
≤ lim max{` ≥ 0 : t` (x) ≤ n} ≤
n→∞
Ei τi + ε
n
Ei τi − ε
für alle x ∈ Ω0 . Da ε > 0 beliebig ist, muss
n
1
1X
= lim
f (Xk (x))
Ei τi n→∞ n
k=1
für alle x ∈ Ω0 . Das zeigt die Behauptung.
Bemerkungen:
i) Der starken Ergodensatz ist die Verallgemeinerung des Gesetzes der grossen Zahlen
für Markovketten. Besteht die Markovkette (Xj )j∈N aus einer Folge unabhängige
und identisch verteilter Zufallsvariablen, mit Verteilung π, so ist π die eindeutige
invariante Verteilung, und die Aussage, dass
n
1X
f (Xk ) →
n
k=1
Z
f dµ = Ef (X1 )
S
fast sicher ist einfach die Aussage des starken Gesetz der grossen Zahlen.
ii) Im starken Ergodensatz wird, im Gegensatz zum Satz 7.11, keine Aperiodizität
von der Markovkette angenommen. Mit der Wahl f = 1i für ein i ∈ S, erhalten
wir also, dass
n
1X
(π0 P j )(i) = µ(i)
n
j=1
für jede irreduzible stationäre Markovkette, aperiodisch oder nicht. Wir haben
dagegen gesehen, dass ohne Aperiodizität die (stärkere) Konvergenz (π0 P n )(i) →
µ(i) nicht erwartet werden kann.
115