Skript zur Vorlesung Stochastik

Werbung
Skript zur Vorlesung Stochastik
Frühlingsemester 2015
Prof. Benjamin Schlein
Inhaltsverzeichnis
1 Einführung
1.1 Zufallsexperimente und Glückspiele . . . . . . . . . . . .
1.2 Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmasse
1.3 Kombinatorische Wahrscheinlichkeit . . . . . . . . . . .
1.4 Wahrscheinlichkeit und Frequenzen . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
5
7
9
2 Masstheoretische Zugang zu Wahrscheinlichkeitstheorie
2.1 Charakterisierung von Wahrscheinlichkeitsmasse . . . . . .
2.2 Wahrscheinlichkeitsdichte für absolut stetige Masse . . . . .
2.3 Wichtige Beispiele von Wahrscheinlichkeitsmasse . . . . . .
2.4 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Erwartungswert und Varianz einer Zufallvariable . . . . . .
2.6 Charakteristische Funktion . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
10
15
23
26
28
35
.
.
.
.
40
40
43
48
59
4 Konvergenzbegriffe
4.1 Konvergenz von Wahrscheinlichkeitsmasse . . . . . . . . . . . . . . . . .
4.2 Konvergenz von Zufallvariablen . . . . . . . . . . . . . . . . . . . . . . .
64
64
67
5 Das
5.1
5.2
5.3
73
73
73
78
3 Bedingte Wahrscheinlichkeit und Unabhängigkeit
3.1 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . .
3.2 Unabhängige Zufallvariablen . . . . . . . . . . . . . .
3.3 Unendliche Produkte und stochastische Prozesse . .
3.4 Asymptotische Ereignisse . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Gesetz der grossen Zahlen
Schwaches Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . .
Starkes Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . . .
Anwendungen in der Statistik . . . . . . . . . . . . . . . . . . . . . . . .
6 Der zentrale Grenzwertsatz
83
7 Markovketten
7.1 Markovketten mit stationären Übergangswahrscheinlichkeiten . . . . . .
7.2 Invariante Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Stoppzeiten und der starke Ergodensatz . . . . . . . . . . . . . . . . . .
1
89
92
94
107
1
Einführung
Der zentrale Begriff dieser Vorlesung ist der Zufall. Wir sprechen von Zufall, wenn wir
mit Ereignissen zu tun haben, die nicht mit Sicherheit vorhersehbar sind, und bei denen
mit verschiedenen Wahrscheinlichkeiten verschiedene Ergebnissen möglich sind.
Die Wahrscheinlichkeitstheorie, die Theorie des Zufalls, hat enorm viele Anwendungen im Alltag (das Lottospiel und andere Glückspiele, Wetterprognose,...), in der Wirtschaft (Versicherungen, Finanz,...) und auch in der Naturwissenschaft (Physik, Chemie,...). Zufall wird zur Beschreibung von Systemen benutzt, wo Informationen fehlen.
Literatur. Das Buch, das die Vorlesung am nächsten kommt ist
Hans-Otto Georgii. Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auslage, 2009, de Gruyter.
Ein Klassiker ist
William Feller. An Introduction to probability theory and its applications. Vol. I. Wiley.
Teile der Vorlesungen werde ich auch aus dem Skript von Prof. Anton Bovier, aus
der Universität Bonn, nehmen (zB. die Einführung von Wahrscheinlichkeiten als Bewertungen von Ereignissen in Zufallsexperimenten)
1.1
Zufallsexperimente und Glückspiele
Ein Zufallsexperiment ist ein Experiment, bei dem verschiedene Ergebnisse möglich sind.
Ein Paar einfache Bespiele von Zufallsexperimente sind das Münzwurf (zwei mögliche
Ergebnisse, “Kopf” und “Zahl”), das Würfeln (6 mögliche Ergebnisse, die wir mit den
Zahlen 1, 2, ,̇6 bezeichnen), die Roulette (37 mögliche Ergebnisse, die wir mit den Zahlen
0, 1, . . . , 36), das Lotto (von einer Urne mit 45 numerierte Kugel werden 6 herausgefisch; es gibt also 45!/(6!39!) = 8, 145, 060 mögliche Ergebnisse). Man nennt die Menge
der mögliche Ergebnisse der Ergebnisraum des Zufallsexperiment, und wir bezeichnen
ihn normalerweise mit Ω. Zum Beispiel, Ω = {“Kopf”, “Zahl”} beim Münzwurf, Ω =
{1, 2, 3, 4, 5, 6} beim Würfeln, Ω = {0, 1, . . . , 36} bei der Roulette, Ω = {(n1 , . . . , n6 ) :
1 ≤ n1 < n2 < · · · < n6 ≤ 45} bei dem Lotto.
In einem Glücksspiel wetten Spieler über das Ergebnis x ∈ Ω eines Zufallsexperiments. Spieler dürfen einen Einsatz g auf Teilmengen A ⊂ Ω setzen. Wenn das Ereigniss
x ∈ A eintritt, zahlt die Bank ein Vielfaches nA g vom Einsatz g an dem Spieler aus (der
reine Gewinn vom Spieler ist (nA − 1)g). Die Zahl nA wird von der Bank festgelegt; sie
gibt eine Abschätzung der Wahrscheinlichkeit, dass A eintritt. Nehmen wir als Beispiel
das Roulette-Spiel. Man darf zB. auf der Teilmenge A = {25} wetten, die aus einer einzigen Zahl besteht. Wenn die Kugel gerade auf der Zahl 25 fällt, also wenn das Ereignis
A eintritt, so bezahlt die Bank 36 Mal den Einsatz vom Spieler. Man kann auch auf der
Teilmenge B = {1, 3, 5, . . . , 35} (ungerade Zahlen) wetten. Tritt B ein, so bezahlt die
Bank 2 Mal den Einsatz. Also, nA = 36 und nB = 2. Es gibt keine eindeutige Wahl dieser
Bewertungen. Die Bank könnte zB. nA = 10 setzen; dann würden aber die Spieler das
Spiel nicht als fair empfinden, und sie würden deswegen weniger Geld spielen. Die Bank
könnte auch nA = 50 setzen; dann würde sie aber bald Geld verlieren. Es stellt sich die
2
Frage, welche Bedingungen müssen die Bewertungen nA erfüllen, damit die Bank kein
Geld verliert und, anderseits, damit das Spiel von den Spielern als fair empfunden wird.
Um diese Frage zu beantworten, betrachten wir ein allgemeines Glückspiel. Wir
bezeichnen mit Ω der Ergebnisraum eines Zufallsexperiments. Weiter, sei A ⊂ P (Ω) die
Menge aller Teilmengen von Ω über welche die Spieler wetten dürfen. Wir nehmen an,
A sei eine Algebra, d.h. i) Ω ∈ A, ii) Ist A ∈ A so ist auch Ac ∈ A, iii) Sind A, B ∈ A,
dann ist auch A ∪ B ∈ A. Die Bank muss Zahlen nA für alle A ∈ A festlegen.
Eine Bewertung {nA }A∈A heisst zulässig, falls es für die Spieler nicht möglich ist,
ein Gewinn zu erzielen, unabängig aus dem Ergebnis des Zufallsexperiments.
Die erste offenbare Bedingung, die erfüllt sein muss, damit eine Bewertung zulässig
sein kann, ist die Ungleichung nΩ ≤ 1 (weil das Ereignis x ∈ Ω immer mit Sicherheit
erfüllt ist). Ferner finden wir: jede zulässige Bewertung muss die Bedingung
1
1
+
≥1
nA nAc
(1)
für alle A ∈ A erfüllen. In der Tat, betrachten wir die folgende Situation. Ein Spieler
setzt den Einsatz gA auf dem Ereignis A ∈ A und den Einsatz gAc auf dem Ereignis
Ac . Wählt der Spieler gAc = nA gA /nAc , dann erzielt er den Gewinn nA gA = nAc gAc
unabhängig aus dem Resultat des Experiments. Damit die Bewertung zulässig ist, muss
also
nA gA ≤ gA + gAc = gA + nA gA /nAc
gelten. Das impliziert, dass nA ≤ 1 + nA /nAc und (1) folgt.
Die Bewertung {nA }A∈A heisst fair, wenn
1
1
+
=1
nA nAc
für alle A ∈ A (Banken benutzen tatsächlich keine faire Bewertungen, weil sonst würden
sie kein Geld verdienen). Es folgt sofort aus der Definition, dass für eine zulässige und
faire Bewertung nΩ = 1 und n∅ = ∞ gelten muss. Tatsächlich haben die Zulässigkeit
und das Fairness einer Bewertung mehrere Folgerungen, wie wir im nächsten Lemma
zeigen.
Lemma 1.1. Sei {nA }A∈A eine faire, zulässige Bewertung. Dann gilt, für alle A, B ∈ A,
1
nA∪B
=
1
1
1
+
−
nA nB
nA∩B
(2)
Beweis. Wir betrachten zunächst den Fall A ∩ B = ∅. Wir müssen dann zeigen, dass
−1
−1
n−1
A∪B = nA + nB
(weil nΩ = 1 und deswegen n∅ = ∞).
Betrachte die drei Ereignisse A, B und (A ∪ B)c . Nehmen wir an, dass ein Spieler
die Einsätze gA , gB und g(A∪B)c auf dieser drei Ereignisse so wählt, dass
nA gA = nB gB = n(A∪B)c g(A∪B)c
3
Nach dem Experiment bekommt der Spieler von der Bank die Summe nA gA , unabhängig
aus dem Ergebnis von Experiment. Damit die Bewertung zulässig ist, muss also sicher
nA gA ≤ gA + gB + g(A∪B)c = gA + gA
gelten. Das zeigt, dass
nA ≤ 1 +
nA
nA
+ gA
nB
n(A∪B)c
nA
nA
+
nB
n(A∪B)c
und damit, dass
1≤
1
1
1
1
1
1
+
+
+
+1−
=
nA nB
n(A∪B)c
nA nB
nA∪B
weil das Spiel fair ist. Also
−1
−1
n−1
A∪B ≤ nA + nB
(3)
Um die umgekehrte Ungleichung zu zeigen, betrachten wir ein Spieler, der die Einsätze
gAc , gB c und gA∪B auf den drei Ereignissen Ac , B c , A ∪ B so wählt, dass nAc gAc =
nB c gB c = nA∪B gA∪B . Der Gewinn vom Spieler beträgt dann 2nAc gAc , unabhängig vom
Ergebniss vom Experiment (unabhängig aus dem Ergebniss sind immer zwei der drei
Ereignisse erfüllt). Damit das Spiel zulässig ist, muss also
gAc + gB c + gA∪B ≥ 2nAc gAc
oder
1
1
1
+
+
≤2
c
c
nA
nB
nA∪B
−1
−1
−1
Aus dem Fairness vom Spiel wissen wir, dass n−1
Ac = 1 − nA und nB c = 1 − nB . Damit
finden wir
1
1
1
≤
+
nA∪B
nA nB
Aus (3) finden wir
1
nA∪B
=
1
1
+
nA nB
für alle A, B ∈ A, mit A ∩ B = ∅. Um (2) zu zeigen müssen wir nun einfach die Menge
A∪B als Vereining von den drei disjunkten Mengen A\B, B\A und A∩B darstellen.
Wir haben also gezeigt, dass die einfachen Bedingungen, dass die Bewertungen
zulässig und fair sein müssen, sofort die Eigenschaften
i)
ii)
nΩ = 1
−1
−1
n−1
A∪B = nA + nB
für alle A, B ∈ A, mit A ∩ B = ∅
(4)
implizieren. Anderseits, kann man sich leicht überzeugen, dass diese Bedingungen hinreichend sind, um sicher zu sein, dass es keine Wette existiert, bei der die Spieler ein
Gewinn sichern können. Um diese Tatsache zu zeigen, nehmen wir der Einfachkeits halber an, dass Ω eine endliche Menge ist und, dass {x} ∈ A, für alle x ∈ Ω (d.h. man
kann immer auf Ereignisse wetten, die aus einem einzigen Ergebnis bestehen). Nehmen
4
wir an, ein Spieler wettet den Einsatz gA auf dem Ergebnis A ∈ A, für alle A ∈ A (er
kann also gleichzeitig auf mehrere Ergebnisse wetten). Wir bezeichnen dann mit r(x)
den Gewinn oder den Verlust vom Spieler, wenn beim Experiment das Ergebnis x ∈ Ω
eintritt. Es gilt
X
X
r(x) =
gA nA 1A (x) −
gA
A∈A
A∈A
Aus der Bedingungen nΩ = 1 und (2) folgt, dass
X
n−1
x r(x) =
x∈Ω
X
n−1
x
x∈Ω
X
=
A∈A
gA
= 1. Daher
nA gA 1A (x) −
A∈A
"
X
−1
x∈Ω nx
P
X
gA
A∈A
#
X
n−1
x nA − 1 = 0
x∈A
aus (2). Das zeigt, dass wenn x ∈ Ω existiert, mit n−1
x r(x) > 0 (was ein Gewinn für den
Spieler garantiert), dann muss auch y ∈ Ω existieren, mit n−1
y r(y) < 0 (was ein Verlust
für den Spieler darstellt). Mit andere Wörter: es existiert keine Wette, die ein sicherer
Gewinn sichert.
Zusammenfassend: die Bedingungen (4) sind notwending und hinreichend, um zu
garantieren, dass eine Bewertung zulässig und fair ist.
Bemerke, aber, dass die Bedingungen (4) die Bewertung nicht eindeutig festlegen. Es
gibt immer noch sehr viele Freiheit in der Wahl der Zahlen nA , die die Bank benutzen
soll, um Verluste zu vermeiden (beim Münzwurf wäre zB. die Bewertung nKopf = 8 und
nZahl = 8/7 zulässig und fair; wenn aber die Spieler immer auf “Kopf” wetten würden,
würde die Bank bald viel Geld verlieren). Die Tatsache, dass die Bank eine zulässige und
faire Bewertung {nA }A∈A wählt bedeutet, dass die Bank die Wahrscheinlichkeit n−1
A
zum Ereigniss A zuordnet. In dieser Weise sind Wahrscheinlichkeiten, wie Bewertungen,
subjektiv; sie hängen von der Schätzung der Bank ab. Wir können also den Begriff
von zulässige und faire Bewertung um den Begriff von Wahrscheinlichkeit axiomatisch
einzuführen.
1.2
Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmasse
Wir betrachten allgemein ein Zufallsexperiment mit einem beliebigen Ergebnisraum Ω.
Im letzten Abschnitt haben wir angenommen, dass die Ereignisse über welche die Spieler wetten dürfen eine Algebra A von Teilmengen von Ω bilden. Für den Fall, dass der
Ergebnisraum Ω unendlich viele Elemente enthält, lohnt es sich zu verlangen, dass A
eine σ-Algebra über Ω ist (das wird uns erlauben, Wahrscheinlichkeiten von unendliche Vereinigungen von Mengen in A zu betrachten). Wir erinneren aus Analysis 3 die
Definition einer σ-Algebra.
Definition 1.2. Sei Ω eine Menge. Eine Menge A von Teilmengen von Ω heisst eine
σ-Algebra auf Ω falls die folgende Bedingungen erfüllt sind.
i) Ω ∈ A.
ii) Falls A ∈ A, so ist auch Ac ∈ A.
5
iii) Ist {An }n∈N eine Folge in A, so ist auch
[
An ∈ A
n∈N
Also, σ-Algebren enthalten Ω und ∅ und sie sind bezüglich der Operation A → Ac
und bezüglich abzählbare Vereinigungen abgeschlossen. Ist Ω eine endliche Menge, so
ist jede Algebra auf Ω auch eine σ-Algebra.
Ist nun Ω eine Menge, und A eine σ-Algebra auf Ω, so können wir den Begriff von
Wahrscheinlichkeitsmass wie folgt definieren.
Definition 1.3. Sei Ω eine Menge und A eine σ-Algebra auf Ω. Ein Wahrscheinlichkeitsmass auf (Ω, A) ist eine Funktion P : A → R mit den Eigenschaften
i) P(∅) = 0,
ii) P(Ω) = 1,
iii) σ-Additivität: sei {An }n∈N eine Folge in A von disjukten Teilmengen von Ω, d.h.
Ai ∩ Aj = ∅ für alle i 6= j. Dann gilt


[
X
P
Aj  =
P(Aj ) .
j∈N
j∈N
Bemerkungen:
• Das Tripel (Ω, A, P), mit Ω ein Ergebnismenge, A eine σ-Algebra auf Ω und P ein
Wahrscheinlichkeitsmass auf (Ω, A), wird als Wahrscheinlichkeitsraum bezeichnet.
• Ein Wahrscheinlichkeitsmass ist einfach ein Mass (im Sinne von der Masstheorie),
mit der zusätzliche Bedingung P(Ω) = 1.
• Statt Wahrscheinlichkeitsmass benutzt man oft auch die Bezeichnung Wahrscheinlichkietsverteilung oder einfach Verteilung.
• Die Bedingungen P(∅) = 0 und P(Ω) = 1 entsprechen genau die Bedingungen n∅ = ∞ und nΩ = 1 für zulässige faire Bewertungen. Die σ-Additivität
ist dagegen eine Verallgemeinerung zu abzählbare Vereinigung der Additivität
P(A ∪ B) = P(A) + P(B) für disjukte A, B ∈ A. Die Additivität eines Wahrscheinlichkeitsmasses entspricht die Bedingung ii) in (4) für zulässige und faire
Bewertungen. Mit andere Wörter, wir haben die wichtigste Eigenschaften von Bewertungen genommen (Zulässigkeit und Fairness), und wir haben sie als Axiome
für Wahrscheinlichkeitsmasse postuliert.
Die Def. 1.3 gibt eine axiomatische Definition von Wahrscheinlichkeitsmass (nach
Kolmogorov). Sie bestimmt aber nicht welches Wahrscheinlichkeitsmass fuer die Beschreibung eines Zufallsexperiments benutzt werden soll.
6
1.3
Kombinatorische Wahrscheinlichkeit
Wenn Ω eine endliche Menge ist, gibt es ein Wahrscheinlichkeitsmass, das eine besonder
wichtige Rolle spielt. Das ist die Gleichverteilung, wo jedem Element x ∈ Ω die selbe
Wahrscheinlichkeit P({x}) = 1/|Ω| zugeordnet wird. Beim Münzwurf, beim Würfeln,
bei der Roulette erwarten wir eine Gleichverteilung aus Symmetrie-Gründen (zB. beim
Würfeln gibt es keinen Grund, warum das Ergebnis 6 wahrscheinlicher als das Ergebnis
3 sein sollte, usw.). Unter Annahme einer Gleichverteilung gilt einfach P(A) = |A|/|Ω|.
Um Wahrscheinlichkeiten von Ereignissen zu bestimmen, müssen wir dann nur die Kardinalität von Teilmengen von Ω berechnen. Das ist oft ein nicht triviales Problem. Wir
diskutieren hier ein Paar klassischen Beispiele.
Wir betrachten als Zufallsexperiment die Auswahl von r Elemente aus einer Population von n Elemente. Das Experiment kann in verscheidene Weise durchgeführt werden;
das führt zu verschiedene Ergebnisräume und zu verschiedenen Wahrscheinlichkeiten.
Die erste Frage, ist ob für uns die Reihenfolge der r ausgewählten Elemente eine Rolle spielt oder nicht. Die zweite Frage ist, ob wir die ausgewählte Elemente nach dem
Wahl zurück in der ursprünglichen Population legen oder nicht. Man spricht von Auswahl mit oder ohne Zurücklegen (manchmal auch “mit oder ohne Wiederholung”). Wir
betrachten die 4 Fälle separat:
• Mit Reihenfolge, mit Zurückziehen. Wenn die Reihenfolge wichtig ist, und wenn
nach jeder Auswahl das ausgewählte Element zurückgezogen wird, gibt es genau
nr mögliche Auswähle von r Elemente aus einer Population von n (wir haben n
mögliche Auswähle für das erste Element, n für das zweite, usw.).
• Mit Reihenfolge, ohne Zurückziehen. Hier muss r ≤ n sein. Es gibt dann genau
n(n − 1)(n − 2) . . . (n − r + 1) =
n!
(n − r)!
mögliche Auswähle von r Elemente aus einer Population von n.
• Ohne Reihenfolge, mit Zurückziehen. Es gibt in diesem Fall
n+r−1
r
mögliche Ergebnisse.
• Ohne Reihenfolge, ohne Zurückziehen. Auch hier muss r ≤ n sein. Das Zufallsexperiment hat dann
n
n!
=
r
r!(n − r)!
mögliche Ergebnisse.
Viele Probleme in der kombinatorische Wahrscheinlichkeitstheorie können auf einem
Auswahl-Problem zurückgeführt werden. Wir diskutieren ein Paar Beispiele.
7
• Karten mit verschiedenen Werten. Wir wählen 5 Karten aus einem Stapel mit 52
Karten. Was ist die Wahrscheinlichkeit dafür, dass die 5 Karten 5 verschiedene
Werten tragen?
Wir nehmen an, alle Kombinationen von 5 Karten haben dieselbe Wahrscheinlichkeit. Da die Reihenfolge der Karte keine Rolle spielt, und da die Karten ohne
Zurückziehen ausgewählt werden, besteht der Ergebnisraum aus
52
|Ω| =
5
Elementen. Sei nun A der Ereignis, dass die 5 gewählte Karte fünf verschiedene
Werten haben. Die Frage ist, was ist die Kardinalität von A. Es gibt
13
5
Weise, um die Werten der 5 Karten zu wählen. Wenn wir die Werten der 5 Karten
festgewählt haben, können wir noch die Farben der 5 Karten wählen. Also
45 13
|A|
444036
45 · 13 cot 12 · 11 · 10 · 9
5
P(A) =
= 52 =
=
' 0.51
|Ω|
52 · 51 · 50 · 49 · 48
515049
5
• Belegungsproblem 1). r (unterscheidbare) Kugeln werden in n unterscheidbare Zellen verteilt. Was ist die Wahrscheinlichkeit dafür, dass eine gegebene Zelle genau
k Kugel enthält?
Die Anzahl mögliche Verteilungen der r Kugeln in den n Zellen ist einfach nr (jede
Kugel kann in n verschiedenen Zellen gelegt werden). Sei Ak das Ereignis, dass die
gewählte Zelle genau k Kugeln enthält. Wir haben
r
|Ak | =
(n − 1)r−k
k
Also,
r (n − 1)r−k
r 1
1 r−k
P(Ak ) =
=
1−
k
k nk
nr
n
Man nennt P(Ak ) die binomiale Verteilung. Bemerke, dass, wie erwartet,
r
X
P(Ak ) = 1
k=0
• Belegungsproblem 2). Wir betrachten das selbe Zufallsexperiment wie im letzten
Beispiel, d.h. wir möchten r (unterscheidbare) Kugeln in n unterscheidbare Zellen
verteilen. Die Frage ist nun: Was ist die Wahscheinlichkeit dafür, dass die j-te
Zelle genau rj Kugeln enthält, für alle j = 1, . . . , n (unter der Annahme, dass
r1 + r2 + · · · + rn = r)?
8
Wie im letzten Beispiel, die Anzahl mögliche Verteilungen ist einfach nr . Die Kardinalität vom Ereignis A =“rj Kugel im j-te Zelle, für alle j = 1, . . . , n” ist
dagegen
r!
r − r1 − · · · − rn−1
r
r − r1
=
...
rn
r2
r1
r1 !r2 ! . . . rn !
Also,
P(A) =
1
r!
r
n r1 !r2 ! . . . rn !
• Zerlegungproblem. Wir müssen n ununterscheidbare Kugel in k unterscheidbare
Zellen teilen (die Zellen dürfen auch leer sein). Was ist die Wahrscheinlichkeit
dafür, dass alle Elemente in der ersten Zelle sind?
Das Problem ist ähnlich wie das Belegungsproblem, hier sind aber die Kugeln
ununterscheidbar (wichtig ist nur wieviele Kugel in den verschiedenen Zellen sind;
welche Kugel in welche Zelle ist spielt dagegen keine Rolle). Um das Problem zu
lösen, müssen wir bestimmen, wie viele Wahle von ganzen Zahlen r1 , . . . , rk ≥ 0
existieren, die die Bedingung r1 + r2 + · · · + rk = n erfüllen. Die Antwort ist
n+k−1
(n + k − 1)!
(n + k − 1)(n + k − 2) . . . (n)
=
=
k
k!(n − 1)!
k(k − 1) . . . 1
Also, die Wahrscheinlichkeit für das Ereignis “n Kugel in der ersten Zelle” ist
n+k−1 −1
.
k
1.4
Wahrscheinlichkeit und Frequenzen
Im letzten Abschnitt haben wir gesehen, dass aus Symmetrie-Gründen die Gleichverteilung eine wichtige Rolle bei Experimenten mit einem endlichen Ergebnisraum spielt. In
der Praxis ist aber die Symmetrie nie perfekt; es stellt sich also die Frage, ob eine Spielbank bei einem Spiel wie das Würfeln oder die Roulette wirklich die Gleichverteilung
als Wahrscheinlichkeitsmass wählen soll, um Geldverluste zu vermeiden.
Wir betrachten nun ein unendlich oft wiederholbar Zufallsexperiment (wie zum Beispiel die Roulette oder das Würfeln) mit endlichen Ergebnisraum Ω und mit σ-Algebra
A. Wir nehmen an ein Spieler wiederholt k Mal das Zufallsexperiment, immer mit den
gleichen Einsätzen {gA }A∈A . Wir bezeichnen die Ergebnisse der k Experimenten mit
x1 , . . . , xk ∈ Ω. Wir definieren auf A die Funktion
fk (A) =
k
1X
1(xi ∈ A)
k
i=1
Man kann leicht überprüfen, dass (für alle x1 , ,̇xk ∈ Ω) die Funktion fk : A → [0; ∞) ein
Wahrscheinlichkeitsmass ist. fk heisst die empirische Verteilung der Ergebnisse.
Lemma 1.4. Ist nA = 1/fk (A) für alle A ∈ A, dann ist die Summe der Auszahlungen
der Bank in den k Spielen gleich zur Summer der Einsätze des Spielers. Für jede andere
zulässige und faire Bewertung gibt es eine mögliche Einsatzstrategie (d.h. eine Wahl der
Einsätze {gA }A∈A ), die einen positiven Gewinn garantiert.
9
Beweis. Nehmen wir zunächst an, dass nA = 1/fk (A) für alle A ∈ A. Die Auszahlung
der Bank beträgt (erinnere, dass der Spieler k Mal mit den gleichen Einsätzen spielt)
k X
X
gA nA 1(xi ∈ A) =
j=1 A
X
gA na kfk (A) = k
A
X
gA
A
was genau die gesamte Summe entspricht, die vom Spieler in den k Experimenten eingesetzt wird.
Wenn A ∈ A existiert, mit nA 6= 1/fk (A), haben wir entweder nA > 1/fk (A) oder
nAc > 1/fk (Ac ). O.B.d.A. können wir annehmen, dass nA > 1/fk (A). Dann wählen wir
die Einsätze gA = 1 und gB = 0 für alle B ∈ A mit B 6= A. In den k Spielen gewinnt
der Spieler die Summe
k
X
nA 1(xi ∈ A) = knA fk (A) > k
i=1
also mehr als der gesamten Einsatz k.
Das Problem mit der empirische Verteilung fk ist, dass die Bank die Bewertung vor
den Spielen festlegen muss. Der frequentistischen Ansatz zu Wahrscheinlichkeiten und
Bewertungen ist deswegen nur sinnvoll, wenn die Frequenzen fk im Limes k → ∞ einen
Grenzwert f haben. In diesem Fall ist f : A → [0; ∞) ein Wahrscheinlichkeitsmass, und
die Bewertung nA = 1/f (A) ist optimal im Sinne, dass
k
1 XX
gA (nA 1(xi ∈ A) − 1) = 0
k→∞ k
lim
i=1 A
für jede Einsatzstrategie {gA }A∈A . In der Statistik heissen die Frequenzen fk Schätzer
für die Wahrscheinlichkeitsdichte f .
2
2.1
Masstheoretische Zugang zu Wahrscheinlichkeitstheorie
Charakterisierung von Wahrscheinlichkeitsmasse
Wir betrachten ein Ergebnisraum Ω, und eine σ-Algebra A auf Ω. In diesem Abschnitt
untersuchen wir die Frage, wie können wir ein Wahrscheinlichkeitsmass P auf A characterizieren? Die Antwort zu dieser Frage ist einfach, falls Ω endlich ist.
Nehmen wir zunächst
P an, dass A = P (Ω) die Potenzmenge von Ω ist. Seien pi ∈ [0; 1],
für alle i ∈ Ω, mit
pi = 1. Dann gibt es ein eindeutiges Wahrscheinlichkeitsmass
P : A → [0; ∞) mit P({i}) = pi für alle i ∈ Ω. Mit anderen Wörter, jede Wahrscheinlichkeitsmass P wird eindeutig durch die Werten von P auf den Mengen {i}, i ∈ Ω, bestimmt.
Das folgt einfach aus der Tatsache, dass jede Menge in A als abzählbare Vereinigung
von disjukten Mengen der Form {i}i∈Ω geschrieben werden kann.
Nun, falls A =
6 P (Ω), finden wir trotzdem eine minimale Partition π1 , . . . , πn von Ω
mit Ω = ∪nj=1 πj und πk ∩ B ∈ {∅, πk } für alle B ∈ A und alle k = 1, . . . , n. Dann gilt:
10
P
für alle p1 , . . . , pn ∈ [0; 1] mit nj=1 pj = 1 gibt es genau ein Wahrscheinlichkeitsmass P
auf A mit P(πj ) = pj für alle j = 1, . . . , n.
Jetzt kommen wir zurück zum allgemeinen Fall, wo Ω nicht notwendigerweise endlich
ist. Das folgende wichtige Theorem zeigt, dass ein Wahrscheinlichkeitsmass P auf einer
σ-Algebra A eindeutig durch die Werten von P auf einer beliebigen Teilmenge G ⊂ A,
die A erzeugt, characterisiert wird.
Theorem 2.1 (Carathéodory Erweiterungstheorem). Sei (Ω, A) ein messbarer Raum
und G eine Algebra auf Ω, mit σ(G) = A. Sei P0 : G → [0; 1] mit P0 (∅) = 0, P0 (Ω) = 1,
und
!
X
[
P0 (An )
P0
An =
n∈N
n∈N
für alle Folge {An }n∈N in G mit ∪n∈N An ∈ G und An ∩ Am = ∅ für alle n 6= m. Dann
gibt es ein eindeutiges Wahrscheinlichkeitsmass P auf A, mit P|G = P0 .
Bemerkungen: Sei G ein Ring auf einer Menge Ω (ein Ring ist eine Familie von
Teilmengen von Ω, mit ∅ ∈ G und abgeschlossen bezüglich Differenzen und endliche
Vereinigungen).
Eine Funktion µ0 : G → [0; ∞] mit µ0 (∅) = 0 und µ0 (∪n∈N An ) =
P
µ
(A
)
für
alle Folge An in G mit ∪n An ∈ G heisst ein Prämass auf G (ein
0
n
n∈N
Prämass auf einer σ-Algebra ist ein Mass). In seiner allgemeiner Version besagt das
Erweiterungstheorem von Carathéodory, dass es ein Mass µ auf σ(G) existiert, mit µ|G =
µ0 (d.h. dass jede Prämass auf einem Ring G zu einem Mass auf dem von G erzeugten σAlgebra erweitert werden kann). Die Erweiterung ist eindeutig, wenn G stabil bezüglich
Durchschnitte ist (was in einer Algebra immer den Fall ist), und falls eine Folge En in
G existiert, mit ∪n∈N En = Ω und mit µ0 (En ) < ∞ für alle n ∈ N (diese Bedingung ist
automatisch erfüllt für ein Wahrscheinlichkeitsmass, weil es endlich ist).
Beweis. Für beliebige A ⊂ Ω wir definieren
CA = {Folge (An )n∈N in G mit
[
An ⊃ A}
n∈N
Auf der Potenzmenge P (Ω) definieren wir die Abbildung
(
)
X
∗
P0 (An ) : (An ) ∈ CA
P (A) := inf
n∈N
(da Ω ∈ G ist CA sicher nicht leer).
Schritt 1. P∗ (A) = P0 (A) für alle A ∈ G.
Einerseits, mit der Folge (A, ∅, ∅, . . . ) ∈ CA finden
wir, dass P∗ (A) ≤ P0 (A). AnderS
seits, falls (An )n∈N eine Folge in CA ist, dann ist n∈N (An ∩ A) = A und deswegen (aus
Subadditivität der Abbildung P0 auf G)
X
X
P0 (A) ≤
P0 (An ∩ A) ≤
P0 (An )
n∈N
n∈N
Also, P0 (A) ≤ P∗ (A). Das zeigt, dass P0 (A) = P∗ (A) für alle A ∈ G.
11
Schritt 2. P∗ : P (Ω) → [0; ∞] ist ein äusseres Mass.
Wir müssen zeigen, dass i) P∗ (∅) = 0 (klar), ii) ist A ⊂ B, so gilt P∗ (A) ≤ P∗ (B)
(auch klar), iii) ist (An )n∈N eine Folge in P (Ω), so gilt
!
X
[
P∗
P∗ (An )
(5)
An ≤
n∈N
n∈N
Um (5) zu zeigen bemerken wir, dass, aus der Definition von P∗ , finden wir zu jedem
ε > 0 und n ∈ N eine Folge (An,m )m∈N in CAn (die Mengen An,m sind insbesondere in
G) mit
X
ε
P∗ (An ) ≥
P0 (An,m ) − n
2
m∈N
Dann ist die Doppelfolge (An,m )n,m∈N in C∪n An und deswegen
!
XX
X
[
∗
P
P0 (An,m ) ≤
P∗ (An ) + ε
An ≤
n∈N
n∈N m∈N
n∈N
Da ε > 0 beliebig ist, finden wir (5).
Schritt 3. Jede A ∈ G ist P∗ -messbar.
Wir erinnern aus Analysis 3, dass A ⊂ Ω P∗ -messbar ist, wenn
P∗ (B) = P∗ (B ∩ A) + P∗ (B ∩ Ac )
für alle B ⊂ Ω.
Sei nun A ∈ G, und B ⊂ Ω beliebig. Zu beliebigem ε > 0 finden wir eine Folge An
in CB mit
X
P∗ (B) ≥
P0 (An ) − ε
n∈N
Wegen der Additivität von P0 auf G finden wir
P0 (An ) = P0 (An ∩ A) + P0 (An ∩ Ac )
für alle n ∈ N, und deswegen
X
X
P∗ (B) ≥
P0 (An ∩ A) +
P0 (An ∩ Ac ) − ε ≥ P∗ (B ∩ A) + P∗ (B ∩ Ac ) − ε
n∈N
n∈N
weil die Folgen (An ∩ A)n∈N und (An ∩ Ac )n∈N in CB∩A , bzw. in CB∩Ac liegen. Da ε > 0
beleibig war, erhalten wir
P∗ (B) ≥ P∗ (B ∩ A) + P∗ (B ∩ Ac )
Aus der Subadditivität des äusseres Masses P∗ , schliessen wir, dass
P∗ (B) = P∗ (B ∩ A) + P∗ (B ∩ Ac )
12
und also, dass G ⊂ MP∗ . Das impliziert auch, dass σ(G) ⊂ MP∗ . Das zeigt, dass die
Einschränkung von P∗ auf σ(G) ein Mass ist, das auf G mit P0 übereinstimmt.
Schritt 4. Eindeutigkeit: seien P1 und P2 zwei Wahrscheinlichkeitsmasse auf σ(G),
mit P1 (A) = P2 (A) für alle A ∈ G. Wir behaupten, dass P1 = P2 .
Wir setzen
D = {B ∈ σ(G) : P1 (B) = P2 (B)}
Wir zeigen, dass D ein Dynkin-System ist. Wir müssen zeigen, dass Ω ∈ D und, dass
D stabil ist, bezüglich der Operation B → B c und bezüglich abzählbare Vereinigungen
von disjukten Mengen. Ω ∈ D ist offenbar weil Ω ∈ G. Sei nun B ∈ D. Dann gilt
P1 (B c ) = 1 − P1 (B) = 1 − P2 (B) = P2 (B c )
Also, B c ∈ D. Schlussendlich, sei (Bn )n∈N eine Folge disjunkten Mengen in D. Dann
gilt, aus der σ-Additivität von P1 und P2 ,
!
!
X
X
[
[
P1 (Bn ) =
P2 (Bn ) = P2
Bn
P1
Bn =
n
n
n
n
und deswegen ist auch ∪n Bn ∈ D. Das zeigt, dass D ein Dynkin-System ist.
Es gilt offenbar G ⊂ D. Sei nun δ(G) das Dynkin System, das von G erzeugt wird (d.h.
das kleinste Dynkin System, das G enthält). Dann gilt auch δ(G) ⊂ D. Da aber G eine
Algebra ist (und deswegen stabil bezüglich Durchschnitte), gilt δ(G) = σ(G) (Analysis
3, Satz 2.14). Wir haben gezeigt, dass σ(G) = D, d.h. P1 und P2 stimmen auf der ganze
σ-Algebra σ(G) überein.
Eine Anwendung vom Carathéodory Erweiterungstheorem ist die folgende Charackterisierung von Wahrscheinlichkeitsmasse auf R.
Satz 2.2. Für jede monoton wachsende rechtsstetige Funktion F : R → R mit
lim F (x) = 0,
x→−∞
und
lim F (x) = 1
x→∞
gibt es genau ein Wahrscheinlichkeitsmass P auf (R, B(R)) so, dass P((a; b]) = F (b) −
F (a) für alle −∞ < a < b < ∞.
Beweis. Wir bezeichnen mit G0 die Menge aller halboffenen Intervalle (s; t] mit −∞ ≤
s < t < ∞ und aller Intervalle der Form (s; ∞), mit s ∈ R. Wir bezeichnen mit G die
Menge aller endlichen Vereinigungen von Mengen aus G0 . Dann ist G eine Algebra. Auf
G0 definieren wir
P0 ((s; t]) = F (t) − F (s)
und P0 ((s; ∞)) = F (∞) − F (s) = 1 − F (s). Durch endliche Additivität kann P0 auf der
ganze Algebra G definiert werden. Wichtig dabei ist die Tatsache, dass
P0 ((s; t]) + P0 ((t; r]) = P0 ((s; r]),
und P0 ((s; t]) + P0 (t; ∞)) = P0 ((s; ∞)),
die leicht überprüft werden kann.
13
Damit ist P0 ein endlich additives Mass auf der Algebra G. Um Theorem 2.1 anzuwenden, müssen wir überprüfen, dass
!
X
[
P0 (An )
P0
An =
n∈N
n∈N
für alle Folge (An )n∈N in G mit ∪n An ∈ G (d.h. wir müssen überprüfen, dass P0 ein
Prämass ist). Wir haben in Analysis 3 gezeigt (Proposition 2.20), dass ein endlich additives Mass µ auch σ-additiv ist, wenn limn→∞ µ(An ) = 0 für jede monoton fallende
Folge (An )n∈N mit ∩n∈N An = ∅. Also, um zu zeigen, dass P0 ein Prämass ist, müssen
wir beweisen, dass
lim P0 (An ) = 0
n→∞
für jede Folge (An )n∈N in G mit An ⊂ An−1 für alle n ∈ N und ∩n An = ∅.
Sei also (An )n∈N eine Folge in G mit An ⊂ An−1 für alle n ∈ N und ∩n∈N An = ∅
aber mit
lim P0 (An ) = a > 0
n→∞
(aus der Monotonie, der Limes existiert immer).
Wir bemerken, dass für jedes Intervall I ∈ G0 (also entweder I = (s; t] oder I =
(s; ∞)) und jedes ε > 0, eine kompakte Menge K und ein Intervall I 0 ∈ G0 existieren,
mit I 0 ⊂ K ⊂ I und P0 (I 0 ) ≥ P(I) − ε. Hier spielt die Annahme, dass F rechtsstetig
ist eine wichtige Rolle; zu einem gegebenen Intervall I = (s; t], die Tatsache, dass F
rechtsstetig ist, erlaubt uns s0 ∈ (s; t) zu finden, mit F (s0 ) − F (s) < ε. Dann können wir
I 0 = (s0 ; t] und K = [(s+s0 )/2, t] wählen (analog können wir im Fall I = (s; ∞) vorgehen,
durch Benutzung der Rechtsstetigkeit und der Annahme F (∞) = limt→∞ F (t) = 1).
Also, für alle n ∈ N finden wir Bn ∈ G und Kn kompakt, mit Bn ⊂ Kn ⊂ An und
P0 (Bn ) ≥ P0 (An ) − a2−n−1 .
Da An ⊂ An−1 für alle n, finden wir, dass
An ⊂ (B1 ∩ B2 ∩ · · · ∩ Bn ) ∪
n
[
(Aj \Bj )
j=1
Das impliziert, dass

P0 (B1 ∩ · · · ∩ Bn ) ≥ P0 (An ) − P0 
n
[

(Aj \Bj ) ≥ P0 (An ) −
j=1
n
X
a2−j−1 ≥ a/2
j=1
gleichmässig in n. Wir setzen nun K n = K1 ∩ · · · ∩ Kn . K n ist dann eine fallende Folge
von kompakten Mengen. Es gilt
k
\
K n = K k 6= ∅
(6)
n=1
weil K k ⊃ B1 ∩ B2 ∩ · · · ∩ Bk und P0 (B1 ∩ · · · ∩ Bk ) ≥ a/2. Da K n kompakt ist, für alle
n ∈ N, es folgt, dass
∞
\
K n 6= ∅
(7)
n=1
14
c
c
In der Tat, falls ∩n∈N K n = ∅, dann wäre ∪n∈N K n = R und also K m ⊂ ∪n∈N K n . D.h.
c
(K n )n∈N wäre eine offene Überdeckung von K m . Da K m kompakt ist, würde es dann
eine endliche Teilüberdeckung existieren. D.h. es würde n0 existieren, mit
Km ⊂
n0
[
c
Kn
n=1
Das impliziert, dass
n0
[
c
c
Kn ∪ Km = R
n0
\
d.h.
n=1
Kn ∩ Km = ∅
n=1
in Widerspruch zu (6). Das zeigt (7). Da
\
\
Kn ⊂
An
n∈N
n∈N
es folgt, dass ∩n An 6= ∅, in Widerspruch zu (7). Das zeigt, dass P0 ein Prämass ist. Mit
Theorem 2.1, erhalten wir das gewünschte Resultat, weil σ(G) = B(R).
Satz 2.2 zeigt, dass jede rechtsstetige und monoton wachsende Funktion F : R → R
mit F (−∞) = 0 und F (∞) = 1 ein eindeutiges Wahrscheinlichkeitsmass P auf (R, B(R))
definiert, mit P((s; t]) = F (t) − F (s). Umgekehrt, jedes Wahrscheinlichkeitsmass P auf
(R, B(R)) definiert durch F (t) := P((−∞; t]) eine rechtsstetige und monoton wachsende
Funktion (mit F (−∞) = 0 und F (∞) = 1). Wir nennen F : R → R die Verteilungsfunktion vom Wahrscheinlichkeitsmass P.
2.2
Wahrscheinlichkeitsdichte für absolut stetige Masse
Neben der Verteilungsfunktion F : R → [0; 1], spielt für Wahrscheinlichkeitsmasse P auf
(R, B(R)) die Wahrscheinlichkeitsdichte ρ, wann sie existiert, eine wichtige Rolle. Die
Dichte eines Wahrscheinlichkeitsmasses P auf (R, B(R)) ist eine nicht-negative messbare
und integrierbare Funktion ρ : R → [0; ∞) mit
Z
P((s; t]) = F (t) − F (s) =
t
ρ(x)dλ(x)
s
für alle −∞ ≤ s < t < ∞. Hier ist λ das Lebesgue Mass auf (R, B(R)). Nicht jedes
Wahrscheinlichkeitsmass hat eine Dichte. Wir zeigen in Theorem 2.4, dass jedes “absolut
stetiges” Wahrscheinlichkeitsmass eine Dichte hat.
Definition 2.3. Sei (Ω, A) ein messbarer Raum und µ und ν zwei Masse auf (Ω, A).
Wir sagen, dass ν absolut stetig bezüglich µ ist, wenn
A ∈ A mit µ(A) = 0
⇒
ν(A) = 0
Wir schreiben in diesem Fall ν µ. Ein Mass ν auf (Rn , B(Rn )) heisst einfach absolut
stetig, wenn sie bezüglich das Lebesgue Mass λn absolut stetig ist.
15
Sei (Ω, A, µ) ein Massraum. Für jede f : Ω → [0; ∞) messbar und bezüglich µ
integrierbar, betrachten wir das Mass
Z
f dµ
νf (A) =
A
Ist dann A ∈ A mit µ(A) = 0 so muss offenbar auch νf (A) = 0 sein (weil das Integrand
f χA ausserhalb einer Menge mit Mass Null verschwindet). Also νf µ für alle f ∈
L1 (Ω, A, µ) mit nicht-negativen Werten. Wir zeigen im nächsten Theorem, dass jede
absolut stetige Mass (bzg. einem σ-endlichen Mass µ) in dieser Weise geschrieben werden
kann.
Theorem 2.4 (Radon-Nikodym Theorem). Sei (Ω, A) ein messbarer Raum und seien
µ, ν zwei σ-endliche Masse auf (Ω, A). Ist ν µ, so existiert eine Funktion g : Ω →
[0; ∞) messbar, mit
Z
gdµ
ν(A) =
A
für alle A ∈ A. Die Funktion g ist eindeutig, bis auf Gleichheit auf einer µ-Nullmenge.
g heisst die Radon-Nikodym derivative of ν bezüglich µ.
Sei P ein Wahrscheinlichkeitsmass auf (Rn , B(Rn )), das absolut stetig bezüglich dem
Lebesgue Mass λn auf Rn ist. Es folgt aus Theorem 2.4, dass eine Lebesgue messbare
nicht-negative Funktion ρ : Rn → [0; ∞) existiert, mit
Z
P(A) =
ρ dλn
A
für alle A ∈ B(Rn ). D.h. die Wahrscheinlichkeit vom Ereignis A kann einfach ausgerechnet werden, indem man das Lebesgue Integral von ρ auf A berechnet. Wir nennen ρ
die Wahrscheinlichkeitsdichte von P. Bemerke, dass Wahrscheinlichkeitsdichte immer so
normiert sind, dass
Z
ρdλn = 1
(weil P(Rn ) = 1). Insbesodere, falls P ein absolut stetiges Wahrscheinlichkeitsmass auf
(R, B(R)) ist, so können wir eine Dichte ρ : R → [0; ∞) finden, mit
Z
P((s; t]) =
t
ρdλ
s
für alle −∞ ≤ s < t < ∞.
Um Theorem 2.4 zu zeigen, führen wir den Begriff von signierten Mass ein.
Definition 2.5. Sei (Ω, A) ein messbarer Raum. Eine Funktion µ : A → [−∞; ∞] heisst
ein signiertes Mass auf (Ω, A) wenn µ(∅) = 0 und wenn, für jede Folge (An )n∈N von
disjukten Mengen in A, es gilt
!
[
X
µ
An =
µ(An )
n∈N
n∈N
16
P
Damit µ : A → [−∞; ∞] ein signiertes Mass ist, muss die Summe
n∈N µ(An )
wohldefiniert sein, für jede Folge disjunkter Mengen in A. Insbesonde kann µ nur den
Wert +∞ oder den Wert −∞ annehmen, aber nicht beide. Ist |µ(Ω)| < ∞ so muss
µ(A) < ∞ endlich sein, für alle A ⊂ Ω. Ist µ(Ω) = +∞, so kann es kein A ∈ A existieren
mit µ(A) = −∞. Ist dagegen µ(Ω) = −∞, so wird es kein A ⊂ Ω mit µ(A) = +∞. Es ist
einfach zu üeberprüfen, dass ein signiertes Mass viele der Eigenschaften eines positiven
Mass hat. Z.B. wenn (An )n∈N eine wachsende Folge von Mengen in A,
!
[
µ
An = lim µ(An )
n→∞
n∈N
Ist (An )n∈N eine fallende Folge in A mit µ(An ) endlich für ein n ∈ N, so gilt
!
\
µ
An = lim µ(An )
n→∞
n∈N
Sei nun (Ω, A) ein messbarer Raum und µ ein signiertes Mass auf (Ω, A). Wir sagen
A ∈ A ist eine positive Menge für µ, falls µ(B) ≥ 0 für alle B ⊂ A. Wir sagen A ∈ A
ist eine negative Menge für µ, falls µ(B) ≤ 0 für alle B ⊂ A.
Lemma 2.6. Sei µ ein signiertes Mass auf ein messbarer Raum (Ω, A), und sei A ∈ A
mit −∞ < µ(A) < 0. Dann existiert eine negative Menge B ∈ A mit B ⊂ A und
µ(B) ≤ µ(A).
Proof. Sei
δ1 = sup {µ(E) : E ∈ A und E ⊂ A}
und sei A1 ∈ A mit A1 ⊂ A und mit
µ(A1 ) ≥ min(1, δ1 /2)
Sei nun
δ2 = sup {µ(E) : E ∈ A und E ⊂ A\A1 }
und A2 ∈ A mit A2 ⊂ A\A1 mit
µ(A2 ) ≥ min(1, δ2 /2)
Wir iterieren diese Konstruktion und definieren
(
δn = sup µ(E) : E ∈ A und E ⊂ A\
n−1
[
k=1
und dann wählen wir An ∈ A mit An ⊂ A\
Sn
j=1 Aj
und mit
µ(An ) ≥ min(1, δn /2)
Wir definieren dann
A∞ =
∞
[
An
und
n=1
17
B = A\A∞
!)
Ak
und wir behaupten, B hat die gewünschte Eigenschaften. In der Tat, An ∈ A sind
disjuknt mit µ(An ) ≥ 0 für alle n ∈ N. Also
µ(A) = µ(A∞ ) + µ(B) ≥ µ(B)
Wir müssen nun die Tatsache zeigen, dassPB eine negative Menge ist. Da µ(A) > −∞,
muss µ(A∞ ) < ∞ sein. Da aber µ(A∞ ) = n µ(An ), es folgt, dass µ(An ) → 0. Deswegen
muss δn → 0. Für ein beliebiges E ⊂ B haben wir nun µ(E) ≤ δn für alle n ∈ N, es
muss µ(E) ≤ 0 gelten.
Mit Hilfe des letzten Lemma können wir nun zeigen, dass jedes signierte Mass µ auf
(Ω, A) eine Hahn Zerlegung (P, N ) besitzt, wobei P, N ∈ A mit P ∪ N = Ω und so, dass
P eine positive und N eine negative Menge für µ sind.
Theorem 2.7 (Hahn’sche Zerlegungstheorem). Sei (Ω, A) ein messbarer Raum, und
sei µ ein signiertes Mass auf (Ω, A). Dann existieren P, N ∈ A so, dass P eine positive
und N eine negative Menge für µ sind und so, dass P ∪ N = Ω.
Beweis. Nehmen wir an µ nimmt den Wert −∞ nicht an (sonst nimmt µ den Wert +∞
nicht an, und man kann analog vorgehen). Sei
L = inf {µ(A) : A eine negative Menge für µ ist}
Sei nun (An )n∈N eine Folge in A von negativen Mengen für µ, mit L = limn→∞ µ(An ). Sei
N = ∪n∈N An . Dann ist N offenbar eine negative Menge für µ. Also L ≤ µ(N ) ≤ µ(An )
für alle n ∈ N. Es folgt, dass L = µ(N ) > −∞ (weil µ den Wert −∞ nicht annimmt). Sei
nun P = N c . Wir müssen noch zeigen, dass P eine positive Menge für µ ist. Nehmen wir
indirekt an, dass A ⊂ P in A existiert, mit µ(A) < 0. Dann existiert aber aus Lemma
2.6 eine negative Menge B ⊂ A. In diesem Fall wäre aber auch B ∪ N eine negative
Menge für µ, mit
µ(N ∪ B) = µ(N ) + µ(B) < µ(N ) = L
in Widerspruch zur Definition von L.
Wir können nun das Radon-Nykodim Theorem beweisen.
Beweis von Theorem 2.4. Wir betrachten zunächst den Fall, dass µ, ν endliche Masse
sind. Sei
Z
F = f : Ω → [0; ∞] messbar, s.d.
f dµ ≤ ν(A) für alle A ∈ A
A
Dann ist F nicht leer, weil die Konstante Funktion f = 0 sicher in F gehört.
Schritt 1. Es existiert g ∈ F, mit
Z
Z
gdµ = sup
f dµ : f ∈ F
Um die Behauptung zu zeigen, bemerken wir zunächst, dass
f1 , f2 ∈ F
⇒
max{f1 , f2 } ∈ F
18
In der Tat, für ein beliebiges A ∈ A, wir können A1 = {x ∈ A : f1 (x) > f2 (x)} und
A2 = {x ∈ A : f1 (x) ≤ f2 (x)} definieren. Dann gilt
Z
Z
Z
f2 dµ ≤ ν(A1 ) + ν(A2 ) = ν(A1 ∪ A2 ) = ν(A)
f1 dµ +
max{f1 , f2 } dµ =
A1
A
A2
Sei nun (fn )n∈N eine Folge in F mit
Z
Z
lim
fn dµ = sup
f dµ : f ∈ F
n→∞
Dann gilt offenbar auch
Z
Z
lim
max(f1 , . . . , fn )dµ = sup
f dµ : f ∈ F
n→∞
Da die Folge max(f1 , . . . , fn ) monoton wachsend ist, können wir den Limes
g = lim max(f1 , . . . , fn )
n→∞
punktweise definieren. Das monoton Konvergenz Theorem zeigt, dass
Z
Z
gdµ = lim
max(f1 , . . . , fn )dµ ≤ ν(A)
n→∞ A
A
weil max(f1 , . . . , fn ) ∈ F für alle n ∈ N und auch, dass
Z
Z
Z
gdµ = lim
max(f1 , . . . , fn )dµ = sup
f dµ : f ∈ F
n→∞
Schritt 2. Sei g wie im Schritt 1. Wir behaupten, dass
Z
ν(A) =
gdµ
A
für alle A ∈ A.
Für ein beliebiges A ∈ A, wir setzen
Z
ν0 (A) = ν(A) −
gdµ
A
Da g ∈ F, ist ν0 : A → [0; ∞] ein Mass auf A. Zu zeigen bleibt, dass ν0 = 0. Nehmen wir
an ν0 6= 0. Dann finden wir ε > 0 mit ν0 (Ω) > εµ(Ω) (weil µ ist endlich, nach Annahme).
Es ist einfach zu überprüfen, dass ν0 − εµ : A → [−∞; ∞] ein signiertes Mass auf A ist.
Sei (P, N ) eine Hahn’sche Zerlegung von ν0 − εµ.
Also, P, N ∈ A mit P ∪ N = Ω und so, dass P eine positive und N eine negative
Menge für ν0 − εµ sind. Wir bemerken sofort, dass µ(P ) > 0 sein muss. Wäre nämlich
µ(P ) = 0, dann müsste auch ν(P ) = 0 (aus der absolute Stetigkeit ν µ) und also
ν0 (P ) = 0. Deswegen wäre
ν0 (Ω) − εµ(Ω) = (ν0 − εµ)(N ) ≤ 0
19
in Widerspruch mit der Annahme, dass ν0 (Ω) > εµ(Ω). Das zeigt, dass µ(P ) > 0. Ferner,
für ein beliebiges A ∈ A gilt ν0 (A ∩ P ) ≥ εµ(A ∩ P ). Deswegen
Z
Z
Z
Z
gdµ + εµ(A ∩ P ) = (g + ε1P )dµ
gdµ + ν0 (A ∩ P ) ≥
gdµ + ν0 (A) ≥
ν(A) =
A
A
A
A
Das zeigt, dass g + ε1P ∈ F. Da aber
Z
gdµ ≤ ν(Ω) < ∞
und
Z
Z
(g + ε1P )dµ =
Z
gdµ + εµ(P ) >
gdµ
finden wir ein Widerspruch zur Definition von g in Schritt 1. Das zeigt, dass ν0 = 0 und
also, dass
Z
gdµ
ν(A) =
A
für alle A ∈ A.
Schritt 1 und 2 zeigen das Theorem im Fall, dass ν, µ endlich sind. In allgemein
finden wir eine Folge (An )n∈N von disjunkten Mengen in A mit ∪n An = Ω und so, dass
µ(An ) und ν(An ) endlich sind, für alle n ∈ N. Für alle n ∈ N finden wir dann eine
Funktion gn : An → [0; ∞] mit
Z
ν(E) =
gn dµ
E
für alle E ∈ A mit E ⊂ An . Wir können g : Ω → [0; ∞] durch g = gn auf An , für alle
n ∈ N, definieren. Es ist dann einfach zu überprüfen, dass g die gewünschte Eigenschaften
hat.
Schlussendlich zeigen wir die Eindeutigkeit der Funktion g. Wir betrachten zunächst
den Fall, dass ν endlich ist. Nehmen wir an g, h : Ω → [0; ∞] sind beide A-messbar und
so, dass
Z
Z
ν(A) =
gdµ =
A
hdµ
A
für alle A ∈ A. Da ν endlich ist, es folgt, dass
Z
(g − h)dµ = 0
A
für alle A ∈ A. Wenn wir zunächst A = {x ∈ Ω : g(x) ≥ h(x)} und dann A = {x ∈ Ω :
g(x) > h(x)} wählen, finden wir, dass
Z
|g − h|dµ = 0
und damit, dass g = h µ-fast überall. Wenn ν σ-endlich aber nicht unbedingt endlich
ist, finden wir eine Folge von disjukten Mengen (An )n∈N in A mit Ω = ∪n An und so,
dass ν(An ) < ∞ für alle n ∈ N. Wie oben können wir dann zeigen, dass g = h µ-f.ü. auf
An , für alle n ∈ N. Das zeigt auch, dass g = h µ-f.ü. auf Ω.
20
Theorem 2.4 zeigt, dass jedes absolut stetiges Wahrscheinlichkeitsmass auf Rn eine
Wahrscheinlichkeitsdichte hat. Natürlich sind nicht alle Wahrscheinlichkeitsmasse absolut stetig bezüglich das Lebesgue Mass. Was man aber zeigen kann ist, dass jede
Wahrscheinlichkeitsmass in der Summe eines absolut stetigen und eines singulären Teil
zerlegt werden kann. Was ein singuläres Mass ist (bezüglich dem Lebesgue Mass) wird
in der nächste Definition erklärt.
Definition 2.8. Sei (Ω, A) ein messbarer Raum. Wir sagen ein Mass µ ist auf einer
Menge A ⊂ Ω geträgt, falls µ(Ac ) = 0. Zwei Masse µ, ν auf (Ω, A) heissen zuenander
singulär, falls eine Menge E ∈ A existiert so, dass µ auf E und ν auf E c geträgt werden.
In diesem Fall schreiben wir µ ⊥ ν.
Mit dieser Definition können wir nun zeigen, dass ein beliebiges Mass in einem absolut
stetigen und einem singulären Teil zerlegt werden kann.
Theorem 2.9 (Lebesgue’sche Zerlegungstheorem). Sei (Ω, A) ein messbarer Raum, µ
ein Mass und ν ein σ-endliches Mass auf (Ω, A). Dann existieren eindeutige Masse νa , νs
auf (Ω, A) so, dass νa µ, νs ⊥ µ und ν = νa + νs . νs und νa heissen den singulären
und den absolut stetigen Teil von ν bezüglich µ.
Beweis. Wir definieren
Nµ = {B ∈ A : µ(B) = 0}
Wir wählen eine Folge (Bj )j∈N in Nµ so, dass
lim ν(Bj ) = sup{ν(B) : B ∈ Nµ }
j→∞
Sei N = ∪j∈N Bj . Wir definieren νa und νs durch
νa (A) = ν(A ∩ N c ),
νs (A) = ν(A ∩ N )
Offenbar ν = νa + νs . Ferner,
µ(N ) ≤
X
µ(Bj ) = 0
j
und deswegen ist νs ⊥ µ. Anderseits, wir haben
ν(N ) = sup{ν(B) : B ∈ Nµ } .
Ist nun A ∈ A mit A ⊂ N c und mit µ(A) = 0, so muss N ∪ A ∈ Nµ und also
ν(N ) + ν(A) = ν(N ∪ A) ≤ sup{ν(B) : B ∈ Nµ } = ν(N )
Deswegen muss auch ν(A) = 0. Das zeigt, dass νa (A) = 0 für alle A ∈ A mit µ(A) =
0.
Das einfachste Beispiel einer bezüglich Lebesgue singulären Mass auf (Rn , B(Rn )) ist
das Dirac’sche δ-Mass in einem Punkt x ∈ Rn , definiert durch δx (A) = 1, falls x ∈ A,
und δx (A) = 0 sonst. Das Mass δx ist im Punkt x geträgt, also auf einer Menge mit
Lebesgue Mass Null. Das bedeutet, dass δx ⊥ λn .
21
Jede abzählbare konvexe Kombinationen von Dirac-δ Masse definiert wieder ein
Wahrscheinlichkeitsmass auf (Rn ; B(Rn )), dasP
singulär bezüglich λn ist. Sei nämlich
(pj )j∈N eine Folge von Zahlen 0 ≤ pj ≤ 1, mit j pj = 1, und (xj )j∈N irgendeine Folge
in Rn . Dann ist
X
P :=
pj δxj
(8)
j∈N
ein Wahrscheinlichkeitsmass auf (Rn ; B(Rn )), das auf der Menge {xj : j ∈ N} geträgt
wird. Da jede abzählbare Menge Lebesgue Mass Null hat, ist ν ⊥ λn . Punkten x ∈ Rn ,
mit P({x}) > 0 heissen Atome für das Wahrscheinlichkeitsmass P (die Elemente xj sind
Atome für das Mass (8)). Man nennt ein Mass wie (8), das auf abzählbar viele Atome
geträgt wird, ein diskretes Mass.
Für Wahrscheinlichkeitsmasse auf (R, B(R)) entspricht jede Atome eine Unstetigkeit
in der Verteilungsfunktion. In der Tat, mit F (t) = P((−∞; t]), finden wir, für eine Folge
tn , die monoton von links gegen einem Punkt t ∈ R strebt,
lim F (tn ) = lim P((−∞; tn ]) = P((−∞; t)) = P((−∞; t]) − P({t}) = F (t) − P({t})
n→∞
n→∞
Das zeigt, dass F genau dann im Punkt t ∈ R unstetig ist, wenn t ein Atom des
Wahrscheinlichkeitsmasses P ist. Da eine Verteilungsfunktion auf R höchstens abzählbar
viele Unstetigkeiten hat, hat jedes Wahrscheinlichkeitsmass höchstens abzählbar viele
Atome. Ist P ein diskretes Mass (d.h. wird P auf abzählbar viele Punkte geträgt), so ist
F konstant bis auf abzählbar viele Punkte, wo sie ein Sprung hat.
Neben diskrete Masse existieren auch komplizierteren Beispiele von singuläre Masse,
die auf überabzählbare Lebesgue Nullmengen in Rn geträgt werden. Es ist einfach ein
Beispiel mit Hilfe der Cantor Funktion zu konstruieren. Sei K = ∩n∈N Kn ⊂ [0; 1] die
Cantor Menge (K0 = [0; 1], K1 = [0; 1/3] ∪ [2/3; 1] wird definiert, indem man den
mittlere Drittel von K0 entfernt, und so weiter). Wir erinneren, dass die Cantor Funktion
f : R → [0; 1] wie folgt definiert wird. Man setzt im ersten Schritt f (x) = 1/2 für
x ∈ K0 \K1 = (1/3; 2/3). Im n-te Schritt wird f auf Kn \Kn−1 definiert. Kn \Kn−1
besteht aus 2n−1 offene Intervalle der Länge 3−n . Die Funktion f wird so definiert, dass
sie den Wert (2k −1)/2n in der k-te Intervall, für k = 1, . . . , 2n−1 annimmt. Das definiert
f auf [0; 1]\K. Wir erweitern f auf R indem wir f (x) = 0 für alle x ≤ 0, f (x) = 1 für
alle x ≥ 1, und
f (x) = sup{f (t) : t ∈ [0; 1]\K und t < x}
für alle x ∈ K definieren. Dann ist f monoton wachsend, mit f (−∞) = 0 und f (+∞) =
1. Wir haben in Analysis 3 gezeigt, dass f stetig ist. Das zeigt, dass f die Verteilungsfunktion eines Masses Pcantor auf (R; B(R)) ist. Da f auf K c Konstant ist, und da
λ(K) = 0, ist Pcantor ein singuläres Mass bezüglich dem Lebesgue Mass. Anderseits, da
f stetig ist, gilt Pcantor ({x}) = 0 für alle x ∈ R. Also Pcantor enthält keine Atome. Man
nennt ein Mass wie Pcantor auf (R, B(R)), das singulär bezüglich dem Lebesgue Mass ist
aber keine Atome enthält (d.h. die Verteilungfunktion ist stetig) ein singuläres stetiges
Mass (“singular continuous measure” auf Englisch).
Wir finden: jede Wahrscheinlichkeitsmass P auf (R; B(R)) kann in der Summe von
drei Teilen zerlegt werden P = Pac + Pd + Psc , wobei Pac absolut stetig bezüglich dem
22
Lebesgue Mass λ ist, Pd ein diskretes Mass ist, das auf abzählbar viele Punkten (Atome)
geträgt wird und Psc ein singuläres stetiges Mass ist, das singulär bezüglich λ ist und eine
stetige Verteilungsfunktion hat (also keine Atome). Der absolut stetiger Teil Pac kann
einfach durch eine Wahrscheinlichkeitsdichte ρ beschrieben werden, mit der Eigenschaft
Z
ρ dλ
Pac (A) =
A
Der diskreter Teil hat die Form
Pd =
X
pn δxn
n∈N
P
für Folgen (xn )n∈N in R und (pn )n∈N in [0; 1] mit
pn = 1. Es ist schwieriger den
singulären stetigen Teil zu beschreiben (man braucht in diesem Fall die stetige Verteilungsfunktion zu geben).
Man bemerke, es ist einfach aus der Verteilungsfunktion F eines Wahrscheinlichkeitsmasses P auf (R, B(R)) die Wahrscheinlichkeitsdichte ρ von Pac zu bestimmen. In der
Tat, es gilt die folgende Tatsache (Beweis kann zB. auf dem Buch “Measure theory” von
D.L.Cohn gefunden werden): die Verteilungsfunktion F eines beliebigen Wahrscheinlichkeitsmasses P : B(R) → [0; 1] ist λ-fast überall differenzierbar. Die Funktion
0
F (x)
falls F an der Stelle x differenzierbar ist
ρ(x) :=
0
sonst
ist eine Wahrscheinlichkeitsdichte für den absolut stetigen Teil Pac von P.
2.3
Wichtige Beispiele von Wahrscheinlichkeitsmasse
In diesem Abschnitt diskutieren wir ein Paar Beispiele von Wahrscheinlichkeitsmasse,
die eine wichtige Rolle in der Wahrscheinlichkeitstheorie spielen.
Wir beginnen mit ein Paar diskrete Masse.
Bernoulli Verteilung. Die Bernoulli Vertilung kommt aus dem Münzwurf. Wir betrachten also ein Ergebniss Raum mit nur zwei Elementen, zB. Ω = {0, 1} (oder auch
“Kopf” und “Zahl”). Auf der σ-Algebra P (Ω) = {∅, {0}, {1}, {0, 1}} definieren wir, für
p ∈ [0; 1] ein Wahrscheinlichkeitsmass P durch Pp ({0}) = p, Pp ({1}) = 1 − p. Das
Wahrscheinlichkeitsmass Pp auf (Ω, P (Ω)) heisst eine Bernoulli Verteilung. Man kann
die Bernoulli Verteilung auch als ein Wahrscheinlichkeitsmass auf (R, B(R)), definiert
durch
Pp = pδ0 + (1 − p)δ1
Pp ist ein diskretes Wahrscheinlichkeitsmass.
Binomiale Verteilung. Wir betrachten n Münzwurfe, die, wie bei der Bernoulli Verteilung, mit Wahrscheinlichkeit p das Ergebniss 0 und mit Wahrscheinlichkeit (1−p) das
Ergebniss 1 liefern. Wir sind an der Anzahl von Ergebnisse 0 in den n Wurfe interessiert.
Der Ergebnisraum ist also Ω = {0, 1, . . . , n}. Man erwartet, dass
n k
Pn,p ({k}) =
p (1 − p)n−k
k
23
Diese Formel definiert Pn,p auf der Potenzmenge P (Ω) eindeutig (mit der Bedingung,
dass Pn,k additiv ist). Die Tatsache, dass Pn,k richtig normiert ist, folgt aus der Bemerkung, dass
n X
n k
p (1 − p)n−k = (p + 1 − p)n = 1
k
k=0
Das Wahrscheinlichkeitsmass Pn,p auf {0, 1, . . . , n} heisst eine binomiale Verteilung. Man
kann auch die binomiale Verteilung als ein diskretes Mass auf R, mit
Pn,p =
n X
n
k=0
k
pk (1 − p)n−k δk
interpretieren.
Poisson Verteilung. Die Poisson-Verteilung ist ein Wahrscheinlichkeitsmass auf der
Menge N (versehen mit der σ-Algebra P (N )). Für ein festgewählte Parameter ρ > 0,
die Poisson Verteilung Pρ wird durch
Pρ ({n}) =
ρn −ρ
e
n!
charakterisiert, für ein Parameter ρ > 0. Man kann die Poisson Verteilung als einen
Grenzwert der Binomialverteilung verstehen. Betrachten wir nämlich eine Binomialverteilung auf {0, 1, . . . , n} mit Wahrscheinlichkeit p = ρ/n von der Ordnung 1/n. Dann
gilt
n!
ρ n−k
ρk ρk −ρ
Pn,ρ/n ({k}) =
1
−
→
e
k!(n − k)! nk
n
k!
als n → ∞, für jede k ∈ N fest. Bemerke, dass die Poisson Verteilung richtig normiert
ist, weil
X ρn
e−ρ = 1
n!
n∈N
Geometrische Verteilung. Hier werfen wir ein Münz unendlich oft; bei jeder Wurf
kann entweder 0 (mit Wahrscheinlichkeit p ∈ [0; 1]) oder 1 (mit Wahrscheinlichkeit
q = 1 − p) vorkommen. Wir sind an der Nummer des Münzwurfs interessiert, bei dem
erstmalig 0 erscheint (wir beginnen mit dem Null-ten Versuch). Auf dem Ergebnisraum
Ω = N, definieren wir also das Ergebnismass
Pq ({k}) = q k (1 − q)
Pq definiert die geometrische Verteilung auf der Potenzmenge P (N). Die Normierung ist
aus
∞
X
1
q k (1 − q) =
(1 − q) = 1
1−q
k=0
garantiert.
Wir betrachten nun ein Paar absolut stetige Wahrscheinlichkeitsmasse auf (R, B(R)).
24
Gleichverteilung. Sei I ⊂ R ein Intervall. Die Gleichverteilung PI auf I wird durch
die Wahrscheinlickeitsdichte ρI = |I|−1 1I definiert. D.h. für jede A ∈ B(R),
Z
|I ∩ A|
1
χI dλ =
PI (A) =
|I| A
|I|
Die Verteilungsfunktion von PI ist dann (mit der Notation I = [a; b])

falls t ≤ a
 0
t−a
falls
a≤t≤b
F (t) = PI ((−∞, t]) =
 b−a
1
falls t ≥ b
Gaussverteilung. Die wichtigste Verteilung auf (R, B(R)) ist die sogenannte Normalverteilung, oder Gauss-Verteilung. Sie hängt aus zwei Parameter: die Gauss-Verteilung
mit Mittelwert m ∈ R und Standardabweichung σ > 0 ist aus der Dichte
ρm,σ (x) = √
1
2πσ 2
e−
(x−m)2
2σ 2
Die Normierung der Gaussverteilung ist aus der Berechnung
Z ∞
Z ∞
√
(x−m)2
2
−
2
e−x /2 dx = 2πσ 2
e 2σ dx = σ
−∞
−∞
garantiert. Wir werden sehen, die Gaussverteilung spielt eine extrem wichtige Rolle in
der Bescrheibung der Verteilung von Abweichungen um ein typisches Verhalten (der
zentrale Grenzwertsatz wird diese Aussage erklären).
Exponentialverteilung. Die Exponentialverteilung spielt eine wichtige Rolle als Verteilung von Wartezeiten. Für ein Parameter a > 0 ist die Dichte der Exponentialverteilung
aus
ρ(x) = ae−ax 1[0;∞) (x)
gegeben. Die Verteilungsfunktion F (t) = P((−∞; t]) ist in diesem Fall aus F (t) = 0 für
alle t < 0 und aus
Z t
F (t) =
dxae−ax = 1 − e−at
0
für alle t > 0 gegeben. Die Tatsache, dass F (+∞) = 1 zeigt, dass wir ρ richtig normiert
haben.
Cauchy-Verteilung. Auch die Cauchy-Verteilung hängt aus einem Parameter a > 0.
Die Dichte ist dann
a
1
ρ(x) =
π a2 + x2
und die Verteilungsfunktion
Z
Z t
1 t/a 1
1 1
F (t) =
dx = + arctan(t/a)
ρ(x)dx =
2
π
1
+
x
2 π
−∞
−∞
Das definiert Wahrscheinlichkeitsmasse Pa auf (R, B(R)) für alle a > 0. Die CauchyVerteilung ist mathematisch sehr interessant, weil sie sehr langsam ins Unendlichen
nach Null strebt. Wir werden sehen, dass sie deswegen kein Mittelwert besitzt.
25
2.4
Zufallsvariablen
Wir erinnern aus Analysis 3 den Begriff von messbarer Funktion. Sei (Ω, A) ein messbarer
Raum. Eine Funktion f : Ω → R heisst messbar, wenn eine (und also alle) der folgende
equivalente Bedingungen erfüllt sind:
f −1 ((−∞; t]) = {x ∈ Ω : f (x) ≤ t} ∈ A für alle t ∈ R
f −1 ((−∞; t)) = {x ∈ Ω : f (x) < t} ∈ A für alle t ∈ R
f −1 ((t; ∞)) = {x ∈ Ω : f (x) > t} ∈ A für alle t ∈ R
f −1 ([t; ∞)) = {x ∈ Ω : f (x) ≥ t} ∈ A für alle t ∈ R
Es ist auch einfach zu sehen (wie in Analysis 3 diskutiert wurde), dass f genau dann
messbar ist, wenn f −1 (A) ∈ A für alle A ∈ B(R). Diese letzte Bemerkung erlaubt
uns den Begriff von Messbarkeit auf beliebigen Funktionen zwischen zwei messbarer
Räume zu verallgemeinern. Seien also (Ω, A) und (Ω0 , A0 ) zwei messbarer Räume. Eine
Abbildung f : Ω → Ω0 heisst messbar (bezüglich der σ-Algebren A, A0 ) wenn f −1 (B) ∈
A für alle B ∈ A0 , d.h. wenn das Urbild einer Menge in A0 immer in der σ-Algebra A
enthalten ist. Wir werden sehen, dass dieser Begriff von Messbarkeit sehr wichtig in der
Wahrscheinlichkeitstheorie ist.
Um den Begriff von Zufallsvariablen einzuführen, betrachten wir ein einfaches Beispiel eines Zufallsexperiment, das aus n unabhängige Münzwürfe (mit mögliche Ergebnisse 0 oder 1) besteht. Was der Ergebnisraum dieses Experiment ist hängt davon ab,
was wir untersuchen möchten. Das vollständige Ergebnis des Experiment wird durch
eine Folge x = (x1 , . . . , xn ) ∈ {0, 1}n . Der entsprechende Ergebnisraum enthält 2n Elementen. Es könnte aber sein, wir möchten nur wissen, wie oft das Ergebnis 0 gefallen ist.
In diesem Fall ist der richtige Ergebnisraum Ω0 = {0, 1, . . . , n}, viel kleiner als früher.
Ω0 entspricht einer geringerer Beobachtungstiefe. Wie können wir die Beobachtungstiefe
eines Zufallsexperiments ändern? Offenbar entspricht jedes Ergebnis in Ω genau einem
Ergebnis in Ω0 . Wir können nämlich die Abbildung X : Ω → Ω0 durch
X(x) =
n
X
1(xj = 0)
j=0
definieren. Das Bild von x ∈ Ω ist genau die Anzahl Würfe, wo 0 gefallen ist. Wichtig
für die Abbildung X : Ω → Ω0 ist die Tatsache, dass für jede A ∈ A0 , X −1 (A) ∈ A gilt,
d.h., dass jede messbare Ereignis im neuen Raum Ω0 , zu einem messbarer Ereignis in Ω
entspricht (wie können wir nämlich die Wahrscheinlichkeit eines Ereignis in Ω0 messen,
wenn wir die Wahrschenilichkeit des entsprechenden Ereignis im ursprünglicher Raum
Ω (mit höheren Beobachtungsgrad) nicht bestimmen können). Diese Bedingung ist in
unserem Beispiel mit den n Münzwürfe nicht wichtig, weil A = P (Ω); sie spielt aber
eine wichtige Rolle für kontinuirlichen Ω, wann A eine echte Teilmenge von P (Ω) ist.
Definition 2.10. Seien (Ω, A) und (Ω0 , A0 ) zwei messbaren Räume. Eine Abbildung
X : Ω → Ω0 heisst eine Zufallvariable von Ω nach Ω0 , wenn sie messbar ist, d.h. wenn
X −1 (B) ∈ A für alle B ∈ A0 .
Ist A = P (Ω), so ist jede Abbildung X : Ω → Ω0 eine Zufallvariable (unabhängig aus
der Wahl von A0 ). In Allgemein, also wenn A nicht unbedingt die Potenzmenge P (Ω)
26
ist, ist das folgende Lemma nützlich um nachzuprüfen, ob eine Abbildung X : Ω → Ω0
eine Zufallvariable ist.
Lemma 2.11. Seien (Ω, A), (Ω0 , A0 ) zwei messbare Räume. Sei G 0 ⊂ P (Ω0 ) mit σ(G 0 ) =
A0 . Die Abbildung X : Ω → Ω0 ist genau dann eine Zufallvariable von Ω nach Ω0 , wenn
X −1 (B) ∈ A für alle B ∈ G 0 .
Beweis. Ist X : Ω → Ω0 messbar, so ist X −1 (B) ∈ A für alle B ∈ A0 , also insbesonde
für B ∈ G 0 . Nehmen wir nun an, dass X −1 (B) ∈ A für alle B ∈ G 0 . Dann bemerken wir,
dass die Menge
F := B ⊂ Ω0 : X −1 (B) ∈ A
eine σ-Algebra ist (das würde in Analysis 3 bewiesen). Da nach Annahme G 0 ⊂ F,
und da A0 = σ(G 0 ) die kleinste σ-Algebra ist, die G 0 enthält, muss A0 ⊂ F sein. Also
X −1 (B) ∈ A für alle B ∈ A0 , und X : Ω → Ω0 ist eine Zufallvariable.
Beispiel. Mit Lemma 2.11 finden wir, dass eine Abbildung X : Ω → R eine Zufallvariable, genau dann, wenn zB. X −1 ((−∞; t]) ∈ A für alle t ∈ R. D.h. wir erhalten zurück
die ursprüngliche Definition von Messbarkeit einer reelwertige Funktion.
Bei der Definition von Zufallvariable spielt das Wahrscheinlichkeitsmass keine Rolle;
nur die σ-Algebra ist wichtig. Jetzt betrachten wir ein Wahrscheinlichkeitraum (Ω, A, P),
ein messbarer Raum (Ω0 , A0 ) und eine Zufallvariable X : Ω → Ω0 . Im nächsten Satz zeigen wir, dass das Wahrscheinlichkeitsmass P auf (Ω, A) ein Wahrscheinlichkeitsmass auf
(Ω0 , A0 ) induziert. Intuitiv, das ist klar: wenn wir die Wahrscheinlichkeit der Ereignissen
in Ω kennen, so können wir auch die Wahrscheinlichkeit der Ereignissen in Ω0 berechnen.
Satz 2.12. Sei (Ω, A, P) ein Wahrscheinlichkeitraum und (Ω0 , A0 ) ein messbarer Raum.
Sei X : Ω → Ω0 eine Zufallvariable. Dann definiert
P0 (B) := P(X −1 (B))
für alle B ∈ A0 ,
ein Wahrscheinlichkeitsmass auf Ω0 .
Beweis. Bemerke zunächst, dass P0 wohldefiniert ist, weil X messbar ist. Offenbar ist
P0 (∅) = 0 und P0 (Ω0 ) = P(X −1 (Ω0 )) = P(Ω) = 1. Sei nun (Bn )n∈N eine Folge disjunkten
Mengen in A0 . Dann ist X −1 (Bn ) eine Folge disjunkter Mengen in A. Da
!
[
[
−1
−1
X (Bn ) = X
Bn ,
n∈N
n∈N
finden wir
!
0
P
[
Bn
!!
=P X
−1
n∈N
[
Bn
n∈N
!
=P
[
X −1 (Bn )
n∈N
=
X
n∈N
27
P(X −1 (Bn )) =
X
n∈N
P0 (Bn )
Das Wahrscheinlichkeitsmass P0 induziert durch X auf (Ω0 , A0 ) heisst die Verteilung der Zufallvariable X und wird oft mit PX bezeichnet. Zwei Zufallvariaben heissen
identisch verteilt, wenn Sie die selbe Verteilung haben.
Im Beispiel mit den n Münzwürfe haben wir Ω =P{0, 1}n , Ω0 = {0, 1, . . . , n} und die
Zufallvariable X : Ω → Ω0 , definiert durch X(x) = nj=1 1(xj ), die die Anzahl Erfolge
(Ergebnis 0) misst. Auf Ω (versehen einfach mit der σ-Algebra P (Ω)) es scheint sinnvoll
eine Gleichverteilung zu betrachten; das Warscheinlichkeitmass ist durch P(x) = 2−n
für alle x ∈ Ω definiert. Die Zufallvariable X induziert dann auf Ω0 das Wahrscheinlichkeitsmass PX = P ◦ X −1 , das durch
|{x ∈ Ω : X(x) = k}|
n 1
PX ({k}) = P(X −1 ({k})) = P({x ∈ Ω : X(x) = k}) =
=
2n
k 2n
definiert ist. Hier haben wir die Tatsache benutzt, dass die Anzahl x ∈ Ω mit X(x) = k
genau nk ist. Also, die Zufallvariable X hat eine Binomialverteilung, mit Parameter
p = 1/2.
Im Fall (Ω0 , A0 ) = (R; B(R)), ist die Abbildung X : Ω → R eine Zufallvariable
(bezüglich der σ-Algebra A auf Ω) genau dann, wenn eine der folgende equivalente
Bedingungen erfüllt ist
X −1 ((−∞; t]) = {x ∈ Ω : X(x) ≤ t} ∈ A,
für alle t ∈ R
X −1 ((−∞; t)) = {x ∈ Ω : X(x) < t} ∈ A,
für alle t ∈ R
−1
((t; ∞)) = {x ∈ Ω : X(x) > t} ∈ A,
für alle t ∈ R
X −1 ([t; ∞)) = {x ∈ Ω : X(x) > t} ∈ A,
für alle t ∈ R
X
Zum Beispiel, wenn Ω ⊂ Rn und A = B(Ω) ist die Borel σ-Algebra auf Ω, dann ist
jede stetige Funktion f : Ω → R Borel-messbar (zB. weil das Urbild f −1 ((−∞; t)) sicher
offen ist, wenn f stetig ist). Ist nun (Ω, A, P) ein belibiger Wahrscheinlichkeitsraum,
und X : Ω → R eine reelwertige Zufallvariable, so können wir wie in Satz 2.12, die
Verteilung PX : R → [0; 1] durch PX (B) := P(X −1 (B)) definieren, für alle B ∈ B(R)).
Insbesondere, wir können die Verteilungsfunktion
FX (t) := PX ((−∞; t]) = P(X −1 ((−∞; t])) = P({x ∈ Ω : X(x) ≤ t})
definieren. Oft schreiben wir einfach FX (t) = P(X ≤ t). FX ist die Verteilungsfunktion des Wahrscheinlichkeitsmasses, das die Zufallvariable X auf (R; B(R)) induziert; sie
heisst die Verteilungsfunktion der Zufallvariable X.
2.5
Erwartungswert und Varianz einer Zufallvariable
Wir betrachten in diesem Abschnitt Zufallvariablen mit Werten in R, oder in einer
Teilmenge von R (möglicherweise auch eine diskrete Teilmenge von R). Wir möchten
einfache Grösse einführen, die die wichtigste Eigenschaften diesen Zufallvariablen beschreiben. Die erste solche Grösse ist der Erwartungswert.
Definition 2.13. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine
reelwertige Zufallvariable. Ist X auf Ω integrierbar, so definieren wir den Erwartungswert
von X durch
Z
E X :=
XdP
Ω
28
Bemerkung. Der Raum von allen Funktionen auf Ω, die bzg. A messbar und bzg. P
integrierbar sind, wurde in Analysis 3 mit L1 (Ω, A, P) bezeichnet. Der Erwartungswert
ist also für alle Zufallvariablen X ∈ L1 (Ω, A, P) definiert. Wie wir schon in Analysis 3
gemacht haben, kann man Zufallvariablen als Equivalenzklassen von messbaren Funktionen definieren. In diesem Fall wird der Erwartungswert für alle X ∈ L1 (Ω, A, P)
definiert.
Beispiel. Sei Ω = [−1/2; 1/2] ⊂ R versehen mit der Borel σ-Algebra auf Ω. Sei P die
Gleichverteilung auf Ω, d.h. P(A) = λ(A) für alle A ∈ B(Ω) (λ(A) ist hier das Lebesgue
Mass von A). Wir betrachten die Zufallvariable X : Ω → R, definiert durch X(x) = x2 .
Dann ist X ∈ L1 (Ω, B(Ω), P) und
Z 1/2
Z
Z
1
2
x2 dx =
x dλ(x) =
EX = XdP =
12
−1/2
[−1/2;1/2]
Man kann der Erwartungswert auch für Zufallvariablen definieren, die Werte auf
einer diskrete Teilmenge von R nehmen. Betrachten wir zB. eine Funktion X : Ω → Ω0 ,
mit |Ω0 | < ∞. In diesem Fall ist der Erwartungswert immer wohldefiniert, und
Z
X
X
E X = XdP =
λP ({x ∈ Ω : X(x) = λ}) =
λP(X = λ)
(9)
λ∈Ω0
λ∈Ω0
In diesem Fall sieht man sehr klar, dass der Erwartungswert von X die Mittelung über
alle mögliche Werte der Zufallvariable X ist, gewogen mit der entsprechende Wahrscheinlichkeit. Die Formel (9) kann auch benutzt werden, wenn |Ω0 | abzählbar ist; in
diesem
P Fall muss man zunächst aber die Integrierbarkeit von X (d.h. die Endlichkeit
von λ |λ|P(X = λ)) überprüfen.
Beispiel: betrachten wir wieder das Beispiel mit den n Münzwürfe. Sei Ω = {0, 1}n ,
und sei X : Ω → {0, 1, . . . , n} die Zufallvariable,
die der Anzahl Erfolge (ein Erfolg ist
Pn
ein Ergebnis 0) misst, d.h. X(x) = j=1 1(xj = 0). Auf Ω definieren wir die Gleichverteilung P(A) = |A|/2n für jede Teilmenge A ⊂ Ω. Wir möchten den Erwartungswert
von X berechnen. Wir finden
n
n
X
X
EX =
kP(X = k) =
kP ({x ∈ Ω : X(x) = k})
=
k=0
n
X
k=0
k=0
n n 1
n X n−1
n
k
= n
=
n
k 2
2
k−1
2
k=1
wie wir intutitiv erwarten könnten.
Der Erwartungswert einer Zufallvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P)
ist also einfach das Integral einer Funktion auf Ω. Alle Eigenschaften vom Integral, die in
Analysis 3 besprochen wurden, können also direkt auf dem Erwartungswert angewandt
werden. Wir fassen die wichtigste Eigenscahften im nächsten Theorem zusammen.
Theorem 2.14. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. X, Y ∈ L1 (Ω, A, P) zwei
reelwertige Zufallsvariablen, und α ∈ R. Dann
a) Linearität: X + αY ∈ L1 (Ω, A, P) und
E(X + αY ) = EX + αEY
29
b) Monotonie: ist X(x) ≤ Y (x) für alle x ∈ Ω, dann gilt
EX ≤ EY
Ähnlich kann man auch das Theorem der monotone Konvergenz und das Theorem
der dominierte Konvergenz benutzen, um Grenzwerte von Erwartungswerte zu berechnen.
Bemerke auch, dass den Begriff von Erwartungswert auch auf Zufallvariablen mit
Werten in Rn (der Erwartungswert wird dann komponenteweise definiert, wie das Integral) oder in C (man nimmt separat den Erwartungswert von reellen und imaginäre
Teil) erweitert werden kann. Wir sparen uns die offenbare Definitionen.
Wir haben im letzten Abschnitt gesehen, die Zufallvariabel X : Ω → R, definiert auf
einem Wahrscheinlichkeitsraum (Ω, A, P), induziert ein Wahrscheinlichkeitsmass PX =
P ◦ X −1 auf (R; B(R)); wir haben PX als die Verteilung der Zufallvariable X bezeichnet.
Es ist dann natürlich zu fragen, ob es möglich ist, der Erwartungswert von X direkt
mit Hilfe der Verteilung PX zu berechnen, ohne Benutzung des Masses P. Im nächsten
Theorem zeigen wir, dass das tatsächlich möglich ist. Eigentlich beweisen wir noch mehr;
der Erwartungswert von jeder Funktion von X (gesehen als eine neue Zufallvariabel auf
Ω) kann mit Hilfe der Verteilung PX berechnet werden.
Satz 2.15. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine reelwertige
und bezüglich P integrierbare Zufallvariabel. Sei PX = P ◦ X −1 die Verteilung der Zufallvariable X (PX ist dann ein Wahrscheinlichkeitsmass auf R, versehen mit der Borel
σ-Algebra B(R)). Dann gilt
Z
xdPX (x)
E X = EPX 1 =
R
wobei 1 : R → R die Identität 1(x) = x ist (insbesondere ist die Funktion 1 bezüglich
PX integrierbar). Hier ist EPX 1 der Erwartungswert der Zufallvariable 1 bezüglich dem
Wahrscheinlichkeitsmass PX . Ferner, für jede messbare Funktion f : R → R, mit f ◦X ∈
L1 (Ω, A, P) gilt f ∈ L1 (R, B(R), PX ) und
Z
E (f ◦ X) = EPX f = f (x)dPX (x)
(10)
Beweis. Wir zeigen direkt (10). Sei zunächst f eine charakteristische Funktion, d.h.
f = 1A , für ein A ∈ B(R). Dann ist (f ◦ X)(x) = f (X(x)) = 1A (X(x)) = 1X −1 (A) (x)
und deswegen
Z
Z
Z
−1
E(f ◦ X) = (f ◦ X) dP = 1X −1 (A) dP = P(X (A)) = PX (A) = 1A dPX = EPX f
Mit Hilfe der Linearität des Erwartungswertes, folgt die Behauptung für beliebige einfache Funktionen f : R → R. Ist nun f positiv, aber nicht unbedingt einfach, so können
wir eine Folge einfache Funktionen fn finden, die monoton gegen f konvergieren. Das
Theorem der monotone Konvergenz impliziert dann, dass
E(f ◦ X) = lim E(fn ◦ X) = lim EPX fn = EPX f
n→∞
n→∞
30
Für eine beliebige (nicht unbedingt positive) f , schreiben wir f = f+ −f− . Aus Annahme
sind f+ ◦ X und f− ◦ X integrierbar und positiv. Es folgt, dass E(f ◦ X) = EPX f , wie
behauptet.
Es folgt aus dem letzten Satz, dass alle Eigenscahften einer Zufallvariable X werden
durch die Verteilung PX bestimmt. Um Erwartungswerten von Funktionen von X zu
berechnen brauchen wir gar nicht zu wissen, auf welchem Wahrscheinlichkeitsraum X
ursprünglich definiert war. Alles was wir brauchen ist die Verteilungsfunktion PX von
X. Oft in der Wahrscheinlichkeitstheorie wird deswegen den abstrakten Wahrscheinlichkeitsraum vergessen, und Zufallvariablen werden nur durch ihrer Verteilungsfunktion
PX definiert (die Bedeutung und die Interpretation der Zufallvariable X ist aber nur
klar, wenn man weisst, wo X ursprünglich definiert war). Die Notation X ∼ PX bedeutet, dass X eine Zufallvariable ist (auf irgendeinem Wahrscheinlichkeitsraum), mit
Verteilung PX . Z.B. wenn N (m, v) eine Normalverteilung mit Erwartungswert m und
Varianz v bezeichnet, so bedeutet X ∼ N (m, v), dass X eine Zufallvariable ist, mit
Normalverteilung.
Anderseits, jedes Wahrscheinlichkeitsmass P auf (R; B(R)) kann als die Verteilung
einer Zufallvariable verstanden werden, nämlich von der Variable X = 1, definiert auf
R. In diesem Sinn kann man auch der Erwartungswert eines Wahrscheinlichkeitsmass
berechnen; was gemeint wird ist immer den Erwartungswert der Zufallvariable mit Verteilung P, also
Z
EP 1 =
x dP(x)
R
Ist insbesondere ein Wahrscheinlichkeitsmass P auf (R; B(R)) absolut stetig, dann
können wir der Erwartungswert von P mit Hilfe seiner Wahrscheinlichkeitsdichte ρ berechnen. Erinnere, dass die Dichte ρ eines absolut stetiges Mass so definiert ist, dass
Z
P(A) =
ρ dλ
A
für alle A ∈ B(R) (ρ ist die Radon-Nikodym derivative von P bezüglich dem Lebesgue
Mass λ). Also
Z
Z
EP 1 = x dP(x) =
xρ(x) dλ(x)
R
Beispiele.
i) Betrachten wir eine Zufallvariable X ∼ Exp (a) (Exp (a) bezeichnet die Exponentialverteilung, mit Parameter a, dessen Dichte aus ρ(x) = ae−ax 1(x > 0) gegeben
ist). Was ist den Erwartungswert von X? Wir berechnen
Z
EX =
xae−ax 1(x > 0)dλ(x)
ZR∞
axe−ax dx
=
0
Z ∞
e−ax ∞
1
−ax ∞
= −xe |0 +
e−ax dx = −
|0 =
a
a
0
31
ii) Sei nun X ∼ N (m, v). Der Erwartungswert von X ist dann
Z
Z
(x−m)2
(x−m)2
1
1
−
2
2σ
xe
=m+ √
(x − m)e− 2σ2 = m
EX = √
2πσ 2 R
2πσ 2 R
Neben dem Erwartungswert kann man einer reelwertigen Zufallvariable X auch anderen Grösse zuordnen. Die wichtigste ist die Varianz, die die Breite der Verteilung von
X misst.
Definition 2.16. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine Zufallvariable. Wir nehmen an, dass X 2 bezüglich P integrierbar ist (also X 2 ∈
L1 (Ω, A, P), oder, wenn wir an equivalenzklassen von Funktionen denken, einfach, dass
X ∈ L2 (Ω, A, P)). Dann definieren wir die Varianz von X durch
Z
2
Var X = E(X − EX) = (X − EX)2 dP
(Da P ein Wahrscheinlichkeitsmass ist, impliziert die Tatsache, dass X 2 integrierbar
auch, dass X integrierbar ist; das muss also nicht separat angenommen werden).
Von der Definition sieht man klar, dass die Varianz die Fluktuationen einer Zufallvariable um ihr Erwartungswert misst. Die Varianz ist immer positiv. Sie ist gerade dann
gleich Null wenn X = EX P-fast überall, also wenn X den Wert EX mit Wahrscheinlichkeit 1 annimmt. Wir bemerke, dass die Varianz von X auch durch
Var X = E(X − EX)2 = E(X 2 + 2X(EX) − (EX)2 ) = EX 2 − (EX)2
(11)
berechnet werden kann. Es folgt aus Satz 2.15, dass die Varianz auch mit Hilfe der
Verteilung PX von X berechnet werden kann. In der Tat
2
Z
VarX = E(X − EX) =
Z
2
(x − EX) dPX (x) =
2
x dPX (x) −
Z
2
xdPX (x)
Wenn die Verteilung PX absolut stetig ist, dann können wir die Varianz mit Hilfe ihrer
Wahrscheinlichkeitdichte ρ berechnen. Wir finden
Z
Var X =
x2 ρ(x)dλ(x) −
Z
2
xρ(x)dλ(x)
Beispiele.
i) Betrachten wir die diskrete Zufallsvariable X mit Werten in {1, . . . , n} und Verteilung
1 n
PX ({k}) = n
2 k
Wir haben früher gesehen, dass X die Anzahl Erfolge in n Münzwürfe misst (das ist
aber nicht mehr wichtig, zur Berechnung der Varianz; Kenntniss von der Verteilung
32
PX ist genug). Wir haben schon gesehen, dass EX = n/2. Zur Berechnung der
Varianz müssen wir noch
n
n
1 X
n!
n
1 X 2 n
2
k
= n
k(k − 1)
+
EX = n
2
2
k!(n − k)! 2
k
k=0
k=0
n
n(n − 1) X n − 2
n
n(n − 1) n
n(n + 1)
=
+ =
+ =
n
2
k−2
2
4
2
4
k=2
Also
Var X =
n(n + 1) n2
n
−
=
4
4
4
ii) Sei X ∼ Poi(λ) (Poi(λ) bezeichnet eine Poisson Verteilung, mit Parameter λ). Der
Erwartungswert von X ist
∞
∞
X
X
λk −λ
λk−1 −λ
EX =
k e =λ
e =λ
k!
(k − 1)!
k=0
k=1
Ferner
EX 2 =
∞
X
k=0
k2
∞
∞
k=0
k=2
X λk−2
λk
λk −λ X
e =
k(k − 1) e−λ + λ = λ2
e−λ + λ = λ2 + λ
k!
k!
(k − 1)!
Also
Var X = λ2 + λ − λ2 = λ
D.h. die Poisson-Verteilung mit Parameter λ hat Erwartungswert und Varianz
gleich λ.
Erwartungswert und Varianz werden mit Hilfe der Verteilung PX der Zufallsvariable
X berechnen. Anderseits, Kenntniss von EX und Var X geben wichtige Informationen
über die Verteilung von X. ZB. die Chebyshev Ungleichung zeigt, dass
1
1
E(X − EX)2 = 2 Var X
(12)
2
t
t
und erlaubt uns die Fluktuationen um EX zu schätzen. Um (12) zu beweisen, bemerken
wir einfach, dass
P(|X − EX| ≥ t) ≤
P(|Y | ≥ t) = P(t−1 |Y | ≥ 1) = E1(t−1 |Y | ≥ 1) ≤ Et−2 |Y |2 = t−2 E|Y |2
aus der Monotonie des Erwartungswertes.
Manchmal ist es auch nützlich die Erwartungswerte von höheren Potenzen einer
Zufallvariabel X zu berechnen. Sei r ∈ N, (Ω, A, P) ein Wahrscheinlichkeitsraum, und
X : Ω → R eine Zufallvariabel mit X r ∈ L1 (Ω, A, P). Wir bezeichnen mit PX = P ◦ X −1
die Verteilung der Zufallvariabel X. Wir definieren das p-te Moment von X durch
Z
Z
p
r
Mp = EX =
X dP =
xr dPX (x).
Ω
R
Momente sind manchmal wichtig, weil sie oft (aber nicht immer) Wahrscheinlichkeitsverteilungen eindeutig charakterisieren. Ein nützliches Kriterium ist in der folgenden Proposition gegeben (wir werden die Proposition hier nicht beweisen; ein Beweis
kann in .. gefunden werden).
33
Proposition 2.17. Sei Mn ∈ R eine Folge mit der Eigenschaft, dass Mp ≥ 0 für alle p
gerade und so, dass ein a > 0 existiert, mit
∞
X
p=1
M2p
a2p
<∞
(2p)!
Dann
existiert hc̈hstens ein Wahrscheinlichkeitsmass P auf (R, B(R)) so, dass Mn =
R
xdP
für alle n ∈ N.
R
Beispiel: Sei X eine Zufallvariable mit Normalverteilung, mit Erwartungswert 0 und
Varianz 1. Die Momente von X sind dann Mp = 0 falls p ungerade und
M2p =
(2p)!
2p p!
Beweis: Übung.
Statt alle Momente von X zu berechnen, es ist manchmal nützlich die sogenannte
Momenten erzeugende Funktion von X zu berechnen. Sei X eine reelle Zufallsvariable
auf einem Wahrscheinlichkeitsraum (Ω, A, P) so, dass ein a > 0 existiert mit Ee±aX < ∞.
Dann können wir die Momenten erzeugende Funktion von X durch
ψ(z) := EezX
definieren, für z in einer Umgebung von 0. Mit Hilfe von dominierte Konvergenz kann
man dann zeigen, dass ψ ist in Null beliebig oft differenzierbar, mit
ψ (p) (0) = EX p = Mp
für alle p ∈ N.
Beispiele: wir berechnen die Momenten erzuegende Funktion von ein Paar Verteilungen.
i) Sei X eine Zufallvariable mit Exponentialverteilung, d.h. mit Dichte ρa (x) =
ae−ax 1(x ≥ 0). Die Momenten erzeugende Funktion ist dann
Z
Z ∞
a
1
zX
zx
ψa (z) = E e =
e ρa (x)dλ(x) =
e(z−a)x adx =
=
a−z
1 − z/a
R
0
falls z < a. Damit finden wir
EX p = ψa(p) (0) =
p!
ap
für alle p ∈ N.
ii) Sei nun X eine Zufallvariable mit Poisson-Verteilung mit Parameter λ > 0, d.h.
X λk
PX =
e−λ δk
k!
k∈N
Wir berechnen die Momenten erzeugende Funktion:
∞
ψλ (z) = EezX =
X
k∈N
ezk
X (λez )k
λk −λ
z
z
e = e−λ
= e−λ eλe = e−λ(1−e )
k!
k!
k=0
für alle z ∈ R. Im Prinzip können wir damit alle Momente von X berechnen indem
wir die Ableitungen von ψλ an der Stelle Null bestimmen.
34
2.6
Charakteristische Funktion
Eine andere nützliche Funktion, die man einer Zufallvariabel zuordnen kann, ist ihre
charakteristische Funktion.
Definition 2.18. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und X : Ω → R eine
reelwertige Zufallvariabel auf Ω, mit Wahrscheinlichkeitsverteilung PX = P ◦ X −1 . Dann
heisst
Z
Z
itX
itX
φX (t) = E e
=
e dP = eitx dPX (x)
Ω
die charakteristische Funktion von X.
Ist PX absolut stetig bezüglich dem Lebesgue Mass, und ist ρX : R → [0; ∞) die
Wahrscheinlichkeitsdichte von X, so ist
Z
φ(t) = eitx ρX (x)dλ(x)
die Fourier transformierte von ρX .
Im nächsten Lemma zeigen wir die Stetigkeit der charakteristische Funktion.
Lemma 2.19. Sei X : Ω → R eine reelwertige Zufallvariabel auf einem Wahrscheinlichkeitsraum (Ω, A, P). Dann ist die charakteristische Funktion φ(t) = EeitX gleichmässig
stetig auf R.
Beweis. Sei PX = P ◦ X −1 die Verteilung von X. Dann
Z
|φX (t) − φX (s)| = E|eitX − eisX | =
|eitx − eisx |dPX (x)
R
Z
i(t−s)x
=
|1 − e
|dPX (x)
Z
ZR
i(t−s)x
|1 − e
|dPX (x) +
|1 − ei(t−s)x |dPX (x)
=
(13)
|x|>N
|x|≤N
c
≤ N |t − s| + PX ([−N ; N ] )
weil |1 − eix | ≤ |x|. Nun, zu gegebenen ε > 0, finden wir N > 0 gross genug, damit
PX ([−N ; N ]c ) ≤ ε/2. Wir setzten dann δ = ε/2N . Dann, für alle t, s ∈ R mit |t − s| < δ,
finden wir aus (13), dass |φX (t) − φX (s)| ≤ ε. D.h. φX ist gleichmässig stetig.
Wie die Momenten erzeugende Funktion ist auch die charakteristische Funktion einer
Zufallvariable mit den Momenten von X verknp̈ft.
Lemma 2.20. Sei X eine reelwertige Zufallvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P). Sei n ∈ N mit E|X|n < ∞. Dann ist die charakteristische Funktion φX ∈
C n (R) und
(j)
φX (0) = ij EX j
für alle j = 0, 1, . . . , n.
35
Beweis. Wir betrachten zunächst den Fall n = 1. Dann gilt
Z i(t+ε)x
Z
e
− eitx
eiεx − 1
φX (t + ε) − φX (t)
eitx
=
dPX (x) =
dPX (x)
ε
ε
ε
R
R
Da
itx eiεx − 1 e
≤ |x|
ε
gleichmässig in ε, und da, nach Annahme |x| ∈ L1 (R, B(R), dPX ), es folgt aus dominierten Konvergenz, dass
Z
φX (t + ε) − φX (t)
(1)
lim
=
ixeitx dPX (x) =: φX (t)
ε→0
ε
R
(1)
Insbesondere ist φX differenzierbar. Die (gleichmässige) Stetigkeit von φX kann ähnlich
wie in Lemma 2.19 bewiesen werden. In der Tat
Z
Z
(1)
(1)
i(t−s)x
2
|x||1 − e
|dPX (x) ≤ N |t − s| + 2
|x|dPX (x)
φX (t) − φX (s) ≤
|x|>N
R
für alle N > 0. Zu gegebenen ε > 0 können wir nun N > 0 finden so, dass
Z
|x|dPX (x) < ε/2
|x|>N
(weil das Integral auf R ist endlich). Dann setzen wir einfach δ = ε/2N 2 , um zu zeigen,
(1)
(1)
dass |t − s| < δ impliziert, |φN (t) − φN (s)| ≤ ε. Das zeigt, dass φX ∈ C 1 (R). Iterativ
n
kann man zeigen, dass, falls E|X| < ∞, dann ist φX ∈ C n (R), mit
Z
(j)
φX (t) = (ix)j eitx dPX (x)
R
(j)
für alle j = 1, . . . , n. Insbesondere φX (0) = ij EX j .
Beispiele. Wir diskutieren ein Paar Beispiele.
i) Sei X eine Zufallvariable, mit Cauchy Verteilung, beschrieben aus der Wahrscheinlichkeitdichte ρa (x) = (a/π)(x2 + a2 )−1 . Die charakteristische Funktion von X ist
Z
Z
1
a ∞
eitx
ixt π
φX (t) =
e
dx
=
dx
a x2 + a2
π −∞ (x + ia)(x − ia)
R
Für t > 0 können wir das Integral im oberen Halbebene schliessen. Aus der Pol
an der Stelle x = ia finden wir den Beitrag
Z ∞
eitx
e−ta
dx = −
.
4πa
−∞ (x + ia)(x − ia)
Für t < 0 können wir dagegen das Integral im unteren Halbebene schliessen, und
wir kriegen
Z ∞
eitx
eta
dx = −
.
4πa
−∞ (x + ia)(x − ia)
36
Also, die charakteristische Funktion einer Zufallvariable mit Cauchy Verteilung ist
φX (t) =
1 −|t|a
e
(2π)2
ii) Sei X eine Zufallvariable mit Binomial-Verteilung auf {0, 1, . . . , n}. Die charakteristische Funktion ist dann
Z
n
X
itx
itk n
φX (t) =
e dPX (x) =
pk (1 − p)n−k = (eit p + (1 − p))n
e
k
R
k=0
iii) Sei nun X normalverteilt, mit Erwartungswert m und Varianz v. Die Dichte von
X ist
1
2
ρX (x) = √
e−(x−m) /2v
2πv
Die charakteristische Funktion ist dann
Z
Z ∞
1
eitm
2
2
φX (t) = √
eitx e−(x−m) /2v dλ(x) = √
eitx e−x /2v dx
2πv R
2πv −∞
Z
2
∞
eitm e−vt /2
2
√
=
e−(x−ivt) /2v
2πv
−∞
Wenn wir die Integration-variable y = x−ivt zurück auf der reellen Achse schieben,
finden wir
2
(14)
φX (t) = eitm e−vt /2 .
Die charakteristische Funktion spielt oft eine wichtige Rolle, weil sie die Verteilung
eindeutig festlegt.
Satz 2.21. Sei X eine reelwertige Zufallvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P). Die charakteristische Funktion von X legt die Verteilung von X eindeutig
fest. Mit andere Wörter, seien X, Y zwei reelwertige Zufallvariable auf (Ω, A, P) mit
φX = φY . Dann muss PX = PY gelten.
Um den Satz zu beweisen, brauchen wir das folgende Lemma.
Lemma 2.22. Sei (Rn , B(Rn ), P) ein Wahrscheinlichkeitsraum.
a) Für jede A ∈ B(Rn ) und ε > 0 gibt es Fε abgeschlossen und Gε offen mit Fε ⊂
A ⊂ Gε und P(Gε \Fε ) < ε.
b) Das Wahrscheinlichkeitsmass P wird eindeutig bestimmt durch die Werte der Integrale
Z
f dP,
für alle f ∈ Cb (Rn )
Hier bezeichnet Cb (Rn ) den Raum der stetigen und beschränkten Funktionen auf
Rn .
37
Beweis. a) Sei F die Menge aller abgeschlossenen Mengen in Rn und G die Menge aller
offenen Mengen. Wir setzen
H = {A ∈ B(Rn ) : ∀ ε > 0 ∃ Fε ∈ F und Gε ∈ G mit Fε ⊂ A ⊂ Gε und P(Gε \Fε ) < ε}
Es ist leicht zu sehen, dass H eine σ-Algebra ist. Es gilt F ⊂ H. In der Tat, falls A ∈ F,
setzen wir Fε = A. Um Gε zu definieren, setzen wir G̃n := {x ∈ Rn : d(x, A) < 1/n} für
alle n ∈ N. Es gilt G̃n+1 ⊂ G̃n für alle n. Deswegen ist
lim P(G̃n ) = P(∩n∈N G̃n ) = P(A)
n→∞
und wir können n ∈ N gross genug finden so, dass P(G̃n ) < P(A) + ε. Dann setzen
wir Gε = G̃n . Das zeigt, dass F ⊂ H. Da aber B(Rn ) die kleinste σ-Algebra ist, die F
enthält, muss H = B(Rn ).
b) Sei A ∈ B(Rn ) beliebig. Für alle n ∈ N finden wir Fn abgeschlossen, mit Fn ⊂ A
und P(Fn ) ≤ P(A) ≤ P(Fn ) + 1/n. O.B.d.A. können wir auch annehmen, dass die
Folge Fn monoton wachsend ist (sonst ersetzen wir Fn durch die abgeschlossene Menge
˙ n ). Also P(A) = limn→∞ P(Fn ), und P ist eindeutig durch die Werten P(F )
F1 ∪ ∪F
bestimmt.
Sei nun

t≤0
 1
1−t
0<t<1
ϕ(t) =

0
t≥1
Für eine abgeschlossene Menge F ⊂ Rn und n ∈ N setzen wir
ϕn,F (x) := ϕ(nd(x, F ))
für alle x ∈ Rn . Dann ist ϕn,F beschränkt und stetig für alle n ∈ N. Ferner, die Folge
ϕn,F ist monoton fallend, mit ϕn,F (x) → 1F (x) für n → ∞. Dominierte Konvergenz
impliziert, dass
Z
Z
lim
ϕn,F dP = 1F dP = P(F )
n→∞
Also, wie behauptet, das Wahrscheinlichkeitsmass P wird eindeutig durch die Integrale
von stetige und beschränkte Funktionen bestimmt.
Wir sind nun bereit, um Satz 2.21 zu beweisen.
Beweis. Sei X eine Zufallvariable, und PX die entsprechende Verteilung. Wir bezeichnen
mit φX die charakteristische Funktion von X. Wir möchten zeigen, dass PX eindeutig
durch φX ausgedruckt werden kann. Für v > 0 setzen wir
pv (x) = √
1
2
e−x /2v .
2πv
Ferner, definieren wir
Z
pv (x − y)dPX (y)
fv (x) =
R
38
Die rechte Seite definiert die Faltung von pv mit dem Mass PX (und wird also oft mit
(pv ∗ PX )(x) bezeichnet). Wir bezeichnen mit PX,v das Wahrscheinlichkeitsmass mit
Wahrscheinlichkeitsdichte fv , d.h.
Z
PX,v (A) =
fv dλ
A
für alle A ⊂ R. Wir zeigen, dass fv , und deswegen das Mass PX,v , eindeutig durch φX (t)
ausgedrückt werden kann. Dazu bemerken wir, dass
Z
√
x2
e−itx p1/v (t)dt
2πvpv (x) = e− 2v =
R
Also, mit Fubini,
Z
Z Z
1
−it(x−y)
pv (x − y)dPX (y) = √
fv (x) =
e
p1/v (t)dt dPX (y)
2πv R R
R
Z
Z
Z
1
1
−itx
ity
e
p1/v (t)
e dPX (y) dt = √
e−itx p1/v (t)φX (t)dt
=√
2πv R
2πv R
R
Das zeigt, dass fv nur mit Hilfe von φX bestimmt werden kann, für alle v > 0. Nun
behaupten wir, dass für jede stetige und beschränkte Funktion h : R → R, es gilt
Z
Z
lim
hdPX,v = hdPX
(15)
v→0+
Das bedeute jede Integral wie auf der rechten Seite von (15) wird eindeutig durch φX
bestimmt. Aus Lemma 2.22 folgt, dass PX eindeutig durch φX bestimmt wird, wie
behauptet.
Um (15) zu zeigen, bemerken wir, dass
Z
Z
Z
Z
hdPX,v = hfv dλ = h(y)
pv (y − x)dPX (x) dλ(y)
Z Z
Z
=
h(y)pv (x − y)dλ(y) dPX (x) = (h ∗ pv )dPX
Wir haben
Z
(h ∗ pv )(x) − h(x) =
pv (x − y)(h(y) − h(x))
Z
1
2
=√
e−(x−y) /2v (h(y) − h(x))dλ(y)
2πvZ
1
2
=√
e−y /2 (h(x + vy) − h(x))dλ(y)
2π
Für h beschränkt und stetig, finden wir aus domnierte Konvergenz, dass
lim (h ∗ pv )(x) = h(x)
v→0
für alle v > 0. Wir wenden noch einmal dominierte Konvergenz, um zu zeigen, dass
Z
Z
lim (h ∗ pv )dPX = hdPX
v→0
für alle h : R → R stetig und beschränkt.
39
3
Bedingte Wahrscheinlichkeit und Unabhängigkeit
3.1
Bedingte Wahrscheinlichkeit
In diesem Abschnitt führen wir den Begriff von bedingte Wahrscheinlichkeit ein. Wir
betrachten dazu ein Wahrscheinlichkeitsraum (Ω, A, P) und wir untersuchen, wie das
Eintreten von Ereignisse die Wahrscheinlichkeiten beeinflusst. Sei also B ∈ A ein Ereignis. Durch das Eintreten von B müssen wir die Wahrscheinlichkeiten der anderen
Ereignisse revidieren. Das Wahrscheinlichkeitsmass P wird durch ein neues Mass PB .
Wir verlangen, dass PB die folgenden Eigenschaften hat:
i)PB (B) = 1,
ii) ist A ∈ A und A ⊂ B, dann muss PB (A) = cB P(A).
(16)
Lemma 3.1. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und B ∈ A mit P(B) > 0.
Dann gibt es ein eindeutiges Wahrscheinlichkeitsmass PB mit den Eigenscahften (16),
gegeben aus
P(A ∩ B)
PB (A) =
(17)
P(B)
für alle A ∈ A.
Beweis. Einerseits ist es klar, dass (17) ein Waahrscheinlichkeitsmass ist, das die Bedingungen (16) erfüllt. In der Tat, P(B ∩B)/P(B) = 1 und, für A ⊂ B, ist P(A∩B)/P(B) =
P(A)/P(B) proportional zu P(A). Anderseits, wenn (16) gilt, dann, für ein beliebiges
A ∈ A, können wir schreiben
PB (A) = PB (A ∩ B) + PB (A\B) = cB P(A ∩ B)
weil PB (A\B) = 0 (das folgt aus der Bedingung i). Mit A = B finden wir cB = P(B)−1
und (17).
Das Lemma führt uns zur nächste Definition.
Definition 3.2. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Seien A, B ∈ A mit P(B) >
0. Dann definieren wir die bedingte Wahrscheinlichkeit von A gegeben B durch
P(A|B) =
P(A ∩ B)
P(B)
Es folgt aus Lemma 3.1, dass P(.|B) : A → [0; 1] ein Wahrscheinlichkeitsmass auf (Ω, A)
definiert (oder auch auf (B, A ∩ B)).
Die Definition von bedingter Wahrscheinlichkeit ist auch sinnvoll, wenn wir an der
frequentistischen Interpretation von Wahrscheinlichkeiten denken. In diesem Fall, wenn
wir das Zufallsexperiment n Mal wiederholen, das Ereignis B wird nP(B) fallen. Das
Ereignis A∩B wird dagegen nP(A∩B) Mal fallen. Also, wenn wir nur die Experimenten
betrachten, in welchen B gefallen ist (das ist die Bedeutung von “gegeben B”), die
Frequenz vom Ereignis A ist P(A ∩ B)/P(B).
Eine wichtige Folgerung aus der Definition ist die sogenannte Fallunterscheidungsformel, um die Wahrscheinlichkeit eines Ereignis A in bedingte Wahrscheinlichkeiten
P(A|Bn ) zu zerlegen, wenn (Bn ) eine Partition von Ω ist. Die Fallunterscheidungsformel
kann auch benutzt werden, um die Bayes-Formel für a-posteriori Wahrscheinlichkeiten
herzuleiten.
40
Lemma 3.3. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, I eine abzählbare Indexmenge
und (Bn )n∈I eine Folge disjukten Mengen in A mit ∪n∈I Bn = Ω und P(Bn ) > 0 für alle
n ∈ I.
a) Fallunterscheidungsformel: für alle A ∈ A gilt
X
P(A) =
P(A|Bn )P(Bn )
n∈N
b) Bayes-Formel: für alle A ∈ A mit P(A) > 0 und alle k ∈ N gilt
P(Bk )P(A|Bk )
n∈N P(Bi )P(A|Bi )
P(Bk |A) = P
Beweis. Wir haben
X
P(A|Bn )P(Bn ) =
n∈N
X
P(A ∩ Bn ) = P(A)
n∈N
weil die Mengen A ∩ Bn disjunkt sind (und ∪n (A ∩ Bn ) = A). Das zeigt a). Um b) zu
zeigen, bemerken wir, dass
P(Bk |A) =
P(Bk )
P(Bk ∩ A)
=
P(A|Bk )
P(A)
P(A)
Die Behauptung folgt dann aus a).
Mit einem Beispiel zeigen wir, wie die Bayes-Formel benutzt werden kann. Eine
Krankheit komme bei 2% einer Bevölkerung vor. Ein Testverfahren spreche bei 95% der
Kranken und bei 10% der Gesunden an. Mit welcher Wahrscheinlichkeit ist eine zufällige
Person krank, wenn der Test anspricht? Mit welche Wahrscheinlichkeit ist eine zufällige
Person krank, wenn der Test nicht anspricht? Um die zwei Fragen zu beantworten, wir
nennen Ω die endliche Menge der Bevölkerung. Auf Ω betrachten wir die Gleichverteilung
P(E) = |E|/|Ω| für alle E ⊂ Ω. Wir bezeichnen mit B1 die Menge der Kranken und mit
B2 die Menge der Gesunden. Offenbar gilt B1 ∪B2 = Ω. Ferner wir bezeichnen mit A ⊂ Ω
die Menge der Testpositiven. Wir wissen P(B1 ) = 0.02, P(B2 ) = 0.98, P(A|B1 ) = 0.95,
P(A|B2 ) = 0.10. Wir berechnen die Warscheinlichkeit, dass jemand wirklich krank ist,
wenn der Test anspricht:
P(B1 |A) =
P(A|B1 )P(B1 )
.95 · .02
=
' 0.16
P(A|B1 )P(B1 ) + P(A|B2 )P(B2 )
.95 · .02 + .10 · .98
Anderseits, die Wahrscheinlichkeit, dass jemand krank ist, wenn der Test nicht anspricht,
ist
P(Ac |B1 )P(B1 )
.05 · .02
P(B1 |Ac ) =
=
' .001
c
c
P(A |B1 )P(B1 ) + P(A |B2 )P(B2 )
.05 · .02 + .9 · .98
also extrem klein. Wenn der Test negativ ist, kann man also mit grosse Wahrscheinlichkeit erwarten, dass die Person gesund ist. Anderseits, wenn der Test positiv ist, bleibt
die Wahrscheinlichkeit, dass die Person wirklich krank ist, ziemlich klein (man braucht
dann andere Teste durchzuführen).
41
Oft bestehen Zufallsexperimente aus mehrere nacheinander ausgeführten Schritten
und die Wahrscheinlichkeiten am k-ten Schritt hängen von den Ergebnisse in den Schritten 1 bis (k − 1) (man denke zum Beispiel, am Ziehen von r Karten aus einem Stapel
von n Karten, ohne Zurückziehen). Um Wahrscheinlichkeiten zu berechnen ist dann oft
die Multiplikationsformel
P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 |A1 )P(A3 |A2 ∩ A1 ) . . . P(An |An−1 ∩ An−2 ∩ · · · ∩ A1 )
sehr nützlich.
Beispiel. Wir ziehen 3 Kugel ohne Zurückziehen aus einer Urne mit 5 weisse, 3 rote
und 2 schwarze Kugel. Was ist die Wahrscheinlichkeit, dass die erste Kugel weiss ist,
die zweite rot und die dritte wieder weiss? Wir bezeichnen mit A1 das Ereignis “erste
Kugel ist weiss”, mit A2 das Ereignis “zweite Kugel rot” und mit A3 das Ereignis “dritte
Kugel weiss”. Wir wissen P(A1 ) = 1/2, P(A2 |A1 ) = 1/3, P(A3 |A1 ∩ A2 ) = 1/2. Also
P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A2 ∩ A1 ) = 1/12
Wir können nun die bedingte Wahrscheinlichkeit benutzen, um den Begriff von unabhängigen Ereignisse zu definieren.
Definition 3.4. Sei (Ω, A, P) ein Wahrscheinlickeitsraum. Zwei Ereignisse A, B ∈ A
heissen unabhängig, wenn P(A ∩ B) = P(A)P(B). Ist P(A) = 0 oder P(B) = 0, dann
sind A und B immer unabhängig. Ist P(A), P(B) > 0, dann sind A und B genau dann
unabhängig, wenn P(A|B) = P(A) oder equivalent, wenn P(B|A) = P(B). Allgemeiner,
n Ereignisse A1 , . . . , An ∈ A heissen unabhängig, wenn für alle m ≤ n und für alle
1 ≤ i1 < · · · < im ≤ n gilt
!
m
m
Y
\
P(Aik )
P
Aik =
k=1
k=1
Bemerkung: Die Unabhängigkeit von n Ereignisse A1 , . . . , An folgt nicht aus der
paarweise Unabhängigkeit. Mit anderen Wörter, die Bedingung P(Ai ∩Aj ) = P(Ai )P(Aj )
für alle i, j ∈ {1, . . . , n} ist notwending aber nicht hinreichend, damit die Ereignisse
A1 , . . . , An unabhängig sind). Das können wir zeigen, mit einem Beispiel vom russischen
Mathematiker Bernstein (1927). In einer Urn sind 4 Zettel, mit den Zahlen 112, 121, 211,
222. Ein Zettel wird ausgezogen; jede Zettel hat Wahrscheinlichkeit 1/4. Wir betrachten
die folgende Ereignisse: A1 = {112, 121} (1 an der erste Stelle), A2 = {112, 211} (1 an
der zweite Stelle), A3 = {121, 211} (1 an der dritte Stelle). Es gilt P(A1 ) = P(A2 ) =
P(A3 ) = 1/2. Die Ereignisse A1 , A2 , A3 sind paarweise unabhängig, weil
P(A1 ∩ A2 ) = P({112}) = 1/4 = P(A1 )P(A2 )
P(A1 ∩ A3 ) = P({121}) = 1/4 = P(A1 )P(A3 )
P(A2 ∩ A3 ) = P({211}) = 1/4 = P(A2 )P(A3 )
Die drei Ereignisse sind aber nicht unabhängig, weil P(A1 ∩ A2 ∩ A3 ) = P(∅) = 0 6=
1/8 = P(A1 )P(A2 )P(A3 ).
42
3.2
Unabhängige Zufallvariablen
Um die Unabhängigkeit von Zufallvariablen zu definieren brauchen wir den Begriff der
von einer Zufallvariable erzeugten σ-Algebra einzuführen.
Definition 3.5. Seien (Ω, A) und (Ω0 , A0 ) messbare Räume und X : Ω → Ω0 eine
Zufallvariable. Wir bezeichnen mit σ(X) die kleinste in A enthaltene σ-Algebra auf Ω
mit der Eigenschaft, dass X : Ω → Ω0 messbar ist. σ(X) heisst die von X erzeugten
σ-Algebra auf Ω.
Bemerkung: es gilt
σ(X) = X −1 (A0 ) = {X −1 (B) : B ∈ A0 } .
In der Tat, einerseits muss σ(X) ⊃ {X −1 (B) : B ∈ A0 } weil sonst X nicht messbar sein
kann. Da anderseits {X −1 (B) : B ∈ A0 } eine σ-Algebra ist, muss σ(X) = {X −1 (B) :
B ∈ B(R)}). Insbesondere, falls X : Ω → R eine reelwertige Zufallvariable auf einem
Wahrscheinlichkeitsraum (Ω, A, P) ist, so ist σ(X) = X −1 (B(R)) das Urbild der Borel
σ-Algebra bezüglich X.
Aus der Definition ist klar, σ(X) = X −1 (A0 ) aus allen Ereignisse in Ω besteht (alle
Teilmengen von Ω), die durch X bestimmt werden können. Wenn wir wissen, dass, nach
einem Zufallsexperiment, X ∈ A für ein A ∈ A0 , können wir schliessen, dass in Ω das
Ereignis X −1 (A) gefallen ist. Wie wir bei der Einführung von Zufallvariablen diskutiert
haben, durch X wird einer geringeren Beobachtungsgrad vom Zufallsexperiment gegeben, verglichen mit der Beschreibung auf dem ursprünglicher Ergebnisraum Ω (ausser
wenn σ(X) = A). Das bedeutet, viele Ereignisse in Ω können nicht durch X bestimmt
werden. Ferner, die Wahrscheinlichkeit von vielen Ereignissen in Ω wird durch die Messung von der Zufallvariable X gar nicht beeinflusst. Diese Bemerkung führt uns zu der
Definition von Unabhängigkeit von Zufallsvariablen.
Definition 3.6. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und, für i = 1, 2 sei Xi :
Ω → Ω0i eine Zufallvariable mit Werten im messbarer Raum (Ω0i , A0i ). X1 und X2 heissen
unabhängig falls für jede Paar von Ereignisse A ∈ σ(X1 ) und B ∈ σ(X2 ) gilt P(A ∩
B) = P(A)P(B). Equivalent: die zwei Variable X1 , X2 sind unabhängig falls, für alle
A ∈ σ(X1 ) und B ∈ σ(X2 ) mit P(A), P(B) > 0 gilt P(A|B) = P(A). In diesem Fall
sagen wir auch X1 ist unabhängig aus der σ-Algebra σ(X2 ) (oder X2 ist unabhängig
aus der σ-Algebra σ(X1 )). Allgemeiner, n Zufallvariablen Xj : Ω → Ω0j mit Werten in
einem messbarer Raum (Ω0j , Pj ), j = 1, . . . , n, heissen unabhängig, falls für alle A1 ∈
σ(X1 ), . . . , An ∈ σ(Xn ), die Ereignisse A1 , . . . , An ∈ A unabhängig sind.
Bemerkung: da σ(Xj ) = Xj−1 (A0j ) finden wir, dass die Zufallvariablen X1 , . . . , Xn
genau dann unabhängig sind, wenn für jede Teilmenge J ⊂ {1, . . . , n}, es gilt


\
Y
P
Xj−1 (Bj ) =
P(Xj−1 (Bj ))
(18)
j∈J
j∈J
für alle Bj ∈ A0j für alle j ∈ J. Tatsächlich, es genug (18) zu überprüfen für alle Bj in
einer Teilmenge Gj0 von A0j , die A0j erzeugt (wenn Gj0 bezüglich Durchschnitt stabil sind).
Das zeigen wir im nächsten Lemma.
43
Lemma 3.7. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Für i = 1, . . . , n sei Xj :
Ω → Ω0j eine Zufallvariable mit Werten im messbarer Raum (Ω0j , A0j ). Sei Gj0 ⊂ A0j mit
σ(Gj0 ) = A0j (d.h. die Gj0 erzeugen A0j ). Dann sind die Variablen X1 , . . . , Xn genau dann
unabhängig, wenn für jede Teilmenge J ⊂ {1, . . . , n} es gilt


\
Y
P
Xj−1 (Bj ) =
P(Xj−1 (Bj ))
(19)
j∈J
j∈J
für alle {Bj ∈ Gj0 : j ∈ J}.
Beweis. Wir betrachten den Fall n = 2. Sind X1 , X2 unabhängig, so gilt offenbar (19).
Nehmen wir also an, es gilt (19). Wir möchten zeigen, dass X1 und X2 unabhängig sind.
Sei A ∈ G10 , mit P(X1−1 (A)) > 0. Dann betrachten wir das Wahrscheinlichekeitsmass
P(.|X1−1 (A)) ◦ X2−1 auf (Ω02 , A02 ). Nach Annahme, dies Mass stimmt mit P ◦ X2−1 auf G20 .
Nach Carathéodory Erweiterungstheorem, müssen die zwei Masse auf A02 übereinstimmen. Das bedeutet, dass P(X2−1 (B)|X1−1 (A)) = P(X2−1 (B)) und also, dass
P(X2−1 (B) ∩ X1−1 (A)) = P(X2−1 (B))P(X1−1 (A))
(20)
für alle B ∈ A02 und alle A ∈ G10 . Für ein beliebiges B ∈ A02 mit P(X2−1 (B)) > 0
betrachten wir also das Mass
P(.|X2−1 (B)) ◦ X1−1
auf A01 . Es folgt aus (20), dass dies Mass mit P ◦ X1−1 auf G10 übereinstimmt. Mit Carathéodory Erweiterungstheorem schliessen wir wieder, dass
P(X1−1 (A)|X2−1 (B)) = P(X1−1 (A))
für alle A ∈ A01 und alle B ∈ A02 . Das zeigt die Unabhängigkeit von X1 , X2 . Der Beweis
kann induktiv auf den Fall von n Zufallvariablen erweitert werden.
Anwendung. Seien X1 , . . . , Xn : Ω → R reelwertige Zufallvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Jede Zufallvariable hat eine Verteilung PXj : B(R) →
[0; 1], gegeben aus PXj = P ◦ Xj−1 . Die Verteilung PXj kann benutzt werden um Wahrscheinlichkeiten in σ(Xj ) zu berechnen; sie kann aber die Beziehungen zwischen den
verscheidenen Variablen nicht beschreiben. Wir können auch die gemeinsame Verteilung
von X1 , . . . , Xn betrachten, d.h. die Verteilung vom Zufallvektor (X1 , . . . , Xn ) : Ω → Rn
((X1 , . . . , Xn ) ist eine Zufallvariablen mit Werten auf Rn , weil B(Rn ) = B(R)×n ). Sie ist
gegeben aus
PX1 ,...,Xn = P ◦ (X1 , . . . , Xn )−1 : B(Rn ) → [0; 1]
In allgemein enthält PX1 ,...,Xn mehr Informationen als die n Verteilungen PXj , weil
σ(X1 , . . . , Xn ), die aus (X1 , . . . , Xn ) erzeugten σ-Algebra nicht nur aus Produktmengen
besteht. Wenn wir die gemeinsame Verteilung PX1 ,...,Xn der Zufallvariablen X1 , . . . , Xn
kennen, so können wir z.B. die Verteilung von X1 durch
PX1 (A) = PX1 ,...,Xn (A × Rn−1 )
für alle A ∈ B(R) berechnen, und analog für die Verteilung.
44
Es folgt aus Carathéodory Erweiterungstheorem, dass die Verteilung PX1 ,...,Xn des
Zufallvektors (X1 , . . . , Xn ) durch Angabe der Verteilungsfunktion
FX1 ,...,Xn (t1 , . . . , tn ) = PX1 ,...,Xn ((−∞; t1 ] × . . . (−∞; tn ])

= P(X1 ≤ t1 , X2 ≤ t2 , . . . , Xn ≤ tn ) = P 
n
\

Xj−1 ((−∞; tj ])
j=1
vollständig charakterisiert wird (aus der Verteilungsfunktion FX1 ,...,Xn können wir die
Verteilungsfunktion von X1 durch FX1 (t) = FX1 ,...,Xn (t, +∞, . . . , +∞) bestimmen). Ist
das Mass PX1 ,...,Xn absolut stetig bezüglich das Lebesgue Mass λn auf Rn , so können
wir PX1 ,...,Xn auch durch eine integrierbare Wahrscheinlichkeitsdichte ρX1 ,...,Xn : Rn →
[0; ∞) beschreiben, mit der Eigenschaft
Z
ρX1 ,...,Xn (x1 , . . . , xn )dλn (x1 , . . . , xn )
PX1 ,...,Xn (B) =
B
für alle B ∈
B(Rn ).
Dann gilt
Z
FX1 ,...,Xn (t1 , . . . , tn ) =
ρX1 ,...,Xn (x1 , . . . , xn )dλn (x1 , . . . , xn ) .
(−∞;t1 ]×···×(−∞;tn ]
Man bemerke, dass wenn PX1 ,...,Xn absolut stetig bezüglich das Lebesgue Mass auf Rn
ist, so ist PXj absolut stetig bezüglich Lebesgue Mass auf R, für alle j = 1, . . . , n. Die
Wahrscheinlichkeitsdichte von PXj ist dann aus
Z
ρX1 (x) = ρX1 ,...,Xn (x, x2 , . . . , xn )dλn−1 (x2 , . . . , xn )
gegeben (Beweis: Übung).
Nach Definition sind die n reelwertige Zufallvariablen X1 , . . . , Xn genau dann unabhängig, wenn für alle m = 1, . . . , n, 1 ≤ i1 < i2 < · · · < im ≤ n, es gilt
PXi1 ,...,Xim (A1 × · · · × Am ) = PXi1 (A1 ) . . . PXim (Am )
für alle A1 , . . . , Am ∈ B(R).
Aus Lemma 3.7 folgt, dass die n Variablen X1 , . . . , Xn genau dann unabhängig sind,
wenn, für alle m ≤ n und alle 1 ≤ i1 < i2 < · · · < im ≤ n, es gilt
FXi1 ,Xi2 ,...,Xin (t1 , . . . , tm ) =
m
Y
FXij (tj )
j=1
d.h. wenn die Verteilungsfunktionen faktorisieren. Ist PX1 ,...,Xn absolut stetig bezüglich
dem Lebesgue Mass λn , dann sind X1 , . . . , Xn genau dann unabhängig, wenn alle Dichte
faktorisieren, d.h. für alle m ≤ n und alle 1 ≤ i1 < i2 < · · · < im ≤ n, es gilt
ρXi1 ,Xi2 ,...,Xin (x1 , . . . , xm ) =
m
Y
ρXij (xj )
j=1
Betrachtet man reelwertige Zufallvariablen, so kann man auch die Unabhängigkeit
überprüfen, durch Untersuchung von Erwartungswerte.
45
Lemma 3.8. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und seien X1 , X2 : Ω → R zwei
unabhängige Zufallsvariablen. Dann gilt, für alle messbare Funktionen g1 , g2 : R → R,
mit gi ◦ Xi ∈ L1 (Ω, A, P) für i = 1, 2 (d.h. gi muss integrierbar sein, bezüglich der
Verteilung PXi ),
Z
Z
Z
g2 (X2 )dP = Eg1 (X1 ) Eg2 (X2 )
g1 (X1 )dP ·
g1 (X1 )g2 (X2 )dP =
Eg1 (X1 )g2 (X2 ) =
Ω
Ω
Ω
(21)
Um die Behauptung zu zeigen, bemerken wir einfach, dass, für jede messbare g :
R2 → R, mit g ◦ (X1 , X2 ) ∈ L1 (Ω, A, P), wir haben
Z
Z
Z
gdPX1 ,X2 = gdPX1 × dPX2
g(X1 , X2 )dP =
Eg ◦ (X1 , X2 ) =
R2
Ω
Also, für g = g1 g2 , finden wir
Z
Z
Eg1 (X1 )g2 (X2 ) = g1 (x1 )g2 (x2 )dPX1 ,X2 (x, y) = g1 (x1 )g2 (x2 )dPX1 (x1 )dPX2 (x2 )
Z
Z
= g1 (x1 )dPX1 (x2 ) g2 (x)2dPX2 (x2 ) = Eg( X1 )Eg2 (X2 )
wie behauptet.
Bemerkung: es gilt auch die Umkehrung von Lemma 3.8. D.h. wenn (21) für alle
messbare Funktionen g1 , g2 gilt, dann sind X1 und X2 unabhängige Zufallvariable. In
der Tat, für beliebige B1 , B2 ∈ B(R) finden wir mit (21), dass
P(X1 ∈ B1 ∧ X2 ∈ B2 ) = E1X −1 (B1 )∩X −1 (B2 ) = E1X −1 (B1 ) 1X −1 (B2 )
1
2
1
2
= E1X −1 (B1 ) E1X −1 (B2 ) = P(X1 ∈ B1 )P(X2 ∈ B2 )
1
2
Das zeigt die Unabhängigkeit von X1 , X2 .
Definition 3.9. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X1 , X2 : Ω → R zwei
Zufallvariable mit X1 , X2 , X1 · X2 ∈ L1 (Ω, A, P) (diese Bedingungen sind insbesondere
efüllt, wenn X12 , X22 ∈ L1 (Ω, A, P)). Wir definieren die Kovarianz von X1 und X2 durch
Cov(X1 , X2 ) = E(X1 − EX1 )(X2 − EX2 ) = E(X1 X2 ) − (EX1 )(EX2 )
Ist Cov(X1 , X2 ) = 0, so sagen wir, dass die Zufallsvariablen X1 , X2 unkorreliert sind.
Sind X1 , X2 integrierbar und unabhängig, dann sind sie wegen Lemma 3.8 unkorreliert. In Allgemein brauchen aber unkorrelierte Zufallvariablen nicht unabhängig zu
sein. Seien zum Beispiel X1 , X2 : Ω → R zwei unabhängige Zufallvariablen auf einem
Wahrscheinlichkeitsraum (Ω, A, P), beide mit einer Bernoulli-Verteilung
P(Xi = 1) = P(Xi = −1) = 1/2
für i = 1, 2. Dann sind Z = X1 + X2 und W = X1 − X2 unkorreliert, weil
E(ZW ) = EX12 − EX22 = 0
46
aber sicher nicht unabhängig, weil
P (W = 0|Z = 2) = 1 6= 1/2 = P(W = 0)
Beispiele von unabhängigen Ereignisse und unabhängigen Zufallvariable können sehr
einfach auf Produkt Räume konstrtuiert werden. Seien (Ω1 , A1 , P1 ) und (Ω2 , A2 , P2 ) zwei
Wahrscheinlichkeitsräume. Auf der Produktmenge Ω1 ×Ω2 können wir dann die Produktσ-Algebra A1 ×A2 definieren, als die kleinste σ-Algebra, die alle Produktmengen A1 ×A2 ,
mit A1 ∈ A1 und A2 ∈ A2 , enthält. In Analysis 3 wurde gezeigt, dass ein eindeutiges
Mass auf (Ω1 × Ω2 , A1 × A2 ) existiert, bezeichnet mit P1 × P2 , mit der Eigenschaft, dass
(P1 × P2 )(A1 × A2 ) = P1 (A1 )P2 (A2 )
für alle A1 ∈ A1 , A2 ∈ A2 . In der Tat, das Mass (P1 × P2 ) ist aus
Z
Z
P1 (E y )dP2 (y)
P2 (Ex )dP1 (x) =
(P1 × P2 )(E) =
Ω2
Ω1
wobei Ex = {y ∈ Ω2 : (x, y) ∈ E} und E y = {x ∈ Ω1 : (x, y) ∈ E} die Querschnitte von
E sind. Da
(P1 × P2 )(Ω1 × Ω2 ) = P1 (Ω1 )P2 (Ω2 ) = 1
es folgt, dass das Mass P1 × P2 ein Wahrscheinlichkeitsmass ist. Damit ist (Ω1 × Ω2 , A1 ×
A2 , P1 × P2 ) ein neues Wahrscheinlichkeitsraum.
Gegeben A1 ∈ A1 und A2 ∈ A2 , können wir die Ereignisse A1 × Ω2 und Ω1 × A2 in
A1 × A2 betrachten. Dann gilt
(P1 × P2 )((A1 × Ω2 ) ∩ (Ω1 × A2 )) = (P1 × P2 )(A1 × A2 ) = P1 (A1 )P2 (A2 )
= (P1 × P2 )(A1 × Ω2 )(P1 × P2 )(Ω1 × A2 )
D.h. die Ereignisse (A1 × Ω2 ) und (Ω1 × A2 ) sind unabhängig.
Analog, wenn fi : Ωi → Ω0i für i = 1, 2 zwei Zufallsvariablen sind mit Werten in
messbare Räume (Ω0i , A0i ), und wenn wir Xi : Ω1 × Ω2 → Ω0i durch X1 (x, y) = f1 (x)
und X2 (x, y) = f2 (y) definieren, dann sind die zwei Zufallvariablen X1 , X2 unabhängig.
In der Tat, für A ∈ Ω01 , gilt X1−1 (A) = f1−1 (A) × Ω2 . Für A ∈ Ω02 finden wir analog
X2−1 (A) = Ω1 × f2−1 (A). Deswegen sind X1−1 (A) und X2−1 (B) unabhängig, für alle
A, B ∈ B(R). Sind f1 , f2 reelwertig, dann kann man die Unabhängigkeit der Variablen
X1 , X2 auch überprüfen, indem man bemerkt, dass für alle messbare Funktionen g1 , g2 :
R → R mit gi ◦ Xi ∈ L1 (Ω, A, P), es gilt
Z
E (g1 ◦ X1 )(g2 ◦ X2 ) =
g1 (X1 (x))g2 (X2 (y))d(P1 × P2 )(x, y)
Ω1 ×Ω2
Z
Z
=
g1 (X1 (x))dP1 (x)
g2 (X2 (y))dP2 (y)
Ω1
Ω2
= E(g1 ◦ X1 )E(g2 ◦ X2 )
wo wir Fubini angewandt haben.
Der Begriff von Produkt von zwei Wahrscheinlichkeitsräume kann direkt auf dem
Produkt von n Wahrscheinlichkeitsräume erweitert werden. Sind nämlich (Ωi , Ai , Pi )
47
Wahrscheinlichkeitsräume für alle i = 1, . . . , n, so können wir iterativ den Produktraum
(Ω1 × · · · × Ωn , A1 × · · · × An , P1 × · · · × Pn ) definieren (es ist leicht zu sehen, dass
das Produkt von Wahrscheinlichkeitsräume associativ ist, d.h. (Ω1 × Ω2 ) × Ω3 = Ω1 ×
(Ω2 × Ω3 ), (A1 × A2 ) × A3 = A1 × (A2 × A3 ) und (P1 × P2 ) × P3 = P1 × (P2 × P3 );
deswegen dürfen wir die Bezeichnungen Ω1 × · · · × Ωn , A1 × · · · × An und P1 × · · · × Pn
benutzen). Das Produktmass P1 × Pn ist das eindeutiges Mass, mit der Eigenschaft, dass
(P1 × · · · × Pn )(A1 × · · · × An ) = P1 (A1 ) . . . Pn (An ) für alle A1 ∈ A1 , . . . , An ∈ An .
Die n Zufallvariablen Xi : Ω1 × · · · × Ωn → Ω0i , mit Xi (x1 , . . . , xn ) = fi (xi ), für
messbare Funktionen fi : Ωi → Ω0i mit Werten in einem messbarer Raum (Ω0i , A0i ) sind
dann unabhängig. In der Tat Xi−1 (A) = Ω1 × · · · × fi−1 (A) × · · · × Ωn für alle A ∈ A0i .
Deswegen für jede J ⊂ {1, . . . , n} und für jede Familie {Ai }i∈J mit Ai ∈ A0i , finden wir
(Ai` ))
(P1 × · · · × Pn )(Xi−1
(Ai1 ) ∩ · · · ∩ Xi−1
1
`
(Ai` ) × · · · × Ωn )
= (P1 . . . Pn )(Ω1 × · · · × fi−1
(Ai1 ) × · · · × fi−1
1
`
=
`
Y
j=1
Pij (fi−1
(Aij )) =
j
`
Y
(P1 × · · · × Pn )(Xi−1
(Aij ))
j
j=1
Beispiel. Betrachte das Werfen von n Münzen. Der Ergebnisraum für die j-te Münz
ist Ωj = {0, 1}. Auf Ωj ist das Bernoulli Wahrscheinlichkeitsmass Pj ({0}) = Pj ({1}) =
1/2. Der Ergebnisraum für die n Würfe ist dann Ω = Ω1 × · · · × Ωn = {0, 1}n . Auf Ω ist
das Produktmass P = P1 × P2 × . . . timsPn definiert. P ist genau die Gleichverteilung
auf Ω (jede Ergebnis x = (x1 , . . . , xn ) ∈ Ω entspricht zum Ereignis {x} und kann als
Produktmenge
{x} = {x1 } × · · · × {xn } geschrieben werden; deswegen gilt P({x}) =
Qn
−n ). Auf Ω können wir die Zufallsvariablen X (x , . . . , x ) = x defij 1
n
j
j=1 Pj ({xj }) = 2
nieren; Xj misst den Ergebnis vom j-ten Wurf. Dann sind die Zufallvariablen X1 , . . . , Xn
unabhängig. Ferner, sie haben alle die selbe Bernoulli Verteilung.
Beispiel. Auf Ω = Rn ist die Borel σ-Algebra B(Rn ) definiert. Auf B(Rn ) betrachten
wir das Gauss’sche Mass P, mit der Dichte
−
1
e
ρ(x1 , . . . , xn ) =
n/2
(2π)
x2
j
j=1 2σ 2
j
Pn
Es ist einfach zu sehen, dass die Zufallvariablen X1 , . . . , Xn : Ω → R, definiert durch
Xj (x1 , . . . , xn ) = xj für alle j = 1, . . . , n, unabängig sind. Tatsächlich, man kann
der Wahrscheinlichkeitsraum Ω als das Produkt von den n Wahrscheinlichkeitsräume
(R, B(R), Pj ), wobei Pj das Gauss’sche Wahrscheinlichkeitsmass ist, mit Dichte
2
2
1
ρj (x) = √ e−x /2σj
2π
Die Variablen X1 , . . . , Xn sind also unabhängig, weil sie auf verschiedene Komponenten
vom Produktraum definiert sind.
3.3
Unendliche Produkte und stochastische Prozesse
Oft möchten wir gleichzeitig unendlich viele Zufallexperimenten betrachten. Sei Ωi ,
i ∈ N, der Ergebnisraum vom i-ten Experiment. Die unendlich Folge von Experimente
48
können auf dem Produktraum
Y
Ωi = {ω = (ωj )j∈N }
i∈N
beschrieben werden. Für jede i ∈ N, sei Ai eine
Q σ-Algebra auf Ωi . Die Frage ist, welche
σ-Algebra sollen wir auf dem Produktraum i∈N Ωi definieren.
Schon im einfachen Fall von abzählbar vielenQMünzwürfe, mit Ωi = {0, 1} für alle
i ∈ N, und Ai = P (Ωi ),Qkann die σ-Algebra auf i∈N Ωi nicht die ganze Potenzmenge
sein. Wir wissen, dass i∈N Ωi , die Menge aller Folge mit Werten 0 und 1, mit dem
Intervall [0; 1] ⊂ R identifiziert werden kann. Anderseits wissen wir, dass es schwierig
ist auf der Potenzmenge von [0; 1] ein Mass zu definieren (man denke am Beispiel von
Vitali). Die selbe Probleme treten auf, wenn wir versuchen, auf dem unendliches Produkt
die Potenzmenge als σ-Algebra zu betrachten.
Q
In der Wahl der σ-Algebra auf der Produkt Menge j∈N Ωj lassen wir uns aus
der folgende Überlegung führen. Auch wenn wir unendlich viele Zufallsexperimenten
durchführen, sind wir an Ereignisse interessiert, die nur aus endlich viele Ergebnisse
abhängen.
Q
Definition 3.10. Seien (Ωi , Ai , Pi ), i ∈ N, Wahrscheinlichkeitsräume und Ω̂ = i∈N Ωi
der unendlich Produktraum. Wir definieren die Produkt σ-Algebra  über Ω̂ als die
kleinste σ-Algebra, die alle Teilmenge von Ω̂ der Form
Y
Y
A=
Ai ×
Ωi
(22)
i6∈J
i∈J
enthält, wo J = (i1 , . . . , ik ) ⊂ N endlich ist. Mengen dieser Form heissen Zylindermengen. Auf A definieren wir das Produkt-Wahrscheinlichkeitsmass P̂ = ×i∈N Pi , als das
einziges Mass mit der Eigenschaft
Y
P̂(A) =
Pi (Ai )
(23)
i∈J
für alle Zylindermengen (22).
Wir bemerken, dass (23) die Wahrscheinlichkeit P̂ eindeutig definiert ist, weil die
Menge G ⊂ Â, die aus endlichen Vereinigungen von Zylindermengen besteht eine Algebra ist, die  erzeugt (und deswegen kann Carathéodory Erweiterungstheorem angewandt werden). Die Definition vom Produktmass P̂ auf  entspricht der Idee, dass die
verschiedenen Zufallexperimenten unabhängig sind.
Damit haben wir ein Wahrscheinlichkeitsraum (Ω̂, Â, P̂) konstruiert, wo die unendlich
viele Zufallexperimenten beschrieben werden können. Auf Ω̂ können wir Zufallvariablen
definieren. Es ist eigentlich natürlich Folgen von Zufallvariablen zu konstruieren. Das
führt zur
Sei Ωi = R und Ai = B(R) für alle i ∈ N. Wir bezeichnen
Q nächste Definition. Q
RN = i∈N Ωi und B(RN ) = i∈N Ai .
Definition 3.11. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann heisst eine messbare
Abbildung f : (Ω, A) → (RN , B(RN )) eine Zufallsfolge, oder ein stochastische Prozess
(mit diskreter Zeit).
49
Sei f : (Ω, A) → (RN , B(RN )) eine Zufallfolge. Die Verteilung der Zufallsfolge f ist
das Mass Pf = P ◦ f −1 : B(RN ) → [0; 1]. Die j-te Komponenten von f ist dann
Q eine
−1
reelwertige Zufallvariable fjQ: (Ω, A) → R, mit Verteilung Pfj (A) = P◦f (A× i6=j Ωj )
für alle A ∈ B(R). Ist Pf = j Pfj ein Produktmass, so heisst f eine Folge unabhängiger
Zufallvariablen. Sind die Verteilungen der Komponenten von f identisch, so heisst f eine
Folge unabhängiger identisch verteilter Zufallvariablen (auf English, “independent identically distributed random variables”). Unendliche Folgen unabhängiger Zufallsvariablen
sind die wichtigsten Bausteine der Wahrscheinklichkeitstheorie.
Man kann auch umgekehr vorgehen, und zunächst an der Zufallvariablen denken.
Für alle i ∈ N sei (Ω
Q i , Ai , Pi ) ein Wahrscheinlichkeitsraum. Dann können
Q wir auf dem
Produktraum Ω̂ = i∈N Ωi , versehen mit der Produkt-σ-Algebra A = j∈N Aj und mit
Q
dem Produkt Mass P̂ = j∈N Pi eine Folge unabhängige Zufallsvariablen (Xi )i∈N mit
den Verteilungen PXi = Pi definieren. Mit anderer Wörter, wir können ein Wahrscheinlichkeitsraum Ω̂ finden, so, dass (Xj )j∈N eine Folge unabhängige Zufallvariablen auf Ω̂
ist, mit der Eigenschaft, dass Xj die Verteilung Pj hat. Der Wahrscheinlichkeitsraum,
wo tatsächlich alle Xj definiert werden, spielt dann keine wichtige Rolle. Alles was uns
über die Folge Xj interessiert, kann dann durch die Verteilungen Pj berechnet werden
(weil die Variablen unabhängig sind).
Der Poisson-Prozess. Ein einfaches Beispiel eines stochastischen Prozess ist der sogenannte Poisson-Prozess. Sei α > 0 fest und (Lj )j∈N eine Folge unabhängiger Zufallvariablen mit Verteilung Lj ∼ Exp(α) (d.h. Lj ist eine reelwertige absolut stetige Variable
mit Wahrscheinlichkeitsdichte ρ(x) = αe−αx 1[0;∞) (x)). Es ist nicht wichtig auf welchem
Raum die Variablen Lj definiert sind; wichtig ist nur, dass ein Wahrscheinlichkeitsraum
existiert, wo alle Lj definiert werden können. Wir interpretieren die Zahlen Lj als Lücke
zwischen dem
P (i − 1)-te und dem i-te Punkt von dem Poisson Prozess. Für k ∈ N setzen
wir Tk = kj=1 Lj . Für t > 0 definieren wir weiter
Nt =
X
1(0;t] (Tk )
k≥1
Offenbar misst die Zufallvariable Nt wieviele Punkte Tk im Intervall (0; t] fallen.
Satz 3.12. Für alle 0 = t0 < t1 < · · · < tn sind die n Differenzen Nti+1 − Nti unabhängige Zufallvariablen, mit Poisson Verteilung zum Paramter α(ti+1 − ti ).
Bemerkung. Die Familie (Nt )t∈[0;∞) heisst ein Poisson Prozess zur Intensität α > 0.
Bemerke, dass in diesem Fall der stochastische Prozess nicht nur eine Folge ist, sondern
eine Funktion von einem reellen Variable t. Tatsächlich ist aber die in der Funktion Nt
enthaltene Information equivalent zur Information, die aus der Folge (Tk )k∈N gegeben
ist. Die (Tk )k∈N heissen die Sprungzeiten vom Poisson Prozess.
Beweis. Wir betrachten den Fall n = 2, der allgemein Fall folgt analog. Sei also 0 < s <
t. Wir behaupten, dass
(αs)k
(α(t − s))`
P(Ns = k, Nt − Ns = `) = e−αs
e−α(t−s)
(24)
k!
`!
50
für alle k, ` ∈ N. Das impliziert, dass Ns und Nt−s Poisson Verteilung haben, mit Parameter αs und, beziehungsweise, α(t − s). Ferner, es impliziert, dass Ns und Nt − Ns
unabhängig sind.
Um (24) zu zeigen, berechnen wir
P(Ns = k, Nt − Ns = `) = P(Tk ≤ s < Tk+1 ≤ Tk+` ≤ t < Tk+`+1 )
Für x = (x1 , . . . xk+`+1 ), setzen wir τj (x) = x1 + · · · + xj . Wir finden (die Integrationvariablen x1 , . . . , xk+`+1 spielen die Rolle der Variablen Lj )
Z ∞
Z ∞
dx1 . . . dxk+`+1 αk+`+1 e−ατk+`+1 (x)
...
P(Ns = k, Nt − Ns = `) =
0
0
1(τk (x) ≤ s < τk+1 (x) ≤ τk+` (x) < t ≤ τk+`+1 (x))
Wir berechnen zunächst das Integral über xk+`+1 , bei festgehaltenen x1 , . . . , xk+` . Mit
einer Verschiebung von der Integrationsvariable finden wir
Z ∞
Z ∞
−ατk+`+1
dzαe−αz = e−αt
dxk+`+1 αe
1(t ≤ τk+`+1 ) =
t
0
Nun, bei festgehlatene x1 , . . . , xk , wir integrieren über xk+1 , . . . , xk+` indem wir y1 =
τk+1 (x) − s und yj = xk+j für j = 2, . . . , ` setzen. Wir finden
Z ∞
Z ∞
...
dxk+1 . . . dxk+` 1(s < τk+1 ≤ τk+` < t)
0
0
Z ∞
Z ∞
(t − s)`
=
...
dy1 . . . dy` 1(y1 + y2 + · · · + y` < t − s) =
`!
0
0
Für die restliche Integrale finden wir
Z ∞
Z ∞
sk
...
dx1 . . . dxk 1x1 +···+xk ≤s =
k!
0
0
Insgesamt,
P(Ns = k, Nt − Ns = `) = αk+` e−αt
(t − s)` sk
`!
k!
und die Behauptung folgt.
Irrfahrt. Wir betrachten eine Folge (Xj )j∈N von unabhängige Zufallvariablen, mit
Verteilung P(Xj = 1) = p und P(Xj = −1) = 1 − p für ein p ∈ (0; 1) für alle j (also die
Xj sind unabhängig und identisch verteilte Zufallvariablen). Wir setzen
Sn =
n
X
Xi
i=1
Sn ist als eine messbare Funktion von X1 , . . . , Xn definiert, und ist also auch eine Zufallvariable. Also (Sn )n∈N ist eine Zufallfolge, allerdings natürlich keine unabhängigen.
Die Irrfahrt (Sn )n∈N beschreibt eine Wanderung auf N, wo man an jedem Schritt mit
ein Münzwurf entscheidet, nach rechts oder nach links weiterzugehen.
51
Wir können die Verteilung der Zufallvariable Sn bestimmen. Offenbar, Sn kann die
Werten −n, −n + 2, −n + 4, . . . , n − 2, n annehmen. Damit S2n = 2k ist, muss man n + k
Mal nach rechts gehen, und nur n − k Mal nach links. Die Wahrscheinlichkeit dafür ist
2n
P(S2n = 2k) =
pn+k (1 − p)n−k
n+k
für alle k = −n, −n + 1, . . . , n − 1, n. Das heisst S2n hat eine Binomialverteilung, shifted
um −n. Analog können wir die Verteilung von S2n+1 bestimmen, wir finden
2n + 1
P(S2n+1 = 2k + 1) =
pn+k+1 (1 − p)n−k
n+k+1
für alle k = −n − 1, −n, . . . , n. Mit Hilfe der Formel für die Verteilung von Sn können
wir viele Interessante Eigenschaften einer Irrfahrt bestimmen. Der Erwartungswert von
S2n ist
n
X
2n
E S2n =
2k
pn+k (1 − p)n−k
n+k
k=−n
2n
X
2n m
=
2(m − n)
p (1 − p)2n−m
m
m=0
= 4pn − 2n = 2np − 2n(1 − p)
Im Fall p = 1/2 ist E S2n = 0. Das bedeutet nicht, dass die Fahrt sich nicht bewegt,
sondern nur, dass sie mit der selben Wahrscheinlichkeit positive und negative Werten
annimmt. Wenn wir wissen wollen, wie weit die Fahrt kommt, dann sollen wir besser
seine Varianz berechnen. Wir finden (im Fall p = 1/2)
n 1 X
2n
2
ES2n = n
(2k)2
n+k
4
k=−n
2n 1 X 2n
= n−1
(m − n)2
4
m
m=0
2n 1 X 2n
= n−1
(m(m − 1) + m(1 − 2n) + n2 )
4
m
m=0
"
#
2n
2n
X
X
1
(2n)!
(2n)!
= n−1 4n n2 + (1 − 2n)
+
4
(m − 1)!(2n − m)!
(m − 2)!(2n − m)!
m=1
m=2
1 = n−1 4n n2 + +22n−1 2n(1 − 2n) + 22n−2 2n(2n − 1) = 2n
4
√
Diese Rechnung zeigt, dass Sn typischerweise Werte der Ordnung n annimmt. In der
Tat, man kann zeigen, dass
r
|Sn |
2
lim E √ =
n→∞
π
n
Eine andere Interessante Frage ist die folgende: was ist die Wahrscheinlichkeit, dass
eine Irrfahrt die in Null beginnt irgendwann nach Null zurück kommt? Im Gegensatz
52
zu den Fragen über Erwartungswert und Varianz von Sn , um diese neue Frage zu untersuchen müssen wir wirklich das unendlichen Prozess (Sn )n∈N betrachten, weil wir
nicht wissen, wann die Fahrt zurück nach Null kommt. Wir betrachten zunc̈hst den
symmetrischen Fall p = 1/2. Wir definieren iterativ
(1)
T0
= inf{m > 0 : Sm = 0}
und, für n > 1,
(n)
T0
(n−1)
= inf{m > T0
: Sm = 0}
(n)
Mit andere Wörter, T0 ist die n-te Zeitpunkt, wann die Fahrt zurück in Null kommt.
(1)
Wir möchten P(T0 < ∞) berechnen. Dazu berechnen wir zunächst P(Sm = 0). Für m
ungerade, P(Sm ) = 0. Für m = 2n, finden wir dagegen
2n 1
P(S2n = 0) =
n 22n
Mit Hilfe der Stirling Formel
√
n! ' nn e−n 2πn
wir finden
P(S2n
√
1
(2n)2n e−2n 4πn
=√
= 0) ' 2n 2n −2n
2 n e
(2πn)
πn
(25)
bis auf Fehler die kleiner sind, im Limes n → ∞.
Betrachte nun die Zufallvariable
N=
X
1Sm =0
m∈N
die die Anzahl Zeiten misst, in welchen die Fahrt in Null ist. Aus (25) finden wir
X
EN =
P(Sm = 0) = ∞
m∈N
Die Zufallvariable N kann auch anderes umgeschrieben werden. N ist die Anzahl von
(n)
ganze Zahlen n ∈ N, mit T0 < ∞. D.h.
X
N=
1T (n) <∞
n∈N
0
und
EN =
X
n∈N
(n)
P(T0
< ∞) =
X
(1)
P(T0
< ∞)n =
1
(1)
1 − P(T0
n∈N
(1)
< ∞)
Die Tatsache, dass E N = ∞ impliziert, dass P(T0 < ∞) = 1, d.h. die Irrfahrt kommt
mit Sicherheit irgendwann zurück an der Stelle wo sie angefangen hat. Man sagt deswegen, dass die Irrfahrt auf Z mit p = 1/2 rekurrent ist.
Die Situation ist anderes, falls p 6= 1/2. In diesem Fall haben wir
2n n
(4p(1 − p))n
√
P(S2n = 0) =
p (1 − p)n '
n
2πn
53
Da 4p(1 − p) < 1 für p 6= 1/2, finden wir in diesem Fall, dass der Erwartungswert von
der Anzahl Zeiten, in welchen die Fahrt in Null ist,
X
EN =
P(Sm = 0) < ∞
m∈N
endlich ist. Da aber
EN =
1
(1)
1 − P(T0
< ∞)
(1)
es folgt, dass P(T0 < ∞) < 1. Mit andere Wörter, für p 6= 1/2, es gibt eine nicht
verschwindende Wahrscheinlichkeit, dass eine Fahrt, die in Null anfängt, nie wieder im
Punkt Null zurückkommt (die Irrfahrt auf Z mit p 6= 1/2 heisst deswegen transient).
Man kann die Irrfahrt anders interpretieren, als das Kapital eines Spieler. Wir gehen
davon aus, dass ein Spieler ein Anfagnskapital V > 0 besitzt und nur so lange spielt bis
er entweder sein Kapital auf G > V vermehrt hat, oder alles verloren hat. Nach jedem
Spiel das Kapital kann um einen Beitrag Xi ∈ {±1} wachsen, wobei (Xi )i∈N eine Folge
unabhängige Variablen ist, mit Bernoulli Verteilung P(Xi = 1) = p, P(Xi = −1)P= 1−p.
Das Kapital des Spielers zum Zeitpunkt n ist dann K(n) = V + Sn , mit Sn = ni=1 Xi .
Wir untersuchen nun die Frage: was ist die Wahrscheinlichkeit dafür, dass der Spiel
mit dem Ruin des Spielers endet? Um diese Frage zu antworten, brauchen wir wirklich
das Problem im unendlichen Produktraum zu stellen.
Wir bezeichnen mit An das Ereignis, dass das Spiel mit dem Ruin des Spielers zum
Zeitpunkt n endet. Es gilt
An = {Sn = −V } ∩
n
\
{−V < Sk < G − V }
k=1
Das Ereignis “das Spiel endet mit dem Ruin des Spielers” ist dann aus
A=
∞
[
An
n=1
gegeben. Man kann dasselbe Ereignis auch anders schreiben, als
A = {inf {n : Sn = −V } < inf{n : Sn = G − V }}
= {inf {n : K(n) = 0} < inf{n : K(n) = G}}
Die Frage ist, was ist P(A)? Um diese Frage zu beantworten, definieren wir
h(K) = P (inf{n : K(n) = 0} < inf{n : K(n) = G}|K(0) = K)
für 0 < K < G. Wir setzen h(0) = 1, h(G) = 0. Es gilt P(A) = h(V ). Wenn wir mit das
Spiel mit dem Kapital K(0) = K beginnen, haben wir nach einem Schritt das Kapital
K + 1 mit Wahrscheinlichkeit p und das Kapital K − 1 mit Wahrscheinlichkeit 1 − p.
Aus diesem Grund, die Funktion h muss die folgende Relation erfüllen
h(K) = ph(K + 1) + (1 − p)h(K − 1)
54
(26)
mit der Randwerten h(0) = 1 und h(G) = 0. Aus (26) erhalten wir
(1 − p)(h(K) − h(K − 1)) = p(h(K + 1) − h(K)))
d.h.
1−p
(h(K) − h(K − 1))
p
Wir iterieren diese Gleichung K Mal. Wir finden
1−p K
(h(K + 1) − h(K)) =
(h(1) − h(0))
p
(h(K + 1) − h(K)) =
für alle K = 0, . . . , G − 1. Also
1 = h(G) − h(0) =
G−1
X
(h(K + 1) − h(K)) = (h(1) − h(0))
K=0
1
= (h(1) − h(0))
G−1
X
K=0
1−p
p
K
G
− 1−p
p
1−p
1− p
Das gibt
1 − 1−p
p
h(1) − h(0) =
G
1 − 1−p
p
und
V
−1 X
1 − 1−p
1−p K
p
P(A) = h(V ) =
(h(K + 1) − h(K)) =
G
p
K=0
K=0
1 − 1−p
p
V
V
1−p
1 − 1−p
1
−
1 − 1−p
p
p
p
=
=
G
G
1−p
1−p
1− p
1 − 1−p
1
−
p
p
V
−1
X
Im Fall p = 1/2, die Formel wird viel einfacher, und wir finden (mit einer ähnlicher
Rechnung)
V
P(A) = 1 −
G
Eine andere interessante Frage, bei P
der Untersuchung der einfache und symmetrische
Irrfahrt (Sn )n∈N definiert durch Sn = ni=1 Xi , wobei (Xi )i∈N eine Folge unabhängiger
Bernoulli Variablen, mit P(Xi = 1) = P(Xi = −1) = 1/2 ist die folgende: was ist der
Verhältnis der Zeit, die eine solche Fahrt positiv bzw. negativ ist?
Wir berechnen zunächst die Wahrscheinlichkeit dafür, dass die erste Rückkehr der
Fahrt nach Null zur Zeit 2n stattfindet:
f2n = P (inf{i > 0 : Si = 0} = 2n)
Mit der Definition
g2n = P (Sk > 0 für alle k = 1, . . . , 2n − 1 und S2n = 0)
55
finden wir offenbar f2n = 2g2n . Es gilt
1
g2n = P (Sk > 0 für alle k = 1, . . . , 2n − 2 und S2n−1 = 1)
2
Ferner
P Sk > 0 für alle k = 1, . . . , 2n − 2 und S2n−1 = 1
(27)
= P(S1 = 1 und S2n−1 )
− P (S1 = 1, S2n−1 = 1 und es existiert k = 1, . . . , 2n − s mit Sk ≤ 0)
Es ist einfach zu berechnen
P(S1 = 1 und S2n−1 = 1) = P(S1 = 1)P(S2n−1 = 1|S1 = 1)
= P(S1 = 1)P(S2n−2 = 0|S0 = 0)
2n − 2
1
2n − 2
1 1
=
=
2 22n−2 n − 1
22n−1 n − 1
Um den zweiten Term auf der rechten Seite von (27) zu berechnen, benutzen wir das
Reflexionsprinzip. Die Bemerkung hier ist, dass es eine Bijektion existiert, zwischen die
Pfade die S1 = 1 mit S2n−1 = 1 verbinden, und die mindensten einmal den Punkt Null
berühren und, anderseits, die Pfade die S1 = 1 mit S2n−1 = −1 verbinden. Die Bijektion
ist definiert, indem man der Pfad mit S1 = 1 und S2n−1 = 1 nach der ersten Rückkehr
bei Null um die Zeit-Achse reflektiert. Es folgt, dass
P (S1 = 1, S2n−1 = 1 und es existiert k = 1, . . . , 2n − s mit Sk ≤ 0)
= P(S1 = 1 und S2n−1 = −1) = P(S1 = 1) · P(S2n−1 = −1|S1 = 1)
1
2n − 2
= 2n−1
2
n
und
f2n = P (inf{i > 0 : Si = 0} = 2n)
1
2n − 2
2n − 2
1
2n − 2
−
= 2n−1
= 2n−1
2
n−1
n
2
n n−1
(28)
Wir bezeichnen die Wahrscheinlichkeit, dass die Fahrt zur Zeit 2n bei Null ist durch
1 2n
u2n = 2n
2
n
Aus (28) bemerken wir, dass
u2n−2 − u2n
2n − 2
1 2n
= 2n−2
− 2n
2
n−1
2
n
1
(2n − 2)!
2n(2n − 1)
= 2n−2
1−
2
(n − 1)!(n − 1)!
4n2
1
2n − 2
= 2n−1
= f2n
n2
n−1
1
56
Mit Hilfe dieser Ausdruck für f2n können wir nun die Wahrscheinlichkeit berechnen,
dass die symmetrische Irrfahrt bis zur Zeit 2n, 2k-Mal positiv ist. Wir definieren die
Variablen Yi durch
1
falls Si > 0 oder Si+1 > 0
Yi =
0
sonst
Dann ist Yi ein Indikator dafür, dass während dem i-te Schritt die Fahrt positiv ist. Wir
setzten
!
2n
X
p2k,2n = P
Y` = 2k
(29)
`=1
Wir möchten zunächst p0,2n = p2n,2n berechenen. Dafür bemerken wir, dass
p2n,2n = P(Sk ≥ 0
für alle k = 1, . . . , 2n) = 2P(Sk > 0
für alle k = 1, . . . , 2n) (30)
Um (30) zu zeigen, definieren wir eine Bijektion zwischen die nicht-negative Pfade
(S1 , . . . , S2n ), die mindestens einmal Null berühren, und die Pfade mit Sk > 0 für alle
k = 1, . . . , 2n. Sei nämlich A = (S1 , . . . , S2n ) eine nicht-negative Fahrt, mit mindestens
ein Rückkehr nach Null. Sei a ∈ {2, . . . , 2n} die erste Rückkehr nach Null. Dann bilden
wir A in der neue Fahrt B = (S1 , . . . , Sa−1 , Sa + 2, Sa+1 + 2, . . . S2n + s) ab. Offenbar ist
B eine Fahrt mit Sk > 0 für alle k = 1, . . . , 2n. Die Inverse dieser Abbildung kann wie
folgt konstruiert werden: sei B = (S1 , . . . , S2n ) mit Sk > 0 für alle k ∈ {1, . . . , 2n}. Sei
ferner b ∈ {1, . . . , 2n} das grösste Index, mit der Eigenschaft, dass Sb = 1. Dann bilden
wir B in der Fahrt A = (S1 , . . . , Sb , Sb+1 − 2, Sb+2 − 2, . . . , S2n − 2). Das zeigt, dass es
existiert eine Bijektion zwischen die nicht-negative Pfade die mindesten einmal bei Null
kommen, und die strikt positive Pfade. Das zeigt (30).
Also,
p2n,2n = 2P(Sk > 0, für alle k = 1, . . . , 2n)

 

n
n
X
X
1
=2·
1−
f2j  = 1 −
u2j−2 − u2j 
2
j=1
(31)
j=1
= [1 − u0 + u2n ] = u2n
Nun betrachten wir die Wahrscheinlichkeiten p2n,2k , für 0 < k < n. In diesem Fall
muss die Fahrt irgendwann durch Null gehen. Sei 2r die Zeit der erste Rückkehr nach
Null. Bis zu dieser Zeit ist dann die Fahrt entweder stets positiv oder stets negativ (ausser
bei S0 = 0). Beides tritt mit gleicher Wahrscheinlichkeit ein (d.h. die Wahrscheinlichkeit,
dass die erste Rückkehr der Fahrt nach 0 zur Zeit 2r stattfindet, und dass zwischen Zeit
0 und 2r die Fahrt immer positiv, bz. negativ ist, ist genau f2r /2). Falls die Fahrt bis
zur Zeit 2r positiv war, dann muss r < k sein. Falls die Fahrt bis zur Zeit 2r negativ
war, dann muss r < n − k. Nach der ersten Rückkehr nach Null sieht im weiteren alles
so aus wie am Anfang, nur dass wir nur noch 2n − 2r Schritte machen müssen. Das
impliziert die Relation
p2k,2n =
k
n−k
1X
1X
f2r p2k−2r,2n−2r +
f2r p2k,2n−2r
2
2
r=1
r=1
57
(32)
Mit Hilfe dieser Relation können wir nun
p2k,2n = u2k u2n−2k
(33)
induktiv zeigen. Die Formel gilt für k = 0 und alle n (siehe (31)). Wir nehmen an (33)
gilt für p2k,2m für alle m ≤ n − 1 und alle k = 0, . . . , m. Mit (32) finden wir
p2k,2n
k
n−k
1X
1X
f2r u2(k−r) u2(n−k) +
f2r u2k u2(n−r−k)
=
2
2
r=1
1
= u2(n−k)
2
k
X
r=1
r=1
n−k
X
1
f2r u2(k−r) + u2k
2
f2r u2(n−k−r) = u2k u2(n−k)
r=1
Wir haben hier die Tatsache benutzt, dass
k
X
f2r u2(k−r) = u2k
r=1
(das folgt aus der Interpretation der Wahrscheinlichkeiten f2r und u2(k−r) ). Das zeigt,
(33). Damit ist die Wahrscheinlichkeit, dass die Irrfahrt ist 2k Mal positiv bis zur Zeit
2n, aus
2(n − k)
1 2k
p2k,2n = n
(n − k)
k
4
gegeben ist. Insbesondere, können wir die Wahrscheinlichkeit im Limes n → ∞ betrachten. Dazu benutzen wir die Stirling Formel. Wir finden
p
√
1 (2k)2k (2(n − k))2(n−k) e−2n 4πk 4π(n − k)
p2k,2n ' n 2k −2k
4 k e (2πk)(n − k)2(n−k) e−2(n−k) (2π(n − k))
1
1
1
p
p
= p
=
n π k/n 1 − k/n
π k(n − k)
Damit ist die Wahrscheinlichkeit, dass k/n (der Bruch von der Zeit, während dem die
Fahrt positiv ist) zwischen 1/2 und α liegt, aus
Z α
X
√
1
1
1
2
1
p
p
p
'
dx = arcsin α − =: F (α)
n π k/n 1 − k/n
π
2
1/2 π x(1 − x)
n/2<k<αn
gegeben. Die entsprechende Wahrscheinlichkeitsdichte ist
ρ(α) = F 0 (α) =
2
1
p
π α(1 − α)
Es ist interessant zu bemerken, dass die Dichte ρ für α = 0 und α = 1 maximal ist (in
der Tat, sie divergiert an diesen Stellen); das bedeutet, dass die Irrfahrt typischerweise
entweder viel öfter positiv oder viel öfter negativ ist. Es passiert dagegen nur selten,
dass die Fahrt gleichlang bei den positiven wie bei den negativen Zahlen verbringt.
58
3.4
Asymptotische Ereignisse
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und für alle k ∈ N, sei (Ωk , Ak ) ein messbarer
Raum und Xk : Ω → Ωk eine Zufallsvariable. Damit ist (Xk )k∈N eine Zufallsfolge auf Ω.
Definition 3.13. Ein Ereignis
A ∈ A heisst asymptotisch für die Folge (Xk )k∈N , wenn,
Q
für alle n ∈ N, ein Bn ∈ k>n Ak existiert mit
A = (Xk )−1
k>n (Bn ) = {x ∈ Ω : (Xk (x))k>n ∈ Bn }
Mit andere Wörter, für alle n ∈ N, das Ereignis A hängt nur von Xk ab, für alle k > n.
Wir bezeichnen mit Aasym (Xk : k ≥ 1) die Teilmenge von A, die aus alle asymptotische
Ereignisse für die Folge (Xk )k∈N besteht.
Wir bemerken, dass Aasym (Xk : k ≥ 1) eine σ-Algebra ist.
Lemma 3.14. Sei (Xk )k∈N eine Zufallsfolge auf (Ω, A, P). Dann ist Aasym (Xk : k ≥ 1)
eine σ-Algebra auf Ω.
beweis. WirQzeigen zunächst, dass Ω ∈ AQasym (Xk : k ≥ 1). Für alle n ∈ N, setzen
wir Bn = k>n Ωk . Dann es gilt Bn ∈ k>n Ak und Ω = (Xk )−1
k>n (Bn ). Damit ist
Ω ∈ Aasym (Xk : k ≥ 1).
Nun zeigen wir, dass A ∈ Aasym (Xk : k ≥ 1) auch Ac ∈ Aasym (Xk : k ≥ Q
1) impliziert.
In der Tat, für A ∈ Aasym (Xk : k ≥ 1) und n ∈ N finden wir ein Bn ∈ k>n Ak mit
−1
c
c
c
A = (Xk )−1
k>n (Bn ). Damit gilt auch A = (Xk )k>n (Bn ) und A ∈ Aasym (Xk : k ≥ 1).
Schlussendlich beweisen wir, dass Aasym (Xk : k ≥ 1) stabil bezüglich abzählbare
Vereinigungen
Q ist. Sei nämlich (Aj )j∈N eine Folge in Aasymp . Für alle j, n ∈ N existiert
dann Bj,n ∈ k>n Ak mit Aj = (Xk )−1
k>n (Bj,n ). Deswegen


[
[
 Bj,n 
Aj = (Xk )−1
k>n
j
j
und ∪j Aj ∈ Aasym (Xk : k ≥ 1).
Man erinnere, dass eine Zufallvariable X : Ω → Ω0 auf dem Wahrscheinlichkeitsraum
(Ω, A, P) mit Werten in einem messbaren Raum (Ω0 , A0 ) die σ-Algebra σ(X) = X −1 (A0 )
auf Ω induziert. Die σ-Algebra σ(X) enthält alle Ereignissen in A, die durch den Wert
von X bestimmt werden können (Kenntniss des Wertes von X lässt uns eindeutig entscheiden, ob Ereignissen in σ(X) erfüllt sind oder nicht). Sind nun Xj : Ω → Ωj Zufallvariablen auf Ω, mit Werten auf messbaren Räume (Ωj , Aj ), für alle j = 1, . . . , n,
so können wir die σ-Algebra σ(X1 , . . . , Xn ) auf Ω definieren, die aus alle Mengen der
Form Xj−1 (Aj ) erzeugt wird. Mit andere Wörter, σ(X1 , . . . , Xn ) ist die σ-Algebra des
Zufallsvektors (X1 , . . . , Xn ) : (Ω, A) → (Ω1 × · · · × Ωn , A1 × · · · × An ), d.h.
σ(X1 , . . . , Xn ) = (X1 , . . . , Xn )−1 (A1 × · · · × An )
Um so mehr Zufallvariablen man hat, desto grösser wird die σ-Algebra σ(X1 , . . . , Xn ).
Man kann analog auch die σ-Algebra einer Zufallsfolge definieren. Für k ∈ N, sei Xk
eine Zufallvariable auf (Ω, A, P) mit Werten in einem messbaren Raum (Ωk , Ak ). Wir
59
betrachten dann die Zufallsfolge (Xk )k∈N auf (Ω, A, P). Die σ-Algebra der Folge (Xk )k∈N
ist dann durch


Y
σ((Xk )k≥1 ) = (Xk )−1 
Ak 
k≥1
k≥1
definiert. D.h. σ((Xk )k≥1 ) enthält alle Mengen der Form
{x ∈ Ω : (Xk (x))k≥1 ∈ B}
für ein B ∈
Q
k≥1 Ak .
Q
Für alle n ∈ N, ist nun (Xk )k>n eine Zufallfolge auf Ω, mit Werten in k>n Ωk . Die
σ-Algebra der asymptotischen Ereignissen für die Folge (Xk )k∈N ist dann durch
\
σ((Xk )k>n )
Aasym (Xk : k ≥ 1) =
n≥1
gegeben. Die σ-Algebra Aasym (Xk : k ≥ 1) enthält alle Ereignisse, die nur aus dem
asymptotischen Verhalten der Folge (Xk )k∈N abhängen.
Beispiele: wir betrachten ein Paar einfache Beispiele von asymptotischen Ereignissen.
• Für k ∈ N, sei Xk : Ω → Ωk eine Zufallvariable mit Werten im messbaren Raum
(Ωk , Ak ). Sei Ak ∈ Ak für alle k ∈ N. Wir betrachten dann das Ereignis
\ [
A = {x ∈ Ω : Xk (x) ∈ Ak für ∞-viele k ∈ N} =
Xk−1 (Ak )
m≥1 k≥m
Wir behaupten, dass A ∈ Aasym (Xk : k ≥ 1) ein asymptotisches Ereignis für die
Folge Xk ist. In der Tat, für alle n ∈ N wir haben
\ [
A=
Xk−1 (Ak ) = (Xk )−1
k>n (Bn )
m>n k≥m
mit Bn ∈
Q
k>n Ak
definiert durch

Bn =
\ [
 Ak ×
m>n k≥m

Y
Ωj 
j>n,j6=k
• Für k ∈ N, sei Xk : (Ω, A) → (R, B(R)) eine Zufallvariable. Wir definieren
)
(
N
1 X
Xk (x) existiert und ist in [a; b] enthalten
A = x ∈ Ω : lim
N →∞ N
k=1
Wir behaupten, dass A ∈ Aasym (Xk : k ≥ 1). In der Tat, für alle n ∈ N, wir haben
N
1 X
Xk+n (x) existiert und liegt in [a; b]
x ∈ Ω : lim
N →∞ N
(
A=
k=1
60
)
= (Xk )−1
k>n (Bn )
mit Bn ⊂
Q
k>n R
definiert durch
(
Bn =
(xn+1 , xn+2 , . . . ) ∈
Y
k>n
)
N
1 X
R : lim
xk+n existiert und liegt in [a; b]
N →∞ N
k=1
Q
Q
Man bemerke hier, dass Bn ∈ k>n B(R), weil die Projektionen Pj : k>n R → R,
definiert durch
Pj (xn+1 , xn+2 , . . . ) = xj
offenbar
messbar sind, für alle j >Pn (erinnere die DefinitionQ3.10 der σ-Algebra
Q
B(R)).
Dann ist auch N −1 N
j>n R messbar. Es
k>n
k=1 Pn+k , definiert auf
folgt, dass die Teilmenge von Ω, die aus alle Punkte besteht, wo der Limes
N
1 X
lim
Pn+k
N →∞ N
(34)
k=1
existiert, messbar ist und, dass die Funktion (34), definiert auf dieser Teilmenge,
messbar ist (und deswegen eine Zufallvariable). Also
N
1 X
Pk+n
Bn = lim
N →∞ N
"
#−1
([a; b]) ∈
k=1
Y
B(R)
k>n
für alle n ∈ N.
Diese zwei Beispiele zeigen, dass die σ-Algebra Aasym (Xk : k ≥ 1) nicht trivial ist.
Das Wahrscheinlichkeitsmass, eingeschränkt auf dieser σ-Algebra, ist dagegen immer
trivial, falls die Folge aus unabhängige Variablen besteht. Das ist der Inhalt von dem
nächsten wichtigen Theorem.
Theorem 3.15 (Null-Eins Gesetz von Kolmogorov). Sei (Xk )k∈N eine unabhängige
Zufallfolge auf einem Wahrscheinlichkeitsraum (Ω, A, P). Die Zufallvariable Xk nimmt
hier Werten in einem messbarer Raum (Ωk , Ak ). Sei A ∈ Aasym (Xk : k ≥ 1). Dann gilt
P(A) = 0 oder P(A) = 1.
Beweis. Sei A ∈ Aasym (Xk : k ≥ 1) beliebig. Sei
!
σ((Xk )k∈N ) =
(Xk )−1
k∈N
Y
Ak
k∈N
die σ-Algebra, die aus der Folge (Xk )k≥1 erzeugt
Q wird.
Wir bezeichnen mit G die Teilmenge von k≥1 Ak , die aus allen Zylindermengen der
Form
Y
C1 × · · · × Cn ×
Ωk
k>n
für ein n ∈ N und für C1 ∈ A1 , . . . , CQ
n ∈ An besteht. Es gilt: G ist stabil bezüglich
Q endlichen Durchschnitten und
G
erzeugt
A
(d.h.
die
kleinste
σ-Algebra
auf
k
k≥1
k≥1 Ωj ,
Q
die G enthält, ist genau k≥1 Ak ).
61
−1 Q
Das impliziert auch, dass (Xn )−1
n∈N (G), als Teilmenge von (Xn )n∈N ( k≥1 Ak ), stabil
bezüglich endlichen Durchschnitte ist, und, dass (Xn )−1
n∈N (G) die σ-Algebra σ((Xk )k∈N )
erzeugt. Um diese letzte Behauptung zu zeigen, man definiert die Menge




Y
−1
B= B∈
Ak : (Xk )−1
(B)
∈
σ((X
)
(G))
k k∈N
k≥1


k≥1
und man beweist, dass B eine σ-Algebra ist, die G enthält. Das impliziert, dass B =
Q
k≥1 Ak , und deswegen, dass
−1
σ((Xk )−1
k∈N (G)) = (Xk )k≥1 (
Y
Ak )
k≥1
Nun, für alle C ∈ G ist (Xn )−1
n∈N (C) ∈ A unabhängig aus A. In der Tat, da C ∈ G,
es existiert n < ∞, und C1 ∈ A1 , . . . , Cn ∈ An mit
Y
C = C1 × · · · × Cn ×
Ωk
k>n
Dann ist
(Xn )−1
n∈N (C) = {x ∈ Ω : Xj (x) ∈ Cj , für alle j = 1, . . . , n} =
n
\
Xj−1 (Cj )
j=1
Anderseits, es existiert Bn ∈
Q
k>n Ak
mit
A = (Xk )−1
k>n (Bn ) = {x ∈ Ω : (Xk (x))k>n ∈ Bn }
Da die Folge Xk unabhängig ist, ist A unabhängig aus (Xn )−1
n≥1 (C), wie behauptet.
Lemma 3.7 impliziert, dass A aus der ganze σ-Algebra σ((Xk )k∈N ) unabhängig ist.
Streng genommen, Lemma 3.7 gibt ein Kriterium für die Unabhängigkeit von Zufallvariablen; es ist aber sehr einfach die analoge Aussage für Ereignissen mit den selben
Ideen zu zeigen. Man nimmt nämlich an, dass P(A) > 0 (sonst es gibt nichts zu zeigen),
und man betrachtet auf σ((Xk )k≥1 ) das Wahrscheinlichkeitsmass P(.|A). Man bemerkt,
−1
dass für alle Mengen der Form (Xk )−1
k≥1 (C) für ein C ∈ G es gilt P((Xk )k∈N (C)|A) =
−1
P((Xk )−1
k≥1 (C)) (weil A und (Xk )k≥1 (C) unabhängig sind, für alle C ∈ G). Das Erweiterungstheorem von Carathéodory impliziert dann, dass P(B|A) = P(B) für alle
B ∈ σ((Xk )k≥1 ). Es folgt, dass A aus der ganze σ-Algebra σ((Xk )k≥1 ) unabhängig ist.
Insbesondere muss A aus A selber unabhängig sein. Also
P(A) = P(A ∩ A) = P(A)2
Das zeigt, dass P(A) = 0 oder P(A) = 1.
Eine erste Anwendung der 0 − 1 Gesetz von Kolmogorov ist das folgende Korollar.
62
Korollar 3.16. Sei (Xk )k∈N eine unabhängige Zufallsfolge auf eine Wahrscheinlichkeitsraum (Ω, A, P). Sei X : Ω → R eine reelwertige Zufallvariable auf Ω, die messbar
ist, bezüglich der σ-Algebra Aasym (Xk : k ≥ 1). D.h. es gelte
X −1 (A) ∈ Aasym (Xk : k ≥ 1)
für alle A ∈ B(R). Dann es existiert eine Konstante c ∈ R so, dass
P(X = c) = P({x ∈ Ω : X(x) = c}) = 1.
Beweis. Theorem 3.15 impliziert, dass die Verteilungsfunktion FX (x) = P(X ≤ x) =
P(X −1 ((−∞; x])) nur die Werten 0 oder 1 annehmen darf, für alle x ∈ R. Da F monoton
und rechtsstetig ist, es muss ein c ∈ R existieren, mit F (x) = 0 für alle x < c und
F (x) = 1 für alle x ≥ c. Das impliziert, dass P(X = c) = 1.
Hat das asymptotisches Ereignis A, wie im ersten Beispiel oben, die Form
A = {x ∈ Ω : Xk (x) ∈ Ak für unendlich viele k ∈ N}
wobei Ak ∈ Ak für alle k ∈ N, dann kann man oft das Lemma von Borel-Contelli
benutzen, um zu entscheiden, ob P(A) = 0 oder P(A) = 1.
Lemma 3.17 (Borel-Cantelli). Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und (Ak )k∈N
eine Folge von Ereignisse in A. Sei
\ [
A = {x ∈ Ω : x ∈ Ak für unendlich viele k ∈ N} =
Ak
n≥1 k≥n
Dann gilt:
P
a) Ist j≥1 P(Aj ) < ∞, so ist P(A) = 0.
P
b) Ist j≥1 P(Aj ) = ∞ und sind (Aj )j∈N unabhängig, so ist P(A) = 1.
Bemerke, dass die Aussage a) keine Unabhängigkeit der Ereignisse Aj braucht.
S
Beweis. Wir beginnen mit a). Es gilt A ⊂ k≥n Ak für alle n ∈ N. Deswegen muss
X
P(A) ≤
P(Ak )
(35)
k≥n
P
für alle n ∈ N. Ist nun j≥1 P(Aj ) < ∞, so muss die rechte Seite von (35) gegen Null
streben, für n → ∞. Also P(A) = 0, wie behauptet.
Nun zeigen wir b). Wir bemerken, dass
[ \
Ac =
Ack
n≥1 k≥n
Deswegen

P(Ac ) ≤
X
n≥1
=
X
n≥1
P

\
Ack  =
k≥n
lim
m→∞
m
Y
k=n
X
n≥1
lim P
m→∞
(1 − P(Ak )) ≤
X
n≥1
m
\
!
Ack
m→∞
63
X
n≥1
k=n
lim
=
m
Y
k=n
lim
m→∞
e−P(Ak ) =
m
Y
P(Ack )
k=n
X
n≥1
lim e−
m→∞
Pm
k=n
P(Ak )
=0
Beispiel. Eine Münze wird unendlich oft geworfen. Wir untersuchen die Wahrscheinlichkeit des Ereignis
A = {es wird unendlich oft zwei Mal hintereinander Kopf geworfen}
Besser gesagt, mit
An = {beim n-te und beim (n + 1)-te Wurf wird Kopft geworfen}
wir untersuchen

P(A) = P 

\ [
An 
m≥1 n≥m
Um P(A) zu bestimmen, betrachten wir die Folge (A2n )n≥1 die aus unabhängige Ereignisse besteht. Es gilt P(A2n ) = 1/4 für alle n ∈ N. Deswegen
X
P(A2n ) = ∞
n
und P(∩m≥1 ∪n≥m A2n ) = 1. Deswegen gilt auch P(A) = 1.
4
Konvergenzbegriffe
In diesem Abschnitt möchten wir einige Konvergenzbegriffe für Folge von Wahrscheinlichkeitsmasse und für Folge von Zufallvariablen diskutieren. Die Begriffe und einige
Zusammenhänge zwischen den verschiedenen Begriffe sind aus der Vorlesung Analysis 3
schon bekannt. Die Wahrscheinlichkeitstheoretische Interpretation spielt aber manchmal
eine wichtige neue Rolle.
4.1
Konvergenz von Wahrscheinlichkeitsmasse
Wir führen zunächst den Begriff von schwache Konvergenz von Wahrscheinlichkeitsmasse.
Definition 4.1. Sei Pk , k ∈ N eine Folge von Wahrscheinlichkeitsmasse auf (Rn , B(Rn ))
(für ein n ∈ N). Wir sagen, dass Pn schwach gegen ein Wahrscheinlichkeitsmass P auf
(Rn , B(Rn )) konvergiert, wenn
Z
Z
EPn g =
gdPn →
gdP = EP g
(36)
Rn
Rn
für alle beschränkte und stetige Funktionen g auf Rn .
Die Bedingung (36) ist hinreichend, um das Limes P eindeutig zu charakterisieren.
e so muss
Konvergiert nämlich die Folge Pk schwach gegen P und auch gegen P,
Z
Z
e
gdP =
gdP
Rn
Rn
64
e Das ist einfür alle g stetig und beschränkt. Lemma 2.22 impliziert dann, dass P = P.
gentlich der Grund warum mann Konvergenz für alle stetige und beschränkte Funktionen
fördert.
Ist n = 1, d.h. ist Pk eine Folge von Wahrscheinlichkeitsmasse auf (R, B(R)), dann
können wir jedes Wahrscheinlichkeitsmass durch die entsprechende Verteilungsfunktion beschreiben. Wir haben nämlich in Satz 2.2 gezeigt, dass eine Bijektion zwischen
Wahrscheinlickeitsmasse auf (R, B(R)) und monoton wachsende rechtsstetige Funktionen F : R → R mit F (−∞) = 0 und F (∞) = 1 existiert. Wir können also versuchen,
die schwache Konvergenz einer Folge von Wahrscheinlichkeitsmasse durch eine geeignete
Konvergenz von Verteilungsfunktionen zu überprüfen. Dafür brauchen wir die nächste
Definition.
Definition 4.2. Sei Fn , n ∈ N eine Folge von Verteilungsfunktionen. Wir sagen, dass
Fn schwach gegen eine Verteilungsfunktion F konvergiert, falls Fn (x) → F (x), für alle
x ∈ R, für welche F stetig ist.
Mit dieser Definition finden wir den folgenden Satz.
Satz 4.3. Sei Pn , n ∈ N eine Folge von Wahrscheinlichkeitsmasse auf (R, B(R)) und
Fn die zugehörige Verteilungsfunktionen. Dann konvergiert Pn schwach gegen ein Wahrscheinlichkeitsmass P mit Verteilungsfunktion F genau dann, wenn die Folge Fn schwach
gegen F konvergiert.
Beweis. Wir nehmen zunächst an, dass Pn schwach gegen P konvergiert. Wir behaupten
dann, dass Fn (c) → F (c) für alle c ∈ R, wo F stetig ist. Um die Behauptung zu zeigen,
wählen wir ε > 0 fest. Dann finden wir eine stetige Funktion gε mit 1(x ≤ c) ≤ gε (x) ≤
1(x ≤ c + ε). Dann gilt
Z
Z
Z
Z
Fn (c) =
1(x ≤ c)dPn (x) ≤ gε dPn → gε dP ≤ 1(x ≤ c + ε)dP = F (c + ε)
R
für alle n ∈ N. Insbesondere
lim sup Fn (c) ≤ F (c + ε)
n→∞
Da ε > 0 beliebig ist, und da F stetig an der Stelle c ist, es folgt, dass (an dieser Stelle
braucht man eigentlich nur die Rechtsstetigkeit, die immer gilt)
lim sup Fn (c) ≤ F (c)
n→∞
Analog kann man zeigen, dass
lim inf Fn (c) ≥ F (c − ε)
n→∞
für alle ε > 0 gilt. Das impliziert, aus der Stetigkeit von F an der Stelle c, dass (hier
braucht man tatsächlich die Linksstetigkeit, die nur aus Annahme gilt)
lim inf Fn (c) ≥ F (c)
n→∞
65
Es folgt, dass
lim Fn (c) = F (c)
n→∞
wie behauptet.
Nun nehmen wir an, dass Fn schwach gegen F konvergiert. Sei g ∈ Cb (R) stetig und
beschränkt; wir bezeichnen M = supx∈R |g(x)|. Wir zeigen, dass
Z
Z
gdP
gdPn →
R
R
für n → ∞.
Wir wählen dazu ε > 0 fest und wir finden −∞ < a < b < ∞ so, dass F stetig an
der Stelle a und b ist, und F (a) < ε/2M und F (b) > 1 − ε/2M . Dann gilt, für alle n ∈ N
gross genug, Fn (a) ≤ ε/M und Fn (b) ≥ 1 − ε/M . Deswegen
Z
Z
g dP ≤ ε
und
gdPn ≤ 2ε
R\[a;b]
R\[a;b]
Das zeigt, dass
Z
Z
Z
gdPn − gdP ≤ 3ε + gdPn −
g dP
[a;b]
[a;b]
Z
(37)
Da g stetig ist, ist g auf [a; b] gleichmässig stetig. Insbesondere, es existiert N = N (ε)
Punkten a = a1 < a2 < · · · < aN = b wo F stetig ist, mit
|g(x) − g(ak )| < ε
sup
x∈[ak ;ak+1 ]
für alle k = 1, . . . , N . Wir setzen dann
h(x) =
N
X
1(ak ,ak+1 ] (x)g(ak )
k=1
und wir bemerken, dass
sup |h(x) − g(x)| < ε
x∈[a;b]
h ist eine messbare einfache Funktion, mit
Z
hdPn =
R
N
X
g(ak )(Fn (ak+1 ) − Fn (ak ))
k=1
Da Fn schwach gegen F konvergiert, wir finden, dass
Z
Z
hdPn →
hdP
R
R
für n → ∞. Deswegen, es existiert n0 ∈ N mit
Z
Z
hdPn − hdP ≤ ε
66
für alle n > n0 . Also
Z
Z
Z
Z
gdPn −
gdP ≤
|g − h|dPn +
|g − h|dP + ε ≤ 3ε
[a;b]
[a;b]
[a;b]
[a;b]
Mit (37), wir finden
Z
Z
gdPn − gdP ≤ 6ε
Da ε > 0 beliebig ist, wir erhalten
Z
Z
gdPn →
4.2
gdP
Konvergenz von Zufallvariablen
Wir diskutieren nun drei verschiedene Begriffe von Konvergenz von Zufallvariablen.
Konvergenz in Verteilung. Sei (Xn )n∈N eine Folge von reelwertigen Zufallvariablen
mit Wahrscheinlichkeitsverteilung Pn und Verteilungsfunktion Fn . Sei X eine Zufallsvariable mit Wahrscheinlichkeitsverteilung P und Verteilungsfunktion F . Wir sagen, dass
Xn in Verteilung gegen eine Zufallsvariable X konvergiert, und wir schreiben Xn →D X,
falls Pn schwach gegen P, oder equivalent, falls Fn schwach gegen F konvergiert. Analog
kann man Konvergenz in Verteilung für eine Folge von Zufallvariablen mit Werten in
Rn , für n > 1, definieren (in diesem Fall kann man aber nicht die Verteilungsfunktionen
betrachten).
Bemerkung. Es ist nicht wichtig, auf welchem Wahrscheinlichkeitsraum die Variablen
Xn definiert sind. Sie können auch auf verschiedenen Räume definiert sein.
Ein wichtiges Beispiel einer Folge von Zufallvariablen, die in Verteilung konvergieren, ist eine reskalierte Irrfahrt. Der nächste Satz ist ein erstes Beispiel eines zentralen
Grenzwerttheorems.
Satz 4.4 (Moivre-Laplace). Sei Xj eine Folge unabhängigen Bernoullivariablen mit
P(Xj = 1) = p und P(Xj = 0) = 1 − p für ein p ∈ (0; 1). Dann konvergiert die Folge
n
1 X
(Xi − p)
Zn = √
n
i=1
in Verteilung gegen eine Gauss’sche Zufallvariable N (0, p(1 − p)) mit Erwartungswert
Null und mit Varianz p(1 − p).
Beweis. Sei I = [a; b]. Die Behauptung folgt, wenn wir zeigen können, dass
lim P(Zn ∈ I) = p
n→∞
1
2πp(1 − p)
67
Z
b
2
x
− 2p(1−p)
e
a
dx
P
für alle −∞ < a < b < ∞. Wir setzen Sn = nj=1 Xj . Die Variable Sn kann die Werten
0, 1, 2, . . . , n mit Wahrscheinlichkeit
n k
P(Sn = k) =
p (1 − p)n−k
k
√
√
annehmen. Wir sind am Ereignis interessiert, dass a/ n ≤ (Sn /n − p) ≤ b/ n. D.h. wir
√
√
sind an der Wahrscheinlichkeit, dass Sn = k interessiert, für p+a/ n ≤ k/n ≤ p+b/ n.
Ist n ∈ N gross genug, so muss insbesondere c1 ≤ k/n ≤ c2 , für zwei positive Konstante
c1 < c2 . Für solche Werte von k, können wir approximieren
√
n
nn 2πn
p
√
=
1 + O(n−1 )
(n−k)
k
k
k (n − k)
2πk 2π(n − k)
n s
1
1
1
1 + O(n−1 )
=√
k/n
1−k/n
k/n(1 − k/n)
2πn (k/n) (1 − k/n)
√
√
Also, für alle a/ n ≤ k/n − p ≤ b/ n, wir bekommen
s
"
#n
pk/n (1 − p)1−k/n
1
1
P(Sn = k) = √
(1 + O(n−1 ))
1−k/n
k/n
k/n(1
−
k/n)
(1 − k/n)
(k/n)
2πn
s
1
1
=√
exp(−nI(p, k/n))(1 + O(n−1 ))
2πn k/n(1 − k/n)
mit
I(p, x) = log((x/p)x ((1 − x)/(1 − p))1−x ) = x log(x/p) + (1 − x) log((1 − x)/(1 − p))
Wir bemerken: i) I(p, p) = 0, ii) I(p, x) ist konvex als Funktion von x ∈ (0; 1) und nimmt
ihr einziges Minimum an der Stelle x = p an, iii) es gilt ∂x2 I(p, x) = 1/x + 1/(1 − x) =
1/x(1 − x) ≥ 4, iv) I(p, x) ist unendlich oft differenzierbar in x ∈ (0; 1). Um diese
Behauptungen zu zeigen, muss man einfach berechnen, dass
x(1 − p)
∂x I(p, x) = log
p(1 − x)
und ∂x2 I(x, p) = 1/x + 1/(x − 1) = 1/(x(1 − x)). Die einzige Nullstelle von ∂x I(p, x) ist
an der Stelle x = p, wo I(p, p) = 0.
Für |x − p| ≤ cn−1/2 können wir dann Taylor entwickeln. Wir finden
∂x2 I(p, p)
∂ 3 I(ξ, p)
(x − p)2 + x
(x − p)3
2
6
1
∂ 3 I(ξ, p)
=
(x − p)2 + x
(x − p)3
2p(1 − p)
6
√
√
für ein geeignete |ξ − p| ≤ cn−1/2 . Deswegen, für k ∈ N mit a/ n ≤ k/n − p ≤ b/ n,
finden wir
2
(k/n
−
p)
I(p, k/n) −
≤ Cn−3/2
2p(1 − p) I(p, x) = I(p, p) + ∂x I(p, p)(x − p) +
68
Analog, wenn wir die Funktion Taylor Entwicklung (dies Mal nur zur erster Ordnung)
√
√
von (x(1 − x))−1/2 in der Nähe von x = p gibt, für a/ n ≤ k/n − p ≤ b/ n,
s
s
1
1
−
≤ Cn−1/2
(1 − k/n)k/n
p(1 − p) Damit erhalten wir
P(Zn ∈ I) =
X
P(Sn = k)
√a ≤k/n−p≤ √b
n
n
=
X
√
a≤ n(k/n−p)≤b
1
√
2πn
s
1
(k/n − p)2
exp −n
(1 + O(n−1/2 ))
p(1 − p)
2p(1 − p)
Wir erkennen die rechte Seite ist ein Riemann’sches Integral. Das gibt
Z
2
1
− x
e 2p(1−p) dx
lim P(Zn ∈ I) = p
n→∞
2πp(1 − p) I
Konvergenz in Wahrscheinlichkeit. Sei (Xn )n∈N eine Folge von reelwertigen Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei X : Ω → R eine weitere
Zufallvariable. Wir sagen, dass (Xn )n∈N in Wahrscheinlichkeit gegen X konvergiert,
falls für alle ε > 0,
lim P(|Xn − X| > ε) = 0
n→∞
Der Begriff von Konvergenz in Wahrscheinlichkeit ist mit der Konvergenz im Mass,
die in der Vorlesung Analysis 3 eingeführt wurde, äquivalent. Konvergenz in Wahrscheinlichkeit ist in allgemein stärker als Konvergenz in Verteilung. Ist aber der Grenzwert X
deterministisch (d.h. es existiert c ∈ R mit P(X = c) = 1), so ist Konvergenz in Wahrscheinlichkeit äquivalent mit Konvergenz in Verteilung. Das zeigen wir im nächsten
Lemma.
Lemma 4.5. Sei (Xn )n∈N eine Folge von reelwertigen Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P), und X : Ω → R eine weitere Zufallsvariable.
a) Konvergiert Xn → X in Wahrscheinlichkeit, so konvergiert Xn gegen X in Verteilung.
b) Existiert c ∈ R mit P(X = c) = 1 (d.h. ist die Variable X deterministisch) und es
gilt Xn →D X in Verteilung, dann gilt auch Xn → X in Wahrscheinlichkeit.
Beweis. a) Seien Fn (t) = P(Xn ≤ t) und F (t) = P(X ≤ t) die Verteilungsfunktionen von
Xn und X. Sei c ∈ R so, dass F stetig an der Stelle c ist. Wir nehmen an, dass Xn → X
in Wahrscheinlichkeit, und wir möchten zeigen, dass Fn (c) → F (c). Dazu bemerken wir,
dass
Fn (c) = P(Xn ≤ c) ≤ P(X ≤ c + ε) + P(|X − Xn | ≥ ε) = F (c + ε) + P(|X − Xn | ≥ ε)
69
Das impliziert, dass
lim sup Fn (c) ≤ F (c + ε)
n→∞
und, da ε > 0 beliebig ist und F an der Stelle c stetig ist, dass
lim sup Fn (c) ≤ F (c)
n→∞
Analog, wir finden
F (c − ε) = P(X ≤ c − ε) ≤ P(Xn ≤ c) + P(|X − Xn | ≥ ε)
und also, im Limes n → ∞,
lim inf Fn (c) ≥ F (c − ε)
n→∞
Da ε > 0 beliebig ist, und F an der Stelle c stetig ist, erhalten wir
lim inf Fn (c) ≥ F (c)
n→∞
Das zeigt, dass
lim Fn (c) = F (c)
n→∞
b) Sei X : Ω → R mit P(X = c) = 1 für ein c ∈ R und es gelte Xn → X in Verteilung.
Wir zeigen, dass Xn → X in Wahrscheinlichkeit. Sei ε > 0 festgewählt. Dann
P(|Xn −X| > ε) = P(|Xn −c| > ε) = P(Xn < c−ε)+P(Xn > c+ε) ≤ Fn (d1 )+(1−Fn (d2 ))
mit d1 , d2 ∈ R so, dass c − ε < d1 < c − ε/2 und c + ε/2 < d2 < c + ε und, dass F stetig
an der Stelle d1 , d2 ist. Dann gilt
lim P(|Xn − X| > ε) ≤ F (d1 ) + (1 − F (d2 )) = 0
n→∞
weil F (x) = 0 für x < c und F (x) = 1 für alle x ≥ c.
Fast sichere Konvergenz. Sei (Xn )n∈N eine Folge von reelwertige Zufallsvariablen auf
eine Wahrscheinlichkeitsraum (Ω, A, P) und X : Ω → R eine weitere Zufallsvariable. Wir
sagen, dass Xn fast sicher gegen X konvergiert, geschrieben Xn → X f.s., falls
P( lim Xn = X) = P ({x ∈ Ω : Xn (x) → X(x)}) = 1
n→∞
Bemerkung: die Definition ist sinnvoll, weil die Menge {x ∈ Ω : Xn (x) → X(x)}
in der σ-Algebra A enthalten ist. In der Tat, Xn − X ist messbar für alle n ∈ N. Das
impliziert, dass lim supn→∞ (Xn −X) und auch lim inf n→∞ (Xn −X) messbare Funktionen
sind. Das bedeutet, die Menge
{x ∈ Ω : lim Xn (x) = X(x)}
n→∞
= {x ∈ Ω : lim sup(Xn − X)(x) = 0} ∩ {x ∈ Ω : lim inf (Xn − X)(x) = 0}
n→∞
n→∞
sicher in A enthalten ist.
70
Der Begriff von fast sichere Konvergenz ist schon aus Analysis 3 bekannt. Dort
sprach man von punktweise fast überall Konvergenz. Wir erinneren aus Analysis 3,
dass auf endliche Massräume (also immer auf Wahrscheinlichkeitsräume), punktweise fast überall Konvergenz immer Konvergenz in Mass impliziert. Mit andere Wörter,
wenn die Folge von Zufallsvariablen (Xn )n∈N fast sicher gegen die Zufallsvariable X
konvergiert, dann konvergiert Xn immer gegen X in Wahrscheinlichkeit. Die Umkehrung gilt nicht; es existieren Folge von Zufallsvariablen die in Wahrscheinlichkeit aber
nicht fast sicher konvergieren. Um die Beziehung zwischen Konvergenz in Wahrscheinlichkeit und fast sichere Konvergenz besser zu verstehen, es lohnt sich das Ereignis
{x ∈ Ω : limn→∞ Xn (x) = X(x)} anders darzustellen, nämlich als
\ [ \
{x ∈ Ω : |Xn (x) − X(x)| ≤ 1/k} (38)
{x ∈ Ω : lim Xn (x) = X(x)} =
n→∞
k≥1 n0 ≥1 n≥n0
Diese Darstellung (die sofort impliziert, dass {x ∈ Ω : limn→∞ Xn (x) = X(x)} ∈ A)
erlaubt uns das nächste Lemma zu zeigen.
Lemma 4.6. Sei (Xn )n∈N eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei X : Ω → R eine weitere Zufallsvariable. Dann gilt Xn → X f.s.
genau dann, wenn für alle k ∈ N,
P({|Xn − X| > 1/k, u.o. ) = 0
Bemerkung: wir haben hier die Notation
{An , u.o.} = {An unendlich oft} = {An für unendlich viele n ∈ N} = ∩n0 ∈N ∪n>n0 {An }
eingeführt, für beliebige Aussage An mit der Eigenschaft, dass {An } = {x ∈ Ω :
An (x)} ∈ A für alle n ∈ N.
Beweis. Aus (38) erhalten wir
P( lim Xn = X) = 1 − P (∪k≥1 {|Xn − X| > 1/k für unendlich viele n ∈ N})
n→∞
Damit gilt P(limn→∞ Xn = X) = 1 genau dann, wenn
P (∪k {|Xn − X| > 1/k, u.o.}) = 0
Da
X
P({|Xn − X| > 1/k, u.o.}) ≥ P(∪k {|Xn − X| > 1/k, u.o.})
k∈N
≥ max P({|Xn − X| > 1/k, u.o.})
k∈N
wir erhalten, dass Xn → X fast sicher genau dann, wenn
P({|Xn − X| > 1/k, u.o.}) = 0
für alle k ∈ N.
71
Zur Berechnung der Wahrscheinlichekeit P({|Xn − X| > 1/k, u.o.}) können wir das
Borel-Cantelli Lemma anwenden. Wir erhalten den folgenden Satz.
Satz 4.7. Sei (Xn )n∈N eine Folge von reelwertigen Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P) und X : Ω → R eine weitere Zufallsvariable. Für alle ε > 0
es gelte
∞
X
P(|Xn − X| > ε) < ∞
(39)
n=1
Dann konvergiert Xn gegen X fast sicher. Ist ferner die Folge Xn − X unabhängig, so
ist die Bedingung (39) nicht nur hinreichend sondern auch notwending, um fast sicher
Konvergenz von Xn gegen X zu schliessen.
Beweis. Für n ∈ N, sei An = {x ∈ Ω : |Xn (x) − X(x)| > ε}. Nach Annahme gilt
X
P(An ) < ∞
n∈N
Wir betrachten das Ereignis
A = {x ∈ Ω : |Xn (x) − X(x)| > ε für unendlich viele n ∈ N}
= {x ∈ Ω : |Xn (x) − X(x)| > ε u.o.}
\ [
=
{x ∈ Ω : |Xn (x) − X(x)| > ε}
m≥1 n>m
Lemma 3.17, Teil a), zeigt, dass P(A) = 0. Da ε > 0 beliebig ist, es folgt aus Lemma
4.6, dass Xn → X fast sicher.
Sei nun zusätzlich (Xn − X)n∈N eine Folge unabhängige Zufallsvariablen. Dann definiert
An = {x ∈ Ω : |(Xn − X)(x)| > ε} = (Xn − X)−1 ((−ε; ε))
eine Folge unabhängiger Ereignisse. Wenn wir annehmen, dass es ε > 0 existiert, mit
∞
X
P(|Xn − X| > ε) =
n=1
∞
X
P(An ) = ∞
n=1
dann folgt aus Lemma 3.17, Teil b), dass
P({|Xn − X| > ε, u.o.) = 1
Das widerspricht fast sichere Konvergenz der Folge Xn − X gegen Null.
Satz 4.7 erklärt das Zusammenhang zwischen fast sichere Konvergenz und Konvergenz in Wahrscheinlichkeit. Fast sichere Konvergenz ist die stärkere Konvergenz und
impliziert immer Konvergenz in Wahrscheinlichkeit. Anderseits, eine Folge Xn die in
Wahrscheinlichkeit gegen X konvergiert, konvergiert auch fast sicher gegen X, falls die
Wahrscheinlichkeiten P(|Xn − X| > ε) genügend schnell gegen Null konvergieren (so
schnell, dass die Reihe summierbar ist). Ist die Folge Xn − X unabhängig dann ist fast
sichere Konvergenz mit dieser Bedingung sogar äquivalent. Sei zB. (Xn ) eine Folge unabhängige Zufallsvariablen mit P(Xn = 0) = 1 − n−α und P(Xn = 1) = n−α . Dann
konvergiert Xn → 0 in Wahrscheinlichkeit, für alle α > 0. Dagegen, Xn → 0 fast sicher
nur dann wenn α > 1.
72
5
5.1
Das Gesetz der grossen Zahlen
Schwaches Gesetz der grossen Zahlen
Wir betrachten eine Folge von N unabhängige und identisch verteilte reelwertige Zufallsvariablen X1 , . . . , XN , mit EXj = µ. Die arithmetische Mittelung der Variablen
X1 , . . . , XN , gegeben aus
1
1
SN =
(X1 + · · · + XN ) ,
N
N
ist eine neue Zufallvariable. Der Erwartungswert von SN /N ist ESN /N = µ. Das Gesetz
der grossen Zahlen besagt, dass, als N → ∞, die arithmetische Mittelung SN /N gegen
die Konstante µ konvergiert. Man unterscheidet zwischen schwaches Gesetz der grossen Zahlen (Konvergenz in Wahrscheinlichkeit) und starkes Gesetz der grossen Zahlen
(Konvergenz fast sicher).
Satz 5.1 (Schwaches Gesetz der grossen Zahlen). Seien Xj , j ∈ N, identisch verteilte und paarweise unkorrelierte Zufallsvariablen auf einem Wahrscheinlichkeitsraum
(Ω, A, P) mit endliche Varianz EX12 − (EX1 )2 = σ 2 . Dann gilt
n
1X
Xj → EX1
n
j=1
in Wahrscheinlichkeit.
Beweis. Wir haben


 
n
n
X
1 X
1
P 
Xj − EX1 > ε = P  (Xj − EXj ) ≥ 1
n
nε
j=1
j=1
Deswegen

2


n
n
X
1 X
1
Xj − EX1 > ε ≤ 2 2 E  (Xj − EXj )
P 
ε n
n j=1
j=1
=
=
n
1 X
E (Xj − EXj )(Xi − EXi )
ε2 n 2
1
2
ε n2
i,j=1
n
X
E(Xj − EXj )2 =
j=1
(40)
σ2
→0
nε2
für n → ∞.
5.2
Starkes Gesetz der grossen Zahlen
Um fast sichere Konvergenz zu beweisen, brauchen wir zu zeigen, dass die Wahrscheinlichkeiten


X
1 n
P 
Xj − EX1 > ε
n j=1
73
genügend schnell in n abfällt (so schnell, dass die Wahrscheinlichkeiten aufsummiert
werden können, gemäss Satz 4.7). Es ist einfach zu sehen, dass die Wahrscheinlichkeiten
diese Bedingung erfüllen, wenn Xj ein endliches vierte Moment hat.
Proposition 5.2 (Starkes Gesetz der grossen Zahlen mit Momentenbedingung). Sei
(Xj )j∈N eine Folge unabhängige, identische verteilte Zufallsvariablen mit EX14 < ∞.
Dann gilt
n
1X
Xj → EX1
n
j=1
fast sicher.
Beweis. O.B.d.A. können wir annehmen, dass EX1 = 0. Für ε > 0 haben wir


 
X
X
n
n
n
X
1
1
1
P 
Xj > ε = P  E Xj1 Xj2 Xj3 Xj4
Xj > 1 ≤ 4 4
εn ε n
n j=1 j1 ,j2 ,j3 ,j4 =1
j=1
Der Erwartungswert auf der rechten Seite ist Null, ausser wenn je zwei der Indizes gleich
sind. Wir finden
n
X
Xj1 . . . Xj4 = (3n2 − n)(EX12 )2 + nEX14
j1 ,...,j4 =1
Also,


n
1 X (3n2 − n)(EX12 )2 + nEX14
P 
Xj > ε ≤
≤ Cn−2
4 n4
n
ε
j=1 Das impliziert, dass


n
1 X P 
Xj > ε < ∞
n
n=1
j=1
∞
X
und deswegen, dass
n
1X
Xj → 0
n
j=1
fast sicher.
Wir möchten noch das starke Gesetz der grossen Zahlen, ohne Annahme auf dem
vierten Moment von Xj . Dazu brauchen wir die Kolmogorov Ungleichung.
Lemma 5.3 (Ungleichung von Kolmogorov). Seien (Xj )j∈N unabhängige reelwertige
Pn
Zufallsvariablen mit Mittelwerten EXj = µj und Varianzen σj2 . Sei Sn =
k=1 Xk ,
Pn
P
mn = k=1 µk und s2n = nk=1 σk2 (bemerke, dass µn und s2n Mittelwert und Varianz
von Sn sind). Dann gilt, für alle t > 0,
P (∃ k ≤ n : |Sk − mk | ≥ tsn ) ≤ t−2
74
Bemerkung: die Tatsache, dass
P(|Sn − mn | ≥ sn t) ≤ t−2
ist äquivalent zu P( n1 |Sn − mn | ≥ ε) ≤ 1/(nε2 ) und folgt also schon aus der Chebyshev
Ungleichung (40). Der Vorteil der Kolmogorov’sche Ungleichung, ist, dass sie die Wahrscheinlichkeit abschätzt, dass das Maximum von |Sk − mk | über alle k = 1, . . . , n gross
wird (was natürlich grösser ist, als die Wahrscheinlichkeit, dass |Sn − mn | gross ist.
Beweis. O.B.d.A. nehmen wir an, dass µk = 0 für alle k ≥ 1; sonst ersetzen wir Xj mit
der neuen Variablen Xj − mj . Dann ist auch mk = 0 für alle k ≥ 1.
Für k = 1, . . . , n, führen wir die Variablen
Y
Yk = 1(|Sk | ≥ tsn )
1(|S` | < tsn )
`<k
ein. Bemerke, dass Yk = 1(min{` : S` ≥ tsn } = k) das Ereignis ist, dass k das kleinste
ganze Zahl ist, mit |Sk | > tsn . Es existiert
Pnhöchstens ein k ∈ {1, . . . , n} mit Yk = 1.
Deswegen kann die Zufallsvariable Zn = k=1 Yk nur die Werten 0 und 1 annehmen.
Zn ist genau dann 1, wenn es existiert k ≤ n mit |Sk | ≥ tsn . Also
P (∃ k ≤ n : |Sk | > tsn ) = P(Zn = 1) = EZn
Wir betrachten nun das Produkt Zn Sn2 . Einerseits, da Zn ≤ 1, wir finden
n
X
EYk Sn2 = EZn Sn2 ≤ ESn2 = s2n .
(41)
k=1
Anderseits, wir schreiben Uk = Sn − Sk =
Sk und von Yk unabhängig ist. Damit
Pn
j=k+1 Xj
und wir bemerken, dass Uk von
EYk Sn2 = EYk (Uk + Sk )2 = EYk Sk2 + 2EUk Yk Sk + EUk2 Yk ≥ EYk Sk2
weil EUk Yk Sk = EYk Sk EUk = 0 und EUk2 Yk ≥ 0. Da aber Sk2 ≥ t2 s2n falls Yk 6= 0, wir
schliessen, dass
EYk Sn2 ≥ EYk Sk2 ≥ s2n t2 EYk
Aus (41), wir erhalten, dass
s2n ≥
n
X
EYk Sn2 ≥ s2n t2
k=1
n
X
EYk = s2n t2 EZn
k=1
Das gibt
P (∃ k ≤ n : |Sk | > tsn ) = P(Zn = 1) = EZn ≤ t−2
wie behauptet.
Mit Hilfe vom Satz von Kolmogorov zeigen wir nun ein starkes Gesetz der grossen
Zahlen für eine Folge unabhängiger (aber nicht unbedingt identisch verteilte) Zufallsvariablen, mit endlichen Varianz (so, dass die Varianzen nicht zu stark wachsen).
75
Proposition 5.4. Seien Xk , k ∈ N unabhängige Zufallsvariablen mit Mittelwerten
EXk = µk und Varianzen σk2 . Es gelte
∞
X
σ2
k
k=1
Dann
k2
<∞
n
1X
(Xk − µk ) → 0
n
k=1
fast sicher.
Beweis. Sei
n
X
Sn =
(Xk − µk )
k=1
Für ein ε > 0 setzen wir
[
Ap =
{|Sn | ≥ εn}
2p−1 <n≤2p
Wir werden zeigen, dass
∞
X
P(Ap ) < ∞
(42)
p=1
Aus dem Lemma von Borel-Cantelli folgt, dass


\ [
P
Ap  = 0
n≥1 p≥n
Das bedeutet, dass, mit Wahrscheinlichkeit 1, nur endlich viele p ∈ N existieren so, dass
Ap eintritt. D.h., mit Wahrscheinlichkeit 1 gibt es n0 ∈ N so, dass |Sn | ≤ εn für alle
n > n0 und deswegen
P lim n−1 Sn = 0 = 1
n→∞
wie behauptet. Wir müssen also (42) beweisen. Dazu bemerken wir, dass
P(Ap ) ≤ P ∃ 2p−1 < k ≤ 2p : |Sk | ≥ ε2p−1
s22p
p
≤ P ∃ k ≤ 2p : |Sk | ≥ ε2p−1 s−1
s
≤
p
2
2
4p−1 ε2
wo wir die Kolmogorov Ungleichung angewandt haben. Damit erhalten wir
∞
X
p=1
p
∞
∞
2
4 X s22p
4 X 1 X 2
P(Ap ) ≤ 2
=
σk
ε
4p
ε2
4p
=
4
ε2
p=1
∞
X
k=1
p=1
σk2
k=1
∞
X
X 1
16
≤ 2
p
4
3ε
p
p:2 ≥k
Das zeigt (42).
76
k=1
σk2
<∞
k2
Schlussendlich möchten wir noch das starke Gesetz der grossen Zahlen zeigen, ohne
anzunehmen, dass die Variablen Xj eine endliche Varianz haben.
Satz 5.5 (Starkes Gesetz der grossen Zahlen). Seien (Xj )j∈N unabhängige, identisch
verteilte, integrierbare Zufallsvariablen mit Mittelwert µ = EXj . Dann ist
lim
n→∞
1
(X1 + · · · + Xn ) = µ
n
fast sicher.
Bemerkung: auch hier, wie in Proposition 5.4, hätten wir eine Folge unabhängiger
Zufallsvariablen betrachten können, die nicht identisch verteilt sind. Mit µi = EXj
hätten wir dann gehabt
n
1X
(Xj − µj ) = 0
lim
n→∞ n
j=1
fast sicher.
Beweis. Um Proposition 5.4 anzuwenden, brauchen wir zunächst eine Trunkation der
Variablen Xj . Wir setzen Uk = Xk 1(|Xk | < k) und Vk = Xk 1(|Xk | ≥ k). Dann gilt
Xk = Uk + Vk und die Varianz von Uk ist endlich. In der Tat, wenn wir die Varianz von
Uk mit σk2 bezeichnen, finden wir
σk2 ≤ EUk2 ≤
k
X
EXk2 1(j − 1 ≤ |Xk | ≤ j) ≤
j=1
k
X
jE|Xk |1(j − 1 ≤ |Xk | ≤ j) =
j=1
k
X
jaj
j=1
mit aj = E|Xk |1j − 1 ≤ |Xk | ≤ j). Bemerke, dass aj nicht von k abhängt, weil die
Variablen Xk identisch verteilt sind. Wir erhalten,
∞
X
σ2
k=1
k
k2
∞
k
∞
∞
∞
X
X
X
X
1 X
1
≤
`a` =
`a`
≤2
a`
k2
k2
k=1
∞
X
=2
`=1
`=1
k=`
`=1
E|Xk |1(` − 1 ≤ |Xk | ≤ `) = 2E|Xk | < ∞
`=1
wo wir benutzt haben, dass
∞
X
1
1
≤
k2
`−1
k=`
für alle ` > 1. Proposition 5.4 impliziert also, dass
n
1X
(Uk − EUk ) → 0
n
k=1
fast sicher. Nun aber
EUk = µ − EXk 1(|Xk | ≥ k)
wobei
|EXk 1(|Xk | ≥ k)| ≤ E|Xk |1(|Xk | ≥ k) = E|X1 |1(|X1 | ≥ k)
77
weil alle Xk identisch verteilt sind. Da E|X1 | < ∞, es folgt, dass
|EXk 1(|Xk | ≥ k)| → 0
für k → ∞. Also EUk → µ für k → ∞, und deswegen
n
1X
EUk → µ
n
k=1
für n → ∞. Das zeigt, dass
n
1X
Uk → µ
n
(43)
k=1
fast sicher, für n → ∞.
Wir müssen noch zeigen, dass die Vk vernachlässigt werden können. Dazu bemerken
wir, dass
∞
X
a`+1
P(Vn 6= 0) = P(|Xn | ≥ n) = E1(|Xn | ≥ n) ≤
`
`=n
wobei wir erinnern, dass a` = E|Xk |1(` − 1 ≤ |Xk | ≤ `). Damit ist
∞
X
n=1
P(Vn 6= 0) ≤
∞ X
∞
X
a`+1
n=1 `=n
`
=
∞
`
X
a`+1 X
`=1
`
n=1
1=
∞
X
a`+1 < ∞
`=1
Das zeigt, mit Borel-Cantelli,
P(Vn 6= 0für unendlich viele n ∈ N) = 0
Mit anderen Wörter, mit Wahrscheinlichkeit 1, es existieren nur endlich viele n ∈ N so,
dass Vn 6= 0. Da zeigt, dass
n
1X
Vk → 0
n
k=1
fast sicher, und also, mit (43), dass
n
1X
Xk → µ
n
k=1
fast sicher.
5.3
Anwendungen in der Statistik
Das Gesetz der grossen Zahlen hat Anwendungen in der Statistik. Die Aufgabe der
Statistik ist die Beschreibung von Messungen, oder Beobachtungen, die als Realisierung von Zufallsvariablen X1 , . . . , Xn auf einem Wahrscheinlichkeitsraum interpretiert
werden. Die Verteilung der Zufallsvariablen ist a-priori nicht bekannt. Die Statistik versucht diese Verteilung durch die Beobachtungen zu bestimmen, oder, besser gesagt, zu
schätzen. Normalerweise ist es nicht möglich die Verteilung der Zufallsvariablen genau zu
78
bestimmen. Deswegen macht man Modellannahmen und man charakterisiert die gesuchte Verteilung durch (wenige) Parameter, die durch die Messungen abgeschätzt werden
sollten. Um die unbekannte Parameter abzuschätzen, konstruiert der Statistiker oder
die Statistikerin Schätzer, d.h. Funktionen der Variablen X1 , . . . , Xn , die die Parameter annähern. Ein konsistenter Schätzer für ein Parameter a ∈ Rk ist eine Folge von
messbaren Funktionen an : Rn → Rk , mit der Eigenschaft, dass
an (X1 , . . . , Xn ) → a
fast sicher, für n → ∞.
Die Beobachtungen können zum Beispiel die Ausgänge einer Folge von identischen
und sich nicht beeinflussenden Zufallsexperimenten. Dann macht es Sinn anzunehmen,
dass die Zufallsvariablen X1 , . . . , Xn eine Folge unabhängiger und identisch verteilte Zufallsvariablen mit Verteilung ν ist. Hier sind die Unabhängigkeit und die Tatsache, dass
die Xj identisch verteilt sind, Modellannahmen. Die Verteilung ν ist, zunächst unbekanntes, Modellparameter. Wie kann man ν bestimmen? ν ist ein Wahrscheinlichkeitsmass
auf R, definiert durch ν(A) = P(X1 ∈ A). Um ν zu bestimmen, schätzen wir ν(A), für
eine beliebige Borel Menge A ⊂ R. Als Schätzer für das Parameter ν(A) benutzen wir
die Frequenz der Ausgänge Xi ∈ A, definiert als
n
1X
νn (A) =
1A (Xi )
n
i=1
Bemerke, dass νn (A) ist eine messbare Funktion der Zufallsvariable X1 , . . . , Xn und
definiert deswegen wieder eine Zufallsvariable auf dem selben abstrakten Wahrscheinlichkeitsraum, wo die Variablen Xi definiert sind (der Wahrscheinlichkeitsraum spielt
hier keine wichtige Rolle). Das Gesetz der grossen Zahlen zeigt, dass νn ein konsistenter
Schätzer für νn (A) ist.
Lemma 5.6. Sei (Xi )i∈N eine Folge unabhängiger, identisch verteilter, reelwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei ν : B(R) → [0; 1] die
Wahrscheinlichkeitsverteilung von X1 (und deswegen von Xj , für alle j ∈ N), d.h.
ν(A) = P(X1 ∈ A). Dann gilt, für alle A ∈ B(R), νn (A) → ν(A) fast sicher (hier
wird νn (A) als eine Folge Zufallsvariablen interpretiert, ν(A) ist eine Zahl, d.h. eine
konstante Zufallsvariable).
Beweis. Sei Yj = 1A (Xj ) ist eine Folge unabhängiger Zufallsvariablen, mit EYj =
P(Xj ∈ A) = ν(A). Das Gesetz der grossen Zahlen impliziert, dass
n
1X
νn (A) =
Yj → EY1 = ν(A)
n
j=1
fast sicher, für n → ∞.
Statt eine Borel Menge A ⊂ R festzuwählen, und νn (A) als eine Folge von reelwertige Zufallsvariablen auf (Ω, A, P) zu betrachten, kann man auch νn als eine Folge von
masswertiges Zufallsvariablen, d.h. eine Folge von Funktionen auf Ω, mit Werten in den
79
Borel Massen auf R. Um die Abhängigkeit von νn von x ∈ Ω zu unterstriechen, schreiben wir νnx . Für alle x ∈ Ω ist dann νnx ein Wahrscheinlichkeitsmass auf B(R). Da jede
Borel Mass auf R durch eine Verteilungsfunktion beschrieben werden kann, können wir
νnx eine Folge Verteilungsfunktionen Fnx zuordnen, die durch
n
Fnx (t) = νnx ((−∞; t]) =
1X
1(Xi (x) ≤ t)
n
j=1
definiert sind, für alle x ∈ Ω (man kann also die Abbildung x → Fnx als eine Folge
von Zufallsvariablen betrachten, mit Werten in den Verteilungsfunktionen über R). Aus
Lemma 5.6 folgt, dass, für alle feste t ∈ R, Fnx (t) = νnx ((−∞; t]) → ν((−∞; t]) =: F (t)
für fast alle x ∈ Ω. Im nächsten Satz zeigen wir sogar, dass, für fast alle x ∈ Ω, Fnx → F
in Verteilung.
Satz 5.7. Sei (Xn )n∈N eine Folge reelwertiger, unabhängiger identisch verteilter Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). Sei ν : B(R) → [0; 1] die Wahrscheinlichkeitsverteilung von X1 , und F die entsprechende Verteilungsfunktion (d.h.
F (x) = ν((−∞; x]) = P(X1 ≤ x)). Für x ∈ Ω, sei νnx : B(R) → [0; 1] das Borel
Mass, definiert durch
n
1X
νnx (A) =
1A (Xi (x))
n
j=1
P
Sei Fnx die Verteilungsfunktion von νnx , d.h. Fnx (t) = νn ((−∞; t]) = n1 nj=1 1(Xi (x) ≤ t).
e ∈ A mit P(Ω)
e = 1 so, dass für alle x ∈ Ω,
e F x → F in
Dann es existiert eine Menge Ω
n
Verteilung.
Beweis. Es folgt aus Lemma 5.6, dass für alle t ∈ R, Fnx (t) → F (t) fast sicher. D.h. für
alle t ∈ R, es existiert eine Menge Ωt ∈ A mit P(Ωt ) = 1 und so, dass Fnx (t) → F (t) für
alle x ∈ Ωt .
e = ∩q∈Q Ωq . Dann gilt P(Ω)
e = 1, weil
Wir setzen nun Ω
X
e c ) = P(∪q∈Q Ωc ) ≤
P(Ω
P(Ωcq ) = 0
q
q∈Q
e es gilt F x (t) → F (t) für alle t ∈ Q.
Ferner, für alle x ∈ Ω
n
Sei nun c ∈ R so, dass F stetig an der Stelle c ist, und ε > 0. Da F stetig an der
Stelle c ist, finden wir δ > 0 so, dass |F (t) − F (s)| < ε für alle s ∈ [c − δ; c + δ]. Wir
e
wählen dann d1 ∈ [c − δ, c] ∩ Q und d2 ∈ [c; c + δ] ∩ Q. Dann gilt, für alle x ∈ Ω,
lim sup Fnx (c) ≤ lim sup Fnx (d2 ) = F (d2 ) ≤ F (c) + ε
n→∞
n→∞
und
lim inf Fnx (c) ≥ lim inf Fnx (d1 ) = F (d1 ) ≥ F (c) − ε
n→∞
n→∞
wo wir die Monotonie der Verteilungsfunktionen Fnx benutzt haben zusammen mit der
e Fnx (t) → F (t) für alle t ∈ Q.
Tatsache, dass, für x ∈ Ω,
80
Lemma 5.6 und Satz 5.7 zeigen, dass die Frequenzen νn konsistenten Schätzer sind,
für die Wahrscheinlichkeiten ν(A) und allgemeiner für die Verteilung ν der Variablen
X1 , . . . , Xn . In der Anwendungen ist es auch wichtig Schranke für die Differenz zwischen
die gesuchte Wahrscheinlichkeiten ν(A) und die geschätzte Werte νn (A) zu bestimmen,
damit man weisst, wie gross n sein muss, um eine gute Approximation von ν(A) zu
haben. Solche Schranke (in der Statistik man spricht von Qualitätsabschätzungen) kann
man leicht mit Hilfe von der Chebyshev Ungleichung zeigen.
Lemma 5.8. Sei (Xj )j∈N eine Folge reelwertiger unabhängiger identisch verteilter Zufallsvariablen auf eine Wahrscheinlichkeitsraum (Ω, A, P). Sei F die Verteilungsfunktion
von X1 . Dann gilt, für alle A ∈ cB(R),
1
P (|νn (A) − ν(A)| > cν(A)) ≤
(44)
nc2 ν(A)
Beweis. Wir setzten Yj = 1(Xj ∈ A). Der Erwartungswert von Yj ist EYj = P(Xj ∈
A) = ν(A). Da Yj2 = Yj , die Varianz von Yj ist
E|Yj − EYj |2 = ν(A)(1 − ν(A)) ≤ ν(A)
Da
n
νn (A) − ν(A) =
1X
(Yj − EYj )
n
j=1
kriegen wir

P (|νn (A) − ν(A)| > cν(A) = P 
≤
1
|
ncν(A)
E|Y1 − EY1
nc2 ν 2 (A)
n
X

(Yj − EYj )| > 1
j=1
|2
≤
1
c2 nν(A)
Die Schranke (44) kann als
P (|νn (A) − ν(A)| > c) ≤
ν(A)
nc2
umgeschrieben werden. Normalerweise möchtet man aber, dass der relative Fehler, also |νn (A) − ν(A)|/ν(A) klein ist. Deswegen ist die Formel (44) so geschrieben. In der
Anwendungen wählt man zunächst wie gross der Fehler c sein kann (z.B. kann man
wählen, dass der Fehler höchstens 10 Prozent vom Wert ν(A) sein sollte; dann setzt
man c = 0.1). Dann man wählt wie gross soll die Wahrscheinlichkeit p sein, dass der
Fehler c tatsächlich kleiner als die gewählte Schranke ist (z.B. man wählt, dass der Fehler
kleiner als 10 Prozent sein sollte, mindestens mit Wahrscheinlichkeit 90 Prozent). Die
Schranke (44) gibt dann die Bedingung
1
nc2 ν(A)
≤ (1 − p)
81
damit der Fehler kleiner als c ist mit Wahrscheinlichkeit grösser als p. Das gibt eine
untere Schranke n ≥ ((1 − p)c2 ν(A))−1 an der Anzahl notwendinger Messungen (man
bemerke, dass die Anzahl notwendiger Messungen ist grösser, falls ν(A) klein ist; das
war zu erwarten, weil wenn ν(A) klein ist muss man lang warten, damit das Ergebnis A
überhaupt einmal fällt.
Statt an den Wahrscheinlichkeiten ν(A) kann man auch an anderen Eigenschaften
der Verteilung ν interessiert sein. Dann braucht man andere Schätzer. Z.B. kann man
versuchen der Erwartungswert oder die Varianz von ν zu schätzen. Das Gesetz der
grossen Zahlen gibt uns auch in diesem Fall konsistenten Schätzer.
Wir betrachten wie oben eine Folge unabhängiger und identisch verteilter reelwertiger Zufallsvariablen (Xn )n∈N , mit Erwartungswert EX1 = µ. Das Gesetz der grossen
Zahlen impliziert, dass
n
1X
Xj → EX1
n
j=1
fast sicher. Das bedeutet, in der Sprache der Statistik, dass die Zufallsvariablen
n
mn =
1X
Xj
n
j=1
ein Schätzer für den Erwartungswert µ = EX1 sind. Nimmt man an, dass X1 eine
endliche Varianz hat, so kann man auch hier eine Qualitätsabschätzung herleiten.
Lemma 5.9. Sei (Xj )j∈N eine Folge unabhängiger identisch verteilter Zufallsvariablen
mit EX1 = µ und E|X1 − EX1 |2 = σ 2 < ∞. Dann ist
n
mn =
1X
Xj
n
j=1
ein konsistenter Schätzer für µ und es gilt
P (|mn − µ| > cµ) ≤
σ2
nµ2 c2
(45)
Beweis. Die Chebyshev Ungleichung zeigt, dass


X
2
n
1
(Xj − µ) > 1 ≤ σ
P (|mn − µ| > cµ) = P 
cµn c2 µ2 n
j=1
In der Praxis ist die Schranke (45) nicht so nützlich, weil wir, auf der rechten Seite,
der Erwartungswert µ und die Varianz σ 2 nicht kennen (wir versuchen eben durch Beobachtungen die Eigenschaften der Verteilung ν zu bestimmen). Mindestens für µ haben
wir aber eine Schätzung, gegeben aus mn . Um die Formel (45) zu benutzen, brauchen
wir also auch eine Schätzung für die Varianz σ 2 . Dazu definieren wir die empirische
Varianz
n
1X
Vn =
(Xj − mn )2
n
j=1
82
Mit dieser Definition ist Vn eine Zufallsvariable auf dem selben Wahrscheinlichkeitsraum,
wo die Variablen Xj definiert sind. Im nächsten Lemma zeigen wir, dass Vn fast sicher
gegen der Varianz σ 2 konvergiert, unter der Annahme, dass σ 2 < ∞.
Lemma 5.10. Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit EX1 = µ und E(X1 − EX1 )2 = σ 2 < ∞. Dann konvergiert Vn → σ 2 fast
sicher.
Beweis. Mit der Definition
n
1X
mn =
Xj
n
j=1
können wir schreiben
Vn =
n
n
j=1
j=1
1X
1X 2
(Xj − mn )2 =
Xj − m2n
n
n
Da (Xj2 )j∈N eine Folge unabhängiger und identisch veteilter Zufallsvariablen mit endlichen Erwartungswert ist, folgt aus dem Gesetz der grossen Zahlen, dass
n
1X 2
Xj → EX12
lim
n→∞ n
j=1
fast sicher. Anderseits, da mn → µ fast sicher, bekommen wir auch, dass m2n → µ2 fast
sicher. Daraus folgt, dass
n
1X 2
Xj − m2n → EX12 − (EX1 )2 = σ 2
n
j=1
fast sicher.
Also, mit der Messungen von X1 , . . . , Xn kann man Abschätzungen mn und Vn für
die Varianz der Verteilung ν von X1 . Mit Hilfe dieser Abschätzungen, kann man dann
versuchen mit (45) zu bestimmen, wie gross der Fehler ist.
6
Der zentrale Grenzwertsatz
Sei (Xn )n∈N eine Folge unabhängiger identisch verteilter reelwertiger integrierbarer Zufallsvariablen mit EX1 = µ. Das Gesetz der grossen Zahlen impliziert, dass
n
1X
(Xj − µ) → 0
n
(46)
j=1
fast sicher, als n → ∞. Man könnte sich aber vorstellen, dass wenn wir mit einer geeignete Potenz von n multiplizieren, die linke Seite von (46) einen nicht trivialen Grenzwert
hat. Mit andere Wörter, das Gesetz der grossen Zahlen impliziert, dass
n
X
Xj ' nµ
j=1
83
(47)
Mit dem zentralen Grenzwertsatz untersuchen wir dann den Term nächster Ordnung in
dieser Entwicklung, die Fluktuationen um nµ. Bemerke, dass die Summe auf der linke
Seite von (47) eine Zufallsvariable ist. Obwohl der Hauptterm nµ auf der rechten Seite
eine Konstante ist, können wir uns also vorstellen, dass die Korrekturen Zufallsvariablen
sind, mit einer bestimmten Verteilung. Es gibt deswegen viele natürlichen Fragen, die
wir uns stellen können: wie gross ist der Term nächster Ordnung? Was ist die Verteilung
der Fluktuationen? Wovon hängt sie ab?
Um die erste Frage zu beantworten, nehmen wir an, dass EX12 < ∞, d.h., dass X1
eine endliche Varianz hat. Um die Grösse der Fluktuationen zu bestimmen, subtrahieren
wir den Hauptterm µn von der linken Seite von (47), und wir multiplizieren mit n−γ für
ein geeignete γ > 0. Wir berechnen dann die Varianz der resultierende Zufallsvariable:
2
n
n
X
X
−γ
−2γ


E n
(Xj − µ) = n
E(Xi − µ)(Xj − µ)

j=1
i,j=1
= n−2γ
n
X
E(Xj − EXj )2 = n1−2γ E(X1 − EX1 )2
j=1
Pn
−γ
Also die Variable n
j=1 (Xj − µ) kann nur dann eine Zufallsvariable der Ordnung 1
sein, falls γ = 1/2. Diese Berechnung zeigt, dass, wenn X1 eine endliche Varianz hat,
dann muss der nächsten Term in der Entwicklung (47) ein Term der Ordnung n1/2 sein.
Die nächste Frage ist: was ist die Verteilung der Fluktuationen. D.h. was ist der
Limes der Folge
n
1 X
√
(Xj − µ)
(48)
n
j=1
für n → ∞? Wir bemerken, dass wir diese Frage schon einmal geantwortet haben, für
den Fall, dass die Folge (Xj )j∈N aus unabhängiger und identisch verteilter Bernoulli
Variablen besteht, mit P(X1 = 0) = p und P(X1 = 0) = 1 − p für ein p ∈ (0; 1/2). In
diesem Fall, der Satz von Moivre-Laplace (Satz 4.4) zeigt, dass, (48) in Verteilung gegen
einer Gauss’sche Zufallsvariable mit Erwartung 0 und mit Varianz p(1 − p) konvergiert.
Man könnte sich vorstellen, dass das Auftauchen einer Gauss’sche Verteilung von der
Wahl der Bernoulli Variablen Xj abhängt, und, dass für andere Wahlen von Xj , die
Fluktuationen durch andere Verteilungen beschrieben werden. Das ist aber nicht der
Fall. Der zentrale Grenzwertsatz besagt, dass, falls EX12 < ∞, die Zufallsvariable (48) in
Verteilung gegen eine Gauss’sche Variable konvergiert, unabhängig aus der Verteilung
von X1 .
Satz 6.1 (Zentrale Grenzwertsatz). Sei (Xn )n∈N eine Folge unabhängiger identisch verteilter reelwertige Zufallsvariablen mit EX1 = µ und E(X1 − EX1 )2 = σ 2 < ∞. Dann
konvergiert die Folge
n
1 X
√
Zn =
(Xj − µ)
n
j=1
in Verteilung gegen eine Gauss’sche Zufallsvarible N (0, σ 2 ) mit Mittelwert µ und Varianz σ 2 .
84
Um den zentrale Grenzwertsatz zu zeigen, vergleichen wir die charakteristische Funktion von Zn mit der charakteristische Funktion einer Gauss’sche Variable N (0, σ 2 ). Wir
haben schon in Sektion 2.6 gezeigt, dass charakteristische Funktionen Zufallsvariablen
vollständig charakterisieren (siehe Satz 2.21). Wir brauchen noch zu zeigen, dass punktweise Konvergenz von charakteristische Funktionen Konvergenz in Verteilung impliziert.
Satz 6.2. Sei (Xn )n∈N eine Folge von Zufallsvariablen, mit charakteristische Funktionen
φn . Sei X eine weitere Zufallsvariable, mit charakteristische Funktion φ. Konvergiert
φn (t) → φ(t) für alle t ∈ R, dann konvergiert Xn in Verteilung gegen X.
Beweis. Seien Pn , P die Wahrscheinlichkeitsverteilungen von Xn und X. Wir müssen
zeigen, dass
Z
Z
f dPn → f dP
(49)
für n → ∞ und für alle f stetig und beschränkt. Wir zeigen zunächst, dass (49) für alle
f stetig und mit kompaktem Träger gilt. Dazu setzen wir, für σ > 0,
Z
1
1
2
2
pσ (x) = √
e−itx p1/σ (t)dt
e−x /2σ = √
2
2
2πσ
2πσ
Für alle σ > 0, wir behaupten, dass
Z
Z
pσ ∗ f dPn → pσ ∗ f dP
(50)
für alle f stetig mit kompakten Träger. In der Tat,
Z
Z Z
pσ ∗ f dPn =
pσ (y − x)f (x)dPn (y) dx
Z
Z
1
itx
=√
f (x)
p1/σ (t)φn (t)e dt dx
2πσ 2
Nach Annahme gilt φn (t) → φ(t) für alle t ∈ R. Da anderseits
p1/σ (t)φn (t)e−itx ≤ p1/σ (t)
und da die rechte Seite integrierbar ist, dominierte Konvergenz impliziert, dass
Z
Z
1
1
√
e−ixt p1/σ (t)φn (t)dt → √
e−ixt p1/σ (t)φ(t)dt
2
2
2πσ
2πσ
für alle x ∈ R. Da
Z
Z
1
1
−ixt
√
e
p1/σ (t)φn (t)dt ≤ √
p1/σ (t)dt < ∞
2πσ 2
2πσ 2
und da f stetig und kompakten Träger hat, können wir noch einmal dominierte Konvergenz auf dem x-Integral anwenden. Wir erhalten (50), für alle f stetig und mit kompakten Träger. Nun benutzen wir (50), um (49) zu bewiesen, für alle f stetig und mit
85
kompakten Träger. Dazu bemerken wir, dass, da f stetig ist und kompakten Träger hat,
ist f gleichmässig stetig. Das impliziert, dass
sup |pσ ∗ f (x) − f (x)| → 0
x
für σ → 0. Für jedes σ > 0, abschätzen wir dann
Z
Z
Z
Z
f dPn − f dP ≤
|f
−
p
∗
f
|dP
+
|f − pσ ∗ f |dP
σ
n
Z
Z
+ pσ ∗ f dPn − pσ ∗ f dP
Zu gegebenen ε > 0 können wir dann σ > 0 so klein wählen, dass
sup |pσ ∗ f (x) − f (x)| ≤ ε/3
x
Dann wählen wir n ∈ N so gross, dass
Z
Z
pσ ∗ f dPn − pσ ∗ f dP ≤ ε/3
(möglich wegen (50)). Wir schliessen, dass
Z
Z
f dPn − f dP ≤ ε
Da ε > 0 beliebig ist, finden wir (49), für alle stetige Funktionen mit kompakten Träger.
Wir müssen noch zeigen, dass (49) eigentlich für alle f stetig und beschränkt gilt. Sei
hk eine Folge von stetigen Funktionen mit kompaktem Träger und mit 0 ≤ hk (x) ≤ 1
für alle x ∈ R, so, dass hk (x) → 1 für alle x ∈ R. Dann ist f hk ebenfalls stetig mit
kompaktem Träger, und also
Z
Z
hk f dPn → hk f dP
für n → ∞. Ferner, es gilt
Z
Z
Z
Z
f dPn − f hk dPn ≤ |f ||1 − hk |dPn ≤ sup |f (x)| 1 − hk dPn
x
und analog
Z
Z
Z
f dP − f hk dP ≤ sup |f (x)| 1 − hk dP
x
Also, mit M = sup |f (x)|, erhalten wir
Z
Z
Z
Z
f dPn − f dP ≤ M 1 − hk dPn + M 1 − hk dP
Z
Z
+ f hk dPn − f hk dP
86
Wir haben
Z
Z
f hk dPn →
f hk dP
für n → ∞ und, da hk (x) → 1 für k → ∞, und |hk (x)| ≤ 1,
Z
hk dP → 1
für k → ∞. Das impliziert, dass für ein beliebiges ε > 0, wir finden zunächst ein k ∈ N
so, dass
Z
1 − hk dP ≤ ε/4M
Mit festem k ∈ N, wir wählen nun n ∈ N so, dass
Z
Z
M hk dPn − hk dP ≤ ε/4
und
Z
Z
f hk dPn − f hk dP ≤ ε/4
Dann gilt
Z
Z
f dPn − f dP ≤ ε
für alle n ∈ N gross genug.
Um die Konvergenz von
n
1 X
Zn = √
(Xj − µ)
n
j=1
gegen eine Gauss’sche Variable zu zeigen, brauchen wir also wegen Satz 6.2 zu zeigen, dass die charakteristische Funktion φZn gegen die charakteristische Funktion der
Gauss’sche Variable konvergiert. Ohne Beschränkung der Allgemeinheit können wir hier
annehmen, dass µ = 0 (sonst definieren wir die neue Folge Yj = Xj −µ). Sei φ(t) = EeitX1
die charakteristische Funktion von X1 (und also auch von Xn , für alle n ∈ N). Die charakteristische Funktion von Zn ist dann
Ee
it √1n
Pn
j=1
Xj
=E
n
Y
j=1
√
i(t/ n)Xj
e
=
n
Y
Ee
√
i(t/ n)Xj
j=1
=
n
Y
√
√
φ(t/ n) = φn (t/ n)
(51)
j=1
Die rechte Seite der letzte Gleichung muss also mit der charakteristische Funktion einer
Gauss’sche Variable mit Verteilung N (0, σ 2 ) verglichen werden. Aus (14) wissen wir, dass
die charakteristische Funktion einer Gauss’sche Variable mit Mittelwert 0 und Varianz
2 2
σ 2 aus φN (0,σ2 ) (t) = e−σ t /2 gegeben ist. Wir müssen also zeigen, dass, falls φ die
charakteristische Funktion der Variable X1 ist, dann gilt
√
2 2
φn (t/ n) → e−σ t /2
(52)
√
für n → ∞. Um das asymptotischen Verhalten von von φn (t/ n) zu bestimmen, brauchen wir das folgende Lemma.
87
Lemma 6.3. Sei an eine Folge reellen Zahlen mit limn→∞ an = a. Dann gilt
an n
= ea
lim 1 +
n→∞
n
Beweis. Wir bemerken, dass
|ex − 1 − x| ≤ Cx2
für alle |x| ≤ 1. Da an → a, für n → ∞, we folgt, dass |an |/n ≤ 1 für n gross genug.
Damit gilt
ean /n 1 − Ce−an /n n−2 ≤ 1 + an /n ≤ ean /n 1 + Ce−an /n n−2
und
n
n
ean 1 − Ce−an /n n−2 ≤ (1 + an /n)n ≤ ean 1 + Ce−an /n n−2
Für n → ∞, ean → ea , e−an /n → 1, (1 − Ce−an /n n−2 )n → 1. Also,
lim (1 + an /n)n = ea
n→∞
Mit Hilfe des letztes Lemma können wir nun das asymptotischen Verhalten von
√
φn (t/ n) untersuchen und den zentrale Grenzwertsatz beweisen.
Beweis von Satz 6.1. O.B.d.A. können wir annehmen, dass µ = 0 (sonst ersetzen wir
Xj durch die zentrierte Variablen Yj = Xj − µ). Dann ist die Varianz von X1 einfach
σ 2 = EX12 . Sei φ(t) = EeitX1 die charakteristische Funktion von X1 . Aus Lemma 2.20
wissen wir, dass φ ∈ C 2 (R), mit φ(0) = 1, φ0 (0) = iEX1 = 0 und φ00 (0) = −EX12 = −σ 2 .
Gemäss (52), Satz 6.1 folgt, wenn wir zeigen, dass, für alle t ∈ R,
√
2 2
lim φn (t/ n) = e−σ t /2
n→∞
gilt. Um (53) zu beweisen, setzen wir
R2 (s) = φ(s) − 1 −
s2 00
φ (0)
2
Da φ ∈ C 2 (R), mit φ(0) = 1 und φ0 (0) = 0, finden wir, dass
lim s−2 R2 (s) = 0
s→0
Also, für alle t ∈ R,
√
n
R2 (t/ n) = 0
2
n→∞ t
lim
Nun
n
√ n
√
t2 00
φ(t/ n) = 1 +
φ (0) + R2 (t/ n)
2n
Wir setzen
an =
√
t2 00
φ (0) + nR2 (t/ n)
2
88
(53)
Dann gilt
σ 2 t2
t2 00
φ (0) = −
2
2
für n → ∞. Lemma 6.3 impliziert also, dass
an →
√
σ 2 t2
lim φn (t/ n) = e− 2
n→∞
Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen, mit
EX1 = µ und E(X1 − EX1 )2 = σ 2 . Der zentrale Grenzwertsatz zeigt, dass
n
X
Xj ' nµ +
√
√
nZ + o( n)
(54)
j=1
wobei Z eine Gauss’sche Zufallsvariable ist, mit Mittelwert 0 und Varianz σ 2 . Es ist
hier wichtig zu bemerken, dass (54) unabhängig
von der Verteilung von X1 gilt. Bis auf
P
Fehler kleiner als n1/2 , die Verteilung von nj=1 Xj ist völlig aus Mittelwert und Varianz
von X1 bestimmt.
Schlussendlich können wir uns fragen, was passiert, wenn X1 keine endliche Varianz
hat? Dann sind die Fluktuationen grösser und man muss mit einer kleineren Potenz von
n multiplizieren, um ein nicht triviales Limes zu finden. Man kann in der Tat zeigen, dass
für integriebare Variablen mit unendlichen Varianz eine Verallgemeinerung vom zentral
Grenzwertsatz gilt: in Abhängigkeit vom Zerfall von X1 ins Unendlichen, es existiert
0 < γ ≤ 1/2 so, dass die Variable
n
1 X
(Xj − EXj )
nγ
j=1
in Verteilung gegen eine sogenannte α-stabile Verteilung konvergiert (die α-stabile Verteilung hängt von γ ab).
7
Markovketten
Der Begriff von stochastische Prozesse wurde in Definition 3.11 eingeführt; ein stochastische Prozess oder eine Zufallsfolge auf dem Wahrscheinlichkeitsraum (Ω, A, P)
ist eine messbare Abbildung X : (Ω, A) → (RN , B(R)N ). Für alle x ∈ Ω ist also
X(x) = (Xn (x))n∈N eine Folge in R. Das Index n ∈ N wird normalerweise als Zeit
interpretiert. Hier bezeichnet B(R)N die σ-Algebra auf RN , die aus alle Zylindermengen
erzeugt wird.
Statt Zufallsfolgen in R, kann man allgemeiner Zufallsfolgen betrachten, mit Werten
in einer Menge S, versehen mit eine σ-Algebra AS . Typischerweise ist S eine Teilmenge
von R oder von Rd . Eine messbare Abbildung X : (Ω, A) → (S N , AN
S ) heisst ein stochastische Prozess mit Zustandsraum S (und Indexmenge N). In diesem Kapitel werden wir
insbesondere Stochastische Prozess mit endlichem Zustandsraum betrachten. In diesem
Fall ist normalerweise AS = P(S) einfach die Potenzmenge von S (bemerke, dass AN
S
89
trotzdem kleiner ist, als die Potenzmenge von S N ). Eine wichtige Klasse von stochastische Prozess mit endlichen Zustandsraum sind die Markovketten. Diese Systeme sind
eine Verallgemeinerung der Begriffen von unabhängige Folgen und von Summen unabhängiger Folgen von Zufallsvariablen, die wir in den letzten Kapitel betrachtet haben.
Sie spielen eine extrem wichtige Rolle in der Modellierung des dynamischen Verhaltens
von vielen Systemen.
Definition 7.1. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, und S eine endliche Menge
(man kann eigentlich die selbe Definition auch für abzählbare Zustandsräume anwenden).
Ein stochastisches Prozess X : (Ω, A) → (S N , AN
S ) heisst eine Markovkette, falls, für alle
n ∈ N und i1 , i2 , . . . , in ∈ N mit i1 < i2 < · · · < in und für alle x1 , . . . , xn ∈ S mit
P Xin−1 = xn−1 , Xin−2 = xn−2 , . . . , Xi1 = x1 > 0
es gilt
P Xin = xn |Xin−1 = xn−1 , . . . , Xi1 = x1 = P(Xin = xn |Xin−1 = xn−1 )
Ist X = (Xn )n∈N eine Folge unabhängiger Zufallsvariablen mit Werten auf einem
endlichen Zustandsraum S, so ist X offenbar eine Markovkette, weil
P Xin = xn |Xin−1 = xn−1 , . . . , Xi1 = x1 = P(Xin = xn |Xin−1 = xn−1 ) = P(Xin = xn )
Ist die endliche Menge S ⊂ R, so können wir auch die Folge Sn = X1 + · · · + Xn
betrachten. Die Folge Sn ist dann nicht unabhängig, aber trotzdem eine Markovkette,
weil, wenn wir wissen, dass Xin−1 = xn−1 ist, dann spielt der Wert von Xk für Zeit
k < in−1 keine Rolle mehr, um Xin zu bestimmen. Bei einer Markovkette dürfen die
zukünftige Wahrscheinlichkeiten von den gegenwärtige abhängen, aber nicht von der
vergangenen.
Insbesondere, es folgt aus der Definition mit der Wahl i1 = 1, i2 = 2, . . . , in = n,
dass, falls X : Ω → S N eine Markovkette ist, dann muss
P (Xn = xn |Xn−1 = xn−1 , Xn−2 = xn−2 , . . . , X1 = x1 ) = P (Xn = xn |Xn−1 = xn−1 )
(55)
Sei π0 : S → [0; 1] die Wahrscheinlichkeitsverteilung von X0 , d.h.
P(X0 = x) = π0 (x)
für alle x ∈ S. Dann können wir die Wahrscheinlichkeitsverteilung von Xn , für alle n ∈ N
mit Hilfe von π0 und von den Übergangswahrscheinlichkeiten
pn (x, y) = P(Xn = y|Xn−1 = x)
für alle x, y ∈ S und n ∈ N berechnen. In der Tat
X
P(Xn = xn ) =
P(Xn = xn |Xn−1 = xn−1 )P(Xn−1 = xn−1 )
xn−1 ∈S
=
X
pn (xn−1 , xn )P(Xn−1 = xn−1 )
xn−1 ∈S
90
Iteration dieser Identität führt uns zu
X
P(Xn = xn ) =
pn (xn−1 , xn )pn−1 (xn−2 , xn−1 ) . . . p1 (x0 , x1 )P(X0 = x0 )
xn−1 ,...,x0 ∈S
=
X
pn (xn−1 , xn )p(xn−2 , xn−1 ) . . . p(x0 , x1 )π0 (x0 )
xn−1 ,...,x0 ∈S
Sei also πn : S → [0; 1], definiert durch πn (x) = P(Xn = x), die Verteilung von Xn .
Dann haben wir
πn = π0 P1 · P2 · · · · · Pn ,
(56)
wobei Pj die |S| × |S| Matrix ist, mit Einträge pj (x, y). Auf der rechten Seite von (56),
P1 ·P2 bezeichnet das Produkt von Matrizen. Ferner, π0 P1 ·· · ··Pn bezeichnet das Produkt
von links vom Vektor π0 mit der P
Matrix P = P1 · · · · · Pn ; d.h. die x-te Komponente von
π0 P ist gegeben aus (π0 P )(x) = y∈S π0 (y)P (y, x).
Die Matrix Pn , mit den Einträge pn (x, y) heisst die n-te Übergangsmatrix von der
Markovkette. Die Einträge einer Übergangsmatrix sind immer so, dass 0 ≤ pn (x, y) ≤ 1
für alle x, y ∈ S und
X
X
pn (x, y) =
P(Xn = y|Xn−1 = x) = 1
(57)
y∈S
y∈S
für alle x ∈ S (das heisst, die Summe der Einträge auf jeder Zeile ist 1). Eine Matrix
mit Einträge zwischen 0 und 1 und mit der Eigenschaft (57) heisst eine stochastische
Matrix.
Umgekehrt: für jedes Wahrscheinlichkeitsmass π0 auf (S, AS ) und für jede Folge von
|S| × |S| stochastische Matrizen (Pj )j∈N gibt es eine Markovkette mit Übergangswahrscheinlichkeiten pj (x, y) gegeben aus der Einträge von Pj . Das folgt aus der Diskussion
in Sektion 3.3. In der Tat, mit Hilfe von den Übergagsmatrizen Pj und von der Anfangsverteilung π0 können wir die Wahrscheinlichkeiten
P(Xin = xn , . . . , Xi1 = x1 )
= P(Xin = xn |Xin−1 = xn−1 ) . . . P(Xi2 = x2 |Xi1 = x1 )P(Xi1 = x1 )






i1
i2
in
Y
X
Y
Y
=
π0 (x0 ) 
Pj  (x0 , x1 ) 
Pj  (x1 , x2 ) . . . 
Pj  (xn−1 , xn )
x0 ∈S
j=1
j=i1 +1
j=in−1 +1
(58)
bestimmen, für alle 1 ≤ i1 < i2 < · · · < in und alle x1 , . . . , xn ∈ S. Das bedeutet, wir
können P auf alle Zylindermengen in AN
S definieren. Es ist dann einfach zu überprüfen,
dass P, definiert auf der Algebra von allen endlichen Vereinigungen von Zylindermengen,
ein Wahrscheinlichkeitsmass ist. Das Erweiterungstheorem von Carathéodory impliziert
dann, dass es genau ein Wahrscheinlichkeitsmass P auf (S N , AN
S ) existiert, so, dass (58)
für alle n ∈ N, 1 ≤ i1 < i2 < · · · < in , x1 , . . . , xn ∈ S gilt. Mit andere Wörter, es
gibt eine Bijektion zwischen Markovketten auf einem endlichen Zustandsraum S und
die Folge von |S| × |S| Übergangsmatrizen (Pj )j∈N mit einer Anfangsverteilung π0 .
91
7.1
Markovketten mit stationären Übergangswahrscheinlichkeiten
Im folgendes betrachten wir Markovketten auf einem endlichen Zustandsraum mit der
Eigenschaft, dass die Übergangswahrscheinlichkeiten pn (x, y) nicht von n abhängen.
In diesem Fall spricht man von zeitlich homogene Markovketten oder Markovketten
mit stationären Übergangswahrscheinlichkeiten. Diese Markovketten werden durch eine
einzige |S| × |S| Übergangsmatrix P beschrieben. Ist π0 : S → [0; 1] die Verteilung von
X0 , dann ist πn = π0 P n die Verteilung von Xn .
Wir diskutieren nun ein Paar Beispiele von Markovketten mit stationäre Übergangswahrscheinlichkeiten.
• Unabhängige Folgen: Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter
Zufallsvariablen, mit Verteilung π0 : S → [0; 1] so, dass π0 (x) = P(X0 = x). Die
Übergangswahrscheinlichkeiten sind, in diesem Fall
pn (x, y) = P(Xn = y|Xn−1 = x) = P(Xn = y) = P(X0 = y) = π0 (y)
D.h. die Übergangsmatrix Pn mi Einträge pn (x, y) ist unabhängig von n und jede
seiner Zeile ist aus der Anfangsverteilung π0 gegeben. Die Markovkette hat also in
diesem Fall stationäre Übergangswahrscheinlichkeiten. Besteht die Folge (Xn )n∈N
aus unabhängigen aber nicht identisch verteilter Zufallsvariablen, so ist
pn (x, y) = P(Xn = y) = πn (y)
D.h. die Zeilen von Pn sind alle gleich und eine Kopie von πn . Im Gegensatz zu
dem Fall von identisch verteilter Zufallsvariablne, hat hier die Markovkette keine
stationäre Übergangswahrscheinlichkeiten.
• Irrfahrt mit Rand: Summe von unabhängige Variablen sind auch Markovketten. Sei
z.B. (Xj )j∈N eine Folge unabhängiger und identisch verteilter Bernoulli Variablen,
mit P(Xj = 1) = p und P(XP
j = −1) = 1 − p, für ein p ∈ [0; 1]. Wir betrachten das
stochastische Prozess Sn = nj=1 Xj . Sn ist dann eine Markovkette mit stationäre
Übergangswahrscheinlichkeiten, gegeben aus

falls j = i + 1
 p
1−p
falls j = i − 1
P(Sn = j|Sn−1 = i) =
(59)

0
sonst
Diese Markovkette passt aber nicht in unsere Definition, weil der entsprechende Zustandsraum S = Z unendlich ist. Die Übergangsmatrix P wäre in diesem
Fall eine unendliche
Matrix (ein lineares Operator auf dem Folgenraum `1 (Z) =
P
{(zj )j∈Z : j∈Z |zj | < ∞}). Um wieder eine Markovkette mit endlichen Zustandsraum zu kreigen, können wir ein Rand einführen, und postulieren, dass die Irrfahrt
anhält, wenn sie den Rand trifft. Mit andere Wörter, wir wählen L ∈ N, und wir
betrachten der endlichen Zustandsraum S = {−L, −L + 1, . . . , L − 1, L}. Die Irrfahrt mit Rand an der Stellen ±L ist dann als die Markovkette definiert, mit der
Übergangswahrscheinlichkeiten (59) für alle i ∈ {−L + 1, −L + 2, . . . , L − 2, L − 1},
und mit
1
falls j = ±L
P(Sn = j|Sn−1 = ±L) =
0
sonst
92
Die Übergangsmatrix P ist dann eine endliche (2L + 1) × (2L + 1) Matrix, mit der
Form


1
0
0
··· ···
··· 0
 1−p 0
p
0
···
··· 0 


 0
1−p 0
p
0
··· 0 


P =
(60)

···
··· ··· ···
···


 0
···
··· 0
1−p 0
p 
0
···
··· ··· 0
0
1
Wir hätten hier auch andere Randbedingungen definieren können. Z.B. periodische
Randbedingungen hätten uns zu der Übergangsmatrix


0
p
0
··· ···
···
(1 − p)

 1−p 0
p
0
···
···
0



 0
1−p 0
p
0
···
0


(61)
Pper = 

···
··· ··· ···
···



 0
···
··· 0
1−p 0
p
p
···
··· ··· 0
(1 − p) 0
geführt (wenn die Fahrt an der Stelle x = L sitzt und nach rechts gehen will, dann
kommt sie wieder an der Stelle x = −L im Zustandsraum herein).
Einfaches Wettermodell: Wir beschreiben das Wetter am Tag n durch eine Zufallsvariable Xn , die nur zwei Werten annehmen kann, Xn = 0 bedeutet Regen, Xn = 1
Sonne. Nimmt man an, (Xn ) ist eine Folge von unabhängige Zufallsvariablen, so
kriegt man nicht so eine gute Beschreibeung des Wetters (wenn heute sonnig ist,
kann man sich vorstellen, dass es eine höhere Wahrscheinlichkeit gibt, dass auch
morgen sonnig ist). Eine bessere Beschreibung finden wir, wenn wir die allgemeinere Annahme machen, dass (Xn )n∈N eine Markovkette ist. Nehmen wir zusätzlich
an, die Markovkette habe stationären Übergangswahrscheinlichkeiten, so können
wir das Modell durch eine 2 × 2 Übergangsmatrix beschreiben, mit Einträge
p(0, 0) = Wahrscheinlichkeit, dass morgen regnet, wenn heute regnet
p(1, 1) = Wahrscheinlichkeit, dass morgen sonnig ist, wenn heute sonnig ist
p(0, 1) = Wahrscheinlichkeit, dass morgen regnet, wenn heute sonnig ist
p(1, 0) = Wahrscheinlichkeit, dass morgen sonnig ist, wenn heute regnet
Wenn wir p0,1 ≡ p(0, 1) und p1,0 ≡ p(0, 1) setzen, dann muss p(0, 0) = 1 − p0,1 und
p(1, 1) = 1 − p1,0 . Die Übergangsmatrix ist also
1 − p0,1 p0,1
P =
(62)
p1,0
1 − p1,0
Zusammen mit der Anfangsverteilung π0 (0) = p0 und π0 (1) = 1 − p0 legt P
die Markovkette eindeutig fest. Es gibt also 3 Parameter, p0 , p0,1 , p1,0 die gewählt
werden können, um das Modell am besten am Wetter anzupassen.
93
7.2
Invariante Verteilungen
Eine wichtige Rolle in der Untersuchung von Markovketten mit stationären Übergangswahrscheinlichkeiten wird von invarianten Verteilungen gespielt.
Sei (Xn )n∈N eine Markovkette mit endlichen Zustandsraum S und mit stationäre
Übergangsmatrix P . Ein Wahrscheinlichkeitsmass π auf S heisst eine invariante Verteilung, falls π = πP , d.h. falls π ein links-Eigenvektor von P ist, mit Eigenwert 1.
Bemerke, ein links-Eigenvektor π von P zum Eigenwert
1 ist nur dann eine invariante
P
Verteilung, falls π(j) ≥ 0 für alle j ∈ S, und, falls j∈S π(j) = 1.
Sei π eine Invariante Verteilung. Wenn wir die Anfangsverteilung π0 = π wählen,
dann ist πn = π für alle n ∈ N (das erklärt warum π als invariante Verteilung bezeichnet
wird). Mit andere Wörter, wenn X0 die Verteilung π hat, so hat Xn die selbe Verteilung
für alle n ∈ N.
Wir betrachten ein Paar Beispiele.
• Ist (Xn ) eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit Verteilung π : S → [0; 1], so ist die Übergangsmatrix P eine |S| × |S| Matrix, wo jede
Reihe aus dem Vektor π gegeben ist. Dann ist offenbar πP = π; d.h. π ist eine
invariante Verteilung.
• Für die Irrfahrt mit absorbierenden Rand, mit dem Zustandsraum {−L, −L +
1, . . . , L − 1, L} durch die Übergangsmatrix (60), ist auch einfach invariante Verteilungen zu finden. In der Tat, die Verteilung πr , definiert durch πr (L) = 1 und
πr (j) = 0 für alle j 6= L, ist offenbar invariant (wenn wir schon am rechten
Rand sind, dann bleiben wir dort). Analog ist auch die Verteilung πl , definiert
durch πl (−L) = 1 und πl (j) = 0 für alle j 6= −L, invariant. Für die Irrfahrt mit
periodische Randbedingungen, definiert durch die Übergangsmatrix (61), ist die
gleichmässige Verteilung π(j) = 1/(2L + 1) für alle j ∈ {−L, −L + 1, . . . , L} invariant (weil in diesem Fall, nicht nur die Summe der Einträge auf jeder Reihe Eins
ist, sondern auch die Summe der Einträge auf jeder Kolumne).
Die Fragen die wir nun betrachten möchten sind: unter welchen Bedingungen existiert
eine invariante Verteilung einer Markovkette mit endlichen Zustandsraum und unter
welche Bedingungen ist sie eindeutig. Wie wir sehen werden, die Existenz einer eindeutige
invariante Verteilung ist sehr wichtig, weil dann jede die Entwicklung πn = π0 P n jeder
Anfangsverteilung π0 auf S konvergiert gegen die invariante Verteilung für n → ∞.
Um die Fragen zur Existenz und Eindeutigkeit der invariante Verteilung zu beantworten, brauchen wir ein wichtiges Theorem aus der linearen Algebra, nämlich das Theorem
von Perron-Frobenius.
Theorem 7.2 (Perron-Frobenius). Das Theorem besteht aus zwei Teilen:
i) Sei A eine d × d Matrix mit strikt positiven Einträge. Dann existiert ein Eigenvektor v mit strikt positiven Komponenten. Der entsprechende Eigenwert λ0 ist
einfach, positiv und es gilt |λj | < λ0 für alle andere Eigenwerte λj von A.
ii) Sei A 6= 0 eine d × d Matrix mit nicht-negativen Einträgen. Sei λ0 das Supremum
über alle P
λ ∈ R, für die ein Vektor v mit nicht-negativen reellen Einträge existiert
so, dass di=1 xi = 1 und (Ax)i ≥ λxi für alle i = 1, . . . , d. Dann: a) λ0 ist ein
94
Eigenwert von A. Der ensprechende Eigenvektor hat nicht-negative Einträge, b)
es gilt |λ| ≤ λ0 für alle λ Eigenwerte von A.
Beweis. i) Wir definieren die Menge
d
X
Λ = λ ∈ R : ∃ v ∈ Rd :
vj = 1, vj ≥ 0 und (Av)j ≥ λvj für alle j = 1, . . . , d (63)
j=1
und wir setzen λ0 = sup{λ : λ ∈ Λ}. Offenbar gilt λ0 > 0. Weiter, aus Definition vom
Supremum, finden wir eine Folge γj ∈ R mit γj → λ0 und, für alle j ∈ N, einen Vektor
P
(j)
(j)
(j)
v (j) ∈ Rd mit di=1 vi = 1, vi ≥ 0 und (Av (j) )i ≥ γj vi . Da die Menge
K = {x ∈ Rd :
d
X
xj = 1, xj ≥ 0}
j=1
kompakt ist, finden wir eine Teilfolge j` und ein v ∈ K so, dass v (j` ) → v für ` → ∞.
P
(∞)
(∞)
= 1 und
Da v (∞) ∈ K sind insbesondere seine Komponenten vj
so, dass dj=1 vj
(∞)
vj
≥ 0 für alle j = 1, . . . , d. Ferner,
(Av (∞) )i =
d
X
(∞)
Aim vm
= lim
m=1
`→∞
d
X
(j` )
(j` )
Aim vm
≥ lim γj` vi
`→∞
m=1
(∞)
= λ 0 vi
Pd
(∞)
(∞)
= 1, vi
≥ 0 und mit
Zusammenfassend, v (∞) ∈ Rd ist ein Vektor mit
i=1 vi
(∞)
(∞)
(Av )i ≥ λ0 vi
für alle i = 1, . . . , d. Nehmen wir an, es existiert, i ∈ {1, . . . , d} so,
dass
(∞)
(Av (∞) )i > λ0 vi
Dann setzen wir w = Av (∞) . Die Komponenten von w sind alle strikt positiv (da w` =
P
(∞)
m A`m vm ). Ferner, es gilt, dass
(Aw)j =
d
X
m=1
Ajm wm =
d
X
Ajm (Av
m=1
(∞)
)m > λ0
d
X
(∞)
Ajm vm
= λ 0 wj
m=1
für alle j = 1, . . . , d. Nach geeignete Normierung vom Vektor w finden wir ein w
e∈Λ
mit (Aw)
e j > λ0 wj . Das gibt ein Wiederspruch zur Definition von λ0 und impliziert
also, dass Av (∞) = λ0 v (∞) . Das zeigt, dass λ0 ein Eigenwert von A ist. Dann muss aber
Aw = λ0 w gelten: d.h. der Vektor w, mit strikt positiven Einträge ist ein Eigenvektor
von A zum Eigenwert λ0 .
Als nächstes zeigen wir, dass für jede Eigenwert λ 6= λ0 , es muss |λ| < λ0 gelten. Sei
nämlich λ 6= λ0 ein Eigenwert von A mit Eigenvektor z. Aus Az = λz finden wir
X
X
d
d
Aij zj ≤
Aij |zj |
|λ||zi | = j=1
j=1
P
P
Mit xj = |zj |/ dj=1 |zj | finden wir ein x = (x1 , . . . , xd ) ∈ Rd mit dj=1 xj = 1, xj ≥ 0
für alle j = 1, . . . , d, und (Ax)i ≥ |λ||zi |. Das zeigt, dass |λ| ∈ Λ, also |λ| ≤ λ0 . Nun
95
zeigen wir, dass |λ| < λ0 für alle Eigenwerten λ 6= λ0 . Dazu bemerken wir, dass für δ > 0
klein genug, die Matrix Aδ = A − δ noch immer strikt positive Einträge hat. Der grösste
Eigenwert von A − δ ist aber λ0 − δ. Alle andere Eigenwerte von A − δ haben die Form
λ − δ, wobei λ ein Eigenwert von A ist. Das zeigt, dass |λ − δ| ≤ λ0 − δ. Damit
|λ| ≤ |λ − δ| + δ ≤ λ0
Die Gleichheit |λ| = λ0 kann deswegen nur gelten, wenn |λ| = |λ − δ| + δ. Das ist aber
möglich (da δ > 0 ist), falls λ reel und positiv ist. Dann wäre aber λ = λ0 , was wir
ausgeschlossen haben. Das zeigt, dass |λ| < λ0 für alle Eigenwerte λ 6= λ0 .
Schliesslich zeigen wir, dass λ0 ein einfaches Eigenwert ist. Nehmen wir an, es existieren zwei linear unabhängige Vektoren x, y ∈ Rd mit Ax = λ0 x und Ay = λ0 y. Dann
ist auch z = x − cy, für ein beliebiges c ∈ R ein Eigenvektor von A zum Eigenwert λ0 .
Durch geeignete Wahl von c ∈ R, können wir sicher machen, dass z sowohl positive wie
auch negative Komponenten hat. Dann gilt
X
X
d
d
λ0 |zi | = Aij zj <
Aij |zj |
j=1
j=1
für alle i = 1, . . . , d. Damit finden wir auch ein δ > 0 so, dass
(λ0 + δ)|zi | <
d
X
Aij |zj |
j=1
Nach geeignete Normierung von dem Vektor mit Komponenten |z1 |, . . . , |zd |, finden wir
damit ein Wiederspruch zur Maximalität von λ0 .
Damit ist Teil i) vom Theorem von Perron-Frobenius gezeigt.
Nun zeigen wir Teil ii). Hier nehmen wir nur an, dass A nicht negative Einträge hat
(und, dass A 6= 0 ist). Wir definieren die Menge Λ wie in (63) und wir setzen wieder
λ0 = sup Λ. Wir möchten zeigen, dass λ0 ein Eigenwert von A ist, mit einem Eigenvektor
v mit nicht-negativen Einträge, und, dass |λ| ≤ λ0 für alle λ Eigenwerten von A.
Sei E die d×d Matrix mit Einträge Eij = 1 für alle i, j = 1, . . . , d. Die Matrix A+δE
hat, für alle δ > 0 strikt positiven Einträge. Für alle δ > 0 können wir die Menge
d
X
d
Λ(δ) = λ ∈ R : ∃ v ∈ R :
vj = 1, vj ≥ 0 und ((A + δE)v)j ≥ λvj für alle j
j=1
und λ0 (δ) = sup Λ(δ) definieren. Seien 0 < δ1 < δ2 ; dann gilt offenbar Λ ⊂ Λ(δ1 ) ⊂ Λ(δ2 )
und deswegen λ ≤ λ0 (δ1 ) ≤ λ0 (δ2 ).
Von Teil i) wissen wir, dass λ0 (δ) der grösste Eigenwert von A + δE ist, und, dass es
genau ein normierten Eigenvektor v(δ) von A + δE zum Eigenwert λ0 (δ) existiert, mit
strikt positiven Einträge.
Wegen Kompaktheit der Folge v(δ), existiert eine monotone Folge δj mit δj → 0 für
j → ∞ und ein v0 ∈ Rd , mit v(δj ) → v0 . Die Einträge von v0 sind hier nicht-negativ
(als Limes einer Folge strikt positiven Zahlen). Wegen Monotonie, die Folge λ0 (δj ) hat
96
e bezeichnen. Aus λ0 (δ) ≥ λ0 für alle δ > 0 finden wir
einen Grenzwert, den wir mit λ
e ≥ λ0 . Ferner, aus (A + δj E)v(δj ) = λ0 (δj )v(δj ) folgt, im Limes j → ∞, dass
auch λ
e 0
Av0 = λv
e ≤ λ0 . Damit muss λ
e = λ0 und λ0 ist eine Eigenwert von A mit dem
Insbesondere, λ
Eigenvektor v0 , der nur nicht-negativen Einträgen hat. Es bleibt noch zu zeigen, dass
|λ| ≤ λ0 für alle Eigenwerte λ von A. Das kann aber wie im Teil i) gezeigt werden. Ist
nämlich λ ein Eigenwert von A mit Eigenvektor v, so gilt λv = Av und deswegen
|λ||vj | ≤
d
X
Aji |vi | = (A|v|)j
i=1
Nach geeignete Normierung von |v| folgt es, dass |λ| ∈ Λ, und deswegen, dass |λ| ≤
λ0 .
Wir wenden zunächst Teil ii) vom Theorem von Perron-Frobenius um die Existenz
einer invariante Verteilung zu zeigen. Hier brauchen wir keine zusätzliche Bedingungen.
Satz 7.3. Jede stationäre Markovkette mit endlichem Zustandsraum besitzt mindestens
eine invariante Verteilung.
Beweis. Die Übergangsmatrix P ist eine d × d Matrix (mit d = |S|), mit nicht-negativen
Einträgen. Sie erfüllt also die Annahme vom Theorem von Perron Frobenius. Aus Theorem 7.2 finden wir insbesondere, dass P ein maximaler positiver Eigenwert λ0 besitzt,
mit einem
Pd links-Eigenvektor v, der nicht-negative Einträgen hat, und der die Normierung j=1 vj = 1 erfüllt (am besten wendet man den Satz auf die transponierte Matrix
P T ; ein “normaler” rechts-Eigenvektor von P T ist dann ein links-Eingevektor von P ).
Wir behaupten nun, dass λ0 = 1. In der Tat, die Identität
(vP )i =
d
X
vj pji = λ0 vi
j=1
für alle i = 1, . . . , d impliziert, dass
λ0
d
X
i=1
vi =
d X
d
X
vj pji =
i=1 j=1
d
X
j=1
vj
d
X
i=1
pji =
d
X
vj
j=1
weil P eine stochastische Matrix ist (d.h. die Summe der Einträge auf jeder Reihe ist
Eins). Das zeigt, dass v eine invariante Verteilung ist.
Die nächste Frage, die wir untersuchen möchten ist, ob die invariante Verteilung einer
Markovkette eindeutig ist. Aus dem Beispiel einer Irrfahrt mit absorbierenden Rand
wissen wir, dass nicht jede Markovkette eine eindeutige invariante Verteilung hat. Wir
werden deswegen geeignete Bedingungen brauchen, um die Eindeutigkeit der invariante
Verteilung zu zeigen.
Es ist nützlich für jede Übergangsmatrix einen gerichteten Graphen einzuführen. Sei
P die Übergangsmatrix einer Markovketten mit stationären Übergangswahrscheinlichkeiten auf der endlichen Menge S. Der entsprechende Graphen hat Knotenmengen S.
97
Die Kantenmenge E ist wie folgt definiert: für i, j ∈ S, wir haben (i, j) ∈ E genau dann,
wenn pij > 0, d.h. wenn ein Durchgang von i nach j möglich ist. Man sollte bemerken,
dass der Graphen hat eine Richtung: die Kanten (i, j) und (j, i) sind verschieden. Ein
Pfad γ auf dem Graphen (S, E) ist eine Folge von Kanten γ = (e1 , . . . , en ), mit e` ∈ E
und so, dass der Anfagnspunkt von e`+1 mit dem Endpunkt von e` übereinstimmt. Wir
sagen, dass zwei Knoten i, j ∈ S kommunizieren, wenn ein Pfad existiert, der i mit j
verbinden und ein Pfad existiert, der j mit i verbindet. Wir sagen immer, dass jeder
Zustand in S mit sich selber kommunizieren.
Die Relation i ∼ j, falls i mit j kommuniziert, ist dann eine Äquivalenzrelation (d.h.
sie ist reflexiv, symmetrisch und transitiv). Wir können also S in Äquivalenzklassen der
Form [j] = {i ∈ S : ikommuniziert mit j} teilen.
Definition 7.4. Wir sagen, dass eine Markovkette mit stationäre Übergangswahrscheinlichkeiten irreduzibel ist, falls der Quotientenraum S/ ∼ aus einer einzige Äquivalenzklasse besteht.
Ist der Graph einer Übergangsmatrix nicht zusammenhängend, so ist die Markovkette sicher nicht irreduzibel. Die Umkehrung dieser Aussage gilt nicht: es existieren Markovketten mit stationäre Übergangswahrscheinlichkeiten die einen zusammenhängenden
Graphen haben, aber nicht irreduzibel sind. Ein Beispiel davon ist die Irrfahrt mit absorbierenden Rand (sie besitzt drei Äquivalenzklassen).
Eine nützliche Charakterizierung von Irreduzibilität ist aus dem folgenden Lemma
gegeben.
Lemma 7.5. Eine Markovkette ist genau dann irreduzibel, wenn für alle (i, j) ∈ S × S
ein k ∈ N existiert, mit (P k )ij > 0.
Beweis. Wir haben
(P k )ij =
X
pi,i1 pi1 ,i2 . . . pik−1 j =
i1 ,...,ik−1
X
pe1 . . . pek
γ:i→j,|γ|=k
Die rechte Seite ist genau dann positiv für ein k ∈ N, wenn ein Pfad der Länge k mit
Anfangspunkt i und Endpunkt j existiert.
Der Begriff von Periodizität einer Markovkette spielt auch eine wichtige Rolle.
Definition 7.6. Wir betrachten weiter eine Markovkette auf einem endlichen Zustandsraum S mit stationären Übergangsmatrix P . Ein Zustand j ∈ S hat Periode d(j), falls
d(j) der grösste gemeinsamer Teiler aller Zahlen n ∈ N ist, für die (P n )jj > 0 ist. Ein
Zustand mit Periode 1 heisst aperiodisch.
Es ist leicht zu zeigen, dass die Periode von kommunizierenden Zuständen übereinstimmen müssen.
Lemma 7.7. Wenn i, j ∈ S kommunizieren, dann ist d(i) = d(j).
Beweis. Da i und j kommunizieren, wissen wir, dass es n, m ∈ N existieren so, dass
(P n )ji > 0 und (P m )ij > 0. Sei nun ` ∈ N, mit (P ` )ii > 0. Dann gilt auch
(P n+`+m )jj ≥ (P n )ji (P ` )ii (P m )ij > 0
98
Da auch Pii2` > 0, muss (P n+m+2` )jj > 0. d(j) muss also sowohl n + m + ` wie auch
n+m+2` teilen. Damit muss d(j) auch die Differenz (n+m+2`)−(n+m+`) = ` teilen.
Wir haben also gezeigt, dass d(j) teilt ` für alle ` ∈ N mit (P ` )ii > 0. Das bedeutet,
dass d(j) ≤ d(i) (da d(i) der grösste gemeinsamer Teiler ist). Aus der Symmetrie dieser
Argument folgt, dass d(j) = d(i).
Insbesondere, in einer irreduzibel Markovkette haben alle Zustände die selbe Periode.
Eine irreduzibel Markovkette heisst aperiodisch, falls alle Zustände Periode 1 haben.
Wir möchten nun zeigen, dass eine Markovkette genau dann irreduzibel und aperiodisch ist, falls ein k ∈ N existiert, so, dass P k strikt positiven Einträge hat. Bemerke
hier den Unterschied zu einfachen Irreduzibilität; gemäss Lemma 7.5, Irreduzibilität bedeutet, dass für alle i, j ∈ S ein k ∈ N existiert, mit (P k )ij > 0. Wir werden dagegen
zeigen, dass Irreduzibilität und Aperiodizität implizieren, dass ein k ∈ N existiert so,
dass die Bedingungen (P k )ij > 0 gleichzeitig für alle i, j ∈ S erfüllt sind. Um diese
Tatsache zu beweisen, brauchen wir das folgende Lemma.
Lemma 7.8. Hat i ∈ S die Periode d(i), so gibt es N ∈ N so, dass (P nd(i) )ii > 0 für
alle n ≥ N .
Um das Lemma zu zeigen, brauchen wir die folgende Tatsache aus der Zahlentheorie.
Proposition 7.9. Seien n1 , . . . , nk ∈ N mit grösstem gemeinsamen Teiler d. Dann
existiert M ∈ N mit der folgenden Eigenschaft: für alle m > M existieren c1 , . . . , ck ∈ N
mit
k
X
dm =
cj nj
j=1
Beweis. Ohne Beschränkung der Allgemeinheit können wir annehmen, dass d = 1 (sonst
dividieren wir alle nj durch d). Sei
k
X
A={
cj nj : c1 , . . . , ck ∈ N}
j=1
die Menge aller Zahlen die als lineare Kombinationen der nj geschrieben werden können,
mit Koeffizienten in N. Ferner, sei
B =A−A={
k
X
pj nj : p1 , . . . , pk ∈ Z}
j=1
die Menge der ganzzahlige lineare Kombinationen von Zahlen in A. Sei nun d0 der kleinste
positive Zahl in B. Nach Definition ist d0 ≥ 1. Wir behaupten, dass d0 jeder Zahl in A
teilt. Gäbe es nämlich eine Zahl N ∈ A, die nicht durch d0 geteilt wird, dann wären d0 −N
und N −`d0 für alle ` ∈ N in B und ungleich Null. Es ist dann aber einfach zu sehen, dass
eine von diesen Zahlen strikt positiv und kleiner als d0 sein wird, in Widerspruch zur
Definition von d0 . Das zeigt, dass d0 jede Element von A teilt. Insbesondere teilt d0 die
Zahlen n1 , . . . , nk . Da wir aber angenommen haben, dass der grösste gemeinsame Teiler
von n1 , . . . , nk gerade 1 ist, muss d0 = 1 sein. Es folgt, dass es existieren N1 , N2 ∈ A mit
99
N1 − N2 = 1. Sei nun m > N22 eine ganze Zahl. Dann können wir schreiben m = N22 + `,
für ein ` ∈ N, das als
` = bN2 + j
geschrieben werden kann, für ein b ∈ N und ein 0 ≤ j < N2 . Dann haben wir
m = N22 + bN2 + j = N22 + bN2 + j(N1 − N2 ) = (N2 − j)N2 + bN2 + jN1
(64)
Da die Koeffizienten (N2 −j), b, j nicht negativ sind, gibt (64) die gewünschte Darstellung
von m.
Mit Hilfe dieser Propositioin aus der Zahlentheorie können wir nun das Lemma
zeigen.
Beweis von Lemma 7.8. Der Zustand i hat Periode d(i). Das heisst, d(i) ist der grösste
gemeinsame Teiler von alle n ∈ N mit der Eigenschaft, dass (P n )ii > 0. Das bedeutet, es
existieren n1 , . . . , nk ∈ N mit grösster gemeinsamer Teiler d(i) und so, dass (P nj )ii > 0
für alle j = 1, . . . , k. Aus Proposition 7.9 folgt, dass N ∈ N existiert mit der Eigenschaft,
dass, für alle n > N , Zahlen c1 , . . . , ck ∈ N existieren, mit
d(i)n =
k
X
cj nj
j=1
Dann ist aber
P d(i)n =
k
Y
(P nj )cj
j=1
Bemerke, dass für beliebige d × d Matrizen A, B mit nicht negative Einträge und mit
Aii , Bii > 0 es gilt
d
X
(AB)ii =
Aij Bji ≥ Aii Bii > 0
j=1
Nach Annahme ist (P nj )ii > 0 für alle j = 1, . . . , k. Das impliziert also, dass ((P nj )cj )ii >
0 für alle j = 1, . . . , k. Deswegen ist auch


k
Y
(P d(i)n )ii =  (P nj )cj  > 0
j=1
ii
Mit Lemma 7.8 können wir nun zeigen, dass für jede irreduzibel und aperiodische
Markovkette ein k ∈ N existiert so, dass P k strikt positive Einträge hat (erinnere,
dass eine irreduzibel Markovkette heisst aperiodisch, falls ein und deswegen alle seiner
Zustände aperiodisch sind).
Lemma 7.10. Sei P die Übergangsmatrix einer irreduziblen und aperiodischen Markovketten mit stationären Übergangswahrscheinlichkeiten auf einem endlichen Zustandsraum S. Dann existiert k ∈ N so, dass (P k )ij > 0 für alle i, j ∈ S.
100
Beweis. Sei j ∈ S fest. Aus Lemma 7.8 finden wir Mj ∈ N, so, dass (P m )jj > 0 für alle
m > Mj . Da S endlich ist, finden wir auch M ∈ N so, dass (P m )jj > 0 für alle m > M
und alle j ∈ S. Aus der Irreduzibilität der Markovkette wissen wir auch, dass für alle
(i, j) ∈ S × S ein nij ∈ N existiert, mit (P nij )ij > 0. Für m ≥ M gilt aber (P m )jj > 0.
Das impliziert, dass
(P nij +m )ij > 0
für alle m > M . Wählen wir k ≥ maxij nij + M , so muss (P k )ij > 0 für alle i, j ∈ S.
Umgekehrt es gilt: Sei P die Übergangsmatrix einer Markovkette mit stationäre
Übergangswahrscheinlichkeiten. Existiert ein k ∈ N so, dass P k strikt positive Einträge
hat, dann ist die Markovkette irreduzibel und aperiodisch. Die Irreduzibilität folgt durch
Lemma 7.5. Um die Aperiodizität zu zeigen, bemerken wir, dass, wenn P k strikt positiven Einträge hat, dann hat auch P k+1 = P k ·P strikt positiven Einträge, und iterativ P n
hat strikt positiven Einträge für alle n ≥ k. Das bedeutet, insbesondere, dass (P n )ii > 0
für alle n ≥ k. Das bedeutet, dass der grösste gemeinsamer Teiler aller n ∈ N mit
(P n )ii > 0 ist d = 1.
Zusammenfassend, wir haben gezeigt, dass eine Markovkette mit Übergangsmatrix
P genau dann irreduzibel und aperiodisch ist, falls ein k ∈ N existiert so, dass P k strikt
positiven Einträgen hat.
Mit Hilfe dieser Charakterizierung zeigen wir im nächsten Satz, dass jede irreduzibel und aperiodische Markovkette genau eine invariante Verteilung besitzt. Eigentlich
zeigen wir noch mehr, nämlich, dass für eine beliebige Anfangsverteilung π0 , die evolvierte Verteilung πn = π0 P n , für n → ∞, gegen die eindeutige invariante Verteilung
µ konvergiert. Markovkette mit dieser Eigenscahft nennt man ergodisch. Der nächsten
Satz bedeutet also, dass jede irreduzibel und aperiodische Markovkette mit endlichen
Zustandsraum ergodisch ist.
Satz 7.11. Sei P die Übergangsmatrix einer irreduzibel und aperiodische Markovkette
mit endlichem Zustandsraum S und mit stationäre Übergangswahrscheinlichkeiten (wir
bezeichnen d = |S|). Dann es existiert eine eideutige invariante Verteilung µ mit µP =
µ. Ferner, es gilt
lim P n = Π0
n→∞
wobei Π0 die rank 1 Matrix

µ1 µ 2
 µ1 µ 2
Π0 = 

...
µ1 µ 2
...
...
...
...

µd
µd 


µd
(65)
ist. Das impliziert, dass für alle Anfangsverteilungen π0 : S → [0; 1] es gilt πn = π0 P n →
µ für n → ∞.
Für den Beweis des Satzes brauchen wir das folgende Lemma.
Lemma 7.12. Sei B eine d × d Matrix und r = max{|λ| : λ ist Eigenwert von B}.
Dann gilt
r = lim sup kB n k1/n
n→∞
101
Beweis. Es existiert eine invertierbare Matrix
diagonal ist, mit Blöcken der Form

λi 1
0
 0 λi 1


... ...
0 ... 0
U so, dass U −1 BU = J, wobei J block...
...
...
0

0
0 


λi
wo λi ein Eigenwert von B ist. Insbesondere J = D+N , wobei D diagonal ist, [D, N ] = 0
und es existiert d ∈ N so, dass N d = 0. Für n ≥ d gilt also
d−1 X
n
J =
Dn−k N k
k
n
k=0
und deswegen
kJ n k ≤
d−1
X
nk kDkn−k kN kk ≤ rn
k=0
d−1
X
nk r−k kN kk
k=0
Wir erhalten
n 1/n
lim sup kJ k
= r lim
n→∞
n→∞
Da U und
U −1
d−1
X
!1/n
r
−k
k k
kN k n
=r
k=0
beschränkt sind, erhalten wir auch, dass
lim sup kB n k1/n ≤ lim kJ n k1/n kU k1/n kU −1 k1/n ≤ r
n→∞
n→∞
Anderseits, nach Definition von r, es existiert ein Eigenwert λ von B mit |λ| = r. Dann
existiert ein Vektor v mit Bv = λv und also B n v = λn v. Deswegen muss kB n k ≥ rn ,
und
lim sup kB n k1/n ≥ r
n→∞
Das zeigt, dass
lim sup kB n k1/n = r
n→∞
wie behauptet.
Wir sind nun bereit, Satz 7.11 zu zeigen.
Beweis von Satz 7.11. Nach Lemma 7.10, es existiert k ∈ N so, dass P k strikt positiven
Einträge hat. Aus Theorem 7.2, es existiert ein eindeutiges Links-Eigenvektor µ von P k
mit strikt positiven Einträge. Der entsprechende Eigenwert muss 1 sein, einfach weil
µP k = λµ impliziert, dass
λ
d
X
i=1
µi =
d X
d
X
µj (P k )ji =
i=1 j=1
d
X
j=1
µj
d
X
i=1
(P k )ji =
d
X
µj
j=1
und also, dass λ = 1 (hier haben wir die Tatsache benutzt, dass P k eine stochastische
Matrix ist, und also die Summe der Einträge auf jeder Reihe 1 ist). Es folgt auch aus
102
dem Theorem von Perron-Frobenius, dass 1 ein einfaches Eigenwert ist, und, dass |λ| < 1
für alle andere Eigenwerte von P k .
Wir wissen schon, dass P den Eigenwert 1 besitzt. Sei ν den entsprechenden Eigenvektor. Dann gilt νP = ν und deswegen auch νP k = ν. Das impliziert, dass ν proportional zu µ sein muss. Sei nun λ ein Eigenwert von P , mit Eigenvektor v nicht proportional
zu µ. Dann ist λk ein Eigenwert von P k mit Eigenvektor v, nicht proportional zu µ.
Da 1 ein einfacher Eigenwert von P k ist, muss λk 6= 1 gelten, und also |λk | = |λ|k < 1.
Das zeigt, dass |λ| < 1. Damit haben wir gezeigt, dass 1 ein einfacher Eigenwert von P
ist, mit strikt positiven Eigenvektor µ, und, dass alle andere Eigenwerten von P sind in
Betrag strikt kleiner als 1.
Sei nun Π0 die in (65) definierte Rank-1 Matrik. Π0 ist eine Projektion auf µ und
deswegen Π20 = Π0 . Da µ ein Eigenvektor von P mit Eigenwert 1 ist, finden wir ferner
Π0 P = Π0 = P Π0
Also, mit Q = P − Π0 haben wir (weil Π20 = Π0 ), dass
Π0 Q = QΠ0 = 0
Wir behaupten nun, dass alle Eigenwerten von Q in Betrag strikt kleiner als 1 sind. Gilt
nämlich vQ = λv, dann muss
λvΠ0 = vQΠ0 = 0
Ist λ 6= 0, dann muss vΠ0 = 0 und also vP = v(Π0 + Q) = vQ = λv. D.h. λ ist auch
Eigenwert von P . Da aber vΠ0 = 0, kann v nicht proportional zu µ sein; wir schliessen,
dass |λ| < 1. Aus Lemma 7.12 folgt, dass
lim sup kQn k1/n < 1
n→∞
und deswegen, dass kQn k → 0 für n → ∞. Da aber
P n = (Π0 + Q)n = Πn0 + Qn = Π0 + Qn
erhalten wir, dass kP n − Π0 k = kQn k → 0, für N → ∞. Insbesondere, für eine beliebige
Anfangsverteilung π0 ,
lim π0 P n = π0 Π0 = µ
n→∞
Bemerkung: aus dem Beweis folgt auch eine Abschätzung für die Konvergenzgeschwindigkeit
kπ0 P n − µk = kπ0 Qn k ≤ C|λ1 |n
wobei λ1 der Eigenwert von Q ist, mit dem grössten Betrag (d.h. λ1 ist der Eigenwert
von P mit dem zweit-grössten Betrag, nach dem Eigenwert 1).
Es ist einfach Beispiele von nicht-aperiodische Markovkette zu finden, die nicht ergodisch sind. Sei nämlich
0 1
P =
1 0
103
Dann hat die entsprechende Markovkette die eindeutige invariante Verteilung µ =
(1/2, 1/2). Die Kette ist aber nicht ergodisch, weil
0 1
n
P =
1 0
für alle n ungerade, und
n
P =
1 0
0 1
für alle n gerade (hier sieht man, dass die Periode von beiden Zustände 2 ist). Das zeigt,
dass P n für n → ∞ nicht konvergieren kann (und also, dass die Kette nicht ergodisch
ist).
Das letzte Beispiel zeigt, dass wir, ohne Aperiodizität, keine Ergodizität erwartet
können. Für die Eindeutigkeit der invarianten Verteilung braucht man dagegen keine
Aperiodizität, Irreduzibilität ist genug.
Satz 7.13. Sei P die Übergangsmatrix einer irreduzibel Markovkette mit endlichen Zustandsraum. Dann besitzt P genau eine invariante Verteilung µ mit strikt positiven Komponenten.
Beweis. Sei ε > 0. Wir definieren Pε = ε1 + (1 − ε)P . Dann gilt:
• Pε ist eine stochastische Matrix, d.h. die Einträge sind alle nicht-negativ und die
Summe der Einträge auf jeder Reihe ist 1.
• Pε erzeugt eine irreduzibel und aperiodische Markovkette. In der Tat,
Pεn
n X
n n−`
=
ε (1 − ε)` P `
`
(66)
`=0
Nun, da P irreduzibel ist, finden wir für alle i, j ∈ S ein kij ∈ N mit (P kij )ij > 0.
Sei also k = maxij kij . Aus (66) finden wir, dass Pεn hat strikt positiven Einträge,
für alle n ≥ k.
• P und Pε haben die selbe Links-Eigenvektoren. In der Tat, νP = λν impliziert,
dass νPε = εν + (1 − ε)λν = (ε + (1 − ε)λ)ν, d.h. dass ν auch Eigenvektor von Pε
ist. Analog zeigt, man, dass jeder Eigenvektor von Pε auch Eigenvektor von P ist.
• µ ist eine invariante Verteilung von P genau dann wenn µ ist eine invariante
Verteilung von Pε . In der Tat, µP = µ genau dann, wenn µPε = µ.
Da Pε irreduzibel und aperiodisch ist, es folgt aus Satz 7.11, dass Pε eine eindeutige
invariante Verteilung µ besitzt. Dann ist µ auch eine invariante Verteilung von P . Ferner,
es gibt keine andere invariante Verteilung (sonst hätte auch Pε eine zweite invariante
Verteilung, und wir wissen das kann nicht sein).
Man kann sich noch fragen, was passiert im Fall, dass eine Markovkette nicht irreduzibel ist. Man findet, dass, auch für nicht irreduzibel Ketten, die invariante Verteilungen
klassifiziert werden können. Das wird im nächsten Satz besser erklärt.
104
Sei S der endliche Zustandsraum. Ist die Markovkette nicht irreduzibel, dann existieren Zustände i, j ∈ S die nicht kommunizieren. Mit anderen Wörter, es existieren
mehrere Äquivalenzklassen. Wir unterscheiden in diesem Fall zwei Gruppe von Äquivalenzklassen. Äquivalenzklassen aus denen man in eine andere Klasse austreten kann
heissen unwesentliche Klassen. Äquivalenzklassen aus denen man nicht mehr austreten
kann (wo man aber möglicherweise aus einer anderen Klasse eintreten kann) heissen
wesentliche Klasse.
Satz 7.14. Sei X eine Markovkette mit endlichen Zustandsraum S. Sei S die Vereinigung der wesentlichen Klassen C1 , . . . , C` und der unwesentlichen Klassen D1 , . . . , Dk .
Dann gibt es ` invariante Verteilungen µ1 , . . . , µ` mit Träger auf den wesentlichen Klasse
C1 , . . . , C`−1 , C` . Ferner, jede invariante Verteilung µ auf S hat die Form
µ=
`
X
αi µi
(67)
i=1
mit αi ≥ 0 so, dass
Verteilung).
P`
i=1 αi
= 1 (offenbar ist jede µ der Form (67) eine invariante
Beweis. Sei C eine wesentliche Klasse. Die Einschränkung von P auf C definiert die
Übergangsmatrix einer irreduzibel Markovkette mit Zustandsraum C (aus Definition von
wesentlichen Klassen). Satz 7.13 impliziert, dass es eine eindeutige invariante Verteilung
vC auf C existiert. Der Vektor µC (j) = v(j), falls j ∈ C und µC (j) = 0 für j 6∈ C
definiert dann eine invariante Verteilung auf S. Das gilt für alle wesentliche Klassen C
in S.
P Sei nun µ eine beliebige invariante Verteilung auf S. Wir behaupten, dass µ(D) =
j∈D µ(j) = 0 für alle unwesentliche Klassen D. Um diese Behauptung zu zeigen,
bemerken wir zunächst, dass es mindestens eine unwesentliche Klasse D1 existiert, die
man aus keiner andere Klasse eintreten kann (sonst müssten zwei unwesentlichen Klassen
e existieren, so, dass man von D nach D
e und auch von D
e nach D springen kann;
D und D
e kommunizieren,
das würde aber bedeuten, dass Elementen in D mit Elementen in D
e
und also, dass D = D). Wir zeigen, dass µ(D1 ) = 0. In der Tat, da µ invariant ist, muss
(µP )(D) = µ(D). Hier ist
X
XX
XX
(µP )(D) =
(µP )(j) =
µ(i)pij =
µ(i)pij
j∈D
j∈D i∈S
j∈D i∈D
weil, nach Annahme, pij = 0 falls j ∈ D und i 6∈ D. Deswegen
X
X
X
X
X
(µP )(D) =
µ(i)
pij =
µ(i) −
µ(i)
pij ≤ µ(D)
i∈D
j∈D
i∈D
i∈D
j6∈D
Gleichheit kann hier nur erfüllt sein, falls µ(i) = 0 für alle i ∈ D gilt, für die ein j 6∈ D
existiert, mit pij > 0. Da D eine unwesentliche Klasse ist, es existiert mindestens ein
i0 ∈ D mit dieser Eigenschaft. Dann muss µ(i0 ) = 0 gelten. Alle andere j ∈ D müssen
nun mit i0 kommunizieren. D.h. für alle j ∈ D finden wir k ∈ N mit (P k )ji0 > 0. Aus
µ = P k µ folgt
X
0 = µ(i0 ) =
µ(`)(P k )`i0 ≥ µ(j)(P k )ji0
`∈S
105
und deswegen muss µ(j) = 0 für alle j ∈ D. Damit haben wir gezeigt, dass µ(D) = 0
für eine unwesentliche Klasse D, in die man nicht von einer andere Klasse eintreten
kann. Wir können also die Markovkette auf den verbliebenden Zustandsraum S\D einschränken (die Kette wird S\D nie verlassen, weil wir angenommen haben, sie kann
nicht in D von einer andere Klasse eintreten). Wenn die reduzierte Markovkette noch
e geben, in
unwesentliche Klassen besitzt, muss mindestens eine unwesentliche Klasse D
die man nicht mehr von den anderen verbliebenden Klassen eintreten kann. Deswegen
e = 0. Durch iteration
können wir das Argument wiederholen, um zu zeigen, dass µ(D)
folgt, dass µ auf alle unwesentliche Klassen verschwindet. Nach Elimination von alle
unwesentliche Klassen, die Gleichung µ = P µ reduziert zu einem entkoppelten System
für die wesentlichen Klassen (es gibt keine Kopplung zwischen den wesentliche Systeme,
weil die Kette kann eine wesentliche Klasse nicht verlassen). In jeder wesentliche Klasse
Ci existiert aber eine eindeutige invariante Verteilung µi . Also, die Einschränkung von
µ auf der wesentliche Klasse Ci muss µ(j) = αi µi (j) erfüllen, für alle j ∈ Ci und für
eine geeignete Konstante αi ≥ 0. Damit haben wir gezeigt, dass
X
µ=
αi µi
i=1
Beispiele:
• Irrfahrt mit absorbierenden Rand. Wir betrachten die Markovkette mit Zustandsraum {−L, −L + 1, . . . , L − 1, L} und mit Übergangswahrscheinlichkeiten (60). Es
gibt in diesem Fall drei Äquivalnezklassen, {−L}, {L} und {−L + 1, . . . , L − 1}.
Die zwei Klasse C1 = {−L} und C2 = {L} sind wesentlich und die Klasse
D = {−L + 1, . . . , L − 1} ist unwesentlich. Die wesentliche Klasse C1 hat die
invariante Verteilung (1, 0, . . . , 0). Die wesentliche Klasse C2 hat die invariante
Verteilung (0, . . . , 0, 1). Die allgemeinste invariante Verteilung hat also die Form
µ = (α1 , 0, . . . , 0, α2 )
für α1 , α2 ≥ 0 mit α1 + α2 = 1.
• Einfaches Wettermodell: wie in (62) betrachten wir eine Markovkette mit Zustandsraum {0, 1} (0 bedeutet Regen, 1 Sonne) und mit Übergangsmatrix
1 − p0,1 p0,1
P =
p1,0
1 − p1,0
Die Kette ist irreduzible, falls p0,1 , p1,0 > 0. In diesem Fall existiert eine eindeutige
invariante Verteilung µ = (µ1 , µ2 ). Die Gleichung µ = µP führt uns zum System
µ1 (1 − p0,1 ) + µ2 p1,0 = µ1 µ1 p0,1 + µ2 (1 − p1,0 ) = µ2
und damit zu µ1 p0,1 = µ2 p1,0 . Nach geeignete Normierung finden wir die eindeutige
invariante Verteilung
p1,0
p0,1
µ=(
,
)
p1,0 + p0,1 p1,0 + p0,1
106
Ist nun p0,1 = 0 und p1,0 > 0, dann gibt es zwei Klassen, C = {0} ist eine
wesentliche und D = {1} eine unwesentliche Klasse. Auch in diesem Fall gibt es
eine eindeutige invariante Verteilung, nämlich µ = (1, 0) (das ist die invariante
Verteilung von der wesentliche Klasse C. Analog, falls p1,0 > 0 und p0,1 = 0,
dann sind C = {1} ein wesentliche und D = {0} eine unwesentliche Klasse. In
diesem Fall ist die eindeutige invariante Verteilung µ = (0, 1). Schlussendlich, falls
p0,1 = p1,0 = 0 dann gibt es zwei wesentliche Klassen C1 = {0} und C2 = {1}.
Jede Verteilung
µ = alpha1 (1, 0) + α2 (0, 1) = (α1 , α2 )
mit α1 , α2 ≥ 0 und α1 + α2 = 1 ist in diesem Fall eine invariante Verteilung.
7.3
Stoppzeiten und der starke Ergodensatz
Wir betrachten wieder eine Markovkette mit endlichem Zustandsraum S, d.h. eine
messbare Abbildung X : Ω → S N definiert auf einem Wahrscheinlichkeitsraum (Ω, A, P).
Das Wahrscheinlichkeitsmass P auf Ω induziert ein Wahrscheinlichkeitsmass PX auf
(S N , P (S)N ), gegeben aus PX (B) = P(X −1 (B)) für alle B ∈ P (S)N (P (S)N , das Produkt
von abzählbar viele Kopien der Potenzmenge P (S) von S, wird von allen Zylindermengen erzeugt).
Es lohnt sich manchmal (Ω, A, P) mit (S N , P (S)N , PX ) zu identifizieren (auf dem
neuen Wahrscheinlichkeitsraum ist X(x) = x, für alle Folgen x = (xn )n∈N mit xn ∈ S
für alle n ∈ N).
Wir bezeichnen mit Fn = σ(X0 , X1 , . . . , Xn ) die σ-Algebra auf Ω die aus den Zufallsvariablen X0 , . . . , Xn erzeugt wird. Mit anderen Wörter, Fn ist die kleinste σ-Algebra
auf Ω, die aus Mengen der Form (X0 , . . . , Xn )−1 (B), mit B ⊂ S n besteht. Es ist einfach
zu sehen, dass Fn aus Mengen der Form X0−1 (B1 ) ∩ · · · ∩ Xn−1 (Bn ) mit B1 , . . . , Bn ⊂ S
erzeugt wird.
Identifizieren wir (Ω, A, P) mit (S N , P(S)N , PX ), dann ist Fn eine σ-Algebra auf S N .
Fn ist nämlich die σ-Algebra auf S N die aus Mengen der Form B1 ×· · ·×Bn ×S ×S ×. . .
für B1 , . . . , Bn ⊂ S beliebig erzeugt wird.
Definition 7.15. Eine Abbildung T : Ω → N heisst eine Stoppzeit, wenn für alle n ∈ N
das Ereignis {x ∈ Ω : T (x) = n} ∈ Fn . Mit andere Wörter, eine N-wertige Zufallsvariable T ist eine Stoppzeit für die Markovkette X falls, für alle n ∈ N, die Kenntniss der
Vergangenheit von Xn uns bestimmen lässt, ob T = n erfüllt ist.
Das standard Beispiel von Stoppzeiten sind Eintrittszeiten. Sei nämlich D ⊂ S. Dann
ist
τD = inf{n > 0 : Xn ∈ D}
(68)
eine Stoppzeit, weil
{x ∈ Ω : τD (x) = n} =
\
Xk−1 (Dc ) ∩ Xn−1 (D)
1≤k<n
offenbar in Fn ist, für alle n ∈ N (man könnte auch τD anders definieren, mit dem
Infimum über alle n ≥ 0; für uns wird aber später die Definition (68) nützlicher sein).
107
Bemerke, dass im Gegensatz zu ersten Eintrittszeiten sind letzten Austrittzeiten, definiert durch
σD = sup{n ≥ 0 : Xn ∈ D},
keine Stoppzeiten.
Wir betrachten eine Markovkette mit endlichem Zustasndsraum S, definiert auf dem
Wahrscheinlichkeitsraum (Ω, A, P). Die Kette hat dann Werte auf S N , versehen mit der
σ-Algebra P (S)N . Das Mass P induziert ein Mass PX auf (S N , P (S)N ), definiert durch
PX (B) = P(X = B) = P(X −1 (B))
für alle B ⊂ P (S)N . Für ein beliebiges x ∈ S können wir nun ein neues Wahrscheinlichkeitsmass auf P (S)N definieren, indem wir die Bedingung X0 = x annehmen. Wir
definieren also Px : P (S)N → [0; 1] durch
Px (B) = P(X = B|X0 = x) = P(X −1 (B)|X0−1 (x)) =
P(X −1 (B) ∩ X0−1 (x))
P(X0−1 (x))
Wir bezeichnen mit Ex den Erwartungswert bezüglich Px . Mit anderen Wörter, für eine
Funktion Y : S N → R, messbar bezüglich P (S)N und integrierbar bezüglich Px , haben
wir
E1(X0 = x)Y
Ex Y = E [Y |X0 = x] =
P(X0 = x)
Bedingte Erwartungen von Stoppzeiten können benutzt werden um invariante Verteilungen zu bestimmen.
Proposition 7.16. Sei X eine irreduzible Markovkette mit endlichem Zustandsraum S.
Sei µ die eindeutige invariante Verteilung von X. Für ` ∈ S, sei τ` = inf{n > 0 : Xn =
`} die erste positive Eintrittszeit im Zustand `. Dann gilt, für alle j, ` ∈ S,
P`
1(Xt = j)]
E` [ τt=1
µ(j) =
E` τ`
Bemerkung: Der Nenner E` τ` ist der Erwartungswert für die erste Rückkehrzeit im
Zustand
P ` `, unter der Annahme, dass die Kette im Zustand ` beginnt. Der Numerator
1(Xt = j) ist dagegen der Erwartungswert von der Anzahl Besuchen im ZuE` τt=1
stand j vor dem ersten Rückkehrzeit im Zustand `, unter Annahme, dass die Kette im
Zustand ` beginnt.
Beweis. Wir beginnen zu zeigen, dass E` τ` < ∞. Wir nehmen zunächst an, dass die
Kette aperiodisch ist. Dann existiert k ∈ N mit (P k )ij > 0 für alle i, j ∈ S. Sei c =
108
mini,j∈S (P k )ij > 0. Dann gilt
P` (τ` > t) = P(τ` > t|X0 = `)
≤ P(Xkn 6= ` für alle n ∈ N\{0} mit kn ≤ t|X0 = `)


Y
=
P(Xkn 6= `|Xk(n−1) 6= `) · P(Xk 6= `|X0 = `)
n≥2 :kn≤t

=
Y
1 − P(Xkn = `|Xk(n−1)

(69)
6= `)  · (1 − P(Xk = `|X0 = `))
n≥2:kn≤t
≤
Y
(1 − min(P k )i` )
i∈S
n:nk≤t
≤ (1 − c)t/k
Hier haben wir benutzt, dass
P(Xkn = `|Xk(n−1) 6= `) =
P(Xkn = ` ∩ Xk(n−1) 6= `) X P(Xkn = ` ∩ Xk(n−1) = j)
=
P(Xk(n−1) 6= `
P(Xk(n−1) 6= `
j6=`
=
X
P(Xkn = `|Xk(n−1) = j)
j6=`
P(Xk(n−1) = j)
≥ min(P k )j`
j∈S
P(Xk(n−1) 6= `
Aus (69) finden wir
E` τ` =
X
P` (τ` > t) ≤
t≥0
X
(1 − c)t/k < ∞
t≥0
Sei nun die Kette irreduzible aber nicht notwendigerweise aperiodisch. Dann existiert für
alle j ∈ S ein kj ∈ N mit (P kj )j` > 0. Sei c = minj∈S (P kj )j` > 0. Mit k ∗ = maxj∈S kj
gilt dann offenbar
Pj (Xt 6= ` für alle t ≤ k ∗ ) ≤ Pj (Xkj 6= `) = 1 − P(Xkj = `|X0 = j) = 1 − (P kj )j` ≤ 1 − c
für alle j ∈ S. Sei t = k ∗ n für ein n ∈ N. Dann ist
P` (τ` > t) =
n
Y
P(Xm 6= ` für alle k ∗ (j − 1) < m ≤ k ∗ j|Xk∗ (j−1) 6= `)
j=2
× P(Xm 6= ` für alle 0 < m ≤ k ∗ |X0 = `)
≤ (1 − c)n = (1 − c)t/k
∗
Das zeigt, dass auch in diesem Fall, E` τ` < ∞. Man bemerke, dass das Argument auch
die Endlichkeit von Ej τ` zeigt, für alle j ∈ S. Insbesondere, wir erhalten, dass Eτ` < ∞
und deswegen, dass τ` < ∞ fast sicher (diese Tatsache wird in diesem Beweis nicht
explizit benutzt; sie wird aber in Satz 7.19 eine wichtige Rolle spielen).
Sei nun
τ
X̀
ν` (j) = E`
1(Xt = j)
t=1
109
der Erwartungswert von der Anzahl Besuchen im Punkt j ∈ S bis zum ersten Rückkehr
zu `, unter der Annahme, dass die Kette im Punkt ` anfängt. Wir möchten zeigen, dass
ν` die Gleichung ν` = ν` P erfüllt. Wir schreiben
"∞
#
X
ν` (j) = E`
1(Xt = j)1(t ≤ τ` )
t=1
=
∞
X
P` (Xt = j, t ≤ τ` )
t=1
∞
XX
=
P` (Xt−1 = m, Xt = j, t ≤ τ` )
m∈S t=1
Das Ereignis {t ≤ τ` } = {τ` ≤ t − 1}c ∈ Ft−1 . Deswegen ist auch {Xt−1 = m} ∩ {t ≤
τ` } ∈ Ft−1 . Aus der Markov-Eigenschaft
P` (Xt−1 = m, Xt = j, t ≤ τ` ) = P` (Xt = j|Xt−1 = m, t ≤ τ` )P` (Xt−1 = m, t ≤ τ` )
= P(Xt = j|Xt−1 = m)P(Xt−1 = m, t ≤ τ` )
= pmj P(Xt−1 = m, t ≤ τ` )
Also
"
ν` (j) =
X
m∈S
E`
∞
X
"
#
1(Xt−1 = m)1(t ≤ τ` ) pmj =
t=1
X
E`
m∈S
Wir haben
τ
X̀
1(Xt−1 = m) =
t=1
τ
X̀
τ
X̀
#
1(Xt−1 = m) pmj
t=1
1(Xt = m)
t=1
weil, unter der Bedingung, dass X0 = `, X0 = Xτ` . Wir erhalten
"τ
#
X
X̀
X
ν` (j) =
E`
1(Xt = m) pmj =
ν` (m)pmj
m∈S
t=1
m∈S
Das zeigt, dass ν` = ν` P . Mit
µ(j) =
ν` (j)
E` τ`
gilt dann auch µ = µP . Da aber
"τ
#
τ X
X
X
X̀
X̀
ν` (j) =
E`
1(Xt = j) = E`
1(Xt = j) = E` τ`
j∈S
j∈S
t=1
t=1 j∈S
ist µ eine invariante Verteilung, wie behauptet.
Wir erhalten sofort das folgende Korollar.
110
Korollar 7.17. Sei X eine irreduzible Markovkette mit endlichem Zustandsraum. Dann
ist die eindeutige invariante Verteilung durch
1
µ(j) =
Ej τj
gegeben.
Beweis. Es gilt
ν(j) =
E`
Pτ`
t=1 1(Xt
= j)
E` τ`
für alle ` ∈ S. Mit der Wahl ` = j haben wir
Ej
τj
X
1(Xt = j) = 1
t=1
(der Summand ist 1 für t = τj und Null für alle t < τj ). Wir schliessen, dass
ν(j) =
1
Ej νj
Eine wichtige Eigenschaft von Stoppzeiten ist die starke Markov-Eigenschaft. Sie besagt, dass Erwartungswerten von Produkten an Stoppzeiten faktorisiert werden können.
Sei T eine Stoppzeit für eine Markovkette X mit endlichem Zustandsraum S. Wir
definieren die σ-Algebra FT ⊂ A auf Ω, als die Menge alle Ereignisse die nur von Xn
abhängen, für alle n ≤ T . Wir nennen FT die σ-Algebra der τ -Vergangenheit. Formal
ist
FT = {A ∈ A : A ∩ {x : T (x) ≤ n} ∈ Fn für alle n ∈ N}
Beispiel: Sei X = (Xn )n∈N eine Markovkette mit endlichem Zustandsraum S =
{x1 < x2 < · · · < XN } mit xj ∈ R. Sei τ = inf{n > 0 : Xn ≥ x10 } die erste Eintrittszeit in der Menge {x10 , x11 , . . . , xN } ⊂ S. Wir betrachten nun die Ereignisse A = {supn∈N Xn ≥ x6 } und B = {supn∈N Xn ≥ x12 }. Wir bemerken, dass
{x ∈ Ω : τ (x) ≤ n} ⊂ A und also A ∩ {τ ≤ n} = {τ ≤ n} ∈ Fn . Deswegen ist
A ∈ Fτ . Anderseits, die Tatsache, dass τ ≤ n impliziert nicht, dass B erfüllt ist, und
also B ∩ {τ ≤ n} ist nicht in Fn enthalten. Das bedeutet, dass B 6∈ Fτ nicht in der
τ -Vergangenheit gehört.
Für eine allgemeine Stoppzeit T , ein Beispiel einer Zufallsvariable die bezüglich FT
messbar ist, ist die Funktion XT , definiert durch XT (x) = XT (x) (x). In der Tat, für
n ∈ N und D ⊂ S, (XT )−1 (D) = {x ∈ Ω : XT (x) (x) ∈ D}. Damit
(XT )−1 (D) ∩ {T ≤ n} = {x ∈ Ω : XT (x) (x) ∈ D} ∩ {x ∈ Ω : T (x) ≤ n}
n
[
=
{x ∈ Ω : XT (x) (x) ∈ D} ∩ {x ∈ Ω : T (x) = j}
=
=
j=0
n
[
{x ∈ Ω : Xj (x) ∈ D} ∩ {x ∈ Ω : T (x) = j}
j=0
n
[
Xj−1 (D) ∩ {x ∈ Ω : T (x) = j} ∈ Fn
j=0
111
Ähnlichkerweise sind auch die Variablen XT −1 oder XT /2 bezüglich FT messbar.
Es lohnt sich hier den abstrakten Raum (Ω, A, P) mit (S N , P (S)N , PX ) zu identifizieren. Dann ist FT ⊂ P (S)N .
Sei nun F : S N → R messbar bezüglich FT . Ferner, für eine Funktion G : S N → R
(messbar bezüglich P (S)N ), und m ∈ N, definieren wir die Zeitverschiebung
G ◦ θm (x1 , x2 , . . . ) = G(xm , xm+1 , . . . )
Insbesondere können wir die Zeitverschiebung G ◦ θT betrachten, unter der Annahme,
dass T < ∞. Die Variable G ◦ θT gehört dann zum Zukunft von der Stoppzeit T . Durch
Angabe von XT wird also G ◦ θT unabhängig von F (weil F gehört zur Vergangenheit
von T ). Dann faktorisiert den Erwartungswert vom Produkt F (G ◦ θT ). Das ist der
Inhalt vom nächsten wichtigen Satz.
Satz 7.18 (Starke Markov-Eigenschaft). Sei X eine stationäre Markovkette mit endlichem Zustandsraum. Sei T eine Stoppzeit und F, G reelwertige Funktionen auf S N ,
messbar bezüglich P (S)N . Wir nehmen an, F ist bezüglich FT messbar. Dann gilt, für
alle x ∈ S, dass
Ex [1T <∞ F (G ◦ θT )] = Ex [1T <∞ F EXT [G]]
Mit anderen Wörter
Ex 1T (X0 ,X1 ,... )<∞ F (X0 , X1 , . . . )G(XT , XT +1 , . . . )
= E 1T (X0 ,X1 ,... )<∞ F (X0 , X1 , . . . )E[G(X00 , X10 , . . . )|X00 = XT ]|X0 = x
wobei X 0 eine unabhängige Kopie von X ist.
Beweis. Es genugt offenbar den Fall F = 1A und G = 1B zu betrachten, für ein A ∈ FT
und ein B ∈ P (S)N beliebig. Dann gilt
Ex 1T (X)<∞ 1A (X)1B (θT (X))
1
=
P (X0 = x, T (X) < ∞, X ∈ A, θT (X) ∈ B)
P(X0 = x)
X
1
=
P (X0 = x, T (X) = n, X ∈ A, θn (X) ∈ B)
P(X0 = x)
n∈N
XX
1
=
P (X0 = x, T (X) = n, Xn = j, X ∈ A, θn (X) ∈ B)
P(X0 = x)
n∈N j∈S
=
1
XX
P(X0 = x)
n∈N j∈S
P (θn (X) ∈ B|X0 = x, T (X) = n, Xn = j, X ∈ A)
× P (X0 = x, T (X) = n, Xn = j, X ∈ A)
Nun, da die Ereignisse {X0 = x}, {Xn = j} und A ∩ {T = n} in der σ-Algebra Fn
enthalten sind (weil A ∈ FT ), die Markov-Eigenschaft impliziert, dass
P (θn (X) ∈ B|X0 = x, T (X) = n, Xn = j, X ∈ A)
= P ((Xn , Xn+1 , . . . ) ∈ B|X0 = x, T (X) = n, Xn = j, X ∈ A)
= P ((Xn , Xn+1 , . . . ) ∈ B|Xn = j)
= P ((X0 , X1 , . . . ) ∈ B|X0 = j) = Pj (X ∈ B) = Ej 1B (X)
112
Wir erhalten, dass
Ex 1T (X)<∞ 1A (X)1B (θT (X))
XX
1
Ej [1B (X)] P (X0 = x, T (X) = n, Xn = j, X ∈ A)
=
P(X0 = x)
n∈N j∈S
=
=
1
XX
P(X0 = x)
n∈N j∈S
1
XX
P(X0 = x)
n∈N j∈S
Ej [1B (X)] E [1(X0 = x)1(T (X) = n)1(Xn = j)1A (X)]
E [1(X0 = x)1(T (X) = n)1(Xn = j)1A (X) EXn [1B (X)]]
= Ex [1(T (X) < ∞)1A (X)EXT [1B (X)]]
Als Anwendung der starke Markoveigenschaft zeigen wir nun den starken Ergodensatz für irreduzible Markovketten.
Satz 7.19 (Starker Ergodensatz). Sei X eine irreduzible Markovkette mit endlichem
Zustandsraum S und invarianter Verteilung µ. Sei f : S → R eine beschränkte messbare
Funktion (da S endlich ist, sind diese Annahme immer erfüllt). Dann gilt
n
1X
lim
f (Xk ) =
n→∞ n
k=1
Z
f dµ
S
fast sicher.
Beweis. Es genügt offenbar den Satz für f = 1i , für i ∈ S zu beweisen. Für ein festgewähltes i ∈ S definieren wir die Folge von Stoppzeiten
t0 = inf{k ≥ 0 : Xk = i}
t` = inf{k ≥ t`−1 : Xk = i}
Mit f = 1i finden wir
n
X
k=1
f (Xk ) =
n
X
1(Xk = i) = max{` ∈ N : t` ≤ n} .
k=1
Sei nun σ` = t` − t`−1 . Für ` ≥ 1 sind die σ` unabhängige und identisch verteilte
Zufallsvariablen. Das folgt aus der starken Markoveigenschaft. Sei zB. ` < j. Wie im
Beweis von Proposition 7.16 kann man zeigen, dass die Stoppzeit t`−1 < ∞ fast sicher.
Anwendung vom starken Markoveigenschaft zur Stoppzeit t`−1 gibt also
Ex [g(σ` )h(σj )] = Ex [1(t`−1 < ∞)g(σ` )h(σj )] = Ex 1(t`−1 < ∞) EXt` −1 [g(τi )h(σj−`+1 )]
= Ex Ei [g(τi )h(σj−`+1 )] = Ei [g(τi )h(σj−`+1 )]
weil, nach Definition, Xt`−1 = i mit Wahrscheinlichkeit 1. Hier haben wir die Stoppzeit
τi = inf{n > 0 : Xn = i} eingeführt. Nun aber, da τi ∈ Ftj−` in der Vergangenheit von
113
der Stoppzeit tj−` ist, Anwendung von der starken Markov-Eigenschaft zur Zeit tj−`
gibt
Ei [g(τi )h(σj−`+1 )] = Ei [1(tj−`+1 < ∞)g(τi )h(σj−`+1 )]
i
h
= Ei 1(tj−`+1 < ∞)g(τi )EXtj−` h(τi0 )
wobei τi0 eine unabhängige Kopie von τi ist. Wir erhalten
Ex [g(σ` )h(σj )] = [Ei g(τi )] [Ei h(τi )]
für alle x ∈ S. Also
E [g(σ` )h(σj )] = [Ei g(τi )] [Ei h(τi )]
für alle ` 6= j. Insbesondere, mit g = 1 finden wir E h(σj ) = Ei h(τi ) für alle j ∈ N. Das
zeigt, dass die Variablen σj sind unabhängig und identisch verteilt. Die Verteilung jeder
σj ist also identisch zur Verteilung von τi , bezüglich dem Mass Pi (bedingt auf X0 = i).
Wir haben schon im Beweis von Proposition 7.16 gezeigt, dass Eσ` = Ei τi < ∞. Das
Gesetz der grossen Zahlen impliziert also, dass
n
1X
tn
= lim
σj = E σ1 = Ei τi
lim
n→∞ n
n→∞ n
j=1
e ⊂ Ω mit P(Ω)
e = 1 und so, dass, für alle x ∈ Ω,
e
fast sicher. D.h. es gibt eine Teilmenge Ω
lim
n→∞
tn (x)
= Ei τi
n
e und für ein beliebiges ε > 0 können wir also n0 ∈ N finden, mit
Für ein x ∈ Ω
t` (x)
≤ε
−
E
τ
i
i
`
für alle n > n0 . Das bedeutet, dass
`Ei τi − `ε ≤ t` (x) ≤ `Ei τi + `ε
für alle ` > n0 und deswegen, dass
n
n
≤ max{` ≥ n0 : t` (x) ≤ n} ≤
Ei τi + ε
Ei τi − ε
Wir bemerken, dass
max{` ≥ n0 : t` (x) ≤ n} = max{` ≥ 0 : t` (x) ≤ n}
e ⊂ Ω, mit
falls tn0 (x) ≤ n. Da tn0 < ∞ fast sicher, finden wir eine Teilmenge Ω0 ⊂ Ω
0
P(Ω ) = 1 so, dass
max{` ≥ n0 : t` (x) ≤ n} = max{` ≥ 0 : t` (x) ≤ n}
114
für alle x ∈ Ω0 . Das iimpliziert, dass
1
1
1
≤ max{` ≥ 0 : t` (x) ≤ n} ≤
Ei τi + ε
n
Ei τi − ε
für alle x ∈ Ω0 . Das gibt
1
1
1
≤ lim max{` ≥ 0 : t` (x) ≤ n} ≤
n→∞
Ei τi + ε
n
Ei τi − ε
für alle x ∈ Ω0 . Da ε > 0 beliebig ist, muss
n
1
1X
= lim
f (Xk (x))
Ei τi n→∞ n
k=1
für alle x ∈ Ω0 . Das zeigt die Behauptung.
Bemerkungen:
i) Der starken Ergodensatz ist die Verallgemeinerung des Gesetzes der grossen Zahlen
für Markovketten. Besteht die Markovkette (Xj )j∈N aus einer Folge unabhängige
und identisch verteilter Zufallsvariablen, mit Verteilung π, so ist π die eindeutige
invariante Verteilung, und die Aussage, dass
n
1X
f (Xk ) →
n
k=1
Z
f dµ = Ef (X1 )
S
fast sicher ist einfach die Aussage des starken Gesetz der grossen Zahlen.
ii) Im starken Ergodensatz wird, im Gegensatz zum Satz 7.11, keine Aperiodizität
von der Markovkette angenommen. Mit der Wahl f = 1i für ein i ∈ S, erhalten
wir also, dass
n
1X
(π0 P j )(i) = µ(i)
n
j=1
für jede irreduzible stationäre Markovkette, aperiodisch oder nicht. Wir haben
dagegen gesehen, dass ohne Aperiodizität die (stärkere) Konvergenz (π0 P n )(i) →
µ(i) nicht erwartet werden kann.
115
Herunterladen