Vorlesungsskript - Abteilung für Mathematische Stochastik

Stochastik I
Andrej Depperschmidt
Vorlesungsskript
Universität Mainz
Sommersemester 2014
Version: 12. Mai 2016
Vorwort
Bei diesem Skript handelt es sich um Vorlesungsnotizen, die parallel zur
Vorlesung “Stochastik I” im Sommersemester 2014 an der Universität Mainz
geschrieben werden.
Die Liste an empfehlenswerten Büchern in denen Wahrscheinlichkeits- und
Maßtheorie (sowohl auf deutsch als auch auf englisch) behandelt wird ist sehr
umfangreich. Die Literaturliste enthält eine Auswahl an Büchern, die direkt
für die Herstellung dieses Skriptes verwendet wurden. Bei speziellen Fragen
zur Literatur bitte nachfragen!
Kommentare und Hinweise auf (Tipp-)Fehler oder Unklarheiten sind sehr
willkommen. Schicken Sie diese bitte an
[email protected].
2
Inhaltsverzeichnis
1 Maße und Maßräume
1.1 Mengenoperationen und Notation . . . . . . . . . .
1.2 Algebren und σ -Algebren . . . . . . . . . . . . . . .
1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren . . . .
1.4 Maße . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Dynkin-Systeme . . . . . . . . . . . . . . . . . . . .
1.6 Äußere Maße . . . . . . . . . . . . . . . . . . . . . .
1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen
1.8 Messbare Funktionen und Abbildungen . . . . . . .
1.9 Übungen . . . . . . . . . . . . . . . . . . . . . . . .
2 Integration
2.1 Definition des Lebesgue- oder Maßintegrals
2.2 Satz von Radon-Nikodým . . . . . . . . . . .
2.3 Produktmaße und Satz von Fubini . . . . . .
2.4 Übungen . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Zufallsvariablen, Verteilungen und Erwartungswerte
3.1 Zufallsvariablen und ihre Verteilungen . . . . . . . .
3.2 Grundlegende Ungleichungen . . . . . . . . . . . . .
3.3 Unabhängige Ereignisse und Mengensysteme . . . .
3.4 Unabhängige Zufallsvariablen . . . . . . . . . . . . .
3.5 Faltung . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Konvergenz von Zufallsvariablen . . . . . . . . . . .
3.7 Null-Eins Gesetz von Kolmogorov . . . . . . . . . . .
3.8 Starkes Gesetz der großen Zahlen . . . . . . . . . . .
3.9 Maximalungleichungen . . . . . . . . . . . . . . . . .
3.10 Reihen unabhängiger Zufallsvariablen . . . . . . . . .
3.11 Übungen . . . . . . . . . . . . . . . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
6
9
11
15
20
25
32
36
41
.
.
.
.
47
47
58
69
74
.
.
.
.
.
.
.
.
.
.
.
78
78
87
91
95
100
104
108
110
114
116
118
4 Schwache Konvergenz und zentraler Grenzwertsatz
4.1 Schwache Konvergenz . . . . . . . . . . . . . . . . .
4.2 Straffheit und relative Kompaktheit . . . . . . . . . .
4.3 Vertauschung von Integration und Grenzwertbildung
4.4 Charakteristische Funktionen . . . . . . . . . . . . .
4.5 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . .
4.6 Übungen . . . . . . . . . . . . . . . . . . . . . . . . .
5 Bedingte Wahrscheinlichkeiten und Erwartungen
5.1 Motivation und erste Beispiele . . . . . . . . . . .
5.2 Bedingte Erwartungen . . . . . . . . . . . . . . .
5.3 Eigenschaften bedingter Erwartungen . . . . . . .
5.4 Übungen . . . . . . . . . . . . . . . . . . . . . . .
Literaturverzeichnis
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
122
122
128
130
133
141
143
.
.
.
.
145
145
147
150
154
155
4
1 Maße und Maßräume
Bereits mit Mitteln der diskreten Wahrscheinlichkeitstheorie – typischerweise
ist sie Gegenstand der einführenden Stochastikvorlesungen – können viele
interessante Themen behandelt werden. Dennoch reicht die diskrete Theorie
für viele Fragestellungen nicht aus. Insbesondere stößt sie an ihre Grenzen,
wenn es um unendliche Wiederholungen eines Zufallsexperimentes, z.B. eine
unendliche Folge von Münzwürfen, oder um infinitesimal genaue Operationen,
z.B. ziehen eines zufälligen Punktes eines Intervalls geht. Wir demonstrieren
es an einem Beispiel.
Wir betrachten n Würfe einer Münze mit Wahrscheinlichkeit p ∈ [0, 1] für
Kopf und q = 1 − p für Zahl. Der zugehörige Wahrscheinlichkeitsraum ist
(Ω, A, P), wobei
(
)
Ω = ω = (ω1 , . . . , ωn ) : ωi ∈ {0, 1} ,
A = {A : A ⊂ Ω},
P({ω}) = p
Pn
i=1 ωi
qn−
Pn
i=1 ωi
.
Wir interpretieren ωi = 1 als Kopf und ωi = 0 als Zahl beim i-ten Wurf der
Münze. Das Mengensystem A ist die Potenzmenge von Ω. Die Wahrscheinlichkeit eines Ereignisses A ∈ A ist die Summe der Einzelwahrscheinlichkeiten
der Elemente von A, also
X
P(A) =
P({ω}).
(1.1)
ω∈A
Die Mächtigkeit, d.h. die Anzahl der Elemente, der Menge Ω ist 2n . Im Fall einer
fairen Münze ist p = q = 1/2 und jedes Elementarereignis ω ∈ Ω hat dieselbe
Wahrscheinlichkeit P({ω}) = 1/2n . Ferner ist P(A) = |A|/2n für A ∈ A, wobei
|A| die Anzahl der Elemente von A bezeichnet.
Wie sieht nun das entsprechende Modell im Fall einer unendlichen Münzwurffolge aus? Als naheliegende Ereignismenge nehmen wir
(
)
Ω = ω = (ω1 , ω 2 , . . .) : ωi ∈ {0, 1} .
5
1.1 Mengenoperationen und Notation
Es ist bekannt, dass jede Zahl a ∈ (0, 1] eine eindeutige (nicht-abbrechende,
d.h. mit unendlich vielen Einsen) dyadische Darstellung
a1 a2
a=
+
+ . . . , ai ∈ {0, 1}
2 22
hat. Insbesondere können wir (und tun es auch) Ω = (0, 1] als Ereignismenge
nehmen, was überabzählbar ist.
Intuitiv sollte jedem Elementarereignis ω ∈ Ω dieselbe Wahrscheinlichkeit
zugeordnet werden. Da Ω aber überabzählbar ist, muss P({ω}) = 0 für alle
ω ∈ Ω gelten. Aus Symmetriegründen sollte mit Wahrscheinlichkeit 1/2 ein
zufällig gezogener Punkt aus (0, 1] zu (0, 1/2] gehören. Wie passt das aber
zu P({ω}) = 0 für alle ω ∈ Ω? Offenbar kann man in diesem Fall nicht die
Wahrscheinlichkeiten der Elementarereignisse angeben und dann wie in (4.6)
vorgehen. Bei überabzählbaren Ereignismengen sollten die Wahrscheinlichkeiten also für bestimmte Familien von Teilmengen von Ω angegeben werden.
Ferner kann man sich überlegen, dass diese Familien abgeschlossen bezüglich
verschiedenen Mengenoperationen sein sollten damit die Wahrscheinlichkeitsmaße darauf konsistent definiert werden.
Mathematisch rigorose Behandlung der Wahrscheinlichkeitstheorie baut
auf Maßtheorie auf wird ermöglicht durch die Axiome von Kolmogorov; siehe
Kolmogoroff (1933). In diesem Kapitel behandeln wir die für diese Vorlesung
benötigten Begriffe und Resultate aus der Maß- und Integrationstheorie.
1.1 Mengenoperationen und Notation
In diesem Abschnitt wiederholen wir einige Begriffe und Notation aus der
Mengenlehre. Im Folgenden ist Ω stets eine nichtleere Menge.
Die Potenzmenge von Ω ist als die Menge aller Teilmengen von Ω definiert
und wird mit P (Ω) bezeichnet. Also ist
P (Ω) B {A : A ⊂ Ω}.
(1.2)
Mit A ∩ B, A ∪ B bezeichnen wir wie üblich den Durchschnitt bzw. die
Vereinigung der Mengen A und B. Für A ⊂ Ω bezeichnen wir mit Ac B
Ω \ A = {x ∈ Ω : x < A} das Komplement von A in Ω. Die symmetrische
Differenz der Mengen A und B ist definiert durch
A4B B (A \ B) ∪ (B \ A).
6
(1.3)
1.1 Mengenoperationen und Notation
Oft wird es nützlich sein Vereinigungen von Mengen als Vereinigungen von
disjunkten Mengen darzustellen. Wie das geht, zeigt das folgende Resultat.
Proposition 1.1 (Disjunkte Vereinigungen). Es sei A1 , A2 , . . . eine Folge von
S
Teilmengen von Ω und A = n An . Dann sind die Mengen
B 1 = A1 , B 2 = A2 \ B 1 , . . . , Bn = An \
n−1
[
Bk , . . .
k=1
paarweise disjunkt und es gilt A =
S
n
Bn .
Beweis. Übung!
Auch sehr nützlich (insbesondere beim Rechnen mit Wahrscheinlichkeiten)
sind die De Morganschen Regeln: Für (Ai )i∈I , Ai ⊂ Ω mit einer beliebigen
Indexmenge I (abzählbar1 oder überabzählbar) gilt
[ c \
\ c [
c
Ai =
Ai und
Ai =
Aci .
(1.4)
i∈I
i∈I
i∈I
i∈I
Ist (xn )n∈N eine reellwertige Folge, dann sind die Operatoren lim sup und
lim inf bekanntermaßen definiert durch
lim sup xn = inf sup xk
n∈
n→∞
N k ≥n
bzw.
lim inf xn = sup inf xk .
n→∞
n∈
N k ≥n
(1.5)
Die entsprechenden Operatoren gibt es auch für Folgen von Mengen. Für einen
Zusammenhang zwischen diesen Begriffen verweisen wir auf Übung 1.3.
Definition 1.2 (lim inf und lim sup von Mengenfolgen). Für A1 , A2 , . . . ∈
P (Ω) sind Limes superior und Limes inferior definiert durch
lim sup An B
n→∞
∞ [
∞
\
Ak
bzw.
n=1 k=n
lim inf An B
n→∞
∞ \
∞
[
Ak .
(1.6)
n=1 k=n
Falls lim supn→∞ An = lim inf n→∞ An gilt, so nennen wir die Mengenfolge
(An ) konvergent und schreiben
lim An = lim sup An = lim inf An .
n→∞
n→∞
n→∞
1 Ohne
(1.7)
eine besondere Hervorhebung meinen wir mit “abzählbar” immer “endlich” oder
“abzählbar unendlich”
7
1.1 Mengenoperationen und Notation
Bemerkung 1.3. Für ω ∈ Ω gilt
ω ∈ lim sup An ⇔ ∀n ∈ N, ∃k ≥ n : ω ∈ Ak
n→∞
⇔ ω ∈ An für unendlich viele n.
und
ω ∈ lim inf An ⇔ ∃n ∈ N, ∀k ≥ n : ω ∈ Ak
n→∞
⇔ ω ∈ An für alle bis auf endlich viele n.
Ferner gilt
lim inf An ⊂ lim sup An ,
n→∞
(1.8)
n→∞
denn aus ω ∈ An für alle bis auf endlich viele n folgt natürlich ω ∈ An für
unendlich viele n.
Schließlich kann man mit Hilfe der De Morganschen Regeln leicht folgende
Aussagen zeigen:
c
c
(1.9)
lim sup An = lim inf Acn und lim inf An = lim sup Acn .
n→∞
n→∞
n→∞
n→∞
2
R ) mit
Beispiel 1.4. Es sei An das innere der Kreisscheibe (in
Radius 1 und
Mittelpunkt (−1)n /n, 0 . Dann ist lim inf An die offene Kreisscheibe um (0, 0).
Die Menge lim sup An enthält noch den Rand bis auf die Pole (0, 1) und (0, −1).
Beispiele von konvergenten Mengenfolgen sind monotone Mengenfolgen.
Proposition 1.5 (Monotone Mengenfolgen). Es sei A1 , A2 , . . . eine Folge von
Teilmengen von Ω. Dann gelten folgende Aussagen.
(i) Ist A1 ⊂ A2 ⊂ A3 ⊂ · · · , dann gilt
A B lim An =
n→∞
∞
[
An ,
(1.10)
An ,
(1.11)
n=1
und wir schreiben An ↑ A.
(ii) Ist A1 ⊃ A2 ⊃ A3 ⊃ · · · , dann gilt
A B lim An =
n→∞
∞
\
n=1
und wir schreiben An ↓ A.
Beweis. Übung!
8
1.2 Algebren und σ -Algebren
1.2 Algebren und σ -Algebren
Definition 1.6 (Algebra). Eine Menge A von Teilmengen von Ω heißt Algebra
(über Ω), wenn folgende Bedingungen erfüllt sind
(i) Ω ∈ A,
(ii) A ∈ A ⇒ Ac ∈ A,
(iii) A1 , . . . , An ∈ A ⇒
Sn
∈ A,
(iv) A1 , . . . , An ∈ A ⇒
Tn
∈ A.
k=1 Ak
k=1 Ak
Bemerkung 1.7. Eine Algebra A enthält also die Grundmenge, ist abgeschlossen bezüglich Komplementbildung, bezüglich Bildung endlicher Vereinigungen
und bezüglich Bildung endlicher Durchschnitte.
In der Definition der Algebra kann eine der Bedingungen (iii) oder (iv)
weggelassen werden, weil (ii) & (iii) äquivalent zu (ii) & (iv) ist. Um (iii)
aus (ii) & (iv) herzuleiten verwenden wir die De Morganschen Regeln. Für
T
A1 , . . . , An ∈ A gilt Ac1 , . . . , Acn ∈ A nach (ii) und mit (iv) folgt nk=1 Ack ∈ A.
Weitere Anwendung von (ii) liefert nun
n
[
k=1
Ak =
n
\
k=1
Ack
c
∈ A.
Analog kann man (iv) aus (ii)& (iii) herleiten. Natürlich hätte es auch in (iii)
und (iv) ausgereicht, die Implikation jeweils für n = 2 zu fordern.
Ferner kann man sich überlegen, dass eine Algebra bezüglich allen endlichen
Mengenoperationen abgeschlossen ist. Zum Beispiel gilt
A, B ∈ A ⇒ A4B = (A ∩ Bc ) ∪ (B ∩ Ac ) ∈ A,
denn
(ii)
(iv)
(iii)
A, B ∈ A ⇒ A, B, Ac , Bc ∈ A ⇒ A ∩ Bc , B ∩ Ac ∈ A ⇒ A4B ∈ A.
Definition 1.8 (σ -Algebra). Eine Menge A von Teilmengen von Ω heißt
σ -Algebra (über Ω), wenn folgende Bedingungen erfüllt sind
(i) Ω ∈ A,
9
1.2 Algebren und σ -Algebren
(ii) A ∈ A ⇒ Ac ∈ A,
k=1 Ak
(iii) A1 , A2 , . . . ∈ A ⇒
S∞
(iv) A1 , A2 , . . . , ∈ A ⇒
T∞
k=1 Ak
∈ A,
∈ A.
Bemerkung 1.9. Eine σ -Algebra A enthält also die Grundmenge, ist abgeschlossen bezüglich Komplementbildung, bezüglich Bildung abzählbarer Vereinigungen und bezüglich Bildung abzählbarer Durchschnitte. Genauso wie
bei der Definition einer Algebra kann wahlweise eine der Bedingungen (iii)
oder (iv) weggelassen werden.
Weitere Varianten der Definitionen von Algebren und σ -Algebren sind
möglich. So könnte man in beiden Definitionen statt (i) auch ∅ ∈ A fordern.
Außerdem würde es beispielsweise auch ausreichen, zu fordern, dass A nichtleer ist und (ii)&(iii) gilt. Gilt nämlich A ∈ A für eine beliebige Menge A ⊂ Ω,
dann folgt Ac ∈ A mit (ii). Nach (iii) ist dann Ω = A ∪ Ac ∈ A.
Definition 1.10 (Messbarer Raum). Ist Ω eine nichtleere Menge und A eine
σ -Algebra über Ω, dann heißt das Paar (Ω, A) ein messbarer Raum. Mengen
A ∈ A werden als (A-)messbare Teilmengen von Ω bezeichnet.
Eine σ -Algebra ist immer auch eine Algebra, weil die Vereinigung endlich vieler Mengen A1 , . . . , An mit der Vereinigung abzählbar vieler Mengen
A1 , . . . , An , An , An , . . . übereinstimmt. Die Umkehrung ist im Allgemeinen
falsch (vgl. Beispiel 1.12(d)). Die folgende Proposition liefert hinreichende
Bedingungen.
Proposition 1.11. Ein Algebra A ist eine σ -Algebra, wenn eine der folgenden
Bedingungen erfüllt ist:
(a) A ist abgeschlossen unter aufsteigenden Limiten, d.h. für A1 ⊂ A2 ⊂ . . . mit
An ∈ A, n ∈ N gilt A = ∪n An ∈ A.
(b) A ist abgeschlossen unter absteigenden Limiten, d.h. für A1 ⊃ A2 ⊃ . . . mit
An ∈ A, n ∈ N gilt A = ∩n An ∈ A.
S
S∞
Beweis. (a) Für B 1 , B 2 , . . . ∈ A gilt nk=1 Bk ↑ k=1
Bk für n → ∞, und die
rechte Seite ist ein Element von A nach Voraussetzung.
10
1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren
T
T∞
(b) Für B 1 , B 2 , . . . ∈ A gilt nk=1 Bk ↓ k=1
Bk für n → ∞, und die rechte Seite
ist ein Element von A nach Voraussetzung.
Beispiel 1.12. Wenn nichts anderes gesagt wird, ist Ω in den folgenden
Beispielen eine beliebige nichtleere Menge.
(a) Die Potenzmenge P (Ω) ist die größte σ -Algebra über Ω. In diesem Fall ist
jede Teilmenge von Ω messbar.
(b) Die kleinste (auch triviale genannt) σ -Algebra über Ω ist {∅, Ω}. In diesem
Fall ist keine nichtleere echte Teilmenge von Ω messbar
(c) Sei Ω unendlich und sei A B {A ⊂ Ω : A endlich}. Dann ist A keine
Algebra, denn es ist Ω < A und mit A ∈ A ist notwendigerweise Ac
unendlich und somit ist Ac < A.
(d) Sei Ω abzählbar unendlich und sei A B {A ⊂ Ω : A oder Ac endlich}.
Dann ist A eine Algebra, aber keine σ -Algebra. (Übung!)
(e) Sei Ω überabzählbar und sei A B {A ⊂ Ω : A abzählbar}. Dann ist A
keine Algebra, weil Ω < A und mit A ∈ A ist Ac < A.
(f) Sei A B {A ⊂ Ω : A oder Ac abzählbar}. Dann ist A eine σ -Algebra
(Übung!).
1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren
Satz 1.13 (Durchschnitte von σ -Algebren sind σ -Algebren). Ist (Ai )i∈I eine
T
beliebige nichtleere Familie von σ -Algebren über Ω, dann ist A = i∈I Ai eine
σ -Algebra über Ω.
Beweis. Da Ω ∈ Ai für alle i ∈ I ist, ist Ω ∈ A. Ist A1 , A2 , . . . eine Folge von
Mengen aus A, dann gehören diese Mengen auch zu Ai für alle i ∈ I . Da
jedes Ai eine σ -Algebra ist, folgt ∩n An ∈ Ai für alle i ∈ I und damit ∩n An ∈
A. Analog sieht man, dass A abgeschlossen bezüglich Komplementbildung
ist.
Bemerkung 1.14. Die Vereinigung von zwei σ -Algebren ist im Allgemeinen
keine σ -Algebra (Übung!).
11
1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren
Korollar 1.15. Es sei E eine beliebige Menge von Teilmengen von Ω. Dann gibt
es eine eindeutige kleinste σ -Algebra, die E enthält.
Definition 1.16 (Erzeuger und erzeugte σ -Algebra). Die kleinste σ -Algebra,
die E enthält wird mit σ (E) bezeichnet und heißt von E erzeugte σ -Algebra.
Die Familie E wird Erzeuger von σ (E) genannt.
Beweis von Korollar 1.15. Wir setzen
(
)
E ∗ = A : A σ -Algebra über Ω, E ⊂ A ,
E ∗ ist also die Familie aller σ -Algebren über Ω die E enthalten. Diese Familie
ist nichtleer, weil die Potenzmenge P (Ω) jede Menge von Teilmengen von Ω
enthält. Dann ist
\
σ (E) B
A
A∈E ∗
die kleinste σ -Algebra über Ω, die E enthält. Dass es eine σ -Algebra ist, ist nach
Satz 1.13 klar. Die kleinste ist es, weil der Durchschnitt über alle E enthaltenden
σ -Algebren gebildet wird. Zwei kleinste σ -Algebren, die E enthalten, müssen
sich gegenseitig enthalten und somit gleich sein.
Nun geben wir einige Beispiele von σ -Algebren und ihren Erzeugern an.
Ein weiteres Beispiel finden Sie in Übung 1.9.
Beispiel 1.17. (a) Ist Ω eine nichtleere Menge und ist A eine echte nichtleere
Teilmenge von Ω, dann ist die kleinste σ -Algebra, die A enthält gegeben
durch
σ ({A}) = {∅, A, Ac , Ω}.
(b) Die σ -Algebra auf N, die von den Einpunktmengen erzeugt wird, ist die
Potezmenge, d.h.
(
)
σ {k } : k ∈ N = P (N).
(c) Die σ -Algebra auf R, die von den Einpunktmengen erzeugt wird, ist die
σ -Algebra aus Beispiel 1.12(f), mit Ω = R dort. Überlegen Sie sich warum
das stimmt!
12
1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren
Nun können wir eine wichtige Klasse von σ -Algebren auf topologischen
(und metrischen) Räumen einführen. Wir erinnern zunächst an die Definition
eines topologischen Raumes.
Definition 1.18 (Topologischer Raum). Es sei Ω eine nichtleere Menge. Eine
Menge τ von Teilmengen von Ω ist eine Topologie auf Ω wenn die folgenden
Bedingungen erfüllt sind.
(i) ∅, Ω ∈ τ ,
(ii) sind A, B ∈ τ , dann gilt A ∩ B ∈ τ ,
(iii) ist (Ai )i∈I ⊂ τ eine beliebige Familie, dann ist
S
i∈I
Ai ∈ τ .
Die Elemente von τ heißen offene Mengen und das Paar (Ω, τ ) heißt topologischer Raum.
Definition 1.19 (Borel-σ -Algebra). Es sei (Ω, τ ) ein nichtleerer topologischer
Raum. Die Borel-σ -Algebra B(Ω) über Ω ist die von der Topologie τ erzeugte
σ -Algebra, d.h.
B(Ω) B σ (τ ).
Ist (Ω, r ) ein metrischer Raum, dann ist
B(Ω) B σ (τr ).
Hier ist τr die von der Metrik r erzeugte Topologie auf Ω, d.h.
[
τr =
Bs (ω) : F ⊂ Ω × (0, ∞) ,
(ω,s)∈F
wobei Bs (ω) = {ω̃ ∈ Ω : r (ω, ω̃) < s} der offene s-Ball um ω ist.
Das für uns wichtigste Beispiel ist die Borel-σ -Algebra über Rd (und über
Teilmengen von Rd ).
Definition 1.20 (Borel-σ -Algebra über Rd ). Die Borel-σ -Algebra über Rd , ist
die σ -Algebra, die von der Menge aller offenen Teilmengen von Rd (also von
der euklidischen Topologie) erzeugt wird. Sie wird mit B(Rd ) bezeichnet. Im
Fall d = 1 schreiben wir B(R).
13
1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren
Die Borel-σ -Algebra B(Rd ) wird auch von vielen anderen Mengensystemen
erzeugt, die etwas besser handhabbar (was das bedeutet werden wir später
sehen) sind als die Menge aller offenen Teilmengen. Einige davon listen wir
in den folgenden Propositionen auf. Für mehr Beispiele von Erzeugern von
B(Rd ) verweisen wir auf Literatur; siehe z.B. Satz 1.23 in Klenke (2013). Es
gibt Mengen die nicht Borel messbar sind, d.h. sie sind in der Potenzmenge
von R aber nicht in der Borel-σ -Algebra enthalten (siehe z.B. Theorem 1.4.9 in
Cohn (2013) in welchem das Auswahlaxiom benutzt wird). Alle Mengen, mit
denen wir in der Vorlesung jemals zu tun haben werden, sind Borel messbar.
Proposition 1.21 (Alternative Erzeuger von B(Rd )). Die folgenden Mengensysteme erzeugen alle die Borel-σ -Algebra auf Rd :
(a) die Menge aller abgeschlossenen Teilmengen von Rd ;
(b) die Menge aller abgeschlossenen Halbräume von Rd der Form
für ein Index i und b ∈ R;
{(x 1 , . . . , xd ) : xi ≤ b},
(1.12)
(c) die Menge aller halboffenen Rechtecke der Form
{(x 1 , . . . , xd ) : ai < xi ≤ bi für i = 1, . . . , d}
(1.13)
wobei ai < bi , i = 1, . . . , d aus R sind.
Beweis. Seien E1 , E2 , E3 die Mengensysteme in (a), (b) und (c) und seien
B1 , B2 , B3 die zugehörigen erzeugten σ -Algebren, d.h. Bi = σ (Ei ).
Wir zeigen B(Rd ) ⊃ B1 ⊃ B2 ⊃ B3 ⊃ B(Rd ). Da die σ -Algebra B(Rd )
die Menge aller offenen Teilmengen von Rd enthält und abgeschlossen unter
Komplementbildung ist, enthält sie auch die Menge aller abgeschlossenen
Teilmengen von Rd , also E1 . Weil B1 = σ (E1 ) die kleinste σ -Algebra ist, die
E1 enthält, folgt B1 ⊂ B(Rd ).
Offenbar gilt E1 ⊃ E2 , woraus sofort B1 ⊃ B2 folgt.
Seien nun ai , bi ∈ R mit ai < bi . Wir müssen zeigen, dass die Rechtecke aus
(1.15) in B2 enthalten sind. Für jedes i = 1, . . . , d gilt
{(x 1 , . . . , xd ) : ai < xi ≤ bi } = {(x 1 , . . . , xd ) : xi ≤ bi } \ {(x 1 , . . . , xd ) : xi ≤ ai }.
14
1.4 Maße
Die rechte Seite (und damit auch die linke) ist in B2 enthalten. Mit
{(x 1 , . . . , xd ) : ai < xi ≤ bi für i = 1, . . . , d} =
d
\
{(x 1 , . . . , xd ) : ai < xi ≤ bi }
i=1
folgt nun B2 ⊃ B3 .
Bleibt noch B3 ⊃ B(Rd ) zu zeigen. Dazu bemerken wir, dass jede offene
Menge in Rd als abzählbare Vereinigung geeigneter ε-Bälle dargestellt werden
kann. Jeder offene ε-Ball kann wiederum als abzählbare Vereinigung geeigneter
halboffener Rechtecke dargestellt werden.
Proposition 1.22 (Weitere Erzeuger von B(Rd )). Die folgenden Mengensysteme erzeugen alle die Borel-σ -Algebra auf Rd :
(a) die Menge aller kompakten Teilmengen von Rd ;
(b) die Menge aller abgeschlossenen Halbräume von Rd der Form
{(x 1 , . . . , xd ) : xi ≤ b},
für ein Index i und b ∈ Q;
(1.14)
(c) die Menge aller halboffenen Rechtecke der Form
{(x 1 , . . . , xd ) : ai < xi ≤ bi für i = 1, . . . , d}
(1.15)
wobei ai < bi , i = 1, . . . , d aus Q sind.
Beweis. Übung!
1.4 Maße
Definition 1.23 (Maße und Maßräume). Es sei (Ω, A) ein messbarer Raum.
Eine Mengenfunktion
µ : A → [0, +∞]
heißt Maß auf (Ω, A) wenn die folgenden zwei Bedingungen gelten
(i) µ (∅) = 0;
15
(1.16)
1.4 Maße
(ii) µ ist σ -additiv, d.h. für jede Folge A1 , A2 , . . . paarweise disjunkter Mengen
aus A gilt
µ
∞
[
∞
X
An =
µ (An ).
n=1
n=1
(1.17)
Das Maß µ heißt Wahrscheinlichkeitsmaß, wenn µ (Ω) = 1 ist. Es heißt endlich,
wenn µ (Ω) < ∞ ist und σ -endlich, wenn es eine Folge Ω1 , Ω2 , . . . in A gibt
mit ∪n Ωn = Ω und µ (Ωn ) < ∞ für alle n.
Das Tripple (Ω, A, µ) heißt dann Maßraum und falls µ ein Wahrscheinlichkeitsmaß ist, wird es Wahrscheinlichkeitsraum genannt.
Man sagt, dass eine Mengenfunktion µ endlich additiv ist, wenn für je
endlich viele paarweise disjunkte Mengen A1 , . . . , An aus A gilt
µ
n
[
Ai =
i=1
n
X
µ (Ai ).
(1.18)
i=1
Gilt zusätzlich noch µ (∅) = 0, dann spricht man von einem endlich-additiven
Maß. Ein endlich-additives Maß werden wir auch stets so benennen. Ein Maß
ist für uns immer σ -additiv.
Natürlich folgt aus der σ -Additivität die endliche Additivität. Die Umkehrung ist im Allgemeinen falsch (vgl. (f) im folgenden Beispiel).
Beispiel 1.24. (a) Es sei Ω eine beliebige nichtleere Menge und A eine σ Algebra auf Ω. Wir definieren die Mengenfunktion µ : A → [0, +∞]
durch

n
µ (A) = 
 +∞

: falls A endlich und |A| = n ist,
: falls A unendlich ist.
Dann ist µ ein Maß und wird Zählmaß genannt. Ist Ω endlich und µ̃ durch
µ̃ (A) =
µ (A)
|A|
=
µ (Ω) |Ω|
definiert. Dann ist µ̃ ein Wahrscheinlichkeitsmaß, nämlich die uniforme
Verteilung (auch Gleichverteilung) auf Ω.
16
1.4 Maße
(b) Es sei Ω eine beliebige nichtleere Menge und A eine σ -Algebra auf Ω. Für
ein ω ∈ Ω definieren wir die Mengenfunktion δω : A → [0, +∞] durch

1
δω (A) = 
0

: falls ω ∈ A,
: falls ω < A.
Dann ist µ ein (Wahrscheinlichkeits)Maß und wird Dirac-Maß oder Einheitsmasse im Punkt ω genannt.
(c) Für Ω = N sei
A = {A ⊂ Ω : A endlich oder Ac endlich }.
Nach Beispiel 1.12(d) ist A eine Algebra, aber keine σ -Algebra. Wir definieren µ : A → [0, +∞] durch

1
µ (A) = 
0

: wenn A unendlich,
: wenn A endlich.
Die Mengenfunktion µ ist endlich additiv (auf A), aber nicht σ -additiv.
Außerdem kann µ auch nicht auf die von A erzeugte σ -Algebra σ (A)
fortgesetzt werden. (Damit meinen wir, dass man kein Maß µ̃ auf σ (A)
definieren kann, für das µ̃ |A = µ gilt.) Später werden wir uns mit Bedingungen beschäftigen, unter welchen das geht.
(d) Es sei Ω eine beliebige nichtleere Menge und A eine beliebige σ -Algebra
auf Ω. Sei µ : A → [0, +∞] definiert durch

 +∞
µ (A) = 
0

: wenn A , ∅,
: wenn A = ∅.
Dann ist µ ein Maß.
In den folgenden Propositionen diskutieren wir einige einfache aber wichtige Eigenschaften von Maßen.
Proposition 1.25 (Monotonie von Maßen). Es sei (Ω, A, µ) ein Maßraum
und seien A, B ∈ A mit B ⊂ A. Dann gilt µ (B) ≤ µ (A). Wenn außerdem noch
µ (B) < ∞ gilt, dann gilt µ (A \ B) = µ (A) − µ (B).
17
1.4 Maße
Beweis. Die Mengen B und A \ B sind disjunkt und es ist A = B ∪ (A \ B). Mit
Additivität von µ erhalten wir
µ (A) = µ (B) + µ (A \ B).
Da beide Summanden auf der rechten Seite nicht-negativ sind folgt hieraus die
behauptete Monotonie µ (B) ≤ µ (A). Im Fall µ (B) < ∞ folgt auch die zweite
Behauptung sofort.
Proposition 1.26 (Abzählbare Subadditivität von Maßen). Es sei (Ω, A, µ)
ein Maßraum und sei A1 , A2 , . . . eine beliebige Folge (endlich oder unendlich)
von Mengen aus A. Dann gilt
X
µ ∪n An ≤
µ (An ).
n
Beweis. Nach Proposition 1.1 können wir ∪n A als disjunkte Vereinigung von
Mengen B 1 , B 2 , . . . mit Bi ⊂ Ai schreiben. Damit gilt
X
X
µ ∪n An = µ ∪n Bn =
µ (Bn ) ≤
µ (An ).
n
n
Dabei haben wir bei dem zweiten Gleichheitszeichen die σ -Additivität von
µ verwendet und für die Ungleichung die Monotonie von µ (siehe Proposition 1.25).
Proposition 1.27 (Auf- und absteigende Stetigkeit von Maßen). Es sei (Ω, A, µ)
ein Maßraum. Das Maß µ ist aufsteigend und absteigend stetig, d.h. es gelten
die folgenden zwei Aussagen.
k→∞
(a) Für jede wachsende Folge A1 , A2 , . . . in A gilt µ (Ak ) −−−−→ µ (∪n An ).
(b) Für jede fallende Folge A1 , A2 , . . . in A mit µ (An0 ) < +∞ für ein n 0 ∈ N
k→∞
gilt µ (Ak ) −−−−→ µ (∩n An ).
Beweis. Sei A1 , A2 , . . . eine wachsende Folge von Mengen aus A. Wir setzen
B 1 = A1 und Bi = Ai \ Ai−1 . Die Mengen B 1 , B 2 , . . . sind disjunkt und in A
∞ A = ∪∞ B . Es
enthalten. Außerdem gilt Ak = ∪ki=1 Bi und insbesondere ∪i=1
i
i=1 i
folgt
µ
∞
∪i=1
Ai
=
∞
X
i=1
µ (Bi ) = lim
k→∞
k
X
i=1
µ (Bi ) = lim µ ∪ki=1 Bi = lim µ Ak .
k→∞
18
k→∞
1.4 Maße
Damit ist die Aussage (a) gezeigt.
Sei nun A1 , A2 , . . . eine fallende Folge von Mengen aus A mit µ (An0 ) < ∞
für ein n 0 ∈ N. Wir können ohne Einschränkung n 0 = 1 annehmen. Wir
setzen Ck = A1 \ Ak . Dann ist C 1 , C 2 , . . . eine wachsende Folge von Mengen
aus A und es gilt
∞
∞
∪k=1
Ck = A1 \ (∩k=1
Ak ).
Mit Teil (a) folgt
∞
∞
µ A1 \ (∩k=1
Ak ) = µ (∪k=1
Ck ) = lim µ (Ck ) = lim µ (A1 \ Ak ).
k→∞
k→∞
Mit der Voraussetzung µ (A1 ) < +∞ folgt nun nach Proposition 1.25 die
Aussage (b). Die linke Seite im letzten Display ist nämlich gleich
∞
µ (A1 ) − µ (∩k=1
Ak )
und die rechte ist gleich
µ (A1 ) − lim µ (Ak ).
k→∞
∞ A ).
Es folgt limk→∞ µ (Ak ) = µ (∩k=1
k
Die folgende Proposition ist teilweise eine Umkehrung der vorherigen. Es
liefert hinreichende Bedingungen unter welchen ein endlich additives Maß
ein Maß ist (beachten Sie eine gewisse Ähnlichkeit zu Proposition 1.11).
Proposition 1.28 (Hinreichende Bedingungen für σ -Additivität). Es sei (Ω, A)
ein messbarer Raum und sei µ ein endlich additives Maß darauf. Dann ist µ ein
Maß, wenn eine der folgenden Bedingungen gilt.
k→∞
(a) Für jede wachsende Folge A1 , A2 , . . . in A gilt µ (Ak ) −−−−→ µ (∪n An ).
k→∞
(b) Für jede fallende Folge A1 , A2 , . . . in A mit ∩n An = ∅ gilt µ (Ak ) −−−−→ 0.
Beweis. Sei B 1 , B 2 , . . . eine Folge von paarweise disjunkten Mengen aus A.
Zu zeigen ist, dass beide Bedingungen die σ -Additivität implizieren, also
∞ B ) = P∞ µ (B ).
µ (∪k=1
k
k
k=1
19
1.5 Dynkin-Systeme
Nehmen wir zunächst an, dass (a) gilt. Für jedes n setzen wir An = ∪nk=1 Bk .
P
∞ A =
Wegen endlicher Additivität haben wir µ (An ) = nk=1 µ (Bk ). Da ∪n=1
n
∞ B ist, folgt mit (a) bei dem zweiten Gleichheitszeichen
∪k=1
k
∞
µ (∪k=1
Bk )
=
∞
µ (∪n=1
An )
= lim µ (An ) = lim
n→∞
n→∞
n
X
µ (Bk ) =
k=1
∞
X
µ (Bk ).
k=1
∞ B . Dann
Nehmen wir nun an, dass (b) gilt. Für jedes n setzen wir An = ∪k=n
k
gilt An ↓ ∅, denn jedes ω ∈ Ω ist entweder in keinem der Bk enthalten oder in
∞ B für n ≥ N .
einem einzigen. Im letzteren Fall gibt es ein N mit ω < ∪k=n
k
Endliche Additivität impliziert
∞
µ (∪k=1
Bk ) = µ (∪nk=1 Bk ) ∪ An+1
n
X
= µ (∪nk=1 Bk ) + µ (An+1 ) =
µ (Bk ) + µ (An+1 ).
k=1
∞ B ) =
Nach Voraussetzung gilt µ (An ) → 0 für n → ∞ und damit folgt µ (∪k=1
k
P∞
µ
(B
).
k
k=1
1.5 Dynkin-Systeme
In den vorherigen Abschnitten haben wir uns mit σ -Algebren und Maßen
auf σ -Algebren beschäftigt. Unser Ziel in den nächsten Abschnitten ist die
Konstruktion und (eindeutige) Fortsetzung von Maßen. Unter Anderem werden wir den Satz von Carathéodory beweisen. Dieser besagt, dass σ -endliche
Maße auf Algebren eindeutig auf die zugehörige σ -Algebra fortgesetzt werden
können. Zuerst beschäftigen wir uns in diesem und im nächsten Abschnitt mit
einigen technischen Hilfsmitteln (weitere Mengensysteme und äußere Maße).
Definition 1.29 (Dynkin-System, λ-System). Es sei Ω eine nichtleere Menge.
Eine Menge D von Teilmengen von Ω heißt Dynkin-System (oder λ-System),
wenn folgende Bedingungen erfüllt sind
(i) Ω ∈ D,
(ii) A ∈ D ⇒ Ac ∈ D,
(iii) sind A1 , A2 , . . . ∈ D paarweise disjunkt, dann ist
20
k=1 Ak
S∞
∈ D.
1.5 Dynkin-Systeme
Definition 1.30 (∩-stabile Mengensysteme, π -Systeme). Ein Mengensystem
E auf einer nichtleeren Menge Ω heißt schnittstabil (oder π -System, wir schreiben oft ∩-stabil) , wenn es abgeschlossen bezüglich endlichen Durchschnitten
ist, d.h.
A, B ∈ E ⇒ A ∩ B ∈ E.
(1.19)
Bemerkung 1.31 (Beziehung zwischen Dynkin-Systemen und σ -Algebren).
Eine σ -Algebra ist natürlich stets ein Dynkin-System. Die Umkehrung ist
falsch. Auf Ω = {1, 2, 3, 4} ist z.B.
(
)
D = ∅, Ω, {1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4}
ein Dynkin-System, aber keine σ -Algebra. Wie die nächste Proposition zeigt,
“fehlt” einem Dynkin-System nicht viel zu einer σ -Algebra.
Proposition 1.32. Ein Dynkin-System ist genau dann eine σ -Algebra, wenn es
schnittstabil ist.
Beweis. Eine Richtung ist natürlich klar. Für die andere ist nur Abgeschlossenheit bezüglich abzählbaren Vereinigungen zu zeigen. Sei also D ein schnittstabiles Dynkin-System. Enthält D die Mengen A1 , A2 , . . . ∈ D, dann enthält es
auch die disjunkten Mengen B 1 , B 2 , . . ., definiert durch (vgl. Proposition 1.1)
Bn = An ∩ Ac1 ∩ . . . ∩ Acn−1 .
Nach Definition 1.29(iii) folgt
∞
∞
∪n=1
An = ∪n=1
Bn ∈ D.
Lemma 1.33 (Äquivalente Definition eines Dynkin-Systems). Es sei D ein
System von Teilmengen einer nichtleeren Menge Ω. Zeigen Sie: D ist genau dann
ein Dynkin-System, wenn gilt
(i) Ω ∈ D;
(ii) A, B ∈ D, B ⊂ A ⇒ A \ B ∈ D;
(iii) Für jede aufsteigende Folge (An ) von Elementen aus D gilt
21
n An
S
∈ D.
1.5 Dynkin-Systeme
Beweis. Übung!
Beispiel 1.34.
1. Es seien (Ω, A) ein messbarer Raum und µ und ν endliche Maße auf A mit µ (Ω) = ν (Ω). Dann ist
D = {A ∈ A : µ (A) = ν (A)}
ein Dynkin-System. Dabei gilt Ω ∈ D nach Voraussetzung. Ist A ∈ D
so gilt µ (A) = ν (A) und somit (vgl. Proposition 1.25)
µ (Ac ) = µ (Ω \ A) = µ (Ω) − µ (A) = ν (Ω) − ν (A) = ν (Ω \ A) = ν (Ac ).
Also ist Ac ∈ D. Sei nun A1 , A2 , . . . eine Folge von paarweise disjunkten
Mengen aus D. Dann folgt mit σ -Additivität von µ und ν
X
X
µ (∪n An ) =
µ (An ) =
ν (An ) = ν (∪n An ).
n
n
Dies zeigt ∪n An ∈ D.
2. Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum und sei A ∈ A beliebig.
Dann ist (Übung!)
D = {B ∈ A : P(A ∩ B) = P(A)P(B)}
ein Dynkin-System. (D ist die Menge aller “von A unabhängigen Ereignisse”.)
Bemerkung 1.35 (Schnitte und Erzeuger von Dynkin-Systemen). Ähnlich zu
Beweis von Satz 1.13 lässt sich zeigen, dass Durchschnitte von beliebigen
Familien von Dynkin-Systemen (über derselben Menge Ω) wieder DynkinSysteme sind. Für ein beliebiges Mengensystem E von Teilmengen von Ω
kann man wie in Korollar 1.15 zeigen, dass
\
δ (E) B
D
(1.20)
D ⊃E
D Dynkin-System
das kleinste E enthaltende Dynkin-System ist. In Analogie mit Definition 1.16
sagen wir, dass δ (E) das von E erzeugte Dynkin-System ist und nennen E
Erzeuger von δ (E).
22
1.5 Dynkin-Systeme
Die große Bedeutung von Dynkin-Systemen ist vor allem durch das folgende
Resultat begründet. Ein Anwendungsbeispiel dieses Resultats sehen wir gleich
im Anschluss an den Beweis.
Satz 1.36. Ist E ein ∩-stabiles System auf einer nichtleeren Menge Ω, so gilt
σ (E) = δ (E).
(1.21)
Beweis. Da σ (E) ein E enthaltendes Dynkin-System ist und δ (E) das kleinste
solche System ist, folgt δ (E) ⊂ σ (E). Zu zeigen ist also δ (E) ⊃ σ (E). Dafür
genügt es zu zeigen, dass δ (E) eine σ -Algebra ist. Dafür wiederum reicht es
nach Proposition 1.32 zu zeigen, dass δ (E) ein ∩-stabiles System ist.
Wir definieren
D1 = {A ∈ δ (E) : A ∩ E ∈ δ (E) für alle E ∈ E}
und zeigen, dass D1 ein Dynkin-System ist. Dafür verwenden wir die äquivalente Charakterisierung aus Lemma 1.33.
Aus E ⊂ δ (E) folgt Ω ∈ D1 . Sind A, B ∈ D1 mit B ⊂ A und E ∈ E, so gilt
(A \ B) ∩ E = (A ∩ E) \ (B ∩ E) ∈ δ (E).
Damit ist A \ B ∈ D1 . Sei A1 , A2 , . . . eine aufsteigende Folge von Elementen
aus D1 . Für E ∈ E ist dann A1 ∩ E, A2 ∩ E, . . . eine aufsteigende Folge von
Elementen aus δ (E). Es folgt
(∪n An ) ∩ E = ∪n (An ∩ E) ∈ δ (E),
was ∪n An ∈ D1 zeigt. Also ist D1 ein Dynkin-System.
Da E ein ∩-stabiles System ist, gilt E ⊂ D1 und weil δ (E) das kleinste
Dynkin-System mit dieser Eigenschaft ist gilt auch δ (E) ⊂ D1 . Insbesondere
sind Schnitte von Mengen aus E und δ (E) in δ (E) enthalten.
Wir definieren
D2 = {B ∈ δ (E) : B ∩ A ∈ δ (E) für alle A ∈ δ (E)}.
Nach dem ersten Teil des Beweises gilt E ⊂ D2 . Nun kann man ähnlich wie
im Fall von D1 zeigen, dass D2 ein Dynkin-System ist. Damit folgt δ (E) ⊂ D2 .
Insbesondere sind Schnitte von je zwei (und damit endlich vielen) Mengen aus
δ (E) in δ (E) enthalten. Das zeigt, dass δ (E) ein ∩-stabiles Dynkin-System ist.
Nach Proposition 1.32 ist δ (E) eine σ -Algebra. Also gilt (1.21).
23
1.5 Dynkin-Systeme
Im folgenden Satz wenden wir Satz 1.36 an, um zu zeigen, dass σ -endliche
Maße auf σ -Algebren eindeutig durch ihre Werte auf ∩-stabilen Erzeugern der
betreffenden σ -Algebren bestimmt sind. Beachten Sie, dass die Voraussetzung
der σ -Endlichkeit der Maße auf den Erzeugern auch eine Voraussetzung an
die Erzeuger ist.
Satz 1.37 (Eindeutigkeit von Maßen). Es sei Ω nichtleer und sei E eine ∩-stabile
Familie von Teilmengen von Ω. Ferner seien µ 1 und µ 2 zwei Maße auf σ (E) die
σ -endlich auf E sind. Stimmen µ 1 und µ 2 auf E überein, so stimmen sie auch
auf σ (E) überein.
Beweis. Für B ∈ E mit µ 1 (B) = µ 2 (B) < ∞ sei
DB = {A ∈ σ (E) : µ 1 (A ∩ B) = µ 2 (A ∩ B)}.
Dann ist DB ein Dynkin-System (Beweis ähnlich zum Beweis in Beispiel 1.34.1.),
das E enthält. Nach Satz 1.36 folgt auch σ (E) = δ (E) ⊂ DB , d.h. es gilt
µ 1 (A ∩ B) = µ 2 (A ∩ B) für alle A ∈ σ (E).
Wegen σ -Endlichkeit auf E gibt es Mengen Ω1 , Ω2 , . . . in E mit Ω = ∪n Ωn
und µ 1 (Ωn ) = µ 2 (Ωn ) < ∞ für alle n. Mit Einschluss-Ausschluss-Formel (siehe
Übung 1.15) gilt
X
X
µa ∪ni=1 (Ωi ∩ A) =
µa (Ωi ∩ A) −
µa (Ωi ∩ Ωj ∩ A) + · · · (1.22)
1≤i≤n
1≤i<j≤n
für a = 1, 2, A ∈ σ (E) und alle n. Da E ein ∩-stabiles System ist, das Ωi enthält,
enthält es die Schnitte Ωi ∩ Ωj und alle möglichen endlichen Schnitte der Ωi
und die µa Maße dieser Schnitte sind endlich. Also stimmen die Terme auf
der rechten Seite von (1.22) für a = 1 und a = 2 überein. Damit stimmen
für jedes n auch die linken Seiten für a = 1 und a = 2 überein. Mit n → ∞
und aufsteigender Stetigkeit von Maßen folgt µ 1 (A) = µ 2 (A), denn es ist
∪ni=1 (Ωi ∩ A) ↑ A für n → ∞.
Korollar 1.38. Es sei Ω nichtleer und sei E eine ∩-stabile Familie von Teilmengen von Ω, sodass Ω eine höchstens abzählbare Vereinigung von Mengen aus E
ist. Ferner seien µ 1 und µ 2 zwei endliche Maße auf σ (E). Stimmen µ 1 und µ 2 auf
E überein, so stimmen sie auch auf σ (E) überein.
Beweis. Nach Voraussetzung ist Ω = ∪n Ωn für Mengen Ωn ∈ E. Aus µa (Ωn ) ≤
µa (Ω) für a = 1, 2 und alle n folgt die σ -Endlichkeit der beiden Maße auf E.
Also kann Satz 1.37 angewendet werden.
24
1.6 Äußere Maße
Beispiel 1.39. Es sei Ω , ∅ beliebig. Das System E = {∅} ist ∩-stabil und es
gilt σ (E) = {∅, Ω}. Alle endlichen Maße stimmen auf E überein, müssen aber
nicht auf σ (E) übereinstimmen. Weil Ω keine (abzählbare) Vereinigung von
Mengen aus E ist, ist Korollar 1.38 nicht anwendbar. Aus demselben Grund
kann kein Maß auf σ (E) auf E σ -endlich sein. Beachten Sie, dass σ -Endlichkeit
eine gemeinsame Eigenschaft des Maßes und des Mengensystems ist.
1.6 Äußere Maße
In diesem Abschnitt konstruieren wir Fortsetzungen von Maßen auf Algebren
bzw. Semiringen zu Maßen auf den von ihnen erzeugten σ -Algebren.
Definition 1.40. Es sei Ω , ∅. Ein äußeres Maß µ ∗ ist eine nichtnegative
Mengenfunktion auf P (Ω) mit den folgenden Eigenschaften:
(i) µ ∗ (∅) = 0;
(ii) µ ∗ ist monoton: A ⊂ B ⇒ µ ∗ (A) ≤ µ ∗ (B);
P
(iii) µ ∗ ist σ -subadditiv: µ ∗ (∪n An ) ≤ n µ ∗ (An ).
Beispiel 1.41. Es sei E eine Familie von Teilmengen von Ω mit ∅ ∈ E. Ferner
sei ρ : E → [0, +∞] eine Mengenfunktion mit ρ (∅) = 0. Für A ⊂ Ω definieren
wir
(X
)
ρ ∗ (A) B inf
ρ (An ) : A ⊂ ∪n An , An ∈ E .
(1.23)
n
Das Infimum wird also über alle abzählbaren Überdeckungen von A mit Mengen aus E genommen. Entsprechend der üblichen Konvention, dass Infimum
von leeren Mengen unendlich ist, ist ρ ∗ (A) = +∞ wenn es keine solche Überdeckung gibt.
Es ist klar, dass ρ ∗ nichtnegativ und monoton ist, und dass ρ ∗ (∅) = 0 gilt. Sei
A1 , A2 , . . . eine beliebige Folge von Teilmengen von Ω. Wenn ρ ∗ (An ) = +∞
P
für ein n gilt, dann ist ρ ∗ (∪n An ) ≤ n ρ ∗ (An ). Ist ρ ∗ (An ) endlich für alle
n, dann kann jedes An mit Mengen Bnk aus E überdeckt werden, so dass
P
∗
n
k ρ (Bnk ) < ρ (An ) + ε/2 . Dann ist ∪n An ⊂ ∪n ∪k Bnk und es gilt
XX
X
ρ ∗ (∪n An ) ≤
ρ (Bnk ) <
ρ ∗ (An ) + ε.
n
n
k
Also ist ρ ∗ ein äußeres Maß.
25
1.6 Äußere Maße
Definition 1.42. Es sei µ ∗ ein äußeres Maß auf Ω. Eine Menge E ⊂ Ω heißt
µ ∗ -meßbar, wenn für alle F ⊂ Ω
µ ∗ (F ) = µ ∗ (F ∩ E) + µ ∗ (F ∩ Ec ).
(1.24)
Mit M (µ ∗ ) bezeichnen wir die Menge aller µ ∗ messbaren Teilmengen von Ω.
Bemerkung 1.43. Wegen der Subadditivität von µ ∗ ist (1.24) äquivalent zu
µ ∗ (F ) ≥ µ ∗ (F ∩ E) + µ ∗ (F ∩ Ec ).
(1.25)
Proposition 1.44 (µ ∗ -Nullmengen sind µ ∗ -messbar). Es sei µ ∗ ein äußeres
Maß auf einer Menge Ω. Jede Menge B ⊂ Ω mit µ ∗ (B) = 0 oder µ ∗ (Bc ) = 0 ist
µ ∗ -messbar.
Beweis. Übung!
Lemma 1.45. Das Mengensystem M (µ ∗ ) ist eine Algebra auf Ω.
Beweis. Dass Ω ∈ M (µ ∗ ) ist, ist klar, denn für F ⊂ Ω ist
µ ∗ (F ) = µ ∗ (F ) + µ ∗ (∅) = µ ∗ (F ∩ Ω) + µ ∗ (F ∩ Ωc ).
Abgeschlossenheit bezüglich Komplementbildung ist auch klar, weil die Messbarkeitsbedingung (1.24) symmetrisch in E und Ec ist. Seien A, B ∈ M (µ ∗ ) und
F ⊂ Ω. Dann gilt (mit Subadditivität von µ ∗ bei dem Übergang von zweiter zu
dritter Zeile)
µ ∗ (F ) = µ ∗ (F ∩ A) + µ ∗ (F ∩ Ac )
= µ ∗ (F ∩ A ∩ B) + µ ∗ (F ∩ A ∩ Bc ) + µ ∗ (F ∩ Ac ∩ B) + µ ∗ (F ∩ Ac ∩ Bc )
≥ µ ∗ (F ∩ A ∩ B) + µ ∗ (F ∩ A ∩ Bc ) ∪ (F ∩ Ac ∩ B) ∪ (F ∩ Ac ∩ Bc )
= µ ∗ (F ∩ A ∩ B) + µ ∗ (F ∩ (A ∩ B)c ).
Das zeigt A ∩ B ∈ M (µ ∗ ). Damit ist M (µ ∗ ) eine Algebra.
Lemma 1.46. Ist A1 , A2 , . . . eine endliche oder abzählbar unendliche Folge von
paarweise disjunkten Mengen aus M (µ ∗ ), dann gilt für jedes F ⊂ Ω
X
µ ∗ F ∩ (∪k Ak ) =
µ ∗ (F ∩ Ak ).
(1.26)
k
Insbesondere ist µ ∗ σ -additiv auf M (µ ∗ ).
26
1.6 Äußere Maße
Beweis. Wir betrachten zunächst den endlichen Fall von n paarweise disjunkten Mengen. Für n = 1 ist nichts zu zeigen. Für n = 2 müssen wir zwei Fälle
unterscheiden. Ist A1 ∪ A2 = Ω, dann ist (1.26) gleichbedeutend mit der Aussage (1.24), wobei A1 = E und A2 = Ec (oder umgekehrt). Ist A1 ∪ A2 eine echte
Teilmenge von Ω, dann ist
µ ∗ (F ∩ (A1 ∪ A2 )) = µ ∗ (F ∩ (A1 ∪ A2 ) ∩ A1 ) + µ ∗ (F ∩ (A1 ∪ A2 ) ∩ Ac1 )
= µ ∗ (F ∩ A1 ) + µ ∗ (F ∩ A2 ),
wobei wir für die zweite Gleichung die Disjunktheit von A1 und A2 ausgenutzt
haben.
Nehmen wir nun an, dass (1.26) für n − 1 gilt. Wie im Fall n = 2 erhalten
wir mit der Induktionsvoraussetzung
µ F∩
∗
(∪nk=1Ak )
=µ F∩
∗
(∪n−1
k=1Ak )
+ µ (F ∩ An ) =
∗
n
X
µ ∗ (F ∩ Ak ).
k=1
Damit ist (1.26) für endliche Folgen gezeigt. Der unendliche Fall folgt mit
Monotonie. Es gilt nämlich
µ F∩
∗
∞
(∪k=1
Ak )
≥µ F∩
∗
(∪nk=1Ak )
=
n
X
µ ∗ (F ∩ Ak ).
k=1
Mit n → ∞ folgt, dass die linke Seite von (1.26) größer oder gleich der rechten
ist. Die umgekehrte Ungleichung folgt mit σ -Subadditivität von µ ∗ .
Die σ -Additivität von µ ∗ folgt direkt aus (1.26) mit F = Ω.
Satz 1.47. Ist µ ∗ ein äußeres Maß, dann ist M (µ ∗ ) eine σ -Algebra und die
Einschränkung von µ ∗ auf M (µ ∗ ) ist ein Maß.
Beweis. Zu zeigen ist nur, dass M (µ ∗ ) eine σ -Algebra ist. Dass, µ ∗ ein Maß
darauf ist, haben wir bereits in Lemma 1.46 gesehen.
Seien A1 , A2 , . . . disjunkte Mengen aus M (µ ∗ ) mit A = ∪k Ak . Nach Lemma 1.45 gilt Bn = ∪nk=1Ak ∈ M (µ ∗ ) und somit gilt für F ⊂ Ω
µ ∗ (F ) = µ ∗ (F ∩ Bn ) + µ ∗ (F ∩ Bnc )
n
X
≥
µ ∗ (F ∩ Ak ) + µ ∗ (F ∩ Ac ).
k=1
27
1.6 Äußere Maße
Hier haben wir (1.26) bei dem ersten Term und Monotonie von µ ∗ bei dem
zweiten ausgenutzt, denn es ist Bnc ⊃ Ac . Mit n → ∞ und (1.26) folgt
µ (F ) ≥
∗
∞
X
µ ∗ (F ∩ Ak ) + µ ∗ (F ∩ Ac ) = µ ∗ (F ∩ A) + µ ∗ (F ∩ Ac ).
k=1
Damit ist A ∈ M (µ ∗ ). Also ist M (µ ∗ ) abgeschlossen bezüglich Bildung abzählbarer disjunkter Vereinigungen, d.h. es ist ein Dynkin-System und eine
Algebra. Nach Proposition 1.32 ist M (µ ∗ ) eine σ -Algebra.
Definition 1.48 (Semiring). Ein Mengensystem A von Teilmengen von Ω
heißt Semiring (oder Halbring), falls die folgenden Eigenschaften erfüllt sind.
(i) ∅ ∈ A;
(ii) A, B ∈ A ⇒ A ∩ B ∈ A;
(iii) sind A, B ∈ A und A ⊂ B, dann gibt es paarweise disjunkte Mengen
C 1 , . . . , Cn aus A, sodass B \ A = ∪nk=1Ck .
Satz 1.49. Es sei A ein Semiring auf einer nichtleeren Menge Ω und sei µ eine
nichtnegative Mengenfunktion auf A mit µ (∅) = 0. Ferner sei µ endlich additiv
und σ -subadditiv. Dann gibt es eine Fortsetzung von µ zu einem Maß auf die
σ -Algebra σ (A).
Die Beweisidee dieses Satzes ist zu zeigen, dass für das zu µ gehörige (vgl.
Beispiel 1.41) äußere Maß µ ∗ die folgende Aussage gilt
A ⊂ M (µ ∗ ).
Dann ist notwendigerweise auch σ (A) ⊂ M (µ ∗ ), weil M (µ ∗ ) eine σ -Algebra
ist. Im nächsten Schritt zeigen wir noch µ (A) = µ ∗ (A) für A ∈ A. Dann ist µ ∗
eine Fortsetzung von µ auf M (µ ∗ ) und die Einschränkung von µ ∗ auf σ (A)
liefert eine Fortsetzung von µ auf σ (A).
Beweis. Es seien A, B ∈ A mit A ⊂ B und seien C 1 , . . . , Cn disjunkte Mengen
aus A mit B \ A = ∪nk=1Ck . Mit endlicher Additivität folgt
µ (B) = µ (A) +
n
X
k=1
28
µ (Ck ).
1.6 Äußere Maße
Also ist µ monoton.
Wie in (1.23) definieren wir das zu µ gehörige äußere Maß µ ∗ durch
(X
)
µ ∗ (A) B inf
µ (An ) : A ⊂ ∪n An , An ∈ A .
(1.27)
n
Nun zeigen wir A ⊂ M (µ ∗ ). Sei also A ∈ A. Ist F ⊂ Ω mit µ ∗ (F ) = ∞, dann
gilt (1.25) und damit (1.24) trivialerweise (mit E = A dort). Wenn µ ∗ (F ) < ∞
ist, dann kann man zu jedem ε > 0 Mengen An aus A finden mit F ⊂ ∪n An
P
und n µ (An ) < µ ∗ (F ) +ε. Da A ein Semiring ist, sind die Mengen Bn = A∩An
in A enthalten und es gilt
n
Ac ∩ An = An \ Bn = ∪m
C
k=1 nk
für geeignete disjunkte Mengen Cnk ∈ A. Es folgt
n
An = Bn ∪ (∪m
C ),
k=1 nk
wobei die Vereinigung disjunkt ist. Ferner gilt
A ∩ F ⊂ A ∩ (∪n An ) = ∪n Bn
und
n
Ac ∩ F ⊂ Ac ∩ (∪n An ) = ∪n ∪m
C .
k=1 nk
Mit Definition von µ ∗ und endlicher Additivität von µ erhalten wir
X
X
n
µ ∗ (A ∩ F ) + µ ∗ (Ac ∩ F ) ≤
µ (Bn ) +
µ (∪m
C )
k=1 nk
n
=
X
n
µ (Bn ) +
n
=
X
mn
XX
µ (Cnk )
n k=1
∗
µ (An ) < µ (F ) + ε.
n
Mit ε → 0 folgt (1.25), was A ∈ M (µ ∗ ) und A ⊂ M (µ ∗ ) zeigt.
Im nächsten Schritt zeigen wir, dass µ ∗ eine Fortsetzung von µ ist, d.h. für
alle A ∈ A gilt µ ∗ (A) = µ (A). Wenn A ⊂ ∪n An für Mengen A und An aus A,
dann gilt erhalten wir mit σ -Subadditivität und Monotonie von µ
X
X
µ (A) ≤
µ (A ∪ An ) ≤
µ (An ).
n
n
29
1.6 Äußere Maße
Damit ist µ (A) ≤ µ ∗ (A) für alle A ∈ A. Die Umgekehrte Ungleichung µ (A) ≥
µ ∗ (A) folgt sofort aus (1.27), weil A ∈ A seine eigene Überdeckung ist. Also
gilt µ = µ ∗ auf A.
Da A ⊂ M (µ ∗ ) und M (µ ∗ ) eine σ -Algebra ist (siehe Satz 1.47), folgt
A ⊂ σ (A) ⊂ M (µ ∗ ) ⊂ P (Ω).
Die Einschränkung von µ ∗ auf M (µ ∗ ) ist ein Maß (wieder Satz 1.47). Also ist
auch die Einschränkung von µ ∗ auf σ (A) ein Maß, welcher insbesondere eine
Fortsetzung von µ ist.
Als Korollar aus den Sätzen 1.49 und 1.37 erhalten wir das folgende wichtige
Resultat.
Satz 1.50 (Satz von Carathéodory). Ein σ -endliches Maß auf einer Algebra A0
besitzt eine eindeutige Fortsetzung zu einem Maß auf A = σ (A0 ).
Beispiel 1.51 (Lebesgue-Maß auf R). Zusammen mit der leeren Menge bildet
die Menge der Intervalle der Form (a, b], a, b ∈ R, a < b ein Semiring A auf
R. Wir definieren eine Mengenfunktion λ : A → [0, ∞] durch
λ(∅) = 0
und λ((a, b]) = b − a, a < b.
(1.28)
λ((a, b]) gibt also die Länge des Intervalls (a, b] ∈ A an. Man kann sich nun
überlegen, dass λ endlich additiv, σ -subadditiv und σ -endlich ist (Übung!).
Nach Satz 1.49 existiert eine Fortsetzung des Maßes λ auf die von A erzeugte
σ -Algebra. Nach Proposition 1.21 ist σ (A) = B(R). Nach Satz 1.37 ist dieser
Fortsetzungsmaß auf die Borel-σ -Algebra eindeutig. Es heißt Lebsesgue Maß
auf R und wird üblicherweise auch mit λ bezeichnet.
Beispiel 1.52 (Lebesgue-Maß auf Rd ). Wir haben gesehen, dass die Borel-σ Algebra B(Rd ) von beschränkten Rechtecken
A = {x : ai < xi ≤ bi , i = 1, . . . , d }
(1.29)
erzeugt wird. Man kann zeigen, dass zusammen mit der leeren Menge die
Menge dieser Rechtecke einen Semiring A bildet. Auf A definieren wir eine
Mengenfunktion λd durch λd (∅) = 0 und
d
λ ({x : ai < xi ≤ bi , i = 1, . . . , d }) =
d
Y
i=1
30
(bi − ai ).
1.6 Äußere Maße
Mit Hilfe der Sätze 1.37 und 1.49 kann man zeigen, dass eine eindeutige
Fortsetzung von λd auf σ (A) = B(Rd ) existiert. Die Fortsetzung wird auch mit
λd bezeichnet und heißt das Lebessgue-Maß auf Rd . Mit dem Produktmaßsatz
werden wir später eine weitere Methode kennenlernen, mit der man das
Lebessgue-Maß auf (Rd , B(Rd )) konstruieren kann.
Wenn A ein Semiring ist, dann ist nach Satz 1.37 ein σ -endliches Maß auf
σ (A) eindeutig durch seine Werte auf A bestimmt. Aus dem Beweis von
Satz 1.49 können wir ablesen wie die Maße von Mengen aus σ (A) durch die
Maße von Mengen aus A approximiert werden.
Lemma 1.53. Sind Mengen A, A1 , . . . , An in einem Semiring A enthalten, dann
gibt es in A disjunkte Mengen C 1 , . . . , Cm mit
A ∩ Ac1 ∩ · · · ∩ Acn = C 1 ∪ · · · ∪ Cm .
Beweis. Für n = 1 schreiben wir A ∩ Ac1 = A \ (A ∩ A1 ). Da (A ∩ A1 ) ⊂ A ist
folgt die Aussage aus der Definition 1.48 des Semirings. Angenommen, die
Aussage gilt für ein n. Für n + 1 schreiben wir
c
A ∩ Ac1 ∩ . . . ∩ Acn+1 = ∪m
j=1 (C j ∩ An+1 ).
Auf jedes Element in dieser disjunkten Vereinigung können wir nun das
Argument aus dem Fall n = 1 anwenden und erhalten die Aussage für n+1. Satz 1.54 (Approximationssatz). Es sei A ein Semiring, µ ein Maß auf σ (A),
das σ -endlich auf A ist. Dann gelten die folgenden Aussagen:
(i) Ist A ∈ σ (A) und ε > 0, dann gibt eine höchstens abzählbar unendliche
Folge A1 , A2 , . . . paarweise disjunkter Mengen aus A mit A ⊂ ∪k Ak und
µ ((∪k Ak ) \ A) < ε.
(ii) Für A ∈ σ (A) mit µ (A) < ∞ und ε > 0 gibt eine endliche Folge A1 , . . . , An
paarweise disjunkter Mengen aus A mit µ ((∪nk=1Ak ) 4 A) < ε.
Beweis. Sei µ ∗ das zu µ gehörige äußere Maß definiert in (1.27). Im Beweis von
Satz 1.49 haben wir gesehen, dass σ (A) ⊂ M (µ ∗ ) ist und dass µ und µ ∗ auf
A übereinstimmen. Nach Satz 1.37 stimmen µ und µ ∗ auch auf σ (A) überein.
Wenn A ∈ σ (A) mit µ (A) = µ ∗ (A) < ∞ gegeben ist, dann gibt es Mengen
P
A1 , A2 , . . . in A mit A ⊂ ∪k Ak und µ (∪k Ak ) ≤ k µ (Ak ) < µ (A) + ε, woraus
31
1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen
µ ((∪k Ak ) \ A) < ε folgt. Um zu erreichen, dass die Folge A1 , A2 , . . . disjunkt ist
ersetzen wir Ak durch Ak ∩ Ac1 ∩ · · · ∩ Ack−1 . Nach Lemma 1.53 kann jede solche
Menge als endliche Vereinigung von disjunkten Mengen aus A dargestellt
werden. Weiteres Umbenennen (und Umnummerieren) der Ak ’s liefert die
Behauptung (i) im Fall µ (A) = µ ∗ (A) < ∞.
Sei nun A ∈ σ (A) mit µ (A) = µ ∗ (A) = ∞ gegeben. Wegen σ -Endlichkeit
auf A gibt es Mengen Ω1 , Ω2 , . . . in A mit Ω = ∪n Ωn und µ (Ωn ) < ∞. In dem
endlichen Fall haben wir gesehen, dass für jedes n es Mengen An1 , An2 , . . .
in A gibt mit A ∩ Ωn ⊂ ∪k Ank und µ ((∪k Ank ) \ (A ∪ Ωn )) < ε/2n . Wir
können A1 , A2 , . . . (wieder durch Umnummerieren) aus A so wählen, dass
∪k Ak = ∪n ∪k Ank ist. Dann ist A ⊂ ∪k Ak und es gilt
X
µ ((∪k Ak ) \ A) ≤
µ ((∪k Ak ) \ (A ∩ Ωn )) < ε.
n
Wie zuvor kann man erreichen, dass die Ak disjunkt sind.
Nun kommen wir zu (ii). Sei A ∈ σ (A) mit µ (A) < ∞ gegeben und seien
∞ A ) < ∞.
die zugehörigen Ak aus A wie in (i) gewählt. Dann gilt auch µ (∪k=1
k
∞ A ) \ (∪n A )) < ε für ein
Mit absteigender Stetigkeit von µ folgt µ ((∪k=1
k
k
k=1
(genügend großes) n. Dann folgt
µ (∪nk=1Ak ) 4 A = µ (∪nk=1Ak ) \ A + µ A \ (∪nk=1Ak )
≤ µ (∪k Ak ) \ A + µ (∪k Ak ) \ (∪nk=1Ak ) < 2ε.
1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen
Definition 1.55. Ein Lebesgue-Stieltjes Maß auf R ist ein Maß µ auf B(R)
mit µ (I ) < ∞ für jedes beschränkte Intervall I .
In diesem Abschnitt werden wir zeigen, dass durch die Gleichung µ ((a, b]) =
F (b) − F (a) eine eineindeutige Beziehung zwischen Lebesgue-Stieltjes Maßen
µ und nichtfallenden rechtsstetigen Funktionen F : R → R besteht, wenn
man die Funktionen miteinander identifiziert, die sich nur durch eine additive
Konstante unterscheiden.
32
1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen
Satz 1.56. Es sei µ ein Lebesgue-Stieltjes Maß auf R und sei F : R → R eine
bis auf eine additive Konstante eindeutig definierte Funktion
F (b) − F (a) = µ ((a, b]).
(1.30)
Dann gilt
(i) F ist nichtfallend: a ≤ b ⇒ F (a) ≤ F (b);
(ii) F ist rechtsstetig: limx→a+ F (x ) = F (a) für alle a ∈ R.
Beweis. Die Funktion F ist nichtfallend, denn für a ≤ b ist F (b) − F (a) =
µ ((a, b]) ≥ 0. Ist a ∈ R und x 1 > x 2 > . . . eine Folge mit xn ↓ a dann gilt
(a, xn ] ↓ ∅ und F (xn ) − F (a) = µ ((a, xn ]) → 0 nach Proposition 1.27. Also ist
F rechtsstetig.
Wie wir schon oben bemerkt haben ist die Funktion F im obigen Satz
bis auf eine additive Konstante eindeutig bestimmt. Eindeutigkeit erreicht
man durch eine Extrabedingung indem man den Funktionswert an einer
bestimmten Stelle festlegt. Man kann beispielsweise F (0) fixieren und dann
F (x ) − F (0) = µ ((0, x]) für x > 0 und F (0) − F (x ) = µ ((x, 0]) für x < 0 setzen.
Mit F (0) = 0 ergibt sich

 µ ((0, x])
: x > 0,
F (x ) = 
(1.31)
 −µ ((x, 0]) : x < 0.

Das Lebesgue-Maß aus Beispiel 1.51 ist natürlich ein Lebesgue-Stieltjes Maß
auf R. Die zugehörige Funktion, wie in (1.31) definiert, ist F (x ) = x.
Im Fall von endlichen Maßen µ definiert man F üblicherweise nicht durch
(1.31), sondern durch
F (x ) = µ ((−∞, x]).
(1.32)
Dann ist limx→−∞ F (x ) = 0 und limx→∞ F (x ) = µ (R).
Definition 1.57 (Verteilungsfunktion). Wenn µ ein Wahrscheinlichkeitsmaß
auf R ist, dann heißt die in (1.32) definierte Funktion Verteilungsfunktion.
Maße auf R werden sehr oft durch die zu ihnen mittels (1.30) gehörende Funktion angegeben, was durch die folgende Umkehrung von Satz 1.56
gerechtfertigt wird. Aus diesem Grund werden nichtfallende rechtsstetige
Funktionen manchmal als maßdefinierende Funktionen bezeichnet.
33
1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen
Satz 1.58. Es sei F : R → R eine nichtfallende rechtsstetige Funktion. Dann
gibt es ein eindeutiges Maß µ auf B(R), das (1.30) erfüllt.
Beweis. Die Menge A der halboffenen Intervalle (a, b] mit der leeren Menge
ist ein Semiring. Durch
µ ((a, b]) = F (b) − F (a)
wird ein σ -endliches Maß auf A definiert. Nach Satz 1.37 ist eine Fortsetzung
von µ auf σ (A) = B(R) (sofern sie existiert) eindeutig. Für die Existenz
müssen wir die Voraussetzungen von Satz 1.49 prüfen. Die Eigenschaften
µ ≥ 0 und µ (∅) = 0 sind klar. Es bleibt also noch die endliche Additivität und
σ -Subadditivität von µ auf A zu zeigen.
Sind die Intervalle (a 1 , b1 ], . . . , (an , bn ] disjunkt und gilt ∪nk=1 (ak , bk ] ⊂
(a, b], dann ist
n
X
(F (bk ) − F (ak )) ≤ (F (a 1 ) − F (a)) + (F (b1 ) − F (a 1 )) + (F (a 2 ) − F (b1 )) + · · ·
k=1
· · · + (F (an ) − F (bn−1 )) + F (bn ) − F (an ) + (F (b) − F (bn ))
= F (b) − F (a).
Sind die Intervalle (a 1 , b1 ], . . . , (an , bn ] beliebig und gilt ∪nk=1 (ak , bk ] ⊃ (a, b],
dann ist
n
X
(F (bk ) − F (ak )) ≥ F (b) − F (a).
k=1
Diese beiden Ungleichungen implizieren die endliche Additivität.
∞ (a , b ]. Sei ε ∈ (0, b −a).
Seien (a 1 , b1 ], (a 2 , b2 ], . . . beliebig und (a, b] ⊂ ∪k=1
k k
Für k ∈ N wähle bk0 > bk mit F (bk0 ) − F (bk ) < ε/2n (dies ist möglich wegen
∞ (a , b 0 ). Nach dem Satz
der Rechtsstetigkeit von F ). Dann gilt [a + ε, b] ⊂ ∪k=1
k k
von Heine-Borel gibt es eine endliche Überdeckung des kompakten Intervalls
[a + ε, b] durch offene Intervalle (ak1 , bk0 1 ), . . . , (akn , bk0 n ). Es folgt
F (b) − F (a + ε ) = µ ((a + ε, b]) ≤
n
X
`=1
≤
n X
µ ((ak ` , bk0 ` ])
µ ((ak ` , bk ` ]) + ε/2
−k `
`=1
≤
∞
X
k=1
34
µ ((ak , bk ]) + ε.
1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen
Mit ε → 0 und Rechtsstetigkeit von F erhalten wir
F (b) − F (a) = µ ((a, b]) ≤
∞
X
µ ((ak , bk ]).
k=1
Nun folgt mit Satz 1.49 die Existenz der Fortsetzung, was den Beweis abschließt.
Lebesgue-Stieltjes Maße auf Rd sind Maße, die beschränkten Borel-Mengen
endliches Maß zuweisen. Man kann auch Verteilungsfunktionen (oder allgemeiner maßdefinierende Funktionen) auf Rd für d ≥ 2 definieren. Insbesondere benötigt man eine geeignete Definition von Stetigkeit von oben (die für
d = 1 mit Rechtsstetigkeit übereinstimmt) und Monotonie. Verteilungsfunktionen auf Rd für d ≥ 2 sind jedoch relativ unhandliche Objekte und werden
deswegen nicht sehr oft gebraucht. Wir bemerken an dieser Stelle nur, dass es
eine Version von Satz 1.58 in Rd gibt (siehe z.B. Theorem 12.5 in Billingsley
(1995)).
Wir schließen diesen Abschnitt mit einem Resultat über Regularität von
Lebesgue-Stieltjes Maßen.
Satz 1.59. Es sei µ ein Lebesgue-Stieltjes Maß auf Rd . Dann gelten die folgenden
Aussagen:
(i) Für jedes A ∈ B(Rd ) und ε > 0 gibt es eine abgeschlossene Menge C und
offene Menge G mit C ⊂ A ⊂ G und µ (G \ C) < ε.
(ii) Ist µ (A) < ∞, dann ist µ (A) = sup{µ (K ) : K ⊂ A, K kompakt}.
Beweis. Sei A = {x : ai < xi ≤ bi , 1 ≤ i ≤ d } ein beschränktes Rechteck. Die
Mengen Gn = {x : ai < xi < bi + n −1 , 1 ≤ i ≤ d} sind offen und es gilt Gn ↓ A.
Da µ (G 1 ) < ∞ ist, folgt mit absteigender Stetigkeit von µ, dass µ (Gn \ A) < ε
für genügend große n ist, d.h. beschränkte Rechtecke können von außen durch
offene Mengen approximiert werden.
Sei nun A ∈ B(Rd ) beliebig. Die Menge der beschränkte Rechtecke ist ein
Semiring. Nach Satz 1.54(i) gibt es beschränkte Rechtecke Ak mit A ⊂ ∪k Ak
und µ ((∪k Ak ) \ A) < ε. Für jedes k wähle nun offene Menge Gk mit Ak ⊂ Gk
und µ (Gk \ Ak ) < ε/2k . Dann ist G = ∪k Gk offen und es gilt µ (G \ A) < 2ε.
Also können alle Borel-messbaren Mengen von außen durch offene Mengen
approximiert werden.
35
1.8 Messbare Funktionen und Abbildungen
Um zu sehen, dass Borel-messbare Mengen von innen durch abgeschlossene
Mengen approximiert werden können, geht man zu Komplementen über.
Ist A Borel-messbar, dann gibt es eine offene Menge G mit Ac ⊂ G und
µ (G\Ac ) = µ (G∩A) = µ (A\G c ) < ϵ. Die Menge C = G c ist eine abgeschlossene
Teilmenge von A. Das schließt den Beweis von (i) ab.
Die Aussage (ii) folgt aus (i). Aus µ (A) < ∞ folgt zunächst, dass es eine
beschränkte Teilmenge A0 von A gibt mit µ (A \ A0 ) < ε. Mit (i) folgt dann
µ (A0 \ K ) < ε für eine abgeschlossene und somit kompakte Teilmenge von
A0 .
1.8 Messbare Funktionen und Abbildungen
In diesem Abschnitt beschäftigen wir uns mit Abbildungen zwischen Maßräumen. Für f : Ω1 → Ω2 und A ⊂ Ω2 ist das Urbild von A unter der Abbildung
f definiert durch
(
)
f −1 (A) B ω ∈ Ω : f (ω) ∈ A .
(1.33)
Folgende Eigenschaften von Urbildern sind leicht nachzurechnen:
f −1 (Ac ) = ( f −1 (A))c , f −1 (∪n An ) = ∪n f −1 (A), f −1 (∩n An ) = ∩n f −1 (An ).
(1.34)
Definition 1.60 (Messbare Abbildungen). Es seien (Ω1 , A1 ) und (Ω2 , A2 )
messbare Räume.
(i) Eine Abbildung f : Ω1 → Ω2 heißt A1 -A2 messbar (oder kurz messbar),
wenn f −1 (A2 ) ⊂ A1 ist, d.h. wenn f −1 (A) ∈ A1 für alle A ∈ A2 . Wir
schreiben dann auch f : (Ω1 , A1 ) → (Ω2 , A2 ).
(ii) Im Fall (Ω2 , A2 ) = (Rd , B(Rd )), d ≥ 1 nennen wir eine A1 -B(Rd )
messbare Abbildung f Borel-messbar.
(iii) In wahrscheinlichkeitstheoretischem Kontext nennen wir eine Borelmessbare Abbildung Zufallsvariable, wenn d = 1 ist, und Zufallsvektor,
wenn d ≥ 2 ist.
Bemerkung 1.61. Nach Übung 1.7 ist f −1 (A2 ) eine σ -Algebra über Ω1 . Dies ist
die kleinste σ -Algebra, bezüglich der die Abbildung f f −1 (A2 )-A2 messbar
ist. Ist also f eine A1 -A2 messbare Abbildung, dann folgt f −1 (A2 ) ⊂ A1 .
36
1.8 Messbare Funktionen und Abbildungen
Beispiel 1.62. (i) Ist A1 = P (Ω1 ) oder A2 = {∅, Ω2 } dann ist jede Abbildung von Ω1 nach Ω2 messbar.
(ii) Eine Indikatorfunktion 1A für ein A ⊂ Ω1 ist genau dann eine messbare
Abbildung von (Ω1 , A1 ) nach ({0, 1}, P ({0, 1})), wenn A ∈ A1 ist.
(iii) Eine Abbildung f mit einer endlichen Bildmenge {ω 1 , . . . , ωm } ist genau
dann messbar, wenn f −1 ({ωi }) ∈ A1 für alle i = 1, . . . , m ist.
Satz 1.63. Es seien (Ω1 , A1 ), (Ω2 , A2 ) und (Ω3 , A3 ) messbare Räume, f : Ω1 →
Ω2 und д : Ω2 → Ω3 . Dann gilt
(i) Ist f −1 (A) ∈ A1 für alle A ∈ E und gilt σ (E) = A2 , dann ist f A1 -A2
messbar.
(ii) Ist f A1 -A2 messbar und ist д A2 -A3 messbar, dann ist д ◦ f A1 -A3
messbar.
Beweis. Übung!
Beispiel 1.64. Sind (Ω1 , τ1 ) und (Ω2 , τ2 ) topologische Räume und B(τi ) die
zugehörigen Borel-σ -Algebren, dann gilt: Ist f : Ω1 → Ω2 stetig, so auch
B(τ1 )-B(τ2 ) messbar. (Beweis mit (i) und E = τ2 .)
Für Abbildungen f : Ω → Rd gehen wir, wenn nichts anderes gesagt wird,
stets davon aus, dass B(Rd ) die σ -Algebra ist, mit der Rd ausgestattet ist. Im
Folgenden nennen wir reellwertige A-B(R) messbare Funktionen A-messbar,
oder einfach messbar, wenn klar ist was A ist.
Bemerkung 1.65. Sei (Ω, A) ein messbarer Raum und f : Ω → R. Dann ist
f genau dann A messbar, wenn f −1 ((−∞, x]) ∈ A für alle x ∈ R (oder alle
x ∈ Q). (Beweis mit (i) und E = die Menge der halboffenen Intervalle.)
Ist f = ( f 1 , . . . , fd ) : Ω → Rd , dann gilt mit derselben Begründung: f ist
genau dann A messbar, wenn für jedes x = (x 1 , . . . , xd ) die Menge
d (
(
) \
)
ω : f 1 (ω) ≤ x 1 , . . . , fd (ω) ≤ xd =
ω : fk (ω) ≤ xk
(1.35)
k=1
in A liegt. Diese Bedingung gilt wiederum, wenn jede Funktion fk messbar
bezüglich A ist. Andererseits, wenn wir xk = x festhalten und alle anderen
37
1.8 Messbare Funktionen und Abbildungen
Koordinaten gegen unendlich schicken, dann steigt die rechte Seite von (1.35)
gegen {ω : fk (ω) ≤ x } auf. Also ist f genau dann messbar, wenn alle fk
messbar sind.
Mit der obigen Bemerkung und Satz 1.63 folgt leicht das folgende Resultat.
Satz 1.66. Sind die Funktionen fk : Ω → R, k = 1, . . . , d messbar bezüglich A
und д : Rd → R messbar, dann ist ω 7→ д( f 1 (ω), . . . , fd (ω)) messbar.
Mit diesem Satz erhalten wir eine Reihe von Beispielen messbarer FunkP
Q
tionen. Nimmt man z.B. д(x 1 , . . . , xd ) als dk=1 xk , dk=1 xk , max{x 1 , . . . , xd }
oder max{x 1 , . . . , xd } so folgt, dass Summen, Produkte, Maxima und Minima
messbarer Funktionen messbar sind. Ist f messbar, dann auch sin f und e f .
Ist außerdem f (ω) , 0 für alle ω ∈ Ω, so ist 1/f messbar.
Satz 1.67. Es sei (Ω, A) ein messbarer Raum und seien f und д Borel-messbare
Funktionen. Dann gilt
{ω : f (ω) < д(ω)}, {ω : f (ω) ≤ д(ω)}, {ω : f (ω) = д(ω)} ∈ A.
Beweis. Die Ungleichung f (ω) < д(ω) gilt genau dann, wenn es ein r ∈ Q
gibt mit f (ω) < r < д(ω). Es folgt
[
{ω : f (ω) < д(ω)} =
{ω : f (ω) < r } ∩ {ω : r < д(ω)} .
r∈
Q
Damit ist {ω : f (ω) < д(ω)} ∈ A als eine abzählbare Vereinigung von Mengen
aus A. Genauso gilt {ω : f (ω) > д(ω)} ∈ A und daher auch
{ω : f (ω) ≤ д(ω)} = {ω : f (ω) > д(ω)}c ∈ A.
Schließlich ist auch
{ω : f (ω) = д(ω)}{ω : f (ω) ≤ д(ω)} \ {ω : f (ω) < д(ω)} ∈ A.
Im Zusammenhang mit Grenzwerten von Folgen reellwertiger Funktionen
ist es oft vorteilhaft mit R = R ∪ {−∞, +∞} zu arbeiten. Mit B(R) bezeichnen
wir die σ -Algebra der Borelmengen von R:
B(R) B {B ⊂ R : B ∩ R ∈ B(R)}.
38
(1.36)
1.8 Messbare Funktionen und Abbildungen
Man kann auf R direkt auch eine Metrik definieren und dann zeigen, dass
B(R) von der induzierten Topologie erzeugt wird. Wir verweisen an dieser
Stelle auf Korollar 1.87 und die Diskussion davor in Klenke (2013).
Ist (Ω, A) ein messbarer Raum, dann nennen wir eine Funktion f : Ω → R
A-messbar (oder Borel-messbar), wenn sie A-B(R) messbar ist. Das ist dann
der Fall, wenn f −1 ({−∞}), f −1 ({+∞}) ∈ A und f −1 (B) ∈ A für alle B ∈ B(R)
gilt.
Satz 1.68. Es sei (Ω, A) ein messbarer Raum und sei f 1 , f 2 , . . . eine Folge AB(R) messbarer Funktionen.
(i) Die Funktionen supn fn , inf n fn , lim supn fn und lim inf n fn sind A messbar.
(ii) Wenn limn fn (ω) für alle ω ∈ Ω existiert, dann ist es messbar.
(iii) Es gilt {ω ∈ Ω : fn (ω) ist konvergent} ∈ A.
(iv) Ist f eine A messbare Funktion, so gilt {ω ∈ Ω : limn fn (ω) = f (ω)} ∈ A.
Beweis. Für alle x ∈ R gilt {supn fn ≤ x } = ∩n { fn ≤ x } ∈ A und {inf n fn ≤
x } = ∪n { fn ≤ x } ∈ A. Das zeigt die Messbarkeit von supn fn und inf n fn .
Daraus erhalten wir auch die Messbarkeit von lim supn fn = inf n supk ≥n fk und
lim inf n fn = supn inf k ≥n fk . Wenn limn fn existiert stimmt es mit lim supn fn
und lim inf n fn überein und ist deswegen messbar. Die Aussagen (iii) und (iv)
sind beides Anwendungen von Satz 1.67. Die Menge in (iii) ist die Menge der
ω mit lim supn fn (ω) = lim inf n fn (ω). Die Menge in (iv) ist die Menge der ω
mit lim supn fn (ω) = lim inf n fn (ω) = f (ω).
Definition 1.69 (Einfache Funktionen, Elementarfunktionen). Eine Funktion
f : Ω → R heißt einfache Funktion (oder auch Elementarfunktion)), wenn es
endlich viele disjunkte Teilmengen A1 , . . . , An von Ω und zahlen α 1 , . . . , αn ∈
R gibt, mit
f (ω) =
n
X
αi 1Ai (ω),
ω ∈ Ω.
(1.37)
i=1
Natürlich ist eine Elementarfunktion genau dann messbar, wenn jedes Ai
in der obigen Definition in A (der σ -Algebra über Ω) liegt. Es ist klar, dass
eine Elementarfunktion nur endlich viele Werte annimmt. Umgekehrt ist jede
Funktion, die nur endlich viele Werte annimmt eine Elementarfunktion.
39
1.8 Messbare Funktionen und Abbildungen
Beweise vieler Resultate über messbare Funktionen fangen erst mit dem
Beweis des Resultates für Elementarfunktionen an, der dann mit einem Approximationsargument auf alle nichtnegative messbare Funktionen übertragen
wird. Mit der Zerlegung f = f + − f − (siehe den Beweis unten) kann das
Resultat dann oft auch auf beliebige messbare Funktionen übertragen werden.
Hinter diesen Argumenten steckt der folgende Satz.
Satz 1.70 (Approximation messbarer Funktionen durch einfache Funktionen).
Es sei f eine Borel-messbare Funktion auf (Ω, A). Dann gelten folgende Aussagen:
(i) Ist f ≥ 0, dann gibt eine Folge f 1 , f 2 , . . . von nichtnegativen messbaren
Elementarfunktionen mit fn ↑ f .
(ii) Ist f beliebig, dann gibt eine Folge f 1 , f 2 , . . . von messbaren Elementarfunktionen mit fn (ω) ↑ f (ω), wenn f (ω) ≥ 0 und fn (ω) ↓ f (ω), wenn
f (ω) ≤ 0.
Beweis. Um (i) zu beweisen definieren wir die Folge fn durch

 (k − 1)2−n : wenn (k − 1)2−n ≤ f (ω) < k2−n , 1 ≤ k < n2n ,
fn (ω) = 
n
: wenn n ≤ f (ω) ≤ ∞.

Der Beweis, dass für jedes ω die Folge fn (ω) punktweise nichtfallend ist und
gegen f (ω) aufsteigt bleibt als Übung.
Für (ii), zerlegen wir die Funktion f in ihren Positiv- und Negativteil: f =
f + − f − mit f + (x ) = f (x ) ∨ 0 = max{ f (x ), 0} und f − (x ) = (−f (x )) ∨ 0 =
max{−f (x ), 0}. Sowohl f + als auch f − sind nichtnegativ und messbar. Sind
die zugehörigen Approximationen fn+ und fn− wie (i) gewählt, so ist fn+ − fn−
die gesuchte Approximation von f durch Elementarfunktionen.
In der Wahrscheinlichkeitstheorie spricht man oft von Verteilungen (angegeben z.B. durch Verteilungsfunktionen oder Dichten) von Zufallsvariablen X
auf R ohne unbedingt den zugehörigen Wahrscheinlichkeitsraum anzugeben.
Diese Verteilungen sind Bildmaße unter der Abbildung X .
Satz 1.71 (Bildmaß). Es seien (Ω1 , A1 ) und (Ω2 , A2 ) messbare Räume, sei µ
ein Maß auf A1 und f : (Ω1 , A1 ) → (Ω2 , A2 ). Dann ist die Mengenfunktion
µ f −1 definiert auf A2 durch
µ f −1 (A) = µ f −1 (A) , A ∈ A2 ,
(1.38)
ein Maß auf A2 .
40
1.9 Übungen
Beweis. Wegen der Messbarkeit von f ist µ f −1 wohldefiniert. Die Aussagen
µ f −1 (∅) = 0 und µ f −1 (A) ≥ 0 für alle A ∈ A2 sind klar. Sind A1 , A2 , . . . paarweise disjunkte Mengen aus A2 , dann sind f −1 (A1 ), f −1 (A2 ), . . . paarweise
disjunkte Mengen aus A1 . Außerdem gilt f −1 (∪n An ) = ∪n f −1 (An ). Damit
folgt
µ f −1 (∪n An ) = µ f −1 (∪n An ) = µ ∪n f −1 (An )
X X
=
µ f −1 (An ) =
µ f −1 (An ).
n
n
Definition 1.72 (Bildmaß). Das in (1.38) definierte Maß µ f −1 auf A2 heißt
Bildmaß von µ unter der Abbildung f .
Es ist klar, dass Bildmaße endlicher Maße endlich sind und, dass Bildmaße
von Wahrscheinlichkeitsmaßen wieder Wahrscheinlichkeitsmaße sind. Im
Allgemeinen sind Bildmaße σ -endlicher Maße nicht σ -endlich. Man betrachte
z.B. das Bildmaß des Lebesgue-Maßes unter der Funktion f : R → R, f (x ) = 0
für alle x ∈ R.
1.9 Übungen
Übung 1.1. Beweisen Sie Proposition 1.1.
Übung 1.2. Beweisen Sie Proposition 1.5.
Übung 1.3. Es sei Ω eine nichtleere Menge und seien A1 , A2 , . . . Teilmengen von
Ω. Bestimmen Sie lim inf n→∞ 1An und lim supn→∞ 1An (beides sind natürlich
Funktionen, die Ω auf {0, 1} abbilden).
Übung 1.4. Für n ∈ N sei An = (−1/n, 1] für ungerade n und An = (−1, 1/n]
für gerade n. Berechnen Sie lim inf n→∞ An und lim supn→∞ An .
Übung 1.5. Zeigen Sie die Behauptungen in (d) und (f) aus Beispiel 1.12.
Übung 1.6 (Spur-σ -Algebra). Es sei Ω eine beliebige nichtleere Menge, A eine
σ -Algebra über Ω und Ω0 ⊂ Ω (nicht notwendigerweise Ω0 ∈ A). Ferner sei
A0 B {A ∩ Ω0 : A ∈ A}.
Zeigen Sie:
41
1.9 Übungen
a) A0 ist eine σ -Algebra über Ω0 .
b) Ist Ω0 ∈ A, dann gilt A0 = {A : A ⊂ Ω0 , A ∈ A}.
Übung 1.7. Seien Ω1 und Ω2 zwei nichtleere Mengen, A2 eine σ -Algebra über
Ω2 und sei f : Ω1 → Ω2 eine (beliebige) Abbildung. Dann ist
A1 B { f −1 (A) : A ∈ A2 }
eine σ -Algebra über Ω1 . (Diese wird oft mit σ ( f ) bezeichnet und heißt, dann die
von f erzeugte σ -Algebra.) Dabei ist f −1 (A) = {ω ∈ Ω1 : f (ω) ∈ A}.
Übung 1.8. Geben Sie ein (einfaches) Beispiel dafür an, dass Vereinigungen von
σ -Algebren über derselben Menge Ω im Allgemeinen keine σ -Algebren sind.
Übung 1.9. Es sei Ω eine beliebige nichtleere Menge und A eine σ -Algebra
auf Ω. Ferner sei H eine Teilmenge von Omeдa mit H < A (H ist also nicht
A-messbar). Zeigen Sie
σ A ∪ {H } = {(H ∩ A) ∪ (H c ∩ B) : A, B ∈ A}.
Bemerkung: Beachten Sie, dass A ∪ {H } etwas anderes bedeutet als A ∪ H =
{A ∪ H : A ∈ A}. Man kann zeigen, dass
σ A ∪ H ⊂ {(H ∩ A) ∪ (H c ∩ B) : A, B ∈ A}
gilt, und sich an einem einfachen Beispiel überlegen, dass die umgekehrte Inklusion im Allgemeinen falsch ist.
Übung 1.10. Beweisen Sie Proposition 1.22.
Übung 1.11. Es sei µ das Zählmaß auf einer unendlichen Menge Ω. Zeigen Sie,
dass es eine Folge (An )n=1,2,... gibt mit An ↓ ∅ und limn→∞ µ (An ) , 0. Überlegen
Sie sich, wie das mit Proposition 1.27 zusammen passt.
Übung 1.12. Es sei (Ω, A) ein messbarer Raum und sei µ : A → [0, +∞] eine
σ -additive Mengenfunktion. Zeigen Sie, dass µ (∅) = 0 ist (also ist µ ein Maß),
wenn es ein A ∈ A mit der Eigenschaft µ (A) < ∞ gibt.
Übung 1.13 (Stetigkeit endlicher Maße). Es sei (Ω, A, µ) ein Maßraum mit
endlichem Maß µ. Ist A1 , A2 , . . . eine Folge aus A mit limn→∞ An = A, so ist
limn→∞ µ (An ) = µ (A).
42
1.9 Übungen
Übung 1.14. Es sei (Ω, A, µ) ein Maßraum. Sind A, B ∈ A beliebig und gilt
µ (A) < ∞ oder µ (B) < ∞, dann gilt |µ (A) − µ (B)| ≤ µ (A 4 B).
Übung 1.15 (Einschluss-Ausschluss-Formel). Sei µ ein endliches Maß auf dem
messbaren Raum (Ω, A). Zeigen Sie die folgenden Aussagen
(a) Für A, B ∈ A gilt
µ (A ∪ B) = µ (A) + µ (B) − µ (A ∩ B).
(b) Für A, B, C ∈ A gilt
µ (A ∪ B ∪ C) = µ (A) + µ (B) + µ (C)
− µ (A ∩ B) − µ (A ∩ C) − µ (B ∩ C) + µ (A ∩ B ∩ C).
(c) Für A1 , . . . , An ∈ A gilt (mit [n] = {1, . . . , n})
µ (∪ni=1Ai ) =
n
X
k=1
(−1)k+1
X
µ (Ai 1 ∩ . . . ∩ Aik ).
{i 1 ,...,i k }⊂[n]
Übung 1.16. Beweisen Sie Lemma 1.33.
Übung 1.17. Beweisen Sie die Behauptung aus Beispiel 1.34.2.
Übung 1.18. Unten sind für verschiedene nichtleere Grundmengen Ω Mengenfunktionen µ ∗ : P (Ω) → [0, ∞] definiert. Entscheiden Sie (mit Beweis oder
Gegenbeispiel), welche davon äußere Maße sind.
1. Ω beliebig, für ein festes x 0 ∈ Ω sei µ ∗ (E) = 1E (x 0 ) für alle E ∈ P (Ω);
2. Ω beliebig, µ ∗ (E) = 1 für alle E ∈ P (Ω);
3. Ω = {x, y}, µ ∗ sei definiert durch µ ∗ (∅) = 0, µ ∗ ({x }) = µ ∗ ({y}) = 10,
µ ∗ (Ω) = 1;
4. Ω sei eine Menge bestehend aus 100 Punkten, die in eine 10 × 10 Matrix angeordnet sind, µ ∗ (E) sei definiert als die Anzahl der Spalten, die mindestens
einen Punkt aus E enthalten.
43
1.9 Übungen
5. Ω = N, µ ∗ (E) = lim supn n1 |E ∩ {1, . . . , n}|, wobei |A| die Anzahl der
Elemente der Menge A bezeichnet.
Übung 1.19.
1. Es seien ν ∗ und λ∗ äußere Maße. Zeigen Sie, dass durch
µ ∗ (E) = ν ∗ (E) ∨ λ∗ (E) = max{ν ∗ (E), λ∗ (E)}
ein äußeres Maß µ ∗ definiert ist.
2. Es sei {µn∗ } eine Folge von äußeren Maßen und sei {an } eine Folge positiver
reeller Zahlen. Zeigen Sie, dass durch
X
µ ∗ (E) =
an µn∗ (E)
n
ein äußeres Maß
µ∗
definiert ist.
Übung 1.20. Es sei F0 die Algebra in Q, die alle Mengen der Form (a, b] ∩ Q,
(a, ∞) ∩ Q (a, b ∈ Q) und Q selbst enthält. Ferner sei F = σ (F0 ) die von F0
erzeugte σ -Algebra. Zeigen Sie
1. F ist die Potenzmenge von Q.
2. Das Zählmaß µ (d.h. µ (A) ist die Anzahl der Punkte in der Menge A) ist
σ -endlich auf F , aber nicht auf F0 .
3. Es gibt Mengen A ∈ F , deren Maß endlich ist, die aber nicht durch Mengen
aus F0 approximiert werden können, d.h. es gibt keine Folge An ∈ F0 mit
µ (A 4 An ) → 0.
4. Ist λ ein Maß mit λ = 2µ, dann gilt zwar λ = µ auf F0 , aber nicht auf F .
Übung 1.21. Beweisen Sie Proposition 1.44.
Übung 1.22. Es sei ein Maßraum (Ω, F , µ) gegeben. Seien µ ∗ und µ ∗ das äußere
bzw. das innere Maß, d.h. für D ∈ P (Ω)
µ ∗ (D) = inf {µ (F ) : F ∈ F , F ⊃ D},
µ ∗ (D) = sup{µ (F ) : F ∈ F , F ⊂ D}.
Zeigen Sie, dass die σ -Algebren
M (µ ∗ ) = {A ⊂ Ω : µ ∗ (A) = µ ∗ (A ∩ B) + µ ∗ (A ∩ Bc ), für alle B ⊂ Ω}
M (µ) = {A ⊂ Ω : µ ∗ (A) = µ ∗ (A)}
übereinstimmen.
44
1.9 Übungen
Übung 1.23. Beweisen Sie folgende Aussagen:
(i) Ist B eine Borel-messbare Teilmenge von Rd und x ∈ Rd , dann sind die
Mengen x + B = {x + b : b ∈ B} und B = {−b : b ∈ B} Borel-messbar.
(ii) Es sei λd das Lebesgue-Maß auf (Rd , B(Rd )). Dann gilt λd (B) = λd (x + B)
für alle B ∈ B(Rd ) und x ∈ Rd .
(iii) Es sei µ ein Lebesgue-Stieltjes Maß mit µ (B) = µ (x + B) für alle B ∈ B(Rd )
und x ∈ Rd . Dann gibt es α ≥ 0 mit µ (A) = αλd (A), A ∈ B(Rd ).
Bemerkung: Die Eigenschaft (ii) bedeutet, dass das Lebesgue-Maß translationsinvariant ist. Nach (iii) ist das Lebesgue-Maß bis auf eine multiplikative Konstante
das einzige translationsinvariante Maß auf (Rd , B(Rd )).
Übung 1.24. Es sei λd das Lebesgue-Maß auf (Rd , B(Rd )) und seien B ein d − 1
dimensionaler Unterraum und x < B. Dann gilt λd (xt + B) = 0 für alle t ∈ R.
Hinweis: Zeigen Sie zunächst: Ist µ ein σ -endliches Maß auf einer σ -Algebra
(oder Algebra) A, dann enthält A keine überabzählbare Familie von disjunkten
Mengen deren µ-Maß positiv ist. Wenden Sie dann Übung 1.23 (ii) an.
Übung 1.25. Es sei F eine Funktion auf R definiert durch


0





1 + x
F (x ) = 


2 + x2




9

: x < −1,
: −1 ≤ x < 0,
: 0 ≤ x < 2,
: x ≥ 2.
Berechnen Sie für das zu F gehörige Lebesgue-Stieltjes Maß die Maße der folgenden Mengen:
(a) {2},
(b) [−1/2, 3),
(c) (−1, 0] ∪ (1, 2),
(d) [0, 1/2) ∪ (1, 2],
(e) {x : |x | + 2x 2 > 1}.
45
1.9 Übungen
Übung 1.26. Beweisen Sie folgende Aussagen.
(i) Jede nichtfallende Funktion F : R → R besitzt höchstens abzählbar viele
Unstetigkeitstellen.
(ii) Jede nichtfallende Funktion F : R → R besitzt eine rechtsstetige Modifikation, d.h. es existiert eine nichtfallende rechtsstetige Funktion FH, die sich
an höchstens abzählbar vielen Stellen von F unterscheidet.
(iii) Es sei D eine dichte Teilmenge von R und sei F : D → R eine nichtfallende
Funktion mit
F (x ) = F (x+) = lim F (y).
y∈D,y↓x
Dann gibt es genau eine nichtfallende rechtsstetige Fortsetzung von F auf
R gibt. Dabei wird eine Funktion FD : R → R Fortsetzung von F genannt,
falls FD(x ) = F (x ) für alle x ∈ D gilt.
Hinweis zu (a): Beweisen Sie zuerst, dass F (x−) = limy↑x F (y) und F (x+) =
lim
y↓x F (y) fürjedes x ∈ R existieren und betrachten Sie dann Intervalle I (x ) =
F (x−), F (x+) .
Übung 1.27.
1. Es seien µ ein Wahrscheinlichkeitsmaß auf (R, B(R)) und
F die zugehörige Verteilungsfunktion. Zeigen Sie: F ist genau dann in
einem Punkt x ∈ R stetig, wenn µ ({x }) = 0 gilt.
2. Welchem Wahrscheinlichkeitsmaß µ auf (R, B(R)) entspricht die Verteilungsfunktion F : R → [0, 1], F (x ) := 0 ∨ (x ∧ 1)? Berechnen Sie dazu
µ ((a, b]) für beliebige a ≤ b aus R.
Übung 1.28. Beweisen Sie Satz 1.63.
46
2 Integration
In diesem Kapitel definieren wir Integrale messbarer Funktionen und studieren
ihre Eigenschaften.
2.1 Definition des Lebesgue- oder Maßintegrals
Im folgenden sei (Ω, A, µ) ein Maßraum und f , д, fn etc. Borel-messbare Funktionen mit Werten in R oder R. Das Ziel ist es Integrale messbarer Funktionen
zu definieren. Je nach Situation werden wir dafür folgende Schreibweisen
benutzen.
Z
Z
Z
µ[f ] =
f dµ =
f (ω) dµ (ω) =
f (ω) µ (dω).
Ω
Ω
Bemerkung 2.1 (Rechnen mit ∞ auf R). Fürs Rechnen mit ∞ gelten folgende
Regeln (wobei Produkt und Summe kommutativ sind):
(i) für a ∈ R ist a + ∞ = ∞, a − ∞ = −∞,
a
−∞
=
a
∞
= 0;
(ii) für a > 0 ist a · ∞ = ∞, für a < 0 ist a · ∞ = −∞;
(iii) 0 · ∞ = 0 · (−∞) = 0, ∞ + ∞ = ∞, −∞ − ∞ = −∞.
Definition 2.2 (Integral). Wir definieren nacheinander das Integral für Indikatorfunktionen, einfache Funktionen, nichtnegative Funktionen und schließlich
für beliebige messbare Funktionen:
(i) Für f = 1A , A ∈ A ist
µ[f ] B
Z
f dµ B µ (A).
P
(ii) Ist f eine einfache Funktion mit f = ni=1 αi 1Ai für disjunkte A1 , . . . , An ∈
A, so definieren wir
Z
n
X
µ[f ] B
f dµ B
αi µ (Ai ).
i=1
47
2.1 Definition des Lebesgue- oder Maßintegrals
(iii) Für f ≥ 0 definieren wir
Z
Z
s dµ : s einfach , 0 ≤ s ≤ f .
µ[f ] B
f dµ B sup
(iv) Ist f eine beliebige Borel-messbare Funktion, so ist f = f + − f − für
f + = f ∨ 0 und f − = (−f ) ∨ 0 und wir definieren
Z
Z
Z
+
µ[f ] B
f dµ B
f dµ −
f − dµ,
vorausgesetzt es gilt nicht µ[f + ] = µ[f − ] = ∞, in diesem Fall sagen wir
das Integral existiert nicht.
Nach Definition existiert das Integral einer nichtnegativen Funktion immer,
es kann aber den Wert +∞ annehmen. Ist µ[f ] endlich, was äquivalent zur
Endlichkeit von µ[| f |] = µ[f + ] + µ[f − ] ist (Übung!), so heißt f integrierbar
(oder µ-integrierbar). Falls µ[f + ] = ∞ und µ[f − ] < ∞ ist, so ist µ[f ] = ∞.
Falls µ[f + ] < ∞ und µ[f − ] = ∞ ist, so ist µ[f ] = −∞. In beiden Fällen sagen
wir, dass das Integral µ[f ] existiert, f ist aber nicht integrierbar.
Bemerkung 2.3 (Wohldefiniertheit des Integrals von Elementarfunktionen).
Das Integral einer Elementarfunktion hängt nicht von der Darstellung ab.
P
P
Ist f = ni=1 αi 1Ai = m
j=1 β j 1B j für disjunkte Mengen A1 , . . . , An ∈ A und
α 1 , . . . , αn ∈ R, und disjunkte Mengen B 1 , . . . , Bm ∈ A und β 1 , . . . , βm , dann
muss gelten ∪i Ai = ∪j B j und αi = β j wenn Ai ∩ B j , ∅. Es folgt
f =
n X
m
X
αi 1Ai ∩B j ,
i=1 j=1
und
µ[f ] =
n
X
i=1
αi
m
X
j=1
µ (Ai ∩ B j ) =
n
X
i=1
n
X
αi µ ∪m
(B
∩
A
)
=
αi µ (Ai ).
j
i
j=1
Mit einem symmetrischen Argument zeigt man µ[f ] =
i=1
Pm
j=1 β j µ (B j ).
Satz 2.4 (Einfache Eigenschaften des Integrals). Es seien f und д messbare
Funktionen. Dann gelten folgende Aussagen.
48
2.1 Definition des Lebesgue- oder Maßintegrals
1. Ist f ≤ д, d.h. f (ω) ≤ д(ω) für alle ω ∈ Ω, dann gilt
µ[f ] ≤ µ[д]
(2.1)
im folgenden Sinne:
(i) existiert µ[f ] > −∞, dann existiert µ[д] und (2.1) gilt;
(ii) existiert µ[д] < ∞, dann existiert µ[f ] und (2.1) gilt.
Insbesondere gilt (2.1) wenn beide beide Integrale existieren.
2. Falls µ[f ] existiert und c ∈ R ist, so existiert auch µ[c f ] und es gilt
µ[c f ] = cµ[f ].
(2.2)
µ[f ] ≤ µ[| f |].
(2.3)
3. Existiert µ[f ], so gilt
Beweis. 1.: Seien f , д ≥ 0. Für einfache Funktion s mit 0 ≤ s ≤ f folgt
0 ≤ s ≤ д und damit ist µ[f ] ≤ µ[д].
Sind f , д beliebige messbare Funktionen mit f ≤ д, so folgt f + ≤ д+ und
−
f ≥ д− . Betrachten wir zunächst den Fall 1.(i), d.h.
µ[f ] = µ[f + ] − µ[f − ] > −∞.
Dann ist µ[д− ] ≤ µ[f − ] < ∞, d.h. µ[д] existiert und es gilt
µ[д] = µ[д+ ] − µ[д− ] ≤ µ[f + ] − µ[f − ] = µ[f ].
Den Fall 1.(ii) zeigt man analog.
2.: Für einfache Funktionen sowie für c = 0 ist die Aussage klar nach
Definition des Integrals. Sei f ≥ 0, c > 0. Dann ist
(
)
µ[c f ] = sup µ[s] : s einfach , 0 ≤ s ≤ c f
(
)
s
= sup cµ[s/c] : s einfach , 0 ≤ ≤ f
c )
(
= c sup µ[s] : s einfach , 0 ≤ s ≤ f
= cµ[f ].
49
2.1 Definition des Lebesgue- oder Maßintegrals
Sei f = f + − f − beliebig und c > 0. Dann gilt
µ[c f ] = µ[c f + ] − µ[c f − ] = cµ[f + ] − cµ[f − ] = cµ[f ].
Sei f = f + − f − beliebig und c < 0. Dann gilt (c f ) + = −c f − und (c f ) − = −c f + .
Es folgt
µ[c f ] = µ[(c f ) + ] − µ[(c f ) − ] = µ[−c f − ] − µ[−c f + ]
= −cµ[f − ] + cµ[f + ] = cµ[f ].
3.: Es gilt −| f | ≤ f ≤ | f |. Mit 1. und 2. erhalten wir
µ[−| f |] ≤ µ[f ] ≤ µ[| f |]
und
−µ[| f |] ≤ µ[f ] ≤ µ[| f |]
und es folgt µ[f ] ≤ µ[| f |].
Ist f eine messbare Funktion und A ∈ A, so ist f 1A messbar und wir
definieren wie folgt Integrale über (messbare) Teilmengen von Ω:
Z
Z
f dµ B
f 1A dµ = µ[f 1A ].
A
Ω
Satz 2.5. Ist f eine messbare Funktion, deren Integral µ[f ] existiert, dann wird
durch
Z
ν (B) B ν f (B) B
f dµ, B ∈ A
B
eine σ -additive Funktion auf A definiert. Insbesondere ist ν ein Maß auf A,
wenn f nichtnegativ ist.
P
Beweis. Sei f = ni=1 αi 1Ai eine nichtnegative einfache Funktion. Dann ist
ν (B) = µ
n
X
i=1
αi 1Ai 1B = µ
n
X
i=1
αi 1Ai ∩B =
n
X
αi µ (Ai ∩ B)
i=1
und die σ -Additivität von ν folgt aus der σ -Additivität von µ.
50
2.1 Definition des Lebesgue- oder Maßintegrals
Ist f ≥ 0 und B 1 , B 2 , . . . paarweise disjunkte Mengen aus A mit B = ∪n Bn .
Für einfache Funktion s mit 0 ≤ s ≤ f gilt
X
X
X
µ[s 1B ] =
µ[s 1Bn ] ≤
µ[f 1Bn ] =
ν (Bn )
n
n
n
und es folgt
(
) X
ν (B) = µ[f 1B = sup µ[s 1B : 0 ≤ s ≤ f , s einfach ≤
ν (Bn ).
n
Es bleibt ν (B) ≥ n ν (Bn ) zu zeigen. Wegen ν (Bn ) = µ[f 1Bn ] ≤ µ[f 1B ] =
ν (B) können wir ohne Einschränkung ν (Bn ) < ∞ für alle n annehmen. Ansonsten ist die zu beweisende Ungleichung trivialerweise erfüllt. Zu ε > 0 und
n ∈ N wähle eine einfache Funktion s mit 0 ≤ s ≤ f und
P
ε
µ[f 1Bi ] ≤ µ[s 1Bi ] + , i = 1, . . . , n.
n
Dann gilt
f
g
∞
ν (B) = ν ∪i=1
Bi ≥ ν ∪ni=1 Bi = µ f 1∪ni=1 Bi
n
f
g X
≥ µ s 1∪ni=1 Bi =
µ[s 1Bi ]
≥
n
X
µ[f 1Bi ] −
i=1
=
n
X
i=1
n
X
i=1
ε
n
ν (Bi ) − ε.
i=1
Die Ungleichung ν (B) ≥ i=1 ν (Bi ) folgt nun mit n → ∞ und ε → 0.
Ist f = f + − f − beliebig, dann gilt
P∞
ν (B) = µ[f 1B ] = µ[f + 1B ] − µ[f − 1B ]
C ν f + (B) − ν f − (B)
und die σ -Additivität von ν folgt aus der σ -Additivität von ν f + und ν f − .
51
2.1 Definition des Lebesgue- oder Maßintegrals
Bemerkung 2.6 (Fast überall bestehende Eigenschaften, Nullmengen). Mengen
N mit µ (N ) = 0 heißen µ-Nullmengen. Man sagt, dass eine Eigenschaft für
Punkte aus Ω µ-fast überall oder für µ fast alle ω (kurz µ-f.ü.) gilt, wenn sie
außerhalb einer µ-Nullmenge gilt. Ist µ ein Wahrscheinlichkeitsmaß so sagen
wir µ-fast sicher (kurz µ-f.s.) statt µ-fast überall.
Für messbare R-wertige Funktionen f und д gilt
f = д µ-f.ü. ⇐⇒ µ ( f , д) = µ ({ω ∈ Ω : f (ω) , д(ω)}) = 0.
Für messbare R-wertige Funktionen f , f 1 , f 2 , . . . gilt
fn ↑ f µ-f.ü. ⇐⇒ µ (Ωc0 ) = 0
für Ω0 B {ω : f 1 (ω) ≤ f 2 (ω) ≤ . . . und limn fn (ω) = f (ω)}.
Ferner gilt
lim fn = f µ-f.ü. ⇐⇒ µ (Ωc0 ) = 0
n
für Ω0 B {ω : limn fn (ω) = f (ω)}. In diesem Fall sagt man, dass die Funktionenfolge ( fn ) µ-f.ü. gegen f konvergiert.
Die meisten Integrationssätze und Konvergenzsaätze für Integrale gelten
auch dann wenn man die Integranden auf einer Nullmenge ändert oder statt
punktweiser Konvergenz nur Konvergenz fast überall voraussetzt.
Lemma 2.7. Es sei (Ω, A, µ) ein Maßraum. Dann gelten folgende Aussagen:
(a) Ist f eine µ-integrierbare R-wertige Funktion auf (Ω, A), dann gilt | f | < ∞
µ-f.ü., und es existiert eine
R R-wertige
R µ-integrierbare Funktion д mit f = д
µ-f.ü. Insbesondere gilt f dµ = д dµ.
(b) Ist f nichtnegativ, so gilt
Z
f dµ = 0
⇐⇒
Beweis. Übung!
f = 0 µ-f.ü.
52
2.1 Definition des Lebesgue- oder Maßintegrals
Satz 2.8 (Monotone Konvergenz, Satz von Beppo Levi). Es seien f , f 1 , f 2 , . . .
nichtnegative messbare R-wertige Funktionen und es gelte fn ↑ f µ-f.ü., d.h.
0 ≤ f 1 ≤ f 2 ≤ . . . µ-f.ü.
und
f = lim fn µ-f.ü.
n
(2.4)
Dann gilt
lim µ[fn ] = µ[f ].
(2.5)
n
Beweis. Nehmen wir zunächst an, dass (2.4) nicht µ-f.ü., sondern punktweise
gilt. Mit Monotonie des Integrals, siehe (2.1), folgt
0 ≤ µ[fn ] ≤ µ[fn+1 ] ≤ µ[f ] für alle n
und somit existiert limn µ[fn ] und es gilt limn µ[fn ] ≤ µ[f ]. Also ist die umgekehrte Ungleichung limn µ[fn ] ≥ µ[f ] zu zeigen.
Sei 0 ≤ s ≤ f einfach mit s < ∞ und sei b ∈ (0, 1). Wegen s (ω) < ∞ und
fn (ω) ↑ f (ω) für alle ω gilt
Bn B {ω : fn (ω) ≥ bs (ω)} ↑ Ω für n → ∞.
Es folgt
m→∞
lim µ[fn ] ≥ µ[fm ] ≥ µ[fm 1Bm ] ≥ µ[bs 1Bm ] = bµ[s 1Bm ] −−−−→ bµ[s].
n
Dabei erhalten wir im letzten Schritt die Konvergenz für m → ∞ mit der
Definition des Integrals einfacher Funktionen (s 1Bm ist eine einfache Funktion)
und aufsteigender Stetigkeit von µ.
Supremumsbildung über s liefert
lim µ[fn ] ≥ bµ[f ], b ∈ (0, 1)
n
und mit b → 1 folgt die Behauptung für den Fall, dass (2.4) punktweise gilt.
In dem allgemeinen Fall sei N die Menge aller Punkte aus Ω, für die mindestens eine der Beziehungen in (2.4) nicht erfüllt ist. Dann ist N als eine
abzählbare Vereinigung von Nullmengen eine Nullmenge und es gilt (punktweise)
0 ≤ f 1 1N c ≤ f 2 1N c ≤ . . .
und
53
f 1N c = lim fn 1N c .
n
(2.6)
2.1 Definition des Lebesgue- oder Maßintegrals
Mit dem obigen Argument und Lemma 2.7 erhalten wir
lim µ[fn ] = lim µ[fn 1N c ] = µ[f 1N c ] = µ[f ].
n
n
Zusammen mit Satz 2.4(ii) zeigt das folgende Resultat die Linearität der
Integrals.
Satz 2.9 (Additivitätssatz). Es seien f und д Borel-messbare (R-wertige) Funktionen, so dass f + д wohldefiniert ist (für kein ω ist f (ω) + д(ω) von der Form
∞ − ∞ oder −∞ + ∞). Existieren die Integrale µ[f ] und µ[д] und ist µ[f ] + µ[д]
wohldefiniert, dann gilt
µ[f + д] = µ[f ] + µ[д].
(2.7)
Sind insbesondere f und д integrierbar, so ist f + д integrierbar und es gilt (2.7).
Beweis. Sind f und д einfach, so ist die Aussage klar nach Definition.
Seien f , д nichtnegativ und seien sn und tn einfache Funktionen mit sn ↑ f ,
tn ↑ д und somit (sn + tn ) ↑ ( f + д). Da sn und tn einfach sind, gilt µ[sn + tn ] =
µ[sn ] + µ[tn ]. Mit dem Satz von der monotonen Konvergenz folgt
µ[f + д] = lim µ[sn + tn ] = lim (µ[sn ] + µ[tn ]) = µ[f ] + µ[д].
n
n
Als nächstes betrachten wir Funktionen mit unterschiedlichen Vorzeichen.
Sei f ≥ 0, д ≤ 0 und h = f + д ≥ 0 (д muss also endlich sein). Dann ist
f = h + (−д) eine Summe nichtnegativer messbarer Funktionen und daher
gilt µ[f ] = µ[h] − µ[д]. Wenn µ[д] endlich ist, dann ist µ[h] = µ[f ] + µ[д].
Wenn µ[д] = −∞, dann folgt (wegen h ≥ 0) µ[f ] ≥ −µ[д] = ∞, was aber der
Voraussetzung widerspricht. Analog zeigt man die Additivität, wenn f ≥ 0,
д ≤ 0 und h ≤ 0 gilt.
Für beliebige f und д setzen wir h = f + д, h ist nach Voraussetzung
wohldefiniert, und zerlegen Ω in folgende disjunkte Mengen
E1
E2
E3
E4
E5
E6
=
=
=
=
=
=
{ω
{ω
{ω
{ω
{ω
{ω
:
:
:
:
:
:
f (ω)
f (ω)
f (ω)
f (ω)
f (ω)
f (ω)
≥ 0,
≥ 0,
≥ 0,
< 0,
< 0,
< 0,
д(ω)
д(ω)
д(ω)
д(ω)
д(ω)
д(ω)
54
≥ 0},
< 0, h(ω)
< 0, h(ω)
≥ 0, h(ω)
≥ 0, h(ω)
< 0}.
≥ 0},
< 0},
≥ 0},
< 0},
2.1 Definition des Lebesgue- oder Maßintegrals
Mit den obigen Argumenten folgt
Nach Satz 2.5 gilt
µ[f ] =
6 Z
X
i=1
Ei
f dµ
R
Ei
h dµ =
und
R
Ei
µ[д] =
f dµ +
6 Z
X
i=1
Ei
R
Ei
д dµ, i = 1, . . . , 6.
д dµ.
P6 R
Es folgt µ[f ] + µ[д] = i=1
h dµ. Die rechte Seite ist nach Satz 2.5 gleich
Ei
µ[h], wenn µ[h] existiert.
R
Angenommen es gilt µ[h + ] = µ[h − ] = ∞. Dann gibt es i, j mit E h dµ = ∞
R
R
R i
und E h dµ = −∞. Dann muss aber einerseits E f dµ = ∞ oder E д dµ = ∞
j
i
i
und damit µ[f ] = ∞ oder µ[д] = ∞ gelten. Analog muss µ[f ] = −∞ oder
µ[д] = −∞ gelten. Damit haben wir ein Widerspruch zur Voraussetzung, dass
µ[f ] + µ[h] wohldefiniert ist.
Satz 2.10 (Erweiterter Satz von monotoner Konvergenz). Seien д1 , д2 , . . . , д
und h Borel-messbare Funktionen. Dann gelten folgende Aussagen:
(a) Wenn µ[h] > −∞, дn ≥ h für alle n µ-f.ü. und дn ↑ д µ-f.ü. gilt, dann folgt
µ[дn ] ↑ µ[д].
(b) Wenn µ[h] < ∞, дn ≤ h für alle n µ-f.ü. und дn ↓ д µ-f.ü. gilt, dann folgt
µ[дn ] ↓ µ[д].
Beweis. Übung!
Satz 2.11 (Lemma von Fatou). Es seien f 1 , f 2 , . . . Borel-messbare Funktionen.
Dann gelten folgende Aussagen
(a) Ist fn ≥ f µ-f.ü. für alle n, wobei µ[f ] > −∞ ist, so ist
g
f
lim inf µ[fn ] ≥ µ lim inf fn .
(2.8)
(b) Ist fn ≤ f µ-f.ü. für alle n, wobei µ[f ] < ∞ ist, so ist
f
g
lim sup µ[fn ] ≤ µ lim sup fn .
(2.9)
n→∞
n→∞
n→∞
n→∞
55
2.1 Definition des Lebesgue- oder Maßintegrals
Beweis. (a) Wir setzen дn = inf k ≥n fk , д = lim inf fn . Dann gilt дn ≥ f für
alle n und дn ↑ д µ-f.ü. Wegen µ[f ] > −∞ ist nach dem Satz von monotoner
Konvergenz (Satz 2.10)
f
g
µ[дn ] ↑ µ lim inf fn
n→∞
und mit дn ≤ fn µ-f.ü. folgt
f
g
µ lim inf fn = lim µ[дn ] = lim inf µ[дn ] ≤ lim inf µ[fn ].
n→∞
n→∞
n→∞
n→∞
(b) Mit (a) gilt
f
g
f
g
µ lim sup fn = −µ lim inf (−fn ) ≥ − lim inf µ[(−fn )] = lim sup µ[fn ].
n→∞
n→∞
n→∞
n→∞
Mit dem Lemma von Fatou können wir nun einen sehr wichtigen Satz zeigen
mit dem man das Vertauschen von Grenzwerten und Integration begründen
kann.
Satz 2.12 (Satz von der majorisierten Konvergenz von Lebesgue). Es sei
f 1 , f 2 , . . . eine Folge messbarer Funktionen mit | fn | ≤ д µ-f.ü., wobei д integrierbar ist. Gilt fn → f µ-f.ü., dann sind f , f 1 , f 2 , . . . integrierbar und es gilt
limn→∞ µ[fn ] → µ[f ].
Beweis. Nach Voraussetzung sind die Funktionen | fn | integrierbar. Weil jedes
fn messbar ist, ist es damit auch integrierbar. Daher ist auch f = lim supn fn =
lim inf n fn integrierbar.
Mit dem Lemma von Fatou folgt
g
f
g
f g
f g
f
µ lim inf fn ≤ lim inf µ fn ≤ lim sup µ fn ≤ µ lim sup fn .
n→∞
n→∞
n→∞
n→∞
Nach Voraussetzung ist lim inf n→∞ fn = lim supn→∞ fn = f µ-f.ü. Also sind
alle Terme in dem obigen Display gleich µ[f ].
Beispiel 2.13. Auf (R, B(R), λ) gilt für die Funktionen fn = n2 1 (0,n−1 ) und
f ≡0
fn (x ) → f (x ) für alle x ∈ R.
56
2.1 Definition des Lebesgue- oder Maßintegrals
R
R
Es gilt aber f dλ = 0 und fn dλ = n. Zum einen zeigt dieses Beispiel,
dass die Ungleichung (2.8) strikt sein kann und die Ungleichung (2.9) ohne
die Voraussetzung, dass die fn durch eine integrierbare Majorante beschränkt
sind, nicht zu gelten braucht. Zum anderen (all das hängt miteinander zusammen) zeigt dieses Beispiel auch, dass man im Satz von Lebesgue nicht auf die
Voraussetzung | fn | ≤ д für eine integrierbare Funktion д verzichten kann.
Bemerkung 2.14 (Lebesgue-Integral versus Riemann-Integral). Wenn eine
Funktion f auf einem Intervall I = [a, b] Riemann-integrierbar ist, dann kann
man zeigen (vgl. Abschnitt 4.3 in Klenke (2013)), dass sie auch Lebesgueintegrierbar ist und dass dann beide Integrale übereinstimmen:
Z
Z b
f dλ =
f (x ) dx .
I
a
Berechnungen von Lebesgue-Integralen von Funktionen versucht man daher
typischerweise auf die entsprechenden Riemann-Integrale zurückzuführen.
Das funktioniert oft auch für nicht Riemann-integrierbare Funktionen indem
man die zu integrierende Funktion auf einer Lebesgue Nullmenge verändert
und dann Lemma 2.7 benutzt.
Diese Überlegung zeigt aber auch, dass es Lebesgue-integrierbare Funktionen gibt, die nicht Riemann-integrierbar sind. So kann man z.B. leicht zeigen,
dass die Ober- und Untersummen der Dirichletschen Sprungfunktion (siehe Übung 2.2) nicht gegen denselben Wert konvergieren. Sie ist also nicht
Riemann-integrierbar. Man kann jedoch zeigen, dass sie Lebesgue-integrierbar
ist.
Aus der Analysis ist bekannt, dass
Z t
π
sin x
dx =
lim
t→∞ 0
x
2
gilt.
R nπ Die Existenz des Grenzwertes folgt mit dem Leibniz-Kriterium, denn
x −1 sin x dx haben alternierende Vorzeichen und konvergieren gegen
(n−1)π
Null. Also ist die Funktion x 7→ x −1 sin x uneigentlich Riemann-integrierbar.
Sie ist jedoch nicht Lebesgue-integrierbar, weil sowohl Integrale über Positiv
und Negativteil unendlich sind.
R
Beispiel 2.15. Es ist bekannt, dass Γ(t ) B (0,∞) x t−1e −x λ(dx ) existiert und
außerdem endlich und differenzierbar auf (0, ∞) ist. Mit Hilfe des Satzes von
57
2.2 Satz von Radon-Nikodým
majorisierter Konvergenz können wir
Z
Z
d
d t−1 −x
t−1 −x
x e λ(dx )
x e λ(dx ) =
dt (1,∞)
(1,∞) dt
(2.10)
zeigen. Für t > 0 gilt
d t−1 −x
x t−1+1/ne −x − x t−1e −x
(x e ) = lim
= lim nx t−1e −x (x 1/n − 1). (2.11)
n→∞
n→∞
dt
1/n
Wir setzen f (x, t ) = dtd (x t−1e −x ) und fn (x, t ) = nx t−1e −x (x 1/n − 1), x > 1.
Es gilt fn ≥ 0 (da x > 1 ist). Um den Satz von Lebesgue verwenden zu
können, brauchen wir eine integrierbare Majorante д mit fn ≤ д für alle n. Sei
yn (x ) = n(x 1/n − 1), sodass fn (x, t ) = x t−1e −x yn (x ) gilt. Die Funktionen yn sind
konkav, denn es gilt yn00 (x ) = (1/n −1)x 1/n−2 ≤ 0. Damit folgt yn (x ) ≤ x −1 < x
für x ∈ (0, ∞), denn x 7→ x − 1 ist die Steigungstangente durch den Punkt
(1, yn (1)) für jedes yn .
Es gilt fn (t, x ) ≤ д(t, x ) für д(t, x ) = x t e −x . Außerdem ist д bezüglich x
integrierbar, denn es gilt
Z
Z
Z
t −x
д(t, x ) λ(dx ) =
x e λ(dx ) ≤
x t e −x λ(dx ) = Γ(t + 1) < ∞.
(1,∞)
(1,∞)
(0,∞)
Mit dem Satz von Lebesgue folgt nun (2.10).
2.2 Satz von Radon-Nikodým
Es sei (Ω, A, µ) ein Maßraum und f eine Borel-messbare Funktion auf Ω
Rderen Integral µ[f ] existiert. In Satz 2.5 haben wir gesehen, dass durch ν (B) =
f dµ eine σ -additive Mengenfunktion auf A definiert wird (siehe Übung 2.6
B
zu Integration bezüglich ν ). Die Funktion f heißt dann Dichte von ν bezüglich
µ oder µ-Dichte von ν . Für jedes A ∈ A mit µ (A) = 0 gilt ν (A) = 0. Ziel dieses
Abschnittes ist der Beweis einer Umkehrung dieser Aussage.
Definiert man ν wie oben, so gibt es nach Voraussetzung keine Mengen
A, B ∈ A mit ν (A) = −∞ und ν (B) = +∞. Ansonsten würde das Integral µ[f ]
nicht existieren. Im Allgemeinen kann ν auch negative Werte annehmen.
Definition 2.16 (Signierte Maße). Eine σ -additive Mengenfunktion ν : A →
R heißt signiertes Maß auf A, wenn ν (A) < ∞ für alle A ∈ A, oder ν (A) > −∞
für alle A ∈ A gilt.
58
2.2 Satz von Radon-Nikodým
Wenn es ein A mit ν (A) < ∞ gibt, so folgt mit σ -Additivität ν (∅) = 0 (vgl.
Übung 1.12). Analoges folgt, wenn es ein A mit ν (A) > −∞ gibt. Insbesondere
gilt stets ν (∅) = 0, wenn ν ein signiertes Maß ist. Der folgende Satz zeigt, dass
signierte Maße ihr Minimum und Maximum auf A annehmen.
Satz 2.17. Es sei ν ein signiertes Maß. Dann existieren C, D ∈ A mit
ν (C) = sup ν (A)
A∈A
und ν (D) = inf ν (A).
A∈A
(2.12)
Bemerkung 2.18. Wenn ν ein Maß ist dann, ist die Aussage des Satzes 2.17 mit
C = Ω und D = ∅R trivial.
Wenn ν (B) = B f dµ, B ∈ A wie in Satz 2.5 ist, so gilt
ν (B) = ν (B ∩ { f ≥ 0}) + ν (B ∩ { f < 0}).
Mit D = { f < 0} und C = { f ≥ 0} gilt die Aussage des Satzes 2.17, denn es ist
D, C ∈ A und
ν (D) ≤ ν (B) ≤ ν (C), B ∈ A.
Beweis von Satz 2.17. Wir zeigen erst die Existenz von C ∈ A mit
ν (C) = sup ν (A) C sup ν .
A∈A
Ohne Einschränkung können wir annehmen, dass ν (A) < ∞ für alle A ∈ A
ist. Ansonsten ist nichts zu zeigen.
Erst wählen wir A1 , A2 , . . . mit ν (An ) → sup ν für n → ∞ und setzen
A = ∪n An . Für jedes n kann man A als Vereinigung von 2n disjunkten Mengen
der Form
Aδn
(n)
δ
(n)
δ
(n)
= A11 ∩ . . . ∩ Ann , δ (n) = (δ 1(n) , . . . , δn(n) ) ∈ {0, 1}n
schreiben, wobei
(n)

Ai
δ
Ai i = 
A \ Ai

: wenn δi(n) = 1,
: wenn δi(n) = 0.
59
2.2 Satz von Radon-Nikodým
Für n = 1 ist A = A01 ∪ A11 = A1 ∪ (A \ A1 ). Für n = 2 ist
A = A2(0,0) ∪ A2(1,0) ∪ A2(0,1) ∪ A2(1,1)
= ((A \ A1 ) ∩ (A \ A2 )) ∪ (A1 ∩ (A \ A2 )) ∪ ((A \ A1 ) ∩ A2 ) ∪ (A1 ∩ A2 ).
S
(n)
(n)
(n)
Sei Bn = δ (n) {Aδn : ν (Aδn ) ≥ 0} und Bn = ∅ falls ν (Aδn ) < 0 für alle δ (n) .
(n)
Nach Konstruktion ist An eine disjunkte Vereinigung von Aδn ’s. Also gilt
ν (An ) ≤ ν (Bn )
und es folgt mit aufsteigender Stetigkeit von ν , Proposition 1.27,
r →∞
∞
ν (An ) ≤ ν (Bn ) ≤ ν (∪rk=n Bk ) −−−−→ ν (∪k=n
Bk ).
∞ ∪∞ B gilt ∪∞ B ↓ C und 0 ≤ ν (∪∞ B ) < ∞ für
Für C = lim sup Bn = ∩n=1
k=n k
k=n k
k=n k
∞
alle n. Mit absteigender Stetigkeit von ν folgt ν (∪k=n Bk ) → ν (C). Insgesamt
gilt
∞
sup ν = lim ν (An ) ≤ lim ν (∪k=n
Bk ) = ν (C) ≤ sup ν .
n→∞
n→∞
Also ist ν (C) = sup ν .
Um zu zeigen, dass ein D ∈ A mit ν (D) = inf A∈A ν (A) C inf ν gibt
wenden wir das obige Argument auf −ν an. Danach existiert ein D ∈ A mit
−ν (D) = sup(−ν ), d.h. ν (D) = inf ν.
Satz 2.19 (Hahn-Jordan-Zerlegung). Es sei ν ein signiertes Maß auf A, und
seien Mengenfunktionen ν + und ν − auf A definiert durch
ν + (A) B sup{ν (B) : B ∈ A, B ⊂ A},
ν − (A) B − inf {ν (B) : B ∈ A, B ⊂ A}.
Dann sind ν + und ν − Maße auf A und es gilt ν = ν + − ν − .
Definition 2.20. Die Maße ν + und ν − in der Hahn-Jordan-Zerlegung heißen
Positivteil bzw. Negativteil von ν und |ν | B ν + + ν − heißt Totalvariation von ν .
Ein signiertes Maß heißt σ -endlich, wenn das Maß |ν | σ -endlich ist.
60
2.2 Satz von Radon-Nikodým
Beweis von Satz 2.19. Wir können annehmen, dass ν (A) > −∞ für alle A ∈ A.
Falls ν (A) = −∞ für ein A ist, dann ist ν (A) < ∞ für alle A und wir können
den Beweis für −ν statt ν führen.
Wähle D ∈ A wie in Satz 2.17, d.h. ν (D) = inf A∈A ν (A). Wegen ν (∅) = 0
gilt −∞ < ν (D) ≤ 0.
Als erstes zeigen wir
ν (A ∩ D) ≤ 0 und ν (A ∩ Dc ) ≥ 0 für alle A ∈ A.
(2.13)
Wenn ν (A ∩ D) > 0 wäre, dann würde ν (D) = ν (A ∩ D) + ν (Ac ∩ D)
gelten woraus man ν (Ac ∩ D) = ν (D) − ν (A ∩ D) < ν (D) erhält. Dies ist
ein Widerspruch zu ν (D) = inf ν. Wenn ν (A ∩ D) < 0 wäre, dann würde
ν (D∪(A∩Dc )) = ν (D)+ν (A∩Dc ) < ν (D) gelten, was wieder zum Widerspruch
führt.
Nun zeigen wir
ν + (A) = ν (A ∩ Dc ),
ν − (A) = −ν (A ∩ D).
(2.14)
Das wird den Satz beweisen, denn dann ist
ν (A) = ν (A ∩ Dc ) − (−ν (A ∩ D)) = ν + (A) − ν − (A).
Für B ∈ A, B ⊂ A gilt mit (2.13)
ν (B) = ν (B ∩ D) + ν (B ∩ Dc )
≤ ν (B ∩ Dc )
≤ ν (B ∩ Dc ) + ν ((A \ B) ∩ Dc )
= ν (A ∩ Dc ).
Damit ist ν + (A) ≤ ν (A ∩ Dc ). Die umgekehrte Ungleichung ν + (A) ≥ ν (A ∩ Dc )
gilt nach Definition von ν + . Insgesamt haben wir also die erste Gleichung in
(2.14) gezeigt. Der Beweis der zweiten Gleichung ist ähnlich. Es gilt
ν (B) = ν (B ∩ D) + ν (B ∩ Dc )
≥ ν (B ∩ D)
≥ ν (B ∩ D) + ν ((A \ B) ∩ D)
= ν (A ∩ D).
Also folgt −ν − (A) ≥ ν (A ∩ D). Da die umgekehrte Ungleichung −ν − (A) ≤
ν (A ∩ D) nach Definition von ν − gilt folgt auch die zweite Gleichung in (2.14),
was den Beweis des Satzes abschließt.
61
2.2 Satz von Radon-Nikodým
Definition 2.21 (Absolutstetigkeit von Maßen). Ist µ ein Maß und ν ein
signiertes Maß auf A und gilt ν (A) = 0 für alle A ∈ A mit µ (A) = 0, dann
heißt ν absolut-stetig bezüglich µ (man sagt auch ν wird von µ dominiert). In
diesem Fall schreiben wir ν µ.
Satz 2.22 (Radon-Nikodým). Es sei µ ein σ -endliches Maß und ν ein σ -endliches
signiertes Maß auf A mit ν µ. Dann existiert eine Borel-messbare Funktion
f : Ω → R mit
Z
ν (A) =
f dµ für alle A ∈ A.
(2.15)
A
Ist д eine andere Funktion mit dieser Eigenschaft, dann gilt f = д µ-f.ü.
Bemerkung 2.23. Eine Funktion f , die (2.15) erfüllt, heißt µ-Dichte von ν . Andere gebräuchliche Namen sind Radon-Nikodým Dichte oder Radon-Nikodým
Ableitung. Man schreibt dann oft f = dν/dµ. Die Aussage des Satzes von
Radon-Nikodým gilt (allgemeiner als wir es formuliert haben) für beliebige
(nicht notwendigerweise σ -endliche) signierte Maße ν , die absolut-stetig bezüglich einem σ -endlichen Maß µ sind. Für einen Beweis dieser allgemeinen
Version verweisen wir auf Theorem 2.2.1 in Ash (2000).
Der Beweis des Satzes von Radon-Nikodým besteht aus einem Existenz
und einem Eindeutigkeitsbeweis. Wir starten mit dem Letzteren. Die µ-f.ü.
Eindeutigkeit der Dichte im Satz von Radon-Nikodým folgt aus dem folgenden
Resultat, das eine Umkehrung der Aussage
Z
Z
f = д µ-f.ü. ⇒ ∀A ∈ A :
f dµ =
д dµ
A
A
ist.
Lemma 2.24. Es sei (Ω, A, µ) ein Maßraum und seien f und д Borel-messbare
Funktionen. Dann gelten folgende Aussagen
R
R
(i) Sind f und д nichtnegativ, µ σ -endlich, und gilt A f dµ = A д dµ für alle
A ∈ A, so gilt f = д µ-f.ü.
R
R
(ii) Sind f und д integrierbar und gilt A f dµ = A д dµ für alle A ∈ A, so gilt
f = д µ-f.ü.
62
2.2 Satz von Radon-Nikodým
R
R
(iii) Sind f und д integrierbar mit A f dµ = A д dµ für alle A ∈ E, wobei E
ein schnittstabiler Erzeuger von A ist und Ω eine höchstens abzählbare
Vereinigung von Mengen aus E ist, so gilt f = д µ-f.ü.
R
R
Beweis. (i) Seien f und д nichtnegativ mit A f dµ ≤ A д dµ für alle A ∈ A.
Wenn µ σ -endlich ist, dann gibt es Mengen Ωn ∈ A mit Ωn ↑ Ω und µ (Ωn ) <
∞. Für Bn = {0 ≤ д < f , д ≤ n} folgt dann
Z
Z
f dµ ≤
д dµ < ∞,
Ωn ∩Bn
Ωn ∩Bn
R
und damit 1Ωn ∩Bn ( f −д) dµ = 0. Nach Lemma 2.7(b) folgt 1Ωn ∩Bn ( f −д) = 0
µ-f.ü. Es folgt µ (Ωn ∩ Bn ) = 0 und somit µ (0 ≤ д < f , д < ∞) = 0. Das zeigt
f ≤ д µ-f.ü. und nach Vertauschen der Rollen von f und д erhalten wir f = д
µ-f.ü., was (i) beweist.
R
R
(ii) Sind
f
und
д
integrierbar
und
gilt
f
dµ
≤
д dµ für alle A ∈ A,
A
A
R
so folgt 1{д< f } ( f − д) = 0 und damit µ (д < f ) = 0 nach Lemma 2.7(b).
Vertauschen der Rollen von f und д zeigt wieder
was (ii) beweist.
R f = д µ-f.ü.,
R
(iii) Sind f und д nichtnegativ
R
Rund gilt gilt A f dµ = A д dµ für alle A ∈ E
so folgt mit Satz 1.38 A f dµ = A д dµ für alle A ∈ A und wir erhalten (iii)
in diesem Fall aus (ii). Für beliebige integrierbare f und д folgt nach den
Voraussetzungen von (iii)
Z
Z
Z
Z
+
−
+
f dµ −
f dµ =
д dµ −
д− dµ, A ∈ E
A
A
A
A
und damit
Z
+
A
( f + д ) dµ =
Z
−
A
(д+ + f − ) dµ,
A ∈ E.
Mit dem obigen Argument folgt f + + д− = д+ + f − µ-f.ü. Integrierbarkeit
von f und д impliziert, dass f und д und insbesondere deren Positiv- und
Negativteile µ-f.ü. endlich sind. Damit folgt f = д µ-f.ü.
Beweis von Satz 2.22. Wie wir schon oben gesagt haben, folgt die µ-f.ü. Eindeutigkeit der µ Dichte von ν mit Lemma 2.24. Es bleibt die Existenz zu zeigen.
Diese zeigen wir nacheinander in vier Schritten.
63
2.2 Satz von Radon-Nikodým
Schritt 1: µ und ν endliche Maße. Wir setzen
S = { f ≥ 0 : f integrierbar, µ[1A f ] ≤ ν (A), ∀A ∈ A}
und versehen S mit partieller Ordnung: f ≤ д, wenn f ≤ д µ-f.ü. Ferner
setzen wir s B sup{µ[f ] : f ∈ S} ≤ ν (Ω) < ∞.
Zunächst suchen wir ein maximales Element von S; S ist nichtleer, weil es
die Nullfunktion enthält. Gilt f , д ∈ S, so folgt h = max{ f , д} ∈ S. Um das zu
zeigen, setzen wir B = { f ≥ д} und C = { f < д}. Dann gilt für A ∈ A
µ[1Ah] = µ[1 (A∩B)∪(A∩C)h] = µ[1A∩Bh] + µ[1A∩C h]
≤ ν (A ∩ B) + ν (A ∩ C) = ν (A).
Also ist h ∈ S. Sei f 1 , f 2 , . . . eine Folge in S mit µ[fn ] → s und sei дn =
max{ f 1 , . . . , fn } ∈ S. Nach Konstruktion gilt дn ↑ supn fn C д und mit dem
Satz von monotoner Konvergenz, Satz 2.8, erhalten wir µ[дn ] → µ[д]. Wegen
µ[дn ] ≤ s und µ[дn ] ≥ µ[fn ] → s für n → ∞ folgt µ[д] = s. Bleibt noch д ∈ S
zu zeigen. Sei A ∈ A beliebig. Dann gilt
0 ≤ дn 1A ↑ д1A
und somit
µ[дn 1A ] ↑ µ[д1A ].
Es folgt µ[д1A ] ≤ ν (A), weil µ[дn 1A ] ≤ ν (A) für alle n ist. Also ist д ein
maximales Element von S.
Als nächstes zeigen wir, dass д die gesuchte µ-Dichte von ν ist, dass also
µ[д1A ] = ν (A) für alle A ∈ A gilt. Sei ρ eine Mengenfunktion auf A definiert
durch
ρ (A) = ν (A) − µ[д1A ], A ∈ A.
Dann ist ρ ein Maß mit ρ ν und ρ (Ω) < ∞. Zu zeigen ist ρ (A) = 0 für alle
A ∈ A. Angenommen ρ (Ω) > 0. Dann existiert ein k > 0 mit
µ (Ω) − kρ (Ω) < 0,
(2.16)
insbesondere ist µ − kρ ein signiertes Maß. Sei D ∈ A für dieses signierte Maß
wie in (2.13) gewählt. Dann ist
µ (A ∩ D) − kρ (A ∩ D) ≤ 0, A ∈ A,
µ (A ∩ Dc ) − kρ (A ∩ Dc ) ≥ 0, A ∈ A.
64
(2.17)
(2.18)
2.2 Satz von Radon-Nikodým
Wir zeigen µ (D) > 0. Wäre µ (D) = 0, so würde ρ (D) = 0 folgen und mit
A = Ω in (2.18) folgt mit (2.16)
0 ≤ µ (Dc ) − kρ (Dc ) = µ (Dc ) + µ (D) − k (ρ (Dc ) + ρ (D)) = µ (Ω) − kρ (Ω) < 0,
was zu einem Widerspruch führt. Sei h = k1 1D . Für A ∈ A gilt mit (2.17)
µ[1Ah] =
1
µ (A ∩ D) ≤ ρ (A ∩ D) ≤ ρ (A) = ν (A) − µ[д1A ].
k
Somit ist µ[1A (h + д)] ≤ ν (A), d.h. д + h ∈ S. Da h + д > д auf D ist und
µ (D) > 0 ist es ein Widerspruch dazu, dass д ein maximales Element von S.
Also ist ρ (Ω) = 0.
Schritt 2: µ ein endliches Maß und ν ein σ -endliches Maß. Seien Ω1 , Ω2 , . . .
disjunkte Mengen A so, dass Ω = ∪n Ωn und ν (Ωn ) < ∞ für alle n. Wir
setzen νn (A) = ν (A ∩ Ωn ). Die Maße µ und νn sind endlich. Nach Schritt 1
existieren nichtnegative Funktionen fn mit νn (A) = µ[1A fn ], A ∈ A. Wir
P
setzen fn (ω) = 0 für ω < Ωn . Für f B n fn gilt (vgl. Übung 2.6(a))
X
X f
f
g
g X
µ 1A f = µ
fn 1A =
µ fn 1A =
νn (A) = ν (A).
n
n
n
Also ist f eine µ-Dichte von ν .
Schritt 3: µ und ν beides σ -endliche Maße. Seien Ω1 , Ω2 , . . . disjunkte Mengen
A so, dass Ω = ∪n Ωn und µ (Ωn ) < ∞ für alle n. Nach Schritt 2 gibt es
nichtnegative Funktionen fn mit
f
g
ν (A ∩ Ωn ) = µ 1A∩Ωn fn , A ∈ A.
P
Wir setzen fn (ω) = 0 für ω < Ωn und f B n fn . Dann gilt für alle A ∈ A
X
X f
g X f
g
ν (A) =
ν (A ∩ Ωn ) =
µ 1A∩Ωn fn =
µ 1A 1Ωn fn
n
= µ 1A
f
n
X
n
1Ωn fn = µ 1A f .
g
f
n
Also ist f eine µ-Dichte von ν .
65
g
2.2 Satz von Radon-Nikodým
Schritt 4: µ ein σ -endliches Maß und ν ein σ -endliches signiertes Maß. Sei
ν = ν + − ν − die Hahn-Jordan-Zerlegung von ν mit ν − < ∞ (was wir ohne Einschränkung annehmen können, ansonsten betrachten wir −ν ). Nach
Schritt 3 existieren nichtnegative Funktionen f + und f − mit
ν + (A) = µ[1A f + ] und ν − (A) = µ[1A f − ] A ∈ A.
Da ν − endlich ist, ist f − eine µ-integrierbare und µ-f.ü. endliche Funktion.
Insbesondere sind f = f + − f − und µ[f ] = µ[f + ] − µ[f − ] wohldefiniert und
es gilt
ν (A) = ν + (A) − ν − (A) = µ[1A f + ] − µ[1A f − ] = µ[1A f ].
Also ist f eine µ-Dichte von ν .
Korollar 2.25. Unter den Voraussetzungen von Satz 2.22 gelten folgende Aussagen:
(a) Wenn ν endlich ist, dann ist f µ-integrierbar und damit µ-f.ü. endlich.
(b) Wenn |ν | σ -endlich ist, dann ist f µ-f.ü. endlich.
(c) Wenn ν ein Maß ist, dann gilt f ≥ 0 µ-f.ü.
(d) Wenn ν ein Wahrscheinlichkeitsmaß ist, dann gilt f ≥ 0 µ-f.ü. und µ[f ] = 1.
Beweis. Übung!
Beispiel 2.26. Viele Beispiele von Maßen mit Dichten sollten schon aus der
einführenden Stochastikvorlesung bekannt sein.
(a) Ist λ das Lebesgue Maß und f eine nichtnegative Lebesgue-integrierbare
Funktion. Dann ist natürlich
Z
ν (A) B
f dλ
A
ein Maß auf B(R) mit ν λ und Dichte f .
2
2
(i) Für σ 2 > 0 und µ ∈ R sei f (x ) = √ 1 2 e −(x−µ) /(2σ ) . Dann ist ν die
2πσ
(Gauß’sche) Normalverteilung mit Parametern µ und σ 2 .
66
2.2 Satz von Radon-Nikodým
(ii) Für γ > 0 sei f (x ) = γe −γ x 1[0,∞) (x ). Dann ist ν die Exponentialverteilung mit Parameter γ .
(b) Sei Ω = R und sei µ das Zählmaß auf N0 . Für f : Ω → R+ setzen wir
ν (A) B
∞
X
1A (n) f (n)µ ({n}).
n=0
Für A ∈ B(R) mit µ (A) = 0 ist ν (A) = 0, also ist ν µ und f ist die
Dichte von ν bezüglich µ.
(i) Ist p ∈ [0, 1], f (0) = 1 − p, f (1) = p und f (x ) = 0 für x < {0, 1}, dann
ist ν die Bernoulli-Verteilung mit Parameter p.
(ii) Ist für ein
n n ∈ N und p ∈ [0, 1] die Funktion f gegeben durch
f (x ) = x px (1 − p)n−x für x ∈ {0, 1, . . . , n} und f (x ) = 0 sonst, so
ist ν die Binomialverteilung mit Parametern n und p.
(iii) Ist γ > 0 und f (x ) = e −γ γ x /x! für x ∈ N0 und f (x ) = 0 sonst, so ist
ν die Poissonverteilung mit Parameter γ .
Oben haben wir Beispiele von diskreten und stetigen Dichten gesehen. Abzählbare (oder endliche) Teilmengen von R sind Lebesgue-Nullmengen damit
hat jede der drei Wahrscheinlichkeitsverteilungen in Beispiel 2.26(b) volle
Masse, nämlich 1, auf einer Lebesgue Nullmenge. Umgekehrt ist beispielsweise
das offene Intervall (0, 1) eine Nullmenge bezüglich dem Zählmaß auf N0 ,
aber keine Nullmenge bezüglich dem Lebesgue-Maß und den Wahrscheinlichkeitsverteilungen in Beispiel 2.26(a). Insbesondere sind das Zählmaß und das
Lebesgue-Maß auf unterschiedlichen Mengen konzentriert. Was damit gemeint
ist schauen wir uns zum Abschluss dieses Abschnittes genauer an.
Definition 2.27 (Singuläre Maße). Zwei Maße µ 1 und µ 2 auf einer σ -Algebra
A heißen singulär (zueinander), wenn es eine Menge A ∈ A gibt mit µ 1 (A) = 0
und µ 2 (Ac ) = 0. Wir schreiben dann µ 1 ⊥ µ 2 . Sind ν 1 und ν 2 signierte Maße,
dann heißen sie singulär (zueinander), wenn |ν 1 | ⊥ |ν 2 | gilt. Auch in diesem
Fall schreiben wir dann ν 1 ⊥ ν 2 .
67
2.2 Satz von Radon-Nikodým
Lemma 2.28. Es sei µ ein Maß und ν , ν 1 , ν 2 signierte Maße auf einer σ -Algebra
A. Dann gelten folgende Aussagen:
(i) ν 1 ⊥ µ, ν 2 ⊥ µ ⇒ ν 1 ± ν 2 ⊥ µ, (sofern ν 1 ± ν 2 wohldefiniert ist),
(ii) ν µ
⇐⇒ |ν | µ,
(iii) ν 1 µ, ν 2 ⊥ µ ⇒ ν 1 ⊥ ν 2 ,
(iv) ν µ, ν ⊥ µ ⇒ ν ≡ 0.
Beweis. (i) Nach Voraussetzung gibt es Mengen A, B ∈ A so, dass |ν 1 |(Ac ) =
|ν 2 |(Bc ) = 0 und µ (A) = µ (B) = 0. Dann gilt µ (A ∪ B) = 0 und |ν 1|(C) =
|ν 2 |(C) = 0 für alle C ⊂ Ac ∩ Bc = (A ∪ B)c . Es folgt |ν 1 ± ν 2 | (A ∪ B)c = 0.
(ii) „⇐“: Aus µ (A) = 0 folgt wegen der Absolutstetigkeit |ν |(A) = ν + (A) +
ν − (A) = 0. Damit gilt ν + (A) = ν − (A) = 0 und ν (A) = ν + (A) − ν − (A) = 0, was
ν µ zeigt.
(ii) „⇒“: Für A ∈ A mit µ (A) = 0 folgt wegen der Absolutstetigkeit ν (A) = 0.
Zu zeigen ist ν + (A) = ν − (A) = 0. Angenommen es gilt ν + (A) > 0. Dann ist
nach Hahn-Jordan-Zerlegung (Satz 2.19)
ν + (A) = sup{ν (B) : B ∈ A, B ⊂ A},
also existiert ein B ⊂ A mit ν (B) > 0. Da µ (B) = 0 ist, ist es ein Widerspruch
zu ν µ. Damit gilt ν + (A) = 0. Analog zeigt man ν − (A) = 0.
(iii) Nach Voraussetzung ν 2 ⊥ µ gibt es ein A mit µ (A) = 0 und |ν 2 |(Ac ) = 0.
Wegen ν 1 µ und (ii) folgt |ν 1 |(A) = 0, also |ν 1 | ⊥ |ν 2 |.
(iv) Nach (iii) ist ν ⊥ ν , also existiert ein A mit |ν |(A) = |ν |(Ac ) = 0. Es folgt
|ν |(Ω) = 0.
Satz 2.29 (Zerlegungssatz von Lebesgue). Es sei (Ω, A) ein messbarer Raum,
µ ein σ -endliches Maß und ν ein σ -endliches signiertes Maß auf A. Dann hat
ν eine eindeutige Zerlegung ν = ν 1 + ν 2 , wobei ν 1 , ν 2 signierte Maße sind mit
ν 1 µ und ν 2 ⊥ µ.
Beweis. Wir beweisen hier nur die Existenz der Zerlegung. Der Beweis der
Eindeutigkeit ist eine Übungsaufgabe.
68
2.3 Produktmaße und Satz von Fubini
Zunächst beweisen wir die Existenz einer Zerlegung für den Fall, dass ν ein
σ -endliches Maß ist. Wir setzen λ = µ + ν . Dann ist λ ein σ -endliches Maß
und es gilt µ λ und ν λ. Nach Satz von Radon-Nikodým (Satz 2.22) und
Korollar 2.25(c) gibt es nichtnegative Borel messbare Funktionen f und д mit
Z
Z
µ (A) =
f dλ und ν (A) =
д dλ, A ∈ A.
A
Sei B = { f > 0} (dann ist
A
Bc
= { f = 0}) und definiere für A ∈ A
ν 1 (A) = ν (A ∩ B)
und ν 2 (A) = ν (A ∩ Bc ).
Dann ist ν = ν 1 + ν 2 und es gilt ν 1 µ undRν 2 ⊥ µ. Um ν 1 µ zu beweisen,
sei A ∈ A mit µ (A) = 0 gegeben. Dann ist A f dλ = 0 und insbesondere ist
f 1A = 0 λ-f.ü. Auf A ∩ B ist aber f > 0 also muss λ(A ∩ B) = 0 gelten und
damit auch λ 1 (A) = 0, d.h. wir haben ν 1 µ gezeigt.
R
Die Aussage ν 2 ⊥ µ folgt aus ν 2 (B) = ν 2 (∅) = 0 und µ (Bc ) = Bc 0 dλ = 0.
Ist ν ein σ -endliches signiertes Maß, dann wenden wir das obige Argument
auf ν + und ν − an und erhalten so eine Zerlegung ν = ν 1 + ν 2 B (ν 1+ − ν 1− ) +
(ν 2+ − ν 2− ) mit (ν 1+ − ν 1− ) µ und (ν 2+ − ν 2− ) ⊥ µ.
Bemerkung 2.30. Nach unserer Diskussion vor dem Satz 2.29 ist klar, dass
diskrete Wahrscheinlichkeitsmaße, also Maße deren Verteilungsfunktionen
nur durch Sprünge wachsen stets singulär zum Lebesgue-Maß auf R sind.
Es gibt aber Beispiele von Wahrscheinlichkeitsmaßen die singulär zum
Lebesgue-Maß sind, obwohl sie eine stetige Verteilungsfunktion haben. Ein
solches Beispiel ist die Cantor-Funktion und das dazugehörige Wahrscheinlichkeitsmaß (vgl. Beispiel 8.7 auf S. 73 in Elstrodt (2011)).
Im Allgemeinen wird ein Wahrscheinlichkeitsmaß auf R einen „diskreten“,
einen „singulär-stetigen“ und einen „absolutstetig-stetigen“ Anteil bezüglich
dem Lebesgue-Maß haben.
2.3 Produktmaße und Satz von Fubini
Es sein (X , X) und (Y , Y) messbare Räume und seien µ und ν Maße auf diesen
Räumen. In diesem Abschnitt werden wir ein Produktmaß auf X × Y (und
geeigneter σ -Algebra) konstruieren. Gesucht ist also ein Maß π mit
π (A × B) = µ (A)ν (B),
69
A ⊂ X, B ⊂ Y.
2.3 Produktmaße und Satz von Fubini
Im Falle von Lebesgue-Maßen auf R werden wir sehen, dass das zugehörige
Produktmaß das Lebesgue-Maß auf R2 ist. Außerdem werden wir den Satz von
Fubini beweisen mit dessen Hilfe man Mehrfachintegrale als iterierte Integrale
berechnen kann. Zunächst erläutern wir, was die „geeignete“ σ -Algebra auf
dem Produktraum ist.
Definition 2.31. Teilmengen von X × Y von der Form, A × B, A ∈ X, B ∈ Y
heißen messbare Rechtecke in X × Y . Die von den messbaren Rechtecken
erzeugte σ -Algebra heißt Produkt-σ -Algebra und wird mit X ⊗ Y bezeichnet.
Beispiel 2.32. Seien X = Y = R und X = Y = B(R), dann ist ein messbares
Rechteck ein Kartesisches Produkt A × B zweier Borel-Mengen A und B auf
R. Die Menge der messbaren Rechtecke enthält die Menge der halboffenen
Rechtecke von R2 (definiert in (1.15)). Da die halboffenen Rechtecke die Borelσ -Algebra B(R2 ) erzeugen, folgt B(R2 ) ⊂ B(R) ⊗ B(R). Andererseits, wenn
A ein Intervall ist, dann enthält {B ⊂ R : A × B ∈ B(R2 )} die Menge R,
denn es ist A × R = ∪n (A × (−n, n]). Außerdem ist es abgeschlossen bezüglich
Bildung von Komplementen und abzählbaren Vereinigungen. Also ist es eine
σ -Algebra, die alle Intervalle und damit auch Borel-Mengen enthält. Ist nun
B eine Borel-Menge, dann enthält {A ⊂ R : A × B ∈ B(R2 )} alle Intervalle
und ist auch eine σ -Algebra, enthält damit alle Borel-Mengen. Das zeigt, dass
messbare Rechtecke in B(R2 ) sind, also B(R) ⊗ B(R) = B(R2 ).
Beachten Sie, dass X × Y die Menge der messbaren Rechtecke ist und nach
Definition X ⊗ Y = σ (X × Y) gilt. Beachten Sie auch, dass manchmal in der
Literatur mit X × Y die davon erzeugte σ -Algebra bezeichnet wird.
Satz 2.33 (Messbarkeit von Schnitten). (i) Ist E ∈ X ⊗ Y, dann gilt {y :
(x, y) ∈ E} ∈ Y für jedes x ∈ X und {x : (x, y) ∈ E} ∈ X für jedes y ∈ Y .
(ii) Ist f eine bezüglich X ⊗ Y messbare Funktion, dann ist für jedes feste
x ∈ X die Funktion f (x, ·) messbar bezüglich Y und für jedes y ∈ Y ist die
Funktion f (·, y) messbar bezüglich X.
Wir nennen die Menge {y : (x, y) ∈ E} Schnitt von E bei x und die Funktion
f (x, ·) Schnitt von f bei x.
Beweis. Für ein festes x ∈ X betrachten wir die Abbildung Tx : Y → X × Y
definiert durch Tx (y) = (x, y). Ist E = A × B ein messbares Rechteck, dann ist
70
2.3 Produktmaße und Satz von Fubini
Tx−1 (E) = ∅, wenn x < A und Tx−1 (E) = B, wenn x ∈ A. In beiden Fällen gilt
Tx−1 (E) ∈ Y. Nach Satz 1.63(i) ist Tx eine Y-X ⊗ Y messbare Abbildung. Also
ist {y : (x, y) ∈ E} = Tx−1 (E) ∈ Y für E ∈ X ⊗ Y.
Ist nun f eine X ⊗ Y-B(R) messbare Abbildung, dann ist nach Satz 1.63(ii)
die Abbildung f ◦ Tx Y-B(R) messbar, d.h. f (x, ·) = f ◦ Tx (·) ist Y messbar.
Die symmetrischen Aussagen für ein festes y ∈ Y zeigt man analog.
Satz 2.34 (Produktmaßsatz). Es seien (X , X, µ) und (Y , Y, ν ) σ -endliche Maßräume. Dann gibt es ein eindeutiges σ -endliches Maß π auf X ⊗Y mit π (A×B) =
µ (A)ν (B) für messbare Rechtecke A × B.
Definition 2.35 (Produktmaß). Das Maß π aus dem Produktmaßsatz heißt
Produktmaß von µ und ν . Es wird üblicherweise mit µ ⊗ ν bezeichnet.
Beweis von Satz 2.34.
Schritt 1: Existenz für µ und ν endlich. Für E ∈ X ⊗ Y ist nach Satz 2.33
ν ({y : (x, y) ∈ E}) eine wohldefinierte Funktion in x. Sei L die Menge aller
E ∈ X ⊗ Y, für die diese Funktion messbar ist. Dann ist L ein Dynkin-System.
(Beweis ist eine Übung!)
Ist E = A×B ein messbares Rechteck, so gilt ν ({y : (x, y) ∈ E}) = 1A (x )ν (B).
(Dies ist natürlich messbar in x.) Also ist L ein Dynkin-System und enthält
das schnittstabile System messbarer Rechtecke. Nach Satz 1.36 ist L = X ⊗ Y.
Es folgt, dass durch
Z
0
π (E) =
ν ({y : (x, y) ∈ E}) µ (dx ), E ∈ X ⊗ Y,
(2.19)
X
ein endliches Maß auf X ⊗ Y definiert wird. Analog zeigt man, dass durch
Z
00
π (E) =
µ ({x : (x, y) ∈ E}) ν (dy), E ∈ X ⊗ Y,
(2.20)
Y
ein endliches Maß auf X ⊗ Y definiert wird. Für messbare Rechtecke gilt
π 0 (A × B) = π 00 (A × B) = µ (A)ν (B).
(2.21)
Die Familie der Mengen E ∈ X ⊗ Y mit π 0 (E) = π 00 (E) ist nach Beispiel 1.34.1.
ein Dynkin-System. Da diese Familie die schnittstabile Menge der messbaren
Rechtecke enthält, stimmt sie nach Satz 1.36 mit X ⊗ Y überein. Damit ist
π = π 0 = π 00 ein Maß, das die geforderten Eigenschaften hat.
71
2.3 Produktmaße und Satz von Fubini
Schritt 2: Existenz für µ und ν σ -endlich. Seien A1 , A2 , . . . und B 1 , B 2 , . . . disjunkte Zerlegungen von X bzw. Y in Mengen vom endlichen µ bzw. ν Maß.
P
Wir setzen µm (A ∩ Am ) und νn (B) = ν (B ∩ Bn ). Wegen ν (B) = n νn (B) ist der
Integrand in (2.19) auch im σ -endlichen Fall messbar bezüglich X. Also ist
π 0 und mit dem analogen Argument auch π 00 wohldefiniert im σ -endlichen
0 und π 00 die Maße, die mittels (2.19) und (2.20) zu µ und ν
Fall. Seien πmn
m
n
nm
gehören. Nach Schritt 1 folgt
X
X
0
00
π 0 (E) =
πmn
(E) =
πmn
(E) = π 00 (E).
(2.22)
m,n
m,n
Also stimmen pi 0 und π 00 auch im σ -endlichen Fall überein. Außerdem gilt
X
π 0 (A × B) =
µm (A)νn (B) = µ (A)ν (B).
m,n
Damit hat π = π 0 = π 00 auch im σ -endlichen Fall die geforderten Eigenschaften.
Schritt 3: Eindeutigkeit und σ -Endlichkeit des Produktmaßes. Familie (Am × Bn )
ist eine Zerlegung von X × Y in messbare Rechtecke vom endlichen π -Maß.
Daraus folgt die σ -Endlichkeit von π . Die Eindeutigkeit folgt mit Satz 1.37. Das folgende Resultat, der Satz von Fubini, ist eine direkte Konsequenz
des Produktmaßsatzes. Mit diesem Satz können Mehfachintegrale als iterierte
Integrale berechnet werden.
Satz 2.36 (Satz von Fubini). Es seien (X , X, µ) und (Y , Y, ν ) σ -endliche Maßräume und sei π = µ ⊗ ν das zugehörige Produktmaß. Ist f : X × Y → R eine
nichtnegative oder π -integrierbare X ⊗ Y messbare Funktion, dann sind die
Funktionen
Z
Z
x 7→
f (x, y) ν (dy) und y 7→
f (x, y) µ (dx )
(2.23)
Y
X
messbar bezüglich X bzw. Y. Außerdem gilt
Z
Z Z
f (x, y) π (d (x, y)) =
f (x, y) ν (dy)µ (dx )
X ×Y
X
Y
(2.24)
und
Z
X ×Y
f (x, y) π (d (x, y)) =
Z Z
72
Y
X
f (x, y) µ (dx )ν (dy).
(2.25)
2.3 Produktmaße und Satz von Fubini
Beweis.
R Es sei f = 1E für ein E ∈ X ⊗ Y. Die Messbarkeit der Funktion
x 7→ Y f (x, y) ν (dy) = ν ({y : (x, y) ∈ E}) haben wir im Beweis von Satz 2.34
gezeigt. Außerdem folgt (2.24)
mit der Darstellung (2.19) von π . Analog folgt
R
die Messbarkeit von y 7→ X f (x, y) µ (dx ) = µ ({x : (x, y) ∈ E}) und (2.25).
Sei f eine einfache nichtnegative Funktion. Weil Summen messbarer Funktionen messbar sind, folgt (2.23) mit der Linearität des Integrals. Die Aussagen
(2.24) und (2.25) folgen auch mit der Linearität des Integrals.
Eine beliebige nichtnegative Funktionen f approximieren wir durch einfache Funktionen f 1 , f 2 , . . . mit fn ↑ f (Satz 1.70) und erhalten die Aussagen
(2.23), (2.24) und (2.25) mit dem Satz von monotoner Konvergenz (Satz 2.8).
Ein beliebige π -inegrierbare Funktion f zerlegen wir wie üblich in ihren
Positiv- und Negativteil, f = f + − f − . Die Funktionen f + und f − sind nichtnegativ und nach dem obigen Argument gelten für sie (2.23), (2.24) und (2.25).
Damit gelten die Aussagen auch für f .
R∞
2
Beispiel 2.37. Sei I = −∞ e −x dx. Mit dem Satz von Fubini und Übergang
von Kartesischen zu Polarkoordinaten in R2 kann man I 2 wie folgt berechnen
"
"
2
2
−(x 2 +y 2 )
I =
e
dx dy =
e −r r dr dθ .
R2
r >0
0<θ <2π
Das Doppelintegral auf der rechten Seite kann nach Satz von Fubini durch
iterierte Integrale berechnet werden. Und wir erhalten
Z ∞
√
2
e −x dx = π .
−∞
Bemerkung 2.38 (Endliche Produkte höherer Ordnung). Seien (X , X, µ), (Y , Y, ν )
und (Z , Z, η) drei σ -endliche Maßräume. Die Produkt-σ -Algebra X ⊗ Y ⊗ Z
ist die σ -Algebra, die von den messbaren Rechtecken A × B × C mit A, B, C
aus X, Y bzw. Z, erzeugt wird. Für C ∈ Z sei GC die Familie der Mengen
E ∈ X ⊗ Y mit E × C ∈ X ⊗ Y ⊗ Z. Dann ist GC eine σ -Algebra, die die
messbaren Rechtecke von X × Y enthält und daher gilt GC = X ⊗ Y. Es folgt
(X ⊗ Y) ⊗ Z ⊂ X ⊗ Y ⊗ Z. Da die umgekehrte Inklusion offensichtlich auch
erfüllt ist, gilt (X ⊗ Y) ⊗ Z = X ⊗ Y ⊗ Z.
Wir definieren das Produktmaß µ ⊗ ν ⊗ η auf X ⊗ Y ⊗ Z als (µ ⊗ ν ) ⊗ η.
Für messbare Rechtecke A × B × C gilt dann
µ ⊗ ν ⊗ η(A × B × C) = µ ⊗ ν (A × B)η(C) = µ (A)ν (B)η(C).
73
2.4 Übungen
Dieses Maß ist eindeutig. Die Aussagen des Produktmaßsatzes und des Satzes
von Fubini lassen sich in offensichtlicher Weise auf Produkte von drei und
mehr Komponenten erweitern. Insbesondere können wir das Lebesgue Maßes
λd auf Rd als Produktmaß λ ⊗ . . . ⊗ λ (d-mal) auf B(Rd ) = B(R) ⊗ . . . ⊗ B(R)
definieren.
2.4 Übungen
Übung 2.1. Beweisen Sie Lemma 2.7.
Übung 2.2. Entscheiden Sie (mit Begründung), ob die Dirichletsche Sprungfunktion

1
f (x ) = 
0

falls x rational
falls x irrational
Lebesgue-integrierbar ist und berechnen Sie gegebenenfalls
R
f dλ.
Übung 2.3. Es sei f eine R-wertige Funktion auf einem meßbaren Raum. Zeigen
Sie:
(a) Ist f meßbar, dann ist f genau dann integrierbar, wenn | f | integrierbar ist.
(b) Im Allgemeinen ist Meßbarkeit von f nicht äquivalent zur Meßbarkeit von
| f |.
Übung 2.4. Es sei f eine nichtnegative meßbare R-wertige Funktion auf einem
Maßraum (Ω, A, µ) mit µ (Ω) < ∞. Zeigen Sie:
(a) Nimmt die Funktion f nur ganzzahlige Werte an, so gilt
Z
∞
X
f dµ =
µ ( f ≥ n).
n=1
(b) Die Funktion f (nicht notwendigerweise ganzzahlig) ist genau dann µintegrierbar, wenn
∞
X
µ ( f ≥ n) < ∞
n=1
gilt.
74
(2.26)
2.4 Übungen
(c) Aus (2.26) folgt lim nµ ( f ≥ n) = 0.
n→∞
Übung 2.5. Beweisen Sie Satz 2.10.
Übung 2.6. Es sei (Ω, A, µ) ein messbarer Raum.
(a) Sind f 1 , f 2 , . . . nichtnegative Borel-messbare Funktionen, so gilt
Z X
∞
∞ Z
X
fn dµ.
fn dµ =
n=1
n=1
(b) Für eine Borel-messbare Funktion f wird nach Satz 2.5 durch
Z
ν (A) =
f dµ, A ∈ A,
A
eine σ -additive Mengenfunktion ν auf A definiert. Man nennt ν auch signiertes Maß. Zeigen Sie: Für Borel-messbare Funktionen д auf Ω gilt
Z
Z
д dν =
д f dµ,
in dem Sinne, dass wenn eine Seite existiert, so existiert auch die andere und
beide sind gleich. (Intuitiv heißt es dν/dµ = f , so dass dν = f dµ).
Übung 2.7. Durch fn (x ) = ne −nx , n = 1, 2, . . . wird auf [0, ∞) eine Folge nichtnegativer Funktionen definiert. Zeigen Sie, dass ( fn ) λ-f.ü. gegen eine Funktion
f konvergiert, wobei
Z
Z
f dλ , lim
fn dλ
[0,∞)
n→∞
[0,∞)
gilt. Weshalb ist hier der Satz von Lebesgue nicht anwendbar?
Übung 2.8. Es sei µ ein beliebiges Wahrscheinlichkeitsmaß auf (R, B(R)) und
δ 0 das Einheitsmaß in 0 (also δ 0 (B) = 1, falls 0 ∈ B, und δ 0 (B) = 0, falls 0 < B).
Finden Sie die Hahn-Jordan-Zerlegung des signierten Maßes ν = µ − δ 0 .
RÜbung 2.9. Es sei (Ω, A, µ) ein Maßraum und f eine messbare Funktion,R sodass
f dµ existiert. Auf A definieren wir das signierte Maß ν durch ν (A) = A f dµ,
A ∈ A. Zeigen Sie
Z
Z
Z
+
+
−
−
ν (A) =
f dµ,
ν (A) =
f dµ,
|ν |(A) = | f | dµ.
A
A
75
A
2.4 Übungen
Übung 2.10 (Diskrete Dichten). Es sei (Ω, A) ein messbarer Raum; A enthalte
die Einpunktmengen. Seien µ und ν diskrete Maße auf A.
(a) Sind µ und ν immer σ -endlich?
(b) Geben Sie eine notwendige und hinreichende Bedingung für ν µ an.
(c) Berechnen Sie alle µ-Dichten von ν .
Hinweis: Das Maß µ heißt diskret, wenn es abzählbar viele ωi ∈ Ω und pi ∈ R+
gibt, so dass
X
µ (A) =
pi , A ∈ A.
ωi ∈A
Übung 2.11 (Äquivalente Maße). Zeigen Sie, dass die Relation auf der Menge
der Maße einer σ -Algebra reflexiv und transitiv ist. Die durch µ ν und ν µ
definierte Relation µ ∼ ν ist dann eine Äquivalenzrelation. (Insbesondere besitzen
µ und ν dann dieselbe Nullmengen.) Zeigen Sie außerdem, dass für endliche
Maße µ und ν gilt: µ ∼ ν ist äquivalent zu dν = f dµ, wobei die Dichte f die
Bedingung 0 < f (ω) < ∞ µ-f.ü. erfüllt.
Übung 2.12. Es sei Ω nichtabzählbar und A die σ -Algebra alle Mengen A ⊂ Ω,
für welche A oder Ac abzählbar ist. Mit µ sei das Zählmaß auf A bezeichnet und
ν sei ein Maß auf A mit ν (A) = 0 falls A abzählbar und ν (A) = ∞ sonst. Zeigen
Sie, das ν zwar absolutstetig bezüglich µ ist, jedoch keine µ-Dichte besitzt.
Übung 2.13. Beweisen Sie die Eindeutiglkeit der Zerlegung im Zerlegungssatz
von Lebesgue (Satz 2.29).
Übung 2.14. Gegeben seien ein σ -endlicher Maßraum (Ω, A, µ) und nichtnegative A-messbare Funktionen f und д.
Z
Z ∞
p
(a) Für p ∈ [1, ∞) gilt
f dµ =
pt p−1 µ ( f > t ) dt.
0
(b) Gilt µ ( f > t ) ≤ µ (д > t ) für alle t ≥ 0, so folgt
Z
f dµ ≤
Z
д dµ.
Hinweis: f (ω) ist gleich dem Lebesgue-Integral der Indikatorfunktion 1{[0,f (ω))} .
Für p = 1 ist die Formel in (a) oft sehr hilfreich für Berechnungen von Erwartungswerten nichtnegativer Zufallsvariablen. Vergleichen Sie (a) mit Übung 2.4.
76
2.4 Übungen
Übung 2.15. Es seien F und G die Verteilungsfunktionen der Wahrscheinlichkeitsmaße µ bzw. ν auf (R, B(R)). Zeigen Sie:
Z 1. Für c ∈ R gilt
F (x + c) − F (x ) λ(dx ) = c.
2. Wenn F und G keine gemeinsame Unstetigkeitsstellen in (a, b] haben, dann
gilt die Formel der partiellen Integration
Z
Z
G (x ) dF (x ) = F (b)G (b) − F (a)G (a) −
F (x ) dG (x ).
(a,b]
(a,b]
Dabei steht dF (x ) für µ (dx ) und dG (x ) für ν (dx ).
R
3. Ist F stetig, so gilt F (x ) dF (x ) = 12 .
Hinweis zu (b): Berechnen Sie das Produktmaß von {(x, y) ∈ (a, b]2 |x ≤ y} ∪
{(x, y) ∈ (a, b]2 |x ≥ y} auf geeignete Weise.
Übung 2.16. (a) Es sei X = Y = N und µ = ν das Zählmaß. Zeigen Sie, dass
für


2 − 2−x



f (x, y) = 
−2 + 2−x



0

: falls x = y,
: falls x = y + 1,
: sonst,
die iterierten Integrale existieren aber nicht gleich sind. Warum widerspricht
es nicht dem Satz von Fubini?
(b) Zeigen Sie, dass xy/(x 2 + y 2 ) 2 nicht integrierbar über {(x, y) : |x |, |y| ≤ 1}
ist, obwohl die iterierten Integrale existieren und gleich sind.
77
3 Zufallsvariablen, Verteilungen und
Erwartungswerte
3.1 Zufallsvariablen und ihre Verteilungen
Eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P) ist eine
A-messbare reellwertige (oder R-wertige) Funktion auf Ω. Alle Resultate und
Konzepte für allgemeine Maßräume und messbare Funktionen, mit denen wir
uns in den vorherigen Kapiteln beschäftigt haben, lassen sich auf Zufallsvariablen und Wahrscheinlichkeitsräume übertragen. Ein Zufallsvektor ist eine
A-messbare Abbildung von Ω nach Rd . Jede Abbildung von Ω nach Rd ist von
der Form ω 7→ X (ω) = (X 1 (ω), . . . , Xd (ω)), wobei jedes Xi eine reellwertige
Funktion ist. Wir haben bereits gesehen, dass X genau dann messbar ist, wenn
alle Xi messbar sind (vgl. Bemerkung 1.65). Also ist ein Zufallsvektor einfach
ein d-Tupel von Zufallsvariablen.
Wenn G eine σ -Algebra mit G ⊂ A, dann ist ein d-dimensionaler Zufallsvektor X genau dann G-messbar, wenn
X −1 (A) = {X ∈ A} = {ω ∈ Ω : X (ω) ∈ A} ∈ G
für alle A ∈ B(Rd ) gilt. Mit σ (X ) bezeichnen wir die kleinste σ -Algebra,
bezüglich welcher der Zufallsvektor X messbar ist.
Satz 3.1. Für ein Zufallsvektor X = (X 1 , . . . , Xd ) gelten folgende Aussagen.
(i) Die σ -Algebra σ (X ) besteht genau aus den Mengen {X ∈ A}, A ∈ B(Rd ).
(ii) Eine Zufallsvariable Y ist genau dann σ (X )-messbar, wenn es eine messbare
Funktion f : Rd → R, sodass Y (ω) = f (X 1 (ω), . . . , Xd (ω)) für alle
ω ∈ Ω.
Beweis. Die Aussage (i) ist klar nach Übung 1.7. Ist f messbar (damit ist
natürlich die B(Rd )-B(R) Messbarkeit gemeint), dann ist Y (ω) = f (X (ω))
nach Satz 1.63(ii) σ (X )-B(R) messbar. Es bleibt also die umgekehrte Richtung
zu zeigen.
78
3.1 Zufallsvariablen und ihre Verteilungen
Sei Y eine σ (X ) messbare Zufallsvariable. Nehmen wir zunächst an, dass
Y einfach ist. Seien y1 , . . . , ym die unterschiedlichen möglichen Werte von
Y . Dann liegen die Mengen Ai = {Y = yi } in σ (X ). Nach Teil (i) gibt es
P
Hi ∈ B(Rd ) mit Ai = {X ∈ Hi }. Wir setzen f = i yi 1Hi . Diese Funktion ist
natürlich messbar. Da Ai disjunkt sind, kann kein X (ω) in mehr als einem Hi
liegen. Es folgt f (X (ω)) = Y (ω).
Für beliebige Zufallsvariablen Y sei Yn eine Folge einfacher Zufallsvariablen
mit Yn (ω) → Y (ω) für alle ω. Für jedes n gibt eine messbare Funktion fn :
Rd → R mit Yn (ω) = fn (X (ω)). Sei M die Teilmenge von Rd auf der fn
konvergiert, d.h.
M = {x ∈ Rd : ( fn (x )) ist konvergent}.
Nach Satz 1.68(iii) ist M ∈ B(Rd ). Wir setzen f (x ) = limn fn (x ) für x ∈ M und
f (x ) = 0 für x ∈ Rd \M. Da f = limn fn 1M ist, und fn 1M messbare Funktionen
sind, ist f nach Satz 1.68(ii) messbar. Für alle ω gilt nach Konstruktion Y (ω) =
limn fn (X (ω)). Hieraus folgt X (ω) ∈ M und Y (ω) = limn fn (X (ω)) = f (X (ω)).
Die Verteilung µ einer Zufallsvariablen X auf R ist definiert als das Bildmaß
µ = PX −1 von P unter X , d.h.
µ (A) = P(X ∈ A),
A ∈ B(R).
(3.1)
Wir verwenden die Notation X ∼ µ, „∼“ ist an der Stelle als „verteilt gemäß“
zu lesen, oder L(X ) = µ, hier steht L für das englische Wort law, was in dem
Zusammenhang als Verteilungsgesetz übersetzt werden kann. Die Verteilungsfunktion von X ist definiert durch
F (x ) = µ ((−∞, x]) = P(X ≤ x ),
x ∈ R.
(3.2)
Die Funktion F ist nichtfallend, rechtsseitig stetig und hat höchstens abzählbar
viele Unstetigkeitstellen. Außerdem hat F überall linksseitige Grenzwerte und
es gilt
F (x−) = µ ((−∞, x )) = P(X < x ),
F (x ) − F (x−) = µ ({x }) = P(X = x ),
79
(3.3)
3.1 Zufallsvariablen und ihre Verteilungen
und
lim F (x ) = 0 und
x→−∞
lim F (x ) = 1.
x→∞
(3.4)
Ist F eine Funktion mit den oben aufgezählten Eigenschaften, dann gibt es
nach Satz 1.58 ein eindeutiges Wahrscheinlichkeitsmaß µ dessen Verteilungsfunktion F ist.
Beispiel 3.2 (Diskrete Verteilungen auf R). Eine Zufallsvariable X heißt diskret, wenn ihre Verteilung µ diskret ist, d.h. es gibt eine abzählbare Teilmenge
P
I von R und (pi )i∈I mit pi ≥ 0 für alle i und µ (R) = µ (I ) = i∈I µ ({i}) =
P
i∈I pi = 1. Die zugehörige Verteilungsfunktion ist dann gegeben durch
X
F (x ) = P(X ≤ x ) =
pi .
i∈I,i≤x
Die Elemente x ∈ R mit µ ({x }) > 0 werden oft als Atome bezeichnet. Diskrete
Verteilungen nennt man deswegen manchmal atomar.
(a) Eine bekannte diskrete Verteilung ist die Binomialverteilung. Eine Zufallsvariable X ist binomial verteilt mit Parametern n ∈ N und p ∈ [0, 1], wenn
gilt
!
n k
P(X = k ) = µ ({k } =
p (1 − p)n−k , k = 0, 1, . . . , n.
(3.5)
k
Wir schreiben dann X ∼ Bin(n, p).
Viele Zufallsvariablen auf vielen Wahrscheinlichkeitsräumen sind binomial verteilt. Sei z.B. X 1 , X 2 , . . . eine Folge unabhängiger Zufallsvariablen
P
P9+n
mit P(X ` = 1) = p und P(X ` = 0) = 1 − p. Dann sind ni=1 Xi , i=10
Xi
oder eine beliebige Summe von n der Xi binomial verteilt.
Man
könnte
auch Ω = {0, 1, . . . , n} nehmen mit A = P (Ω), P({k}) = kn pk (1 − p)n−k ,
k = 0, 1, . . . , n und X (k ) = k. Schließlich könnte man auch direkt mit der
Verteilungsfunktion der Binomialverteilung starten und dann P wie in
Satz 1.58 (dort haben wir µ konstruiert) konstruieren. Dieses Beispiel zeigt,
dass die Verteilung einer Zufallsvariablen X das probabilistische Verhalten
von X selbst zwar vollständig beschreibt, aber keine Information über den
zugrunde liegenden Wahrscheinlichkeitsraum (Ω, A, P) enthält.
80
3.1 Zufallsvariablen und ihre Verteilungen
(b) Eine weitere bekannte diskrete Verteilung ist die Poissonverteilung mit
Parameter γ > 0. Für diese gilt
P(X = k ) = µ ({k }) = e −γ
γk
,
k!
k = 0, 1, . . . .
(3.6)
Wir schreiben dann X ∼ Poi(γ ).
(c) Eine Konstante c kann als eine diskrete Zufallsvariable mit X (ω) ≡ c
angesehen werden. Dann ist P(X = c) = µ ({c}) = 1. Wir sagen, dann dass
X gemäß der Dirac-Verteilung in c verteilt ist.
(d) Wir wissen bereits, dass eine Verteilungsfunktion höchstens abzählbar
viele Unstetigkeitsstellen haben kann. Das folgende (etwas künstliche) Beispiel zeigt, dass die Menge der Unstetigkeitsstellen dicht in R liegen kann.
Sei {x 1 , x 2 , . . .} eine Abzählung von Q und sei µ ({xk }) = 2−k . Dann ist µ ein
Wahrscheinlichkeitsmaß und jede rationale Zahl eine Unstetigkeitsstelle
der zu µ gehörigen Verteilungsfunktion.
Beispiel 3.3 (Stetige Verteilungen auf R). Eine Zufallsvariable X und ihre
Verteilung µ haben eine Dichte bezüglich des Lebesgue Maßes λ, wenn es eine
nichtnegative Funktion f auf R gibt mit (wir schreiben dx statt λ(dx ))
Z
P(X ∈ A) = µ (A) =
f (x ) dx, A ∈ B(R).
(3.7)
A
Die Funktion f ist nur bis auf Lebesgue-Nullmengen eindeutig bestimmt und
es gilt notwendigerweise λ[f ] = 1. Wir wissen, dass (3.7) für alle A ∈ B(R)
gilt, wenn es für alle Intervalle (a, b] gilt, d.h. wenn
F (b) − F (a) =
b
Z
a
f (x ) dx
(3.8)
für alle a < b gilt. Die Dichte f muss nicht unbedingt überall die Ableitung
von F sein damit (3.8) gilt. Andererseits, wenn F differenzierbar ist und f = F 0
ist, dann gilt (3.8) nach Hauptsatz der Differential- und Integralrechnung,
dass f eine Dichte zu F bzw. der zugehörigen Verteilung ist. Verteilungen mit
Dichten nennen wir üblicherweise stetig. Natürlich gilt µ ({x }) = 0 für alle
x ∈ R, wenn µ eine stetige Verteilung ist.
81
3.1 Zufallsvariablen und ihre Verteilungen
(a) Die Dichte der Exponentialverteilung mit Parameter α > 0 ist gegeben
durch

0
f (x ) = 
αe −αx

: wenn x < 0,
: wenn x ≥ 0.
(3.9)
Die Verteilungsfunktion ist dann

0
F (x ) = 
 1 − e −αx

: wenn x < 0,
: wenn x ≥ 0.
(3.10)
Für eine exponentiell verteilte Zufallsvariable X mit Parameter α schreiben
wir X ∼ Exp(α ).
(b) Die Dichte der Normalverteilung mit Parametern µ ∈ R und σ 2 > 0 ist
f (x ) = √
1
2πσ 2
e−
(x −µ ) 2
2σ 2
, x ∈ R.
(3.11)
Für eine entsprechend verteilte Zufallsvariable X schreiben wir X ∼
N(µ, σ 2 ).
(c) Die Dichte der auf dem Intervall (a, b] gleichverteilten Zufallsvariable ist
definiert durch
1

 b−a
f (x ) = 
0

: wenn a < x ≤ b,
: sonst.
(3.12)
Für eine entsprechend verteilte Zufallsvariable X schreiben wir X ∼
U((a, b]).
Fürs Rechnen mit Wahrscheinlichkeiten ist eine Verteilungsfunktion dann
nützlich, wenn sie eine vergleichsweise einfache Darstellung hat, wie z.B.
(3.10). Ansonsten ist es typischerweise leichter die Verteilung durch die Dichte
f (x ) oder durch die diskreten Wahrscheinlichkeiten µ ({i}) zu beschreiben. Oft
können Wahrscheinlichkeiten bestimmter Ereignisse approximativ (mit passenden Grenzwertsätzen wie z.B. mit Gesetzen der großen Zahlen, zentralem
Grenzwertsatz, etc.) berechnet werden.
82
3.1 Zufallsvariablen und ihre Verteilungen
Ist F eine Verteilungsfunktion einer stetigen Zufallsvariablen, dann ist F stetig. Im diskreten Fall ist F eine Sprungfunktion. Es gibt natürlich Verteilungen,
die weder diskret noch stetig sind wie zum Beispiel µ (A) = 12 µ s (A) + 21 µ d (A),
wobei µ s stetig ist, und µ d diskret ist. Wie wir schon im Zusammenhang mit
der Lebesgue-Zerlegung bemerkt haben gibt es auch Verteilungen mit stetigen
Verteilungsfunktionen, die singulär zum Lebesgue-Maß sind. Wenn nichts
anderes gesagt wird, sind für uns stetige Verteilungen solche, die absolut stetig
zum Lebesgue-Maß sind.
Wenn X eine Zufallsvariable mit Verteilung µ und д : R → R eine messbare
Funktion, dann ist gilt
P(д(X ) ∈ A) = P(X ∈ д−1 (A)) = µ (д−1 (A)),
A ∈ B(R).
(3.13)
Also hat die Zufallsvariable д(X ) die Verteilung µд−1 ; vgl. Satz 1.71.
Falls eine Verteilung eine Dichte besitzt, so folgt mit (3.8) und (3.4) die
(bereits bekannte) Darstellung
Z x
F (x ) =
f (y) dy.
(3.14)
−∞
Zumindest an den Stetigkeitsstellen von f gilt F 0 (x ) = f (x ). Nehmen wir an,
dass f stetig ist und д streng monoton wachsend mit T = д−1 . Dann ist die
Verteilungsfunktion von д(X ) gegeben durch
P(д(X ) ≤ x ) = P(X ≤ T (x )) = F (T (x )).
(3.15)
d
Ist T differenzierbar, dann gilt dx
F (T (x )) = f (T (x ))T 0 (x ), was die Dichte von
д(X ) sein muss. Ist д streng monoton fallend, dann ist
P(д(X ) ≤ x ) = P(X ≥ T (x )) = 1 − P(X ≥ T (x )) = 1 − F (T (x )).
(3.16)
d
F (T (x )) = −f (T (x ))T 0 (x ) = f (T (x ))|T 0 (x )|.
Die Dichte von д(X ) ist dann − dx
Für bijektive Funktion д ist also die Dichte von д(X ) gegeben durch
d
P(д(X ) ≤ x ) = f (T (x ))|T 0 (x )|.
dx
(3.17)
Ist zum Beispiel X ∼ N(µ, σ 2 ), a > 0 und b ∈ R, dann gilt
aX + b ∼ N(aµ + b, (aσ ) 2 ).
Mit dem Ansatz wie oben kann man Verteilungsfunktionen und Dichten oft
auch in dem Fall bestimmen, wenn д nicht bijektiv ist.
83
3.1 Zufallsvariablen und ihre Verteilungen
Beispiel 3.4. Wenn X standard-normalverteilt ist, d.h. X ∼ N(0, 1), dann gilt
für x > 0
√
√
P(X 2 ≤ x ) = P(− x ≤ X ≤ x )
Z √x
Z √x
2
2
2
1
−y /2
dy = √
=√
e −y /2 dy.
√ e
2π − x
2π 0
Also ist X 2 eine Zufallsvariable mit Dichte

 √12π x −1/2e −x/2
f (x ) = 
0

: wenn x > 0,
: wenn x ≤ 0.
Für solche Dichtetransformationen (auch für Dichten von Zufallsvektoren)
gibt es allgemeine Formeln; vgl. Satz 1.101 in Klenke (2013).
Definition 3.5 (Erwartungswert). Es sei X eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P). Der Erwartungswert von X ist das Integral von
X bezüglich P:
Z
Z
E[X ] B
X dP =
X (ω) P(dω).
(3.18)
Ω
Alle Definitionen, Konventionen und Resultate für Integrale messbarer Funktionen gelten natürlich auch für Erwartungswerte. Für nichtnegative X ist der
Erwartungswert immer definiert. Für beliebige X , sagen wir E[X ] ist definiert
oder X hat einen Erwartungswert, wenn zumindest einer der Erwartungwerte E[X + ] oder E[X − ] endlich ist. In diesem Fall ist E[X ] = E[X + ] − E[X − ].
Die Zufallsvariable X ist integrierbar,
d.h. E[X ] endlich, genau dann, wenn
R
E[|X |] < ∞ ist. Das Integral A X dP über eine Menge A ist E[1AX ].
Bevor wir eine alternative (und möglicherweise geläufigere) Version des
Erwartungswertes angeben, beweisen wir eine Substitutionsforlmel.
Satz 3.6 (Substitutionsformel). Seien (Ω, A) und (Ω0, A 0 ) messbare Räume
und T : Ω → Ω0 eine A-A 0 messbare Abbildung. Sei µ ein Maß auf A und
sei µT −1 das zugehörige Bildmaß auf A 0. Ist f : Ω0 → R eine nichtnegative
messbare Funktion, so gilt
Z
Z
f (T (ω)) µ (dω) =
f (ω 0 ) µT −1 (dω 0 ).
(3.19)
Ω
Ω0
84
3.1 Zufallsvariablen und ihre Verteilungen
Eine (nicht notwendigerweise nichtnegative) Funktion f ist integrierbar bezüglich
µT −1 genau dann, wenn f ◦ T intergrierbar bezüglich µ ist. Auch in diesem Fall
gilt (3.19) und
Z
Z
f (T (ω)) µ (dω) =
f (ω 0 ) µT −1 (dω 0 ), A0 ∈ A 0 .
(3.20)
T −1 (A0 )
A0
Für nichtnegative f gilt (3.20) immer.
Beweis. Für f = 1A0 ist f ◦ T = 1T −1 (A0 ) . In diesem Fall ist die linke Seite von
(3.19) gleich µ (T −1 (A0 )) und die rechte ist µT −1 (A0 ). Gleichheit dieser Ausdrucke gilt nach Definition des Bildmaßes; vgl. (1.38). Linearität des Integrals
impliziert, dass (3.19) für nichtnegative einfache Funktionen gilt. Ist f nichtnegativ und ( fn ) eine Folge einfacher Funktionen mit 0 ≤ fn ↑ f , dann folgt
0 ≤ fn ◦ T ↑ f ◦ T und (3.19).
Wenden wir (3.19) auf | f | an, so erhalten wir die „genau dann wenn“ Aussage über die Integrierbarkeit von f . Für integrierbare Funktionen folgt (3.19)
mit der üblichen Zerlegung in Positiv- und Negativteil. Schließlich folgt (3.20)
aus (3.19), wenn wir f durch f 1A0 ersetzen.
Bemerkung 3.7 (Alternative Definition des Erwartungswertes). Sei д : R → R
eine messbare Funktion und sei µ = PX −1 die Verteilung der Zufallsvariablen
X . Dann gilt nach Satz 3.6
Z
Z
Z ∞
−1
E[д(X )] =
д(X (ω)) P(dω) =
д(x ) PX (dx ) =
д(x ) µ (dx ).
R
Ω
−∞
(3.21)
Mit д(x ) = x folgt die (vermutlich aus Stochastik 0) geläufige und meistens
nützlichere Darstellung des Erwartungswertes
Z ∞
E[X ] =
x µ (dx ).
(3.22)
−∞
Wenn µ ein diskretes Maß ist mit µ ({x 1 , x 2 , . . .}) = 1, dann gilt
X
X
д(xi )µ ({xi }) =
д(xi )P(X = xi )
E[д(X )] =
i
i
85
(3.23)
3.1 Zufallsvariablen und ihre Verteilungen
und
E[X ] =
X
xi µ ({xi }) =
X
xi P(X = xi )
(3.24)
i
i
Ist µ ein Maß mit Dichte f , dann gilt
Z
E[д(X )] =
∞
д(x ) f (x ) dx
(3.25)
x f (x ) dx .
(3.26)
−∞
und
E[X ] =
Z
∞
−∞
Definition 3.8 (Momente von Zufallsvariablen). Für k ∈ N und eine Zufallsvariable X nennen wir (sofern die jeweilige Größe definiert ist)
• E[X k ] das k-te Moment von X ;
• E[|X |k ] das k-te absolute Moment von X ;
• E[(X − E[X ])k ] das k-te zentrale Moment von X ;
• E[|X − E[X ]|k ] das k-te absolute zentrale Moment von X .
Speziell heißt das zweite absolute Moment Varianz von X und wird mit Var[X ]
bezeichnet, d.h.
Var[X ] B E[(X − E[X ]) 2 ].
(3.27)
Ist Y eine andere Zufallsvariable, so heißt
Cov[X , Y ] B E[(X − E[X ])(Y − E[Y ])]
(3.28)
Kovarianz von X und Y und
Cov[X , Y ]
.
ρ (X , Y ) B p
p
Var[X ] Var[Y ]
(3.29)
heißt Korrelationskoeffizient von X und Y . Ist ρ (X , Y ) = 0, so nennen wir die
Zufallsvariablen X und Y unkorreliert.
86
3.2 Grundlegende Ungleichungen
3.2 Grundlegende Ungleichungen
In diesem Abschnitt erinnern wir an einige wichtige Ungleichungen, die möglicherweise schon aus anderen Veranstaltungen bekannt sind. Im Folgenden
sei (Ω, A, P) ein Wahrscheinlichkeitsraum.
Auch wenn der Beweis der folgenden Ungleichung sehr einfach ist, ist sie
und deren Varianten in vielen Situationen sehr nützlich.
Satz 3.9 (Allgemeine Markov-Ungleichung). Ist X eine Zufallsvariable und
h : R → (0, ∞) eine monoton wachsende Funktion, dann gilt für jedes x ∈ R
P(X ≥ x ) ≤
E[h(X )]
.
h(x )
(3.30)
Beweis. Für alle x ∈ R gilt
E[h(X )] ≥ E[h(X ) 1{X ≥x } ] ≥ h(x )E[1{X ≥x } ] = h(x )P(X ≥ x ).
Natürlich ist die Ungleichung (3.30) nur dann nützlich, wenn E[h(X )] endlich ist und berechnet werden kann. Im nächsten Resultat stellen wir zwei
Versionen von (3.30) vor.
Korollar 3.10. Für alle x > 0 gilt
P(|X | ≥ x ) ≤
E[|X |r ]
,r ≥0
xr
(Markov-Ungleichung)
(3.31)
und
P(|X − E[X ]| ≥ x ) ≤
Var[X ]
x2
(Chebyshev-Ungleichung).
(3.32)
Beweis. Für (3.31) wenden wir (3.30) auf |X | und h(x ) = x r an. Für (3.32)
wenden wir (3.30) auf |X − E[X ]| und h(x ) = x 2 an.
Nach Definition ist die Varianz einer Zufallsvariable nichtnegativ und mit
der Darstellung Var[X ] = E[X 2 ] − (E[X ]) 2 folgt E[X 2 ] ≥ (E[X ]) 2 . Die Ungleichung könnten wir auch mit der folgenden Jensen-Ungleichung bekommen.
87
3.2 Grundlegende Ungleichungen
Satz 3.11 (Jensen-Ungleichung). Ist h : I → R eine konvexe Funktion und ist
P(X ∈ I ) = 1 und existieren die Erwartungswerte von X und h(X ), dann gilt
h E[X ] ≤ E[h(X )].
(3.33)
Beweis. Tangenten konvexer Funktionen liegen unterhalb des Funktionsgraphen. Für jedes x 0 ∈ I gibt es also ein a(x 0 ) mit
h(x ) ≥ h(x 0 ) + (x − x 0 )a(x 0 ), x ∈ I .
(3.34)
Wenden wir diese Ungleichung auf x = X und x 0 = E[X ] an, so folgt
h(X ) ≥ h(E[X ]) + (X − E[X ])a(E[X ]).
Die Behauptung folgt wenn wir auf beiden Seite dieser Ungleichung den
Erwartungswert nehmen.
Natürlich liefert die Jensen-Ungleichung auch eine Abschätzung für konkave Funktionen. Ist nämlich h konkav, so ist −h konvex und nach Anwendung
der Jensen-Ungleichung auf −h folgt
h E[X ] ≥ E[h(X )].
(3.35)
Damit ist für positive Zufallsvariablen (sofern die fraglichen Erwartungswerte
existieren) (E[X ]) −1 ≤ E[X −1 ] und log E[X ] ≥ E[log X ].
Nun wiederholen wir Ungleichungen für p-fach integrierbare Funktionen.
Für 0 < p < ∞ definieren wir
1/p
kX kp B E[|X |p ]
und
kX k∞ B inf {α : P(|X | > α ) = 0},
p
p
kX k∞ wird auch wesentliches Supremum von X genannt. Sei L = L (P) =
p
L (Ω, A, P) die Menge aller Zufallsvariablen mit kX kp < ∞. Wir erinnern
zunächst an einige wichtige Eigenschaften und Ungleichungen.
Lemma 3.12. Für a, b, α, β > 0 mit α + β = 1 gilt aα b β ≤ αa + βb.
88
3.2 Grundlegende Ungleichungen
Beweis. Die Aussage ist äquivalent zu − log(αa + βb) ≤ α (− log a) + β (− log b)
und diese folgt mit Konvexität von − log.
Korollar 3.13 (Young’sche Ungleichung). Für c, d > 0, p, q > 1 mit 1/p +1/q =
1 gilt cd ≤ c p /p + d q /q.
Beweis. Wähle in Lemma 3.12 α = 1/p, β = 1/q, a = c p , b = d q .
Satz 3.14 (Hölder-Ungleichung). Seien p, q ∈ [1, ∞] mit 1/p + 1/q = 1. Ist
X ∈ Lp und ist Y ∈ Lq , dann gilt XY ∈ L1 und
kXY k1 ≤ kX kp kY kq .
(3.36)
Beweis. Im Fall p = 1 oder p = ∞ ist die Aussage klar. Betrachten wir also den
Fall 1 < p < ∞. Wenn kX kp = 0 oder kY kq = 0 ist, dann ist X = 0 P-f.s. oder
Y = 0 P-f.s. und es folgt XY = 0 P-f.s. und die Ungleichung ist klar.
Im Fall kX kp > 0 und kY kq > 0 setzen wir c = |X (ω)|/kX kp , d = |Y (ω)|/kY kq .
Mit Korollar 3.13 folgt
|X (ω)Y (ω)|
|X (ω)|p |Y (ω)|q
≤
q .
p +
kX kp kY kq
qkY kq
p kX kp
Erwartungswert auf beiden Seiten liefert
E[|XY |]
1 1
≤ + = 1,
kX kp kY kq p q
was die Behauptung zeigt.
Für p = q = 2 folgt mit der Hölder-Ungleichung
1/2
E[|XY |] ≤ E[X 2 ]E[Y 2 ]
und wir erhalten die Cauchy-Schwarz-Ungleichung: für X , Y ∈ L2 gilt
2
E[XY ] ≤ E[X 2 ]E[Y 2 ].
(3.37)
Ersetzen wir in dieser Ungleichung X durch X − E[X ] und Y durch Y − E[Y ],
dann erhalten wir −1 ≤ ρ (X , Y ) ≤ 1.
Die nächste Ungleichung, die wir beweisen werden ist die MinkowskiUngleichung. Wir starten mit einem Lemma.
89
3.2 Grundlegende Ungleichungen
Lemma 3.15. Für a, b ≥ 0, p ∈ [1, ∞) gilt (a + b)p ≤ 2p−1 (ap + bp ).
Beweis. Für p = 1 ist die Ungleichung klar. Für p ∈ (1, ∞) sei
d h(x ) =
(a + x )p − 2p−1 (ap + x p ) = p(a + x )p−1 − 2p−1px p−1 .
dx
Für p > 1 ist h(x ) > 0 für a + x > 2x, d.h. für x < a; h(x ) = 0 für x = a;
h(x ) < 0 für x > a. Das Maximum der abgeleiteten Funktion wird also in
x = a angenommen. Es folgt
(a + b)p − 2p−1 (ap + bp ) ≤ (a + a)p − 2p−1 (ap + ap ) = 0.
p
p
Satz 3.16 (Minkowski-Ungleichung). Für X , Y ∈ L , 1 ≤ p ≤ ∞ gilt X +Y ∈ L
und
kX + Y kp ≤ kX kp + kY kp .
(3.38)
Beweis. Für p = 1 oder p = ∞ ist die Ungleichung (3.38) klar. Sei also p ∈
(1, ∞) und sei q so gewählt, dass 1/p + 1/q = 1 gilt. Nach Lemma 3.15 gilt
p
p
|X +Y |p ≤ (|X | + |Y |)p ≤ 2p−1 (|X |p + |Y |p ). Aus X , Y ∈ L folgt also X +Y ∈ L .
Es gilt
|X + Y |p = |X + Y | |X + Y |p−1 ≤ |X | |X + Y |p−1 + |Y | |X + Y |p−1 .
Mit
(p − 1)q =
(3.39)
p−1
p−1
=
=p
1/q
1 − 1/p
folgt
q f
g
E |X + Y |p−1
= E |X + Y |p < ∞.
q
p
Insbesondere gilt |X + Y |p−1 ∈ L , wenn X , Y ∈ L . Nach Hölder-Ungleichung
gilt dann |X | |X + Y |p−1 ∈ L1 und |Y | |X + Y |p−1 ∈ L1 und
1/q
p/q
p−1
p−1 q
E[|X | |X + Y | ] ≤ kX kp E |X + Y |
= kX kp kX + Y kp ,
q 1/q
p/q
E[|Y | |X + Y |p−1 ] ≤ kY kp E |X + Y |p−1
= kX kp kX + Y kp .
p
p/q
Mit Ungleichung (3.39) folgt kX + Y kp ≤ (kX kp + kY kp )kX + Y kp . Mit
p − p/q = 1 folgt die Behauptung.
90
3.3 Unabhängige Ereignisse und Mengensysteme
p
p
Ist α ∈ R und X ∈ L so ist natürlich αX ∈ L und es gilt
kαX kp = |α |kX kp .
(3.40)
p
Auf L definieren wir eine Metrik durch dp (X , Y ) = kX − Y kp . Diese Metrik ist offensichtlich symmetrisch und die Minkowski-Ungleichung liefert
dafür die Dreiecksungleichung. Ferner ist dp (X , Y ) = 0 genau dann, wenn
E[|X − Y |p ] = 0 ist, d.h. wenn X = Y P-f.s. ist. Also ist dp eine Pseudometrik.
Um sie zu einer Metrik zu machen identifizieren wir Zufallsvariablen, die P-f.s.
p
gleich sind. Die Menge L ist dann genau genommen eine Menge von Äquivalenzklassen, wir unterscheiden aber nicht zwischen der Äquivalenzklasse
p
und deren Repräsentanten. Nach dem Satz von Fischer-Riesz ist (L , k·kp )
für p ∈ [1, ∞] ein Banachraum, d.h. ein vollständiger normierter Raum (vgl.
Satz 7.18 in Klenke (2013)).
3.3 Unabhängige Ereignisse und Mengensysteme
Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ∈ A
heißen bekanntlich unabhängig, wenn
P(A ∩ B) = P(A)P(B)
gilt. Wir erweitern nun diese Definition auf Familien von Ereignissen.
Definition 3.17 (Unabhängige Familien von Ereignissen). Es sei I eine beliebige Indexmenge. Eine Familie (Ai )i∈I von Ereignissen Ai ∈ A heißt unabhängig,
wenn für jede endliche Teilmenge J ⊂ I
Y
P ∩j∈J Aj =
P(Aj ).
(3.41)
j∈J
Bemerkung 3.18 (Unabhängigkeit vs. paarweise Unabhängigkeit). Fordert man
in der obigen Definition nur die Unabhängigkeit von je zwei Ereignissen (d.h.
für alle zweielementigen Teilmengen J ⊂ I ), so spricht man von paarweiser Unabhängigkeit. Natürlich impliziert Unabhängigkeit paarweise Unabhängigkeit.
Die Umkehrung ist aber falsch.
Beispiel 3.19. Sei P die Gleichverteilung auf
Ω = {(1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 1)},
91
3.3 Unabhängige Ereignisse und Mengensysteme
d.h. P(ω) = 1/4 für jeden der vier Elemente ω ∈ Ω. Ferner sei
Ak = {die kte Koordinate ist 1},
k = 1, 2, 3.
Dann gilt
1
P(Ak ) = ,
2
1
P(Ai ∩ Aj ) = ,
4
1
P(Ai )P(Aj ) = ,
4
1
P(A1 ∩ A2 ∩ A3 ) = ,
4
1
P(A1 )P(A2 )P(A3 ) = .
8
k = 1, 2, 3
i, j = 1, 2, 3, i , j,
i, j = 1, 2, 3, i , j,
Die Mengen A1 , A2 , A3 sind also paarweise unabhängig, aber nicht unabhängig.
Außerdem gilt mit A4 = ∅
P(A1 ∩ A2 ∩ A3 ∩ A4 ) = 0 = P(A1 )P(A2 )P(A3 )P(A4 ).
Also genügt es im Fall von endlichem I nicht, die Bedingung (3.41) für J = I
allein zu prüfen, um Unabhängigkeit von (Ai )i∈I zu zeigen.
Sind die Ereignisse A und B unabhängig, so sind auch A und Bc unabhängig,
denn es ist
P(A ∩ Bc ) = P(A \ (A ∩ B)) = P(A) − P(A ∩ B) = P(A) − P(A)P(B)
= P(A)(1 − P(B)) = P(A)P(Bc ).
Das folgende Resultat ist eine Verallgemeinerung.
Satz 3.20. Sei (Ai )i∈I eine Familie von Ereignissen mit einer beliebigen Indexmenge I . Für i ∈ I setzen wir Bi0 = Ai und Bi1 = Aci . Folgende Aussagen sind
äquivalent.
(i) Die Familie (Ai )i∈I ist unabhängig.
(ii) Es gibt ein α ∈ {0, 1}I , sodass (Biαi )i∈I unabhängig ist.
92
3.3 Unabhängige Ereignisse und Mengensysteme
(iii) Für jedes α ∈ {0, 1}I ist (Biαi )i∈I unabhängig.
Beweis. Übung!
Satz 3.21 (Lemma von Borel-Cantelli). Sei (An )n∈N eine Folge von Ereignissen
und sei A = lim supn→∞ An . Dann gelten folgende Aussagen.
P∞
(i) Ist n=1
P(An ) < ∞, so ist P(A) = 0.
P∞
(ii) Ist (An )n∈N unabhängig und gilt n=1
P(An ) = ∞, so ist P(A) = 1.
Beweis. Mit Stetigkeit von oben und Subadditivität von P gilt nach Voraussetzung
P(A) =
∞
P(∩n=1
∞
∪m=n
Am ) =
∞
lim P(∪m=n
Am )
n→∞
≤ lim
n→∞
∞
X
P(Am ) = 0,
m=n
was (i) zeigt.
Für (ii) zeigen wir P(Ac ) = 0. Nach den de Morgannschen Regeln gilt
∞
∞
∞
P(Ac ) = P(∪n=1
∩m=n
Acm ) = lim P(∩n=m
Acm ),
n→∞
wobei wir im letzten Schritt die Stetigkeit von P von unten benutzt haben.
Mit Stetigkeit von P von oben, der Unabhängigkeit, und der Ungleichung
log(1 − x ) ≤ −x für x ∈ [0, 1] folgt für jedes n
N
∞
P(∩n=m
Acm ) = lim P(∩n=m
Acm ) = lim
N →∞
= lim exp
N →∞
N →∞
N
X
N
Y
m=n
P(Acm ) = lim
N →∞
N
Y
(1 − P(Am ))
m=n
N
X
log(1 − P(Am )) ≤ lim exp −
P(Am ) = 0.
N →∞
m=n
m=n
Definition 3.22 (Unabhängige Mengensysteme). Es sei (Ei )i∈I eine Familie
von Teilmengen Ei ⊂ A, wobei I eine beliebige Indexmenge ist. Die Familie
(Ei )i∈I heißt unabhängig, wenn für jede endliche Teilmenge J ⊂ I und jede
Wahl E j ∈ Ej , j ∈ J
Y
P ∩j∈J E j =
P(E j )
(3.42)
j∈J
gilt.
93
3.3 Unabhängige Ereignisse und Mengensysteme
Folgender Satz sollte mit dem letzten Absatz von Beispiel 3.19 verglichen
werden. Die Aussagen könnten auf den ersten Blick widersprüchlich erscheinen.
Satz 3.23. Es sei I endlich und für jedes i ∈ I sei Ei eine Teilmenge von A mit
Ω ∈ Ei . Dann ist (Ei )i∈I genau dann unabhängig, wenn (3.42) für J = I gilt.
Beweis. Es ist nur zu zeigen, dass aus (3.42) für J = I die Unabhängigkeit folgt
(die andere Richtung gilt trivialerweise). Sei J 0 eine echte Teilmenge von I . Für
j ∈ J 0 seien E j ∈ Ej beliebig und für j ∈ I \ J 0 setzen wir E j = Ω. Dann gilt
Y
Y
P ∩j∈J 0 E j = P ∩j∈I E j =
P(E j ) =
P(E j ).
j∈I
j∈J 0
Satz 3.24. Es sei I eine beliebige Indexmenge und für jedes i ∈ I sei Ei ⊂ A so,
dass (Ei ∪ {∅}) schnittstabil ist. Dann ist (Ei )i∈I genau dann unabhängig, wenn
(σ (Ei ))i∈I unabhängig ist.
Beweis. Eine Richtung ist trivial. Für die andere zeigen wir, dass für alle endlichen J , J 0 mit J ⊂ J 0 ⊂ I
Y
P(∩j∈J 0 Aj ) =
P(Aj )
(3.43)
j∈J 0
für jede Wahl von (Aj )j∈J 0 mit Aj ∈ σ (Ej ), j ∈ J und Aj ∈ Ej , j ∈ J 0 \ J . In dem
Fall J = J 0 ist es genau die Aussage, die wir zeigen müssen.
Wir beweisen (3.43) durch Induktion nach n = |J |. Für n = 0 ist die Aussage
nach Voraussetzung erfüllt. Sei also (3.43) für alle J mit |J | = n erfüllt. Für ein
solches J sei H
J = J ∪ {j 0 } für ein j 0 ∈ I \ J . Ferner sei J 0 ⊃ H
J.
0
H
Sei Aj ∈ σ (Ej ) für j ∈ J und Aj ∈ Ej für j ∈ J \ J .
Wir definieren auf (Ω, A) die Maße µ und ν durch
\
Y
µ (A) B P A ∩
Aj und ν (A) B P(A)
P(Aj )
(3.44)
j∈J 0 \{j 0 }
j∈J 0 \{j 0 }
Ist A ∈ Ej0 ∪ {∅, Ω} so gilt nach Induktionsvoraussetzung µ (A) = ν (A). Damit
stimmen µ und ν auf einem schnittstabilen Erzeuger von σ (Ej0 ) überein. Nach
Satz 1.37 stimmen sie auch auf σ (Ej0 ) überein. Das zeigt (3.43) für J 0 mit
|J 0 | = n + 1.
94
3.4 Unabhängige Zufallsvariablen
3.4 Unabhängige Zufallsvariablen
Nun kommen wir zur Definition von unabhängigen Zufallsvariablen. Sei
(Ω, A, P) wie zuvor ein Wahrscheinlichkeitsraum und I eine beliebige Indexmenge. Für jedes i ∈ I sei (Ωi , Ai ) ein messbarer Raum und Xi : (Ω, A) →
(Ωi , Ai ) eine A-Ai messbare Abbildung; jedes Xi ist also eine Ωi -wertige Zufallsvariable oder auch Ωi -wertiges Zufallselement. Wir lassen hier den Zusatz
Ωi -wertig weg und sprechen von Zufallsvariablen. Der Wertebereich sollte
immer aus dem Kontext klar sein. Wie in Übung 1.7 (vgl. auch Satz 3.1) bezeichnen wir mit σ (Xi ) = Xi−1 (Ai ) = {Xi−1 (Ai ) : Ai ∈ Ai } die von Xi auf Ω
erzeugte σ -Algebra.
Definition 3.25 (Unabhängige Zufallsvariablen). Die Familie (Xi )i∈I von Zufallsvariablen heißt unabhängig, falls die Familie der erzeugten σ -Algebren
(σ (Xi ))i∈I gemäß Definition 3.22 unabhängig ist.
Unabhängigkeit von σ -Algebren ist eine gemeinsame Eigenschaft der σ Algebren und des Wahrscheinlichkeitsmaßes P (auf der größeren σ -Algebra
A). Wie so oft werden Eigenschaften von Maßen auf schnittstabilen Erzeugern
festgelegt. Deswegen sollte das folgende Resultat nicht überraschend sein.
Satz 3.26. Für jedes i ∈ I sei Ei ein schnittstabiler Erzeuger von Ai . Ist die
Familie (Xi−1 (Ei ))i∈I unabhängig, so ist auch (Xi )i∈I unabhängig.
Beweis. Da Urbilder von Durchschnitten, Durchschnitte von Urbildern sind
(vgl. (1.34)), folgt mit Satz 1.63(i), dass Xi−1 (Ei ) ein schnittstabiler Erzeuger
von σ (Xi ) ist. Mit Satz 3.24 folgt die Behauptung.
Definition 3.27 (Gemeinsame Verteilungsfunktion). Es sei (Xi )i∈I eine Familie
reellwertiger Zufallsvariablen. Für endliche Teilmenge J ⊂ I wird die Funktion
F J B F (X j )j ∈J : R J → R, definiert durch
F J (x ) B P ∩j∈J {X j ≤ x j } ,
x = (x j )j∈J ∈ R J ,
(3.45)
die gemeinsame Verteilungsfunktion von (X j )j∈J genannt. Das zugehörige Wahrscheinlichkeitsmaß P (X j )j ∈J heißt gemeinsame Verteilung von (X j )j∈J .
Satz 3.28. Es sei (Xi )i∈I eine Familie reellwertiger Zufallsvariablen auf dem
Wahrscheinlichkeitsraum (Ω, A, P). Dann sind folgende Aussagen äquivalent.
95
3.4 Unabhängige Zufallsvariablen
(i) Die Familie (Xi )i∈I ist unabhängig.
(ii) Für jede endliche Teilmenge J ⊂ I und jedes x = (x j )j∈J ) gilt
Y
F J (x ) =
F j (x j ).
(3.46)
j∈J
(iii) Für jede endliche Teilmenge J ⊂ I und alle Borel-messbaren Funktionen
дj : R → R, j ∈ J gilt (sofern beide Seiten endlich sind)
Y
Y
E
дj (X j ) =
E[дj (X j )].
(3.47)
j∈J
j∈J
Beweis. Übung!
Nimmt man in (3.47) die Funktion дj als Identität für alle j, so folgt insbesondere
Y Y
E
Xj =
E[X j ].
(3.48)
j∈J
j∈J
Also sind unabhängige Zufallsvariablen unkorreliert, vgl. Definition 3.8. Die
Umkehrung ist im Allgemeinen falsch.
Satz 3.29. Seien X 1 , . . . , Xn beliebige Zufallsvariablen mit endlichen zweiten
Momenten. Dann gilt
Var
n
X
n
n
X
X
X
Xi =
Cov[Xi , X j ] =
Var[Xi ] + 2
Cov[Xi , X j ]. (3.49)
i=1
i,j=1
i=1
1≤i<j≤n
Insbesondere gilt
Var
n
X
Xi =
i=1
n
X
i=1
für unkorrelierte Zufallsvariablen.
96
Var[Xi ]
(3.50)
3.4 Unabhängige Zufallsvariablen
Beweis. Wir können ohne Einschränkung E[Xi ] = 0 für alle i = 1, . . . , n
Hi = Xi − E[Xi ]. Dann ist Var[Xi ] =
annehmen. Ansonsten
wir
fP
g betrachten
fP
g X
n
n H
H
Hi , X
Hj ].
Var[Xi ], Var i=1 Xi = Var i=1 Xi und Cov[Xi , X j ] = Cov[X
Es gilt
Var
n
X
n
n
n
X
2
X
X
Xi = E
Xi
=E
Xi X j =
E[Xi X j ]
i=1
i=1
=
=
n
X
i,j=1
n
X
i=1
Cov[Xi , X j ] =
i,j=1
n
X
i,j=1
Cov[Xi , Xi ] + 2
i=1
Var[Xi ] + 2
X
X
Cov[Xi , X j ]
1≤i<j≤n
Cov[Xi , X j ].
1≤i<j≤n
Wir schließen diesen Abschnitt ab mit dem Beweis der Existenz unabhängiger Folgen von Zufallsvariablen mit vorgegebenen Verteilungen auf B(R).
Satz 3.30 (Existenz unabhängiger Folgen von Zufallsvariablen). Ist µ 1 , µ 2 , . . .
eine endliche oder abzählbar unendliche Folge von Wahrscheinlichkeitsmaßen
auf B(R), dann gibt es Wahrscheinlichkeitsraum (Ω, A, P) und eine Folge unabhängiger Zufallsvariablen auf diesem Wahrscheinlichkeitsraum mit Xi ∼ µi .
Wir bereiten den Beweis des Satzes mit einigen Hilfsresultaten vor.
Satz 3.31. Sei
X 11 X 12 · · ·
X 21 X 22 · · ·
..
..
.
.
eine Familie unabhängiger Zufallsvektoren und sei Ai = σ (Xik : k ∈ N) die
von den Zufallvektoren der i-ten Zeile erzeugte σ -Algebra. Dann ist die Familie
(Ai )i∈N unabhängig.
Beweis. Für i ∈ N sei Ei die Menge aller endlicher Schnitte der Form {Xij ∈ H }
wobei H Borelmengen passender Dimension sind. Dann ist Ei ein schnittstabiler Erzeuger von Ai . Mit Satz 3.26 folgt die Behauptung.
97
3.4 Unabhängige Zufallsvariablen
0
1
0
1
0
1
Abbildung 3.1: Graphen von d 1 (ω), d 2 (ω) und d 3 (ω).
Lemma 3.32 (Existenz unabhängiger Bernoulli verteilter Zufallsvariablen).
Es gibt einen Wahrscheinlichkeitsraum (Ω, A, P) und eine Folge unabhängiger
Zufallsvariablen (Zn )n∈N darauf mit
1
P(Zn = 0) = P(Zn = 1) = ,
2
n ∈ N.
(3.51)
Beweis. Sei Ω = (0, 1), A = B((0, 1)) und sei P das Lebesgue-Maß auf
B((0, 1)). Zu jedem ω ∈ (0, 1) gibt eine nicht abbrechende dyadische Entwicklung .d 1 (ω)d 2 (ω) . . ., mit
ω=
∞
X
dn (ω)
n=1
2n
.
Nicht abbrechend heißt z.B. dass wir von den beiden Darstellungen
.10000 . . . = .01111 . . . uns für die zweite entscheiden.
Wir setzen Zn (ω) = dn (ω). Dann gilt (siehe Abbildung 3.1)
1
P(Z 1 = 0) = P (0, 21 ) = = P ( 12 , 1) = P(Z 1 = 1).
2
Also hat Z 1 die geforderte Verteilung. Ferner gilt
1
P(Z 1 = 0, Z 2 = 0) = P (0, 41 ) = .
4
Analog kann man sich überlegen, dass für alle i, j ∈ {0, 1}
P(Z 1 = i, Z 2 = j) =
1
4
gilt. Zusammen mit
1
P(Z 2 = 0) = P (0, 14 ) ∪ ( 12 , 43 ) =
2
98
1
2
=
3.4 Unabhängige Zufallsvariablen
und
1
P(Z 2 = 2) = P ( 14 , 21 ) ∪ ( 34 , 1) =
2
folgt Unabhängigkeit von Z 1 und Z 2 . Mit analogen Argumenten zeigt man
die Unabhängigkeit von Z 1 , Z 2 und Z 3 und induktiv die Unabhängigkeit von
Z 1 , . . . , Zn für alle n ∈ N.
Lemma 3.33 (Existenz unabhängiger uniform verteilter Zufallsvariablen).
Es gibt einen Wahrscheinlichkeitsraum (Ω, A, P) und eine Folge unabhängiger
Zufallsvariablen (Un )n∈N darauf mit Un ∼ U ((0, 1)).
Beweis. Seien (Zn )n∈N wie in (3.51) unabhängige Bernoulli verteilte Zufallsvariablen. Wir ordnen sie in Matrixform an
Z 11 Z 12 · · ·
Z 21 Z 22 · · ·
..
..
.
.
und setzen
Un =
∞
X
Z
k=1
nk
.
2k
Die Reihe ist konvergent und somit Un für jedes n nach Satz 1.68 messbar.
Nach Satz 3.31 ist die Familie (Un )n∈N unabhängig. Wir zeigen nun, dass
Un ∼ U ((0, 1)) gilt.
P
Die Zufallsvariable Snk = ki=1 Zni 2−i nimmt Werte j2−k 0 ≤ j < 2k an
P
(Maximum von Snk ist ki=1 2−i = (2k − 1)2−k ). Wegen P(Zni = zi , 1 ≤ i ≤
k ) = 2−k für alle z 1 , . . . , zk mit zi ∈ {0, 1} haben alle hat jede Realisierung
von Snk dieselbe Wahrscheinlichkeit 2−k . Ist 0 ≤ x < 1 und j2−k ≤ x so folgt
j ≤ b2k xc. Also ist die Anzahl von j2−k in dem Intervall [0, x] gleich b2k xc + 1
und damit ist P(Snk ≤ x ) = (b2k xc + 1)/2k . Wegen Snk (ω) ↑ Un (ω) für k → ∞
folgt {Snk ≤ x } ↓ {Un ≤ x } für k → ∞. Mit Stetigkeit von P erhalten wir
P(Un ≤ x ) = lim P(Snk ≤ x ) = lim
k→∞
k→∞
b2k xc + 1
= x, 0 ≤ x < 1.
2k
Damit ist Un uniform verteilt auf dem Einheitsintervall.
99
3.5 Faltung
Nun können wir Satz 3.30 beweisen indem wir die gesuchten Zufallsvariablen Xn aus den uniform verteilten erzeugen.
Beweis von Satz 3.30. Seien µ 1 , µ 2 , . . . Wahrscheinlichkeitsmaße auf B(R) und
F 1 , F 2 , . . . die zugehörigen Verteilungsfunktionen. Wir definieren ϕn durch

 inf {x : u ≤ Fn (x )
ϕn (u) = 
0

: für 0 < u < 1
: sonst.
(3.52)
Da Fn nichtfallend und rechtsstetig ist, gilt ϕn (u) ≤ x genau dann, wenn
u ≤ Fn (x ) gilt.
Sei (Ω, A, P) der Wahrscheinlichkeitsraum aus Lemma 3.32 und seien
U1 , U2 , . . . die uniform Verteilten Zufallsvariablen aus Lemma 3.33. Wir definieren Xn (ω) = ϕn (Un (ω). Dann sind X 1 , X 2 , . . . unabhängige Zufallsvariablen
auf (Ω, A, P). Außerdem gilt
P(Xn ≤ x ) = P(ϕn (Un ) ≤ x ) = P(Un ≤ Fn (x )) = Fn (x ).
Also ist Fn die Verteilungsfunktion von Fn .
In dieser Vorlesung genügt uns Satz 3.30. Eine Folge unabhängiger Zufallsvariablen ist ein spezieller stochastischer Prozess in diskreter Zeit. Für
Existenz allgemeinerer (abhängiger) stochastischer Prozesse in diskreter oder
stetiger Zeit gibt es Verallgemeinerungen von Satz 3.30, nämlich der Satz von
Ionescu-Tulcea und der Erweiterungssatz von Kolmogorov; vgl. Abschnitt 14.3
in Klenke (2013).
3.5 Faltung
Es seien X und Y unabhängige Zufallsvariablen mit Verteilungen µ und ν. Für
H ∈ B(R) und x ∈ R setzen wir
H − x = {y ∈ R : y + x ∈ H }.
100
3.5 Faltung
Mit dem Satz von Fubini 2.36 angewandt auf die Funktion f (x, y) = 1H (x + y)
erhalten wir
Z ∞Z ∞
P(X + Y ∈ H ) =
f (x, y) ν (dy) µ (dx )
−∞ −∞
Z ∞
(3.53)
=
ν (H − x ) µ (dx )
−∞
Z ∞
=
P(Y ∈ H − x ) µ (dx )
−∞
Definition 3.34 (Faltung). Die Faltung zweier Wahrscheinlichkeitsmaße µ
und ν ist das Wahrscheinlichkeitsmaß µ ∗ ν definiert durch
Z ∞
(µ ∗ ν )(H ) =
ν (H − x ) µ (dx ), H ∈ B(R).
(3.54)
−∞
Sind X und Y unabhängig mit Verteilungen µ und ν , dann ist µ ∗ν nach (3.53)
die Verteilung von X + Y . Da Addition von Zufallsvariablen kommutativ und
assoziativ ist, gilt dasselbe auch für die Faltung: µ ∗ ν = ν ∗ µ und µ ∗ (ν ∗ η) =
(µ ∗ ν ) ∗ η.
Seien F und G die zu µ und ν gehörige Verteilungsfunktionen. Die Verteilungsfunktion, die zu der Faltung µ ∗ ν gehört wird mit F ∗ G bezeichnet und
mit H = (−∞, y] in (3.54) folgt
Z ∞
(F ∗ G)(y) =
G (y − x ) dF (x ),
(3.55)
−∞
wobei dF (x ) = µ (dx ). Besitzt G eine Dichte д, dann ist
Z y−x
Z y
G (y − x ) =
д(s) ds =
д(t − x ) dt .
−∞
(3.56)
−∞
Nach Fubini’s Theorem ist die rechte Seite in (3.55) gleich
Z y Z ∞
д(t − x ) dF (x ) dt .
−∞
−∞
Also hat F ∗ G die Dichte
(F ∗ д)(y) =
Z
∞
д(y − x ) dF (x ).
−∞
101
(3.57)
3.5 Faltung
Hat auch F eine Dichte f , dann ist dF (x ) = f (x ) dx. Wir bezeichnen die
Dichte von F ∗ G mit f ∗ д und es gilt
Z ∞
( f ∗ д)(y) =
д(y − x ) f (x ) dx .
(3.58)
−∞
Die Gleichung (3.58) definiert die Faltung von Dichten, und µ ∗ν hat die Dichte
f ∗ д, wenn µ die Dichte f und ν die Dichte д hat.
Beispiel 3.35. Seien X 1 , . . . , Xn unabhängige Zufallsvariablen mit Xi ∼ Exp(α )
für alle i = 1, . . . , n, d.h. die Dichte von Xi ist gegeben durch (3.9). Wir definieren дk durch
дk (x ) = α
(αx )k−1 −αx
e ,
(k − 1)!
x ≥ 0, k = 1, 2, . . .
(3.59)
und setze дk (x ) = 0 für x < 0.
Es gilt
(дk−1 ∗ д1 )(y) =
y
Z
0
дk−1 (y − x )д1 (x ) dx = дk (y).
Die letzte Gleichung rechnet man leicht mit partieller Integration nach. Da
д1 die Dichte der Exponentialverteilung ist, folgt induktiv, dass дk die Dichte
von X 1 + . . . + Xk ist. Die zugehörige Verteilungsfunktion ist
Gk (x ) = 1 − e −αx
∞
k−1
X
X
(αx )i
(αx )i
= e −αx
.
i!
i!
i=0
i=k
Das kann man z.B. durch Ableiten von G nachrechnen.
Die Funktion дk ist die Dichte der Gamma(k, α )-Verteilung. Wir haben also
soeben nachgerechnet, dass die Summe von n unabhängigen Exp(α ) verteilten
Zufallsvariablen Gamma(n, α ) verteilt ist:
Exp(α ) ∗n = Exp(α ) ∗ · · · ∗ Exp(α ) = Gamma(n, α ).
(3.60)
Beispiel 3.36. Es seien die Zufallsvariablen X 1 , . . . , Xn unabhängig mit Xi ∼
N(µi , σi2 ) für µi ∈ R und σi > 0, d.h. die Dichte von Xi ist
(x − µ ) 2 1
i
, x ∈ R.
fi (x ) = q
exp −
2
2σ
2
i
2πσi
102
3.5 Faltung
Wenn µ 1 = µ 2 = 0 ist, so gilt mit σ1 = σ und σ2 = τ
Z ∞
(y − x ) 2
1
x2 ( f 1 ∗ f 2 )(y) =
−
dx .
exp −
2πστ −∞
2σ 2
2τ 2
Wir substituieren
√
x σ2 + τ2
u=
,
στ
στ
u,
x=√
σ2 + τ2
(3.61)
στ
dx = √
du.
σ2 + τ2
Es gilt
−
(y − x ) 2
2uyτ σ
x2
1 y2
u 2τ 2σ 2
u 2τ 2σ 2 −
=
−
−
+
+
√
√
√
2σ 2
2τ 2
2 σ2 σ2 σ2 + τ2 σ2 σ2 + τ2 τ2 σ2 + τ2
y2
2uyτ σ
1 2
2
2
= − (σ + τ ) 2 2
− √
+u
2
σ (σ + τ 2 ) σ 2 σ 2 + τ 2
(y · στ ) 2
2uy στ
1 y2
2
=−
+
u
+
−
√
2 σ2 + τ2 σ2 + τ2
σ2 + τ2
τ
y · σ 2
y2
1
.
=−
+ u−√
2 σ2 + τ2
σ2 + τ2
Setzen wir
y·
τ
σ
ỹ B √
σ2 + τ2
dann folgt mit der obiger Rechnung eingesetzt in (3.61)
Z ∞
y2
1
στ
1
2
−
(u
−
ỹ)
du
exp
−
( f 1 ∗ f 2 )(y) =
√
2πστ σ 2 + τ 2 −∞
2(σ 2 + τ 2 ) 2
1
Z ∞ 1
y2
1
2
=p
exp −
√ exp − (u − ỹ) du
2(σ 2 + τ 2 ) −∞ 2π
2
2π (σ 2 + τ 2 )
y2
1
=p
exp −
.
2(σ 2 + τ 2 )
2π (σ 2 + τ 2 )
Für die letzte Gleichheit haben wir ausgenutzt, dass der Integrand in der
vorletzten Zeile die Dichte der N(ỹ, 1) ist. In der letzten Zeile erkennen wir
die Dichte der N(0, σ 2 + τ 2 ) Verteilung .
103
3.6 Konvergenz von Zufallsvariablen
Wir haben also nachgerechnet
N(0, σ12 ) ∗ N(0, σ22 ) = N(0, σ12 + σ22 ).
Generell kann man zeigen
N(µ 1 , σ12 )
∗···∗
N(µn , σn2 )
=N
n
X
µi ,
i=1
n
X
i=1
σi2
.
3.6 Konvergenz von Zufallsvariablen
Im Folgenden sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X , X 1 , X 2 , . . .
seien Zufallsvariablen darauf.
p
Definition 3.37 (Konvergenz in Wahrscheinlichkeit, fast sicher und in L ).
(i) Die Folge (Xn ) konvergiert in Wahrscheinlichkeit oder stochastisch gegen
P
X , wir schreiben Xn → X , wenn für alle ε > 0 gilt
n→∞
P(|Xn − X | ≥ ε ) −−−−→ 0.
(3.62)
f.s.
(ii) Die Folge (Xn ) konvergiert fast sicher gegen X , wir schreiben Xn −−→ X ,
wenn es eine Menge N ⊂ Ω mit P(N ) = 0 gibt, sodass
n→∞
Xn (ω) −−−−→ X (ω),
für alle ω < N .
p
(3.63)
p
(iii) Seien X , X 1 , X 2 , . . . ∈ L für p > 0. Die Folge (Xn ) konvergiert in L oder
p
L
im p-ten Mittel gegen X , wir schreiben Xn −−→ X , wenn
n→∞
kXn − X kp −−−−→ 0.
(3.64)
Bemerkung 3.38. Die fast sichere Konvergenz haben wir im Kontext allgemeiner Maße bereits früher kennen gelernt und als fast überall Konvergenz bezeichnet; vgl. Bemerkung 2.6. Integrationssätze, wie etwa Satz von monotoner
Konvergenz (Satz 2.8) oder Satz von der majorisierten Konvergenz (Satz 2.12),
die wir für fast überall konvergente messbare Funktionen bewiesen haben,
gelten also auch für fast sicher konvergente Folgen von Zufallsvariablen.
Analog zu (3.62) kann man auch einen Konvergenzbegriff für beliebige
Maße einführen. In dem allgemeinen Fall spricht man dann von Konvergenz
dem Maße nach.
104
3.6 Konvergenz von Zufallsvariablen
p
Satz 3.39. Konvergenz in L impliziert Konvergenz in Wahrscheinlichkeit.
Beweis. Mit Markov-Ungleichung (3.31) gilt für jedes ε > 0
p n→∞
P(|Xn − X | ≥ ε ) ≤ ε −p E[|Xn − X |p ] = ε −p kXn − X kp −−−−→ 0.
Die umgekehrte Implikation in Satz 3.39 ist ohne weitere Voraussetzungen, nämlich gleichgradige Integrierbarkeit von |Xn |p , falsch. An dieser Stelle
verweisen auf Satz 6.25 und Satz 7.3 in Klenke (2013). Wir kommen später
(teilweise) darauf zurück im Zusammenhang mit Konvergenz in Verteilung.
P
p
L
Beispiel 3.40 (Xn −
→ X ; Xn −−→ X ). Sei P = λ|B((0,1)) das Lebesgue-Maß
(also Gleichverteilung) auf (0, 1) und sei Xn = 2n 1 (0,n−1 ) . Für ε > 0 gilt
Z
P(|Xn − 0| ≥ ε ) =
2n 1 (0,n−1 )∩[ε,1) dλ.
Für n > ε −1 ist die Indikatorfunktion im Integral gleich Null. Also konvergiert
Xn in Wahrscheinlichkeit gegen 0.
Andererseits gilt
Z
2np n→∞
p
E[|Xn | ] =
2np 1 (0,n−1 ) dλ = 2np λ((0, n−1 )) =
−−−−→ ∞,
n
also konvergiert Xn nicht in im p-ten Mittel gegen 0.
In dem folgenden Satz geben wir eine oft nützliche äquivalente Charakterisierung der fast sicheren Konvergenz an.
Satz 3.41. Es gilt Xn → X f.s. genau dann, wenn für alle ε > 0 gilt
n→∞
P(|Xk − X | ≥ ε für ein k ≥ n) −−−−→ 0.
Beweis. Für ε > 0 setzen wir Bkε = {|Xk − X | ≥ ε} und
\[
Bε = lim sup Bnε =
Bkε .
n
n k ≥n
105
(3.65)
3.6 Konvergenz von Zufallsvariablen
Mit Stetigkeit von P folgt
P(Bε ) = lim P(∪k ≥n Bkε )
n→∞
und es gilt
{ω : Xn (ω) 6→ X (ω)} = {ω : ∃ε > 0 ∀n ∃k ≥ n : |Xk (ω) − X (ω)| ≥ ε}
[ \ [(
)
=
ω : |Xk (ω) − X (ω)| ≥ ε
ε>0 n k ≥n
=
[
Bε .
ε>0
Also gilt Xn → X f.s. genau dann, wenn P(Bϵ ) = 0 für alle ε > 0.
Satz 3.42. Fast sichere Konvergenz impliziert Konvergenz in Wahrscheinlichkeit.
Beweis. Mit Charakterisierung der fast sicheren Konvergenz aus Satz 3.41 und
Notation aus dem zugehörigen Beweis gilt Bnε ⊂ ∪k ≥n Bkε und damit
n→∞
P(|Xn − X | ≥ ε ) = P(Bnε ) ≤ P(∪k ≥n Bkε ) −−−−→ P(Bε ) = 0
für alle ε > 0.
Auch in Satz 3.42 gilt die umgekehrte Implikation im Allgemeinen nicht; vgl.
Übung 3.11 und Übung 3.14. Zumindest gilt aber eine teilweise Umkehrung;
siehe Satz 3.44. Das folgende Kriterium für fast sichere Konvergenz ist eine
Folgerung aus dem ersten Borel-Cantelli Lemma; Satz 3.21. Für eine Folge An
von Ereignisse schreiben wir (vgl. Bemerkung 1.3)
{An u. o.} = lim sup An .
n
Dabei steht „u.o.“ für unendlich oft.
Lemma 3.43. Gilt für Zufallsvariablen X , X 1 , X 2 , . . .
∞
X
P(|Xn − X | ≥ ε ) < ∞
n=1
f.s.
dann folgt Xn −−→ X .
106
für alle ε > 0,
(3.66)
3.6 Konvergenz von Zufallsvariablen
Beweis. Sei εk , k = 1, 2, . . . eine Folge positiver reeller Zahlen mit εk → 0.
Dann ist
{Xn 6→ X } =
∞
[
{|Xn − X | ≥ εk u.o.}.
k=1
Damit folgt
P(Xn 6→ X ) ≤
∞
X
P(|Xn − X | ≥ εk u.o.).
k=1
Mit Borel-Cantelli Lemma und Voraussetzung (3.66) sehen wir, dass die Wahrscheinlichkeiten in der Summe auf der rechten Seite gleich 0 sind.
P
→ X genau dann, wenn jede Teilfolge (Xnk ) eine weitere
Satz 3.44. Es gilt Xn −
f.s.
Teilfolge (Xnk (i ) ) enthält mit Xnk (i ) −−→ X .
P
Beweis. Wenn Xn −
→ X gilt und (nk ) eine Teilfolge von (n) ist, dann wählen
wir eine weitere Teilfoge (nk (i) ) so, dass
P(|Xnk (i) − X | ≥ i −1 ) < 2−i
für alle i.
Für jedes ε gilt i −1 < ε wenn i > ε −1 . Damit gilt
∞
X
P(|Xnk (i) − X | ≥ ε ) < ∞
für alle ε > 0.
i=1
f.s.
Mit Lemma 3.43 folgt Xnk (i ) −−→ X .
Wenn Xn nicht gegen X in Wahrscheinlichkeit konvergiert, dann gibt es ein
ε > 0 mit P(|Xnk − X | ≥ ε ) > ε entlang einer Teilfolge (nk ). Keine Teilfolge
davon kann in Wahrscheinlichkeit gegen X konvergieren. Also kann auch
keine fast sicher gegen X konvergieren.
Beispiel 3.45. Seien X , X 1 , X 2 , . . . und Y , Y1 , Y2 , . . . Zufallsvariablen.
p
L
p
L
(i) Gilt für p ≥ 1 Xn −−→ X und Yn −−→ Y , so folgt mit Minkowski-Ungleichung
p
L
leicht Xn + Yn −−→ X + Y .
107
3.7 Null-Eins Gesetz von Kolmogorov
f.s.
f.s.
f.s.
(ii) Gilt Xn −−→ X und Yn −−→ Y , so gilt auch Xn + Yn −−→ X + Y . Denn
P(Xn + Yn 6→ X + Y ) ≤ P(Xn 6→ X ) + P(Yn 6→ Y ) = 0.
P
P
P
(iii) Gilt Xn −
→ X und Yn −
→ Y , so gilt auch Xn + Yn −
→ X + Y . Denn für alle
ε > 0 gilt
P(|Xn + Yn − (X + Y )| ≥ ε ) ≤ P(|Xn − X | + |Yn − Y | ≥ ε )
≤ P(|Xn − X | ≥ ε/2 oder |Yn − Y | ≥ ε/2)
≤ P(|Xn − X | ≥ ε/2) + P(|Yn − Y | ≥ ε/2)
n→∞
−−−−→ 0.
3.7 Null-Eins Gesetz von Kolmogorov
Mit dem Borel-Cantelli Lemma haben wir bereits ein Null-Eins Gesetz kennen gelernt. Ist nämlich A1 , A2 , . . . eine Folge unabhängiger Ereignisse, dann
ist nach Borel-Cantelli Lemma P(lim supn An ) ∈ {0, 1}. In diesem Abschnitt
beweisen wir ein weiteres Null-Eins Gesetz.
Es sei (Xn )n∈N eine Folge von Zufallsvariablen und sei A die Menge aller
P∞
ω, für die n=1
Xn (ω) konvergiert. Für die Frage ob ω ein Element von A
ist oder nicht sind natürlich die Werte X 1 (ω), . . . , Xm (ω) für jedes m ∈ N
irrelevant. Vielmehr ist entscheidend was im Unendlichen passiert. Also sollte
A ein Element der σ -Algebra σ (Xm , Xm+1 , . . .), und zwar für jedes m, sein.
Definition 3.46 (Terminale σ -Algebra). Die σ -Algebra
∞
T B ∩n=1
σ (Xn , Xn+1 , . . .)
(3.67)
heißt terminale σ -Algebra der Folge (Xn )n∈N . Elemente von T heißen terminale
Ereignisse.
Beispiel 3.47. Wie schon oben bemerkt sind die folgenden Ereignisse terminal
∞
X
X
n=1
n
n
konvergiert ,
∞
X
n=1
108
Xn konvergiert .
3.7 Null-Eins Gesetz von Kolmogorov
Weitere Beispiele terminaler Ereignisse sind
{Xn ∈ In u.o.} = lim sup{Xn ∈ In }, für In ∈ B(R),
n
{lim sup Xn < ∞},
n
(
lim sup
n→∞
n
)
1X
Xi < ∞ ,
n i=1
n
(
lim sup
n→∞
)
1X
Xi < c .
n i=1
Die folgenden Ereignisse sind nicht terminal
{Xn = 0 für alle n ≥ 1},
∞
X
Xn konvergiert und ist kleiner als c .
n=1
Satz 3.48 (Null-Eins Gesetz von Kolmogorov). Es sei (Xn )n∈N unabhängig und
sei T die zugehörige terminale σ -Algebra. Ist A ∈ T , so gilt P(A) ∈ {0, 1}.
Beweis. Die Beweisidee ist zu zeigen, dass ein terminales Ereignis A von sich
selbst unabhängig ist. Ist das gezeigt, so folgt P(A) = P(A)P(A) und somit
P(A) ∈ {0, 1}.
∞ σ (X , . . . , X ). Wir zeigen zunächst, dass A eine Algebra
Sei A0 = ∪k=1
1
0
k
ist, die die σ -Algebra σ (X 1 , X 2 , . . .) erzeugt. Dass Ω ∈ A0 und dass A0 abgeschlossen bezüglich Komplementenbildung ist klar. Sind B und C Mengen aus
A0 , dann gibt es j und k mit B ∈ σ (X 1 , . . . , X j ) und C ∈ σ (X 1 , . . . , Xk ). Für
m = max{k, j} ist dann B, C ∈ σ (X 1 , . . . , Xm ) und somit B ∪C ∈ σ (X 1 , . . . , Xm ).
Also ist A0 eine Algebra. Ist H ∈ B(R), dann ist Xn−1 (H ) ∈ A0 ⊂ σ (A0 ). Also
ist Xn messbar bezüglich σ (A0 ) und somit gilt σ (A0 ) = σ (X 1 , X 2 , . . .).
Sei nun A ∈ T . Dann gilt A ∈ σ (Xk+1 , Xk+2 , . . .) für jedes k. Ist B ∈
σ (X 1 , . . . , Xk ), dann sind A und B unabhängig nach Satz 3.31. Damit ist A
unabhängig von A0 und nach Satz 3.24 auch unabhängig von σ (X 1 , X 2 , . . .).
Insbesondere ist A unabhängig von sich selbst, was den Beweis abschließt. Korollar 3.49. Sei Y eine Zufallsvariable, die messbar bezüglich der terminalen
σ -Algebra T ist, d.h. Y −1 (B) ∈ T für alle B ∈ B(R). Dann ist Y trivial in dem
Sinne, dass es ein c gibt mit P(Y = c) = 1.
Beweis. Übung!
109
3.8 Starkes Gesetz der großen Zahlen
3.8 Starkes Gesetz der großen Zahlen
Es sei (Xn )n∈N eine Folge reellwertiger Zufallsvariablen und sei
Sn B
n
X
Xi .
(3.68)
i=1
Wir sagen, dass die Folge (Xn )n∈N dem schwachen Gesetz der großen Zahlen
genügt, wenn
n
1X
P
(Xi − E[Xi ]) −
→ 0,
n i=1
für n → ∞.
(3.69)
Wir sagen, dass die Folge (Xn )n∈N dem starken Gesetz der großen Zahlen genügt,
wenn
n
1X
f.s.
(Xi − E[Xi ]) −−→ 0, für n → ∞.
(3.70)
n i=1
Das Hauptziel dieses Abschnittes ist der Beweis einer allgemeinen Version
des starken Gesetzes der großen Zahlen (GGZ) für Folgen identisch verteilter
paarweise unabhängiger Zufallsvariablen. Für solche Zufallsvariablen sind die
obigen Aussagen gleichbedeutend mit
1
P
Sn −
→ E[X 1 ]
n
(3.71)
bzw.
1
f.s.
Sn −−→ E[X 1 ].
(3.72)
n
Natürlich impliziert das starke GGZ das schwache GGZ. Lässt man die Unabhängigkeitsvoraussetzung fallen, so kann man unter geeigneten Annahmen
an Varianzen und Kovarianzen von Zufallsvariablen das schwache GGZ relativ einfach mit Hilfe der Chebyshev Ungleichung beweisen; vgl. Übung 3.13.
Für Folgen unabhängiger identisch verteilter Zufallsvariablen mit endlichen
vierten Momente kann man mit Chebyshev Ungleichung zeigen, dass für jedes
ε>0
∞
1
X
P Sn − E[X 1 ] > ε < ∞.
(3.73)
n
n=1
110
3.8 Starkes Gesetz der großen Zahlen
f.s.
Mit Borel-Cantelli Lemma folgt dann n1 Sn −−→ E[X 1 ]. Der Beweis ist dann
zwar vergleichsweise einfach, aber wie das folgende Resultat zeigt, sind die
Voraussetzungen viel zu stark.
Das folgende Resultat geht auf Kolmogorov zurück und wurde ursprünglich
für unabhängige anstatt für paarweise unabhängige Folgen von Zufallsvariablen bewiesen. Der Beweis der allgemeineren Version stammt von Etemadi.
Satz 3.50 (Starkes GGZ von Etemadi und Kolmogorov). Es sei (Xn )n∈N eine Folge integrierbarer, paarweise unabhängiger und identisch verteilter reellwertiger
f.s.
Zufallsvariablen. Dann gilt n −1Sn −−→ E[X 1 ] für n → ∞.
Beweis. Wenn der Satz für nichtnegative Zufallsvariablen gilt, dann folgt
n
n
1
1 X + 1 X − f.s.
Sn =
X −
X −−→ E[X 1+ ] − E[X 1− ].
n
n i=1 k n i=1 k
Also können wir ohne Einschränkung annehmen, dass die Zufallsvariablen
Xn nichtnegativ sind.
Wir definieren eine Folge gestutzter (trunkierter) Zufallsvariablen (Yn )n∈N
durch
Yn B Xn 1{X n ≤n}
und setzen
Sn∗ =
n
X
Yk .
k=1
Für festes α > 1 definieren wir un = bα n c und zeigen zunächst
!
∞
X
Su∗ − E[Su∗ ] n
n
> ε < ∞.
P un
n=1
(3.74)
Da Xn paarweise unabhängig sind, sind auch Yn paarweise unabhängig und es
folgt
Var[Sn∗ ] =
n
X
Var[Yk ] ≤
k=1
=
n
X
k=1
n
X
k=1
E[Yk2 ]
E[Xk2 1{X k ≤k} ] ≤ nE[X 12 1{X 1 ≤n} ].
111
3.8 Starkes Gesetz der großen Zahlen
Mit Chebyshev-Ungleichung folgt, dass die Summe in (3.74) nach oben beschränkt ist durch
" X
#
∞
∞
∞
X
X
1
1
1
1
∗
2
2
Var[Sun ] ≤
u E[X 1 1{X 1 ≤un } ] = 2 E X 1
1{X 1 ≤un } .
2u 2
2u 2 n
ε
u
ε
ε
n
n
n
n=1
n=1
n=1
Sei K = 2α/(α − 1) und sei x > 0. Wenn N die kleinste natürliche Zahl n mit
un ≥ x, dann ist α N ≥ x und wegen y ≤ 2byc (und byc −1 ≤ 2y −1 ) für y ≥ 1
folgt
∞
X
X 1
X 1
1
1
2
K
K
1{x ≤un } =
≤2
= N
= N ≤ .
n
u
u
α
x
α 1 − 1/α α
un ≥x n
n=1 n
n≥N
P∞ 1
−1
Damit ist n=1
un 1{X 1 ≤un } ≤ KX 1 für X 1 > 0 und die Summe in (3.74) ist
beschränkt durch Kε −2 E[X 1 ] < ∞.
Aus (3.74) folgt mit Borel-Cantelli Lemma (speziell mit Lemma 3.43)
Su∗n − E[Su∗n ]
un
f.s.
−−→ 0.
(3.75)
n→∞
Mit dem Satz von monotoner Konvergenz gilt E[Yn ] −−−−→ E[X 1 ]. Ist (xn )
eine konvergente reelle Folge, so konvergiert auch der Cesàro Durchschnitt
P
n−1 nk=1 xk und die beiden Grenzwerte stimmen überein (wenn das nicht
ohnehin bekannt ist, kann es leicht gezeigt werden). Es folgt
n
1X
1
n→∞
E[Sn∗ ] =
E[Yk ] −−−−→ E[X 1 ],
n
n k=1
f.s.
und damit gilt un−1Su∗n −−→ E[X 1 ].
Nun wollen wir aus der Konvergenz von un−1Su∗n auf die von un−1Sun schließen.
Es gilt (vgl. Übung 2.14(a) für die letzte Gleichung)
Z ∞
∞
∞
X
X
P(Xn , Yn ) =
P(X 1 > n) ≤
P(X 1 > t ) dt = E[X 1 ] < ∞.
n=1
0
n=1
f.s.
Eine weitere Anwendung von Borel-Cantelli Lemma zeigt (Sn∗ − Sn )/n −−→ 0
und es folgt
Sun f.s.
−−→ E[X 1 ].
un
112
(3.76)
3.8 Starkes Gesetz der großen Zahlen
Es bleibt noch zu zeigen, dass wir in dem obigen Display un durch n ersetzen
können.
Ist un ≤ k ≤ un+1 , dann folgt mit Xi ≥ 0
un Sun
Sk un+1 Sun+1
≤
≤
.
un+1 un
k
un un+1
Mit un+1 /un → α für n → ∞ und (3.76) folgt
Sk
Sk
1
E[X 1 ] ≤ lim inf
≤ lim sup
≤ αE[X 1 ] fast sicher.
k
α
k
k
k
Diese Ungleichung ist für alle α > 1 erfüllt. Damit hat auch das Ereignis
\ 1
(
)
Sk
Sk
lim Sk = E[X 1 ] =
E[X 1 ] ≤ lim inf
≤ lim sup
≤ αE[X 1 ]
k
k
α
k
k
k
Q
α ∈ ∩(1,∞)
f.s.
Wahrscheinlichkeit 1, also gilt n −1Sn −−→ E[X 1 ].
Korollar 3.51. Es sei (Xn )n∈N eine Folge paarweise unabhängiger und identisch
verteilter Zufallsvariablen mit E[X 1− ] < ∞, E[X 1+ ] = ∞ (dann ist E[X 1 ] = ∞).
f.s.
Dann gilt n−1Sn −−→ ∞.
P
f.s.
Beweis. Nach dem starken GGZ gilt n−1 nk=1 Xk− −−→ E[X 1− ], also genügt es
das Resultat für den Fall Xk = Xk+ ≥ 0 zu beweisen. Für Xn(u) B Xn 1{0≤X n ≤u}
gilt
n
n
1 X (u) f.s.
1X
Xk ≥
X −−→ E[X 1(u) ].
n k=1
n k=1 k
Mit dem Satz von monotoner Konvergenz gilt E[X 1(u) ] → E[X 1 ], was den
Beweis abschließt.
Beispiel 3.52. Ist X eine Cauchy verteilte Zufallsvariable mit Parameter u > 0
hat die Dichte
cu (x ) =
u
,
+ x 2)
π (u 2
113
x ∈ R.
3.9 Maximalungleichungen
Es gilt
+
E[X ] =
∞
Z
0
u
u
x
dx ≥
2
2
π (u + x )
π
∞
Z
1
1
dx = ∞.
x
Da die Dichte symmetrisch ist, folgt auch E[X − ] = ∞. Der Erwartungswert
von X existiert also nicht.
Ist X 1 , X 2 , . . . eine Folge unabhängiger identisch Cauchy verteilter Zufallsvariablen, so können wir weder Satz 3.50 noch Korrolar 3.51 anwenden um
etwas über n−1Sn aussagen zu können. Nach Übung 3.9 wissen wir aber, dass
n−1Sn genauso Cauchy verteilt ist wie die Xi . Insbesondere kann es nicht fast
sicher oder in Wahrscheinlichkeit gegen eine Konstante konvergieren.
Wir werden bald eine weitere Konvergenzart für Folgen von Zufallsvariablen behandeln, nämlich Konvergenz in Verteilung. Dabei konvergiert eine
Folge Zn in Verteilung gegen eine Zufallsvariable Z wenn die Folge der Verteilungsfunktionen von Zn gegen die von Z an den Stetigkeitsstellen letzterer
konvergiert. Für Zn = n−1Sn und Z = X 1 ist dies offenbar erfüllt (sogar exakt).
3.9 Maximalungleichungen
In diesem Abschnitt betrachten wir Maximalungleichungen, die sehr hilfreich
sind um Summen von Zufallsvariablen zu studieren. Die bekannteste Maximalungleichung ist die Ungleichung von Kolmogorov. Gegeben eine Folge
P
X 1 , X 2 , . . . von Zufallsvariablen, schreiben wir wie zuvor Sn = ni=1 Xi .
Satz 3.53 (Kolmogorov-Ungleichung). Seien X 1 , . . . , Xn unabhängige Zufallsvariablen mit E[Xi ] = 0 und Var[Xi ] = E[X 2 ] < ∞. Für jedes α > 0 gilt
1
P max |Sk | ≥ α ≤ 2 Var[Sn ].
α
1≤k ≤n
Beweis. Sei
Ak B {|Sk | ≥ α, |S j | < α, j = 1, . . . , k − 1}.
114
(3.77)
3.9 Maximalungleichungen
Da die Ereignisse Ak disjunkt sind, aber möglicherweise Ω , ∪nk=1Ak , gilt
n Z
X
2
Var[Sn ] = E[Sn ] ≥
Sn2 dP
=
≥
k=1 Ak
n Z X
k=1 Ak
n Z
X
k=1
Ak
Sk2 + 2Sk (Sn − Sk ) + (Sn − Sk ) 2 dP
Sk2 + 2Sk (Sn − Sk ) dP.
Das Ereignis Ak und die Zufallsvariable Sk sind messbar bezüglich σ (X 1 , . . . , Xk )
P
und der Zuwachs Sn − Sk = ni=k+1 Xi ist messbar bezüglich σ (Xk+1 , . . . , Xn ).
Die beiden σ -Algebren sind unabhängig. Also gilt
Z
Sk (Sn − Sk ) dP = E[1Ak Sk (Sn − Sk )] = E[1Ak Sk ]E[(Sn − Sk )] = 0.
Ak
Es folgt
Var[Sn ] =
E[Sn2 ]
≥
n Z
X
k=1
= α2
Ak
n
X
Sk2 dP
≥
n Z
X
k=1
Ak
α 2 dP
P(Ak ) = α 2 P max |Sk | ≥ α .
1≤k ≤n
k=1
Mit Chebychev-Ungleichung für Sn erhalten wir unter Voraussetzungen
von Satz 3.53
1
P(|Sn | ≥ α ) ≤ 2 Var[Sn ].
α
Dass, es zu Kolmogorov-Ungleichung verstärkt werden kann, kann man heuristisch wie folgt begründen: Wenn für Summen unabhängiger Zufallsvariablen
max1≤k ≤n |Sk | groß ist, dann sollte auch |Sn | groß sein. Folgender Satz von
Etemadi ist auch ein Resultat in diese Richtung.
Satz 3.54 (Etemadi). Für unabhängige Zufallsvariablen X 1 , . . . , Xn und α ≥ 0
gilt
P max |Sk | ≥ 3α ≤ 3 max P |Sk | ≥ α .
(3.78)
1≤k ≤n
1≤k ≤n
115
3.10 Reihen unabhängiger Zufallsvariablen
Beweis. Sei
Bk B {|Sk | ≥ 3α, |S j | < 3α, j = 1, . . . , k − 1}.
Die Ereignisse Bk sind disjunkt und es gilt
P max |Sk | ≥ 3α = P max |Sk | ≥ 3α, |Sn | ≥ α + P max |Sk | ≥ 3α, |Sn | < α
1≤k ≤n
1≤k ≤n
≤ P(|Sn | ≥ α ) +
1≤k ≤n
n−1
X
P(Bk , |Sn | < α ).
k=1
Aus |Sk | ≥ 3α und |Sn | < α folgt |Sn − Sk | > 2α. Außerdem sind die Ereignisse
Bk und |Sn − Sk | > 2α unabhängig. Damit gilt
P max |Sk | ≥ 3α ≤ P(|Sn | ≥ α ) +
1≤k ≤n
≤ P(|Sn | ≥ α ) +
n−1
X
k=1
n−1
X
P(Bk , |Sn − Sk | > 2α )
P(Bk )P(|Sn − Sk | > 2α )
k=1
≤ P(|Sn | ≥ α ) + max P(|Sn − Sk | ≥ 2α )
1≤k ≤n
n−1
X
P(Bk )
k=1
≤ P(|Sn | ≥ α ) + max P(|Sn − Sk | ≥ 2α )
1≤k ≤n
≤ P(|Sn | ≥ α ) + max P(|Sn | ≥ α ) + P(|Sk | ≥ α )
1≤k ≤n
≤ 3 max P(|Sk | ≥ α ).
1≤k ≤n
3.10 Reihen unabhängiger Zufallsvariablen
Sind die Zufallsvariablen X 1 , X 2 , . . . unabhängig, dann konvergiert nach dem
P
Null-Eins-Gesetz von Kolmogorov die Reihe n Xn entweder mit Wahrscheinlichkeit 0 oder mit Wahrscheinlichkeit 1. In diesem Abschnitt versuchen wir
die beiden Fälle in Abhängigkeit der Verteilung der Xn zu charakterisieren.
Satz 3.55. Es sei (Xn )n∈N unabhängig und sei E[Xn ] = 0 für alle n ∈ N. Ist
P
P
n Var[X n ] < ∞, dann konvergiert die Reihe n X n mit Wahrscheinlichkeit 1.
116
3.10 Reihen unabhängiger Zufallsvariablen
Beweis. Nach Kolmogorov-Ungleichung gilt
P max |Sn+k
1≤k ≤r
r
1 X
− Sn | > ε ≤ 2
Var[Xn+k ].
ε k=1
Die rechte Seite ist nicht fallend in r und mit r → ∞ folgt
P sup |Sn+k
k ≥1
Da nach Voraussetzung
∞
1 X
Var[Xn+k ].
− Sn | > ε ≤ 2
ε k=1
Var[Xn ] konvergiert, folgt
lim P sup |Sn+k − Sn | > ε = 0
P
n
n→∞
k ≥1
(3.79)
für alle ε > 0.
Sei E (n, ε ) B {supj,k ≥n |S j − Sk | > 2ε} und E(ε ) = ∩n E (n, ε ). Dann gilt
E (n, ε ) ↓ E (ε ) und mit (3.79) folgt P(E(ε )) = 0. Die Vereinigung ∪ε E (ε ) über
alle rationalen positiven ε enthält die Menge der ω ∈ Ω, für die (Sn (ω))n∈N
keine Cauchy-Folge (und damit nicht konvergent) ist. Diese Menge hat also
Wahrscheinlichkeit 0.
P
Wenn n Xn mit Wahrscheinlichkeit 1 konvergiert, dann konvergiert Sn
fast sicher gegen eine endliche Zufallsvariable S. Nach Satz 3.42 konvergiert
Sn gegen S auch in Wahrscheinlichkeit. Die Umkehrung gilt im Allgemeinen
nicht, sie gilt aber dann, wenn die Summanden unabhängig sind.
Satz 3.56. Es sei (Xn )n∈N unabhängig. Die Folge (Sn )n∈N konvergiert genau
dann in Wahrscheinlichkeit, wenn sie fast sicher konvergiert.
P
Beweis. Wir zeigen: Sn −
→ S impliziert, dass die Folge (Sn )n∈N mit Wahrscheinlichkeit 1 eine Cauchy-Folge ist.
Wegen
ε
ε
+ P |Sn − S | ≥
P(|Sn+j − Sn | ≥ ε ) ≤ P |Sn+j − S | ≥
2
2
P
folgt aus Sn −
→S
lim sup P(|Sn+j − Sn | ≥ ε ) = 0.
n→∞ j≥1
117
(3.80)
3.11 Übungen
Nach (3.78) gilt
ε
P max |Sn+j − Sn | ≥ ε ≤ 3 max P |Sn+j − Sn | ≥
3
1≤j≤k
1≤j≤k
und damit
ε
P sup |Sn+k − Sn | ≥ ε ≤ 3 sup P |Sn+k − Sn | ≥ .
3
k ≥1
k ≥1
Mit (3.80) folgt, dass die Gleichung (3.79) aus dem Beweis von Satz 3.55 gilt
und dann folgt die Behauptung analog.
3.11 Übungen
Übung 3.1. Ist X eine P-integrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P) und A1 , A2 , . . . ∈ A eine Folge mit P(An ) → 0, so folgt
E[1An X ] → 0.
Übung 3.2. Ist X eine reellwertige Zufallsvariable, so gilt
P(X ≥ x ) ≤ inf e −tx E[e tX ].
t ≥0
Übung 3.3 (Lyapunov-Ungleichung). Ist X eine reellwertige Zufallsvariable
und ist 0 < s < t, so gilt
(E[|X |s ]) 1/s ≤ (E[|X |t ]) 1/t .
Übung 3.4. Es sei Y eine nichtnegative Zufallsvariable mit E[Y 2 ] < ∞. Für
a ∈ [0, 1] gilt
P(Y > aE[Y ]) ≥ (1 − a) 2
(E[Y ]) 2
.
E[Y 2 ]
Bemerkung: Die Chebyshev-Ungleichung liefert eine obere Schranke für Wahrscheinlichkeit von Abweichungen vom Erwartungswert. Die hier zu beweisende
Ungleichung liefert eine untere Schranke.
Übung 3.5. Beweisen Sie Satz 3.20.
Übung 3.6. Beweisen Sie Satz 3.28.
118
3.11 Übungen
Übung 3.7. Es seien X 1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit Verteilungsfunktion F .
(i) Drücken Sie die Verteilungsfunktionen von Y := min Xi und Z := max Xi
1≤i≤n
durch F aus.
1≤i≤n
(ii) Es sei f die Dichte von X 1 . Drücken Sie die Dichten von Y und Z durch F
und f aus.
Übung 3.8. Es seien X 1 und X 2 unabhängig Poisson verteilte Zufallsvariablen
mit positiven Parametern λ 1 bzw. λ 2 .
(i) Bestimmen Sie die Verteilung von X 1 + X 2 .
(ii) Für festes n ∈ N bestimmen Sie die bedingte Verteilung von X 1 gegeben
X 1 + X 2 = n, d.h. berechnen Sie
P (X 1 = k |X 1 + X 2 = n),
k = 0, 1, . . . , n.
Hinweis: Sie können in (ii) die aus „Stochastik 0“ bekannte Formel benutzen:
P(A|B) = P(A ∩ B)/P(B), wenn P(B) > 0.
Übung 3.9 (Stabilität der Cauchy-Verteilung). Cauchy-Verteilung mit Parameter u > 0 ist eine Verteilung auf (R, B(R)) mit Dichte
cu (x ) =
u
,
π (u 2 + x 2 )
x ∈ R.
Es seien X 1 , . . . , Xn unabhängig und identisch verteilte Zufallsvariablen mit
Dichte cu . Zeigen Sie, dass auch die Zufallsvariable (X 1 + . . . + Xn )/n auch
Cauchy verteilt ist mit Paramter u.
Hinweis: Sie können ohne Beweis verwenden, dass cu ∗ cv = cu+v für alle
u, v > 0 gilt.
Übung 3.10. (i) Es seien X und Y unabhängige standard normal verteilte
Zufallsvariablen. Zeigen Sie, dass die Zufallsvariable

 XY
Z=
0

Cauchy verteilt mit Parameter 1 ist.
119
:Y ,0
:Y =0
3.11 Übungen
(ii) Es sei U eine auf (− π2 , π2 ) gleichverteilte Zufallsvariable. Zeigen Sie, dass
tan(U ) Cauchy verteilt mit Parameter 1 ist.
Übung 3.11. Seien X 1 , X 2 , . . . unabhängige Zufallsvariablen mit
P(Xn = 1) = pn
und
P(Xn = 0) = 1 − pn .
(i) Zeigen Sie
P
Xn −
→0
⇐⇒
lim pn = 0,
(3.81)
lim pn = 0,
(3.82)
pn < ∞.
(3.83)
n→∞
p
L
Xn −−→ 0
f.s.
Xn −−→ 0
⇐⇒
⇐⇒
n→∞
∞
X
n=1
(ii) Zeigen Sie mit Hilfe von (i), dass aus der Konvergenz in Wahrscheinlichkeit
und Konvergenz im p-ten Mittel im Allgemeinen nicht die fast sichere
Konvergenz folgt.
(iii) Beweisen Sie in diesem speziellen Fall die Aussage von Satz 3.44 (ohne den
Satz selbst zu benutzen).
Übung 3.12. Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X , X 1 , X 2 , . . . :
(Ω, A) → (Rk , B(Rk )) Zufallsvektoren. Man sagt, dass die Folge (Xn ) in Wahrscheinlichkeit gegen X konvergiert, falls für jedes ε > 0
P(kXn − X k > ε ) → 0
für n → ∞,
wobei k·k eine beliebige Norm auf Rk ist.
P
(i) Es sei f : Rk → Rm messbar und stetig in a ∈ Rk . Gilt Xn −
→ a, so gilt
P
auch f (Xn ) −
→ f (a).
P
P
(ii) (Xn1 , . . . , Xnk ) −
→ (X 1 , . . . , X k ) genau dann, wenn Xni −
→ X i für alle i ∈
{1, . . . , k }.
120
3.11 Übungen
Übung 3.13. Für jedes n ∈ N seien X 1(n) , . . . , Xn(n) paarweise unkorrelierte Zufallsvariablen mit endlicher Varianz (nicht notwendigerweise identisch verteilt!)
und
n
1 X
Var[Xi(n) ] = 0.
lim 2
n→∞ n
i=1
Zeigen Sie, dass die Xi(n) dem schwachen Gesetz der großen Zahlen genügen,
d.h. beweisen Sie
n
P
1 X (n)
Xi − E[Xi(n) ] −
→ 0, n → ∞.
(3.84)
n i=1
Wenn die Zufallsvariablen X 1(n) , . . . , Xn(n) korreliert sind, so kann (3.84) trotzdem
gelten. Finden Sie eine geeignete Bedingung an die Kovarianzen.
Übung 3.14. Es sei (Xn )n≥2 eine Folge unabhängiger Zufallsvariablen mit
P(Xn = n) =
1
n log n
und
P(Xn = 0) = 1 −
1
.
n log n
Zeigen Sie: Die Folge genügt zwar dem schwachen, aber nicht dem starken Gesetz
der großen Zahlen in dem Sinne, dass
n
1X
(Xi − E[Xi ])
n i=2
zwar in Wahrscheinlichkeit gegen Null konvergiert, aber nicht fast sicher.
Übung 3.15. Es sei (Xn )n≥1 eine Folge unabhängiger nichtnegativer Zufallsvariablen. Zeigen Sie, dass folgende Aussagen äquivalent sind:
(a)
(b)
∞
X
Xn < ∞ f.s. ,
n=1
∞ X
P(Xn > 1) + E(Xn 1{X n ≤1} ) < ∞,
n=1
∞
X X
n
< ∞.
(c)
E
1 + Xn
n=1
121
4 Schwache Konvergenz und zentraler
Grenzwertsatz
4.1 Schwache Konvergenz
Es seien X , X 1 , X 2 , . . . Zufallsvariablen auf dem Wahrscheinlichkeitsraum
(Ω, A, P). Ferner seien µ, µ 1 , µ 2 , . . . und F , F 1 , F 2 , . . . die Verteilungen bzw.
Verteilungsfunktionen der Zufallsvariablen.
Definition 4.1. Die Folge (Xn ) konvergiert in Verteilung gegen X , wir schreiben
Xn ⇒ X , wenn
n→∞
Fn (x ) −−−−→ F (x ),
(4.1)
für alle Stetigkeitstellen x ∈ R von F gilt. In diesem Fall konvergiert die Folge
der Verteilungen (µn ) schwach gegen µ und wir schreiben µn ⇒ µ bzw. Fn ⇒ F .
Bemerkung 4.2. Nach Definition gilt µn ⇒ µ genau dann, wenn
lim µn (A) = µ (A)
n→∞
(4.2)
für alle A der Form A = (−∞, x], für die µ ({x }) = 0 gilt. Da es bei Konvergenz
in Verteilung also um Konvergenz von Bildmaßen handelt, müssen die Zufallsvariablen nicht auf demselben Wahrscheinlichkeitsraum definiert werden. Bei
Konvergenz in Wahrscheinlichkeit und fast sicherer Konvergenz ist es anders:
Ausdrucke P(|Xn − X | > ε ) und P(limn→∞ Xn = X ) machen nur dann Sinn,
wenn X , X 1 , X 2 , . . . Zufallsvariablen auf demselben Wahrscheinlichkeitsraum
sind.
Beispiel 4.3. (i) Sind X 1 , X 2 , . . . unabhängig Cauchy verteilt mit Parameter
P
u > 0, so ist auch Zn = n1 nk=1 Xk Cauchy-Verteilt mit Parameter u. Somit
P
gilt Zn ⇒ X 1 . Es gilt aber nicht Zn −
→ X 1 , wie man sich leicht überzeugen
kann. Insbesondere impliziert Konvergenz in Verteilung im Allgemeinen
nicht die Konvergenz in Wahrscheinlichkeit.
122
4.1 Schwache Konvergenz
(ii) Sei Fn die Verteilungsfunktion der Dirac-Verteilung in {n} (Einheitsmasse
in Punkt n), also Fn = 1 (−∞,n] dann ist limn→∞ Fn (x ) = 0 für alle x, sodass
(4.1) für F ≡ 0 gilt. Es gilt aber nicht Fn ⇒ F , da F keine Verteilungsfunktion ist.
(iii) Sei (xn ) eine Folge reeller Zahlen und µn die Dirac-Verteilung in xn und µ
die Dirac-Verteilung in x ∈ R, dann gilt µn ⇒ µ genau dann, wenn xn →
x. Wenn xn > x für unendlich viele n ist, dann gilt (4.1) nicht in x (dem
einzigen Unstetigkeitspunkt der zu µ gehörigen Verteilungsfunktion).
Wir haben bereits gesehen, dass fast sichere Konvergenz die Konvergenz
in Wahrscheinlichkeit impliziert. Nun zeigen wir, dass Konvergenz in Wahrscheinlichkeit die Konvergenz in Verteilung impliziert.
Satz 4.4. Seien X , X 1 , X 2 , . . . Zufallsvariablen auf demselben WahrscheinlichP
keitsraum. Gilt Xn −
→ X , so gilt auch Xn ⇒ X . Ist a eine Konstante und gilt
P
Xn ⇒ a, so gilt auch Xn −
→ a.
Beweis. Für ε > 0 gilt
P(X ≤ x − ε ) − P(|Xn − X | ≥ ε ) ≤ P(Xn ≤ x )
≤ P(X ≤ x + ε ) − P(|Xn − X | ≥ ε ).
Lassen wir nun n gegen unendlich und dann ε gegen 0 gehen, dann folgt
P(X < x ) ≤ lim inf P(Xn ≤ x ) ≤ lim sup P(Xn ≤ x ) ≤ P(X ≤ x ).
n
n
Für x ∈ R mit P(X = x ) = 0 gilt also limn→∞ P(Xn ≤ x ) → P(X ≤ x ) und
damit Xn ⇒ X .
Wenn Xn ⇒ a gilt, so gilt für ε > 0
P(|Xn − a| > ε ) ≤ P(Xn ≤ a − ε ) + 1 − P(Xn ≤ a + ε ) → 0,
denn nach Voraussetzung gilt P(Xn ≤ a − ε ) → 0 und P(Xn ≤ a + ε ) → 1.
Die asymptotischen Eigenschaften einer Folge von Zufallsvariablen sollte
nicht durch Addition einer in Wahrscheinlichkeit gegen Null konvergenten
Folge beeinträchtigt werden. Das (und mehr) beweist das folgende Resultat.
123
4.1 Schwache Konvergenz
Satz 4.5 (Slutsky). Seien (Xn )n∈N und (Yn )n∈N Folgen von Zufallsvariablen mit
P
Xn ⇒ X und Yn −
→ c für eine Konstante c ∈ R, dann gilt
Yn + Xn ⇒ c + X ,
Yn Xn ⇒ cX
und falls c , 0 Xn /Yn ⇒ Xn /c.
(4.3)
Beweis. Wir beweisen die erste Aussage in (4.3). Der Beweis der zweiten ist
eine Übung.
Sei x ∈ R so, dass x − c ein Stetigkeitspunkt der Verteilungsfunktion F von
X ist. Wir wählen ε > 0 so, dass auch x − c + ε auch ein Stetigkeitspunkt von
F ist. Dann gilt
P(Xn + Yn ≤ x ) ≤ P(Xn + c ≤ x + ε ) + P(|Yn − c | > ε ) → P(X ≤ x − c + ε ).
Es folgt lim supn P(Xn + Yn ≤ x ) ≤ P(X + c ≤ x + ε ) und weil ε beliebig klein
gewählt werden kann, folgt lim supn P(Xn + Yn ≤ x ) ≤ P(X + c ≤ x ). Ähnlich
(man wähle x und ε > 0 so, dass x − c und x − c − ε Stetigkeitspunkte von
F sind) kann man zeigen, dass P(X + c < x ) ≤ lim inf n P(Xn + Yn ≤ x ) gilt.
Damit folgt die Behauptung.
Wir haben bereits gesehen (siehe z.B. Satz 3.30), dass für jedes Wahrscheinlichkeitsmaß auf (R, B(R)) es ein Wahrscheinlichkeitsraum und eine Zufallsvariable darauf gibt, so dass die Zufallsvariable dieses Wahrscheinlichkeitsmaß
als Verteilung hat. Wenn also µn ⇒ µ gilt, dann gibt es eine Folge von Zufallsvariablen Yn und eine Zufallsvariable Y (möglicherweise auf verschiedenen
Wahrscheinlichkeitsräumen) mit Yn ∼ µn , Y ∼ µ und Yn ⇒ Y . Das nächste Resultat zeigt, dass die Zufallsvariablen auf demselben Wahrscheinlichkeitsraum
(Ω, A, P) definiert werden könnnen und zwar, so dass Yn (ω) → Y (ω) für alle
ω gilt. Diese Bedingung ist natürlich viel stärker als Konvergenz in Verteilung
und erleichtert einige Beweise.
Satz 4.6 (Skorohod). Seien µ, µ 1 , µ 2 , . . . Wahrscheinlichkeitsmaße auf (R, B(R))
mit µn ⇒ µ. Dann gibt es Zufallsvariablen Y , Y1 , Y2 , . . . auf einem gemeinsamen
Wahrscheinlichkeitsraum (Ω, A, P), so dass Yn die Verteilung µn , n ∈ N haben,
n→∞
Y die Verteilung µ hat und für alle ω ∈ Ω gilt Yn (ω) −−−−→ Y (ω).
Beweis. Als den gemeinsamen Wahrscheinlichkeitsraum nehmen wir (Ω, A, P)
mit Ω = (0, 1), A = B((0, 1)) und P das Lebesgue-Maß auf (0, 1). Die Konstruktion der Yn und Y ist ähnlich zur Konstruktion im Beweis von Satz 3.30.
124
4.1 Schwache Konvergenz
Seien Fn und F die Verteilungsfunktionen von µn bzw. µ. Für ω ∈ (0, 1)
setzen wir Yn (ω) = inf {x : ω ≤ Fn (x )} und Y (ω) = inf {x : ω ≤ F (x )}. Da
ω ≤ Fn (x ) äquivalent zu Yn (ω) ≤ x ist, folgt
P(ω : Yn (ω) ≤ x ) = P(ω : ω ≤ Fn (x )) = Fn (x ).
Also, ist Fn die Verteilungsfunktion von Yn und analog folgt, dass F die Verteilungsfunktion von Y ist. Es bleibt zu zeigen, dass wir Yn und Y noch wenn
nötig auf einer P-Nullmenge modifizieren können um Yn (ω) → Y (ω) für alle
ω zu erreichen1 .
Sei ω ∈ (0, 1). Für ε > 0 wähle x so, dass Y (ω)−ε < x < Y (ω) und µ ({x }) = 0.
Dann ist F (x ) < ω und x ist ein Stetigkeitspunkt von F . Wegen Fn (x ) → F (x )
gilt, dass für n genügend groß Fn (x ) < ω n und damit Y (ω) − ε < x < Yn (ω)
gilt. Also gilt lim inf n Yn (ω) ≥ Y (ω).
Wenn ω < ω 0 und ε positiv ist, dann wählen wir ein y mit Y (ω 0 ) < y <
Y (ω 0 ) + ε und µ ({y}) = 0. Dann gilt ω < ω 0 ≤ F (Y (ω 0 )) ≤ F (y). Für genügend
große n gilt wie oben ω ≤ Fn (y) und somit Yn (ω) ≤ y < Y (ω 0 ) + ε. Also gilt
lim supn Yn (ω) ≤ Y (ω 0 ) für ω < ω 0. Insgesamt gilt Yn (ω) → Y (ω) wenn Y
stetig in ω ist.
Da Y nichtfallend auf (0, 1) ist, hat es höchstens abzählbar viele Unstetigkeitsstellen. An solchen Stellen setzen wir Yn (ω) = Y (ω) = 0. Dann gilt
Yn (ω) → Y (ω) für alle ω ∈ (0, 1). Da die Menge der Unstetigkeitstellen abzählbar ist, haben wir Yn und Y nur auf einer P-Nullmenge verändert. Die
Verteilung bleibt also erhalten.
Satz 4.7 (Continuous mapping Theorem). Sei h : R → R eine messbare
Funktion und sei die Menge Dh der Unstetigkeitstellen von h messbar. Gilt µn ⇒ µ
und µ (Dh ) = 0, so gilt auch µnh −1 ⇒ µh −1 .
Beweis. Seien Yn ∼ µn und Y ∼ µ die Zufallsvariablen aus Satz 4.6. Wegen
Yn (ω) → Y (ω) für alle ω und Stetigkeit von h auf Dhc gilt h(Yn (ω)) → h(Y (ω))
für alle ω mit Y (ω) < Dh . Wegen P({ω : Y (ω) ∈ Dh }) = µ (Dh ) = 0 folgt
h(Yn (ω)) → h(Y (ω)) fast sicher. Fast sichere Konvergenz impliziert Konvergenz in Wahrscheinlichkeit und Konvergenz in Verteilung. Also gilt h(Yn ) ⇒
h(Y ). Das ist aber gleichbedeutend mit µnh −1 ⇒ µh −1 .
1 So
definierte Yn und Y heißen verallgemeinerte Inversen von Fn bzw. F . Also ist zu zeigen,
Fn ⇒ F die Konvergenz der verallgemeinerten Inversen impliziert.
125
4.1 Schwache Konvergenz
Das „continuous mapping Theorem“ lässt sich wie folgt mit Zufallsvariablen
formulieren.
Korollar 4.8. Gilt Xn ⇒ X und P(X ∈ Dh ) = 0, dann gilt h(Xn ) ⇒ h(X ).
Im Spezialfall X ≡ a gilt das folgende Resultat (überlegen Sie sich wie man
es mit Hilfe von Übung 3.12(i) zeigen kann).
Korollar 4.9. Gilt Xn ⇒ a und ist h stetig in a, dann gilt h(Xn ) ⇒ h(a).
Wir haben µn ⇒ µ bzw. Xn ⇒ X durch Konvergenz der zugehörigen
Verteilungsfunktionen an den Stetigkeitstellen der Verteilungsfunktion der
Grenzwertes definiert. Folgender Satz liefert einige äquivalente Charakterisierungen, die ohne Verteilungsfunktionen auskommen. Unter dem Namen
„Portmanteau Theorem“ (portmanteau heißt auf engl. Reisekoffer) werden
typischerweise noch mehr solcher Charakterisierungen zusammen gefasst;
vgl. Satz 13.16 in Klenke (2013). Für A ∈ B(R) bezeichnen wir mit δA den
Rand von A, d.h. δA = A \ A◦ .
Satz 4.10. Die folgenden Bedingungen sind äquivalent.
(i) µn ⇒ µ;
R
R
(ii) f dµn → f dµ für jede beschränkte stetige Funktion f : R → R;
(iii) µn (A) → µ (A) für jedes A ∈ B(R) mit µ (δA) = 0.
Auch diesen Satz können wir alternativ mit Zufallsvariablen formulieren.
Satz 4.11. Die folgenden Bedingungen sind äquivalent.
(i) Xn ⇒ X ;
(ii) E[f (Xn )] → E[f (X )] für jede beschränkte stetige Funktion f : R → R;
(iii) P(Xn ∈ A) → P(X ∈ A) für jedes A ∈ B(R) mit µ (X ∈ δA) = 0.
Beweis von Satz 4.10. Sei µn ⇒ µ und seien Yn und Y die Zufallsvariablen aus
Satz 4.6. Sei f eine beschränkte Funktion, so dass µ (D f ) = 0, wobei D f die
Menge der Unstetigkeitstellen von f ist. Aus P(Y ∈ D f ) = µ (D f ) = 0 folgt
f (Yn ) → f (Y ) fast sicher. Mit dem Satz von majorisierter Konvergenz folgt
126
4.1 Schwache Konvergenz
(es gilt | f (Yn )| ≤ M, wenn M die obere Schranke von | f | ist, also ist д ≡ M
eine P-integrierbare Majorante)
Z
Z
f dµn = E[f (Yn )] → E[f (Y )] =
f dµ.
R
R
Also folgt aus µn ⇒ µ und µ (D f ) = 0 zusammen f dµn → f dµ für
beschränkte Funktionen f . Also folgt (ii) aus (i).
Für f = 1A gilt D f = δA und aus µ (δA) = 0 und µn ⇒ µ folgt
Z
Z
µn (A) =
f dµn →
f dµ = µ (A).
Also folgt auch (iii) aus (i).
Wegen δ (−∞, x] = {x } impliziert (iii) offensichtlich (i). Es bleibt noch zu
zeigen, dass (i) aus (ii) folgt. Seien Fn und F die Verteilungsfunktionen von µn
bzw. µ. Für x < y definieren wir eine stetige beschränkte Funktion f durch

1




y−t
f (t ) B 
y−x



0

:
:
t ≤ x,
x ≤ t ≤ y,
:
y ≤ t.
(In dem Intervall [x, y] interpolieren wir stetig zwischen den Werten 1 und 0,
f ist also eine stetige Approximation der Indikatorfunktion 1 (−∞,x] .) Mit (ii)
erhalten wir
Z
Z
Z
Z
Fn (x ) =
1(−∞,x] dµn ≤ f dµn → f dµ ≤ 1(−∞,y] dµ = F (y).
Es folgt lim supn Fn (x ) ≤ F (y) und mit y ↓ x gilt lim supn Fn (x ) ≤ F (x ). Analog
zeigt man, dass F (z) ≤ lim inf n F (x ) für z < x gilt und es folgt F (x−) ≤
lim inf n Fn (x ). An Stetigkeitsstellen von F gilt F (x−) = F (x ) und damit
F (x ) ≤ lim inf Fn (x ) ≤ lim sup Fn (x ) ≤ F (x ),
n
n
also F (x ) = limn Fn (x ), was (i) zeigt.
127
4.2 Straffheit und relative Kompaktheit
4.2 Straffheit und relative Kompaktheit
Aus Analysis I kennen wir folgendes Resultat.
Proposition 4.12. Für Folgen reeller Zahlen (xn ) gelten folgende Aussagen.
(i) (xn ) ist genau dann beschränkt ist, wenn jede Teilfolge (xnk ) eine weitere
Teilfolge (xnk (j ) ) enthält, die gegen ein x konvergiert: limj xnk (j ) = x.
(ii) Wenn (xn ) beschränkt ist und jede Teilfolge (xnk ) die konvergiert, gegen
denselben Grenzwert x konvergiert, dann konvergiert auch die gesamte
Folge (xn ) gegen x.
In diesem Abschnitt diskutieren wir Bedingungen unter welchen wir ähnliche Aussagen für Folgen von Wahrscheinlichkeitsmaßen (bzw. Folgen von
Zufallsvariablen) bezüglich schwacher Konvergenz machen können.
Definition 4.13 (Relative Kompaktheit). Eine Familie (µn ) von Wahrscheinlichkeitsmaßen auf (R, B(R)) heißt relativ kompakt, falls jede Teilfolge (µnk )
eine weitere Teilfolge (µnk (j ) ) enthält mit µnk (j ) ⇒ µ für ein Wahrscheinlichkeitsmaß µ.
Der Beweis des folgenden Satzes basiert auf einem Diagonalargument und
ist im Prinzip rein analytisch. Für einen Beweis verweisen wir auf Satz 13.33
in Klenke (2013) oder Theorem 25.9 in Billingsley (1995).
Satz 4.14 (Auswahlsatz von Helly). Für jede Folge (Fn ) von Verteilungsfunktionen gibt es eine Teilfolge (Fnk ) und eine nichtfallende rechtsseitig stetige Funktion
F mit limk Fnk (x ) = F (x ) an den Stetigkeitstellen von F .
Beachten Sie, dass der Auswahlsatz von Helly nicht garantiert, dass der
Grenzwert F Verteilungsfunktion eines Wahrscheinlichkeitsmaßes ist. Klar
ist nur, dass 0 ≤ F (x ) ≤ 1 ist. Ein Extrembeispiel mit F ≡ 0 haben wir
bereits in Beispiel 4.3(ii) gesehen. Also ist sicherlich nicht jede Folge von
Wahrscheinlichkeitsmaßen relativ kompakt. Wir brauchen Bedingungen, unter
denen „Massenverlust“ vermieden werden kann.
Definition 4.15 (Straffheit). Eine Familie (µn ) von Wahrscheinlichkeitsmaßen
auf (R, B(R)) heißt straff, wenn für jedes ε > 0 ein beschränktes Intervall
(a, b] ⊂ R existiert mit µn ((a, b]) > 1 − ε für alle n ∈ N.
128
4.2 Straffheit und relative Kompaktheit
Bemerkung 4.16. In der Definition der Straffheit auf allgemeinen metrischen
Räumen fordert man die Existenz einer kompakten Menge K mit µn (K ) > 1 −ε
für alle n. Auf R kann man jede kompakte Menge von einem Intervall der
Form (a, b] überdecken und [a, b] ist kompakt. Also ist auf R unsere Definition
äquivalent zu der allgemeinen.
Satz 4.17 (Prohorov). Eine Familie (µn ) von Wahrscheinlichkeitsmaßen auf
(R, B(R)) ist genau dann relativ kompakt, wenn sie straff ist.
Beweis. Sei (µn ) straff und sei (Fnk ) eine Teilfolge der zu (µn ) gehörigen Folge
der Verteilungsfunktionen. Nach dem Auswahlsatz von Helly gibt es eine
weitere Teilfolge (Fnk (j ) ) mit limj Fnk (j ) (x ) = F (x ) für alle Stetigkeitstellen
x von F , wobei F eine nichtfallende rechtsseitig stetige Funktion ist. Nach
Satz 1.58 gibt es ein Maß µ auf (R, B(R)), so dass µ ((a, b]) = F (b) − F (a). Für
ε > 0, wähle a und b so, dass µn ((a, b]) > 1 − ε für alle n. Wenn nötig, kann
man a kleiner und b größer machen, so dass beide Stetigkeitspunkte von F
sind. Dann folgt µ ((a, b]) ≥ 1 − ε und damit ist µ ein Wahrscheinlichkeitsmaß
für das µnk (j ) ⇒ µ gilt.
Die Umkehrung zeigen wir mit einem Widerspruchsbeweis. Wenn (µn )
nicht straff ist, dann gibt es ein ε > 0 sodass für alle (a, b] gilt µn ((a, b]) ≤ 1 −ε
für ein n. Wähle nk so, dass µnk ((−k, k]) ≤ 1 − ε gilt. Nehmen wir an eine
Teilfolge µnk (j ) konvergiert schwach gegen ein Wahrscheinlichkeitsmaß µ. Nun
wählen wir (a, b] mit µ ({a}) = µ ({b}) = 0 und µ ((a, b]) > 1 − ε. Für genügend
große j ist (a, b] ⊂ (−k (j), k (j)] und es folgt
1 − ε ≥ µnk (j ) ((−k (j), k (j)] ≥ µnk (j ) ((a, b]) → µ ((a, b]).
Das ist aber ein Widerspruch zu µ ((a, b]) > 1 − ε.
Korollar 4.18. Wenn (µn ) eine straffe Folge von Wahrscheinlichkeitsmaßen und
wenn alle schwach konvergenten Teilfolgen gegen dasselbe Wahrscheinlichkeitsmaß µ konvergieren, dann gilt µn ⇒ µ.
Beweis. Nach dem Satz von Prohorov besitzt jede Teilfolge (µnk ) eine weitere
Teilfolge (µnk (j ) ), die (für j → ∞) schwach konvergiert. Nach Voraussetzung
ist µ der schwache Limes für jede solche (Teil-)Teilfolge.
Nehmen wir an, dass µn ⇒ µ nicht gilt. Dann gibt es ein x ∈ R mit
µ ({x }) = 0, aber limn→∞ µn ((−∞, x]) , µ ((−∞, x]). Insbesondere gibt es ein
ε > 0 mit |µnk ((−∞, x]) − µ ((−∞, x])| ≥ ε für eine Teilfolge (µnk ). Davon
129
4.3 Vertauschung von Integration und Grenzwertbildung
kann keine weitere Teilfolge schwach konvergieren. Dieser Widerspruch zeigt
µn ⇒ µ.
Beispiel 4.19. Sei µn = δxn das Dirac-Maß in xn . Dann ist (µn ) straff genau
dann, wenn (xn ) beschränkt ist. Die Aussagen des Satzes von Prohorov und
des obigen Korollars sind in diesem Fall äquivalent zu Proposition 4.12.
Beispiel 4.20. Sei µn die Normalverteilung mit Erwartungswert mn und Varainz σn2 . Sind mn und σn2 beschränkt, dann sind auch die zweiten Momente
von µn beschränkt. Sind Xn die Zufallsvariablen mit Verteilungen µn , dann
folgt Markov-Ungleichung
E[X 2 ]
→ 0, x → ∞.
x2
Damit ist die Folge (µn ) straff. Ist (nk (j) ) so gewählt, dass mnk (j ) → m und
σn2k (j ) → σ 2 für j → ∞, dann gilt µnk (j ) ⇒ µ, wobei µ die Normalverteilung mit
Erwartungswert m und Varianz σ 2 ist (µ = δm , wenn σ 2 = 0).
Ist mn > b, dann gilt µn ((b, ∞)) ≥ 1/2. Ist mn < a, dann gilt µn ((−∞, a]) ≥ 12 .
Also kann µn nicht straff sein wenn mn nicht beschränkt ist. Gilt |mn | ≤ K
für ein K < ∞, dann gilt µn ((−∞, a]) ≥ ν ((−∞, (a − K )/σn ]), wobei ν die
Standardnormalverteilung ist. Ist σn nicht beschränkt, dann folgt ν ((−∞, (a −
K )/σn ]) → 1/2 entlang einer Teilfolge. Also kann (µn ) auch in diesem Fall
nicht straff sein.
Insgesamt ist eine Folge von Normalverteilungen genau dann straff, wenn
die Folgen der Erwartungswerte und der Varianzen beschränkt sind.
P(|Xn | ≥ x ) ≤
4.3 Vertauschung von Integration und Grenzwertbildung
Sind (Xn ) und X Zufallsvariablen mit Xn ⇒ X , so gilt nach Satz 4.10
E[h(Xn )] → E[h(X )]
(4.4)
für alle stetigen beschränkten Funktionen h : R → R. Die Funktion h(x ) =
−K 1 (−∞,K ) (x ) + x 1[−K,K] (x ) + K 1 (K,∞) (x ) ist stetig und beschränkt und falls
es ein K < ∞ mit |Xn |, |X | ≤ K gibt, dann folgt
E[Xn ] = E[h(Xn )] → E[h(X )] = E[X ].
In diesem Abschnitt schauen wir uns an, unter welchen Bedingungen dies
auch für unbeschränkte Folgen von Zufallsvariablen gilt.
130
4.3 Vertauschung von Integration und Grenzwertbildung
Satz 4.21. Gilt Xn ⇒ X , dann gilt E[|X |] ≤ lim inf n E[|Xn |].
Beweis. Nach dem Satz von Skorohod gibt es einen gemeinsamen Wahrscheinlichkeitsraum und Zufallsvariablen Yn und Y mit denselben Verteilungen wie
Xn und X und mit Yn → Y fast überall (in der Tat sogar punktweise). Dann
haben auch |Yn | und |Y | dieselben Verteilungen wie |Xn | bzw. |X | und die
Behauptung folgt mit dem Lemma von Fatou (Satz 2.11).
Definition 4.22. Eine Folge von Zufallsvariablen (Xn ) heißt gleichgradig
integrierbar, falls
Z
lim sup
|Xn | dP = 0.
(4.5)
α→∞ n
{|X n |≥α }
Satz 4.23. Ist die Folge (Xn ) gleichgradig integrierbar, dann gilt
sup E[|Xn |] < ∞.
(4.6)
n
Beweis. Für alle n gilt
E[|Xn |] =
Z
|Xn | dP +
Z
{|X n |≥α }
Z
|Xn | dP
{|X n |<α }
|Xn | dP + αP(|Xn | < α )
≤
{|X n |≥α }
Z
|Xn | dP + α .
≤
{|X n |≥α }
Wegen gleichgradiger Integrierbarkeit,
kann man zu einem gegebenen ε > 0,
R
α so wählen, dass supn {|X |≥α } |Xn | dP < ε gilt. Dann gilt
n
sup E[|Xn |] < ε + α < ∞.
n
Satz 4.24 (Kriterien für gleichgradige Integrierbarkeit). Die Folge (Xn ) ist
gleichgradig integrierbar, wenn eine der folgenden Voraussetzungen erfüllt ist.
(i) Es gibt ein ε > 0 mit supn E[|Xn | 1+ε ] < ∞.
131
4.3 Vertauschung von Integration und Grenzwertbildung
(ii) Es gibt eine Zufallsvariable Y mit E[|Y |] < ∞ und
P(|Xn | ≥ α ) ≤ P(|Y | ≥ α )
n ≥ 1, α > 0.
(4.7)
Beweis. (i) Für alle n gilt
Z
Z
1+ε
1+ε
E[|Xn | ] =
|Xn | dP +
|Xn | 1+ε dP
{|X n |≥α }
{|X n |<α }
Z
Z
1+ε
≥
|Xn | dP ≥
|Xn |α ε dP.
{|X n |≥α }
{|X n |≥α }
Mit
sup
n
Z
|Xn | dP ≤
{|X n |≥α }
1
α→∞
sup E[|Xn | 1+ε ] −−−−→ 0
ε
α n
folgt nun die gleichgradige Integrierbarkeit von (Xn ).
(ii) Mit Übung 2.14(ii) (die Aussagen dort gelten auch mit „≤“ statt „<“)
erhalten wir aus (4.7)
Z
Z
1{|Xn |≥α } |Xn | dP ≤ 1{|Y |≥α } |Y | dP für alle n.
Die rechte Seite konvergiert gegen 0 für α → ∞, was die gleichgradige Integrierbarkeit von (Xn ) zeigt.
Satz 4.25. Ist (Xn ) gleichgradig integrierbar und gilt Xn ⇒ X , dann gilt
E[Xn ] → E[X ].
(4.8)
Beweis. Sei (Xn ) gleichgradig integrierbar, dann gilt supn E[|Xn |] < ∞ und
Satz 4.21 impliziert E[|X |] ≤ lim inf n E[|Xn |], d.h. X ist integrierbar. Wir
definieren

x
hα (x ) B 
0

falls |x | < α,
sonst.
Die Funktion hα ist messbar und beschränkt. Falls P(|X | = α ) = 0 gilt, so gilt
nach Korollar 4.8 hα (Xn ) ⇒ hα (X ), und mit dem Argument, das zu (4.4) führte,
folgt
E[hα (Xn )] −→ E[hα (X )].
132
(4.9)
4.4 Charakteristische Funktionen
Ferner gilt
E[Xn ] − E[hα (Xn )] =
Z
Xn dP
(4.10)
{|X n |≥α }
und
E[X ] − E[hα (X )] =
Z
X dP.
(4.11)
{|X |≥α }
Diese drei Beziehungen implizieren
lim sup |E[Xn ] − E[X ]| ≤ sup
n→∞
Z
n
|Xn | dP +
{|X n |≥α }
Z
|X | dP.
{|X |≥α }
Die rechte Seite der Ungleichung konvergiert wegen gleichgradiger Integrierbarkeit von Xn und Integrierbarkeit von X für α → ∞ gegen 0.
Zum Abschluss des Abschnittes geben wir noch Bedingungen an unter
denen Konvergenz in Verteilung Konvergenz im p-ten Mittel impliziert.
Korollar 4.26. Es sei p ≥ 1. Gilt Xn ⇒ X und supn E[|Xn |p+ε ] < ∞ für ein
p
p
ε > 0, dann folgt E[|X |p ] < ∞ und E[Xn ] → E[X ].
p
p
p
Beweis. Aus Xn ⇒ X folgt Xn ⇒ X mit Satz 4.7. Nach Satz 4.24(i) ist (Xn )
gleichgradig integrierbar und Satz 4.21 impliziert
E[|X |p ] ≤ lim inf E[|Xn |p ] < ∞.
n
p
p
Schließlich erhalten wir E[Xn ] → E[X ] mit Satz 4.25.
4.4 Charakteristische Funktionen
Manchmal ist es möglich schwache Konvergenz von Folgen von Verteilungen direkt mit der Definition 4.1 zu zeigen. (Denken Sie etwa an die PoissonApproximation der Binomialverteilung.) Meistens sind jedoch geeignete Transformierte von Wahrscheinlichkeitsmaßen hilfreicher. Das Prinzip dahinter
nutzt die Tatsache, dass es genügt die Charakterisierung in Satz 4.10(ii) für
eine „kleine“ Teilmenge von stetigen beschränkten Funktionen nachzuweisen.
In diesem Abschnitt schauen wir uns die wichtigste Transformierte an.
133
4.4 Charakteristische Funktionen
Definition 4.27. Die charakteristische Funktion eines Wahrscheinlichkeitsmaßes µ auf (R, B(R)) ist die Funktion φ : R → C definiert durch
Z ∞
Z ∞
Z ∞
itx
φ(t ) B
e µ (dx ) =
cos(tx ) µ (dx ) + i
sin(tx ) µ (dx ). (4.12)
−∞
−∞
−∞
Die charakteristische Funktion einer Zufallsvariablen X mit Verteilung µ ist
Z ∞
itX
φ(t ) B E[e ] =
e −itx µ (dx ).
−∞
Außerhalb der Wahrscheinlichkeitstheorie werden charakteristische Funktionen als Fourier Transformierte bezeichnet. Um die Abhängigkeit der charakteristischen Funktion von X bzw. µ zu betonen werden wir manchmal φX bzw.
φ µ für φ schreiben.
Bemerkung 4.28. Wir notieren hier zur späteren Referenz einige bekannte bzw.
leicht zu beweisende Formeln und Eigenschaften charakteristischer Funktionen
(i) Die folgenden Formeln sind aus Analysis I bekannt
e itx = cos(tx ) + i sin(tx ),
1/2
|e itx | = cos2 (tx ) + sin2 (tx )
= 1.
(4.13)
E fe itX g ≤ E f |e itX | g = 1.
(4.15)
(4.14)
(ii) Es gilt
Für a, b ∈ R gilt
φaX +b (t ) = E[e itaX +itb ] = e itb E[e itaX ] = e itb φX (at ).
(4.16)
(iii) Für jedes t ∈ R sind die Funktionen x 7→ cos(tx ) und x 7→ cos(tx ) stetig
und beschränkt. Nach Satz 4.10(ii) (angewandt getrennt auf den Realund Imaginärteil) gilt E[e itX n ] → E[e itX ] für jedes t, wenn Xn ⇒ X . Wir
sind hier an einer Umkehrung davon interessiert.
134
4.4 Charakteristische Funktionen
(iv) Ist φ charakteristische Funktion eines Wahrscheinlichkeitsmaßes µ so
gilt
Z ∞
|φ(t + h) − φ(t )| = (e i (t+h)x − e itx ) µ (dx ) Z −∞
∞
(4.17)
≤
|e itx ||e ihx − 1| µ (dx )
−∞
Z ∞
=
|e ihx − 1| µ (dx ).
−∞
Der Integrand in der letzten Zeile ist offensichtlich beschränkt und mit
Satz von majorisierter Konvergenz folgt
|φ(t + h) − φ(t )| → 0,
h → 0.
(4.18)
Also ist t → φ(t ) gleichmäßig stetig.
Lemma 4.29. Seien X 1 , . . . , Xn unabhängig und sei Sn = X 1 + · · · + Xn . Dann
gilt
φSn (t ) =
n
Y
φX k (t ).
(4.19)
k=1
Beweis. Unabhängigkeit der Zufallsvariablen Xk impliziert
E[e
itSn
]=E
n
Y
e
itX k
k=1
=
n
Y
E[e itX k ].
k=1
Die charakteristische Funktion bestimmt das zugehörige Wahrscheinlichkeitsmaß eindeutig. Das folgt aus dem folgenden Resultat; vgl. Bemerkung 4.31.
Satz 4.30 (Inversionsformel). Sei µ ein Wahrscheinlichkeitsmaß auf (R, B(R))
mit charakteristischer Funktion φ. Dann gilt für a < b
1
lim
T →∞ 2π
Z
T
−T
e −ita − e −itb
1
φ(t ) dt = µ ((a, b)) + µ ({a, b}).
it
2
135
(4.20)
4.4 Charakteristische Funktionen
Beweis. Sei IT =
RT
−T
e −it a −e −itb
φ(t ) dt.
it
Zunächst bemerken wir
Z b
e −ita − e −itb Z b
−ity
= e
dy ≤
|e −ity | dy = b − a.
it
a
a
Mit Satz von Fubini erhalten wir
Z T Z ∞ −ita
e
− e −itb itx
IT =
e µ (dx ) dt
it
−T −∞
Z ∞ Z T −ita
e
− e −itb itx
=
e dt µ (dx )
it
−∞ −T
Z ∞ Z T it (x−a)
e
− e it (x−b)
=
dt µ (dx )
it
−∞ −T
Z T
Z ∞ Z T
sin(t (x − a)) sin(t (x − a))
dt −
dt µ (dx ).
=
t
t
−T
−∞
−T
Die letzte Gleichung folgt mit (4.13) weil Kosinus eine gerade Funktion ist.
R T sin y
Sei S (T ) = 0 y dy. Dann gilt
Z
T
−T
sin(tu)
dt = 2
t
Z
T
sin y
dy = 2S (Tu),
y
T
sin(−tu)
dt = −2S (−Tu),
t
0
u > 0,
und
Z
T
−T
sin(tu)
dt = −
t
Z
−T
Mit


−1 : y < 0



sgn(y) = 
0
: y=0



1
: y>0

gilt
Z
T
−T
sin(tu)
dt = 2 sgn(u)S (|Tu|) C R(u,T ).
t
136
u < 0.
4.4 Charakteristische Funktionen
Es folgt
IT =
Z
∞
(R(x − a,T ) − R(x − b,T )) µ (dx ).
−∞
Für T → ∞ gilt S (T ) → π2 . Es folgt, dass für T → ∞
R(u,T ) → π sgn(u)
und


0






π



R(x − a,T ) − R(x − b,T ) → 
2π





π




0

:
:
:
:
:
x
x
a
x
x
< a,
= a,
< x < b,
= b,
> b.
Mit dem Satz von majorisierter Konvergenz folgt
T →∞
IT −−−−→ 2π µ ((a, b)) + π µ ({a, b}).
Teilen beider Seiten durch 2π liefert (4.20).
Bemerkung 4.31. Aus der Inversionsformel folgt, dass wenn µ und ν zwei
Wahrscheinlichkeitsmaße mit derselben charakteristischen Funktion sind,
dann gilt µ ((a, b]) = ν ((a, b]), falls µ ({a, b}) = ν ({a, b}) = 0. Die Menge
solcher Intervalle ist aber ein schnittstabiler Erzeuger von B(R) und damit
gilt µ = ν auf B(R).
Lemma 4.32. Sei µ ein Wahrscheinlichkeitsmaß auf (R, B(R)) mit charakteristischer Funktion φ. Dann gilt für alle u > 0
Z
7 u
µ ({x : |x | ≥ 1/u) ≤
(1 − Re φ(t )) dt .
(4.21)
u 0
Beweis. Mit dem Satz von Fubini erhalten wir
Z
Z ∞ Z u
1 u
1
I (u) B
(1 − Re φ(t )) dt =
(1 − cos(tx )) dt µ (dx )
u 0
−∞ u 0
Z ∞
sin(ux ) =
1−
µ (dx ).
ux
−∞
137
4.4 Charakteristische Funktionen
Wegen |sin(ux )| ≤ |ux | ist der Integrand in der letzten Zeile nichtnegativ und
es folgt
Z
sin(ux ) 1−
I (u) ≥
µ (dx )
ux
|ux |≥1
sin(y) ≥ inf 1 −
µ ({x : |xu| ≥ 1)
|y|≥1
y
1
= (1 − sin 1)µ ({x : |xu | ≥ 1) ≥ µ ({x : |xu | ≥ 1).
7
Damit folgt die Behauptung.
Satz 4.33 (Stetigkeitssatz von Lévy). Es seien µ, µ 1 , µ 2 , . . . Wahrscheinlichkeitsmaße und φ, φ 1 , φ 2 , . . . die zugehörigen charakteristischen Funktionen. Dann
gilt µn ⇒ µ genau dann, wenn φn (t ) → φ(t ) für alle t gilt.
Beweis. Ist µn ⇒ µ so gilt (vgl. Bemerkung 4.28(iii)), φn (t ) → φ(t ) für alle t.
Sei nun umgekehrt φn (t ) → φ(t ) für alle t. Da φ charakteristische Funktion
des Wahrscheinlichkeitsmaßes µ ist, ist nach Bemerkung 4.28(iv) φ stetig in
0. Wir zeigen nun, dass die Familie (µn ) straff ist. Nach Lemma 4.32 und dem
Satz von majorisierter Konvergenz gilt
Z
7 u
µn ({x : |x | ≥ 1/u}) ≤
(1 − Re φn (t )) dt
u 0
Z u
n→∞ 7
(1 − Re φ(t )) dt
−−−−→
u 0
7
= o(u) = o(1) für u → 0.
u
Die vorletzte Gleichheit gilt, weil mit Stetigkeit von φ in 0 folgt
Z ∞
cos(0 · x ) µ (dx ) = 1 für t → 0.
Re φ(t ) →
−∞
Das zeigt die Straffheit.
Nach dem Satz von Prohorov ist die Familie (µn ) relativ kompakt. Jede
Teilfolge von (µn ) enthält also eine weitere Teilfolge die schwach konvergent
ist. Nach (i) hat der schwache Limes die charakteristische Funktion φ. Nach
Inversionsformel ist also µ der schwache Limes jeder schwach konvergenten
Teilfolge. Die Behauptung folgt nun mit Korollar 4.18.
138
4.4 Charakteristische Funktionen
Das folgende Lemma liefert eine Restgliedabschätzung der Taylorentwicklung von x 7→ e ix .
Lemma 4.34. Für x ∈ R, n ∈ N0 gilt
n
|x |n+1 2|x |n X
(ix )m e ix −
≤ min
,
.
(4.22)
m! (n + 1)! n!
m=0
Bemerkung 4.35. Der erste Term auf der rechten Seite ist eine gute Abschätzung
für kleine |x | und der zweite für große |x |.
Beweis. Partielle Integration liefert
Z x
(x − s)n+1 x Z x (x − s)n+1
n is
(x − s) e ds = −
e is −
ie is ds
−
n+1
n+1
0
0
0
Z x
n+1
x
i
=
+
(x − s)n+1e is ds.
n+1 n+1 0
(4.23)
(4.24)
Mit n = 0 folgt
1 ix
(e − 1) = x + i
i
und Auflösen
nach e ix
e
ix
liefert
Z
0
(x − s)e is ds
x
(x − s)e is ds
Z
(xi) 0
i 1+1 x
=
+
+
(x − s) 1e is ds.
0!
1!
1! 0
= 1 + ix + i
2
x
Z
0
1
(ix )
Induktiv erhalten wir für alle n ≥ 0
Z
n
X
(ix )k i n+1 x
ix
+
(x − s)ne is ds.
e =
k!
n!
0
k=0
(4.25)
Nun ersetzen wir n durch n − 1 in (4.23), lösen nach dem Integral auf der
rechtenRSeite auf und setzen das Ergebnis in (4.25) ein. Es folgt (beachten Sie
x
x n /n = 0 (x − s)n−1 ds)
Z x
n
X
in
(ix )k
ix
e =
+
(x − s)n−1 (e is − 1) ds.
(4.26)
k!
(n
−
1)!
0
k=0
Abschätzung der beiden Integrale (mit Fallunterscheidung x ≥ 0 und x < 0)
in (4.25) und (4.26) liefert die Behauptung (4.22).
139
4.4 Charakteristische Funktionen
Ist X eine Zufallsvariable mit endlichem n-ten Moment, dann folgt mit dem
obigen Lemma
n
|tX |n+1 2|tX |n X
(it )k
k φX (t ) −
E[X ] ≤ E min
,
.
k!
(n
+
1)!
n!
k=0
(4.27)
Für jedes t mit
|t |n E[|X |n ]
lim
= 0,
n→∞
n!
(4.28)
gilt also
φX (t ) =
∞
X
(it )k
E[X k ].
k!
k=0
(4.29)
Gilt insbesondere
∞
X
|t |k E[|X |k ]
= E[e |tX | ] < ∞,
k!
k=0
dann folgt (4.29). Einerseits kann man aus der Potenzreihenentwicklung von
φX die Momente von X ablesen. Andererseits kann man auch φX bestimmen,
wenn man alle Momente von X kennt. Letzteres nutzten wir zur Berechnung
der charakteristischen Funktion der Normalverteilung.
Beispiel 4.36. Für X ∼ N(0, 1) gilt
Z ∞
2
1
|tX |
e −x /2e |tx | dx < ∞.
E[e ] = √
2π −∞
Mit (4.29) und mit (4.34) in Übung 4.1 erhalten wir
∞
∞
X
X
2
(it ) 2k
1 t 2 k
φX (t ) =
1 · 3 · . . . (2k − 1) =
−
= e −t /2 .
(2k )!
k! 2
k=0
k=0
Für σ > 0 und m ∈ R gilt Z = σX + m ∼ N(m, σ 2 ). Mit (4.16) können wir die
charakteristische Funktion von Z bestimmen:
φZ (t ) = e itmφX (σt ) = e itm−t
140
2 σ 2 /2
.
4.5 Zentraler Grenzwertsatz
4.5 Zentraler Grenzwertsatz
In diesem Abschnitt beweisen wir den zentralen Grenzwertsatz für Summen
unabhängiger identisch verteilter Summanden.
Satz 4.37. Sei X eine Zufallsvariable mit E[X ] = 0 und E[X 2 ] = σ 2 < ∞. Dann
gilt für t → 0
1
φX (t ) = 1 − t 2σ 2 + o(t 2 ).
2
(4.30)
Beweis. Mit (4.27) im Fall n = 2 gilt
2
X
(it ) 2
(it )k
k φX (t ) −
E[X ] = φX (t ) − 1 − itE[X ] −
E[X 2 ]
k!
2
k=0
1
= φX (t ) − 1 + t 2σ 2 2
t2
≤ E[min{|t ||X | 3 , 6X 2 }].
3!
(4.31)
Wegen min{|t ||X | 3 , 6X 2 } ≤ 6X 2 und E[6X 2 ] = 6σ 2 < ∞ folgt mit Satz von
majorisierter Konvergenz
lim E[min{|t ||X | 3 , 6X 2 }] = E[lim min{|t ||X | 3 , 6X 2 }] = 0.
t→0
t→0
Mit (4.31) und (4.32) folgt (4.30).
(4.32)
Satz 4.38 (Zentraler Grenzwertsatz). Es seien X 1 , X 2 , . . . unabhängige und
identisch verteilte Zufallsvariablen mit E[Xi ] = m und Var[Xi ] = σ 2 < ∞. Dann
gilt
n
1 X
(Xi − m) ⇒ Z ,
√
n i=1
(4.33)
wobei Z eine N(0, σ 2 )-verteilte Zufallsvariable ist.
Beweis. Ohne Einschränkung können wir m = 0 annehmen. Mit Satz 4.37 gilt
1
φX 1 (t ) = 1 − t 2σ 2 + o(t 2 ).
2
141
4.5 Zentraler Grenzwertsatz
Mit (4.16) folgt
√
1 t2 2
φX 1 /√n (t ) = φX 1 (t/ n) = 1 −
σ + o(t 2 /n).
2n
Da die Zufallsvariablen unabhängig und identisch verteilt sind, erhalten wir
mit (4.19)
φ (X 1 +...+X n )/√n (t )
=
n
Y
k=1
n
φX k /√n (t ) = φX 1 /√n (t )
n n→∞
1 2 2
1 t2 2
σ + o(t 2 /n) −−−−→ e − 2 t σ .
= 1−
2n
Die rechte Seite ist nach Beispiel 4.36 die charakteristische Funktion der
N(0, σ 2 ) Verteilung. Mit dem Stetigkeitssatz von Lévy (Satz 4.33) folgt die
Behauptung.
Beispiel 4.39 (Zentraler Grenzwertsatz von De Moivre-Laplace).
Seien X 1 , X 2 , . . . unabhängige Bernoulli verteilte Zufallsvariablen mit Parameter p, also
P(Xi = 1) = p
und P(Xi = 0) = 1 − p.
Dann ist m = p und σ 2 = p(1 −p) in Satz 4.38. Außerdem ist Sn = X 1 + . . . + Xn
Binomial verteilt mit Parametern n und es gilt
Sn − np
⇒ Z,
p
np(1 − p)
wobei Z ∼ N(0, 1).
Bemerkung 4.40. Wir haben den zentralen Grenzwertsatz für unabhängige und
identisch verteilte Zufallsvariablen bewiesen. Es gibt einige Verallgemeinerungen davon, sowohl für unabhängige nicht identisch verteilte Zufallsvariablen
(hinreichend sind die Lindeberg-Bedingung und die Lyaponov-Bedingung)
als auch abhängige Zufallsvariablen. Für einen umfangreichen Überblick über
verschiedene Versionen des zentralen Grenzwertsatzes verweisen wir auf
Kapitel 9 in Chow and Teicher (1997).
142
4.6 Übungen
4.6 Übungen
Übung 4.1. Die momentenerzeugende Funktion ψ einer Zufallsvariablen X ist
definiert durch
ψ (t ) = E[e tX ].
Sofern Sie auf einem offenen Intervall um 0 endlich ist, gilt
E[X n ] = ψ (n) (0), für alle n ∈ N0 .
Dabei bezeichnet ψ (n) die n-te Ableitung von ψ .
Berechnen Sie für Y ∼ N(µ, σ 2 ) alle n-ten zentralen Momente E[(Y − E[Y ])n ]
von Y . Berechnen Sie dazu die momentenerzeugende Funktion von Y − E[Y ] und
schauen Sie sich die Koeffizienten der Taylorreihe von ψ um 0 an.
Folgern Sie: Für Y ∼ N(0, 1) gilt

0
E[Y n ] = 
 (n − 1) · (n − 3) · · · 3 · 1

falls n ungerade,
falls n gerade.
(4.34)
Übung 4.2. Seien X 1 , . . . , Xn unabhängige, exponentialverteilte Zufallsvarialn n
blen mit Parameter λ > 0 und Zn B max Xi . Zeigen Sie, dass die Folge Zn −
1≤i≤n
λ
in Verteilung gegen eine doppelexponentialverteilte Zufallsvariable Z konvergiert.
Dabei ist die Verteilungsfunktion einer doppelexponentialverteilten Zufallsvaria−λx
blen gegeben durch F (x ) = e −e , x ∈ R.
Übung 4.3. Es sei X 1 , X 2 , . . . eine Folge unabhängiger und identisch verteilter
Zufallsvariablen mit E[X 12 ] < ∞. Zeigen Sie, dass
max{|Xi | : i ∈ {1, . . . , n}}
⇒ 0.
√
n
Übung 4.4. Es sei X eine Zufallsvariable mit Dichte f . Zeigen Sie, dass f
genau dann eine gerade Funktion ist, wenn die charakteristische Funktion von X
reellwertig ist.
Übung 4.5. Berechnen Sie die charakteristische Funktion einer binomial verteilten Zufallsvariablen. Beweisen Sie mit Hilfe dieser Funktion: Sind X 1 und
X 2 unabhängige Bin(n 1 , p) bzw. Bin(n 2 , p)-verteilte Zufallsvariablen, dann ist
X 1 + X 2 Bin(n 1 + n 2 , p)-verteilt.
143
4.6 Übungen
Übung 4.6. Es seien X und Y unabhängige identisch verteilte Zufallsvariablen
mit Erwartungswert 0 und Varianz 1. Zeigen Sie mit Hilfe der charakteristischen
√
Funktionen: Stimmt die Verteilung der Zufallsvariablen (X + Y )/ 2 mit der von
X und Y überein, dann sind X und Y normal verteilt.
Hinweis: Aus den Voraussetzungen erhält man für die charakteristische Funktion eine Gleichung der Form φ(t ) = [φ(?)]2 . Betrachten Sie Iterationen dieser
Gleichung zusammen mit der Taylorentwicklung von φ.
Übung 4.7. Beweisen Sie mit Hilfe der charakteristischen Funktionen das schwache Gesetz der großen Zahlen in der folgenden Form: Ist (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit endlichem Erwartunswert
P
m, dann konvergiert n −1 ni=1 Xi in Wahrscheinlichkeit gegen m.
Übung 4.8. Für λ > 0 sei Yλ eine Poisson verteilte Zufallsvariable mit Parameter
λ. Zeigen Sie
Yλ − λ
⇒ X , für λ → ∞,
√
λ
wobei X eine standardnormalverteilte Zufallsvariable ist.
Übung 4.9. Es seien s ≥ 0 und λ > 0. Beweisen Sie:

0
: s < λ,

X (λn)k 


−λn

lim e
=  1/2 : s = λ,
n→∞
k!


1
0≤k ≤ns
: s < λ.

Anleitung: Ist (Xn )n∈N eine Folge unabhängiger Poisson verteilter Zufallsvariablen mit Parameter λ, so gilt (begründen!)
P
n
1 X
X (λn)k
Xi ≤ s = e −nλ
.
n i=1
k!
0≤k ≤ns
Benutzen Sie für den Beweis der Behauptung den zentralen Grenzwertsatz.
144
5 Bedingte Wahrscheinlichkeiten und
Erwartungen
In der Einführungsvorlesung zu Stochastik wurden Wahrscheinlichkeiten von
Ereignissen bedingt auf ein anderes Ereignis behandelt. In diesem Kapitel
verallgemeinern wir diesen Begriff weitgehend. Insbesondere werden wir
erklären, was bedingte Wahrscheinlichkeiten von Ereignissen und allgemeiner
bedingte Erwartungen gegeben eine σ -Algebra sind.
5.1 Motivation und erste Beispiele
Wenn (Ω, A, P) ein Wahrscheinlichkeitsraum ist und A, B ∈ A mit P(B) > 0,
so ist die bedingte Wahrscheinlichkeit von A gegeben B ist definiert durch
P(A|B) =
P(A ∩ B)
.
P(B)
(5.1)
Bekanntermaßen ist P(·|B) ein Wahrscheinlichkeitsmaß auf A.
Definition 5.1. Sei B ∈ A mit P(B) > 0. Ist X eine A messbare integrierbare
Zufallsvariable, so ist der bedingte Erwartungswert von X gegeben B definiert
durch
Z
1
E[X |B] =
E[1B X ] =
X (ω)P(dω |B).
(5.2)
P(B)
Beispiel 5.2. Es sei Ω = (0, 1), A = B((0, 1)) und P das Lebesgue-Maß auf
B((0, 1)). Dann ist U (ω) = ω eine auf (0, 1) uniform verteilte Zufallsvariable.
Für B = (0, 1/2] ist P(B) = 1/2 und es gilt
Z 1/2
1
1
1
1 1 1
E[U ] =
und E[U |B] =
−0 = .
U dP =
2
P(B) 0
1/2 2 4
4
Beispiel 5.3. Sei Ω = ∪n Bn eine disjunkte Vereinigung von Mengen aus
A mit P(Bn ) > 0 für alle n. Die σ -Algebra G = σ ({B 1 , B 2 , . . .}) besteht aus
Mengen der Form G = ∪n∈I Bn mit I ⊂ N. Die Mengen Bn nennt man Atome
von G.
145
5.1 Motivation und erste Beispiele
(a) Für A ∈ A ist die bedingte Wahrscheinlichkeit von A gegeben G definiert
durch
P(A|G)(ω) = P(A|Bn ),
falls ω ∈ Bn .
(5.3)
Dann ist P(A|G)(ω) auf Bn konstant und damit ist es eine G messbare
Zufallsvariable. Für G = ∪n∈I Bn gilt
X
X
E[1G 1A ] = P(A ∩ G) =
P(Bn ∩ A) =
P(Bn )P(A|Bn )
n∈I
n∈I
= E[1G P(A|G)].
(b) Für eine A messbare integrierbare Zufallsvariable X ist der bedingte Erwartungswert von X gegeben G definiert durch
E[X |G](ω) = E[X |Bn ] falls ω ∈ Bn .
Für G = ∪n∈I Bn gilt
X
X
f
g
E[1G X ] =
E[1Bn X ] =
P(Bn )E[X |Bn ] = E 1G E[X |G] .
n∈I
(5.4)
(5.5)
n∈I
Setzen wir in Beispiel 5.2 B 1 = (0, 1/2] und B 2 = (1/2, 1) und X = U , so gilt
G = {∅, B 1 , B 2 , Ω} und dann ist E[U |G] eine G messbare Zufallsvariable
mit
1 1
3
P E[U |G] =
= = P E[U |G] = .
4
2
4
Ferner gilt
f
g 1 1 1 3 1
E E[U |G] = · + · = = E[U ].
2 4 2 4 2
(5.6)
Man kann in (a) und (b) oben auch Bn mit P(Bn ) = 0 zulassen. Auf solchen
Mengen definiert man die bedingten Erwartungen (und Verteilungen) beliebig
aber konstant.
146
5.2 Bedingte Erwartungen
5.2 Bedingte Erwartungen
Hier verallgemeinern wir die anschaulichen Definitionen aus dem vorherigen
Abschnitt. Weil Wahrscheinlichkeiten von Ereignissen als Erwartungswerte
entsprechender Indikatorfunktionen aufgefasst werden können, reicht es die
Theorie für bedingte Erwartungen zu entwickeln.
Definition 5.4. Es sei X eine integrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P) und sei G ⊂ A eine σ -Algebra. Die bedingte
Erwartung von X gegeben G ist eine Zufallsvariable E[X |G] mit
(i) E[X |G] ist messbar bezüglich G;
(ii) Für alle G ∈ G gilt
E[1G X ] =
Z
G
X dP =
Z
G
f
g
E[X |G] dP = E 1G E[X |G] .
(5.7)
Bemerkung 5.5 (Interpretation und bedingte Wahrscheinlichkeit). Der Wert
der Zufallsvariablen E[X |G](ω) kann als der Erwartungswert (bzw. Schätzung)
von X interpretiert werden wenn für jedes G ∈ G bekannt ist ob ω ∈ G ist oder
nicht. Man hat über ω also nur diese partielle Information. Am anschaulichsten
ist es in der Situation von Beispiel 5.3(b). Die einzige Information über ω die
in (5.4) benötigt wird ist zu welchem Bn es gehört.
Die bedingte Wahrscheinlichkeit gegeben eine (allgemeine) σ -Algebra bekommen wir (wie gewohnt) aus der bedingten Erwartung: Für B ∈ A ist
P(B|G) B E[1B |G].
(5.8)
Die Bedingungen (i) und (ii) in der Definition der bedingten Erwartung werden
dann zu
(i) P(B|G) ist messbar bezüglich G;
(ii) Für alle G ∈ G gilt
Z
G
P(B|G)dP = P(B ∩ G).
147
(5.9)
5.2 Bedingte Erwartungen
Denken wir an ein Spiel, bei dem ein Spieler aufgrund von Information die
in G enthalten ist, die Möglichkeit hat auf ein Ereignis B zu wetten (im Fall
B ∈ G wäre das natürlich eine sichere Wette). Der Einsatz beträgt P(B|G) und
er bekommt 1€ wenn A eintritt und 0€ sonst. Der Gewinn (und Verlust) ist
also
(1 − P(B|G) 1B + (−P(B|G)) 1Bc = 1B − P(B|G).
(5.10)
Angenommen der Spieler spielt nur wenn ein Ereignis G ∈ G eintritt und
sonst nicht. Der erwartete Gewinn mit dieser Strategie ist dann der Gewinn
in (5.10) integriert über G, also
Z
(1B − P(B|G)) dP.
G
Nach der Bedingung (ii) ist dieser erwartete Gewinn 0€, d.h. das Spiel ist fair.
Bedingung (i) garantiert, dass man den Einsatz berechnen kann. Ein konkretes
Beispiel könnte z.B. gleichzeitiges Würfeln zweier Würfel. Nach Aufdecken
eines der Würfel soll der Spieler auf eine bestimmte Augensumme wetten.
Im folgenden Satz beweisen wir mit Hilfe des Satzes von Radon-Nikodým
die Existenz und die fast sichere Eindeutigkeit der bedingten Erwartungen.
Satz 5.6. Unter den Voraussetzungen und Notation von Definition 5.4 existiert
die bedingte Erwartung von X gegeben G uns ist fast sicher eindeutig bestimmt.
Da bedingte Erwartungen nur fast sicher eindeutig bestimmt sind, bezeichnet man Zufallsvariablen die (i) und (ii) in Definition 5.4 erfüllen als Versionen
der bedingten Erwartung.
Beweis von Satz 5.6. Sei G ∈ G. Nach Satz 2.5 wird durch
ν (G) B E[1G X ]
ein endliches signiertes Maß ν auf G definiert. Dieses Maß ist absolutstetig
bezüglich P, denn für N ∈ G mit P(N ) = 0 gilt
Z
ν (N ) = E[1N X ] =
X dP = 0.
N
Nach dem Satz von Radon-Nikodým (Satz 2.22)Rexistiert eine P-fast sicher
eindeutig bestimmte P-Dichte д von ν mit ν (G) = G д dP für alle G ∈ G. Diese
Dichte ist eine Version der bedingten Erwartung von X gegeben G.
148
5.2 Bedingte Erwartungen
Beispiel 5.7. Sei X eine Zufallsvariable auf (Ω, A, P).
(a) E[X |{∅, Ω}] = E[X ] f.s., denn Konstanten sind messbar bezüglich {∅, Ω}
und es gilt
f
g
f
g
E[1∅X ] = 0 = E 1∅ E[X ] und E[1Ω X ] = E[X ] = E 1Ω E[X ] .
(b) E[X |A] = X f.s., denn beide Bedingungen in Definition 5.4 sind trivialerweise erfüllt.
(c) E[X |σ ({A})] = E[X |A]1A + E[X |Ac ]1Ac .
Definition 5.8. Für Y : (Ω, A) → (Ω0, A 0 ) ist die bedingte Erwartung von X
gegeben Y definiert durch
E[X |Y ] B E[X |σ (Y )],
(5.11)
wobei σ (Y ) die von Y auf Ω erzeugte σ -Algebra ist.
Satz 5.9. Seien X , Y : Ω → R Zufallsvariablen auf (Ω, A, P). Es gibt eine Funktion f : R → R mit E[X |Y ] = f (Y ) fast sicher. Diese Funktion ist charakterisiert
durch
Z
E[1Y ∈B X ] =
f (y) PY (dy),
(5.12)
B
wobei PY = PY −1 das Bildmaß von Y ist.
Beweis. Die erste Aussage ist eine direkte Konsequenz von Satz 3.1(ii). Die
zweite Aussage folgt mit der Subtitutionsformel (Satz 3.6):
E[1{Y ∈B}X ] = E[1Y −1 (B) X ] = E[1Y −1 (B) E[X |Y ]] = E[1B (Y ) f (Y )]
Z
=
f (y)PY (dy).
B
149
5.3 Eigenschaften bedingter Erwartungen
5.3 Eigenschaften bedingter Erwartungen
Das folgende Resultat sollte nicht überraschend sein. Es ist nur eine Umformulierung von Lemma 2.24(iii).
Satz 5.10. Sei E ein schnittstabiler Erzeuger von G und sei Ω eine endliche
oder abzählbar unendliche Vereinigung von Mengen aus E. Eine integrierbare
Funktion f ist genau dann eine Version von E[X |G], wenn es messbar bezüglich
G ist und wenn
Z
Z
f dP =
X dP
G
G
für alle G ∈ E gilt.
Satz 5.11. Seien X , Y , X 1 , X 2 , . . . integrierbare Zufallsvariablen auf (Ω, A, P)
und G ⊂ A eine σ -Algebra. Dann gelten folgende Aussagen.
(i) Gilt X = a fast sicher, dann gilt E[X |G] = a.
(ii) Für a, b ∈ R gilt E[aX + bY |G] = aE[X |G] + bE[Y |G].
(iii) Gilt X ≤ Y fast sicher, dann gilt E[X |G] ≤ E[Y |G].
(iv) |E[X |G]| ≤ E[|X | |G].
(v) Gilt limn Xn = X und |Xn | ≤ Y fast sicher und ist Y integrierbar, so gilt
limn E[Xn |G] = E[X |G] fast sicher.
Bemerkung 5.12. Die Aussagen aus dem obigen Satz sind vermutlich nicht
überraschend, weil wir sie für Erwartungswerte ohne Bedingung bereits so
kennen. Aussage (v) ist die Version des Satzes für majorisierte Konvergenz von
Lebesgue. Für eine Version des Satzes von dominierter Konvergenz verweisen
wir auf Übung 5.1. Die Version der Jensen Ungleichung zeigen wir in Satz 5.15.
Beweis von Satz 5.11. (i) Wenn X = a fast sicher gilt, dann erfüllt die Funktion
f ≡ a die Bedingungen (i) und (ii) in Definition 5.4 und ist somit eine Version
der bedingten Erwartung E[X |G].
150
5.3 Eigenschaften bedingter Erwartungen
(ii) Die Zufallsvariable aE[X |G] + bE[Y |G] ist G-messbar und integrierbar
und für G ∈ G gilt
Z
Z
Z
(aE[X |G] + bE[Y |G]) dP = a
E[X |G] dP + b
E[Y |G] dP
G
G
G
Z
Z
=a
X dP + b
Y dP
G
G
Z
=
(aX + bY ) dP.
G
(iii) Wenn X ≤ Y fast sicher gilt, dann gilt für G ∈ G
Z
Z
(E[Y |G] − E[X |G]) dP =
(Y − X ) dP ≥ 0.
G
G
Da E[Y |G] − E[X |G] messbar bezüglich G ist, ist es fast sicher nicht negativ
(vgl. das Argument im Beweis von Lemma 2.24(ii)). Das zeigt (iv).
(iv) Das ist eine Folgerung von (ii) und (iii), denn mit diesen beiden Aussagen
gilt −E[|X ||G] ≤ E[X |G] ≤ E[|X ||G].
(iv) Setze Zn = supk ≥n |Xk − X |. Nach Voraussetzung gilt Zn ↓ 0 fast sicher.
Mit (ii), (iii) und (iv) folgt
|E[Xn |G] − E[X |G]| ≤ E[Zn |G].
Es genügt also zu beweisen, dass E[Zn |G] ↓ 0 fast sicher gilt. Nach (iii) ist
E[Zn |G] nichtfallend und hat daher einen Grenzwert Z . Zu zeigen ist Z = 0
fast sicher. Da Z nichtnegativ ist, ist es gleichbedeutend mit E[Z ] = 0. Es gilt
0 ≤ Zn ≤ 2Y . Mit (5.7) und mit dem Satz von majorisierter Konvergenz folgt
Z
Z
n→∞
E[Z ] =
E[Z |G] dP ≤
E[Zn |G] dP = E[Zn ] −−−−→ 0.
Folgender Satz ist eine wichtige Verallgemeinerung von Beispiel 5.7(b).
Satz 5.13. Ist X messbar bezüglich G und sind Y und XY integrierbar, dann gilt
E[XY |G] = X E[Y |G]
151
fast sicher.
(5.13)
5.3 Eigenschaften bedingter Erwartungen
Beweis. 1) Sei zunächst X = 1B für ein B ∈ G. Natürlich ist dann X E[Y |G]
messbar bezüglich G und außerdem gilt für G ∈ G
E[1G XY ] = E[1G∩BY ] = E[1G∩B E[Y |G]] = E[1G X E[Y |G]].
P
2) Ist X = ni=1 bi 1Bi für bi ∈ R und Bi ∈ G, so folgt die Aussage mit 1) und
Satz 5.11(ii).
3) Seien X eine beliebige G messbare Zufallsvariable und seien X 1 , X 2 , . . .
einfache G Funktionen (wie in 2)) mit |Xn | ≤ X und Xn → X fast sicher.
Einerseits folgt mit 2)
E[XnY |G] = Xn E[Y |G] → X E[Y |G] fast sicher.
Andererseits folgt mit Satz 5.11(v)
E[XnY |G] → E[XY |G] fast sicher.
Also folgt E[XY |G] = X E[Y |G] fast sicher.
Bedingte Erwartung von X gegeben eine σ -Algebra G eine Art „Mittlung“
der Zufallsvariablen auf den Mengen von G (vgl. Beispiel 5.2(b)). Wenn wir
also X erst auf einer σ -Algebra G2 mitteln und dann das Ergebnis auf einer
gröberen (kleineren) σ -Algebra G1 mitteln, dann sollte das Ergebnis dasselbe
sein wie das Mitteln über G1 allein. Das folgende Resultat könnte man mit
der Aussage zusammenfassen: „Die kleinere σ -Algebra gewinnt immer“. Ein
Spezialfall dieses Resultates mit G2 = A ist (5.7) (vgl. auch Beispiel 5.7(b)).
Satz 5.14 (Turmeigenschaft). Wenn X integrierbar ist und für die σ -Algebren
G1 und G2 gilt G1 ⊂ G2 , dann gilt
f
g
E E[X |G2 ]G1 = E[X |G1 ]
(5.14)
und
f
g
E E[X |G1 ]G2 = E[X |G1 ].
(5.15)
Beweis. Die linke Seite von (5.14) ist messbar bezüglich G1 also ist noch
Z f
Z
g
E E[X |G2 ]G1 dP =
X dP
(5.16)
G
G
152
5.3 Eigenschaften bedingter Erwartungen
für alle G ∈ G1 zu zeigen. Aber wenn G ∈ G1 ist, ist G ∈ G2 und die linke Seite
in (5.16) ist gleich
Z
Z
E[X |G2 ] dP =
XdP.
G
G
Das zeigt (5.14).
Wegen G1 ⊂ G2 ist E[X |G1 ] messbar bezüglich G2 , sodass bedingte Erwartung von E[X |G1 ] gegeben G2 unverändert bleibt.
Satz 5.15 (Jensen-Ungleichung für bedingte Erwartungen). Ist h eine konvexe
Funktion und sind X und h(X ) integrierbar, dann gilt
h E[X |G] ≤ E[h(X )|G] fast sicher.
(5.17)
Beweis. Wie in Beweis von Satz 3.11 gibt es für jedes x 0 ein a(x 0 ) mit
h(x ) ≥ h(x 0 ) + (x − x 0 )a(x 0 ).
(5.18)
wobei a(x 0 ) als die rechtsseitige Ableitung von h in x 0 gewählt werden kann,
so dass nicht fallend in x 0 ist. Es folgt
h(X ) ≥ h E[X |G] + a E[X |G] (X − E[X |G]).
Nehmen wir zunächst an, dass E[X |G] beschränkt ist. Dann sind alle Terme
in der obigen Ungleichung integrierbar. Nehmen wir bedingte Erwartungen
bezüglich G auf beiden Seiten und wenden (5.14) auf den zweiten Summand
auf der rechten Seite, so folgt (5.17).
Um (5.17) allgemein zu zeigen, setzen wir Gn = {|E[X |G]| ≤ n} dann ist
Gn ∈ G und E[1Gn X |G] = 1Gn E[X |G] ist beschränkt. Also gilt (5.17) für 1Gn X :
h E[1Gn X |G] ≤ E[h(1Gn X )|G] fast sicher.
Es gilt
E[h(1Gn X )|G] = E[1Gn h(X ) + 1Gnc h(0)|G]
= 1Gn E[h(X )|G] + 1Gnc h(0) → E[h(X )|G].
Da h stetig ist, konvergiert h(1Gn E[X |G]) fast sicher gegen h(E[X |G]). Damit
ist (5.17) bewiesen.
153
5.4 Übungen
5.4 Übungen
Übung 5.1. Es seien X 1 , X 2 , . . . nichtnegative Zufallsvariablen auf (Ω, A, P)
und sei G ⊂ A eine σ -Algebra. Zeigen Sie:
(a) Gilt Xn ↑ X fast sicher, so folgt E[Xn |G] ↑ E[X |G] fast sicher.
fP
g P
∞
∞
(b) E n=1
Xn |G = n=1
E[Xn |G].
(c) Wir setzen P(A|G) B E[1A |G] für A ∈ A. Sind B 1 , B 2 , . . . disjunkte Mengen
∞ B |G) = P∞ P(B |G).
aus A, dann gilt P(∪n=1
n
n
n=1
Übung 5.2. Seien X und Y unabhängige Zufallsvariablen. Berechnen Sie E[X |Y ].
Übung 5.3. Seien X und Y unabhängige und identisch verteilte integrierbare
Zufallsvariablen. Zeigen Sie
E[X |X + Y ] = E[Y |X + Y ] =
X +Y
2
fast sicher.
Übung 5.4. Die bedingte Varianz von X gegeben Y ist definiert durch
g
f
Var[X |Y ] B E (X − E[X |Y ]) 2 Y .
Zeigen Sie
f
g
f
g
Var[X ] = E Var[X |Y ] + Var E[X |Y ] .
Übung 5.5. Seien X und Y beschränkte Zufallsvariablen. Zeigen Sie
f
g
f
g
E Y E[X |G] = E X E[Y |G] .
154
Literaturverzeichnis
Ash, R. B.: 2000, Probability and measure theory, second edn, Harcourt/Academic Press, Burlington, MA. With contributions by Catherine
Doléans-Dade.
Billingsley, P.: 1995, Probability and measure, Wiley Series in Probability and
Mathematical Statistics, third edn, John Wiley & Sons, Inc., New York. A
Wiley-Interscience Publication.
Chow, Y. S. and Teicher, H.: 1997, Probability theory: Independence, interchangeability, martingales, Springer Texts in Statistics, third edn, Springer-Verlag,
New York.
Cohn, D. L.: 2013, Measure theory, Birkhäuser Advanced Texts: Basler Lehrbücher., 2nd edn, Birkhäuser/Springer, New York.
Elstrodt, J.: 2011, Maß- und Integrationstheorie., 7th revised and updated edn,
Berlin: Springer.
Klenke, A.: 2013, Wahrscheinlichkeitstheorie., 3rd edn, Springer.
Kolmogoroff, A.: 1933, Grundbegriffe der Wahrscheinlichkeitsrechnung.,
Springer-Verlag, Berlin.
155