Grundlagen der Wahrscheinlichkeitstheorie

KAPITEL 1
Grundlagen der Wahrscheinlichkeitstheorie
1. Ziele der Wahrscheinlichkeitstheorie
Eine vorrangige Aufgabe der Wahrscheinlichkeitstheorie ist die Zusammenfassung von Grundlagen zur mathematischen Modellierung solcher Vorgänge im
menschlichen Umfeld 1.1, die vom Zufall beeinflußt werden, wobei allerdings dieser
Zufall Gesetzmäßigkeiten unterliegt. Sie stellt Begriffe und Methoden zur Erstellung
entsprechender Modelle und ihrer mathematischen Untersuchung bereit.
Beispiel 1.1. Als Ausgangspunkt sei angenommen, daß an einem festen Ort in
regelmäßigen zeitlichen Abständen eine physikalische oder technische Größe, wie
z.B. Temperatur, Luftdruck, Lärmpegel oder Abgasbelastung, gemessen wird.
Eine mathematische Beschreibung der zu erwartenden Meßergebnisse und ihrer Struktur, beispielsweise der Eigenschaften ihrer zufälligen Schwankungen, ist
ein Ziel, das im Rahmen der Wahrscheinlichkeitstheorie verfolgt werden kann. Dies
bedeutet, daß ein mathematisches Modell für die Folge der Meßergebnisse zu entwerfen und auszuwerten ist 1.2.
Die übliche Vorgehensweise bei der Modellbildung mit Hilfe der Wahrscheinlichkeitstheorie besteht in einem Fall wie hier darin, von einem geeigneten Wahrscheinlichkeitsraum (Ω, F, P) 1.3 auszugehen und die einzelnen Messungen als Zufallsvariablen 1.4 X1 , X2 , . . . auf (Ω, F, P) zu charakterisieren. Ein mathematisches
Modell wird dann durch die Angabe von Eigenschaften der Zufallsvariablen Xn ,
n ∈ N, spezifiziert 1.5.
Bei der mathematischen Untersuchung eines derartigen Modells können dann
z.B. zur Charakterisierung des Langzeitverhaltens der zu messenden Größen Sätze
wie das Gesetz der großen Zahlen 1.6 oder der Zentrale Grenzwertsatz 1.7 abgeleitet
werden. Allgemeine Techniken zur Herleitung derartiger Resultate, wie z.B. Martingalsätze, werden ebenfalls in der Wahrscheinlichkeitstheorie bereitgestellt 1.8.
1.1Z.B. in der Natur, der Technik oder auch im sozialen Umfeld.
1.2Hier ist die mathematische Untersuchung des Modells gemeint und nicht die Auswertung
konkreter Meßdaten. Dies ist eine Aufgabe, die in der Statistik behandelt wird.
1.3Vgl. Abschnitt 2.1.
1.4D.h., reellwertige, meßbare Funktionen auf (Ω, F, P), vgl. Abschnitt 2.2.
1.5Man könnte beispielsweise annehmen, daß die Zufallsvariablen X , n ∈ N, unabhängig und
n
identisch verteilt sind, vgl. Abschnitt 2.2.2, oder daß sie einen stationären stochastischen Prozeß
X = (Xn )n∈N , bzw. einen Markovprozeß bilden, vgl. Abschnitt 2.5.
P
1.6
Beim Gesetz der großen Zahlen wird die Konvergenz bei N → ∞ von (1/N ) N
k=1 Xk ,
d.h., des Mittelwerts von N Messungen, gegen einen deterministischen Grenzwert X nachgewiesen,
vgl. Abschnitt 4.1.
√
P
1.7
Beim Zentralen Grenzwertsatz wird die Asymptotik bei N → ∞ von N (1/N ) N
k=1 Xk
−X , d.h., der reskalierten Fluktuationen der gemittelten Meßwerte um ihren Grenzwert, vgl.
Fußnote 1.6, untersucht. Hier ergibt sich unter geeigneten Voraussetzungen als Limes eine Zufallsvariable mit einer Normalverteilung N(0, σ2 ), σ2 > 0, vgl. Abschnitt 4.2.
1.8
Vgl. Beispiel 4.38. Dort wird ein starkes Gesetz der großen Zahlen mit Hilfe eines Konvergenzsatzes für Martingale bewiesen.
7
8
2. Grundlegende Begriffe und Konzepte der Wahrscheinlichkeitstheorie
In diesem Abschnitt werden einige für alle Bereiche der Wahrscheinlichkeitstheorie fundamentalen Begriffe wie Wahrscheinlichkeitsraum, Zufallsvariable, Verteilung, Erwartungswert, bedingte Wahrscheinlichkeit oder stochastischer Prozeß
vorgestellt und anhand elementarer Beispiele 2.1 erläutert. Hierbei wird u.a. auch
auf mögliche mathematische Schwierigkeiten und Verallgemeinerungen hingewiesen,
die im Zusammenhang mit komplizierteren Anwendungen eine gründliche maßtheoretische Fundierung der Wahrscheinlichkeitstheorie notwendig werden lassen. Am
Ende dieses Abschnitts finden sich außerdem einige Anmerkungen zur Simulation
von reellwertigen Zufallsvariablen mit Hilfe eines Computers 2.2.
2.1. Wahrscheinlichkeitsräume. In allen wahrscheinlichkeitstheoretischen
Modellen wird ein Wahrscheinlichkeitsraum (Ω, F, P) zur Bereitstellung des benö”
tigten Zufalls“ zugrundegelegt. Hierbei ist 2.3
• Ω eine als Stichprobenraum bezeichnete, hinreichend große Menge,
• F eine σ-Algebra von Teilmengen von Ω, deren Elemente als Ereignisse
bezeichnet werden, und
• P ein Wahrscheinlichkeitsmaß auf (Ω, F) 2.4, das den einzelnen Ereignissen
jeweils Wahrscheinlichkeiten in [0, 1] zuweist.
Beispiel 2.1. Zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen
Münze kann Ω = {0, 1}N mit der σ-Algebra F = Pot(Ω) 2.5 verwendet werden.
Wenn das Wurfergebnis Kopf“ durch 0 und das Wurfergebnis Zahl“ durch 1
”
”
dargestellt wird, beschreibt ein Element ω = (ω1 , . . . , ωN ) ∈ Ω eine Wurfsequenz
mit dem Wurfergebnis ωi beim i-ten Wurf, wobei i = 1, . . . , N . Da die Würfe
unabhängig sind und die Münze fair ist, muß jedem Ereignis {ω} ∈ F die gleiche
Wahrscheinlichkeit P[{ω}] = 2−N zugewiesen werden 2.6.
2.1.1. Definition von Wahrscheinlichkeitsräumen. Der Stichprobenraum Ω ist
keinerlei Einschränkungen unterworfen. Allerdings sind eine σ-Algebra F und ein
Wahrscheinlichkeitsmaß P durch einige wenige Bedingungen charakterisiert.
Insbesondere wird eine nichtleere Familie F von Teilmengen von Ω eine σAlgebra genannt, wenn 2.7
(2.1a)
A∈F
=⇒
(Ω \ A) ∈ F,
2.1
In diesen Beispielen wird hauptsächlich der N -fache, unabhängige Wurf einer fairen Münze
zugrundegelegt.
2.2
Simulationen einzelner Zufallsvariablen sind die Grundlage zur Simulation von wahrscheinlichkeitstheoretischen Modellen in realen Anwendungen.
2.3Eine präzise Definition von Wahrscheinlichkeitsräumen folgt in Abschnitt 2.1.1.
2.4Für eine Menge Ω′ und eine σ-Algebra F ′ von Teilmengen von Ω′ bezeichnet man (Ω′ , F ′ )
als meßbaren Raum. Ein solcher meßbarer Raum kann mit unterschiedlichen Wahrscheinlichkeitsmaßen P′ zu Wahrscheinlichkeitsräumen (Ω′ , F′ , P′ ) ergänzt werden.
2.5Pot(Ω) ist die Potenzmenge von Ω, d.h., die Menge aller Teilmengen von Ω.
2.6Ein Wahrscheinlichkeitsraum (Ω, F, P), wobei Ω eine endliche Menge mit |Ω| Elementen
und F = Pot(Ω) ist, und außerdem jedes Ereignis {ω}, ω ∈ Ω, unter P die gleiche Wahrscheinlichkeit 1/|Ω| besitzt, wird als Laplacescher Wahrscheinlichkeitsraum bezeichnet.
2.7Unmittelbar aus (2.1) folgen weiterhin
(∗1 )
(∗2 )
∅, Ω ∈ F,
A1 , A2 , · · · ∈ F
=⇒
∞
\
n=1
An ∈ F.
Zum Nachweis dieser Eigenschaften sei zunächst A ein beliebiges Element von F. Aus (2.1) folgt
nun, daß A ∪ (ΩS
\ A) = Ω ∈ F. Mit (2.1a) ergibt sich dann ∅ = Ω \ Ω ∈ F. Die Beziehung
T
∞
∞
n=1 (Ω \ An ) und (2.1) implizieren schließlich (∗2 ).
n=1 An = Ω \
Eine Familie von Teilmengen von Ω, die (2.1a) und (2.1b) mit jeweils nur endlich vielen
Mengen erfüllt, nennt man eine Algebra.
22. Juli 2014
9
A1 , A2 , · · · ∈ F
(2.1b)
=⇒
∞
[
n=1
An ∈ F.
Außerdem heißt eine Abbildung P : F → [0, 1] Wahrscheinlichkeitsmaß (auf (Ω, F)),
falls
(2.2a)
(2.2b)
#
"∞
∞
X
[
P[Ai ],
Ai =
P
i=1
i=1
P[Ω] = 1,
falls Ai ∩ Aj = ∅, i, j = 1, 2, . . . , i 6= j
Die Eigenschaft (2.2b) wird als σ-Additivität von P bezeichnet
2.8
.
2.9
.
Beispiel 2.2. Sei M eine beliebige Menge. Eine triviale σ-Algebra ist {∅, M }. Ebenso ist die Potenzmenge Pot(M ) = {A : A ⊆ M } eine σ-Algebra. Wenn allerdings
Wahrscheinlichkeitsmaße definiert werden sollen, stellt sich bei überabzählbaren
Mengen M die σ-Algebra Pot(M ) als i. allg. unbrauchbar heraus 2.10.
Beispiel 2.3. In Rd , d = 1, 2, . . . , bzw. in Teilgebieten des Rd , findet üblicherweise
die Borelsche σ-Algebra B(Rd ) Verwendung. Sie kann charakterisiert werden als die
eindeutig bestimmte, kleinste σ-Algebra, die alle offenen Rechtecke enthält 2.11.
σ-Algebren werden auch zur Zusammenfassung von Ereignissen mit speziellen
Eigenschaften benutzt. Wenn z.B. eine Zeitskala 0 ≤ t < ∞ vorliegt 2.12, können
die Ereignisse bis zu einem festen Zeitpunkt s durch eine σ-Algebra Fs ⊆ F 2.13
beschrieben werden.
Eine Beschreibung der Vorgehensweise zur Konstruktion von σ-Algebren und
Wahrscheinlichkeitsmaßen findet sich in Abschnitt 3.1, bzw. in Abschnitt 3.3. Insbesondere wird diskutiert, inwiefern Wahrscheinlichkeitsmaße durch die Wahrscheinlichkeiten der Ereignisse in speziellen Teilmengen der Menge F aller Ereignisse
eindeutig charakterisiert sind.
2.8In der in Beispiel 2.1 beschriebenen Situation kann (2.2b) zum Nachweis von P[A] =
|A|/2N , A ∈ F, benutzt werden.
2.9Eine σ-additive Abbildung µ : F → [0, ∞] mit µ(∅) = 0, einer Eigenschaft, die insbesondere auch für Wahrscheinlichkeitsmaße gilt, vgl. Satz 3.10(1), wird als Maß bezeichnet. Dementsprechend ist dann (Ω, F, µ) ein Maßraum.
µ, bzw. (Ω, F, µ) heißt σ-endlich , wenn eine Folge An , n ∈ N, in F mit
∞
[
n=1
An = Ω,
µ(An ) < ∞, n ∈ N,
existiert. Ein Beispiel eines σ-endlichen Maßraums ist (Rd , B(Rd ), λRd ), wobei B(Rd ) die Borelsche
σ-Algebra auf Rd , vgl. Abschnitt 3.1.3, und λRd das Lebesguemaß auf Rd , vgl. Abschnitt 3.3.2,
ist.
Auf Maßräumen können mit Hilfe von Wahrscheinlichkeitsdichten Wahrscheinlichkeitsmaße
definiert werden, vgl. Abschnitt 3.3.3.
2.10Vgl. Beispiel 3.1 und Anhang A.3.1. Dort wird erläutert, daß für ein Modell für den ∞fachen, unabhängigen Wurf einer fairen Münze bei Verwendung von F = Pot(Ω) kein vernünftiges
Wahrscheinlichkeitsmaß definiert werden kann. Daher muß in der Maßtheorie insbesondere auch
die Konstruktion von σ-Algebren systematisiert werden, vgl. Abschitt 3.1.
2.11Vgl. Abschnitt 3.1.3. Dort werden Borelsche σ-Algebren in allgemeinen topologischen
Räumen eingeführt.
2.12Beispielsweise bei der Untersuchung eines stochastischen Prozesses X = (X )
t 0≤t<∞ ,
d.h., einer zufälligen zeitlichen Entwicklung.
2.13Die Ereignisse F bis zum Zeitpunkt s sind eine Teilmenge aller Ereignisse F.
s
Offensichtlich ist Fu ⊆ Fs , falls 0 ≤ u ≤ s < ∞. Damit ist die Familie (Fs )0≤s<∞ eine
Filtration, vgl. Abschnitt 3.9.
22. Juli 2014
10
2.1.2. Interpretation der Eigenschaften von σ-Algebren und Wahrscheinlichkeitsmaßen. Im Rahmen der Wahrscheinlichkeitstheorie sind (2.1) und (2.2) naheliegende, natürliche Bedingungen mit den folgenden Interpretationen:
• (2.1a) hält fest, daß mit jedem Ereignis A auch dessen Komplement Ω \ A
in Ω, welches das Nichteintreten von A beschreibt, ein Ereignis ist.
• (2.1b) besagt, daß für beliebige, abzählbar viele Ereignisse A1 , A2 , . . . auch
A oder A2 oder . . .“ ein Ereignis ist.
” 1
• Mit (2.2a) wird die Wahrscheinlichkeit für das Eintreten des sicheren“
”
Ereignisses Ω gleich 1 gesetzt.
• (2.2b) besagt, daß sich die Wahrscheinlichkeiten abzählbar vieler, sich gegenseitig ausschließender Ereignisse addieren.
(2.1) und (2.2) sind damit mathematische Formulierungen von Gesetzmäßigkeiten aus dem alltäglichen, menschlichen Umfeld.
2.2. Zufallsvariablen. Zu modellierende, beobachtbare zufällige Größen“
”
werden durch Zufallsvariablen auf (Ω, F, P) beschrieben. Darunter versteht man
Funktionen X : (Ω, F, P) → (Ω′ , F′ ), wobei (Ω′ , F′ ) ein meßbarer Raum 2.14 ist,
mit 2.15
(2.3)
X −1 (A′ ) = {ω ∈ Ω : X(ω) ∈ A′ } ∈ F,
A′ ∈ F′ .
Beispiel 2.4. Sei (Ω, F, P) der in Beispiel 2.1 beschriebene Wahrscheinlichkeitsraum zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze.
Beispiele für (N0 , Pot(N0 ))-wertige Zufallsvariablen auf diesem Wahrscheinlichkeitsraum sind
• Xi , i = 1, . . . , N , mit Xi (ω) = ωi , ω = (ω1 , . . . , ωN ) ∈ Ω,
P
P
• Z= N
Xi , d.h., Z(ω) = N
i=1 Xi (ω), ω ∈ Ω,
( i=1
inf i ∈ {1, ..., N } : Xi = 1 , falls Z > 0,
• T =
N + 1,
sonst 2.16.
Für i = 1, . . . , N gibt Xi das Ergebnis des i-ten Wurfs an. Weiterhin beschreibt Z
die Anzahl der Würfe von Zahl“ , 1, während T den Zeitpunkt des ersten Wurfs
”
von Zahl“ modelliert.
”
Wenn F = Pot(Ω) 2.17, so ist die Meßbarkeitseigenschaft (2.3) offensichtlich für
jede auf (Ω, F, P) definierte Funktion erfüllt 2.18.
In komplizierteren Situationen können allerdings σ-Algebren eine unübersichtliche Struktur besitzen 2.19. Damit wird in konkreten Fällen die Verifizierung von
2.14Vgl. Fußnote 2.4.
2.15Eine Funktion X : (Ω, F) → (Ω′ , F ′ ), wobei (Ω, F) und (Ω′ , F ′ ) meßbare Räume sind,
heißt meßbar, wenn (2.3) gilt. Eine Zufallsvariable ist daher eine meßbare Funktion, die nicht nur
auf einem meßbaren Raum, sondern sogar auf einem Wahrscheinlichkeitsraum definiert ist. Aus
diesem Grund kann ihr dann auch eine Verteilung, vgl. Abschnitt 2.2.1, zugeordnet werden.
2.16Auf eine detailliertere Weise ist T durch
( inf i ∈ {1, ..., N } : Xi (ω) = 1 , falls Z(ω) > 0,
ω ∈ Ω,
T (ω) =
N + 1,
sonst,
definiert.
2.17In der Praxis ist F = Pot(Ω) nur sinnvoll, wenn Ω höchstens abzählbar ist, vgl. Beispiel 3.1.
2.18Insbesondere sind die in Beispiel 2.4 eingeführten Funktionen X , i = 1, . . . , N , Z und T
i
in der Tat Zufallsvariablen.
2.19Vgl. Abschnitt 3.1.
22. Juli 2014
11
(2.3) schwierig. Es reicht jedoch, (2.3) für alle A′ ∈ F∗′ nachzuweisen, wenn F∗′ ⊆ F′
hinreichend groß ist 2.20.
Zwei Zufallsvariablen X und Y auf einem Wahrscheinlichkeitsraum (Ω, F, P)
werden i. allg. dann als identisch betrachtet, wenn sie fast sicher (f.s.) übereinstimmen, d.h., wenn P[{ω ∈ Ω : X(ω) = Y (ω)}] = P[X = Y ] = 1. In diesem Fall
schreibt man X = Y , f.s. Dementsprechend sind in der Wahrscheinlichkeitstheorie
alle (Un-)Gleichungen zwischen Zufallsvariablen als f.s. gültige (Un-)Gleichungen
zu lesen. Um das auf einem vorgegebenen meßbaren Raum (Ω, F) jeweils verwendete Wahrscheinlichkeitsmaß P hervorzuheben, wird auch die Notation P-f.s. benutzt 2.21.
2.2.1. Verteilung von Zufallsvariablen. Eine (Ω′ , F′ )-wertige Zufallsvariable X
auf einem Wahrscheinlichkeitsraum (Ω, F, P) ist durch die Wahrscheinlichkeiten,
”
mit der die verschiedenen Werte in Ω′ angenommen werden“, d.h., durch ihre Verteilung PX charakterisiert 2.22. PX ist definiert durch 2.23
(2.4) PX [A′ ] := P[X ∈ A′ ] = P[{ω ∈ Ω : X(ω) ∈ A′ }] = P[X −1 (A′ )],
und stellt ein Wahrscheinlichkeitsmaß auf dem Bildraum (Ω′ , F′ ) dar
A′ ∈ F′ ,
2.24
.
Beispiel 2.5. Sei (Ω, F, P) der in Beispiel 2.1 beschriebene Wahrscheinlichkeitsraum zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze und
sei Z die in Beispiel 2.4 eingeführte (N0 , Pot(N0 ))-wertige Zufallsvariable zur Beschreibung der Anzahl der Würfe von Zahl“. Dann gilt
#”
"N
X
N
1 N
2.26
2.25
, k = 0, 1, . . . , N,
Xi = k =
P[Z = k] =
P
2
k
i=1
und außerdem
P[Z = k] = 0,
k = N + 1, N + 2, . . . .
2.20Beispielsweise reicht der Nachweis von (2.3) für alle A′ ∈ F ′ , wenn F ′ die kleinste F ′
∗
∗
enthaltende σ-Algebra ist und somit von F∗′ erzeugt wird, vgl. Satz 3.4.
2.21Sei (Ω, F) ein meßbarer Raum, auf dem zwei Wahrscheinlichkeitsmaße P und Q definiert
sind, und seien X und Y zwei (Ω′ , F′ )-wertige, meßbare Funktionen auf (Ω, F). Es kann durchaus
X = Y , P-f.s., und Q[X 6= Y ] = Q[{ω ∈ Ω : X(ω) 6= Y (ω)}] > 0 oder gar Q[X 6= Y ] = 1, d.h.,
X 6= Y , Q-f.s., gelten.
Sei beispielsweise Ω = {−1, 1}, F = Pot(Ω), P[{−1}] = Q[{1}] = 1 und P[{1}] = Q[{−1}] =
0. Außerdem sei X(−1) = X(1) = Y (−1) = 1 und Y (1) = −1. Dann ist {X = Y } = {−1}, d.h.,
P[X = Y ] = 1, bzw. Q[X = Y ] = 0.
2.22Genaugenommen gibt die Verteilung einer Zufallsvariablen X die Wahrscheinlichkeiten
an, die die verschiedenen mit X verbundenen Ereignisse“ {X ∈ A′ }, A′ ∈ F′ , haben.
2.23P[{ω ∈ Ω : X(ω)” ∈ A′ }] ist für alle A′ ∈ F ′ wohldefiniert, da aufgrund der Meßbarkeit
von X, vgl. (2.3) und Fußnote 2.15, die Menge {ω ∈ Ω : X(ω) ∈ A′ } ein Element von F ist.
2.24(Ω′ , F ′ , P ) ist damit ein Wahrscheinlichkeitsraum. Zum Nachweis, daß P ein WahrX
X
scheinlichkeitsmaß auf (Ω′ , F′ ) ist, d.h., die Bedingungen (2.2) erfüllt, beachte zunächst, daß
PX [Ω′ ] = P[X −1 (Ω′ )] = P[Ω] = 1. Außerdem sind für disjunkte Ereignisse A′1 , A′2 , . . . in F′
auch deren Urbilder X −1 (A′1 ), X −1 (A′2 ), . . . in F disjunkt. Wegen der Gültigkeit von (2.2b) für
das Wahrscheinlichkeitsmaß P auf (Ω, F) ist somit
"∞
#
"
#
!#
"∞
∞
∞
∞
[
[
X
X
[
′
−1
′
−1
′
Ak = P X
PX
Ak
PX [A′k ].
P[X −1 (A′k )] =
X (Ak ) =
=P
k=1
k=1
k=1
k=1
k=1
2.25Die {0, 1}-wertigen Zufallsvariablen X , i = 1, . . . , N , modellieren die Ergebnisse der
i
einzelnen Würfe, vgl. Beispiel 2.4.
P
2.26
Offensichtlich ist N
i=1 Xi = k genau dann, wenn Xi = 1 für genau k der N Würfe. Nun
gibt es N
Möglichkeiten, die Zeitpunkte“ i der in 1 resultierenden Würfe auszuwählen. Weiterk
”
hin hat jede Wurfsequenz die Wahrscheinlichkeit 2−N , vgl. Beispiel 2.1. In diesen Überlegungen
wird beachtet, daß (Ω, F, P) ein Laplacescher Wahrscheinlichkeitsraum, vgl. Fußnote 2.6, ist.
22. Juli 2014
12
Damit ist Z gemäß der Binomialverteilung
und 1/2 verteilt.
2.27
B(N, 1/2) mit den Parametern N
Außer in den einfachsten Fällen ist es zur Bestimmung der Verteilung PX von
X gemäß (2.4) nicht möglich und auch nicht sinnvoll, P[X ∈ A′ ] für alle A′ ∈ F′
zu berechnen. Zur eindeutigen Charakterisierung von PX reicht die Kenntnis von
P[X ∈ A′ ] für alle A′ ∈ F∗′ , falls F∗′ die σ-Algebra F′ erzeugt 2.28 und durchschnittsstabil ist 2.29. Für Zufallsvariablen mit Werten in (Ω′ , F′ ) = (R, B(R)) 2.30 kann
F∗′ = {(−∞, a] : a ∈ R} gewählt werden 2.31. Die Verteilung einer reellwertigen Zufallsvariable X ist damit durch ihre Verteilungsfunktion FX mit FX (u) = P[X ≤ u],
u ∈ R, eindeutig gegeben 2.32.
Die gegenseitigen Abhängigkeiten zwischen mehreren Zufallsvariablen werden
durch deren gemeinsame Verteilung beschrieben. Falls 2.33 Xλ , λ ∈ Λ, Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in meßbaren Räumen
(Ωλ , Fλ ), λ ∈ Λ, sind, so ist die gemeinsame Verteilung von Xλ , λ ∈ Λ, durch
P Xλ1 ∈ Aλ1 , Xλ2 ∈ Aλ2 , . . . , Xλm ∈ Aλm
(2.5)
= P ω ∈ Ω : Xλ1 (ω) ∈ Aλ1 , . . . , Xλm (ω) ∈ Aλm ,
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N,
eindeutig bestimmt 2.34.
2.2.2. Unabhängigkeit von Zufallsvariablen. Falls die gemeinsame Verteilung
der Zufallsvariablen Xλ , λ ∈ Λ, faktorisiert, d.h., wenn 2.35
P Xλ1 ∈ Aλ1 , Xλ2 ∈ Aλ2 , . . . , Xλm ∈ Aλm
(2.6)
= P[Xλ1 ∈ Aλ1 ] P[Xλ2 ∈ Aλ2 ] · · · P[Xλm ∈ Aλm ],
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N,
werden diese Zufallsvariablen unabhängig genannt
2.36
.
2.27Allgemeiner ist
B(N, p)[{k}] =
N pk (1 − p)N−k ,
k
k = 0, 1, . . . , N,
für die Binomialverteilung B(N, p) mit den Parametern N ∈ N und p ∈ [0, 1].
2.28Vgl. Fußnote 2.20.
2.29Vgl. [10], Satz (1.12). Ein Mengensystem F ′ heißt durchschnittsstabil, falls mit A, B ∈ F ′
∗
∗
auch A ∩ B ∈ F∗′ ist. Ein durchschnittsstabiles Mengensystem wird auch als π-System bezeichnet,
vgl. Abschnitt 5.1.3.
2.30Vgl. Beispiel 2.3.
2.31Es ist offensichtlich, daß dieses Mengensystem F ′ durchschnittsstabil ist.
∗
2.32Die Verteilungsfunktion F : R → [0, 1] einer Zufallsvariable X ist monoton steigend mit
X
limy→−∞ FX (y) = 0 und limy→∞ FX (y) = 1. FX ist rechtsstetig, d.h., limyցx0 FX (y) = FX (x0 ),
x0 ∈ R, und besitzt linksseitige Grenzwerte, d.h., limyրx0 FX (y) existiert für alle x0 ∈ R, vgl. [7],
Section 1.1, Theorem (1.1). Der Nachweis der Rechtsstetigkeit von FX findet sich in Fußnote 3.56.
2.33
Λ ist eine beliebige Indexmenge.
2.34Eigentlich ist die gemeinsame Verteilung der Zufallsvariablen X , λ ∈ Λ, ein Wahrscheinλ
N
Q
dem Produkt der meßbaren Räume
lichkeitsmaß auf dem meßbaren Raum
λ∈Λ Ωλ ,
λ∈Λ Fλ ,N
(Ωλ , Fλ ), λ ∈ Λ, vgl. Abschnitt 3.1.2. Die Produkt-σ-Algebra
λ∈Λ Fλ ist hierbei die kleinste σAlgebra, die die endlich-dimensionalen Rechtecke {ω = (ωλ )λ∈Λ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm },
der
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N, enthält. Die gemeinsame Verteilung
Q
N
Zufallsvariablen Xλ , λ ∈ Λ, ist identisch mit der Verteilung der
λ∈Λ Ωλ ,
λ∈Λ Fλ -wertigen
Zufallsvariable X = (Xλ )λ∈Λ , die durch Zusammenfassen der Zufallsvariablen Xλ , λ ∈ Λ, zu einer
einzigen vektorwertigen Zufallsvariable entsteht.
2.35Genaugenommen wird in (2.6) verlangt, daß alle gemeinsamen Verteilungen von jeweils
endlich vielen der Zufallsvariablen Xλ , λ ∈ Λ, faktorisieren.
2.36Um den Unterschied zur linearen Unabhängigkeit zu betonen, bezeichnet man die Zufallsvariablen Xλ , λ ∈ Λ, auch als stochastisch unabhängig.
22. Juli 2014
13
Beispiel 2.6. Die in Beispiel 2.4 eingeführten Zufallsvariablen Xi , i = 1, . . . , N ,
sind unabhängig 2.37. Es gilt beispielsweise 2.38
P[Xi = α, Xj = β] =
Hingegen sind X1 und
2.39
1 1
1
= · = P[Xi = α] · P[Xj = β],
4
2 2
α, β ∈ {0, 1}, i, j = 1, . . . , N, i 6= j.
Z nicht unabhängig, wie z.B.
0 = P[X1 = 1, Z = 0] 6= P[X1 = 1] · P[Z = 0] =
demonstriert.
2.40
1 1 N 1 N +1
=
·
2
2
2
Viele klassische Resultate der Wahrscheinlichkeitstheorie 2.41 beziehen sich auf
eine Familie Xλ , λ ∈ Λ, unabhängiger, identisch verteilter Zufallsvariablen 2.42, wobei im allgemeinen Λ nicht endlich ist. Um zu klären, ob solche Resultate sinnvoll
sind 2.43, ist zunächst zu prüfen, ob überhaupt ein Wahrscheinlichkeitsraum existiert, auf dem alle Xλ , λ ∈ Λ, definiert sind. Zu einer Lösung dieses Existenzproblems 2.44 können insbesondere Produkträume, genauer Produkte von Wahrscheinlichkeitsräumen 2.45, verwendet werden.
2.3. Erwartungswerte von Zufallsvariablen. Im täglichen Umgang mit
zufälligen Meßwerten oder sonstigen durch reelle Zahlen quantifizierten Beobachtungen werden Mittelwerte“ zur Beschreibung typischer Beobachtungswerte“ ver”
”
wendet. Dem Mittelwert“ entspricht in der Wahrscheinlichkeitstheorie der Erwar”
tungswert.
Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit
Werten in (R, B(R)) 2.46. X sei zunächst eine diskrete Zufallsvariable, d.h., X(Ω) =
{X(ω) : ω ∈ Ω} sei eine höchstens abzählbare Teilmenge von R 2.47. Dann besitzt
2.37Zur realistischen Modellierung der (umgangssprachlichen) Unabhängigkeit“ der einzel”
nen Würfe der Münze ist dies auch notwendig.
2.38Hier wird nur der Fall m = 2 aus (2.6) angesprochen. Die Fälle m = 3, . . . , N können auf
die gleiche Weise behandelt werden.
2.39Die Zufallsvariable Z wird in Beispiel 2.4 eingeführt.
2.40Es wird insbesondere berücksichtigt, daß X = 0, sobald Z = 0, und daß Z binomialver1
teilt mit Parametern N und 1/2 ist, vgl. Beispiel 2.5.
2.41Z.B. das Gesetz der großen Zahlen oder der Zentrale Grenzwertsatz in ihren Grundversionen, vgl. Satz 4.5, bzw. Satz 4.10. In diesen Resultaten ist Λ = N.
2.42Als Abkürzung wird in Fällen wie hier i.i.d. für independent, identically distributed“
”
verwendet.
2.43Es wäre nicht sinnvoll, mathematische Resultate für nichtexistierende Objekte herzuleiten.
2.44Vgl. Beispiel 3.9.
2.45Das Produkt der Wahrscheinlichkeitsräume (Ω , F , P ), λ ∈ Λ, hat die Gestalt
Q
N λ λ λ
Q
N
N
λ∈Λ Ωλ ,
λ∈Λ Fλ ein Produkt
λ∈Λ Ωλ ,
λ∈Λ Fλ ,
λ∈Λ Pλ , wobei
N meßbarer Räume
ist, vgl. Fußnote 2.34 und Abschnitt 3.1.2, und das Wahrscheinlichkeitsmaß
λ∈Λ Pλ durch seine
Einschränkung auf die endlich-dimensionalen Rechtecke, d.h., durch
)#
"(
m
Y
O
Y
Pλ
=
Pλi [Aλi ],
Ωλ : ω λ 1 ∈ A λ 1 , . . . , ω λ m ∈ A λ m
ω = (ωλ )λ∈Λ ∈
λ∈Λ
i=1
λ∈Λ
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N,
eindeutig bestimmt ist, vgl. Abschnitt 3.3.4.
2.46Zur Beschreibung des meßbaren Raums (R, B(R)) vgl. Beispiel 2.3.
2.47In diesem Abschnitt wird der Erwartungswert nur für diskrete Zufallsvariablen definiert.
Zur Erweiterung auf beliebige (R, B(R))-wertige Zufallsvariablen vgl. Abschnitt 3.6. Allgemeiner
können Erwartungswerte auch für Zufallsvariablen mit Werten in Vektorräumen definiert werden.
22. Juli 2014
14
X einen (endlichen) Erwartungswert, wenn 2.48
X
|x| P[X = x] < ∞.
(2.7)
x∈X(Ω)
Wenn (2.7) gilt, nennt man X auch integrabel. Man definiert nun den Erwartungswert von X durch 2.49
X
X
x PX [{x}].
x P[X = x] =
(2.8)
E[X] :=
x∈X(Ω)
x∈X(Ω)
Der Erwartungswert E[X] ist damit eine gewichtete Summe über den Wertebereich
von X, wobei die einzelnen Werte von X mit den Wahrscheinlichkeiten, mit denen
sie angenommen werden, gewichtet werden 2.50 2.51.
Für eine f.s. positive Zufallsvariable ist die Summe in (2.8) immer wohldefiniert,
d.h., für solche Zufallsvariablen X kann E[X] durch (2.8) definiert werden. Allerdings ist in einem solchen Fall E[X] = ∞ möglich. Nun wird deutlich, daß eine
beliebige diskrete reellwertige Zufallsvariable X genau dann integrabel ist, wenn
E[|X|] < ∞.
Beispiel 2.7. Für die in Beispiel 2.4 eingeführte Zufallsvariable Z zur Modellierung
der Anzahl der Würfe von Zahl“ beim N -fachen, unabhängigen Wurf einer fairen
”
Münze gilt 2.52:
E[Z] =
N
X
k P[Z = k]
| {z }
N
1 N
=
2
k
N −1 N
1 N
X
N X N
N!
=
=
k
k!(N − k)! 2
2
l=0
k=1 |
{z
}
|
N −1
=N
k−1
k=0
N
− 1 1 N −1
= .
2
2
l
{z
}
=1
Zur Berechnung des Erwartungswerts E[X] für eine allgemeine, reellwertige
Zufallsvariable X wird diese Zufallsvariable durch eine Folge geeigneter diskreter
Zufallsvariablen Xk , k ∈ N, approximiert und E[X] durch limk→∞ E[Xk ] definiert 2.53 2.54.
2.48In (2.7) muß P[X = x] wohldefiniert sein, d.h., {X = x} ∈ F, x ∈ X(Ω). Diese Eigenschaft
folgt aus der Meßbarkeit von X : (Ω, F) → (R, B(R)), vgl. (2.3), und aus {x} ∈ B(R), x ∈ R.
2.49Die Verteilung P einer Zufallsvariablen X ist in (2.4) charakterisiert.
X
2.50Offensichtlich hängt der Erwartungswert E[X] nur von der Verteilung P ab. Der WahrX
scheinlichkeitsraum (Ω, F, P), auf dem die Zufallsvariable X definiert ist, tritt, wie insbesondere
die zweite Summe in (2.8) andeutet, nur indirekt in Erscheinung. Allgemeinere Überlegungen zur
Bedeutung von Wahrscheinlichkeitsräumen, auf denen zur Modellbildung benutzte Zufallsvariablen X definiert sind, und deren Verteilung PX finden sich in Abschnitt 2.6.
2.51
In Anspielung auf die Gestalt der rechten Seite von (2.8) kann E[X] auch als ein Integral
R
X(Ω) x PX (dx) bzgl. des Wahrscheinlichkeitsmaßes PX über den Wertebereich X(Ω) betrachtet
werden. Dementsprechend besitzt Abschnitt 3.6, wo der Erwartungswert reellwertiger Zufallsvariablen rigoros eingeführt wird, den Titel Integrationstheorie“.
”
2.52Es wird berücksichtigt, daß Z binomialverteilt
mit Parametern N und 1/2 ist, vgl. Beispiel 2.5.
2.53Vgl. Abschnitt 3.6. Natürlich muß darauf geachtet werden, daß E[X] unabhängig von der
approximierenden Folge Xk , k ∈ N, ist.
2.54
Die hier in einer Definition angesprochene Beziehung E[limk→∞ Xk ] = limk→∞ E[Xk ] für
eine Folge von Zufallsvariablen Xk , k ∈ N, muß in vielen Situationen in der Wahrscheinlichkeitstheorie verifiziert werden. Zu diesem Zweck können Resultate wie der Satz von der monotonen
22. Juli 2014
15
2.4. Bedingte Wahrscheinlichkeiten. Mit (Ω, F, P) sei ein Wahrscheinlichkeitsraum gegeben. Durch das Wahrscheinlichkeitsmaß P[ . ] erhalten hierbei die
Ereignisse A ∈ F jeweils eine unbedingte Wahrscheinlichkeit P[A]. Falls nun bekannt wird, daß ein festes Ereignis B eingetreten ist, kann allen Ereignissen A ∈ F
eine neue, unter B bedingte Wahrscheinlichkeiten P[A|B] 2.55 zugewiesen werden.
Beispiel 2.8. Sei (Ω, F, P) der in Beispiel 2.1 beschriebene Wahrscheinlichkeitsraum zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze und
seien X1 und Z Zufallsvariablen wie sie in Beispiel 2.4 eingeführt wurden 2.56. Weiterhin seien die Ereignisse A = {Z = N } und B = {X1 = 0} gegeben. Da Z
binomialverteilt mit den Parametern N und 1/2 ist 2.57, folgt P[A] = 2−N . Andererseits sollte offensichtlich P[A|B] = 0 gelten 2.58.
Allgemein ist für ein B ∈ F mit P[B] > 0 2.59 die unter B bedingte Wahrscheinlichkeit P[ . |B] ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum (Ω, F) 2.60.
Für dieses Wahrscheinlichkeitsmaß P[ . |B] sind folgende Eigenschaften zu erwarten:
(i) P[B|B] = 1 2.61.
(ii) Es gibt eine Konstante cB > 0, so daß P[A|B] = cB P[A], falls A ∈ F,
A ⊆ B 2.62.
Aus (i) und (ii) für A = B folgt 1 = P[B|B] = cB P[B], d.h., cB = 1/P[B].
Damit ergibt sich
(2.9)
2.63
P[A ∩ B|B] + P[A ∩ (Ω \ B)|B]
{z
}
|
= 0 2.64
= cB P[A ∩ B]
P[A|B] =
=
P[A ∩ B]
,
P[B]
A ∈ F.
Häufig müssen für reellwertige Zufallsvariablen X auf einem Wahrscheinlichkeitsraum (Ω, F, P) Erwartungswerte bestimmt werden, bei denen das Vorliegen
Konvergenz, vgl. Satz 3.18(3), oder der Satz von der dominierten Konvergenz, vgl. Satz 3.24,
verwendet werden.
2.55P[A|B] ist die Wahrscheinlichkeit des Ereignisses A, nachdem bekannt wird, daß das
Ereignis B schon eingetreten ist.
2.56X modelliert das Ergebnis des ersten Wurfs und Z die Anzahl aller Würfe von
1
Zahl“ , 1.
”
2.57Vgl. Beispiel 2.5.
2.58Wenn schon der erste Wurf Kopf“ ergibt, kann die Anzahl aller Würfe von Zahl“ nicht
”
”
N sein.
2.59Die Notwendigkeit dieser Bedingung ergibt sich aus der letztendlich P[ . |B] charakterisierenden Beziehung (2.9).
2.60Insbesondere erfüllt P[ . |B] die Beziehungen (2.2).
2.61Wenn B eingetreten ist, ist B sicher.
2.62Mit der Beobachtung, daß B eingetreten ist, sind keine weiteren Erkenntnisse über tiefergehende Details, d.h., Ereignisse A ⊆ B, verbunden. Für A, A′ ∈ F mit A, A′ ⊆ B sollte somit
das Verhältnis der Wahrscheinlichkeiten vor und nach dem Gewinn des Wissens um das Eintreten
von B gleich sein, d.h.,
P[A]
P[A|B]
=
,
P[A′ ]
P[A′ |B]
A, A′ ∈ F, A, A′ ⊆ B.
Diese Relation ist gleichbedeutend mit (ii), wobei cB = P[A′ |B]/P[A′ ] für ein beliebiges, fest
gewähltes A′ ⊆ B mit P[A′ ] > 0.
.
2.63Da A = (A ∩ B) ∪
(A ∩ (Ω \ B)) und weil P[ . |B] die Bedingung (2.2b) erfüllt.
2.64
Wegen (i) ist die gesamte Masse“ des Wahrscheinlichkeitsmaßes P[ . |B] auf B konzen”
triert, d.h., P[C|B] = 0, falls C ⊆ Ω \ B.
22. Juli 2014
16
zusätzlicher Informationen zu berücksichtigen ist. Wenn diese Informationen sich
auf Ereignisse in einer Teil-σ-Algebra G ⊆ F beziehen, ist der bedingte Erwartungswert E[X|G] zu berechnen. E[X|G] ist eine reellwertige Zufallsvariable auf dem
meßbaren Raum (Ω, G) 2.65. Der normale (unbedingte) Erwartungswert E[X] kann
in diesem Zusammenhang als ein bedingter Erwartungswert E[X|{∅, Ω}] bzgl. der
trivialen σ-Algebra {∅, Ω} interpretiert werden 2.66.
2.5. Stochastische Prozesse. Sei T eine Menge, (Ω, F, P) ein Wahrscheinlichkeitsraum und (Ω′ , F′ ) ein meßbarer Raum. Für alle t ∈ T sei Xt eine (Ω′ , F′ )wertige Zufallsvariable auf (Ω, F, P). Man bezeichnet dann die Familie X = (Xt )t∈T
dieser Zufallsvariablen auch als stochastischen Prozeß oder Zufallsprozeß 2.67.
Beispiel 2.9. Seien Xi , i = 1, . . . , N , die in Beispiel 2.4 eingeführten Zufallsvariablen zur Modellierung der Ergebnisse von N unabhängigen Würfen einer fairen
Münze. Offensichtlich sind dann die Zufallsvariablen Yi = 1 − 2Xi , i = 1, . . . , N ,
unabhängige, {−1, 1}-wertige Zufallsvariablen mit der Verteilung P[Yi = −1] =
P[Yi = 1] = 1/2, i = 1, . . . , N 2.68.
Die symmetrische Irrfahrt ζ = (ζk )k=0,...,N , ist nun definiert durch 2.69
ζk =
k
X
Yi ,
k = 0, . . . , N.
i=1
ζ startet zum Zeitpunkt 0 im Ursprung und springt später in den Zeitpunkten
1, 2, . . . , N jeweils mit Wahrscheinlichkeit 1/2 um 1 weiter nach rechts oder links.
Damit ist ζ ein sehr einfaches Modell für die Bewegung eines diffundierenden Teilchens in einer Dimension 2.70.
Die in Beispiel 2.9 vorgestellte symmetrische Irrfahrt ist ein einfaches Beispiel
eines Markovprozesses 2.71. Ein derartiger Prozeß 2.72 X = (Xt )0≤t<∞ zeichnet sich
dadurch aus, daß in jedem Zeitpunkt s ≥ 0 die zukünftige Entwicklung, d.h., Xu ,
2.65Die Forderung, daß der bedingte Erwartungswert E[X|G] nur von den Ereignissen in G
bestimmt ist, spiegelt sich in der Bedingung, daß E[X|G] eine meßbare Funktion auf (Ω, G) ist.
Allgemein zeichnet sich E[X|G] durch eine Projektionseigenschaft aus. Genauer, für eine reellwertige Zufallsvariable X mit E[|X|] < ∞ ist E[X|G] die f.s. eindeutig bestimmte meßbare,
(R, B(R))-wertige Funktion auf dem meßbaren Raum (Ω, G) mit
(∗)
E[XY ] = E E[X|G]Y , Y : (Ω, G) → (R, B(R)), meßbar, beschränkt.
E[X|G] ist damit die Projektion der auf (Ω, F, P) definierten Zufallsvariable X auf den Raum
”
der auf (Ω, G, P) definierten Zufallsvariablen“. Eine detailliertere Einführung von bedingten Erwartungswerten findet sich in Abschnitt 3.8.
2.66Da alle meßbaren Funktionen auf dem meßbaren Raum (Ω, {∅, Ω}) f.s. konstant sind, ist
auch E[X|{∅, Ω}] eine Konstante. Betrachtet man nun (∗) in Fußnote 2.65 mit G = {∅, Ω} und der
{∅, Ω}-meßbaren Zufallsvariablen Y ≡ 1, so folgt
E[X|{∅, Ω}] = E[E[X|{∅, Ω}]] = E[E[X|{∅, Ω}] · 1] = E[X · 1] = E[X], f.s.
2.67Wenn mit X eine zufällige zeitliche Dynamik modelliert werden soll, ist T eine Teilmenge
von R, z.B. [0, ∞), N oder [0, T ].
2.68Man beachte, daß Y = −1, bzw. Y = 1, genau dann, wenn X = 1, bzw. X = 0.
i
i
i
i
2.69Üblicherweise bezeichnet man als symmetrische Irrfahrt die offensichtliche Erweiterung
des hier definierten Prozesses ζ = (ζk )k=0,...,N zu einem stochastischen Prozeß ζ ′ = (ζk′ )k∈N0 mit
N0 als Menge der Zeitpunkte, vgl. dazu z.B. Beispiel 4.22 und Satz 4.23.
2.70Ein realistischeres Modell für ein diffundierendes Teilchen ist die aus ζ, bzw. aus dem
in Fußnote 2.69 eingeführten Prozeß ζ ′ durch Reskalierung hervorgehende Brownsche Bewegung,
vgl. Abschnitt 4.5.
2.71
Vgl. Abschnitte 4.3 und 6.1.
2.72
Zur Diskussion einer die symmetrische Irrfahrt etwas verallgemeinernden Situation sei
hier angenommen, daß die Zeit kontinuierlich ist.
22. Juli 2014
17
u > s, bei gegebenem gegenwärtigen Zustand Xs nicht von der Vergangenheit Xu ,
u < s, abhängt 2.73.
Es gibt viele weitere Klassen spezieller stochastischer Prozesse, beispielsweise Martingale 2.74 und stationäre Prozesse. Ein solcher stationärer Prozeß X =
(Xt )0≤t<∞ zeichnet sich durch die Invarianz seiner Verteilung unter Zeitverschiebungen aus, d.h., 2.75
P(Xt1 ,...,Xtn ) = P(Xt1 +t ,...,Xtn +t ) ,
0 ≤ t1 < · · · < tn < ∞, t > 0, n ∈ N.
2.6. Wahrscheinlichkeitsräume und Zufallsvariablen in der Modellbildung. In Anwendungen der Wahrscheinlichkeitstheorie bei der Bildung von Modellen für vom Zufall beeinflußte Phänomene dient typischerweise ein allgemeiner
Wahrscheinlichkeitsraum (Ω, F, P) als ein Zufallsgenerator“, während Zufallsvaria”
blen Messungen oder Beobachtungen mit zufälligem Ausgang modellieren. (Ω, F, P)
muß so groß“ sein, daß alle benötigten Zufallsvariablen mit den von ihnen erwar”
teten Eigenschaften konstruiert werden können. Insbesondere muß die gemeinsame
Verteilung dieser Zufallsvariablen 2.76 den Wünschen und Vorstellungen des modellbildenden Mathematikers gerecht werden.
Beim Entwurf eines mathematischen Modells für einen physikalischen oder technischen Vorgang ist nur die realistische Nachbildung“ der möglichen Beobachtungs”
ergebnisse wesentlich. Dies bedeutet, daß der zugrundeliegende Wahrscheinlichkeitsraum (Ω, F, P) in den Hintergrund tritt, d.h., sein detaillierter Aufbau irrelevant
bleibt, solange nur die für die Modellbildung benutzten Zufallsvariablen die richtige
Verteilung besitzen 2.77.
Beispiel 2.10. Zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen
Münze könnte anstelle des in Beispiel 2.1 vorgestellten Wahrscheinlichkeitsraums
(Ω, F, P) mit
Ω = {0, 1}N ,
F = Pot(Ω),
P[{ω}] = 2−N , ω ∈ Ω,
2.73In einer präzisen Definition der Markoveigenschaft kann die Filtration (F X )
t 0≤t<∞ verwendet werden, vgl. Fußnote 2.13, Beispiel 3.3 und Abschnitt 3.9. Für 0 ≤ t < ∞ ist hier
FtX = σ(Xu , 0 ≤ u ≤ t) die kleinste σ-Algebra, bzgl. der alle Zufallsvariablen Xu , 0 ≤ u ≤ t,
meßbar sind, vgl. Abschnitt 3.1.4. Außerdem sei für 0 ≤ t < ∞ mit σ(Xt ) die kleinste σ-Algebra,
bzgl. der die Zufallsvariable Xt meßbar ist, bezeichnet.
Nun kann für einen reellwertigen stochastischen Prozeß die Markoveigenschaft in der Form
(∗)
E[f (Xt+h )|FtX ] = E[f (Xt+h )|σ(Xt )], f.s.,
0 ≤ t < ∞, h > 0, f ∈ Cb (R),
festgehalten werden. In (∗) werden bedingte Erwartungswerte, vgl. Fußnote 2.65 und Abschnitt 3.8,
verwendet.
2.74
Vgl. Abschnitte 4.4 und 5.3. Ein reellwertiger stochastischer Prozeß X = (Xt )0≤t<∞ mit
E[|Xt |] < ∞, 0 ≤ t < ∞, wird als Martingal bezeichnet, wenn
E[Xt+h |FtX ] = Xt , f.s.,
(FtX )0≤t<∞
0 ≤ t < ∞, h > 0,
wobei die Filtration
in Fußnote 2.73 beschrieben wird. Ein Martingal (Xt )0≤t<∞
zeichnet sich dadurch aus, daß für alle t ≥ 0 der unter seiner Vergangenheit FtX bedingte mittlere
”
zukünftige Zuwachs“ E[Xt+h − Xt |FtX ] = E[Xt+h |FtX ] − Xt für alle h > 0 verschwindet.
Aufgrund ihrer Nützlichkeit bei der mathematisch rigorosen Behandlung zahlreicher unterschiedlicher Probleme können Martingale als die wichtigsten stochastischen Prozesse bezeichnet
werden.
2.75Für 0 ≤ t < · · · < t < ∞ bezeichnet P
n
1
(Xt1 ,...,Xtn ) die gemeinsame Verteilung der
Zufallsvariablen Xt1 , . . . , Xtn , vgl. Abschnitt 2.2.1. Im Falle eines reellwertigen Prozesses X ist
P(Xt ,...,Xtn ) ein Wahrscheinlichkeitsmaß auf (Rn , B(Rn )).
1
2.76Vgl. Abschnitt 2.2.1.
2.77Diese Tatsache äußert sich u.a. durch die übliche Verwendung der Phrase Sei (Ω, F, P) ein
”
Wahrscheinlichkeitsraum . . . “ am Anfang vieler mathematischer Beiträge zur wahrscheinlichkeitstheoretischen Modellbildung, wobei dann in keiner Weise auf die genaue Struktur von (Ω, F, P)
eingegangen wird.
22. Juli 2014
18
e P)
e F,
e mit
ebenso (Ω,
e = {0, 1, . . . , 2N − 1},
Ω
e = Pot(Ω),
e
F
e ω}] = 2−N , ω
e
P[{e
e ∈ Ω,
2.78
ei , i = 1, . . . , N , mit
benutzt werden. Dann sind z.B. die Zufallsvariablen X
ω
e
e i = 1, . . . , N,
e
e ∈ Ω,
Xi (e
ω ) = i−1 mod 2, ω
2
2.79
unabhängig, {0, 1}-wertig mit der Verteilung
eX
ei = 0] = 1 = P[
eX
ei = 1] = P e [{1}],
PXei [{0}] = P[
Xi
2
i = 1, . . . , N,
ei das Ergebnis des i-ten Wurfs der Münze
d.h., für i = 1, . . . , N modelliert X
2.80
.
Bei Anwendungen der Wahrscheinlichkeitstheorie treten spezielle Wahrscheinlichkeitsräume meistens nur dann in Erscheinung, wenn letztendlich die Verteilungen von Zufallsvariablen untersucht werden sollen. Wenn diese beispielsweise nur
endlich viele Werte annehmen können und wenn außerdem diese Werte alle die
gleiche Wahrscheinlichkeit besitzen 2.81, kann man mit einem Laplaceschen Wahrscheinlichkeitsraum arbeiten 2.82.
2.7. Simulation von Zufallsvariablen. Typischerweise sind realitätsnahe
wahrscheinlichkeitstheoretische Modelle zufallsbeeinflußter Phänomene des menschlichen Umfeldes so kompliziert, daß exakte Berechnungen unmöglich sind. Zur
Überprüfung der Gültigkeit der Modelle und auch zur Gewinnung von Vorhersagen
wird dann oft auf deren Computersimulation zurückgegriffen 2.83.
Zur Erstellung guter Computerimplementationen wahrscheinlichkeitstheoretischer Modelle ist es offensichtlich wesentlich, daß auf eine zuverlässige Weise Zufallsvariablen mit einer vorgegebenen Verteilung simuliert werden können. Ein grundlegendes Problem ist hierbei die Simulation einer Folge unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen 2.84.
2.78Für beliebige A
e folgt P[
e∈F
e A]
e = |A|2
e −N aus der σ-Additivität (2.2b) von Wahrschein-
lichkeitsmaßen, vgl. Fußnote 2.8.
2.79⌊x⌋ = sup{n ∈ Z : n ≤ x}, x ∈ R. Damit gibt X
ei (e
ω ) die i-te Stelle in der Entwicklung
von ω
e im Dualsystem an.
2.80Wird in Beispiel 2.1 der Wahrscheinlichkeitsraum (Ω, F, P) durch (Ω,
e P)
e ersetzt, so
e F,
ei , i = 1, . . . , N , anstelle von Xi , i = 1, . . . , N , verkönnen in Beispiel 2.4 die Zufallsvariablen X
wendet werden.
2.81
Man denke z.B. an den Wurf einer fairen Münze oder eines fairen Würfels.
2.82
Gelegentlich wird in der Wahrscheinlichkeitstheorie eine spezielle Wahl eines Wahrscheinlichkeitsraums auch durch dessen Brauchbarkeit für die mathematischen Überlegungen oder die
Beweise der Resultate bestimmt. Beispielsweise eröffnet Satz 3.16 die Möglichkeit, bei der Untersuchung einer Folge in Verteilung konvergenter, reellwertiger Zufallsvariablen den zugrundeliegenden Wahrscheinlichkeitsraum zu wechseln, damit dann mit dem stärkeren Begriff der fast-sicheren
Konvergenz gearbeitet werden kann.
2.83
Zunächst kann ein mathematisches Modell dann als brauchbar betrachtet werden, wenn
Beobachtungen der realen Phänomene im Rahmen von Computersimulationen reproduziert werden können. In einem solchen Fall können nun weitere Computersimulationen benutzt werden, um
evtl. teure Experimente zu ersetzen oder auch um Vorhersagen über zukünftige Geschehnisse zu
treffen.
2.84Wie in Abschnitt 2.7.2 noch demonstriert werden wird, können aus derartigen Zufallsvariablen solche mit anderen Verteilungen mit Hilfe geeigneter Transformationen gewonnen werden.
22. Juli 2014
19
2.7.1. Erzeugung von Pseudozufallszahlen in [0, 1]. Ein erster, naheliegender
Ansatz besteht darin, ein als zufällig“ erachtetes physikalisches Phänomen 2.85 ge”
eignet zu verarbeiten 2.86. Auf diese Weise können wahre“ Zufallszahlen gewonnen
”
werden 2.87.
Eine bequemere Methode ist die Verwendung von sog. Pseudozufallszahlen.
Darunter versteht man Zahlenfolgen, die durch spezielle, i. allg. rekursive Algorithmen berechnet werden und somit völlig deterministisch sind, die jedoch aufgrund
ihrer Komplexität als zufällig erscheinen 2.88.
Beispiel 2.11. Ein bekanntes Verfahren ist die lineare Kongruenzmethode 2.89. Zu
vorgegebenen Parametern m ∈ N, a = 1, . . . , m − 1, c = 0, 1, . . . , m − 1 und einen
Startwert x0 = 0, 1, . . . , m − 1 betrachtet man zunächst die Folge xn , n ∈ N0 , mit
(2.10)
xn+1 = (axn + c) mod m,
n = 0, 1, 2, . . . ,
und bildet diese anschließend mit un = xn /m, n = 0, 1, 2, . . . , in das Intervall
[0, 1] ab. Wenn m, a, c und x0 geschickt“ gewählt werden, hat die Folge un ,
”
n = 0, 1, 2, . . . , ein Erscheinungsbild wie eine typische“ Realisierung einer Folge
”
unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen 2.90 2.91. Etliche klassische,
ältere Zufallsgeneratoren basieren auf der linearen Kongruenzmethode 2.92.
Beispiel 2.12. Der Mersenne Twister ist ein moderner Zufallsgenerator 2.93. Sei F2
der kommutative Körper der Charakteristik 2 2.94. Sei weiterhin w ∈ N hinreichend
w
groß, n ∈ N, m = 1, . . . , n − 1 und r = 1, 2, . . . , w − 1. Für y ∈ Fw
2 = {0, 1}
u
l
w
sei außerdem y = (y1 , . . . , yr , 0, . . . , 0) ∈ F2 und y = (0, . . . , 0, yr+1 , . . . , yw ) ∈
2.95
l u
w
. Wenn y, z ∈ Fw
Fw
2 , bezeichnet (y |z ) = (y1 , . . . , yr , zr+1 , . . . , zw ) ∈ F2 die
2
w⊗w
l
u
Verkettung von y und z . Letztendlich sei A ∈ F2
eine vorgegebene w × wMatrix mit Einträgen aus F2 .
2.85Man denke z.B. an thermisches Rauschen, radioaktiven Zerfall oder quantenoptische
Prozesse.
2.86In solchen Fällen spricht man von Hardware-basierten Zufallsgeneratoren. Wenn auf diese
Weise Zufallszahlen durch ein separates Gerät außerhalb eines Computers erzeugt werden, müssen
sie diesem über eine geeignete Schnittstelle zugeführt werden.
2.87Voraussetzung ist natürlich, daß das zugrundeliegende physikalische Phänomen in der
Tat zufällig“ ist, d.h. sich auf eine nichtvorhersehbare Weise verhält. Evtl. müssen die ermittelten
”
Zufallszahlen“ auch noch durch geeignete Verfahren aufbereitet werden, damit sie auch wirklich
”
unabhängige, auf [0, 1] gleichverteilte Zufallsvariablen nachbilden.
2.88
Ein zufälliges Erscheinungsbild“ einer Zahlenfolge kann mit geeigneten statistischen Tests
”
geprüft werden. Eine aktuelle Familie von Tests wurde insbesondere unter dem Namen DieHarder
von R. G. Brown (http://www.phy.duke.edu/~rgb/General/rand rate.php) entwickelt.
2.89
Vgl. z.B. [13], Abschnitt 10.2.
2.90Eine Realisierung einer Familie X , X , . . . von Zufallsvariablen, die auf einem Wahr1
2
scheinlichkeitsraum (Ω, F, P) definiert sind, ergibt sich, wenn eine Folge X1 (ω), X2 (ω), . . . für ein
festes, aber beliebiges ω ∈ Ω betrachtet wird. Für ein kleines“ A ∈ F mit P[A] = 1 kann man
”
{(X1 (ω), X2 (ω), . . . ) : ω ∈ A} als eine Menge typischer Realisierungen“ betrachten.
”
2.91
Bei einer unglücklichen Wahl der Parameter erhält man u.U. eine sehr regelmäßige Folge
x0 , x1 , x2 , . . . . Beispielsweise ergibt sich 5, 0, 5, 0, . . . für a = c = x0 = 5, m = 10. Allgemein
besitzt eine durch (2.10) bestimmte Zahlenfolge immer eine endliche Periode, die höchstens m ist.
2.92
Oft hat sich allerdings im Lauf der Zeit herausgestellt, daß jene oft benutzten Zufallsgeneratoren, deren Perioden zwischen 230 und 248 liegen, eine nur geringe Qualität besitzen.
2.93
Eine detaillierte Beschreibung findet sich in [23]. Die Periode einer gut bewährten Variante ist mit 219937 − 1 eine extrem große Mersennesche Primzahl. Durch die Multiplikation
mit der Matrix A in der Rekursionsformel (2.11) werden die Bits“ der erzeugten Zahlenfolgen
”
durcheinandergewirbelt“, was den Namensbestandteil twister“(≃ Wirbelwind“) erklärt.
”
2.94D.h., F = {0, 1} mit der Addition 0 ⊕ 0 = 0,” 0 ⊕ 1 = 1 ”
⊕ 0 = 1, 1 ⊕ 1 = 0 und der
2
Multiplikation 0 ⊙ 0 = 0, 0 ⊙ 1 = 1 ⊙ 0 = 0, 1 ⊙ 1 = 1.
2.95y l (y u ) faßt die unteren (oberen) Bits“ von y zusammen.
”
22. Juli 2014
20
Zunächst wird nach der Vorgabe von Startwerten x0 , x1 , . . . , xn−1 ∈ Fw
2 eine
2.96
Folge x0 , x1 , · · · ∈ Fw
2 rekursiv gemäß
(2.11)
xk+n := xk+m ⊕w (xlk |xuk+1 ) ⊙w A,
k = 0, 1, 2, . . . ,
P
2.97
−q
konstruiert. Der Folge x0 , x1 , . . . in Fw
uk = w
,
2 kann nun durch
q=1 xk;q 2
k = 0, 1, 2, . . . , eine Folge uk , k = 0, 1, 2, . . . , in [0, 1] zugeordnet werden, die bei einer vernünftigen“ Wahl von w, n, m, r, A und x0 , x1 , . . . , xn−1 wie eine typische“
”
”
Realisierung einer Folge unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen aussieht.
2.7.2. Simulation beliebiger Folgen von reellwertigen, i.i.d. Zufallsvariablen.
Aus Zufallsvariablen, die gemäß der Gleichverteilung auf [0, 1] verteilt sind, können
mit geeigneten Transformationen reellwertige Zufallsvariablen mit beliebigen anderen Verteilungen gewonnen werden.
Beispiel 2.13. Zur Beschreibung der Inversionsmethode sei angenommen, daß
F : R → (0, 1) eine stetige, streng monoton steigende Verteilungsfunktion ist 2.98.
Insbesondere besitzt F damit eine ebenfalls stetige und streng monoton steigende Umkehrfunktion F −1 : (0, 1) → R. Wenn nun U eine in (0, 1) gleichverteilte
Zufallsvariable ist, so gilt
P[F −1 (U ) ≤ y] = P[U ≤ F (y)] = F (y),
2.99
y ∈ R.
Damit ist der reellwertigen Zufallsvariablen
X = F −1 (U ) die vorgegebene Verteilungsfunktion FX = F zugeordnet.
Sei z.B. F die Verteilungsfunktion der Exponentialverteilung mit Parameter
1, d.h., F (x) = (1 − exp(−x))I[0,∞) (x), x ∈ R. F ist stetig und nach der Einschränkung auf [0, ∞) auch streng monoton wachsend mit Wertebereich [0, 1). Diese Einschränkung von F besitzt die Umkehrfunktion F −1 : [0, 1) → [0, ∞) mit
F −1 (x) = − log(1 − x), x ∈ [0, 1). Somit ist die Zufallsvariable − log(1 − U ) exponentiell verteilt mit Parameter 1, wenn U auf (0, 1) gleichverteilt ist 2.100.
Wenn allgemeiner U1 , U2 , . . . unabhängig, in (0, 1) gleichverteilt sind, so sind
die Zufallsvariablen F −1 (U1 ), F −1 (U2 ), . . . i.i.d. mit Verteilungsfunktion F . Insbesondere ist durch F −1 (x1 ), F −1 (x2 ), . . . eine Simulation einer Folge von i.i.d.
Zufallsvariablen mit der Verteilungsfunktion F gegeben, falls x1 , x2 , . . . eine Folge
von unabhängigen, in [0, 1] gleichverteilten“ Zufallszahlen ist 2.101.
”
Auf den üblichen Computern sind Zufallsgeneratoren meistens verfügbar, evtl.
als Teil des Betriebssystems oder im Rahmen von Softwarepaketen wie Maple,
Mathematica oder R. Mit solchen Zufallsgeneratoren werden Folgen von Pseudozufallszahlen in [0, 1] erzeugt, die anschließend für eine Verteilungsfunktion F in
2.96⊕w , bzw. ⊙w , bezeichnet die Vektoraddition in Fw , bzw. die Multiplikation mit einer
2
Matrix in F2w⊗w .
2.97x = (x
k
k;1 , . . . , xk;w ), k = 0, 1, 2, . . . . Die Koordinaten der Vektoren xk , k ∈ N, werden
als Koeffizienten für die Darstellung der Zahlen uk , k ∈ N, im Dualsystem benutzt.
2.98D.h., F habe die in Fußnote 2.32 aufgeführten Eigenschaften und sei darüberhinaus streng
monoton und stetig. In [13], Abschnitt 10.2, werden die Überlegungen dieses Beispiels auf allgemeine, nicht unbedingt stetige oder streng monotone Verteilungsfunktionen verallgemeinert.
2.99Die Funktion X = F −1 ◦ U ist als Verknüpfung einer stetigen Funktion F −1 mit einer
meßbaren Funktion U ebenfalls meßbar und somit eine Zufallsvariable, falls auf dem Bildraum R
von F −1 die Borelsche σ-Algebra B(R) benutzt wird, vgl. Beispiele 3.5 und 3.6.
2.100Mit einer Zufallsvariablen U ist offensichtlich auch die Zufallsvariable 1 − U in (0, 1)
gleichverteilt. Somit ist − log(U ) exponentiell verteilt mit Parameter 1.
2.101Beispielsweise können x , x , . . . Pseudozufallszahlen sein, wie sie in den Beispielen 2.11
1
2
und 2.12 beschrieben werden.
22. Juli 2014
21
eine Folge unabhängiger“, gemäß F verteilter Zufallszahlen transformiert werden
”
können 2.102.
Für Berechnungen, bei denen hohe Ansprüche an die Qualität 2.103 der Zufallsgeneratoren gestellt werden, können diese auch aus wissenschaftlichen SoftwareBibliotheken, wie z.B. der GNU Scientific Library (GSL) entnommen werden 2.104.
2.7.3. Quasizufallszahlen. Die bisher angesprochenen Pseudozufallszahlen, die
der Nachbildung“ von Zufallsvariablen dienen, sollten nicht mit den sog. Qua”
sizufallszahlen verwechselt werden 2.105. Hinter der Konstruktion einer Folge von
Quasizufallszahlen x1 , x2 , . . . , z.B. in [0, 1], steht die Absicht, die Diskrepanz
|{xi : i = 1, . . . , N, xi ∈ [0, u)}|
∗
− u, N ∈ N,
DN
(x1 , . . . , xN ) := sup N
u∈[0,1]
2.106
zu minimieren
, d.h., für derartige Folgen sollte der Unterschied zwischen der
relativen Anzahl von Folgengliedern, die in ein Intervall [a, b) ∈ [0, 1] fallen, und
der Länge von [a, b) gleichmäßig in a, b ∈ [0, 1] möglichst klein werden. Wenn Quasizufallszahlen im Rahmen von Quasi-Monte-Carlo-Methoden auf die gleiche Weise
verwendet werden wie Pseudozufallszahlen in Monte-Carlo-Methoden, können in
manchen Fällen wesentlich bessere Resultate erzielt werden 2.107.
Pseudozufallszahlen und Quasizufallszahlen unterscheiden sich gravierend. Einerseits ist die Diskrepanz von wahren“ Zufallszahlen oder von Pseudozufallszahlen
”
wesentlich größer als die von Quasizufallszahlen 2.108. Andererseits besitzen Quasizufallszahlen nicht die gleichen statistischen Eigenschaften wie wahre“ Zufallszahlen
”
oder Pseudozufallszahlen 2.109.
2.102Neben der in Beispiel 2.13 beschriebenen Inversionsmethode stehen zu diesem Zweck in
den gängigen Softwarepaketen üblicherweise noch andere Verfahren zur Verfügung.
2.103Insbesondere müssen evtl. die statistischen Eigenschaften wahrer “ Zufallszahlen gut
”
reproduziert werden. Wenn weiterhin viele Zufallszahlen benötigt werden, sollten diese schnell zur
Verfügung gestellt werden.
2.104Vgl. http://www.gnu.org/software/gsl/. Die GSL ist für Linux und in inoffiziellen
Versionen auch für etliche andere Betriebssysteme verfügbar. Neben verschiedenen auf der linearen Kongruenzmethode, vgl. Beispiel 2.11, basierenden Zufallsgeneratoren ist u.a. auch der
Mersenne Twister, vgl. Beispiel 2.12, implementiert. Weiterhin gibt es Befehle zur Simulation von
unabhängigen Zufallsvariablen mit einer vorgegebenen Verteilung wie der Normalverteilung, der
Exponentialverteilung, der Multinomialverteilung, der χ2 -Verteilung, . . . .
2.105
Vgl. [24].
2.106Folgen von Quasizufallszahlen werden daher auch Folgen mit niedriger Diskrepanz
genannt.
2.107Für die besten Folgen von Quasizufallszahlen wie z.B. Halton- oder Sobol-Folgen ist
∗ (x , . . . , x ) ≤ C log(N )/N , N ∈ N, für eine von der jew. Folge abhängige Konstante
DN
1
N
√
∗ (X , . . . , X ) ≃ 1/ N ,
C > 0. Aufgrund des Zentralen Grenzwertsatzes ist im Vergleich dazu DN
1
N
N → ∞, wenn Xn , n ∈ N, eine Folge von unabhängigen, in [0, 1] gleichverteilten Zufallsvariablen
ist. Bei der Monte-Carlo-Integration einer meßbaren, beschränkten Funktion h : [0, 1] → R, d.h.,
R
P
der Approximation von 01 dx h(x) durch (1/N ) N
k=1 h(Xk ), ergibt sich folglich ein Fehler der
√
Größenordnung 1/ N . Wenn hingegen eine der optimalen“ Folgen x1 , x2 , . . . von Quasizufalls”
P
zahlen verwendet wird, d.h., wenn bei der Quasi-Monte-Carlo-Integration (1/N ) N
k=1 h(xk ) als
R1
Approximation von 0 dx h(x) benutzt wird, ist der Fehler nur noch von der Größenordnung
log(N )/N .
2.108
Vgl. Fußnote 2.107. Dort ist Diskrepanz von hochwertigen Folgen von Quasizufallszahlen,
bzw. von unabhängigen, in [0, 1] gleichverteilten Zufallsvariablen angegeben.
2.109
Beispielsweise versagen Quasizufallszahlen bei Tests wie der in Fußnote 2.88 erwähnten
DieHarder-Testfamilie.
22. Juli 2014
KAPITEL 2
Maßtheoretische Grundlagen und einige Themen
der Wahrscheinlichkeitstheorie
3. Beiträge aus der Maßtheorie zur Lösung technischer Probleme in
der Wahrscheinlichkeitstheorie
Die Maßtheorie stellt wesentliche Grundlagen zur mathematisch rigorosen Behandlung wahrscheinlichkeitstheoretischer Probleme zur Verfügung. In diesem Abschnitt 3 wird ein Überblick über einige der in diesem Zusammenhang wichtigsten
Begriffsbildungen und Resultate gegeben.
3.1. Konstruktion von σ-Algebren. Wie das folgende Beispiel 3.1 demonstriert, ist im allgemeinen bei sehr großen Stichprobenräumen Ω die Potenzmenge
Pot(Ω) als σ-Algebra für wahrscheinlichkeitstheoretische Überlegungen ungeeignet.
Beispiel 3.1. Analog zu Beispiel 2.1 kann zur Modellierung des ∞-fachen, unabhängigen Wurfs einer fairen Münze der Stichprobenraum Ω = {0, 1}N = {ω =
(ωi )i∈N : ωi ∈ {0, 1}, i ∈ N} 3.1 verwendet werden 3.2. Auf Ω sei eine σ-Algebra F
von Ereignissen gegeben 3.3. Wegen der Fairness der Münze sollte ein vernünftiges
Wahrscheinlichkeitsmaß P auf (Ω, F) die Invarianzeigenschaft
(3.1a)
P[A] = P[Tn A],
A ∈ F, n ∈ N,
wobei
(3.1b)
Tn A = {Tn ω : ω ∈ A},
A ∈ F, n ∈ N,
mit
(3.1c)
Tn ω = (ω1 , . . . , ωn−1 , 1 − ωn , ωn+1 , . . . )
3.4
,
ω ∈ Ω, n ∈ N,
3.5
besitzen. Ein Satz von Vitali (1905) besagt, daß auf (Ω, Pot(Ω)) ein Wahrscheinlichkeitsmaß P mit den Eigenschaften (2.2) und (3.1) nicht existieren kann.
3.1.1. Allgemeine Vorgehensweise. Sei Ω ein gegebener Stichprobenraum und
sei F∗ eine Familie von Ereignissen, die in einer speziellen Anwendungssituation
wesentlich oder interessant erscheinen 3.6. Es gibt eine nichtleere Menge FF∗ von
3.1Ω ist die Menge aller {0, 1}-wertigen Folgen.
3.2
Das hier vorgestellte Modell kann auch angewandt werden in dem evtl. realistischeren
Fall einer endlichen Anzahl von unabhängigen Würfen einer fairen Münze, wobei allerdings die
genaue Anzahl der Würfe a priori nicht feststeht, sondern vom zufälligen Verlauf der Wurffolge
abhängt. Ein mögliches zu behandelndes Problem wäre die Bestimmung der Verteilung des ersten
Zeitpunkts, an dem zum zehnten Mal drei mal hintereinander Kopf geworfen worden ist.
3.3Es folgen nun Überlegungen zur Wahl von F.
3.4T ω ist eine Wurfsequenz, bei der im Vergleich zu ω beim n-ten Wurf das Ergebnis von 0
n
nach 1, bzw. von 1 nach 0 geändert ist.
3.5
Vgl. [10], Satz (1.5). In Anhang A.3.1 findet sich ein Beweis.
3.6Im Rahmen von Beispiel 3.1 könnte F die Menge jener Ereignisse sein, die durch endlich
∗
viele Würfe der Münze bestimmt sind, und damit die Gestalt {ω ∈ Ω : ω1 ∈ B1 , . . . , ωn ∈ Bn } ⊆
Ω = {0, 1}N haben, wobei Bk ⊆ {0, 1}, k = 1, . . . , n, n ∈ N.
23
24
σ-Algebren, die F∗ enthalten
(3.2)
3.7
, d.h., F ⊇ F∗ für alle F ∈ FF∗ . Nun ist
\
F
σ(F∗ ) =
F∈FF∗
ebenfalls eine σ-Algebra 3.8, und zwar die kleinste“ in FF∗ . Sie wird als die von F∗
”
erzeugte σ-Algebra bezeichnet und ist die minimale Erweiterung von F∗ zu einer
σ-Algebra.
Es werden nun drei wichtige Spezialfälle beschrieben, in denen das hier beschriebene allgemeine Verfahren zur Konstruktion einer σ-Algebra konkretisiert wird.
3.1.2. Produkte meßbarer Räume. 3.9 Sei (Ωλ , Fλ ), λQ∈ Λ, eine Familie meßbarer Räume 3.10. Endlich-dimensionale Rechtecke in 3.11 λ∈Λ Ωλ sind Mengen der
Gestalt 3.12
Y
ω = (ωλ )λ∈Λ ∈
Ωλ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm ,
λ∈Λ
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N.
Sei R die Menge aller dieser endlich-dimensionalen
Rechtecke. Die nun gemäß (3.2)
N
F
wird
als
Produkt-σ-Algebra bezeichnet.
konstruierte σ-Algebra σ(R) =:
Nλ∈Λ λ Q
nennt
man
das Produkt der meßbaren
F
Ω
,
Den meßbaren Raum
λ∈Λ λ
λ∈Λ λ
Räume (Ωλ , Fλ ), λ ∈ Λ. Wenn Ωλ = Ω, Fλ = F für alle λ ∈ Λ, verwendet man auch
die Notation (ΩΛ , F⊗Λ ) für diesen Produktraum 3.13.
3.1.3. Borelsche σ-Algebren. Sei (Ω, O) ein topologischer Raum 3.14. Die gemäß
(3.2) konstruierte σ-Algebra σ(O) =: B(Ω) heißt Borelsche σ-Algebra in Ω.
Sei O∗ ⊆ O, so daß jedes O ∈ O eine höchstens abzählbare Vereinigung von
Mengen in O∗ ist. Dann gilt B(Ω) = σ(O∗ ) 3.15.
3.7Beispielsweise ist Pot(Ω) ∈ F .
F∗
3.8Der Durchschnitt von beliebig vielen σ-Algebren erfüllt (2.1), ist also ebenfalls eine σ-
Algebra. Hingegen ist eine Vereinigung zweier σ-Algebren i. allg. keine σ-Algebra.
3.9Vgl. Fußnote 2.34.
3.10Λ ist eine beliebige, nichtleere Menge.
3.11Q
λ∈Λ Ωλ = {ω = (ωλ )λ∈Λ : ωλ ∈ Ωλ , λ ∈ Λ} ist das kartesische Produkt der Mengen
Ωλ , λ ∈ Λ.
3.12Vgl. Fußnote 3.6. Dort wird der Fall Ω = {0, 1}, F = Pot({0, 1}), λ ∈ Λ = N, betrachtet.
λ
λ
3.13Produkte meßbarer Räume wie z.B. ((Rd )[0,∞) , (B(Rd ))⊗[0,∞) ) finden bei der Untersuchung stochastischer Prozesse Verwendung, wenn (noch) keine Kenntnisse über Regularitätseigenschaften ihrer Pfade vorliegen. Derartige Produkträume sind Räume in denen alle Arten
von Pfaden ω = (ωt )t≥0 = (ω(t))t≥0 enthalten sind. Für detaillierte Untersuchungen sind sie oft
ungeeignet. Da beispielsweise die Menge {ω ∈ (Rd )[0,∞) : ω(t) = 0 für ein t ≥ 0} durch Eigenschaften in überabzählbar vielen Zeitpunkten beschrieben wird, gilt {ω ∈ (Rd )[0,∞) : ω(t) =
0 für ein t ≥ 0} ∈
/ (B(Rd ))⊗[0,∞) . Damit z.B. die Menge stetiger Pfade mit einer Nullstelle meßbar
wird, muß in (Rd )[0,∞) ein Teilraum mit einer geeigneten σ-Algebra als Pfadraum gewählt werden,
vgl. dazu Beispiel 3.2 und auch Abschnitt 4.5.2 zur Konstruktion der Brownschen Bewegung.
3.14 Ein topologischer Raum besteht aus einer Menge Ω und einer Topologie O auf Ω. Hierbei
ist O eine Familie von Teilmengen von Ω, die die Bedingungen
[
Oi ∈ O, i ∈ I =⇒
Oi ∈ O,
O1 , . . . , On ∈ O
=⇒
i∈I
n
\
i=1
Oi ∈ O
mit jeder beliebigen Menge I und n ∈ N erfüllt. Die Mengen O ∈ O werden offene Mengen genannt.
Ein Beispiel eines topologischen Raums ist Rd mit den üblichen offenen Mengen, die sich als
beliebige Vereinigungen von offenen Kugeln {x ∈ Rd : |x − a| < ε}, a ∈ Rd , ε > 0, ergeben.
3.15Da jede offene Menge in Rd schon als abzählbare Vereinigung offener Kugeln dargestellt
werden kann, ist insbesondere B(Rd ) die kleinste σ-Algebra, die alle offenen Kugeln in Rd umfaßt.
22. Juli 2014
25
Beispiel 3.2. Für T > 0 und d = 1, 2, . . . sei C([0, T ]; Rd ) die Menge der stetigen
Funktionen ω : [0, T ] → Rd . Mit der Metrik
(3.3)
ρ(ω, ω ′ ) = sup |ω(t) − ω ′ (t)|,
t≤T
ω, ω ′ ∈ C([0, T ]; Rd ),
wird C([0, T ]; Rd ) zu einem metrischen und damit insbesondere zu einem topologischen Raum. Daher kann in C([0, T ]; Rd) die Borelsche σ-Algebra B(C([0, T ]; Rd ))
eingeführt werden 3.16
Ein Beispiel einer Borelschen Menge in C([0, T ]; R) ist 3.17
(3.4)
{ω ∈ C([0, T ]; R) : ω(t) = 0 für ein t ∈ [0, T ]}
\
[
ω ∈ C([0, T ]; R) : ρ(ω, η) < q .
=
q∈Q,q>0 η∈PQ0 ([0,T ];R)
Hier wird mit PQ0 ([0, T ]; R) die Menge aller R-wertigen Polynome mit rationalen
Koeffizienten, die Nullstellen in [0, T ] besitzen, bezeichnet 3.18.
3.1.4. Durch Funktionen erzeugte σ-Algebren. Eine Menge Ω und einige Funktionen φ : Ω → R, φ ∈ Φ, seien gegeben. In einer Anwendung seien beispielsweise
ω ∈ Ω mögliche elementare Zustände der Welt“, die durch Funktionen φ ∈ Φ auf
”
Meßwerte“ in R abgebildet werden. Die einem Beobachter vorliegenden Meßwerte
”
3.19
seien zufällig“
.
”
Bei der Bildung eines mathematischen Modells sollte daher Ω mit der Struktur eines Wahrscheinlichkeitsraums versehen werden. Insbesondere sollte eine σAlgebra F konstruiert werden, so daß φ : (Ω, F) → (R, B(R)) 3.20, φ ∈ Φ, meßbare
Funktionen sind 3.21. Dieses Ziel wird erreicht mit F = σ(F∗ ) =: σ(Φ), wobei 3.22
F∗ = A ⊆ Ω : A = φ−1 (B) = {ω ∈ Ω : φ(ω) ∈ B}, φ ∈ Φ, B ∈ B(R) .
σ(Φ) ist die kleinste σ-Algebra, so daß alle φ : (Ω, F) → (R, B(R)), φ ∈ Φ, meßbar
sind. Man nennt σ(Φ) auch die durch die Abbildungen φ ∈ Φ erzeugte σ-Algebra.
Beispiel 3.3. Sei X = (Xt )0≤t<∞ ein auf (Ω, F, P) definierter reellwertiger stochastischer Prozeß. Zu jedem Zeitpunkt t ≥ 0 kennzeichnen die Zufallsvariablen
Xu , 0 ≤ u ≤ t, die Vergangenheit des Prozesses X. Die Gesamtheit der durch
die Vergangenheit von X bestimmten Ereignisse kann dann durch die σ-Algebra
FtX = σ(Xu , 0 ≤ u ≤ t) beschrieben werden 3.23. Da FsX ⊆ FtX ⊆ F, 0 ≤ s ≤ t <
3.16Der meßbare Raum (C([0, T ]; Rd ), B(C([0, T ]; Rd ))) findet bei der Untersuchung Rd -
wertiger stochastischer Prozesse X = (Xt )t∈[0,T ] mit stetigen Pfaden Verwendung. Zur Konstruktion der Brownschen Bewegung wird beispielsweise in Abschnitt 4.5.2 mit dem Wienermaß ein
Wahrscheinlichkeitsmaß auf (C([0, ∞); Rd ), B(C([0, ∞); Rd ))) eingeführt. Ein Vorschlag für eine
(3.3) verallgemeinernde Metrik in jenem Raum C([0, ∞); Rd ) findet sich übrigens in Fußnote 4.342.
3.17Offensichtlich ist die Menge auf der rechten Seite von (3.4) ein abzählbarer Durchschnitt
von abzählbaren Vereinigungen von offenen Mengen in C([0, T ]; R) und daher ein Element von
B(C([0, T ]; R)).
3.18In (3.4) wird benutzt, daß in jeder Umgebung (bzgl. der Metrik ρ) von ω ′ ∈ {ω ∈
C([0, T ]; R) : ω(t) = 0 für ein t ∈ [0, T ]} ein η ∈ PQ0 ([0, T ]; R) liegt.
3.19Diese Meßwerte sind Bilder φ(ω ∗ ), φ ∈ Φ, eines dem Beobachter verborgenen Zustandes
ω ∗ ∈ Ω. Der Beobachter kann die Meßwerte somit als zufällig“ interpretieren.
3.20Hier wird davon ausgegangen, daß B(R) die ”
natürliche“ σ-Algebra in R ist.
”
3.21Wenn dann in einem weiteren Schritt der Modellbildung
auf dem meßbaren Raum (Ω, F)
ein Wahrscheinlichkeitsmaß P konstruiert worden ist, werden damit die Funktionen φ ∈ Φ zu
Zufallsvariablen.
3.22F besteht aus den Urbildern von Borelschen Mengen in R unter den Abbildungen φ ∈ Φ.
∗
3.23In Fußnote 2.73 werden die σ-Algebren F X , t ≥ 0, zur Formulierung der Markovt
eigenschaft verwendet. Außerdem wird in Fußnote 2.74 mit diesen σ-Algebren die Martingaleigenschaft formuliert.
22. Juli 2014
26
∞, ist (FtX )0≤t<∞ eine aufsteigende Familie von σ-Algebren, d.h., eine Filtration.
(FtX )0≤t<∞ wird die vom stochastischen Prozeß X erzeugte Filtration genannt. 3.24.
3.2. Meßbare Funktionen. Zur Überprüfung der Meßbarkeit einer Abbildung φ ist oft die Verifizierung von (2.3) nicht möglich, da die σ-Algebren im
Urbildraum und im Bildraum von φ zu komplexe Strukturen besitzen. Dann kann
das folgende Resultat benutzt werden.
Satz 3.4. 3.25 Seien (Ω, F) und (Ω′ , F′ ) meßbare Räume und sei φ : Ω → Ω′ eine
Abbildung. Wenn F∗′ ⊆ F′ die σ-Algebra F′ erzeugt, d.h., wenn σ(F∗′ ) = F′ 3.26,
und wenn
(3.5)
φ−1 (A′ ) = {ω ∈ Ω : φ(ω) ∈ A′ } ∈ F,
so ist φ : (Ω, F) → (Ω′ , F′ ) meßbar
A′ ∈ F∗′ ,
3.27
.
Beispiel 3.5. Seien (Ω, O) und (Ω′ , O′ ) topologische Räume und f : Ω → Ω′ eine
stetige Funktion, d.h., f −1 (O′ ) = {ω ∈ Ω : f (ω) ∈ O′ } ∈ O, O′ ∈ O′ 3.28. Daher ist
f : (Ω, B(Ω)) → (Ω′ , B(Ω′ )) meßbar 3.29.
Beispiel 3.6. Die üblichen“ Kombinationen von meßbaren Funktionen sind im
”
allgemeinen auch wieder meßbare Funktionen 3.30.
• Seien f : (Ω, F) → (Ω′ , F′ ) und g : (Ω′ , F′ ) → (Ω′′ , F′′ ) meßbar. Dann ist
g(f ) = g ◦ f : (Ω, F) → (Ω′′ , F′′ ) meßbar.
• Seien fk : (Ω, F) → (R, B(R)), k = 1, . . . , n, und g : (Rn , B(Rn )) →
(R, B(R)) meßbar. Dann ist g(f1 , . . . , fn ) : (Ω, F) → (R, B(R)) meßbar 3.31.
• Seien fk : (Ω, F) → (R, B(R)), k ∈ N, meßbar 3.32. Dann sind inf k∈N fk ,
supk∈N fk , lim inf k→∞ fk , lim supk→∞ fk meßbare Funktionen mit Werten
in (R, B(R)) 3.33 3.34.
3.24Ein Ausblick auf allgemeinere Filtrationen und ihre Anwendungen in der Wahrscheinlichkeitstheorie wird in Abschnitt 3.9 gegeben.
3.25Vgl. [7], Section 1.2, Theorem (2.1).
3.26Vgl. Abschnitt 3.1.1.
3.27Die Meßbarkeitsbedingung (2.3) muß also nur für die Mengen A′ ∈ F ′ geprüft werden.
∗
3.28Die Stetigkeit einer Funktion ist dadurch definiert, daß das Urbild einer offenen Menge
offen ist. Die Analogie zur Definition der Meßbarkeit einer Funktion, vgl. (2.3), ist offensichtlich.
3.29Dies folgt aus der Tatsache, daß B(Ω) = σ(O), B(Ω′ ) = σ(O′ ), vgl. Abschnitt 3.1.3, und
aus Satz 3.4.
3.30
Vgl. [7], Section 1.2.
3.31Aufgrund von Beispiel 3.5 sind damit insbesondere auch Funktionen wie f + · · · + f ,
n
1
min{f1 , . . . , fn }, f1 · . . . · fn , . . . meßbar.
3.32Um Probleme mit der Konvergenz von Folgen von Funktionswerten gegen ±∞ zu umgehen, wird hier mit dem meßbaren Raum (R, B(R)) gearbeitet. Hierbei ist R = R ∪ {−∞, ∞} und
B(R) = σ(B(R), {−∞}, {∞}), d.h., B(R) ist die kleinste σ-Algebra, die die Mengen {−∞}, {∞}
und alle Borelschen Mengen B(R) enthält.
3.33Die Meßbarkeit von inf
k∈N fk und supk∈N fkSfolgt aus {inf k∈N fk < a} = {ω ∈ Ω :
S
inf k∈N fk (ω) < a} = k∈N {ω ∈ Ω : fk (ω) < a} = k∈N {fk < a}, bzw. {supk∈N fk > b} =
S
k∈N {fk > b}, der Tatsache, daß σ({[−∞, a) : a ∈ (−∞, ∞)}) = σ({(b, ∞] : b ∈ (−∞, ∞)}) =
B(R), und aus Satz 3.4. Aus diesen Beobachtungen und weil lim inf k→∞ fk = supn∈N inf k≥n fk ,
bzw. lim supk→∞ fk = inf n∈N supk≥n fk , folgt auch die Meßbarkeit der (R, B(R))-wertigen Funktionen lim inf k→∞ fk und lim supk→∞ fk .
3.34
Für meßbare Funktionen fk : (Ω, F) → (R, B(R)), k ∈ N, sind beispielsweise die Funktionen IR (inf k∈N fk ) inf k∈N fk , IR (supk∈N fk ) supk∈N fk , IR (lim inf k→∞ fk ) lim inf k→∞ fk und auch
IR (lim supk→∞ fk ) lim supk→∞ fk meßbar mit Werten in (R, B(R)).
22. Juli 2014
27
Sei φ : (Ω, F) → (Ω′ , F′ ) meßbar. Um die spezielle in Ω verwendete σ-Algebra
F hervorzuheben, nennt man φ auch F-meßbar oder meßbar bzgl. F 3.35. Wenn
außerdem auf die σ-Algebra F′ im Bildraum Ω′ hingewiesen werden soll, wird die
Bezeichnung F-F′ -Meßbarkeit benutzt.
3.3. Konstruktion von Wahrscheinlichkeitsmaßen. Typischerweise werden in Anwendungen der Wahrscheinlichkeitstheorie anfangs nicht für alle Elemente
einer σ-Algebra F sondern nur für eine Teilmenge gut beschreibbarer“ Ereignisse
”
Wahrscheinlichkeiten angegeben.
Beispiel 3.7. Bei der Konstruktion von Wahrscheinlichkeitsmaßen
Q
Nauf den meßbaren Räumen (Rd , B(Rd )), d ≥ 1, bzw. auf Produkten
λ∈Λ Ωλ ,
λ∈Λ Fλ meßbarer Räume 3.36 werden beispielsweise meistens zunächst die Wahrscheinlichkeiten
von halboffenen Rechtecken 3.37
(3.6a)
(a1 , b1 ] × · · · × (ad , bd ],
−∞ ≤ ak < bk ≤ ∞, k = 1, . . . , d,
bzw. von endlich-dimensionalen Rechtecken
Y
ω = (ωλ )λ∈Λ ∈
(3.6b)
Ωλ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm ,
λ∈Λ
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N,
spezifiziert.
Bei der Erweiterung einer Zuordnung von Wahrscheinlichkeiten für Mengen wie
in (3.6a), bzw.N(3.6b), zu einem Wahrscheinlichkeitsmaß auf der gesamten σ-Algebra
B(Rd ), bzw. λ∈Λ Fλ , ist der folgende Satz 3.8 ein wesentliches Hilfsmittel 3.38.
3.3.1. Allgemeine Vorgehensweise. Familien von Mengen wie in (3.6a),
Q bzw. in
(3.6b), bilden jeweils eine Semialgebra von Teilmengen in Rd , bzw. in λ∈Λ Ωλ .
Eine nichtleere Familie S von Teilmengen einer Menge Ω heißt hierbei Semialgebra, wenn
A, B ∈ S
(3.7a)
(3.7b) A ∈ S
=⇒
Ω\A =
m
[
i=1
=⇒
A ∩ B ∈ S,
Bi für ein m ∈ N und disjunkte B1 , . . . , Bm ∈ S.
Eine auf den Elementen einer Semialgebra S definierte Zuordnung von Wahrscheinlichkeiten kann unter gewissen Bedingungen in eindeutiger Weise zu einem
Wahrscheinlichkeitsmaß auf der von S erzeugten σ-Algebra σ(S) erweitert werden.
Satz 3.8. 3.39 Sei Ω eine Menge und S eine Semialgebra von Teilmengen von Ω
mit ∅, Ω ∈ S. Sei weiterhin eine Abbildung P∗ : S → [0, 1] gegeben mit
(3.8a)
P∗ [∅] = 0,
P∗ [Ω] = 1,
3.35In manchen Anwendungen sind in Ω verschiedene σ-Algebren, die unterschiedliche Klassen von Ereignissen zusammenfassen, gegeben. Im Zusammenhang mit zufälligen Zeitentwicklungen werden beispielsweise Filtrationen benutzt, vgl. Beispiel 3.3 und Abschnitt 3.9.
3.36Vgl. Abschnitt 3.1.2.
3.37Falls b = ∞, ist (a , b ] durch (a , b ) zu ersetzen.
k
k k
k k
3.38Zunächst ist natürlich überhaupt nicht klar, ob die hier angesprochene Erweiterung
überhaupt existiert, bzw. eindeutig ist.
3.39Satz 3.8 ist eine Zusammenfassung von Theorem (1.1), d.h., dem Satz von Carathéodory,
und Theorem (1.3) in [7], Appendix A.1. Es sei bemerkt, daß analog zu Satz 3.8 der Satz von
Carathéodory die Frage diskutiert, wann eine auf einer Algebra A ⊆ Pot(Ω), vgl. Fußnote 2.7,
definierte [0, 1]-wertige Abbildung auf eindeutige Weise zu einem Wahrscheinlichkeitsmaß auf σ(A)
fortgesetzt werden kann.
22. Juli 2014
28
(3.8b)
P∗
"m
[
i=1
#
Ai =
m
X
i=1
P∗ [Ai ],
A1 , . . . , Am ,
(3.8c)
P∗
"∞
[
i=1
#
Ai ≤
m
[
i=1
∞
X
i=1
Ai ∈ S, Ai ∩Aj = ∅, i, j = 1, . . . , m, i 6= j, m ∈ N,
P∗ [Ai ],
A1 , A2 , . . . ,
∞
[
i=1
Ai ∈ S, Ai ∩ Aj = ∅, i, j = 1, 2, . . . , i 6= j.
Dann läßt sich P∗ auf eine eindeutige Weise zu einem Wahrscheinlichkeitsmaß P
auf der von S erzeugten σ-Algebra σ(S) erweitern 3.40.
In den Situationen der folgenden Abschnitte 3.3.2 - 3.3.4 kann Satz 3.8 angewandt werden, um die eindeutige Existenz eines Wahrscheinlichkeitsmaßes mit
einer vorgegebenen Einschränkung auf Mengen wie in (3.6) sicherzustellen 3.41.
3.3.2. Lebesguemaß auf (0, 1]d . Für Mengen der Gestalt (3.6a) mit 0 ≤ ak <
bk ≤ 1, k = 1, . . . , d, sei 3.42
d
Y
(bk − ak ),
λ∗ (a1 , b1 ] × · · · × (ad , bd ] =
k=1
0 ≤ ak < bk ≤ 1, k = 1, . . . , d.
λ∗ kann mit Hilfe von Satz 3.8 zu dem Lebesguemaß λ auf ((0, 1]d , B((0, 1]d )) erweitert werden 3.43.
3.3.3. Wahrscheinlichkeitsmaße
mit einer Dichte auf Rd . Es sei eine Funktion
R
d
f ∈ Cb (R ; [0, ∞)) mit Rd dx f (x) = 1 3.44 gegeben. Sei
Z bd
Z b1
(3.9)
dxd f (x1 , . . . , xd ),
dx1 . . .
P∗,f (a1 , b1 ] × · · · × (ad , bd ] =
a1
ad
− ∞ ≤ ak < bk ≤ ∞, k = 1, . . . , d.
Unter Zuhilfenahme von Satz 3.8 kann P∗,f auf eindeutige Weise zu einem Wahrscheinlichkeitsmaß auf (Rd , B(Rd )) fortgesetzt werden 3.45 3.46.
3.40Satz 3.8 ist insbesondere ein Existenzresultat. Ein schon in Abschnitt 2.2.1 angesprochenes
Eindeutigkeitsresultat, vgl. [10], Satz (1.12), besagt, daß ein Wahrscheinlichkeitsmaß P auf einem
meßbaren Raum (Ω, F) durch seine Einschränkung auf ein Erzeugendensystem A von F, d.h. eine
Menge A ⊆ F mit F = σ(A), eindeutig bestimmt ist, sobald A durchschnittsstabil ist.
3.41
In allen Fällen wird (3.8a) offensichtlich gültig sein. Für die detaillierten Berechnungen
zur Verifizierung von (3.8b) und insbesondere von (3.8c) sei auf die entsprechende Literatur, z.B.
[7], Appendices A.1, A.6 und A.7, verwiesen.
3.42Für d-dimensionale Rechtecke R in (0, 1]d gibt λ (R) das Volumen an.
∗
3.43Vgl. [7], Appendix A.1, Theorem (1.6). Für den hier vorliegenden Fall ist F (x) =
Qd
d
k=1 Fk (xk ), x = (x1 , . . . , xd ) ∈ R , mit


0, falls y < 0,
Fk (y) = y, falls 0 ≤ y < 1, k = 1, . . . , d,


1, falls y ≥ 1,
zu verwenden.
3.44Da f stetig ist, können dieses und auch die Integrale in (3.9) als Riemann-Integrale
aufgefaßt werden.
3.45Insbesondere ist dann R dx f (x) für alle A ∈ B(Rd ) wohldefiniert. Für hinreichend
A
irreguläre A ∈ B(Rd ) brauchen diese Integrale nicht als Riemann-Integrale zu existieren.
3.46
Zur Integration beliebiger meßbarer reellwertiger Funktionen f auf (Rd , B(Rd )) und damit insbesondere zur Definition von Wahrscheinlichkeitsmaßen auf Rd mit beliebigen meßbaren
Dichten f bzgl. des Lebesguemaßes auf (Rd , B(Rd )) kann nach der Einführung des Lebesguemaßes
22. Juli 2014
29
3.3.4. Produkte von Wahrscheinlichkeitsräumen. 3.47 Sei (Ωλ , Fλ , Pλ ), λ ∈ Λ,
eine Familie von Wahrscheinlichkeitsräumen. Sei weiterhin
Y
m
Y
(3.10) P∗ ω = (ωλ )λ∈Λ ∈
=
Pλk [Aλk ],
Ωλ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm
k=1
λ∈Λ
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N.
N
Mit Satz 3.8 kann die eindeutige Existenz einer Fortsetzung
λ∈Λ Pλ von P∗
N
Q
auf den meßbaren RaumN3.48 ( λ∈Λ Ωλ , λ∈Λ Fλ ) nachgewiesen werden. Dieses
Wahrscheinlichkeitsmaß
λ wird Produktmaß genannt. Der WahrscheinlichQ
N λ∈Λ P
N
keitsraum ( λ∈Λ Ωλ , λ∈Λ Fλ , λ∈Λ Pλ ) ist das Produkt der Wahrscheinlichkeitsräume (Ωλ , Fλ , Pλ ), λ ∈ Λ. Wenn Ωλ = Ω, Fλ = F, Pλ = P für alle λ ∈ Λ,
verwendet man auch die Notation (ΩΛ , F⊗Λ , P⊗Λ ) für diesen Produktraum.
Beispiel 3.9. Eine Folge unabhängiger, identisch verteilter, reellwertiger Zufallsvariablen Xn , n ∈ N, wobei PX1 = µ 3.49 sei, ist zu konstruieren 3.50. Insbesondere
sind ein Wahrscheinlichkeitsraum (Ω, F, P) und Zufallsvariablen Xn : (Ω, F, P) →
(R, B(R)), n ∈ N, anzugeben, so daß für die Folge Xn , n ∈ N, die Beziehungen
m
Y
(3.11)
µ(Akl ),
P[Xk1 ∈ Ak1 , . . . , Xkm ∈ Akm ] =
l=1
{k1 , . . . , km } ⊆ N, Ak1 , . . . , Akm ∈ B(R), m ∈ N,
gelten.
Diese Konstruktionsaufgabe wird beispielsweise gelöst durch
∞
Y
(3.12)
Ω=
R = RN ,
F=
k=1
∞
O
3.51
B(R) = B(R)⊗N ,
k=1
P=
∞
O
µ = µ⊗N ,
k=1
wie in den Abschnitten 3.3.2 und 3.3.3 eine Approximationsmethode wie z.B. in Abschnitt 3.6.2
angewandt werden.
3.47
Vgl. dazu [7], Appendices A.6 und A.7, und [3], §9. Produkte von Wahrscheinlichkeitsräumen werden auch in Fußnote 2.45 angesprochen.
3.48Dieser meßbare Raum wird in Abschnitt 3.1.2 eingeführt.
3.49P
X1 ist die Verteilung von X1 , vgl. Abschnitt 2.2.1. µ ist ein gegebenes Wahrscheinlichkeitsmaß auf (R, B(R)).
3.50
Diese Konstruktionsaufgabe ist zu lösen, weil man auch in der Wahrscheinlichkeitstheorie
sicher sein muß, daß man sich mit real existierenden“ Objekten beschäftigt. In Anwendungen,
”
in denen unabhängige, identisch verteilte, reellwertige Zufallsvariablen eine Rolle spielen, kann
man sich dann auf deren eigentliche Untersuchung konzentrieren. Derartige Anwendungen sind
beispielsweise das Gesetz der großen Zahlen oder der Zentrale Grenzwertsatz in ihren einfachsten
Varianten, vgl. Abschnitte 4.1 und 4.2.
3.51Bei der Verifizierung von (3.11) ist
P[Xk1 ∈ Ak1 , . . . , Xkm ∈ Akm ] = P[{ω ∈ Ω : Xk1 (ω) ∈ Ak1 , . . . , Xkm (ω) ∈ Akm }]
= µ⊗N {ω ∈ Ω : ωk1 ∈ Ak1 , . . . , ωkm ∈ Akm }
(nach Definition von P und Xn , n ∈ N, in (3.12))
=
m
Y
µ(Akl )
l=1
(nach Definition von µ⊗N , vgl. (3.10))
zu beachten.
22. Juli 2014
30
Xn (ω) = ωn ,
ω = (ωk )k∈N ∈ Ω, n ∈ N.
3.4. Eigenschaften von Wahrscheinlichkeitsmaßen. Zunächst werden einige Eigenschaften vorgestellt, durch die sich einzelne Wahrscheinlichkeitsmaße auszeichnen. Beziehungen zwischen verschiedenen, auf demselben meßbaren Raum definierten Wahrscheinlichkeitsmaßen werden anschließend betrachtet.
3.4.1. Charakterisierung allgemeiner Wahrscheinlichkeitsmaße. Einige elementare, aber grundlegende Eigenschaften von Wahrscheinlichkeitsmaßen folgen direkt
aus den Bedingungen (2.2).
Satz 3.10. 3.52 Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A, B, A1 , A2 , · · · ∈
F. Dann gilt:
(1) P[∅] = 0.
(2) Endliche Additivität: P[A ∪ B] = P[A] + P[B] − P[A ∩ B].
(3) Monotonie: A ⊆ B S
=⇒ P[A]
P[B].
≤P
∞
∞
(4) σ-Subadditivität: P k=1 Ak ≤ k=1 P[Ak ].
(5) σ-Stetigkeit von unten: Ak ր A 3.53 =⇒ P[Ak ] ր P[A] 3.54.
(6) σ-Stetigkeit von oben: Ak ց A 3.55 =⇒ P[Ak ] ց P[A] 3.56.
3.4.2. Beziehungen zwischen verschiedenen Wahrscheinlichkeitsmaßen auf einem meßbaren Raum. Sei ein meßbarer Raum (Ω, F) gegeben. Zwei Wahrscheinlichkeitsmaße P und Q auf (Ω, F) unterscheiden sich gravierend“, wenn sie auf
”
verschiedenen Bereichen“ von (Ω, F) konzentriert sind, d.h., wenn ein A ∈ F exi”
3.57
stiert mit P[A] = 1 = Q[Ω\ A]
. Man bezeichnet dann P und Q als (zueinander)
singulär oder orthogonal und schreibt P ⊥ Q 3.58.
Im Gegensatz dazu ist ein Wahrscheinlichkeitsmaß P zu einem gewissen Grad“
”
durch ein Wahrscheinlichkeitsmaß Q bestimmt, wenn für alle A ∈ F die Bedingung
Q[A] = 0 zu P[A] = 0 führt. In diesem Fall nennt man P absolutstetig bzgl. Q und
schreibt P ≪ Q 3.59.
3.52Vgl. [10], Satz (1.11).
3.53D.h., A ⊆ A ⊆ . . . und A = S∞ A .
1
2
k=1 k
3.54
Diese Beziehung ergibt sich beispielsweise aus
#
"∞
∞
X
[
P[Al \ Al−1 ]
(Al \ Al−1 ) =
P[A] = P
l=1
l=1
= lim
k→∞
k
X
l=1
"
P[Al \ Al−1 ] = lim P
k→∞
k
[
#
(Al \ Al−1 ) = lim P[Ak ].
l=1
k→∞
Hierbei wurde A0 = ∅ gesetzt und die σ-Additivität (2.2b) und die endliche Additivität benutzt.
Weiterhin wurde beachtet, daß die Ereignisse Al \ Al−1 , l = 1, 2, . . . , disjunkt sind.
3.55D.h., A ⊇ A ⊇ . . . und A = T∞ A .
1
2
k=1 k
3.56
Mit Hilfe der in diesem Satz genannten Eigenschaften können z.B. auch die in Fußnote 2.32
aufgeführten Eigenschaften der Verteilungsfunktion FX einer reellwertigen Zufallsvariablen X
bewiesen werden. Sei z.B. für ein x ∈ R durch xn , n ∈ N, eine monoton fallende Folge mit
lim
T∞n→∞ xn = x gegeben. Sei dann Cn = {X ≤ xn }, n ∈ N. Da C1 ⊇ C2 ⊇ . . . und Ck ց C =
k=1 Ck = {X ≤ x} folgt
lim FX (xk ) = lim P[Ck ] = P[C] = FX (x),
k→∞
k→∞
falls die σ-Setigkeit von oben von P berücksichtigt wird. Damit ist die Rechtsstetigkeit von FX in
x nachgewiesen.
3.57In diesem Fall gilt auch P[Ω \ A] = 0 = Q[A].
3.58Ein diskretes Wahrscheinlichkeitsmaß P auf (R, B(R)) und ein Wahrscheinlichkeitsmaß
Q auf (R, B(R)) mit einer Dichte f bzgl. des Lebesguemaßes sind zueinander singulär. Dies folgt
aus der Tatsache,R daß es eine abzählbare Menge A = {an : n ∈ N} ⊂ R mit P[A] = 1 gibt und
daß andererseits B dx f (x) = 0 für alle abzählbaren Mengen B ⊂ R.
3.59Jedes Wahrscheinlichkeitsmaß auf (R, B(R)) mit einer Dichte bzgl. des Lebesguemaßes ist
absolutstetig bzgl. einer Normalverteilung N(µ, σ2 ), µ ∈ R, σ2 > 0.
22. Juli 2014
31
Bei zwei gegebenen Wahrscheinlichkeitsmaßen P und Q kann obigen Definitionen folgend geprüft werden, inwieweit P sich unterschiedlich zu Q verhält, bzw.
”
in welchem Umfang P durch Q bestimmt ist“.
Satz 3.11 (Lebesguesche Zerlegung und Satz von Radon-Nikodým). 3.60 Seien P
und Q Wahrscheinlichkeitsmaße auf einem meßbaren Raum (Ω, F). Dann gibt es
ein α ∈ [0, 1] und zwei Wahrscheinlichkeitsmaße Pa und Ps , so daß
(3.12.a.∗)
Pa ≪ Q,
Ps ⊥ Q
und
3.61
P = αPa + (1 − α)Ps .
Weiterhin existiert eine meßbare, Q-f.s. eindeutige Funktion f : (Ω, F) → ([0, ∞),
B([0, ∞))) mit 3.62
Z
f (ω)Q(dω), A ∈ F.
(3.12.b.∗)
Pa [A] =
A
Die Funktion f =: dPa /dQ wird als die Radon-Nikodým-Dichte von Pa bzgl.
Q bezeichnet 3.63.
3.5. Konvergenzbegriffe. In der Wahrscheinlichkeitstheorie werden etliche
unterschiedlich starke“ Konvergenzbegriffe verwendet. In den folgenden Abschnit”
ten 3.5.1 - 3.5.4 werden die wichtigsten beschrieben 3.64.
3.5.1. Stochastische Konvergenz. 3.65 Seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Folge Xn , n ∈ N,
konvergiert stochastisch oder in Wahrscheinlichkeit gegen X, wenn 3.66
lim P[|Xn − X| > ǫ] = 0,
n→∞
ǫ > 0.
P
Man schreibt dann auch 3.67 Xn → X.
3.5.2. Fast-sichere Konvergenz. 3.68 Seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Folge Xn , n ∈ N,
konvergiert fast sicher (f.s.) gegen X, wenn 3.69
hn
oi
P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n→∞
3.60Vgl. [18], Theorem 2.10. Dort wird Satz 3.11 für σ-endliche Maße, vgl. Fußnote 2.9, vorgestellt. Üblicherweise wird der erste Teil von Satz 3.11, vgl. (3.12.a.∗), als Lebesguesche Zerlegung
bezeichnet, während der zweite Teil, vgl. (3.12.b.∗), Satz von Radon-Nikodým heißt.
3.61P ist eine konvexe Kombination von P und P .
a
s
3.62R f (ω)Q(dω) ist das Integral der meßbaren Funktion I f : (Ω, F) → (R, B(R)) bzgl. des
A
A
Wahrscheinlichkeitsmaßes Q. Derartige Integrale, bzw. Erwartungswerte wurden in Abschnitt 2.3
erstmals vorgestellt und werden in den Abschnitten 3.6.1 und 3.6.2 detaillierter diskutiert, vgl.
insbesondere auch (3.21).
3.63Seien P und Q Wahrscheinlichkeitsmaße auf (R, B(R)) mit den Dichten f und g bzgl. des
Lebesguemaßes, wobei die Dichte g von Q strikt positiv sei. Dann ist P ≪ Q und dP/dQ = f /g.
3.64
Eine ausführlichere Diskussion der verschiedenen Konvergenzbegriffe ist in [18], Chapter 4, und in [12], Section 7.2, enthalten.
3.65
Dieser Konvergenzbegriff wird z.B. beim schwachen Gesetz der großen Zahlen benutzt,
vgl. Satz 4.1.
3.66Offensichtlich läßt sich dieser Konvergenzbegriff unmittelbar auf Folgen von Zufallsvariablen mit Werten in einem metrischen Raum verallgemeinern.
3.67Diese Notation erinnert an die englische Bezeichnung Convergence in Probability“.
3.68Dieser Konvergenzbegriff tritt u.a. beim starken Gesetz”der großen Zahlen in Erscheinung,
vgl. Satz 4.5.
3.69Die Menge {ω ∈ Ω : lim
n→∞ Xn (ω) = X(ω)} = A ist meßbar, d.h., P[{ω ∈ Ω :
limn→∞ Xn (ω) = X(ω)}] ist wohldefiniert. Die Meßbarkeit von A folgt aus der Darstellung
A = {lim supn→∞ Xn − lim inf n→∞ Xn = 0} ∩ {X − lim supn→∞ Xn = 0}, Beispiel 3.6 und
{0} ∈ B(R).
Insbesondere konvergieren reellwertige Zufallsvariablen Xn , n ∈ N, f.s. (gegen irgendeine
Zufallsvariable), wenn P[lim supn→∞ Xn − lim inf n→∞ Xn = 0] = 1.
22. Juli 2014
32
f.s.
Man schreibt dann auch Xn → X, f.s., oder Xn → X
3.70
.
Beispiel 3.12. Sei (Ω, F, P) = ([0, 1), B([0, 1)), λ), wobei λ das Lebesguemaß auf
[0, 1) bezeichnet. Sei Xk (ω) = I[m2−n ,(m+1)2−n ) (ω), ω ∈ [0, 1), falls k = 2n + m mit
m = 0, 1, . . . , 2n − 1 und n ∈ N0 . Der Graph dieser Zufallsvariablen ist eine Recht”
ecksfunktion“, die mit wachsendem n immer enger“ wird und mit steigendem m
”
von 0 nach rechts“ gegen 1 wandert und dann wieder nach 0 zurückspringt. Die
”
Folge Xn , n ∈ N, konvergiert stochastisch 3.71 aber nicht f.s. 3.72 gegen 0.
Satz 3.13. 3.73 Eine f.s. gegen eine Zufallsvariable X konvergente Folge von Zufallsvariablen Xn , n ∈ N, konvergiert auch stochastisch gegen X. Umgekehrt existiert zu
einer stochastisch gegen eine Zufallsvariable X konvergierenden Folge Xn , n ∈ N,
von Zufallsvariablen eine Teilfolge Xnk , k ∈ N, die f.s. gegen X konvergiert.
3.5.3. Konvergenz in Verteilung. 3.74 Die in den Abschnitten 3.5.1 und 3.5.2
vorgestellten Konvergenzbegriffe beziehen sich auf Zufallsvariablen Xn , n ∈ N, die
alle auf dem gleichen Wahrscheinlichkeitsraum (Ω, F, P) definiert sind. Wenn die
Zufallsvariablen Xn , n ∈ N, verschiedene Wahrscheinlichkeitsräume als Definitionsbereiche besitzen, ist das Konzept der Konvergenz in Verteilung nützlich.
Für n ∈ N sei Xn eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ωn , Fn , Pn ). Die Folge Xn , n ∈ N, konvergiert in Verteilung gegen eine
Zufallsvariable X, wenn 3.75 3.76
lim E[h(Xn )] = E[h(X)],
n→∞
Man schreibt dann auch
3.77
h ∈ Cb (R).
d
Xn → X.
3.70Wie durch die beiden folgenden Resultate belegt wird, ist im Vergleich zum stochastischen
der fast-sichere Konvergenzbegriff der stärkere. Damit sind die Bezeichnungen schwaches, bzw.
starkes Gesetz der großen Zahlen gerechtfertigt, vgl. Fußnoten 3.65 und 3.68.
3.71λ[{ω ∈ [0, 1) : |X (ω)| > ǫ}] = 2−n , falls k = 2n + m mit m = 0, 1, . . . , 2n − 1 und
k
ǫ ∈ (0, 1).
3.72
Zu einem festen ω ∈ [0, 1) gibt es beliebig große k, so daß Xk (ω) = 1, nämlich k =
2n + ⌊ω2n ⌋, n ∈ N. Ebenso ist Xk (ω) = 0 für beliebig große k.
3.73
Vgl. [18], Lemma 4.2. Ein Beweis dafür, daß die stochastische Konvergenz eine Folge der
fast-sicheren Konvergenz ist, ist in Anhang A.3.2 zu finden. Der Nachweis, daß eine stochastisch
konvergente Folge von Zufallsvariablen eine fast-sicher konvergente Teilfolge besitzt, wird mit Hilfe
des Lemmas von Borel-Cantelli, vgl. Satz 5.1, in Anhang A.5.1 geführt.
3.74Dieser Konvergenzbegriff findet z.B. beim Zentralen Grenzwertsatz Verwendung, vgl.
Satz 4.10.
3.75Offensichtlich kann diese Definition unverändert auf Folgen X , n ∈ N, von Zufallsvarian
blen mit Werten in einem topologischen Raum (O, O), vgl. Fußnote 3.14, übertragen werden. Dann
werden beschränkte, stetige, reellwertige Funktionen h ∈ Cb (O) als Testfunktionen verwendet.
3.76
Der Erwartungswert E[ . ], der im Rest dieses Abschnitts 3.5 mehrmals benutzt werden wird, wurde auf einem elementaren Niveau in Abschnitt 2.3 eingeführt. Eine ausführlichere
Diskussion folgt in Abschnitt 3.6.
3.77Diese Notation erinnert an Convergence in Distribution“.
”
22. Juli 2014
33
Zur Verifizierung dieser Konvergenz kann in speziellen Fällen der folgende
Satz 3.14 verwendet werden. In diesem Resultat werden insbesondere auch charakteristische Funktionen ψY reellwertiger Zufallsvariablen Y benutzt 3.78 3.79.
Satz 3.14. 3.80 Für reellwertige Zufallsvariablen X, Xn , n ∈ N, sind die folgenden
Aussagen äquivalent:
(1)
(2)
(3)
(4)
d
Xn → X.
limn→∞ PXn [A] = PX [A], A ∈ B(R), PX [∂A] = 0 3.81
limn→∞ FXn (y) = FX (y), y ∈ R, FX stetig in y 3.83.
limn→∞ ψXn (y) = ψX (y), y ∈ R.
3.82
.
Das nächste Resultat ergänzt Satz 3.13 bei der Verdeutlichung der Zusammenhänge zwischen den verschiedenen Konvergenzbegriffen.
Satz 3.15. 3.84 Eine stochastisch gegen eine Zufallsvariable X konvergente Folge
von Zufallsvariablen Xn , n ∈ N, konvergiert auch in Verteilung gegen X.
Satz 3.13 und Satz 3.15 lassen sich zusammenfassen in
(3.13)
f.s.
Xn → X
P
Xn → X
=⇒
d
Xn → X.
=⇒
Es ist bemerkenswert, daß (3.13) umkehrbar ist, falls man bereit ist, seine mathematischen Überlegungen in einen anderen Wahrscheinlichkeitsraum zu verlegen.
Satz 3.16 (Skorohod).
3.86
blen
d
3.85
Seien Xn , n ∈ N, und X reellwertige Zufallsvaria-
e P)
e F,
e und
mit Xn → X. Dann gibt es einen Wahrscheinlichkeitsraum (Ω,
3.78Für eine reellwertige Zufallsvariable Y ist ihre charakteristische Funktion ψ : R → C
Y
durch
ψY (z) = E[exp(izY )],
z ∈ R,
definiert. Wenn die Verteilung PY der Zufallsvariable Y eine Dichte f bzgl. des Lebesguemaßes
besitzt, so hat ψY die Darstellung
ψY (z) =
Z
dx exp(izx)f (x),
R
z ∈ R.
Die charakteristische Funktion entspricht somit der Fouriertransformierten.
Ausführlicher werden charakteristische Funktionen z.B. in Anhang A.4.1 oder in [12], Sections 5.7 - 5.9, besprochen.
3.79
In Anhang A.4.2 treten charakteristische Funktionen als wesentliches Hilfsmittel beim
Beweis des Zentralen Grenzwertsatzes 4.10 in Erscheinung. Insbesondere wird die Äquivalenz
zwischen (1) und (4) in Satz 3.14 verwendet.
3.80
Vgl. [12], Section 5.9, Theorem (5), und [18], Theorem 4.25.
3.81∂A = A ∩ (R \ A) ist der Rand der Menge A. Durch P [∂A] = 0 wird gefordert, daß f.s.
X
die Zufallsvariable X keine Werte in ∂A annimmt.
3.82
Die Einschränkung PX [∂A] = 0 wird plausibel, falls z.B. X(ω) = 0 und Xn (ω) = 1/n,
d
n ∈ N, für alle ω ∈ Ω. Da limn→∞ h(1/n) = h(0), h ∈ Cb (R), ist Xn → X. Weiterhin sitzt in 0
ein Atom von PX und es gilt limn→∞ PXn [(0, a]] = 1 6= 0 = PX [(0, a]], a > 0.
3.83F ist die Verteilungsfunktion der Zufallsvariablen Y , vgl. Abschnitt 2.2.1.
Y
3.84Vgl. [18], Lemma 4.7.
3.85Vgl. [16], Chapter I, Theorem 2.7.
3.86Die Wahrscheinlichkeitsräume, auf denen diese Zufallsvariablen definiert sind, sind
zunächst irrelevant.
22. Juli 2014
34
e P)
en , n ∈ N, und X
e auf (Ω,
e F,
e mit P e = PXn ,
reellwertige Zufallsvariablen X
Xn
f.s.
e 3.88 3.89.
en → X
n ∈ N, und P e = PX 3.87, so daß X
X
3.5.4. Konvergenz im p-ten Mittel, p ∈ [1, ∞). Sei p ∈ [1, ∞). Außerdem seien
X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum
(Ω, F, P), wobei E[|Xn |p ] < ∞, n ∈ N 3.90. Die Folge Xn , n ∈ N, konvergiert im
p-ten Mittel oder in Lp 3.91 gegen X, wenn
lim E[|Xn − X|p ] = 0.
n→∞
Lp
Man schreibt dann auch Xn → X 3.92.
Insbesondere zu einer genaueren Charakterisierung der Konvergenz im p-ten
Mittel für p ∈ [1, ∞) ist der folgende Integrabilitätsbegriff hilfreich.
3.87X
en , n ∈ N, und X
e haben die gleiche Verteilung wie Xn , n ∈ N, bzw. X.
3.88In [16] wird Satz 3.16 für Zufallsvariablen mit Werten in einem vollständigen, separablen
metrischen Raum (S, m) formuliert. Diese Verallgemeinerung kann z.B. bei der Untersuchung ei(n)
ner Folge reellwertiger, stetiger stochastischer Prozesse X(n) = (Xt )t∈[0,T ] , n ∈ N, in einem
Zeitintervall [0, T ] angewandt werden, da derartige stochastische Prozesse auch als Zufallsvariablen mit Werten in dem metrischen Raum (C([0, T ]; R), ρ), der in Beispiel 3.2 vorgestellt wurde,
betrachtet werden können. Insbesondere kann die Konvergenz von X(n) in Verteilung mit einem
geeigneten Wahrscheinlichkeitsraum als fast-sicher gleichmäßige Konvergenz der Pfade“ realisiert
”
werden.
3.89
Satz 3.16 besagt keineswegs, daß sich (3.13) völlig bedenkenlos umkehren läßt. Beispielsweise sind zunächst folgende Argumente korrekt:
(A) Seien X und Xn , n ∈ N, unabhängige, identisch verteilte Zufallsvariablen auf einem
d
Wahrscheinlichkeitsraum (Ω, F, P). Offensichtlich gilt Xn → X. Nach Satz 3.16 gibt es
e P)
e F,
e und darauf definierte Zufallsvariablen
daher einen Wahrscheinlichkeitsraum (Ω,
e und X
en , n ∈ N, die alle die Verteilung PX besitzen, mit X
en f.s.
e
X
→ X.
Offensichtlich wäre aber die Folgerung,
(B) unabhängige, identisch verteilte Zufallsvariablen Xn , n ∈ N, sind f.s. konvergent, sobald
e P)
e definiert,
e F,
man sie auf einem geeigneten Wahrscheinlichkeitsraum (Ω,
e P)
e F,
e die Zuunsinnig. In (B) wird nicht berücksichtigt, daß in (A) nach dem Übergang zu (Ω,
en , n ∈ N, nur dann noch unabhängig sein können, wenn sie f.s. konstant sind.
fallsvariablen X
en , n ∈ N, auch f.s. konvergent sind,
In der Tat, wenn reellwertige, i.i.d. Zufallsvariablen X
ergeben formale Überlegungen, daß
e1 ∈ A] = P[X
ek ∈ A]
P[X
ek ∈ A, X
em ∈ A]
≃ P[X
ek ∈ A]P[X
em ∈ A]
= P[X
e1 ∈ A]2 ,
= P[X
en , n ∈ N, konvergent ist)
(für k, m hinreichend groß, da X
ek und X
em unabhängig sind)
(da X
A ⊆ R offen.
e1 ∈ A] = 0 oder 1 folgt, zeigt sich, daß X
e1 , X
e2 , . . . fast-sicher
Da für alle offenen A ⊆ R hieraus P[X
konstant sind.
3.90E[|X |p ] < ∞, n ∈ N, besagt, daß X ∈ Lp (Ω, F, P), n ∈ N, wobei Lp (Ω, F, P) der
n
n
Banachraum der p-fach integrierbaren, reellwertigen Funktionen auf (Ω, F, P) ist.
3.91Der zugrundeliegende Wahrscheinlichkeitsraum (Ω, F, P) wird als bekannt oder irrelevant
vorausgesetzt und anstelle von Lp (Ω, F, P) nur von Lp gesprochen.
3.92Im Fall dieser Konvergenz ist neben den Zufallsvariablen X , n ∈ N, auch der Limes
n
X ∈ Lp (Ω, F, P), d.h., E[|X|p ] < ∞, vgl. Fußnote 3.90.
22. Juli 2014
35
Eine Familie 3.93 Yλ , λ ∈ Λ, reellwertiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) heißt gleichgradig integrierbar, wenn 3.94 3.95
lim sup E[|Yλ |I{|Yλ |≥M} ] = 0.
M→∞ λ∈Λ
Satz 3.17. 3.96 Sei p ∈ [1, ∞). Eine stochastisch gegen eine Zufallsvariable X
konvergente Folge von reellwertigen Zufallsvariablen Xn , n ∈ N, auf einem Wahrscheinlichkeitsraum (Ω, F, P) konvergiert genau dann auch im p-ten Mittel, wenn
die Zufallsvariablen |Xn |p , n ∈ N, gleichgradig integrierbar sind, oder wenn 3.97
lim E[|Xn |p ] = E[|X|p ].
n→∞
Umgekehrt gilt:
3.98 3.99
Lp
Xn → X
(3.14)
=⇒
P
Xn → X.
Lr
Lr
′
Falls Xn → X für ein r ∈ (1, ∞), so gilt auch Xn → X für alle r′ ∈ [1, r)
3.100
.
3.93Λ ist eine beliebige Menge.
3.94Ein Beispiel einer nicht gleichgradig integrierbaren Folge von Zufallsvariablen auf dem
Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), λ) mit dem Lebesguemaß λ auf (0, 1] ist durch Xn =
nI(0,1/n] , n ∈ N, gegeben. Für festes M > 0 und n ≥ M gilt in diesem Fall E[|Xn |I{|Xn |≥M } ] =
R
n 01/n dx = 1, d.h., limM →∞ supn∈N E[|Xn |I{|Xn |≥M } ] = 1.
3.95
Aufgrund von [18], Lemma 4.10, ist die Menge der Zufallsvariablen Yλ , λ ∈ Λ, genau
dann gleichgradig integrierbar, wenn
sup E[|Yλ |] < ∞
und
λ∈Λ
lim
sup E[|Yλ |IA ] = 0,
sup
ǫ→0 {A∈F:P[A]<ǫ} λ∈Λ
d.h., wenn die Einschränkungen von Yλ , λ ∈ Λ, auf bzgl. P kleine“ Mengen A ∈ F gleichmäßig
”
kleine“ Beiträge zum Erwartungswert der jeweiligen Zufallsvariable |Yλ | liefern.
”
3.96Vgl. [18], Proposition 4.12.
3.97In dieser Bedingung wird die Vertauschbarkeit von lim
n→∞ . . . und E[ . ] gefordert.
Möglichkeiten zu ihrer Überprüfung eröffnen z.B. der Satz von der monotonen Konvergenz, vgl.
Satz 3.18(3), bzw. der Satz von der dominierten Konvergenz, vgl. Satz 3.24.
3.98Zum Beweis von (3.14) kann auf die Markov-Ungleichung, vgl. Abschnitt 3.6.3(1), mit
f (x) = |x|p , x ≥ 0, zurückgegriffen werden. Insbesondere ist P[|Xn − X| > ǫ] ≤ E[|Xn − X|p ]/ǫp ,
n ∈ N, ǫ > 0.
3.99
Aufgrund von (3.13) und (3.14) drängt sich die Frage nach einem Zusammenhang zwischen fast-sicherer Konvergenz und Konvergenz im p-ten Mittel auf. Beim Vergleich dieser beiden
Konvergenzbegriffe kann einerseits berücksichtigt werden, daß die fast-sichere Konvergenz die stochastische Konvergenz impliziert, vgl. Satz 3.13, und dann zur Prüfung der Lp -Konvergenz der
erste Teil von Satz 3.17 herangezogen werden.
Andererseits gibt es beispielsweise in dem Wahrscheinlichkeitsraum ([0, 1], B([0, 1]), λ), wobei
λ das Lebesguemaß bezeichnet, jeweils Folgen Xn , n ∈ N, von Zufallsvariablen, die
• in L1 aber nicht f.s., bzw.
• f.s. aber nicht in L1
gegen eine Zufallsvariable X konvergieren. Solche Folgen sind in Beispiel 3.12, bzw. in Fußnote 3.94
beschrieben. In beiden Fällen ist X(.) ≡ 0.
3.100Wendet man die Höldersche Ungleichung, vgl. Abschnitt 3.6.3(4), mit p = r/r ′ und
q = r/(r − r ′ ) an, so folgt
′
′
E[|Xn − X|r ] = E[|Xn − X|r · 1]
≤ E[|Xn − X|r
′
(r/r ′ ) r ′ /r
]
′
E[1r/(r−r ) ](r−r
22. Juli 2014
′
)/r
= E[|Xn − X|r ]r
′
/r
.
36
3.6. Integrationstheorie. 3.101 Zunächst werden einige grundlegende Eigenschaften des Erwartungswerts E[X] von reellwertigen Zufallsvariablen X festgehalten. Anschließend wird die Erweiterung des Erwartungswerts von diskreten auf
beliebige reellwertige Zufallsvariablen diskutiert. Weiterhin wird auf einige in vielen
Bereichen der Wahrscheinlichkeitstheorie nützliche Ungleichungen für Wahrscheinlichkeiten und Erwartungswerte hingewiesen. Letztendlich wird auf die Berechnung
von Erwartungswerten von Zufallsvariablen, die auf Produkten von Wahrscheinlichkeitsräumen definiert sind, eingegangen.
3.6.1. Rechenregeln für Erwartungswerte. Die folgenden Eigenschaften gelten
für den Erwartungswert beliebiger reellwertiger Zufallsvariablen. Zu ihrem Beweis
kann zunächst mit diskreten Zufallsvariablen gearbeitet werden 3.102. Bei beliebigen reellwertigen Zufallsvariablen können dann im Rahmen eines Grenzübergangs
diskrete Approximationen verwendet werden 3.103.
Satz 3.18. Seien X, Y , X1 , X2 , . . . , Y1 , Y2 , . . . reellwertige Zufallsvariablen auf
einem Wahrscheinlichkeitsraum (Ω, F, P), die einen Erwartungswert besitzen 3.104.
(1) Monotonie. Ist X ≤ Y , f.s. 3.105, so gilt
E[X] ≤ E[Y ].
(2) Linearität. Sei c ∈ R. Dann ist
E[cX] = cE[X]
und außerdem
3.106
E[X + Y ] = E[X] + E[Y ].
(3) σ-Additivität des Erwartungswerts, bzw. SatzPvon der monotonen Kon∞
vergenz. Wenn Xn ≥ 0, f.s., n ∈ N, und X = k=1 Xk , f.s., so ist 3.107
E[X] =
∞
X
E[Xk ].
k=1
3.108
, so folgt 3.109 3.110
lim E[Yk ] = E lim Yk = E[Y ].
Wenn Yk ր Y , f.s.,
k→∞
k→∞
3.101
Bisher wurde der Erwartungswert für reellwertige Zufallsvariablen nur auf einem elementaren Niveau, d.h., für diskrete Zufallsvariablen eingeführt, vgl. Abschnitt 2.3. Andererseits
wurde insbesondere in den Abschnitten 3.5.3 und 3.5.4 der Erwartungswert E[X] für beliebige
reellwertige Zufallsvariablen X benutzt. Die hierbei entstandenen Lücken sollen nun geschlossen
werden.
3.102Vgl. [10], Satz (4.7).
3.103Vgl. [10], Satz (4.11). Die genannten Approximationen X
(n) , n ∈ N, für reellwertige
Zufallsvariablen X werden in (3.15) vorgestellt.
3.104Diskrete Zufallsvariablen besitzen einen (endlichen) Erwartungswert, wenn sie integrabel sind, d.h., wenn (2.7) erfüllt ist. In Abschnitt 3.6.2 wird beschrieben, wann eine beliebige
reellwertige Zufallsvariable einen Erwartungswert besitzt. Im allgemeinen kann dieser auch +∞
oder −∞ sein.
3.105D.h., P[{ω ∈ Ω : X(ω) ≤ Y (ω)}] = 1.
3.106Hier muß allerdings E[X] = +∞, E[Y ] = −∞, bzw. E[X] = −∞, E[Y ] = +∞, ausgeschlossen werden, was bei Berücksichtigung von Abschnitt 3.6.2 möglich wäre. In diesen Fällen ist
E[X + Y ] nicht definiert.
3.107Für diskrete Zufallsvariablen X, X , X , . . . wird diese Beziehung in Anhang A.3.3 be1
2
wiesen.
3.108D.h., Y ≤ Y ≤ . . . , f.s., und lim
1
2
k→∞ Yk = Y , f.s.
3.109
In Abschnitt 3.7 wird auf das Vertauschen von limn→∞ . . . “ und E[ . ]“ näher einge”
”
gangen.
3.110
Zum Beweis dieser Beziehung, dem Satz von der monotonen Konvergenz, setze X1 = 0,
P
P
X2 = Y2 −Y1 , X3 = Y3 −Y2 , . . . . Damit ist Yk = Y1 + kn=1 Xn und limk→∞ Yk = Y1 + ∞
n=1 Xn .
22. Juli 2014
37
(4) Produktregel für unabhängige Zufallsvariablen
abhängig. Dann gilt
3.111
. Seien X und Y un-
E[XY ] = E[X]E[Y ].
Alle in Satz 3.18 vorkommenden Erwartungswerte sind wohldefiniert
3.112
.
3.6.2. Erwartungswert für allgemeine, reellwertige Zufallsvariablen. Für eine
beliebige Zufallsvariable 3.113 X : (Ω, F, P) → (R, B(R)) wird durch 3.114
1
(3.15)
X(n) (ω) = ⌊nX(ω)⌋, ω ∈ Ω, n ∈ N,
n
eine Folge diskreter Zufallsvariablen X(n) , n ∈ N, definiert. Da 3.115
1
, n ∈ N,
n
wird bei n → ∞ die Zufallsvariable X durch X(n) beliebig genau approximiert.
X(n) ≤ X ≤ X(n) +
(3.16)
Satz 3.19. 3.116 Sei X : (Ω, F, P) → (R, B(R)) eine Zufallsvariable und X(n) , n ∈
N, die gemäß (3.15) definierte approximierende Folge. Wenn dann für ein n0 ∈ N
die Zufallsvariable X(n0 ) integrabel ist 3.117, d.h., einen endlichen Erwartungswert
besitzt, so sind alle X(n) , n ∈ N, integrabel 3.118. In diesem Fall ist E[X(n) ], n ∈ N,
eine Cauchy-Folge 3.119.
Aufgrund von Satz 3.19 kann in Erweiterung von Abschnitt 2.3 eine Zufallsvariable X dann durch einen endlichen Erwartungswert charakterisiert werden, wenn
eine und damit alle Approximationen X(n) , n ∈ N, integrabel sind. In einem solchen
Fall wird X als integrabel bezeichnet. Der Erwartungswert von X kann nun durch
(3.17)
E[X] := lim E[X(n) ]
n→∞
Da Xn ≥ 0, n ∈ N, kann nun das zuvor angegebene Resultat, die σ-Additivität des Erwartungswerts, zusammen mit der Linearität des Erwartungswerts angewandt werden. Insbesondere gilt:
"
#
k
k
X
X
lim E[Yk ] = lim E Y1 +
Xn = lim E[Y1 ] +
E[Xn ]
k→∞
k→∞
= E[Y1 ] +
n=1
∞
X
n=1
k→∞
"
E[Xn ] = E[Y1 ] + E
n=1
∞
X
#
"
Xn = E Y 1 +
n=1
∞
X
n=1
#
Xn = E lim Yk .
k→∞
3.111Die Unabhängigkeit von Zufallsvariablen wurde in Abschnitt 2.2.2 definiert, vgl. (2.6).
3.112Insbesondere besitzen auch die Zufallsvariablen cX, X + Y und XY einen Erwartungs-
wert. Für X + Y müssen hierbei die in Fußnote 3.106 beschriebenen Fälle ausgeschlossen werden.
3.113
X braucht nicht unbedingt eine diskrete Zufallsvariable zu sein.
3.114Die Zufallsvariablen X
(n) , n ∈ N, bilden eine X von unten approximierende Folge, d.h.,
für n ∈ N ist X(n) die größte diskrete Zufallsvariable, die Werte k/n, k ∈ Z, annimmt und
kleiner oder höchstens gleich X ist. Für jedes n ist X(n) eine Diskretisierung von X mit der
Schrittweite 1/n.
3.115Aus
nX(n) (ω) = ⌊nX(ω)⌋ ≤ nX(ω) ≤ ⌊nX(ω)⌋ + 1 = nX(n) (ω) + 1,
ω ∈ Ω,
folgt (3.16) nach Division durch n.
3.116Vgl. [10], Lemma (4.9).
3.117Es soll also (2.7) für X
(n0 ) gelten.
3.118Diese Behauptung ergibt sich aus der Tatsache, daß X
(n) genau dann integrabel ist,
wenn E[|X(n) |] < ∞ ist, vgl. Abschnitt 2.3, der Monotonie des Erwartungswerts für diskrete
−1 }, die
Zufallsvariablen, vgl. Satz 3.18(1), und der Abschätzung |X(n) | ≤ |X(n0 ) | + max{n−1
0 ,n
−1
eine Konsequenz der aus (3.16) folgenden Beziehungen X(n) ≤ X(n0 ) + n−1
≤
|X
|
+
n
(n0 )
0
0 und
−1
−1
X(n0 ) ≤ X(n) + n , d.h., −X(n) ≤ |X(n0 ) | + n
ist.
3.119Dies folgt aus der Abschätzung |E[X
−1 , n−1 }, m, n ∈ N, die
(n) ] − E[X(m) ]| ≤ max{m
sich durch Überlegungen wie in Fußnote 3.118 aus (3.16) ergibt.
22. Juli 2014
38
definiert werden.
Beispiel 3.20. Die Verteilung einer reellwertigen Zufallsvariable X habe eine Dichte f bzgl. des Lebesguemaßes, d.h.,
PX [A] = P[X ∈ A] =
X sei integrabel, d.h., es gelte
3.120
(3.18)
Z
∞
−∞
Z
dx f (x),
A
A ∈ B(R).
dx |x|f (x) < ∞.
Dann folgt
E[X] =
3.121
=
3.122
=
3.123
=
3.124
=
3.125
lim E[X(n) ]
n→∞
∞
X
k
k
P X(n) =
n→∞
n
n
k=−∞
|
{z
}
= PX [k/n, (k + 1)/n)
Z
∞
X
k (k+1)/n
dx f (x)
lim
n→∞
n k/n
k=−∞
Z ∞
1
lim
dx ⌊xn⌋ f (x)
n→∞ −∞
n
| {z }
→ x, falls n → ∞
Z ∞
dx xf (x).
lim
−∞
3.120Nach (2.7) und Satz 3.19 ist zu prüfen, ob
∞>
∞ ∞
X
X
k k+1
k
|k|
k P X∈
,
=
P X(n0 ) =
n0
n0
n
n0 n0
k=−∞
k=−∞ 0
Z
Z ∞
∞
X |k| (k+1)/n0
|⌊xn0 ⌋|
dx f (x) =
dx
f (x)
=
n
n0
−∞
k=−∞ 0 k/n0
für ein n0 ∈ N. Da
|x| −
1
|⌊xn⌋|
1
≤
≤ |x| + ,
n
n
n
ist X genau dann integrabel, wenn (3.18) gilt.
22. Juli 2014
x ∈ R, n ∈ N,
39
Etwas allgemeiner, für eine Rd -wertige Zufallsvariable X mit Dichte f 3.126 und
d
Reine meßbare Funktion H : R → R ist die Zufallsvariable H(X) integrabel, wenn
dx |H(x)|f (x) < ∞. In diesem Fall ist
Rd
Z
dx H(x)f (x).
(3.19)
E[H(X)] =
Rd
Für eine positive Zufallsvariable kann man in einer Verallgemeinerung des bisher
benutzten Begriffs des Erwartungswerts 3.127 die Definition E[X] := ∞ einführen,
wenn E[X(n) ] = ∞ 3.128 für ein, d.h., aufgrund von Satz 3.19 für alle n ∈ N.
Für eine beliebige reellwertige Zufallsvariable X gibt es die Zerlegung X =
X+ −X− , wobei X+ = max{X, 0} und X− = max{−X, 0}. Da X+ und X− positive
Zufallsvariablen sind, ist nun der Erwartungswert von X auf eine eindeutige Weise
durch
(3.20)
E[X] := E[X+ ] − E[X− ]
definierbar 3.129 3.130, wenn nicht E[X+ ] = E[X− ] = ∞ 3.131. Insbesondere besitzt eine Zufallsvariable X genau dann einen endlichen Erwartungswert E[X], wenn 3.132
E[X+ ] + E[X− ] = E[|X|] < ∞, d.h., wenn X integrabel ist 3.133.
3.121Nach (3.17), wobei die Zufallsvariablen X
(n) , n ∈ N, in (3.15) definiert sind.
3.122
Hier wird die Definition des Erwartungswerts für diskrete Zufallsvariablen benutzt, vgl.
Abschnitt 2.3. Außerdem findet die Tatsache, daß X(n) die Werte k/n, k ∈ Z, jeweils mit der
Wahrscheinlichkeit P[X ∈ [k/n, (k + 1)/n)] annimmt, Verwendung.
3.123
Da PX die Dichte f bzgl. des Lebesguemaßes in R hat.
3.124
Da k = ⌊xn⌋, sobald x ∈ [k/n, (k + 1)/n).
3.125
Nach dem Satz von der dominierten Konvergenz, vgl. Satz 3.24. Dieser Satz wird hier
angewandt für reellwertige Zufallsvariablen Yn , n ∈ N, und Y auf dem Wahrscheinlichkeitsraum
(R, B(R), PX ), wobei Yn (ω) = ⌊ωn⌋/n, ω ∈ R, n ∈ N, und Y (ω) = ω, ω ∈ R. Da limn→∞ Yn = Y ,
f.s., und |Yn | ≤ |Y | + 1, f.s., n ∈ N, mit E[|Y |] < ∞, folgt
Z ∞
Z ∞
1
lim
dx ⌊xn⌋f (x) = lim E[Yn ] = E[Y ] =
dx xf (x).
n→∞ −∞
n→∞
n
−∞
In diesen Argumenten beziehen sich natürlich f.s.“ und E[ . ]“ auf das Wahrscheinlichkeitsmaß
”
”
PX auf (R, B(R)).
Für x ∈ R ist die Folge ⌊x2n ⌋2−n , n ∈ N, monoton steigend. Somit kann hier auch mit
dem Satz von der monotonen Konvergenz, vgl. Satz 3.18(3), gearbeitet werden, wenn anstelle der
approximierenden Zufallsvariablen X(n) , n ∈ N, die Folge X(2n ) , n ∈ N, benutzt wird.
3.126Hiermit ist gemeint, daß die Verteilung P von X die Dichte f : Rd → [0, ∞) hat.
X
3.127Bisher wurde E[X] im wesentlichen nur für integrable Zufallsvariablen eingeführt. Auf
die Tatsache, daß für positive, diskrete Zufallsvariablen immer auf eindeutige Weise ein Erwartungswert definiert werden kann, wurde in Abschnitt 2.3 vor Beispiel 2.7 hingewiesen.
3.128In diesem Fall sollte also P
x∈X
(Ω) x P[X(n) = x] = ∞ sein. Diese Summe ist wohl(n)
definiert, weil X(n) (Ω) ⊂ [0, ∞).
3.129Die Werte ∞ oder −∞ für E[X] sind nun möglich.
3.130
In (3.20) scheint die Linearität des Erwartungswerts, vgl. Satz 3.18(2), ausgenutzt zu
werden. Letztendlich kann man jedoch (3.20) auch als eine Einführung jener Linearität für nichtintegrable Zufallsvariablen durch eine Definition betrachten.
3.131Für eine Zufallsvariable X mit einer Cauchy-Verteilung und damit mit einer Dichte
f (x) = a/(π(a2 + x2 )), x ∈ R, für ein a > 0 gilt E[X+ ] = E[X− ] = ∞. Daher ist in diesem Fall
E[X] nicht definiert.
3.132Offensichtlich ist |X| = X + X .
+
−
3.133Bisher wurde eine Zufallsvariable X als integrabel bezeichnet, wenn die diskreten Approximationen X(n) , n ∈ N, integrabel sind, d.h., wenn E[|X(n) |] < ∞, n ∈ N, vgl. auch (2.7)
und (2.8). Nun impliziert (3.16), daß |X(n) | − 1/n ≤ |X| ≤ |X(n) | + 1/n, n ∈ N, d.h., es gilt
E[|X(n) |] < ∞, n ∈ N, genau dann, wenn E[|X|] < ∞.
22. Juli 2014
40
Für eine reellwertige Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω,
F, P) werden gelegentlich auch die Schreibweisen 3.134
Z
E[X] = 3.135
(3.21)
P(dω) X(ω)
Ω
Z
= 3.136
PX (dx) x
R
verwendet. Als Verallgemeinerung von (3.19) wird weiterhin die Beziehung
Z
PX (dx)H(x)
(3.22)
E[H(X)] =
3.137
Rd
benutzt, falls die beiden Seiten von (3.22) für eine meßbare Funktion H : Rd → R
wohldefiniert sind 3.138.
3.6.3. Ungleichungen für Wahrscheinlichkeiten und Erwartungswerte. Oft werden in wahrscheinlichkeitstheoretischen Überlegungen keine exakten Wahrscheinlichkeiten oder Erwartungswerte benötigt, sondern nur evtl. relativ einfach zu bestimmende Abschätzungen. Zu diesem Zweck sind in der Wahrscheinlichkeitstheorie
viele verschiedene Ungleichungen abgeleitet worden. Die folgende Liste enthält einige der bekannteren.
(1) Markov-Ungleichung. 3.139 Sei X eine reellwertige Zufallsvariable und f :
[0, ∞) → [0, ∞) eine monoton wachsende Funktion mit f (x) > 0 für x > 0.
Dann gilt 3.140
P[|X| ≥ ǫ] ≤
E[f (|X|)]
,
f (ǫ)
ǫ > 0.
Speziell, wenn f (x) = x2 , ergibt sich hieraus die
(2) Čebyšev-Ungleichung 3.141, d.h.,
P[|X| ≥ ǫ] ≤
E[X 2 ]
,
ǫ2
ǫ > 0.
(3) Jensensche Ungleichung. 3.142 Sei X eine reellwertige Zufallsvariable und
φ : R → R eine konvexe Funktion 3.143, so daß X und φ(X) integrabel
3.134Durch diese Schreibweisen wird zum Ausdruck gebracht, daß die Abbildung X → E[X]
die Eigenschaften eines abstrakten Integrals besitzt. Insbesondere ist diese Zuordnung ein DaniellIntegral, d.h., eine spezielle, hinreichend reguläre, lineare Abbildung auf einem geeigneten Funktionenraum, vgl. [27], Chapter 13. Mit dem Konzept der Daniell-Integrale ist ein alternativer
Zugang zur üblichen Maß- und Integrationstheorie möglich.
3.135E[X] ist das Integral der reellwertigen Funktion X auf dem Wahrscheinlichkeitsraum
(Ω, F, P).
3.136
Durch diese Notation wird verdeutlicht, daß E[X] nur von der Verteilung PX von X
abhängt, vgl. (2.8) und Fußnote 2.51.
3.137
Offensichtlich ist (3.22) auch eine Verallgemeinerung der Darstellung von E[X] in (3.21).
3.138Wenn eine der beiden Seiten von (3.22) wohldefiniert ist, so ist dies auch die andere
Seite.
3.139Vgl. [10], Proposition (5.4).
3.140Da f (|X|) ≥ 0, ist der Erwartungswert auf der rechten Seite immer definiert, wobei auch
E[f (|X|)] = ∞ möglich ist, vgl. Abschnitt 3.6.2. In diesem Fall allerdings ist die Ungleichung
nutzlos.
3.141Vgl. [10], Korollar (5.5).
3.142Vgl. [7], Appendix A.5, (5.1).
3.143D.h., es gilt λφ(x) + (1 − λ)φ(y) ≥ φ(λx + (1 − λ)y), x, y ∈ R, λ ∈ [0, 1].
22. Juli 2014
41
sind. Dann gilt
3.144
φ(E[X]) ≤ E[φ(X)].
(4) Höldersche Ungleichung. 3.145 Seien p, q ∈ (1, ∞) mit p−1 + q −1 = 1 und
seien X und Y reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit E[|X|p ] < ∞, bzw. E[|Y |q ] < ∞. In diesem Fall
folgt
p
p
q
p
E[|XY |] ≤ E[|X|p ] E[|Y |q ].
Im Fall p = q = 2 wird diese Ungleichung auch Cauchy-Schwarzsche
Ungleichung genannt.
(5) Minkowski-Ungleichung. 3.146 Sei p ∈ [1, ∞) und seien X und Y reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit
E[|X|p ] + E[|Y |p ] < ∞. Damit folgt 3.147
p
p
p
p
p
p
E[|X + Y |p ] ≤ E[|X|p ] + E[|Y |p ].
3.6.4. Integration auf Produkten von Wahrscheinlichkeitsräumen. Zur konkreten Berechnung des Erwartungswerts einer reellwertigen Zufallsvariable X auf einem Produkt 3.148 (Ω1 × ΩR2 , F1 ⊗ F2 , P1 ⊗ P2 ) von Wahrscheinlichkeitsräumen ist
es hilfreich, wenn E[X] = Ω1 ×Ω2 (P1 ⊗ P2 )(dω)X(ω) 3.149 mit Hilfe von Integralen
bzgl. P1 und P2 bestimmt werden kann. Es gilt:
Satz 3.21 (Satz von Fubini). 3.150 Seien (Ω1 , F1 , P1 ) und (Ω2 , F2 , P2 ) Wahrscheinlichkeitsräume und X eine reellwertige Zufallsvariable auf (Ω1 × Ω2 , F1 ⊗ F2 , P1 ⊗
P2 ). Falls 3.151 X ≥ 0, P1 ⊗ P2 -f.s., oder wenn E[|X|] < ∞ 3.152, so ist 3.153
Z
(3.23)
(P1 ⊗ P2 )(dω)X(ω)
E[X] =
Ω1 ×Ω2
3.144Zum Beweis der Jensenschen Ungleichung kann aufgrund der Konvexität von φ eine
lineare Funktion ℓ : x → ax + b, x ∈ R, so gewählt werden, daß sich die Graphen von ℓ und φ im
Punkt (E[X], φ(E[X])) berühren. Insbesondere gilt dann
(∗)
ℓ(E[X]) = φ(E[X]),
ℓ(x) ≤ φ(x), x ∈ R,
so daß sich
E[φ(X)] ≥ E[ℓ(X)] = ℓ(E[X]) = φ(E[X])
ergibt. Hier wurden der zweite Teil von (∗) und die Monotonie des Erwartungswerts, vgl.
Satz 3.18(1), die Linearität von ℓ und des Erwartungswerts, vgl. Satz 3.18(2), und letztendlich der
erste Teil von (∗) verwendet.
3.145Vgl. [7], Appendix A.5, (5.2).
3.146Vgl. [7], Appendix A.5, Exercise 5.3.
3.147Diese Ungleichung ist die Dreiecksungleichung im Banachraum Lp (Ω, F, P) = {X :
p
p
(Ω, F, P) → (R, B(R)) : X meßbar, kXkp < ∞} mit der Norm kXkp =
E[|X|p ].
3.148Produkte von Wahrscheinlichkeitsräumen werden in Abschnitt 3.3.4 eingeführt. Für die
Indexmenge Λ aus jenem Abschnitt gilt nun Λ = {1, 2}.
3.149Diese Schreibweise wurde in (3.21) eingeführt.
3.150Vgl. z.B. [7], Appendix A.6, Theorem (6.2). Dort wird der Satz von Fubini für σ-endliche
Maße, vgl. Fußnote 2.9, vorgestellt.
3.151Wegen der Linearität des Erwartungswerts, vgl. Satz 3.18(2), gilt (3.23) natürlich auch
wenn X ≤ 0, P1 ⊗ P2 -f.s.
3.152D.h., X ist integrabel.
3.153
Beim Beweis von (3.23), vgl. [7], Appendix A.6, ist zunächst zu prüfen, ob die Integrale in
der zweiten und dritten Zeile in (3.23) wohldefiniert sind. Dazu ist nachzuweisen, daß Funktionen
wie X1ω2 : (Ω1 , F1 ) → (R, B(R)), ω2 ∈ Ω2 , mit X1ω2 (ω1 ) = X(ω1 , ω2 ), ω1 ∈ Ω1 , ω2 ∈ Ω2 , oder
R
X 1 : (Ω2 , F2 ) → (R, B(R)) mit X 1 (ω2 ) = Ω P1 (dω1 )X(ω1 , ω2 ), ω2 ∈ Ω2 , meßbar sind. Hierzu
1
kann insbesondere auch mit dem π-λ-Theorem, vgl. Satz 5.5, gearbeitet werden.
Anschließend kann (3.23) zuerst für diskrete Zufallsvariablen, vgl. Abschnitt 2.3, und dann
durch Approximation für beliebige Zufallsvariablen verifiziert werden.
22. Juli 2014
42
Z
P1 (dω1 )
=
P2 (dω2 )X(ω1 , ω2 )
Ω1
Ω2
Z
Z
P2 (dω2 )
P1 (dω1 )X(ω1 , ω2 ) .
=
Z
Ω2
Ω1
Satz 3.21 zeigt, daß in Mehrfachintegralen die Integrationsreihenfolge häufig,
aber nicht bedenkenlos vertauscht werden kann.
Beispiel 3.22. 3.154 Sei (Ω1 , F1 , P1 ) = (R, B(R), µ1 ) und (Ω2 , F2 , P2 ) = (R, B(R),
µ2 ), wobei µ1 die Gleichverteilung auf (0, 1) 3.155 und µ2 die Verteilung mit der
Dichte 3.156 exp(−(x − 1))I[1,∞) (x), x ∈ R, ist. Außerdem sei X(ω1 , ω2 ) = exp(ω2 −
1)(exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )), (ω1 , ω2 ) ∈ Ω1 × Ω2 . In diesem Fall sind die Voraussetzungen von Satz 3.21 nicht erfüllt, d.h., die Zufallsvariable X ist weder positiv 3.157 noch integrabel 3.158. Letztendlich kann die Integrationsreihenfolge nicht
vertauscht werden, denn 3.159
Z
Z
P1 (dω1 )
P2 (dω2 )X(ω1 , ω2 )
Ω1
=
=
Z
Ω2
1
dω1
0
3.160
Z
Z
∞
1
1
dω1
0
bzw.,
Z
Ω2
Z
P2 (dω2 )
Ω1
∞
dω2 exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )
1
exp(−ω1 ) − exp(−2ω1 ) >
ω1
3.161
0,
P1 (dω1 )X(ω1 , ω2 )
Z
dω1 exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )
1
0
Z ∞
1
− exp(−ω2 ) + exp(−2ω2 ) < 0.
=
dω2
ω2
1
=
Z
dω2
1
3.154Dieses Beispiel entspricht Example 6.2 in [7], Appendix A.6.
3.155µ hat somit die Dichte I
1
(0,1) auf R.
3.156µ ist eine um 1 nach rechts verschobene Exponentialverteilung“.
2
”
3.157Man beachte,
daß
exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )
3.158
Z
Ω1 ×Ω2
≥
=
< 0,
falls ω1 ω2 > log 2,
falls ω1 ω2 < log 2.
Da
(P1 ⊗ P2 )(dω)|X(ω)|
Z
(P1 ⊗P2 )(dω)X(ω)
{(ω1 ,ω2 )∈Ω1 ×Ω2 :ω1 ω2 >log 2}
Z ∞
1
Z
dω1
log 2/ω1
0
=
(
> 0,
Z
0
1
dω1
(da X(ω1 , ω2 ) > 0, falls ω1 ω2 > log 2)
dω2 exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )
(wegen Satz 3.21)
1
1 = ∞.
−
2ω1
4ω1
{z
}
|
= 1/(4ω1 )
3.159
Obwohl X nicht integrabel ist, sind die beiden nun folgenden Doppelintegrale, die sich
in der Integrationsreihenfolge unterscheiden, endlich.
3.160Da | exp(−ω ) − exp(−2ω )| ≤ C|ω |, ω ∈ (0, 1), ist (0, 1) ∋ ω → (1/ω )(exp(−ω ) −
1
1
1
1
1
1
1
exp(−2ω1 )) eine bzgl. des Lebesguemaßes auf (0, 1) integrable Funktion.
3.161
Da exp(−ω1 ) − exp(−2ω1 ) = exp(−ω1 )(1 − exp(−ω1 )) > 0, ω1 > 0.
22. Juli 2014
43
3.7. Erwartungswerte für Limiten von Zufallsvariablen. Es gibt Zufallsvariablen X, die als Limiten X = limn→∞ Xn für eine Folge Xn , n ∈ N, von
Zufallsvariablen in Erscheinung treten. Bei der Abschätzung, bzw. der Berechnung
von E[X] für solche Zufallsvariablen können neben dem Satz von der monotonen
Konvergenz 3.162 oder Satz 3.17 3.163 auch die beiden folgenden Resultate nützlich
sein.
Satz 3.23 (Lemma von Fatou). 3.164 Sei Xn , n ∈ N, eine Folge reellwertiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit
n ∈ N.
Xn ≥ 0, f.s.,
Dann gilt
E lim inf Xn ≤ lim inf E[Xn ].
n→∞
n→∞
Satz 3.24 (Satz von der dominierten Konvergenz). 3.165 Seien X, Xn , n ∈ N,
reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit
(3.24)
lim Xn = X, f.s.
n→∞
Es gebe eine Zufallsvariable Z ≥ 0 mit E[Z] < ∞ und
|Xn | ≤ Z, f.s.,
(3.25)
Dann gilt
3.166 3.167
n ∈ N.
lim E[Xn ] = E lim Xn = E[X].
(3.26)
n→∞
n→∞
Beispiel 3.25. Auf dem Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), λ) seien die positiven Zufallsvariablen X, Xn , n ∈ N, durch X ≡ 0 und Xn = nI(0,1/n] , n ∈ N,
definiert 3.168. Offensichtlich gilt (3.24), während (3.25) für keine positive, integrable Zufallsvariable Z erfüllt ist. Da E[Xn ] = 1, n ∈ N, und E[X] = 0, gilt auch
(3.26) nicht. E[ . ] und limn→∞ . . . dürfen also nie leichtfertig vertauscht werden.
3.162Vgl. Satz 3.18(3).
3.163Für reellwertige, integrable Zufallsvariablen X und Y auf einem Wahrscheinlichkeits-
raum (Ω, F, P) gilt |E[X] − E[Y ]| = |E[X − Y ]| ≤ E[|X − Y |] als Konsequenz der Jensenschen
Ungleichung, vgl. Abschnitt 3.6.3, angewandt auf die konvexe Funktion R ∋ z → |z| und die
Zufallsvariable X − Y . Daher folgt limn→∞ E[Xn ] = E[X] für Zufallsvariablen X und Xn , n ∈ N,
L1
mit limn→∞ E[|Xn − X|] = 0, d.h., mit Xn → X.
3.164
Vgl. [7], Appendix A.5, Theorem (5.4).
3.165Vgl. [7], Appendix A.5, Theorem (5.6).
3.166Wenn Satz 3.24 auf die Zufallsvariablen |X| und |X |, n ∈ N, angewandt wird, folgt
n
limn→∞ E[|Xn |] = E[|X|]. Somit kann mit Satz 3.13 und Satz 3.17 sogar die Konvergenz in L1 ,
d.h., limn→∞ E[|Xn − X|] = 0, gefolgert werden.
3.167
Durch eine zweimalige Anwendung des Lemmas von Fatou läßt sich (3.26) leicht beweisen. Aufgrund von (3.25) sind die Zufallsvariablen Z + Xn , Z − Xn , n ∈ N, positiv, so daß bei
Beachtung von (3.24) zunächst
E[Z + X] ≤ lim inf E[Z + Xn ] = E[Z] + lim inf E[Xn ]
n→∞
n→∞
und
E[Z − X] ≤ lim inf E[Z − Xn ] = E[Z] − lim sup E[Xn ]
n→∞
n→∞
folgen. Hieraus ergibt sich
lim inf E[Xn ] ≥ E[X] ≥ lim sup E[Xn ],
n→∞
n→∞
und damit (3.26) als Konsequenz.
3.168Diese Zufallsvariablen wurden auch in den Fußnoten 3.94 und 3.99 betrachtet, wo im
wesentlichen dieses Beispiel schon vorweggenommen wurde.
22. Juli 2014
44
3.8. Bedingte Erwartungswerte. Sei X eine reellwertige, integrable Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P). Sei weiterhin A eine
Teil-σ-Algebra von F.
Eine A-meßbare Zufallsvariable Y heißt bedingte Erwartung von X bzgl. A, falls
E[Y IA ] = E[XIA ],
(3.27)
A ∈ A.
In diesem Fall findet die Schreibweise Y = E[X|A] Verwendung. Gleichbedeutend
mit (3.27) ist die Bedingung
(3.28)
E[Y Z] = E[XZ],
Z beschränkte, reellwertige Zufallsvariable auf (Ω, A, P).
(3.27) und (3.28) besagen, daß die Projektionen“ von X, bzw. Y = E[X|A]
”
auf Ereignisse A ∈ A oder auf Zufallsvariablen, die nur von diesen Ereignissen
abhängen, übereinstimmen.
Der bedingte Erwartungswert Y = E[X|A] von X existiert eindeutig 3.169 und
ist ebenfalls integrabel 3.170.
3.169Die Existenz kann mit Hilfe des Satzes von Radon-Nikodým, vgl. Satz 3.11 und Fußnote 3.60, nachgewiesen werden. Sei z.B. X eine positive, integrable Zufallsvariable auf (Ω, F) und
sei
(∗)
PX
A [A] := E[XIA ] =
Z
X(ω)P(dω),
A
A ∈ A.
X
Offensichtlich ist PX
A ein endliches Maß auf (Ω, A) mit PA ≪ PA , wobei mit PA die Einschränkung von P auf (Ω, A) gemeint ist. Somit existiert eine (Ω, A)-meßbare, positive Funktion,
X
die Radon-Nikodým-Dichte dPX
A /dPA von PA bzgl. PA , mit
(∗1 )
PX
A [A] =
Z
A
dPX
A
dPA
(ω)PA (dω) = E[(dPX
A /dPA )IA ],
A ∈ A.
Aufgrund von (∗) und (∗1 ) ist (3.27) durch Y = dPX
A /dPA erfüllt. Für eine beliebige reellwertige,
integrable Zufallsvariable X = X+ − X− sind diese Argumente getrennt auf den Positivteil X+
und den Negativteil X− von X anzuwenden.
Zum Beweis der Eindeutigkeit seien Y und Y ′ zwei A-meßbare Zufallsvariablen, die (3.27) zu
der vorgegebenen Zufallsvariable X erfüllen. Zu ǫ > 0 sei nun Aǫ = {Y − Y ′ ≥ ǫ}. Da Aǫ ∈ A, gilt:
ǫP[Aǫ ] ≤ E[(Y − Y ′ )IAǫ ] = E[XIAǫ ] − E[XIAǫ ] = 0. Somit ist P[Aǫ ] = 0, ǫ > 0, d.h., Y ≤ Y ′ ,
f.s. Da ebenso Y ′ ≤ Y , f.s., gezeigt werden kann, folgt Y = Y ′ , f.s.
3.170
Mit A = {Y > 0} ∈ A gilt
E[|Y |IA ] = E[Y IA ] = E[XIA ] ≤ E[|X|IA ],
bzw.
E[|Y |IΩ\A ] = E[(−Y )IΩ\A ] = E[(−X)IΩ\A ] ≤ E[|X|IΩ\A ],
und daher E[|Y |] ≤ E[|X|] < ∞, womit die Integrabilität von Y gezeigt ist, vgl. Abschnitt 3.6.2
und insbesondere Fußnote 3.133.
22. Juli 2014
45
Beispiel 3.26. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A∗ = {Ak : k ∈ N}
eine Partition von (Ω, F, P) 3.171. Weiterhin sei A = σ(A∗ ) 3.172. Für eine integrable, reellwertige Zufallsvariable X auf (Ω, F, P) gilt in dieser speziellen Situation 3.173 3.174 3.175
∞
X
E[XIAk ]
.
(3.29)
E[X|A] =
IAk
P[Ak ]
k=1
Beispiel 3.27. Sei E[|X|2 ] < ∞, d.h., X ∈ L2 (Ω, F, P) 3.176. In diesem Fall ist Y =
E[X|A] die orthogonale Projektion von X in L2 (Ω, F, P) auf den linearen Unterraum
L2 (Ω, A, P) aller A-meßbaren und bzgl. P quadratintegrablen Funktionen 3.177.
3.171{A : k ∈ N} ist eine Partition von (Ω, F, P), wenn
k
Ak ∈ F, P[Ak ] > 0,
∞
[
k ∈ N,
k, l ∈ N, k 6= l,
Ak ∩ Al = ∅,
Ak = Ω.
k=1
3.172A = σ(A ) ist die kleinste, A enthaltende σ-Algebra, vgl. Abschnitt 3.1.1. Da A eine
∗
∗
∗
S
abzählbare Partition von (Ω, F, P) ist, ist B ∈ A genau dann, wenn B = l∈NB Al , wobei NB ⊆ N.
P
∞
3.173Offensichtlich ist die rechte Seite ξ =
k=1 IAk E[XIAk ]/P[Ak ] von (3.29) meßbar bzgl.
S
A. Für alle A = l∈NA Al ∈ A, vgl. Fußnote 3.172, gilt außerdem (3.27), d.h.,
" ∞
!#
!
X
X
E[XIAk ]
IAk
E[ξIA ] = E
IAl
P[Ak ]
k=1
l∈NA
#
"
X
E[XIAl ]
IAl
(da Ak ∩ Al = ∅, k 6= l)
=E
P[Al ]
l∈NA
!#
"
X
X
E[XIAl ]
E[IAl ]
=
IAl
= E[XIA ].
=E X
| {z } P[Al ]
l∈NA
l∈NA
= P[Al ]
P
Die zweimalige Vertauschung von l∈NA . . . und E[ . ] ist aufgrund des Satzes von Fubini möglich,
vgl. Satz 3.21 und Fußnote 3.150.
3.174
Anschaulich besagt (3.29), daß im vorliegenden speziellen Fall E[X|A](ω) für ω ∈ Ω
folgendermaßen bestimmt wird:
• Suche k ∈ N mit ω ∈ Ak , d.h., mit IAk (ω) = 1, und
• definiere dann E[X|A](ω) als den mittleren Wert“ (bzgl. P) von X in Ak .
”
3.175
Setzt man in (3.29) zunächst X = IB , B ∈ F, und bildet anschließend auf beiden Seiten
den Erwartungswert, so ergibt sich mit
P[B] = E[IB ] = E[IB IΩ ] = E[E[IB |A]IΩ ]
= E[E[IB |A]]
=
=
∞
X
k=1
∞
X
E[IAk ]
P[Ak ]
k=1
(wegen (3.27), da Ω ∈ A)
E[IB IAk ]
P[Ak ]
(vgl. Satz 3.21 und Fußnote 3.150)
P[B ∩ Ak ]
P[Ak ]
|
{z
}
= P[B|Ak ] (vgl. (2.9))
die Fallunterscheidungsformel, vgl. [10], Satz (3.3)(a).
3.176L2 (Ω, F, P) ist der Hilbertraum aller meßbaren, quadratintegrablen Funktionen X :
R
(Ω, F, P) → (R, B(R)) versehen mit dem Skalarprodukt hX, Y iL2 (Ω,F,P) := Ω P(dω)X(ω)Y (ω),
X, Y ∈ L2 (Ω, F, P).
3.177Die Zufallsvariable Y = E[X|A] ist für X ∈ L2 (Ω, F, P) neben (3.27) oder (3.28) auch
durch
E[Y Z] = E[XZ], Z ∈ L2 (Ω, A, P),
22. Juli 2014
46
Der in den Abschnitten 2.3 und 3.6 eingeführte unbedingte Erwartungswert
E[ . ] stimmt mit dem bedingten Erwartungswert E[ . |{∅, Ω}] bzgl. der trivialen
σ-Algebra {∅, Ω} f.s. überein 3.178.
Wenn A ∈ F, nennt man
(3.30)
P[A|A] := E[IA |A]
die unter A bedingte Wahrscheinlichkeit des Ereignisses A.
Die in den Abschnitten 3.6.1, 3.6.3 und 3.7 zusammengestellten Eigenschaften
des Erwartungswerts E[ . ] gelten sinngemäß auch für bedingte Erwartungswerte
E[ . |A] 3.179.
Beispiel 3.28. Insbesondere sind bedingte Erwartungswerte linear, d.h.,
E[aX + bY |A] = aE[X|A] + bE[Y |A], f.s.,
X, Y reellwertige, integrable Zufallsvariablen, a, b ∈ R.
Beispielsweise gilt auch die Jensensche Ungleichung, d.h.,
(3.31)
φ(E[X|A]) ≤ E[φ(X)|A], f.s.,
falls φ : R → R konvex und X eine reellwertige, integrable Zufallsvariable mit
E[|φ(X)|] < ∞ ist 3.180.
Seien X, Z reellwertige Zufallsvariablen auf (Ω, F, P) mit E[|XZ|] < ∞ und
E[|X|] < ∞. Falls Z für eine Teil-σ-Algebra A ⊆ F meßbar bzgl. A ist, folgt 3.181
(3.32)
E[XZ|A] = ZE[X|A].
Seien A ⊆ B ⊆ F σ-Algebren und sei X eine reellwertige, integrable Zufallsvariable auf (Ω, F, P). Dann gilt 3.182
(3.33)
E E[X|B]A = E[X|A].
eindeutig gekennzeichnet. Dies folgt aus der Tatsache, daß die Menge der beschränkten Zufallsvariablen auf (Ω, A, P) in L2 (Ω, A, P) dicht ist. Offensichtlich gilt weiterhin
0 = E[(X − Y )Z] = h(X − Y ), ZiL2 (Ω,F,P) ,
Z ∈ L2 (Ω, A, P),
genau dann, wenn Y die orthogonale Projektion von X auf L2 (Ω, A, P) ist.
Als Alternative zu den Überlegungen in Fußnote 3.169 kann mit den hier vorgestellten L2 Argumenten für quadratintegrable Zufallsvariablen die Existenz und Eindeutigkeit bedingter Erwartungswerte nachgewiesen werden.
3.178Eine Erläuterung findet sich in Fußnote 2.66.
3.179Bei diesen Verallgemeinerungen werden aus (Un-)Gleichungen für Erwartungswerte entsprechende P-f.s. gültige (Un-)Gleichungen für bedingte Erwartungswerte. Bei den jeweiligen Beweisen ist nur die bedingte Erwartungswerte charakterisierende Beziehung (3.27) zusätzlich zu
berücksichtigen.
3.180Bei der Verallgemeinerung der Produktregel für unabhängige Zufallsvariablen, vgl.
Satz 3.18(4), muß berücksichtigt werden, daß zwei (Ω′ , F′ )-wertige Zufallsvariablen X und Y
bedingt unter A unabhängig genannt werden, wenn
P[X ∈ A′ , Y ∈ B ′ |A] = P[X ∈ A′ |A] · P[Y ∈ B ′ |A], f.s.,
A′ , B ′ ∈ F ′ .
3.181Offensichtlich ist ZE[X|A] meßbar bzgl. A. Für B ∈ A gilt außerdem
E[IA (IB E[X|A])] = E[IA∩B E[X|A]]
= E[IA∩B X]
= E[IA (IB X)],
(wegen (3.27))
A ∈ A,
d.h., bei Berücksichtigung von (3.27) wird deutlich, daß (3.32) zumindest dann erfüllt ist, wenn
Z = IB , B ∈ A. Weitere Argumente zum vollständigen Nachweis von (3.32) für allgemeine Ameßbare Zufallsvariablen Z finden sich im Beweis von Theorem (1.3) in [7], Section 4.1.
3.182Zumindest für X ∈ L2 (Ω, F, P) ist durch die Identifizierung des bedingten Erwartungswerts als orthogonale Projektion, vgl. Beispiel 3.27, die Beziehung (3.33) offensichtlich.
22. Juli 2014
47
Falls A = FtX für einen stochastischen Prozeß X = (Xt )0≤t<∞ 3.183, verwendet
man auch offensichtliche Abkürzungen wie E[X|A] = E[X|Xu , 0 ≤ u ≤ t] oder
P[A|A] = P[A|Xu , 0 ≤ u ≤ t].
3.9. Filtrationen, Meßbarkeit stochastischer Prozesse und Stoppzeiten. Eine Filtration in einem gegebenen meßbaren Raum (Ω, F) ist eine aufsteigende Familie (Ft )t≥0 von Teil-σ-Algebren von F, d.h.,
(3.34)
Fs ⊆ Ft ⊆ F,
0 ≤ s ≤ t < ∞.
Mit Filtrationen können beispielsweise Ereignisse zeitlich“ eingeordnet werden.
”
Dann kann Ft als die Menge der Ereignisse vor dem Zeitpunkt t betrachtet werden.
Wie in Beispiel 3.3 kann jedem stochastischen Prozeß X = (Xt )0≤t<∞ die von
X erzeugte Filtration (FtX )0≤t<∞ mit FtX = σ(Xu , 0 ≤ u ≤ t), t ≥ 0, zugeordnet
werden. (FtX )0≤t<∞ ist die minimale Filtration (Ft )t≥0 , so daß für alle t ≥ 0 die
Zufallsvariablen Xu , 0 ≤ u ≤ t, meßbar bzgl. Ft sind.
Ein stochastischer Prozeß X = (Xt )t≥0 ist wesentlich mehr als eine Menge
X = {Xt : t ≥ 0} unzusammenhängender Zufallsvariablen. Auf einem niedrigen
”
Niveau“ äußern sich Zusammenhänge zwischen den Zufallsvariablen in X durch
3.184
gemeinsame Meßbarkeitseigenschaften
.
Sei X = (Xt )t≥0 ein stochastischer Prozeß auf einem Wahrscheinlichkeitsraum
(Ω, F, P) mit Werten in dem meßbaren Raum (S, S) und sei (Ft )t≥0 eine Filtration
in (Ω, F).
X heißt meßbar, falls 3.185 3.186 3.187 3.188
(ω, t) ∈ Ω × [0, ∞) : Xt (ω) ∈ A ∈ F ⊗ B([0, ∞)), A ∈ S.
X heißt adaptiert an (Ft )t≥0 , falls für alle t ≥ 0 die Abbildung Xt : (Ω, Ft ) →
(S, S) meßbar ist 3.189.
Beispiel 3.29. Ein stochastischer Prozeß X = (Xt )t≥0 ist adaptiert an die von X
erzeugte Filtration (FtX )t≥0 3.190 3.191.
3.183Vgl. Beispiel 3.3.
3.184Auf einem höheren Niveau“ wäre ein Zusammenhang z.B. durch die Stetigkeit der Pfade
”
t → Xt (ω) für (fast) alle ω ∈ Ω gegeben.
3.185Zur Definition des Produkts A ⊗ B von σ-Algebren A und B vgl. Abschnitt 3.1.2.
3.186
Die Meßbarkeit des Prozesses X ist gleichbedeutend mit der Meßbarkeit der Abbildung
(Ω × [0, ∞), F ⊗ B([0, ∞))) ∋ (ω, t) → Xt (ω) ∈ (S, S).
3.187
Wenn für einen reellwertigen stochastischen Prozeß X = (Xt )t≥0 auf (Ω, F, P) Größen
R1
wie 0 dt Xt (ω), ω ∈ Ω, untersucht werden sollen, ist deren Meßbarkeit durch die Meßbarkeit von
X gesichert. Zur Verifizierung dieser Aussage kann auf den Beweis des Satzes von Fubini, vgl.
Satz 3.21, Bezug genommen werden. Jener Beweis ist in Fußnote 3.153 grob skizziert.
3.188
Für ein A ⊆ [0, ∞) mit A ∈
/ B([0, ∞)) und einen Wahrscheinlichkeitsraum (Ω, F, P)
sei Xt (ω) = IA (t), ω ∈ Ω, t ≥ 0. X = (Xt )t≥0 ist ein stochastischer Prozeß, denn für alle
t ≥ 0 ist Xt eine reellwertige Zufallsvariable auf (Ω, F, P). Allerdings ist X nicht meßbar, denn
{(ω, t) ∈ Ω × [0, ∞) : Xt (ω) = 1} = Ω × A ∈
/ F ⊗ B([0, ∞)).
3.189Die Adaptiertheit besagt, daß die zeitliche Entwicklung des stochastischen Prozesses X
an den durch die Filtration (Ft )t≥0 charakterisierten zeitlichen Fluß“ von Ereignissen angepaßt
”
ist. Andere Varianten dieser Anpassung können durch Begriffe wie progressive Meßbarkeit, vgl.
[26], Chapter I, Definition (4.7), bzw. Vorhersehbarkeit, vgl. [26], Chapter IV, §5, beschrieben
werden. Mit vorhersehbaren stochastischen Prozessen in diskreter Zeit wird in Beispiel 4.39 gearbeitet.
Progressiv meßbare, bzw. vorhersehbare stochastische Prozesse werden auch in Abschnitt
5.2.5 vorgestellt. Sie werden zur Charakterisierung allgemeiner Integranden in stochastischen Integralen bzgl. quadratintegrabler Martingale benötigt, vgl. Abschnitt 6.2.4.
3.190Für alle t ≥ 0 ist nach Definition von F X = σ(X , 0 ≤ u ≤ t) insbesondere X meßbar
u
t
t
bzgl. FtX .
3.191
Der in Fußnote 3.188 betrachtete stochastische Prozeß X ist zwar adaptiert an (FtX )t≥0
aber nicht meßbar. Andererseits braucht ein meßbarer stochastischer Prozeß X nicht adaptiert an
eine Filtration (Ft )t≥0 zu sein, wenn Ft ( FtX , t ≥ 0.
22. Juli 2014
48
Wenn der Zeitpunkt des Eintretens eines Ereignisses zufällig ist, spricht man
von einer Zufallszeit. In speziellen Situationen kann es evtl. für jeden beliebigen,
festen Zeitpunkt t ≥ 0 nur vom Geschehen bis zu diesem Zeitpunkt und nicht von
der Zukunft abhängen, ob jenes Ereignis dann schon eingetreten ist. Dann liegt eine
Stoppzeit vor.
Für genauere Definitionen sei (Ω, F, P) ein Wahrscheinlichkeitsraum mit einer
Filtration (Ft )t≥0 . Eine Zufallszeit T ist eine F-meßbare Zufallsvariable mit Werten
in ([0, ∞], B([0, ∞])) 3.192. Eine Zufallszeit T heißt Stoppzeit bzgl. (Ft )t≥0 , falls 3.193
{T ≤ t} ∈ Ft ,
Im speziellen zeitlich diskreten Fall
zu Stoppzeiten.
t ∈ [0, ∞).
3.194
vereinfachen sich viele Überlegungen
Beispiel 3.30. Sei X = (Xn )n∈N0 die symmetrische Irrfahrt in Z 3.195 und sei
a ∈ Z. Ta = inf{n ∈ N0 : Xn = a} 3.196 ist eine Stoppzeit bzgl. (FnX )n∈N0 , während
Sa = sup{n ∈ N0 : Xn = a} zwar eine Zufallszeit aber keine Stoppzeit bzgl.
(FnX )n∈N0 ist 3.197 3.198.
Das folgende Resultat zeigt, daß durch gewisse Kombinationen von gegebenen
Stoppzeiten neue Stoppzeiten entstehen.
Satz 3.31. Sei (Ω, F, P) ein mit einer Filtration (Fn )n∈N0 versehener Wahrscheinlichkeitsraum. Seien außerdem S, T und Tk , k ∈ N, Stoppzeiten bzgl. (Fn )n∈N0 und
Θ ≥ 0 eine Konstante.
(a) T + Θ ist eine Stoppzeit 3.199.
(b) T + S, T ∨ S = max{T, S} und T ∧ S = min{T, S} sind Stoppzeiten 3.200.
(c) supk∈N Tk , inf k∈N Tk , lim supk∈N Tk und lim inf k∈N Tk sind Stoppzeiten.
Sei T eine Stoppzeit und A ein Ereignis, das vom Geschehen bis zum zufälligen
”
Zeitpunkt T abhängt“. Dann gilt auf einem anschaulichen Niveau: Wenn zu einem
Somit sind Meßbarkeit und Adaptiertheit eines stochastischen Prozesses keine vergleichbaren
Begriffe, wenn nicht zusätzliche Voraussetzungen angenommen werden.
3.192Der Fall T = ∞ soll nicht ausgeschlossen sein. Hierzu wird in [0, ∞] die σ-Algebra
B([0, ∞]) = σ(B([0, ∞)), {∞}) benutzt.
3.193Um die Präzision zu verdeutlichen, mit der in der Wahrscheinlichkeitstheorie i. allg.
gearbeitet werden sollte, sei daraufhingewiesen, daß eine ([0, ∞], B([0, ∞]))-wertige, meßbare Abbildung T auf (Ω, F, P) als optionale Zeit bzgl. (Ft )t≥0 bezeichnet wird, wenn
{T < t} ∈ Ft ,
t ∈ [0, ∞).
Eine Stoppzeit ist optional. Andererseits ist beispielsweise eine optionale Zeit auch eine Stoppzeit, wenn die Filtration (Ft )t≥0 rechtsstetig ist, vgl. Abschnitt 5.2.3. Weitere Informationen zu
optionalen Zeiten und Stoppzeiten finden sich in [19], Abschnitt 1.2.
3.194Nun werden Stoppzeiten bzgl. einer Filtration (F )
n n∈N0 betrachtet.
3.195Vgl. Beispiel 2.9 und Fußnote 2.69.
3.196T ist die Eintrittszeit in die Menge {a}.
a
3.197Zu keinem Zeitpunkt reichen die dann vorliegenden Informationen über X aus, um zu
X , n ∈ N . Trivialerweise ist S eine
entscheiden, ob Sa schon eingetreten ist, d.h., {Sa ≤ n} 6∈ Fn
a
0
X;∞
X;∞
Stoppzeit bzgl. der Filtration (Fn )n∈N0 , wobei Fn
= σ(Xk , k ∈ N0 ), n ∈ N0 . Allerdings ist
diese Beobachtung mathematisch nutzlos.
3.198
Aus Satz 4.23 und Satz (6.29) in [10] folgt, daß P[Sa = ∞] = 1.
3.199Offensichtlich braucht T + Θ keine Stoppzeit zu sein, wenn Θ < 0, denn für n ∈ N ist
0
(
⊆ Fn , falls Θ ≥ 0,
{T + Θ ≤ n} = {T ≤ n − Θ} ∈ Fn−Θ
* Fn , i. allg., falls Θ < 0.
3.200Beispielsweise ist {T + S ≤ n} = Sn ({T = k} ∩ {S ≤ n − k}) ∈ F , bzw., {T ∧ S ≤
n
k=0
n} = {T ≤ n} ∪ {S ≤ n} ∈ Fn für alle n ∈ N0 .
22. Juli 2014
49
festen Zeitpunkt n bekannt ist, daß T ≤ n, dann ist zusätzlich zu diesem Zeitpunkt
auch bekannt, ob A eingetreten ist oder nicht, d.h.,
{T ≤ n} ∩ A ∈ Fn , {T ≤ n} ∩ (Ω \ A) ∈ Fn ,
(3.35)
n ∈ N0 .
Man bezeichnet die Menge aller Ereignisse A ∈ F, die (3.35) erfüllen, als die von T
erzeugte σ-Algebra FT 3.201.
Beispiel 3.32. Für a > 0 und ein b < 0 sei in der in Beispiel 3.30 angesprochenen
Situation 3.202 A = {min{Xk : k ≤ Ta } < b}. Dann gilt A ∈ FTa .
Um in mathematisch komplexen Situationen lästige Probleme mit Nullmen”
gen“ zu vermeiden, arbeitet man oft mit Vervollständigungen von σ-Algebren. Zur
3.203
Erläuterung sei (Ω, F, P) ein Wahrscheinlichkeitsraum und
NP = A ⊆ Ω : A ⊆ B, B ∈ F, P[B] = 0 .
Für eine σ-Algebra G ⊆ F wird dann GP = σ(G∪NP ) als Vervollständigung von
G bzgl. P in (Ω, F) bezeichnet 3.204 3.205. Eine σ-Algebra G heißt vollständig bzgl. P
in (Ω, F), wenn G = GP , d.h., wenn NP ⊆ G.
Falls (Gt )t≥0 eine Filtration in (Ω, F, P) ist, so ist entsprechend (GP
t )t≥0 die
Vervollständigung von (Gt )t≥0 bzgl. P in (Ω, F). (GP
)
ist
offensichtlich
eine Filt t≥0
tration in FP , braucht jedoch keine Filtration in F zu sein. Im Rest dieses Skripts
sei angenommen, daß allgemeine 3.206 σ-Algebren und Filtrationen in einem Wahrscheinlichkeitsraum (Ω, F, P) bzgl. P in (Ω, F) vollständig sind. Weiterhin sei auch
für einen stochastischen Prozeß X = (Xt )t≥0 unter (FtX )t≥0 immer ((FtX )P )t≥0
verstanden 3.207. Abweichend hiervon werden Borelsche σ-Algebren 3.208 nicht als
vollständig betrachtet.
4. Ausblick auf zentrale Themen der Wahrscheinlichkeitstheorie
In der Wahrscheinlichkeitstheorie lassen sich größere Themenkomplexe identifizieren, in denen jeweils zusammenhängende Fragestellungen behandelt werden. In
diesem Abschnitt 4 sollen exemplarisch einige der herausragenden Themenbereiche
vorgestellt werden 4.1.
3.201F
T
ist in der Tat eine σ-Algebra, d.h., die Bedingungen (2.1) sind erfüllt.
3.202A ist das Ereignis, daß die Irrfahrt vor dem Eintritt in {a} die Schranke b unterschreitet.
3.203NP ist die Menge aller Teilmengen von F-meßbaren Mengen B mit P[B] = 0. I. allg.
enthält NP auch Mengen C ∈
/ F.
3.204Da NP Mengen enthalten kann, die nicht F-meßbar sind, ist i. allg. GP nicht in F
enthalten.
3.205
Wenn P und Q zwei verschiedene Wahrscheinlichkeitsmaße in (Ω, F) sind, so ist i.allg.
P
G 6= GQ .
3.206Die Bezeichnung allgemein“ soll andeuten, daß keine spezielle Struktur, die über die in
”
(2.1) und (3.34) gegebenen Definitionen von σ-Algebren, bzw. Filtrationen hinausgeht, angenommen wird.
3.207Anders als in der am Anfang dieses Abschnitts 3.9 gegebenen Definition ist somit F X =
t
(FtX )P = σ(Xu , 0 ≤ u ≤ t)P , t ≥ 0, d.h., für t ≥ 0 ist FtX die kleinste σ-Algebra, bzgl. der alle
Zufallsvariablen Xu , 0 ≤ u ≤ t, meßbar sind, und die außerdem alle Teilmengen von P-Nullmengen
in F enthält.
3.208Vgl. Abschnitt 3.1.3.
4.1Diese Themenbereiche sind Gesetz der großen Zahlen, Zentraler Grenzwertsatz, Markovprozesse, Martingale, Brownsche Bewegung, bzw. stochastische Integrale und stochastische
Differentialgleichungen.
22. Juli 2014
50
4.1. Gesetz der großen Zahlen. Für eine Folge Xn , n ∈ N, von ZufallsPN
variablen ist die Asymptotik des empirischen Mittels (1/N ) k=1 Xk bei N → ∞
zu bestimmen. In den üblichen Resultaten ergibt sich hierbei ein deterministischer
Grenzwert 4.2. Die verschiedenen Resultate dieses Themenbereichs unterscheiden
sich im wesentlichen hinsichtlich des
• Grades der Abhängigkeit zwischen den Zufallsvariablen Xn , n ∈ N, 4.3
bzw. des
• verwendeten Konvergenzbegriffs 4.4, oder auch der
• Dimension des Wertebereichs der Zufallsvariablen Xn , n ∈ N.
4.1.1. Schwaches Gesetz der großen Zahlen. In der zunächst vorgestellten Variante sind Abhängigkeiten zwischen den Zufallsvariablen Xn , n ∈ N, erlaubt.
Während diese Zufallsvariablen nicht die gleiche Verteilung zu besitzen brauchen,
müssen sie jedoch gleichmäßig quadratintegrabel sein.
Satz 4.1. 4.5 Seien X1 , X2 , . . . reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit supn∈N E[Xn2 ] < ∞ und E[Xn ] = µ, n ∈ N. Diese Zufallsvariablen seien paarweise unkorreliert, d.h., E[(Xn −µ)(Xm −µ)] = 0, m, n ∈ N,
PN
m 6= n. Dann konvergiert ZN = (1/N ) k=1 Xk bei N → ∞ stochastisch gegen eine
Zufallsvariable, die f.s. den Wert µ annimmt 4.6.
Das nächste Resultat beschreibt notwendige und hinreichende Bedingungen für
die Gültigkeit des schwachen Gesetzes der großen Zahlen für unabhängige, identisch
verteilte, reellwertige Zufallsvariablen. Diese müssen nicht notwendigerweise quadratintegrabel sein. Sogar auf die Existenz eines Erwartungswerts kann verzichtet
werden 4.7.
Satz 4.2. 4.8 Seien X1 , X2 , . . . unabhängige, identisch verteilte, reellwertige ZufallsPN
variablen. Dann konvergieren die Zufallsvariablen ZN = (1/N ) k=1 Xk , N ∈ N,
genau dann in Wahrscheinlichkeit gegen eine Konstante µ, wenn
(4.1)
oder wenn gilt
(4.2)
lim nP[|X1 | > n] = 0,
n→∞
lim E[X1 I{|X1 |≤n} ] = µ
n→∞
4.9
:
′
(0) = iµ.
ψX1 ist differenzierbar in 0 mit ψX
1
Beispiel 4.3. 4.10 Auch wenn X1 und damit alle Xk , k ∈ N, einer Folge von i.i.d.
Zufallsvariablen keinen Erwartungswert besitzen, kann das schwache Gesetz der
4.2Wenn der Grenzwert zwar existiert, aber zufällig ist, spricht man oft nicht mehr von einem
Gesetz der großen Zahlen. Solche Fälle werden in Beispiel 4.4 und in Abschnitt 4.1.3 angesprochen.
4.3In den einfachsten Varianten des Gesetzes der großen Zahlen wird angenommen, daß die
Zufallsvariablen Xn , n ∈ N, unabhängig und identisch verteilt sind.
4.4Wenn stochastische Konvergenz, d.h., Konvergenz in Wahrscheinlichkeit, gegen den
Grenzwert vorliegt, spricht man von einem schwachen Gesetz der großen Zahlen. Ein Resultat
mit der stärkeren fast sicheren Konvergenz wird als starkes Gesetz der großen Zahlen bezeichnet.
4.5Vgl. [10], Satz (5.6).
PN
4.6Für die Zufallsvariablen Z
g
g
N = ZN −µ = (1/N )
k=1 (Xk −µ), N ∈ N, gilt E[ZN ] = 0 und
P
P
2
N
N
−2
−2
2
g
E[ZN ] = N
E[(Xk −µ)(Xl −µ)] = N
E[(Xk −µ) ] ≤ C/N , wobei insbesondere
k,l=1
k=1
benutzt wurde, daß die Zufallsvariablen Xk , k ∈ N, unkorreliert und ihre Varianzen gleichmäßig
beschränkt sind. Mit der Čebyšev-Ungleichung, vgl. Abschnitt 3.6.3, folgt nun P[|Zn − µ| > ǫ] ≤
N→∞
E[|Zn − µ|2 ]/ǫ2 ≤ C/(ǫ2 N ) → 0, ǫ > 0.
4.7
Vgl. Beispiel 4.3.
4.8
Vgl. [12], Section 7.4, Theorem (7).
4.9ψ
X1 ist die charakteristische Funktion der Zufallsvariable X1 , vgl. Fußnote 3.78 und Anhang A.4.1.
4.10Die Beispiele 4.3 und 4.4 werden in [12], Section 7.4 angesprochen.
22. Juli 2014
51
großen Zahlen gelten 4.11. Zur Begründung wird nun eine Zufallsvariable X1 ohne
Erwartungswert, die jedoch (4.1) erfüllt, beschrieben.
Hierzu sei angenommen, daß X1 eine Verteilung PX1 mit einer Dichte f besitzt,
wobei
f (x) = f (−x), x ∈ R,
1
, x ≥ C,
PX1 [(x, ∞)] =
x log x
für ein hinreichend großes C. Offensichtlich ist (4.1) mit µ = 0 erfüllt. Andererseits
ist
d
d
P[X1 ≤ x] =
(1 − PX1 [(x, ∞)])
dx
dx
1 + log x
, x > C,
=
(x log x)2
f (x) =
und daher
4.12
4.13
E[(X1 )+ ] = E[(X1 )− ]
Z ∞
Z ∞
1
1 + log x
dx
≥
=
dx x
≥
2
(x
log
x)
x
log
x
C
C
4.14
∞,
d.h., X1 besitzt keinen Erwartungswert 4.15.
Beispiel 4.4. Die Zufallsvariablen X1 , X2 , . . . seien unabhängig und identisch gemäß der Cauchy-Verteilung mit der Dichte f1 (x) = (π(1 + x2 ))−1 , x ∈ R, verteilt.
Da
Z
Z ∞
2
2 ∞
1
1
n→∞ 2
∼
P[|X1 | > n] =
,
dx
dx 2 =
2
π n
1+x
π n
x
πn
ist die erste Bedingung in (4.1) nicht erfüllt. Ebenso ist (4.2) nicht gültig, denn
E[exp(iλX1 )] =
1
π
Z
∞
−∞
dx
exp(iλx)
= exp(−|λ|),
1 + x2
4.16
λ ∈ R.
Nach Satz 4.2 kann daher das schwache Gesetz der großen Zahlen nicht gelten
4.17
.
4.11Nach Satz 4.5 gilt in einem solchen Fall kein starkes Gesetz der großen Zahlen.
4.12Wenn die Verteilungsfunktion einer Zufallsvariable Y , vgl. Abschnitt 2.2.1, eine Ableitung
g hat, so besitzt die Verteilung PY von Y die Dichte g.
4.13
(X1 )+ = max{X1 , 0} und (X1 )− = max{−X1 , 0} sind Positiv-, bzw. Negativteil von X1 .
4.14Man beachte, daß P∞ (k log k)−1 = ∞, vgl. [22], §39.
k=2
4.15Vgl. Abschnitt 3.6.2.
4.16Diese Beziehung kann mit dem Residuensatz aus der Funktionentheorie bewiesen werden,
vgl. [2], Chapter 4, Section 5.
4.17Die Dichte der Zufallsvariablen X , n ∈ N, dieses Beispiels, für die kein schwaches Gesetz
n
der großen Zahlen gilt, verhält sich bei |x| → ∞ wie x−2 . Im Vergleich dazu fällt die Dichte
der Zufallsvariablen Xn , n ∈ N, aus Beispiel 4.3, für die ein schwaches Gesetz der großen Zahlen
vorliegt, wie (x2 log |x|)−1 , d.h. ein wenig stärker ab.
22. Juli 2014
52
PN
Mit X1 , X2 , . . . besitzen auch die Zufallsvariablen ZN = (1/N ) k=1 Xk , N ∈
N, eine Cauchy-Verteilung mit Dichte f1 (x) = (π(1 + x2 ))−1 , x ∈ R 4.18. Insbesondere konvergiert ZN bei N → ∞ in Verteilung 4.19 gegen eine Cauchy-verteilte
Zufallsvariable Z mit Dichte f1 4.20.
4.1.2. Starkes Gesetz der großen Zahlen. Analog zu Satz 4.2 können notwendige und hinreichende Bedingungen für die Gültigkeit des starken Gesetzes der großen
Zahlen für unabhängige, identisch verteilte, reellwertige Zufallsvariablen angegeben
werden.
Satz 4.5. 4.21 Seien X1 , X2 , . . . unabhängige, identisch verteilte, reellwertige ZuPN
fallsvariablen. Dann konvergiert ZN = (1/N ) k=1 Xk bei N → ∞ f.s. genau dann
gegen eine Konstante µ, wenn E[|X1 |] < ∞. In diesem Fall ist µ = E[X1 ].
Unter den Voraussetzungen von Satz 4.1, d.h., für nicht notwendigerweise unabhängige aber gleichmäßig quadratintegrable Zufallsvariablen, gilt übrigens auch
das starke Gesetz der großen Zahlen 4.22.
4.1.3. Subadditiver Ergodensatz. 4.23 Das nun beschriebene Resultat kann dem
weiteren Umfeld des Gesetzes der großen Zahlen zugeordnet werden 4.24.
Satz 4.6. 4.25 Sei Xm,n , m = 0, . . . , n − 1, n ∈ N, eine Familie von reellwertigen
Zufallsvariablen mit
(4.3a)
(4.3b)
(4.3c)
(4.3d)
X0,k + Xk,n ≥ X0,n ,
k = 1, . . . , n − 1, n = 2, 3, . . . ,
4.26
für festes k ∈ N ist der Prozeß (Xnk,(n+1)k )n∈N stationär
die gemeinsame Verteilung
4.28
,
von Xm,m+k , k ∈ N,
ist von m ∈ N0 unabhängig,
E[max{X0,1 , 0}] < ∞,
4.27
E[X0,n ] ≥ γ0 n, n ∈ N, für ein γ0 > −∞
4.29
.
4.18Für charakteristische Funktionen von Zufallsvariablen gilt insbesondere
ψX+Y = ψX ψY ,
falls X und Y unabhängig sind,
ψαX (λ) = ψX (αλ),
α, λ ∈ R,
vgl. Anhänge A.4.1.1 und A.4.1.3. Somit hat ZN die charakteristische Funktion ψZN (λ) =
(exp(−|λ|/N ))N = exp(−|λ|), λ ∈ R. Da die Verteilung einer Zufallsvariable durch ihre charakteristische Funktion eindeutig bestimmt ist, vgl. Anhang A.4.1.5, besitzt ZN eine Cauchy-Verteilung
mit Dichte f1 .
4.19Vgl. Satz 3.14.
4.20Dieses Konvergenzresultat kann auch als ein nicht-zentraler Grenzwertsatz betrachtet
werden, vgl. Abschnitt 4.2.4.
4.21Vgl. [12], Section 7.5, Theorem (1). Die Behauptung, daß E[|X |] < ∞ hinreichend für die
1
Konvergenz limN→∞ ZN = E[X1 ], f.s., ist, wird in Beispiel 4.38 mit Hilfe eines Konvergenzsatzes
für Submartingale, vgl. Satz 4.37, bewiesen. Hierbei findet auch das 0 -1-Gesetz von Kolmogorov,
vgl. Satz 5.3, Verwendung. Die Notwendigkeit von E[|X1 |] < ∞ für die genannte Konvergenz wird
in Beispiel 5.2 als eine Anwendung des Lemmas von Borel-Cantelli, vgl. Satz 5.1, demonstriert.
4.22Vgl. [10], Satz (5.15).
4.23Die in diesem Abschnitt 4.1.3 beschriebenen Resultate geben einen Einblick in jenen Teil
des mathematischen Gebiets der Ergodentheorie, der in die Wahrscheinlichkeitstheorie hineinragt.
Weitere Informationen können [7], Chapter 6, oder [18], Chapter 10, entnommen werden.
4.24Die folgenden Beispiele 4.7 und 4.8 demonstrieren allerdings, daß Satz 4.6 die Behandlung von Problemen, die wesentlich über die in den Sätzen 4.1, 4.2 oder 4.5 angesprochenen
Fragestellungen hinausgehen, ermöglicht.
4.25Vgl. [7], Section 6.6, Theorem (6.1).
22. Juli 2014
53
Dann gilt
(4.4a)
(4.4b)
1
1
E[X0,n ] = inf E[X0,n ] = γ für ein γ ∈ R,
n∈N n
n
1
X = lim X0,n existiert f.s. und in L1 4.30.
n→∞ n
lim
n→∞
Der Grenzwert X muß in der in Satz 4.6 beschriebenen Situation keine Konstante sein 4.31.
Beispiel 4.7 (Ergodensatz 4.32). Sei (ξn )P
n∈N ein stationärer, reellwertiger Pron
zeß 4.33 mit E[|ξ1 |] < ∞ und sei Xm,n = k=m+1 ξk , m = 0, . . . , n − 1, n ∈ N.
Die Familie der Zufallsvariablen Xm,n , m = 0, . . . , n − 1, n ∈ N, erfüllt die Voraussetzungen (4.3) von Satz 4.6 und damit existiert f.s. und in L1 der Grenzwert
PN
X = limN →∞ (1/N )X0,N = limN →∞ (1/N ) k=1 ξk 4.34 4.35.
Beispiel 4.8. 4.36 Sei (ξn )n∈N der stationäre Prozeß aus Beispiel 4.7 und sei Sn =
ξ1 + · · · + ξn , n ∈ N. Außerdem sei 4.37 Xm,n = |{Sm+1 , . . . , Sn }|, m = 0, . . . , n − 1,
n ∈ N. Diese Familie von Zufallsvariablen erfüllt ebenfalls die Voraussetzungen von
Satz 4.6, d.h., X0,n /n = (1/n)|{S1 , . . . , Sn }| konvergiert bei n → ∞ f.s. und in
L1 4.38.
4.1.4. Ein Gesetz der großen Zahlen für Zufallsvariablen mit Werten in einem
hochdimensionalen“ Raum. Als ein Beispiel wird die Asymptotik des empirischen
”
Mittels spezieller unabhängiger, identisch verteilter Zufallsvariablen betrachtet, die
Werte in einem Raum von Funktionen annehmen.
4.26(4.3a) ist eine Subadditivitätseigenschaft. Diese Eigenschaft ist beispielsweise für die
Zuwächse Xm,n = Xn − Xm , m = 0, . . . , n − 1, n ∈ N, eines stochastischen Prozeßes (Xn )n∈N
oder auch für deren Beträge, d.h. für Xm,n = |Xn − Xm |, m = 0, . . . , n − 1, n ∈ N, erfüllt.
4.27
Vgl. Abschnitt 2.5.
4.28
Vgl. Abschnitt 2.2.1.
4.29
Es wird insbesondere angenommen, daß die in (4.3d) angesprochenen Erwartungswerte
existieren, vgl. Abschnitt 3.6.2. Mit den Bedingungen (4.3a) - (4.3d) folgt dann weiterhin, daß die
Zufallsvariablen Xm,n , m = 0, . . . , n − 1, n ∈ N, integrabel sind.
4.30Aus (4.4) folgt insbesondere E[X] = γ, vgl. Fußnote 3.163.
4.31Wenn die stationären Prozesse in (4.3b) sogar ergodisch sind, gilt X = γ, f.s., vgl. [7],
Section 6.6, Theorem (6.1). Die Ergodizität eines auf einem Wahrscheinlichkeitsraum (Ω, F, P)
definierten reellwertigen stationären stochastischen Prozesses Y = (Yn )n∈N besagt im wesentlichen, daß alle durch Y bestimmten Ereignisse A ∈ F, die invariant unter Verschiebungen des
Zeitursprungs sind, die Wahrscheinlichkeit P[A] = 0 oder P[A] = 1 besitzen, vgl. [7], Section 6.1.
Für B ∈ B(R) ist {Yn ∈ B für jedes zweite n bei n → ∞} ein Beispiel für ein solches invariantes
Ereignis. Andererseits ist das Ereignis {Y3 ∈ B} i. allg. nicht invariant.
4.32
Vgl. [7], Section 6.6, Example 6.1, und insbesondere [12], Section 9.5, Theorem (2).
4.33Vgl. Abschnitt 2.5.
4.34Eine genauere Beschreibung des Grenzwerts X wird außer im Fall X = konstant, f.s., von
Satz 4.6 nicht geliefert.
4.35
Wegen der hier vorausgesetzten Integrabilitätsbedingung E[|ξ1 |] < ∞, umfaßt dieses Beispiel nicht den in Beispiel 4.4 vorgestellten Fall.
4.36
Vgl. [7], Section 6.6, Example 6.2.
4.37X
m,n ist das Volumen“ des Bereichs, der von dem Prozeß S = (Sn )n∈N zwischen den
”
Zeitpunkten m + 1 und n besucht wird.
4.38Seien ξ , n ∈ N, unabhängige Zufallsvariablen mit P[ξ = −1] = P[ξ = 1] = 1/2,
n
n
n
Pn
n ∈ N, d.h., (ξn )n∈N ist ein Bernoulli-Prozeß. Dann ist S = (Sn )n∈N0 mit Sn =
k=1 ξk ,
n ∈ N0 , die symmetrische Irrfahrt, vgl. Beispiel 2.9 und Fußnote 2.69. Auf eine analoge Weise
kann die symmetrische Irrfahrt in höherdimensionalen quadratischen Gittern dargestellt werden.
Somit zeigen die Überlegungen dieses Beispiels 4.8, daß das Volumen“ der Pfade der Irrfahrt in
”
Zd , d = 1, 2, . . . , asymptotisch höchstens linear anwächst.
22. Juli 2014
54
Sei zunächst Xn , n ∈ N, eine Folge unabhängiger, identisch verteilter, reellwertiger Zufallsvariablen, deren Verteilung durch die Verteilungsfunktion 4.39 F
charakterisiert ist. Für n ∈ N sei außerdem die Funktion Yn : R → [0, 1] durch
Yn (x) = I(−∞,x] (Xn ), x ∈ R, definiert 4.40.
Für x ∈ R und N ∈ N gibt die empirische Verteilungsfunktion
(4.5) FN (x) :=
N
N
1 X
1
1 X
Yk (x) =
I(−∞,x] (Xk ) = |{k = 1, . . . , N : Xk ≤ x}|
N
N
N
k=1
k=1
die relative Anzahl der Zufallsvariablen X1 , . . . , XN an, die einen Wert ≤ x annehmen. Nach dem starken Gesetz der großen Zahlen 4.41 gilt
lim FN (x) = E[Y1 (x)] = P[X1 ≤ x] = F (x), f.s.,
(4.6)
N →∞
x ∈ R.
Als Erweiterung von (4.6) belegt das nachfolgende Resultat, daß die Konvergenz
von FN (x) gegen F (x) sogar gleichmäßig in x ∈ R gilt.
Satz 4.9 (Satz von Glivenko-Cantelli). 4.42 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige Zufallsvariablen mit der Verteilungsfunktion F . Seien
weiterhin die empirischen Verteilungsfunktionen FN , N ∈ N, durch (4.5) gegeben.
Dann gilt 4.43 4.44
f.s.
sup |FN (x) − F (x)| → 0.
(4.7)
x∈R
Der Satz von Glivenko-Cantelli verdeutlicht, wie die empirischen Verteilungsfunktionen FN , N ∈ N, bei der Schätzung einer unbekannten Verteilungsfunktion
F anwendbar sind.
4.2. Zentraler Grenzwertsatz. In diesem Abschnitt wird die im Gesetz der
großen Zahlen festgehaltene Konvergenz von normierten Partialsummen ZN =
P
(1/N ) N
k=1 Xk einer Folge Xn , n ∈ N, von Zufallsvariablen gegen einen deterministischen Grenzwert µ präzisiert. Durch einen Zentralen Grenzwertsatz kann
√ in vielen
Situationen nachgewiesen werden, daß die reskalierten Fluktuationen N (ZN − µ)
der ZN , N ∈ N, um ihren Grenzwert µ asymptotisch bei N → ∞ normalverteilt
sind.
4.39Vgl. Abschnitt 2.2.1.
4.40Mit X , n ∈ N, sind auch Y , n ∈ N, unabhängige, identisch verteilte Zufallsvariablen.
n
n
Allerdings sind Yn , n ∈ N, Zufallsvariablen mit Werten in einem Raum von Funktionen. Für n ∈ N
hat die zufällige Funktion Yn einen Sprung der Größe 1 an der Stelle Xn . Sonst ist Yn konstant
mit Yn (x) = 0, x < Xn , und Yn (x) = 1, x ≥ Xn .
4.41 Vgl. Satz 4.5. Beachte, daß für x ∈ R die {0, 1}-wertigen Zufallsvariablen Y (x), n ∈ N,
n
i.i.d. mit E[Y1 (x)] = E[I(−∞,x] (X1 )] = P[X1 ≤ x] = F (x) sind.
4.42Vgl. [5], Theorem 20.6
4.43sup
x∈R |FN (x) − F (x)| ist eine meßbare (R, B(R))-wertige Funktion, d.h., eine reellwertige Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, F, P), auf dem die Zufallsvariablen
X1 , X2 , . . . definiert sind. Dies folgt aus Beispiel 3.6 und der Tatsache, daß die Funktionen F
und FN , N ∈ N, rechtsstetig sind, vgl. insbesondere Fußnote 2.32, und daher supx∈R . . . in (4.7)
durch supx∈Q . . . ersetzt werden kann.
4.44
Die zufälligen Funktionen“ Yn , n ∈ N, können als i.i.d. Zufallsvariablen auf einem Wahr”
scheinlichkeitsraum (Ω, F, P) mit Werten in dem Raum D(R; R) der reellwertigen, rechtsstetigen
Funktionen mit linksseitigem Grenzwert auf R betrachtet werden. Durch kf k∞ = supx∈R |f (x)|,
f ∈ D(R; R), wird eine Norm in dem Vektorraum D(R; R) definiert. Nun kann (4.7) in der für das
starke Gesetz der großen Zahlen üblichen“ Form
”
"(
)#
N
N
1 X
1 X
f.s.
Yk → F = E[Y1 ], bzw. P ω ∈ Ω : lim Yk (., ω) − F (.) = 0
= 1,
N→∞ N
N
k=1
k=1
∞
geschrieben werden, wobei Yn (x, ω) = I(−∞,x] (Xn (ω)), x ∈ R, ω ∈ Ω, n ∈ N, ist.
Normalerweise wird allerdings in D(R; R) die sog. Skorohod-Topologie benutzt, die nicht durch
die Norm k . k∞ erzeugt werden kann, vgl. [4], Chapter 3.
22. Juli 2014
55
In diesem Abschnitt wird zunächst der Zentrale Grenzwertsatz für unabhängige,
reellwertige Zufallsvariablen diskutiert. Die im√Fall von i.i.d. Zufallsvariablen sich
ergebende Beschreibung der Asymptotik von N (ZN − µ) bei N → ∞ wird anschließend in ergänzenden Resultaten durch weitere Details präzisiert. Nach einem
Zentralen Grenzwertsatz für mehrdimensionale i.i.d. Zufallsvariablen wird in einem Ausblick auf nicht-zentrale Grenzwertsätze erläutert, welche Grenzverteilungen
allgemein für reskalierte Fluktuationen von normierten Partialsummen von reellwertigen, i.i.d. Zufallsvariablen möglich sind 4.45. Abschließend wird ein Zentraler
Grenzwertsatz für abhängige Zufallsvariablen und eine ∞-dimensionale Variante
des Zentralen Grenzwertsatzes vorgestellt.
4.2.1. Zentraler Grenzwertsatz für reellwertige, unabhängige Zufallsvariablen.
Als eine klassische Variante des Zentralen Grenzwertsatzes kann das folgende Resultat betrachtet werden.
Satz 4.10. 4.46 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige,
quadratintegrable Zufallsvariablen mit E[X1 ] = µ und Var(X1 ) = σ 2 ∈ (0, ∞) 4.47.
PN
Sei weiter ZN = (1/N ) k=1 Xk , N ∈ N. Dann gilt
r
N
(ZN − µ) = ζ in Verteilung, wobei Pζ = N(0, 1) 4.48.
(4.8)
lim
N →∞
σ2
Als Konsequenz von Satz 3.14 ist (4.8) äquivalent zu 4.49
"r
#
N
lim P
(4.9)
(ZN − µ) ∈ (a, b)
N →∞
σ2
Z b
1
dx exp(−x2 /2), −∞ ≤ a < b ≤ ∞.
= √
2π a
Die folgende Variante des Zentralen Grenzwertsatzes zeigt, daß viele kleine,
”
unabhängige, zufällige Beiträge“ sich zu einem normalverteilten Gesamteffekt aufsummieren 4.50.
Satz 4.11 (Satz von Lindeberg-Feller). 4.51 Für n ∈ N seien die Zufallsvariablen
Xn,m , m = 1, . . . , n, unabhängig mit E[Xn,m ] = 0, m = 1, . . . , n. Es gelte 4.52
(4.10a)
(4.10b)
lim
n→∞
lim
n→∞
n
X
m=1
n
X
m=1
E[(Xn,m )2 ] = σ 2 ∈ (0, ∞),
E (Xn,m )2 I{|Xn,m |>ε} = 0,
ε > 0.
4.45Damit wird der Zentrale Grenzwertsatz als ein Spezialfall einer ganzen Familie ähnlicher
Resultate identifiziert.
4.46Vgl. [7], Section 2.4, Theorem (4.1). Ein Beweis von Satz 4.10 wird in Anhang A.4.2
skizziert.
4.47Die Varianz einer Zufallsvariablen Y ist durch Var(Y ) := E[(Y − E[Y ])2 ] definiert.
4.48Die Verteilung P der Zufallsvariablen ζ ist die standard Normalverteilung N(0, 1), d.h.,
ζ
sie besitzt die Dichte (2π)−1/2 exp(−x2 /2), x ∈ R, bzgl. des Lebesguemaßes auf R.
4.49
In den Sätzen 4.14 und 4.15 wird erläutert, inwiefern (4.9) auch noch richtig bleibt, wenn
bei N → ∞ das Intervall (a, b) klein wird, bzw. sich immer weiter vom Ursprung entfernt. Die
Konvergenzgeschwindigkeit in (4.9) wird in Satz 4.16 angegeben.
4.50Da in vielen Anwendungen beobachtete Meßwerte sich aus vielen kleinen, unabhängigen,
”
zufälligen Beiträgen“ zusammensetzen, wird die außerordentliche Wichtigkeit des Zentralen Grenzwertsatzes und der Normalverteilung deutlich.
4.51Vgl. [7], Section 2.4, Theorem (4.5).
Pn
4.52Beachte, daß in der vorliegenden Situation Pn
2
m=1 E[(Xn,m ) ] =
m=1 Var(Xn,m ) =
Pn
Var
m=1 Xn,m , n ∈ N. Während (4.10a) erlaubt, daß bei n → ∞ ein Xn,m0 alle anderen
Xn,m , m = 1, . . . , n, m 6= m0 , dominiert, ergibt sich aus (4.10b), daß alle Xn,m gleichmäßig in
”
m = 1, . . . , n klein“ werden, wenn n → ∞.
22. Juli 2014
56
Dann folgt
lim
n→∞
n
X
in Verteilung, wobei Pζ = N(0, σ 2 ).
Xn,m = ζ
m=1
Zur Gültigkeit des Zentralen Grenzwertsatzes müssen die einzelnen Summanden stärker voneinander unabhängig“ sein als beim Gesetz der großen Zahlen.
”
Beispielsweise ist paarweise Unabhängigkeit nicht ausreichend 4.53.
Beispiel 4.12. 4.54 Seien ξ1 , ξ2 , . . . i.i.d. Zufallsvariablen mit P[ξ1 = 1] = P[ξ1 =
−1] = 1/2. Sei nun X1 = ξ1 und X2 = ξ1 ξ2 . Falls weiter m = 2n−1 + j für ein
j = 1, . . . , 2n−1 mit einem n = 2, 3, . . . so sei Xm = Xj ξn+1 4.55. Als Konsequenz dieser Vorgehensweise wird deutlich,
daß für alle n ∈ N für jede Teilmenge
Q
M ⊆ {2, . . . , n + 1} das Produkt ξ1 j∈M ξj mit genau einer der Zufallsvariablen
X1 , . . . , X2n übereinstimmt. Alle Zufallsvariablen Xk , k ∈ N, enthalten den Faktor ξ1 . Darüberhinaus sind für k 6= l die jeweiligen Mengen der Faktoren ξj , die
Xk , bzw. Xl definieren, verschieden. Die Zufallsvariablen Xk , k ∈ N, sind identisch verteilt mit 4.56 P[X1 = 1] = P[X1 = −1] = 1/2, d.h., mit E[X1 ] = 0, bzw.
Var(X1 ) = 1. Sie sind paarweise unabhängig 4.57, jedoch nicht unabhängig 4.58.
4.53Vgl. Satz 4.1. In jener Version des schwachen Gesetzes der großen Zahlen wird nur vorausgesetzt, daß die Zufallsvariablen X1 , X2 , . . . paarweise unkorreliert sind, was insbesondere aus
der paarweisen Unabhängigkeit folgt.
4.54
Vgl. [7], Section 2.4, Example 4.5
4.55Damit gilt z.B. X = ξ ξ , X = ξ ξ ξ , X = ξ ξ , X = ξ ξ ξ , X = ξ ξ ξ ,
3
1 3
4
1 2 3
5
1 4
6
1 2 4
7
1 3 4
X8 = ξ1 ξ2 ξ3 ξ4 , . . . .
Induktiv wird bei der Konstruktion der Zufallsvariablen Xm , m ∈ N, nach folgendem Schema
vorgegangen:
• Für m = 20 = 1 ist Xm = ξ1 .
• Wenn für n = 1, 2, . . . die Zufallsvariablen Xm , m = 1, . . . , 2n−1 , bekannt sind, so
ergeben sich Xm , m = 2n−1 + 1, . . . , 2n , durch Multiplikation der einzelnen Xm , m =
1, . . . , 2n−1 , mit ξn+1 .
4.56Aufgrund ihrer Konstruktion als Produkte von Zufallsvariablen ξ , n ∈ N, besitzen X ,
n
m
m ∈ N, Werte in {−1, 1}, wobei −1 und 1 aus Symmetriegründen offensichtlich jeweils mit Wahrscheinlichkeit 1/2 angenommen werden.
Q
4.57Für eine endliche Menge M ⊆ N sei ξ
M =
j∈M ξj . Für l, k ∈ N mit l 6= k folgt nun
aus der Konstruktion der Xm , m ∈ N, vgl. insbesondere Fußnote 4.55, daß Xk = ξM · ξM1 und
Xl = ξM ·ξM2 , wobei M , M1 und M2 disjunkt sind. Da die Zufallsvariablen ξn , n ∈ N, unabhängig
sind, sind auch ξM , ξM1 und ξM2 unabhängig. Somit gilt
X
P[Xk = α, Xl = β] =
P[Xk = α, Xl = β|ξM = γ]P[ξM = γ]
γ∈{−1,1}
(nach der Fallunterscheidungsformel, vgl. [10], Satz (3.3))
X
=
P ξM1 = α/γ, ξM2 = β/γ ξM = γ P[ξM = γ]
{z
}
|
γ∈{−1,1}
= P[ξM1 = α/γ]P[ξM2 = β/γ] = (1/2) · (1/2)
(da ξM , ξM1 , ξM2 unabhängig und in {−1, 1} gleichverteilt sind)
=
1
= P[Xk = α] P[Xl = β],
4
α, β ∈ {−1, 1},
d.h., Xk und Xl sind unabhängig.
4.58
Beispielsweise gilt
P[X1 = X2 = X3 = X4 = 1] = P[ξ1 = ξ2 = ξ3 = 1] =
6=
1
8
1
= P[X1 = 1]P[X2 = 1]P[X3 = 1]P[X4 = 1].
16
22. Juli 2014
57
Weiterhin folgt
4.59
Y
{X1 , . . . , X2n } = ξ1
ξj : M ∈ Pot({2, . . . , n + 1}) ,
j∈M
und daher
X1 + · · · + X2n = ξ1 (1 + ξ2 )(1 + ξ3 ) . . . (1 + ξn+1 ).
Somit ergibt sich
4.60
P X1 + · · · + X2n

2−n−1 ,
falls k = −2n ,

−n
= k = 1 − 2 , falls k = 0,

 −n−1
2
,
falls k = 2n .
√
Folglich konvergiert (X1 + · · · + X2n )/ 2n bei n → ∞ in Verteilung gegen eine im
Ursprung konzentrierte und nicht gegen eine gemäß N(0,1) verteilte Zufallsvariable 4.61.
Für i.i.d. Zufallsvariablen gibt es notwendige und hinreichende Bedingungen
für die Gültigkeit von schwachem, bzw. starkem Gesetz der großen Zahlen, vgl.
Satz 4.2 und Satz 4.5. Ein analoges Resultat für den Zentralen Grenzwertsatz ist
der folgende Satz.
Satz 4.13. 4.62 Seien X1 , X2 , . . . unabhängige, identisch verteilte, reellwertige ZuPN
fallsvariablen und sei SN =
k=1 Xk , N ∈ N. Es gibt genau dann Folgen aN ,
N ∈ N, und bN , N ∈ N, mit bN > 0, N ∈ N, so daß (SN − aN )/bN bei N →
∞ in Verteilung gegen eine standard normalverteilte Zufallsvariable konvergiert,
4.59
Da für jedeQTeilmenge M ⊆ {2, . . . , n + 1} genau eine der Zufallsvariablen X1 , . . . , X2n
die Darstellung ξ1 j∈M ξj besitzt, vgl. insbesondere die Erläuterung der Konstruktion von
X1 , X2 , . . . in Fußnote 4.55.
4.60X +· · ·+X n kann nur die Werte −2n , 0 und 2n annehmen. Hierbei wird 0 angenommen,
1
2
sobald ξj = −1 für ein j = 2, . . . , n + 1. 2n wird angenommen, wenn ξj = 1 für alle j = 1, . . . , n + 1
und −2n wird angenommen, wenn ξ1 = −1 und ξj = 1 für alle j = 2, . . . , n + 1.
4.61Man beachte, daß
" #
2n
√
√
n→∞
1 X
Xk
E h √
= (1−2−n )h(0) + 2−n−1 h(− 2n )+h( 2n ) → h(0),
2n k=1
und berücksichtige die Definition der Konvergenz in Verteilung in Abschnitt 3.5.3.
4.62
Vgl. [7], Section 2.4, Theorem (4.6).
22. Juli 2014
h ∈ Cb (R),
58
wenn
4.63 4.64 4.65
y 2 P[|X1 | > y]
= 0.
y→∞ E[|X1 |2 I{|X |≤y|} ]
1
(4.11)
lim
4.2.2. Ergänzungen zum Zentralen Grenzwertsatz. In diesem Abschnitt werden
einige Resultate vorgestellt, die die in Satz 4.10 beschriebene Asymptotik reskalierter Fluktuationen normierter Partialsummen von reellwertigen, quadratintegrablen,
i.i.d. Zufallsvariablen näher beleuchten.
In der folgenden lokalen Variante des Zentralen Grenzwertsatzes, dem sog. lokalen Zentralen Grenzwertsatz wird nachgewiesen, daß die Konvergenz in Satz 4.10,
bzw. in (4.9) auch in asymptotisch kleiner werdenden Raumbereichen“ gültig
”
bleibt.
Satz 4.14. 4.66 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige
Zufallsvariablen mit E[X1 ] = µ, Var(X1 ) = σ 2 ∈ (0, ∞) und 4.67 4.68
|ψX1 (λ)| < 1,
(4.12)
Sei weiter ZN = (1/N )
PN
k=1
falls λ 6= 0.
Xk , N ∈ N. Dann gilt
"r
#
√
N
α
β −α
β
(ZN −µ) ∈ x+ √ , x+ √
(4.13) lim N P
= √ exp(−x2 /2),
2
N →∞
σ
2π
N
N
x ∈ R, −∞ < α < β < ∞.
4.63 Für i.i.d., quadratintegrable Zufallsvariablen X , X , . . . mit E[X ] = µ und Var(X ) =
1
2
1
1
√
σ2 ∈ (0, ∞) zeigt Satz 4.10, daß aN = N µ und bN = N σ2 für N ∈ N zu wählen ist. Jedoch
kann auch für i.i.d. Zufallsvariablen
X1 , X2 , . . . , die nicht quadratintegrabel sind, Konvergenz
PN
von
k=1 Xk − aN /bN gegen eine normalverteilte Zufallsvariable vorliegen. Wenn z.B. die
−3
Verteilung von X1 eine Dichte f ∈ Cb (R) mit f (x) = f (−x), x ∈ R, und f (x)
R ∼ |x| , |x| → ∞,
besitzt, so ist E[|X1 |2 ] = ∞ und bei y → ∞ weiterhin P[|X1 | > y] ∼ y∞ dx |x|−3 ∼ y −2 ,
R
bzw. E[|X1 |2 I{|X1 |≤y|} ] ∼ 1y dx |x|−1 ∼ log y, d.h., (4.11) ist erfüllt. Die Überlegungen in [7],
√
Section 2.4, Example 4.8, zeigen, daß in diesem Fall aN = 0, bN = C N log N , N ∈ N, zu wählen
ist.
4.64
Wenn wie in Beispiel 4.4 die Zufallsvariablen
X1 , X2 , . . . eine Cauchy-Verteilung besitzen,
R
so gilt bei y → ∞ sowohl P[|X1 | > y] ∼ y∞ dx (1 + x2 )−1 ∼ y −1 als auch E[|X1 |2 I{|X1 |≤y|} ] ∼
Ry
dx x2 (1 + x2 )−1 ∼ y. In diesem Fall ist der Grenzwert in (4.11) strikt positiv, d.h., die in
0
Satz 4.13 beschriebene Konvergenz in Verteilung gegen eine normalverteilte Zufallsvariable ist
nicht möglich.
4.65
Für viele Familien Xk , k ∈ N, von reellwertigen, i.i.d. Zufallsvariablen ist die
Konvergenz
PN
in Verteilung reskalierter Fluktuationen von Partialsummen wie
k=1 Xk − aN /bN bei N →
∞ möglich. Auf die Frage, welche Limiten hierbei im Rahmen nicht-zentraler Grenzwertsätze
überhaupt möglich sind, wird in Abschnitt 4.2.4 eingegangen.
4.66Vgl. [7], Section 2.5, Theorem (5.4).
4.67ψ
Y ist die charakteristische Funktion einer reellwertigen Zufallsvariable Y , vgl. Anhang A.4.1. Es sei daraufhingewiesen, daß charakteristische Funktionen als wesentliches Hilfsmittel
beim Beweis von Satz 4.10 benutzt werden können, vgl. Anhang A.4.2.
4.68
Nach Theorem (5.1) in [7], Section 2.5, besagt die Bedingung (4.12), daß die Zufallsvariable X1 nicht auf einem Gitter in R konzentriert ist, d.h., es gibt kein b ∈ R und kein h > 0, so
daß P[X1 ∈ {b + hk : k ∈ Z}] = 1.
Auch wenn (4.12) nicht erfüllt ist, gilt ein (4.13) entsprechendes Resultat, vgl. [7], Section 2.5,
Theorem (5.2). Der Fall von i.i.d. Zufallsvariablen Xn , n ∈ N, die eine Bernoulli-Verteilung besitzen, wird auch in [10], Satz (5.19), betrachtet.
22. Juli 2014
59
(4.13) kann insbesondere in der an (4.9) erinnernden Form 4.69 4.70
"r
#
α
β
N
N →∞ β −α 1
(4.14) P
(ZN −µ) ∈ x+ √ , x+ √
∼ √ √ exp(−x2 /2),
σ2
N
N
N 2π
x ∈ R, −∞ < α < β < ∞,
präsentiert werden.
Der nun folgende Satz, ein Resultat über große Abweichungen, zeigt, daß auch in
asymptotisch sehr weit vom Ursprung entfernten“ Bereichen, die unter der stan”
dard Normalverteilung N(0, 1) eine asymptotisch verschwindende“ Wahrschein”
lichkeit haben, der Zentrale Grenzwertsatz in einer speziellen Formulierung gültig
bleibt.
Satz 4.15. 4.71 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige
PN
Zufallsvariablen und ZN = (1/N ) k=1 Xk , N ∈ N. Sei E[X1 ] = µ, Var(X1 ) =
σ 2 ∈ (0, ∞) und 4.72
(4.15)
Dann folgt
4.73
E[exp(ζX1 )] < ∞,
lim
N →∞
für ein α > 0.
#
N
(ZN − µ) > aN
σ2
Z ∞
=1
dx exp(−x2 /2)
"r
P
(4.16)
|ζ| ≤ α,
1
√
2π
für alle Folgen aN , N ∈ N, mit
4.74
aN
aN = o(N 1/6 ) bei N → ∞.
Es ist möglich, die Konvergenzgeschwindigkeit beim Zentralen Grenzwertsatz
zu präzisieren. Wenn die reellwertigen, i.i.d. Zufallsvariablen Xk , k ∈ N, nicht nur
quadratintegrabel sind, sondern darüberhinaus ein endliches drittes Moment besitzen 4.75, ist die Konvergenz in (4.9) gleichmäßig in −∞
√ ≤ a < b ≤ ∞, wobei
zusätzlich noch die Konvergenzgeschwindigkeit durch C/ N abgeschätzt werden
kann.
Satz 4.16 (Satz von Berry-Esseen). 4.76 Seien Xk , k ∈ N, unabhängige, idenPN
tisch verteilte, reellwertige Zufallsvariablen und ZN = (1/N ) k=1 Xk , N ∈ N. Sei
4.69(4.13) zeigt, daß der Quotient der beiden Seiten von (4.14) bei N → ∞ gegen 1 konver-
giert.
√
√
Wenn in (4.9) das Intervall (a, b) durch (x + (α/ N ), x + (β/ N )) ersetzt und die Ste2
tigkeit von R ∋ x → exp(−x /2) berücksichtigt wird, ergibt sich (4.14) auf eine formale Weise.
4.71Vgl. [9], Chapter XVI, Section 7.
4.72Es wird die Existenz von gewissen exponentiellen Momenten gefordert. Bei gleichmäßig
beschränkten Zufallsvariablen X1 ist (4.15) offenbar erfüllt. Diese Bedingung ist übrigens
äquivalent zur Forderung, daß die charakteristische Funktion ψX1 von X1 in einer Umgebung
des Ursprungs analytisch ist.
4.73Die Ähnlichkeit zwischen (4.16) und (4.9) oder (4.14) ist offensichtlich. Für Folgen spezieller Intervalle AN , N ∈ N, wird in diesen Resultaten jeweils gezeigt, daß
#
"r
N
N→∞
(Z
−
µ)
∈
A
∼ P[ζ ∈ AN ],
P
N
N
σ2
4.70
wobei ζ eine standard normalverteilte Zufallsvariable ist.
4.74Durch die Forderung a = o(N 1/6 ) bei N → ∞ wird sichergestellt, daß die Folge a ,
N
N
N ∈ N, nicht zu stark mit N anwächst.
4.75D.h., es gilt E[|X |3 ] < ∞.
1
4.76Vgl. [7], Section 2.4, Theorem (4.9).
22. Juli 2014
60
Symmetrische Irrfahrt in 1D; Gesetz vom iterierten Logarithmus:
Z(N)=(X(1)+...+X(N))/(sqrt(2*N*log(log(N)))), N=1,2,...; T=100000; 5 Simulationen
2.0
1.6
1.2
0.8
0.4
0
−0.4
−0.8
−1.2
−1.6
−2.0
0
1e4
2e4
3e4
4e4
5e4
6e4
7e4
8e4
9e4
10e4
Abbildung 4.1. Verdeutlichung des Gesetzes vom Iterierten Logarithmus mit unabhängigen, in {−1, 1} gleichverteilten Zufallsvariablen Xk , k ∈ N (N ≤ 100000, 5 Simulationen). Bei der
Durchführung der Simulationen fand das wissenschaftliche Softwarepaket Scilab, vgl. http://www.scilab.org/, Verwendung.
E[X1 ] = µ, Var(X1 ) = σ 2 ∈ (0, ∞) und E[|X1 |3 ] < ∞. Dann gilt
"r
#
Z y
x2 1
N
(4.17)
(ZN − µ) ≤ y − √
sup P
dx exp −
σ2
2 2π −∞
y∈R ≤
3E[|X1 − µ|3 ]
√
,
σ3 N
N ∈ N.
In Satz 4.10 wird für reskalierte Fluktuationen von normierten Partialsummen
von i.i.d. Zufallsvariablen die Asymptotik in Verteilung untersucht. Wenn die Reskalierung auf eine etwas merkwürdig erscheinende Weise modifiziert wird, kann auch
die f.s.-Asymptotik beschrieben werden.
Satz 4.17 (Gesetz vom Iterierten Logarithmus). 4.77 Seien Xk , k ∈ N, unabhängige,
identisch verteilte, reellwertige Zufallsvariablen mit E[X1 ] = µ und Var(X1 ) =
P
4.78
σ 2 ∈ (0, ∞). Sei außerdem ZN = (1/N ) N
:
k=1 Xk , N ∈ N. Dann gilt
r
N
1
(4.18)
(ZN − µ) = 1, f.s.,
lim sup p
2
σ
2 log(log N )
N →∞
r
1
N
p
lim inf
(ZN − µ) = − 1, f.s.
2
N →∞
σ
2 log(log N )
4.77Vgl. [5], Theorem 9.5.
4.78Eine Illustration des Gesetzes vom Iterierten Logarithmus ist durch Abbildung 4.1
gegeben.
22. Juli 2014
61
Als eine Verschärfung von (4.18) kann festgehaltenpwerden, daß die
p Menge der
Häufungspunkte des stochastischen Prozesses N → (1/ 2 log(log N )) N/σ 2 (ZN −
µ) bei N → ∞ das Intervall [−1, 1] ist 4.79.
4.2.3. Mehrdimensionaler Zentraler Grenzwertsatz. Bei der Übertragung von
Satz 4.10 auf Rd -wertige Zufallsvariablen muß berücksichtigt werden, daß eine Normalverteilung N(µ, C) in Rd durch einen Vektor µ ∈ Rd und eine symmetrische,
nichtnegativ-definite 4.80 d × d - Matrix C parametrisiert ist. Insbesondere ist eine
gemäß N(µ, C) verteilte Rd -wertige Zufallsvariable X = (X1 , . . . , Xd )T durch ihre
charakteristische Funktion
d
1 X
Ck,l λk λl , λ ∈ Rd ,
(4.19) ψX (λ) = E[exp(iλ · X)] = exp(iλ · µ) exp −
2
k,l=1
charakterisiert, wobei µk = E[Xk ], k = 1, . . . , d, und Ck,l = Cov(Xk , Xl ) =
E[(Xk − µk )(Xl − µl )], k, l = 1, . . . , d 4.81 4.82 4.83.
Eine Rd -wertige Zufallsvariable X mit der Verteilung PX = N(µ, C) hat eine Darstellung X = µ + AY , wobei 4.84 A ∈ Rd⊗d mit C = AAT , d.h., Ck,l =
Pd
T
n=1 Ak,n Al,n , k, l = 1, . . . , d, und Y = (Y1 , . . . , Yd ) mit unabhängigen, standard
4.85
.
normalverteilten Zufallsvariablen Y1 , . . . , Yd
4.79Der stochastische Prozeß N →
p
N/σ2 (ZN −µ) bleibt nach dem Zentralen Grenzwertsatz
bei N → ∞ in Verteilung
p beschränkt“. Damit er allerdings ”f.s. beschränkt“ bleibt, muß er aber
”
noch zusätzlich durch log(log N ) dividiert werden.
4.80Eine symmetrische d × d - Matrix C = (C )
k,l k,l=1,...,d wird nichtnegativ-definit genannt,
wenn
d
X
Ck,l xk xl ≥ 0, x = (x1 , . . . , xd )T ∈ Rd .
k,l=1
4.81µ ist der Erwartungswert und C die Kovarianzmatrix der Normalverteilung N(µ, C).
4.82
N(µ, C) besitzt nur dann eine Dichte bzgl. des Lebesguemaßes auf Rd , wenn C positiv
definit ist, d.h., wenn
d
X
k,l=1
Ck,l xk xl ≥ α
d
X
k=1
|xk |2 ,
x = (x1 , . . . , xd )T ∈ Rd ,
für ein α > 0. In diesem Fall besitzt C eine Inverse C −1 und die Dichte von N(µ, C) ist
d
1 X −1
1
√
exp −
f (x) =
Ck,l (xk − µk )(xl − µl ) , x ∈ Rd ,
2 k,l=1
(2π)d/2 det C
vgl. z.B. [6], Section 11.4. Wenn C nicht positiv definit ist, ist N(µ, C) auf einem niederdimensionalen affinen Unterraum des Rd konzentriert.
4.83
Wenn C = 0, d.h., wenn Ck,l = 0, k, l = 1, . . . , d, gilt X = µ, f.s. Insbesondere ist in
diesem Fall X deterministisch.
4.84A ist eine d × d - Matrix.
4.85Da die Verteilung einer Rd -wertigen Zufallsvariablen X durch deren charakteristische
Funktion eindeutig bestimmt ist, vgl. Anhang A.4.1.5, ist die Gültigkeit von (4.19) für X = µ+AY
nachzuweisen. Weil Y1 , . . . , Yd unabhängige, standard normalverteilte Zufallsvariablen sind, hat
Qd
−1/2 exp(−x2 /2) = (2π)−d/2 exp(−x2 /2), x ∈ Rd .
zunächst PY die Dichte f (x) =
k=1 (2π)
k
Überlegungen wie in Anhang A.4.1.4 ergeben nun ψY (λ) = exp(−λ2 /2), λ ∈ Rd . Aufgrund von
Anhang A.4.1.3 folgt schließlich
ψµ+AY (λ) = exp(iλ · µ) exp(−(AT λ)2 /2)
!
X
d
d d
1 X X
Al,n λl
Ak,n λk
= exp(iλ · µ) exp −
2 n=1 k=1
l=1
!
d d
1 X X
Ak,n Al,n λk λl
= exp(iλ · µ) exp −
2 k,l=1 n=1
22. Juli 2014
62
Satz 4.18. 4.86 Seien Xk , k ∈ N, i.i.d., Rd -wertige, quadratintegrable Zufallsvariablen mit E[X1 ] = µ und Kovarianzmatrix 4.87 C = (E[(X1,p − µp )(X1,q −
PN
µq )])p,q=1,...,d . Außerdem sei ZN = (1/N ) k=1 Xk , N ∈ N. Dann gilt
√
lim N (ZN − µ) = ζ in Verteilung, wobei Pζ = N(0, C).
N →∞
4.2.4. Nicht-zentrale Grenzwertsätze. Aufgrund von Resultaten wie Satz 4.10
oder Satz 4.13 kann die Bedeutung der standard Normalverteilung µ = N(0, 1) in der
Wahrscheinlichkeitstheorie auch durch folgende Eigenschaft ausgedrückt werden:
(Zµ ) Es gibt reellwertige, i.i.d. Zufallsvariablen Xk , k ∈ N, und eine Folge
(aN , bN ), N ∈ N mit bN > 0, N ∈ N, so daß die reskalierten FluktuaPN
tionen (SN − aN )/bN der Partialsummen SN = k=1 Xk bei N → ∞ in
Verteilung gegen eine Zufallsvariable η mit Verteilung Pη = µ konvergieren 4.88.
Wie in Beispiel 4.4 demonstriert wird, gilt auch für die Cauchy-Verteilung µ1 mit
der Dichte f1 (x) = (π(1 + x2 ))−1 , x ∈ R, die entsprechende Eigenschaft (Zµ1 ) 4.89.
Sei Z die Klasse jener Wahrscheinlichkeitsmaße µ auf (R, B(R)), die die Eigenschaft (Zµ ) besitzen. Offensichtlich tritt jedes µ ∈ Z in einem zum Zentralen
Grenzwertsatz analogen Resultat (Rµ ) als Grenzverteilung“ in Erscheinung 4.90.
”
Wenn µ keine Normalverteilung ist, bezeichnet man ein solches (Rµ ) als einen
nicht-zentralen Grenzwertsatz.
Genaue Informationen über die Klasse Z, die nach obigen Ausführungen zumindest Normalverteilungen und Cauchy-Verteilungen enthält, gibt folgendes Resultat.
Satz 4.19. 4.91 Ein Wahrscheinlichkeitsmaß µ auf (R, B(R)) besitzt genau dann
die Eigenschaft (Zµ ), d.h., µ ∈ Z, wenn µ eine stabile Verteilung ist.
Hierbei wird µ stabil genannt, wenn es für alle k ∈ N i.i.d. Zufallsvariablen
Y1 , . . . , Yk mit PY1 = µ und Konstanten ak ∈ R, bzw. bk > 0 gibt, so daß
P(Y1 +···+Yk −ak )/bk = µ.
Nach der Definition stabiler Verteilungen ist die erste Hälfte von Satz 4.19,
nämlich daß Z die Menge der stabilen Verteilungen umfaßt, offensichtlich.
Mit Hilfe von charakteristischen Funktionen lassen sich stabile Verteilungen µ
recht übersichtlich charakterisieren 4.92. Entweder ist µ eine Normalverteilung oder
es gibt einen Exponenten α ∈ (0, 2), so daß die charakteristische Funktion einer
= exp(iλ · µ) exp −
!
d
1 X
Ck,l λk λl ,
2 k,l=1
λ ∈ Rd ,
womit (4.19) gezeigt ist.
4.86
Vgl. [6], Theorem 11.10.
4.87Für k ∈ N sei X = (X , . . . , X
T
k
k,1
k,d ) .
4.88Satz 4.13 besagt, daß mit jeder Folge X , k ∈ N, von i.i.d. Zufallsvariablen, die (4.11)
k
erfüllen, die Gültigkeit von (Zµ ) für µ = N(0, 1) nachgewiesen werden kann. Wenn Xk , k ∈ N,
2
sogar quadratintegrabel
√ mit Var(X1 ) = σ ∈ (0, ∞) und E[X1 ] = m sind, impliziert Satz 4.10,
daß (aN , bN ) = (N m, N σ2 ), N ∈ N, gewählt werden kann.
4.89Aufgrund von Beispiel 4.4 kann (Z ) für i.i.d. Zufallsvariablen X , k ∈ N, mit P
µ1
X1 = µ1
k
verifiziert werden, wenn (aN , bN ) = (0, N ), N ∈ N, angenommen wird.
4.90Zur genauen Formulierung eines Resultats (R ) wäre insbesondere eine Menge K von
µ
µ
Wahrscheinlichkeitsmaßen auf (R, B(R)) anzugeben, so daß für alle Familien Xk , k ∈ N, von i.i.d.
Zufallsvariablen mit PX1 ∈ Kµ für eine geeignete Folge (aN , bN ), N ∈ N, mit bN > 0, N ∈ N,
P
die reskalierten Fluktuationen (SN − aN )/bN der Partialsummen SN = N
k=1 Xk bei N → ∞ in
Verteilung gegen eine Zufallsvariable η mit Verteilung Pη = µ konvergieren.
4.91Vgl. [7], Section 2.7, Theorem (7.15).
4.92Vgl. [6], Theorem 9.27 und Theorem 9.32.
22. Juli 2014
63
Zufallsvariable Y mit PY = µ die Darstellung R ∋ λ → ψY (λ) = exp(ϕ(λ)) mit
(
icλ − d|λ|α (1 + iκ sgn(λ) tan(πα/2)), λ ∈ R, α ∈ (0, 2) \ {1},
ϕ(λ) =
icλ − d|λ|(1 + iκ sgn(λ)2 log(|λ|)/π), λ ∈ R, α = 1,
wobei c ∈ R, d > 0, κ ∈ [−1, 1], besitzt 4.93.
4.2.5. Zentraler Grenzwertsatz für abhängige Zufallsvariablen. Durch das Beispiel 4.12 wird deutlich, daß für eine Folge Xk , k ∈ N, von reellwertigen, identisch
verteilten, quadratintegrablen Zufallsvariablen Abhängigkeiten zwischen diesen die
Gültigkeit eines Zentralen Grenzwertsatzes 4.94 verhindern können. Ein solches Resultat kann jedoch durchaus gelten, wenn nur für solche Zufallsvariablen Xk und
Xl , die benachbart“ sind, d.h., mit nicht zu großem Abstand |k−l|, eine merkliche
”
”
Abhängigkeit“ besteht.
Zu einer mathematischen Präzisierung dieser vagen Formulierungen sei X =
(Xk )k∈N ein reellwertiger, stationärer Prozeß 4.95 und α = (αk )k∈N eine Folge in
(0, ∞) mit limk→∞ αk = 0. X heißt α-mischend, wenn 4.96 4.97
(4.20) sup |P[A ∩ B] − P[A]P[B]| :
A ∈ σ(X1 , ..., Xn ), B ∈ σ(Xn+k , Xn+k+1 , ...), n ∈ N ≤ αk , k ∈ N.
Ein Beispiel für einen Zentralen Grenzwertsatz für abhängige Zufallsvariablen ist
nun 4.98:
Satz 4.20. 4.99 Sei X = (Xk )k∈N ein α-mischender, reellwertiger, stationärer Prozeß, wobei 4.100
(4.21)
E[|X1 |12 ] < ∞
αn = O(n−5 ) bei n → ∞.
PN
= (1/N ) k=1 Xk , N ∈ N. Dann gilt
und
Sei außerdem µ = E[X1 ] und ZN
√
(4.22)
lim N (ZN − µ) = ζ
N →∞
4.101
in Verteilung, wobei Pζ = N(0, σ 2 ).
Hierbei ist
(4.23)
σ 2 = lim
1
Var(X1 + · · · + XN )
N
∞
X
Var(X1 ) + 2
Cov(X1 , Xk ),
N →∞
=
4.102
k=2
4.93Für α = 1 und κ = 0 liegt eine Cauchy-Verteilung vor, vgl. hierzu Beispiel 4.4, wo die
charakteristische Funktion einer Zufallsvariable mit einer Cauchy-Verteilung
angegeben wird.
√
4.94D.h., die Konvergenz in Verteilung bei N → ∞ von N (1/N ) PN X − E[X ] gegen
1
k=1 k
eine normalverteilte Zufallsvariable.
4.95Vgl. Abschnitt 2.5.
4.96(4.20) besagt, daß die Abhängigkeit zweier Ereignisse gleichmäßig klein wird, sobald ihre
zeitliche Distanz“ groß wird. Jene Abnahme der Abhängigkeit bei wachsender zeitlicher Entfer”
nung kann durch die Folge α quantifiziert werden.
4.97
σ-Algebren σ(Φ), wobei Φ eine Familie von Zufallsvariablen ist, werden in Abschnitt 3.1.4
beschrieben.
4.98Weitere Beispiele können z.B. aus den in [7], Section 7.7, vorgestellten Resultaten entnommen werden. Insbesondere werden dort auch Zentrale Grenzwertsätze für Martingale, vgl.
Abschnitt 4.4, präsentiert.
4.99Vgl. [5], Theorem 27.4.
4.100Die Bedingungen (4.21) könnten abgeschwächt werden. Sie dienen der Vereinfachung des
Beweises von Satz 4.20, vgl. [5], Theorem 27.4.
4.101Als α-mischender stochastischer Prozeß ist X auch ergodisch, vgl. Fußnote 4.31. Als
Konsequenz folgt aus dem Ergodensatz, vgl. Abschnitt 4.1.3, daß limN→∞ ZN = µ, f.s. und in L1 .
22. Juli 2014
64
wobei die Reihe in (4.23) absolut konvergiert.
4.2.6. Ein funktionaler Zentraler Grenzwertsatz. 4.103 Wie beim Gesetz der
großen Zahlen 4.104 gibt es auch für den Zentralen Grenzwertsatz ∞-dimensionale
Varianten. Ein bekanntes Beispiel ist die
(4.24)
Konvergenz einer reskalierten symmetrischen Irrfahrt
”
gegen die Brownsche Bewegung“.
Formale Überlegungen zu (4.24) finden sich in Abschnitt 4.5.1 4.105, während eine
präzise Formulierung von (4.24) zusammen mit einem rigorosen Beweis in Beispiel 5.34 gegeben wird 4.106. In diesem Abschnitt 4.2.6 wird als Ausblick im wesentlichen eine Erläuterung der verschiedenen Begriffe in (4.24) gegeben:
• Für i.i.d. Zufallsvariablen ξk , k ∈ N, mit P[ξ1 = −1] = P[ξ1 = 1] = 1/2
ist in Z die symmetrische Irrfahrt 4.107 X = (Xn )n∈N0 durch 4.108
Xn =
n
X
n ∈ N0 ,
ξk ,
k=1
definiert.
• Reskalierte symmetrische Irrfahrten XN = (XtN )t≥0 , N ∈ N, ergeben sich
durch Anwendung der beim Zentralen Grenzwertsatz üblichen Reskalierung für Summen von i.i.d., quadratintegrablen Zufallsvariablen auf die
Irrfahrt X. Insbesondere ist 4.109
XtN
(4.25)
4.102Wenn P∞
k=2
⌊tN ⌋
1 X
√
ξk ,
=
N k=1
t ≥ 0, N ∈ N.
Cov(X1 , Xk ) absolut konvergiert, gilt
1
1
Var(X1 + · · · + XN ) =
N
N
N
X
X
Var(Xk ) +
k=1
!
Cov(Xk , Xl )
k,l=1,...,N
k6=l
|
=2
{z
N
N
X
X
}
Cov(Xk , Xl )
k=1 l=k+1
=
1
N
N Var(X1 ) + 2
= Var(X1 ) +
N→∞
→
N
N
X
X
k=1 l=k+1
Cov(X1 , Xl−k+1 )
N N−k+1
2 X X
Cov(X1 , Xm )
N k=1 m=2
Var(X1 ) + 2
∞
X
(da X stationär ist)
(mit der Variablensubstitution m = l−k+1)
Cov(X1 , Xm ).
m=2
4.103
Die Bezeichnung funktional deutet an, daß ein Zentraler Grenzwertsatz in einem Funktionenraum betrachtet wird. In diesem Abschnitt ist dies C([0, T ]; R) für T > 0, vgl. Beispiel 3.2.
4.104
Vgl. Abschnitt 4.1.4.
4.105Jene formalen Überlegungen dienen dazu, Eigenschaften des Grenzprozesses“ reskalier”
ter Irrfahrten festzuhalten. Diese Eigenschaften führen letztendlich in Abschnitt 4.5.1 zu einer
Definition der Brownschen Bewegung.
4.106Beispiel 5.34 ist ein Spezialfall des Donskerschen Invarianzprinzips, vgl. Satz 5.35, des
klassischen funktionalen und damit ∞-dimensionalen Zentralen Grenzwertsatzes.
4.107Vgl. Beispiel 2.9 und Fußnote 2.69.
4.108Man beachte, daß insbesondere X = 0 festgesetzt wird.
0
4.109Analog zu (4.8) wird für jedes t > 0 eine Summe von O(N ) i.i.d., quadratintegrablen
√
Zufallsvariablen mit Erwartungswert 0 durch N dividiert.
22. Juli 2014
65
Um die symmetrische Irrfahrt als stochastischen Prozeß zu reskalieren,
wird in (4.25) die für den Zentralen Grenzwertsatz übliche Reskalierung
simultan für alle Zeitpunkte t ≥ 0“ angewandt 4.110.
”
• Durch lineare Interpolation zwischen den Sprungzeitpunkten, d.h., mit
etN
X
:=
(
N
N
(n+1−tN )Xn/N
+(tN −n)X(n+1)/N
, t ∈ (n/N, (n+1)/N ),
N
Xn/N
,
t = n/N,
n ∈ N0 ,
N ∈ N,
e N = (X
e N )t≥0 der Prozesse XN .
entstehen stetige Approximationen X
t
• Die Brownsche Bewegung B = (Bt )t≥0 ist ein reellwertiger stochastischer Prozeß mit stetigen Pfaden 4.111 und B0 = 0, f.s., dessen endlichdimensionale Verteilungen 4.112 durch die durch 4.113
(4.26)
P[Bt1 ∈ A1 , Bt2 ∈ A2 , . . . , Btn ∈ An ]
Z
Z
dx2 πt2 −t1 (x1 , x2 )
dx1 πt1 (0, x1 )
=
A2
A1
Z
dxn πtn −tn−1 (xn−1 , xn ),
...
An
0 < t1 < · · · < tn < ∞, A1 , . . . , An ∈ B(R), n ∈ N,
mit
(y − x)2
1
exp −
,
πu (x, y) = √
2u
2πu
x, y ∈ R, 0 < u < ∞,
charakterisierten Normalverteilungen gegeben sind.
e N , N ∈ N, und B auf das Zeitinter• Für T > 0 seien die stetigen Prozesse X
vall [0, T ] eingeschränkt. Jene Prozesse können nun auch als Zufallsvariablen mit Werten in 4.114 (C([0, T ]; R), B(C([0, T ]; R))) betrachtet werden.
Der durch (4.24) umschriebene funktionale Zentrale Grenzwertsatz lautet
jetzt 4.115
e N = B, in Verteilung.
lim X
N →∞
4.110Aufgrund von (4.25) ist XN ein reellwertiger stochastischer Prozeß, der in 0 startet und
in √
den Zeitpunkten
√ n/N , n ∈ N0 , jeweils mit Wahrscheinlichkeit 1/2 einen Sprung der Größe
1/ N , bzw. −1/ N macht. In den Zeitintervallen [n/N, (n + 1)/N ), n ∈ N0 , ist XN konstant. In
allen Sprungzeitpunkten n/N , n ∈ N0 , ist die Sprungrichtung unabhängig von der Vergangenheit
XuN , u < n/N , von XN .
4.111Falls ein stochastischer Prozeß X = (X )
t t≥0 auf dem Wahrscheinlichkeitsraum (Ω, F, P)
definiert ist, bedeutet die Stetigkeit der Pfade, daß P[{ω ∈ Ω : [0, ∞) → Xt (ω) stetig}] = 1.
4.112Die Verteilung eines reellwertigen stochastischen Prozesses X = (X )
t t≥0 mit stetigen
Pfaden ist durch seine endlich-dimensionalen Verteilungen, d.h., durch die Größen
P[Xt1 ∈ A1 , Xt2 ∈ A2 , . . . , Xtn ∈ An ],
0 ≤ t1 < · · · < tn < ∞, A1 , . . . , An ∈ B(R), n ∈ N,
eindeutig bestimmt.
4.113
Eine Begründung, bzw. Herleitung von (4.26) findet sich in Abschnitt 4.5.2, vgl. (4.81).
4.114Vgl. Beispiel 3.2. Für einen auf einem Wahrscheinlichkeitsraum (Ω, F, P) definierten
stetigen, reellwertigen Prozeß X = (Xt )0≤t≤T ist durch die Zuordnung Ω ∋ ω → ([0, T ] ∋ t →
Xt (ω)) eine C([0, T ]; R)-wertige Zufallsvariable gegeben.
4.115In Fußnote 3.75 wurde daraufhingewiesen, daß die Konvergenz in Verteilung auch für
Zufallsvariablen mit Werten in topologischen Räumen betrachtet werden kann.
22. Juli 2014
66
4.3. Markovprozesse. Die elementarsten Beispiele für Markovprozesse 4.116
sind Markovketten, d.h. Markovprozesse in diskreter Zeit mit Werten in einem diskreten, d.h. höchstens abzählbaren Zustandsraum. Neben solchen Prozessen wird
in diesem Abschnitt auch auf Markovprozesse mit einem diskreten Zustandsraum,
aber in kontinuierlicher Zeit eingegangen.
4.3.1. Markovketten. Ein stochastischer Prozeß X = (Xn )n∈N0 in diskreter Zeit
mit Werten in einem höchstens abzählbaren Zustandsraum S heißt Markovkette,
falls 4.117
(4.27) P Xn+k = s′ | X0 = s0 , . . . , Xn−1 = sn−1 , Xn = sn
{z
} | {z }
| {z } |
Zukunft
Vergangenheit
= P Xn+k = s′ |Xn = sn ,
Gegenwart
n ∈ N0 , k ∈ N, s0 , s1 , . . . , sn , s′ ∈ S.
Zur Charakterisierung der zukünftigen Entwicklung einer Markovkette reicht
also die Kenntnis des gegenwärtigen Zustandes aus. Die Kenntnis der zeitlichen
Entwicklung in der Vergangenheit bringt in diesem Fall keinen Informationsgewinn.
Die bedingten Wahrscheinlichkeiten
Pn (s1 , s2 ) = P Xn+1 = s2 |Xn = s1 , s1 , s2 ∈ S, n ∈ N0 ,
heißen (1-Schritt-) Übergangswahrscheinlichkeiten. Sie werden zu den (1-Schritt-)
Übergangsmatrizen Pn = (Pn (s, s′ ))s,s′ ∈S , n ∈ N0 , zusammengefaßt. Eine Markovkette besitzt stationäre Übergangswahrscheinlichkeiten, falls Pn = P unabhängig
von n ist 4.118.
Unter der Verteilung einer Markovkette X = (Xn )n∈N0 versteht man die gemeinsame Verteilung der Zufallsvariablen 4.119 Xn , n ∈ N0 .
Satz 4.21. 4.120 Die Verteilung einer Markovkette X = (Xn )n∈N0 mit einem diskreten Zustandsraum S ist durch ihre Übergangsmatrizen und ihre Anfangsverteilung,
d.h., die Verteilung PX0 von X0 , eindeutig bestimmt. Es gilt
(4.28) P X0 = s0 , X1 = s1 , . . . , Xn−1 = sn−1 , Xn = sn
= PX0 [s0 ]P0 (s0 , s1 ) · · · Pn−1 (sn−1 , sn ),
s0 , s1 , . . . , sn ∈ S, n ∈ N0 .
Im Rest dieses Abschnitts werden nur Markovketten mit stationären Übergangswahrscheinlichkeiten betrachtet.
Beispiel 4.22. Sei ζn , n ∈ N, eine Folge von unabhängigen, identisch verteilten
Zufallsvariablen mit Werten in Z. Außerdem sei X = (Xn )n∈N0 durch
X0 = 0,
Xk =
k
X
ζl ,
k = 1, 2, . . . ,
l=1
4.116Eine kurze, allgemeine Beschreibung von Markovprozessen wurde in Abschnitt 2.5, insbesondere in Fußnote 2.73, gegeben.
4.117Stillschweigend sei angenommen, daß P[X = s , . . . , X = s ] > 0. Nur in diesem Fall
n
n
0
0
sind mit (2.9) die beiden Seiten von (4.27) wohldefiniert.
4.118In diesem Fall besitzt die Markovkette X eine zeitlich homogene Dynamik. Allerdings ist
eine Markovkette mit stationären Übergangswahrscheinlichkeiten i. allg. kein stationärer Prozeß,
vgl. Abschnitt 2.5. Dies wird am Beispiel der im Ursprung startenden symmetrischen Irrfahrt, vgl.
Satz 4.23, deutlich.
4.119Vgl. Abschnitt 2.2.1.
4.120Ein Beweis dieses Satzes ist in Anhang A.4.3 enthalten. Dort wird auch erläutert,
inwiefern die Verteilung von X als ein Wahrscheinlichkeitsmaß PX auf dem meßbaren Raum
(S N0 , Pot(S)⊗N0 ) betrachtet werden kann. Vgl. dazu auch Fußnote 2.34.
22. Juli 2014
67
definiert. X ist eine Markovkette mit dem Zustandsraum Z und der Übergangsmatrix 4.121
P = (P[Xn+1 = q|Xn = p])p,q∈Z = (P[ζn+1 = q − p])p,q∈Z


..
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


 . . . a0
a1
a2 . . . . . . . 


. . . a−1 a0
a 1 a 2 . . .

,
= (P[ζ1 = q − p])p,q∈Z = 

 . . . . . . . . a−1 a0 a1 . . .
. . . . . . . . . . . . . . a−1 a0 . . .


.. ..
.
.
....................
(4.29)
wobei ak = P[ζ1 = k], k ∈ Z. Ein Spezialfall ist die schon in Beispiel 2.9 vorgestellte
symmetrische Irrfahrt, für die a−1 = a1 = 1/2 und ak = 0, k ∈ Z \ {−1, 1}, ist.
Als Verallgemeinerung der (1-Schritt-)Übergangswahrscheinlichkeiten werden
die n-Schritt-Übergangswahrscheinlichkeiten durch
P n (s1 , s2 ) = P[Xn+m = s2 |Xm = s1 ]
4.122
,
m, n ∈ N0 , s1 , s2 ∈ S,
definiert. Diese n-Schritt-Übergangswahrscheinlichkeiten genügen der ChapmanKolmogorov-Gleichung, d.h., 4.123
X
(4.30) P n (s1 , s2 ) =
P k (s1 , s)P l (s, s2 ), k, l, n ∈ N0 , k + l = n, s1 , s2 ∈ S.
s∈S
Im Rest diese Abschnitts 4.3.1 werden im Rahmen von zwei speziellen Beispielen allgemeine Fragestellungen zur Asymptotik von Markovketten bei großen Zeiten
angesprochen.
Satz 4.23.
4.124
Sei X = (Xn )n∈N0 die symmetrische Irrfahrt in Zd , d.h.,
X0 = 0, f.s.,
P[Xn+1 = k ± eq |Xn = k] =
1
,
2d
n ∈ N0 , k ∈ Zd , q = 1, . . . , d.
Dann gilt
P[Xn = 0 für ein n = 1, 2, . . . ]
(
= 1,
< 1,
4.125
falls d = 1, 2,
falls d = 3, 4, . . . .
4.121In den Übergangsmatritzen der in diesem Beispiel beschriebenen verallgemeinerten Irr-
fahrten geht jeweils die (n + 1)-te Zeile aus der n-ten Zeile durch Verschieben um eine Spalte
”
nach rechts“ hervor.
4.122Da hier nur Markovketten mit stationären Übergangswahrscheinlichkeiten betrachtet
werden, sind P[Xn+m = s2 |Xm = s1 ], m, n ∈ N0 , s1 , s2 ∈ S, von m unabhängig.
4.123Der Weg vom Startpunkt s nach s in n Schritten führt durch einen Zwischenzustand
1
2
s ∈ S nach k Schritten. Wegen der Markoveigenschaft hat bedingt unter dem Start in s1 der
k Schritte
l Schritte
Weg s1 −−−−−−−→ s −−−−−−→ s2 für ein festes s die Wahrscheinlichkeit P k (s1 , s)P l (s, s2 ), vgl.
Satz 4.21. Die Übergänge durch die verschiedenen möglichen Zwischenzustände s entsprechen
disjunkten Ereignissen, d.h., ihre jeweiligen unter dem Start in s1 bedingten Wahrscheinlichkeiten
addieren sich zur gesamten unter dem Start in s1 bedingten Wahrscheinlichkeit P n (s1 , s2 ), nach
n Schritten s2 zu erreichen.
4.124Vgl. z.B. [20], Chapter 2, Section 6, Example 1 - 3. Jene Überlegungen basieren auf
[20], Chapter 2, Theorem 5.1, einem allgemeinen Rekurrenzkriterium für Markovketten.
4.125e ist der Einheitsvektor in die q-te Koordinatenrichtung. Bei der symmetrischen Irrq
fahrt werden zu jedem Zeitpunkt im nächsten Schritt alle 2d Nachbarpunkte mit gleicher Wahrscheinlichkeit erreicht. Bei einer nichtsymmetrischen Irrfahrt sind diese Sprungwahrscheinlichkeiten unterschiedlich.
22. Juli 2014
68
700
600
500
|X|
400
300
200
100
0
0
20000
40000
60000
80000
100000
Zeit
Abbildung 4.2. Betrag der symmetrischen Irrfahrt in Z2 . Zeitdauer = 100000, 4 Simulationen.
Satz 4.23 besagt, daß für d = 1 und d = 2 die symmetrische Irrfahrt in Zd
rekurrent ist, d.h., sie kehrt f.s. wieder an ihren Startpunkt 0 zurück. Für d ≥ 3 andererseits ist die symmetrische Irrfahrt transient, d.h., sie kehrt mit einer positiven
Wahrscheinlichkeit nie wieder an ihren Startpunkt 0 zurück 4.126.
Das Resultat von Satz 4.23 wird in den Abbildungen 4.2 - 4.4 durch Darstellungen von Simulationsergebnissen verdeutlicht 4.127.
Beispiel 4.24. Zur Modellierung der zeitlichen Entwicklung einer Population sei
angenommen, daß
•
•
•
•
die Menge der Zeitpunkte diskret ist, daß es
keine Unterschiede zwischen den einzelnen Individuen gibt
die Individuen voneinander unabhängig sind, und daß
ihre Lebensdauer gleich 1 ist 4.129.
4.128
, daß
Diese Vorgaben werden bei der mathematischen Modellierung realisiert durch die
Annahme, daß zu jedem Zeitpunkt n ∈ N0 jedes dann lebende Individuum unabhängig von den anderen eine zufällige Anzahl von Nachkommen hat und dann
stirbt. Die Anzahl der Nachkommen habe die Verteilung b = (bk )k∈N0 .
Für n ∈ N0 sei Xn die Größe der Population zum Zeitpunkt n. Außerdem sei
ζnl , n ∈ N0 , l ∈ N, eine Familie von N0 -wertigen, i.i.d. Zufallsvariablen mit der
4.126Die Charakterisierung von Rekurrenzeigenschaften ist ein typisches Problem bei der
Untersuchung von Markovketten, vgl. z.B. [20], Chapter 2, Sections 5 - 7.
4.127Diese Simulationen demonstrieren, daß die symmetrische Irrfahrt in Zd eine mit wachsendem d geringer werdende Tendenz, zum Startpunkt zurückzukehren, besitzt.
4.128Insbesondere gibt es nur ein Geschlecht.
4.129Der auf diesen Modellannahmen basierende, hier vorgestellte einfache Verzweigungsprozeß läßt sich auf Bemühungen im 18. und 19. Jahrhundert, das Anwachsen und Aussterben
von Adelsfamilien zu beschreiben, zurückführen. In einem solchen Zusammenhang entspricht eine
Zeiteinheit einer Generation.
22. Juli 2014
69
250
200
|X|
150
100
50
0
0
2000
4000
6000
8000
10000
Zeit
Abbildung 4.3. Betrag der symmetrischen Irrfahrt in Z3 . Zeitdauer = 10000, 10 Simulationen.
500
450
400
350
|X|
300
250
200
150
100
50
0
0
2000
4000
6000
8000
10000
Zeit
Abbildung 4.4. Betrag der symmetrischen Irrfahrt in Z10 . Zeitdauer = 10000, 2 Simulationen.
Verteilung
4.130
b, d.h., P[ζnl = m] = bm , n, m ∈ N0 , l ∈ N. Der stochastische
4.130Mit der Zufallsvariablen ζ l kann die Anzahl der Nachkommen des l-ten zur Zeit n
n
lebenden Individuums modelliert werden. Da die Populationsgröße zur Zeit n a priori unbekannt
l für alle n ∈ N eingeführt.
ist, werden die Zufallsvariablen ζn
22. Juli 2014
70
Prozeß X = (Xn )n∈N0 kann nun durch die Beziehung
(4.31)
Xn+1 =
Xn
X
ζnl ,
l=1
n ∈ N0 ,
repräsentiert werden. X ist eine Markovkette mit Zustandsraum S = N0 und den
Übergangswahrscheinlichkeiten
(4.32) P[Xn+1 = k|Xn = j] =
=
P[ζn1 + · · · + ζnj = k]

X
4.132

bl1 · · · blj , j ∈ N, n, k ∈ N0 ,


4.131
l1 ,...,lj =0,1,...,k
l1 +···+lj =k


4.133 δ ,
k,0
j = 0, n, k ∈ N0 .
Das durch (4.31) oder (4.32) zusammengefaßte Modell wird auch Galton-WatsonProzeß genannt.
Angesichts von Simulationsergebnissen, wie z.B. in Abbildung 4.5, drängen sich
die folgenden Fragen auf.
• Unter welchen Bedingungen, bzw. mit welcher Wahrscheinlichkeit stirbt
ein Galton-Watson-Prozeß aus?
• Wie sieht unter der Bedingung, daß die Population nicht ausstirbt, das
asymptotische Verhalten von Xn bei n → ∞ aus?
Satz 4.25. 4.134 Sei X = (Xn )n∈N0 der Galton-Watson-Prozeß zur
P∞Nachkommit
X
=
1.
Insbesondere
seien
m
=
mensverteilung
b
=
(b
)
0
k
k∈N
0
k=0 kbk und
P∞
σ 2 = k=0 k 2 bk − m2 Erwartungswert und Varianz von b 4.135. Dann gilt 4.136

1,



1,
(4.33) P[Xn = 0 für ein n ∈ N0 ] 4.137 = q =
ρ ∈ (0, 1),



0,
falls
falls
falls
falls
m < 1, 4.138
m = 1, b0 > 0,
m > 1, b0 > 0,
b0 = 0. 4.140
4.139
4.131Vgl. (4.31).
4.132Die Wahrscheinlichkeit, daß das 1. Individuum l Nachkommen, das 2. Individuum l
1
2
Nachkommen, . . . und das j. Individuum lj Nachkommen hat, ist aufgrund der Unabhängigkeit
der Individuen gleich bl1 bl2 · · · blj . Die hier angesprochenen Ereignisse sind für unterschiedliche
Sequenzen l1 , l2 , . . . , lj disjunkt, d.h., ihre jeweiligen Einzelwahrscheinlichkeiten addieren sich. In
(4.32) findet auch die Annahme, daß die einzelnen Individuen nach der Erzeugung ihrer Nachkommen sterben, Beachtung.
4.133
Wenn Xn = 0, so ist die Population zum Zeitpunkt n und damit auch in den zukünftigen
Zeitpunkten n + 1, n + 2, . . . ausgestorben. In diesem Fall folgt Xn+1 = Xn+2 = · · · = 0, f.s.
4.134Vgl. [17], Chapter 2, insbesondere Theorem (2.3.1) und Lemma (2.9.1). Satz 4.25 wird
in Anhang A.4.4 und in Abschnitt 4.4, vgl. insbesondere Beispiele 4.36 und 4.44, bewiesen werden.
4.135m ist damit die mittlere Nachkommenszahl eines Individuums.
4.136
Die Fälle m < 1 und m = 1, b0 > 0 werden in Beispiel 4.36 im Rahmen einer Anwendung
eines Konvergenzsatzes für Submartingale diskutiert. Die genaue Behandlung des Falls m > 1,
b0 > 0 findet sich im Anhang A.4.4. Der Fall b0 = 0 ist trivial.
22. Juli 2014
71
3000
Bevoelkerungsgroesse
2500
2000
1500
1000
500
0
0
20
40
60
80
100
Zeit
Abbildung 4.5. 20 Simulationen eines Verzweigungsprozesses
mit b0 = 0.25, b1 = 0.5, b2 = 0.2 und b3 = 0.05. In 3 Fällen
überlebt die Population bis zum Zeitpunkt 100.
Hierbei ist ρ die kleinste Lösung von
(4.34)
s = φb (s) =
4.141
∞
X
b k sk ,
k=0
s ∈ [0, 1].
e mit
Wenn m > 1 und σ 2 < ∞, gibt es eine [0, ∞)-wertige Zufallsvariable X
4.142
4.143 4.144
2
2
e
Var(X) = σ /(m − m)
, so daß
Xn
e f.s. und in L2 .
=X
mn
4.3.2. Markovprozesse in kontinuierlicher Zeit mit diskretem Zustandsraum.
Ein stochastischer Prozeß X = (Xt )t≥0 4.145 mit Werten in einem diskreten, d.h.,
(4.35)
lim
n→∞
4.137Wenn X = 0 für ein n ∈ N , so ist offensichtlich X = 0 für alle k = n, n + 1, . . . , d.h.,
n
0
k
die Population stirbt aus. q ist daher die Aussterbewahrscheinlichkeit.
4.138
Wenn in einer Population im Mittel weniger Individuen geboren werden als sterben,
stirbt diese aus.
4.139
Wenn b0 > 0 hat jedes Individuum mit positiver Wahrscheinlichkeit keinen Nachkommen. Daher besteht zu jedem Zeitpunkt mit positiver Wahrscheinlichkeit die Möglichkeit, daß die
Population ausstirbt. Die Aussterbewahrscheinlichkeit ist folglich auf jeden Fall strikt positiv.
4.140
Jedes Individums hat mindestens einen Nachkommen. In diesem Fall kann die Population
nicht aussterben.
4.141φ mit φ (s) = P∞ b sk , s ∈ [0, 1], ist die erzeugende Funktion der Nachkommensb
b
k=0 k
verteilung b.
4.142Wenn σ2 > 0, ist Var(X)
e > 0. Dann ist X
e nichttrivial, d.h., nicht in einem Punkt
konzentriert.
n→∞ e
4.143
e > 0, liegt geometrisches oder exponentielles
Es gilt somit Xn ∼ X
· mn , d.h., wenn X
Wachstum vor, vgl. Abbildung 4.5.
4.144
Die f.s.-Konvergenz in (4.35) folgt aus einem Konvergenzsatz für Submartingale, vgl.
Satz 4.34 und Beispiel 4.36. Zum Nachweis der L2 -Konvergenz wird in Beispiel 4.44 ebenfalls mit
Martingaltechniken gearbeitet.
4.145Das Zeitintervall kann auch beschränkt sein, z.B. [a, b], 0 ≤ a < b < ∞.
22. Juli 2014
72
höchstens abzählbaren Zustandsraum S 4.146 heißt Markovprozeß, falls 4.147
(4.36)
P[Xt+h = sσ(Xu , 0 ≤ u ≤ t)] 4.148 = P[Xt+h = sσ(Xt )] 4.149,
t, h ≥ 0, s ∈ S.
Die bedingten Wahrscheinlichkeiten
Pt,t′ (s, s′ ) = P[Xt′ = s′ |Xt = s],
0 ≤ t ≤ t′ < ∞, s, s′ ∈ S,
die die rechte Seite von (4.36) bestimmen 4.150, heißen Übergangswahrscheinlichkeiten. Diese können zu den Übergangsmatrizen Pt,t′ = (Pt,t′ (s, s′ ))s,s′ ∈S , 0 ≤ t ≤ t′ <
∞, zusammengefaßt werden.
Ein Markovprozeß ist durch seine Übergangswahrscheinlichkeiten vollständig
charakterisiert.
Satz 4.26. 4.151 Die Verteilung eines Markovprozesses X = (Xt )t≥0 mit diskretem
Zustandsraum S ist eindeutig durch die Wahrscheinlichkeiten
(4.37)
P Xt1 = s1 , Xt2 = s2 , . . . , Xtn = sn ,
0 ≤ t1 < t2 < · · · < tn < ∞, s1 , s2 , . . . , sn ∈ S, n ∈ N,
bestimmt 4.152. Diese sind durch die Übergangswahrscheinlichkeiten und die Anfangsverteilung PX0 charakterisiert. Es gilt
(4.38)
P X0 = s0 , Xt1 = s1 , Xt2 = s2 , . . . , Xtn = sn
= PX0 [s0 ]P0,t1 (s0 , s1 )Pt1 ,t2 (s1 , s2 ) . . . Ptn−1 ,tn (sn−1 , sn ),
0 < t1 < t2 < · · · < tn < ∞, s0 , s1 , . . . , sn ∈ S, n ∈ N.
Wie im zeitlich diskreten Fall bestehen gewisse Beziehungen zwischen den
Übergangswahrscheinlichkeiten. So gilt auch hier die Chapman-Kolmogorov-Gleichung 4.153
X
(4.39)
Pt1 ,t2 (s1 , s2 )Pt2 ,t3 (s2 , s3 ) = Pt1 ,t3 (s1 , s3 ),
s2 ∈S
0 ≤ t1 ≤ t2 ≤ t3 < ∞, s1 , s3 ∈ S.
4.146Wie üblich wird in S die σ-Algebra S = Pot(S) betrachtet.
4.147
Jetzt werden bedingte Wahrscheinlichkeiten bzgl. einer σ-Algebra, vgl. Abschnitt 3.8, benutzt. Der elementare Begriff der bedingten Wahrscheinlichkeit, vgl. Abschnitt 2.4, ist letztendlich
nicht ausreichend.
4.148Hier ist die bedingte Wahrscheinlichkeit für ein zukünftiges Ereignis {X
t+h = s} bzgl.
der σ-Algebra σ(Xu , 0 ≤ u ≤ t) aller durch Xu , 0 ≤ u ≤ t, bestimmten Ereignisse, d.h., der
σ-Algebra aller (bzgl. X) vergangenen und gegenwärtigen Ereignisse, gemeint.
4.149
Dies ist die bedingte Wahrscheinlichkeit bzgl. der die Gegenwart des Prozesses X beschreibenden σ-Algebra σ(Xt ).
4.150Es ist zu beachten, daß für t ≥ 0 die σ-Algebra σ(X ) durch die disjunkten Ereignisse
t
{Xt = s′ }, s′ ∈ S, erzeugt wird, vgl. Abschnitt 3.1.4. Mit Beispiel 3.26 folgt daher
P[Xt+h = s|σ(Xt )](ω) =
X
I{ω ′ ∈Ω:Xt (ω ′ )=s′ } (ω)
s′ ∈S
=
X
E[I{Xt+h =s} I{Xt =s′ } ]
P[Xt = s′ ]
I{ω ′ ∈Ω:Xt (ω ′ )=s′ } (ω)P[Xt+h = s|Xt = s′ ],
s′ ∈S
ω ∈ Ω,
t, h ≥ 0, s ∈ S.
4.151Satz 4.26 entspricht dem sich auf den zeitlich diskreten Fall beziehenden Satz 4.21.
4.152Durch die Größen in (4.37) bzw. in (4.38) kann den endlich-dimensionalen Rechtecken
in (S [0,∞) , Pot(S)⊗[0,∞) ) jeweils eine Wahrscheinlichkeit zugeordnet werden. Diese Zuordnung
kann anschließend durch eine Anwendung von Satz 3.8 zu einem Wahrscheinlichkeitsmaß PX auf
(S [0,∞) , Pot(S)⊗[0,∞) ) erweitert werden. PX ist die Verteilung des Prozesses X. Details zu diesen
Argumenten im zeitlich diskreten Fall finden sich in Anhang A.4.3.
4.153Vgl. die zeitlich diskrete Variante (4.30) und zu deren Begründung auch Fußnote 4.123.
22. Juli 2014
73
Ein direktes Analogon zu den 1-Schritt-Übergangswahrscheinlichkeiten aus Abschnitt 4.3.1 existiert im zeitlich kontinuierlichen Fall nicht 4.154. Stattdessen spielen
die infinitesimalen Übergangswahrscheinlichkeiten (Übergangsraten oder -intensitäten) 4.155
(4.40) λt (s, s′ ) =
4.156 4.157
lim
h→0
1
P[Xt+h = s′ |Xt = s],
h
t ≥ 0, s, s′ ∈ S, s 6= s′ ,
eine große Rolle bei der Beschreibung und Untersuchung der Markovprozesse dieses
Abschnitts. Insbesondere besitzen solche Markovprozesse f.s. nur Sprünge mit strikt
positiver Übergangsintensität 4.158.
Bei der Modellierung von zufälligen zeitlichen Entwicklungen in der Physik oder
der Biologie durch Markovprozesse
• sind oft die Übergangsraten leicht zugänglich 4.159.
• Die Übergangswahrscheinlichkeiten ergeben sich dann durch Lösen eines
geeigneten Systems gewöhnlicher Differentialgleichungen 4.160.
Die von nun an betrachteten Markovprozesse haben stationäre Übergangswahrscheinlichkeiten, d.h., 4.161
Pt,t′ (s, s′ ) = Pt′ −t (s, s′ ),
0 ≤ t ≤ t′ < ∞, s, s′ ∈ S.
In diesem Fall sind die infinitesimalen Übergangswahrscheinlichkeiten von der Zeit
unabhängig 4.162.
Beispiel 4.27 (Poisson-Prozeß). Der Poisson-Prozeß X = (Xt )t≥0 ist ein N0 wertiger Markovprozeß mit endlich vielen Sprüngen der Größe +1 in jedem beschränkten Zeitintervall, der zwischen den Sprungzeitpunkten konstant bleibt.
Dieser einfache, aber wichtige Prozess spielt in vielen Anwendungen eine Rolle.
Beispielsweise kann für t ≥ 0 die Zufallsvariable Xt
• die Anzahl der an einem Servicepunkt im Zeitintervall [0, t] ankommenden
Kunden,
• die Anzahl der Zerfälle eines radioaktiven Präparats in [0, t] oder
• die Anzahl der Verkehrsunfälle in [0, t] an einer bestimmten Kreuzung
modellieren.
4.154Insbesondere gibt es keine elementare Zeiteinheit“ 1, so daß die Differenz zwischen zwei
”
verschiedenen Zeitpunkten ein ganzzahliges Vielfaches von 1 ist.
4.155Zur Existenz der Limiten in (4.40) vgl. Satz 4.28.
4.156Die infinitesimalen Übergangsraten λ (s, s′ ), s, s′ ∈ S, s 6= s′ , t ≥ 0, sind nichtnegativ.
t
4.157
Eine äquivalente Formulierung von (4.40) ist: P[Xt+h = s′ |Xt = s] = λt (s, s′ )h + o(h)
bei h → 0, t ≥ 0, s, s′ ∈ S, s 6= s′ .
4.158
Ist beispielsweise der Markovprozeß X = (Xt )t≥0 konservativ, vgl. (4.43), so ist
P
′
{s′ ∈S:s′ 6=s} λt (s, s ) < ∞. In diesem Fall ist die Wahrscheinlichkeit, daß ein Sprung im Zeitpunkt
P
′ −1 , vgl.
t, mit dem s verlassen wird, zum Zustand s′′ führt, gleich λt (s, s′′ )
{s′ ∈S:s′ 6=s} λt (s, s )
Abschnitt 4.3.3 und insbesondere Fußnote 4.190.
4.159Beispielsweise sind Zerfalls-, Geburts- oder Todesraten häufig vorgegeben oder einfach
zu bestimmen.
4.160Vgl. Satz 4.29 und auch Fußnote 4.178. Für einen speziellen Prozeß, den in Beispiel 4.27
beschriebenen Poisson-Prozeß, wird ein solches System gewöhnlicher Differentialgleichungen in
Anhang A.4.5 abgeleitet und gelöst.
4.161Die nun diskutierten Prozesse besitzen somit eine zeitlich stationäre Dynamik.
4.162Vgl. (4.40). Es gilt also λ (s, s′ ) = λ(s, s′ ), t ≥ 0, s, s′ ∈ S, s 6= s′ .
t
22. Juli 2014
74
In diesen Beispielen ist die Qualität des Poisson’schen Modells“ gut, wenn die
”
jeweiligen äußeren Bedingungen zeitlich konstant sind 4.163, d.h., wenn keine bevorzugten Einkaufszeiten der Kunden bestehen, bzw. die Halbwertszeit des radioaktiven Präparats groß ist, bzw. keine zeitlichen Verkehrsschwankungen zu beobachten
sind 4.164.
Ein Markovprozeß X = (Xt )t≥0 mit Werten in N0 heißt Poisson-Prozeß mit
Intensität (oder Übergangsintensität oder Rate) λ > 0, falls 4.165
1
(4.41)
lim P[Xt+h = n + 1|Xt = n] = λ,
hց0 h
1
lim P[Xt+h ∈
/ {n, n + 1}|Xt = n] = 0, n ∈ N0 , t ≥ 0.
hց0 h
Durch die Beziehungen in (4.41) wird die Bestimmung der Übergangswahrscheinlichkeiten des Poisson-Prozesses ermöglicht, vgl. Anhang A.4.5 4.166.
Die infinitesimalen Übergangswahrscheinlicheiten wurden in (4.40) als Grenzwerte eingeführt. Wie jetzt im zeitlich stationären Fall erläutert wird, existieren sie
unter vernünftigen Bedingungen 4.167.
Die Größen Pt (s, s′ ), t > 0, s, s′ ∈ S, bilden eine standard Familie von Übergangswahrscheinlichkeiten, falls 4.168
(a) P
Pt (s, s′ ) ≥ 0, t > 0, s, s′ ∈ S,
(b) Ps′ ∈S Pt (s, s′ ) = 1, t > 0, s ∈ S,
′
′ ′′
′′
t, u > 0, s, s′′ ∈ S, und falls
(c)
s′ ∈S Pt (s, s )Pu (s , s ) = Pt+u (s, s ),
′
′
(d) die Funktionen (0, ∞) ∋ t → Pt (s, s ), s, s ∈ S, stetig sind mit limtց0 Pt (s, s′ ) =
δs,s′ , s, s′ ∈ S.
Es stellt sich heraus, daß die Bedingungen (a) - (d) die Existenz der Übergangsintensitäten sicherstellen 4.169.
Satz 4.28. 4.170 Sei X = (Xt )t≥0 ein Markovprozeß mit Werten in S und einer
standard Familie von Übergangswahrscheinlichkeiten. Dann existiert für s ∈ S der
Grenzwert 4.171
d
1
(4.42a)
− Pt (s, s) = lim
1 − Ph (s, s) = λ(s)
hց0
dt
h
t=0
in [0, ∞]
(4.42b)
4.172
. Außerdem existiert für s, s′ ∈ S mit s 6= s′ der Grenzwert
d
Ph (s, s′ )
Pt (s, s′ ) = lim
= λ(s, s′ )
hց0
dt
h
t=0
4.163Falls die äußeren Bedingungen“ zeitlich langsam veränderlich sind, ist das Poisson’sche
”
Modell evtl. (zeitlich) lokal brauchbar.
4.164
Die Rate, mit der die zu zählenden Geschehnisse jeweils eintreten, muß zeitlich (nahezu)
konstant sein.
4.165Aus (4.41) folgt insbesondere auch lim
hց0 (1/h)(1 − P[Xt+h = n|Xt = n]) = λ, n ∈ N0 ,
t ≥ 0.
4.166Die wesentliche Aufgabe bei dieser Bestimmung der Übergangswahrscheinlichkeiten ist
die Lösung eines geeigneten Systems gewöhnlicher Differentialgleichungen.
4.167In [21], Chapter 14, wird die nun behandelte Thematik ausführlicher dargestellt.
4.168Für ein festes t > 0 ist P nach (a) und (b) eine stochastische Matrix. Nach (c) erfüllen
t
die Matrizen Pt , t > 0, die Chapman-Kolmogorov-Gleichung (4.39). Die letzte Bedingung (d) ist
eine Regularitätsbedingung, die von vernünftigen Prozessen erwartet werden kann.
4.169Es ist bemerkenswert, daß in (d) nur eine Stetigkeitseigenschaft gefordert wird. Andererseits sind in (4.40) oder Satz 4.28 die Übergangsintensitäten durch Ableitungen definiert.
4.170Vgl. [21], Chapter 14, Theorem 1.1 und Theorem 1.2.
4.171Die jeweils erste Gleichheit in den beiden Beziehungen (4.42) wird plausibel, wenn
P0 (s, s′ ) = limtց0 Pt (s, s′ ) = δs,s′ , s, s′ ∈ S, berücksichtigt wird.
4.172Der Grenzwert λ(s) = ∞ kommt bei solchen Zuständen s ∈ S vor, die sofort, nachdem
sie durch den Prozeß X erreicht wurden, wieder verlassen werden.
22. Juli 2014
75
in [0, ∞)
4.173
.
Wenn die Übergangsraten bekannt sind, können üblicherweise die Übergangswahrscheinlichkeiten durch Lösen eines Systems gewöhnlicher Differentialgleichungen bestimmt werden.
Ein Markovprozeß X wie in Satz 4.28 heißt konservativ, wenn die Raten λ(s),
s ∈ S, und λ(s, s′ ), s, s′ ∈ S, s 6= s′ , die Beziehung
X
(4.43)
s′ ∈S
s′ 6=s
erfüllen
λ(s, s′ ) = λ(s) < ∞,
s ∈ S,
4.174
.
Satz 4.29. 4.175 Sei X = (Xt )t≥0 ein Markovprozeß wie in Satz 4.28, wobei X
zusätzlich konservativ sei 4.176. Dann erfüllen die Übergangwahrscheinlichkeiten die
Rückwärtsgleichungen 4.177 4.178.
(4.44)
X
d
λ(s, s′′ )Pt (s′′ , s′ ) − λ(s)Pt (s, s′ )
Pt (s, s′ ) =
dt
′′
s ∈S
s′′ 6=s
=
4.179
X
s′′ ∈S
s′′ 6=s
λ(s, s′′ ) Pt (s′′ , s′ ) − Pt (s, s′ ) ,
s, s′ ∈ S, t ≥ 0.
4.173Insbesondere ist λ(s, s′ ) ∞, falls s 6= s′ .
4.174Aufgrund der formalen, aus Satz 4.28 folgenden Beziehung
(∗)
λ(s) −
X
λ(s, s′ ) = lim
s′ ∈S
s′ 6=s
hց0
≃ lim
hց0
X
Ph (s, s′ )
1
1 − Ph (s, s) −
lim
hց0
h
h
′
s ∈S
s′ 6=s
!
X
1
1 − Ph (s, s) −
Ph (s, s′ ) = 0
h
′
s ∈S
s′ 6=s
ist (4.43) plausibel. In (∗) wird insbesondere die Eigenschaft (b) einer standard Familie von Übergangswahrscheinlichkeiten benutzt.
4.175
Vgl. [21], Chapter 14, Section 2.
4.176Vgl. (4.43).
4.177Für eine formale Herleitung von (4.44) kann in der Beziehung
Pt+h (s, s′ ) − Pt (s, s′ ) =
=
X
s′′ ∈S
X
s′′ ∈S
s′′ 6=s
Ph (s, s′′ )Pt (s′′ , s′ ) − Pt (s, s′ )
Ph (s, s′′ )Pt (s′′ , s′ ) + (Ph (s, s) − 1)Pt (s, s′ ),
s, s′ ∈ S, t ≥ 0, h > 0,
die sich mit der Chapman-Kolmogorov-Gleichung (4.39) ergibt, nach einer Division beider Seiten
durch h der Grenzfall h ց 0 betrachtet werden. Hierbei muß Satz 4.28 berücksichtigt werden.
22. Juli 2014
76
Wenn in einer konkreten Anwendung die Übergangsintensitäten 4.180 λ(s, s′ ),
s, s ∈ S, s 6= s′ , so gegeben sind, daß mit Hilfe der Rückwärtsgleichung (4.44) oder
der Vorwärtsgleichung 4.181, die Übergangswahrscheinlichkeiten eindeutig berechnet
werden können 4.182, ist dank Satz 4.26 der zugehörige Markovprozeß X = (Xt )t≥0 ,
d.h., dessen Verteilung, eindeutig bestimmt.
′
Beispiel 4.30 (Geburts- und Todesprozesse). Für einen einfachen Markovprozeß
X = (Xt )t≥0 mit Zustandsraum S = N0 zur Modellierung der Zeitentwicklung der
Größe einer Population seien Geburtsraten βi > 0, i ∈ N0 , und Todesraten δi > 0,
i ∈ N, gegeben, so daß

4.183

βi , j = i + 1, i = 0, 1, 2, . . . ,
λ(i, j) = δi , j = i − 1, i = 1, 2, . . . ,


0, sonst.
Unabhängigkeit“ zwischen den einzelnen Individuen 4.184 der Population kann
”
durch die Annahme, daß die Geburts- und Todesraten zur Populationsgröße proportional sind, zum Ausdruck gebracht werden. In diesem Fall ist βi = βi, i ∈ N,
bzw. δi = δi, i ∈ N, für β, δ > 0 4.185 4.186.
4.3.3. Simulation von Markovprozessen (Xt )t≥0 mit einem diskreten Zustandsraum. Sei X = (Xt )t≥0 ein konservativer Markovprozeß mit einem diskreten Zustandsraum S 4.187. Das zeitliche Verhalten von X zeichnet sich u.a. durch folgende
Eigenschaften aus:
4.178(4.44) heißt Rückwärtsgleichung, weil auf der rechten Seite die Übergangsintensitäten
λ(s, s′′ ), bzw. λ(s), an die ersten (zeitlich rückwärtigen“) Argumente s′′ , bzw. s, der Über”
gangswahrscheinlichkeiten gekoppelt sind. Im Gegensatz dazu sind diese Raten bei der Vorwärtsgleichung
X
d
Pt (s, s′ ) =
Pt (s, s′′ )λ(s′′ , s′ ) − Pt (s, s′ )λ(s′ ), s, s′ ∈ S, t ≥ 0,
dt
′′
s ∈S
s′′ 6=s′
an die zeitlich später“ liegenden Argumente der Übergangswahrscheinlichkeiten gebunden. I. allg.
”
sind die Rückwärtsgleichungen mathematisch einfacher als die Vorwärtsgleichungen zu handhaben
und werden daher vorgezogen.
Aufgrund der Vorgehensweise in ihrer Ableitung in Anhang A.4.5 entsprechen die Differentialgleichungen (A.4.17) und (A.4.19) für die Übergangswahrscheinlichkeiten des Poisson-Prozesses
übrigens der Vorwärtsgleichung.
4.179
Wegen (4.43).
4.180
Für konservative Prozesse X können die Raten λ(s), s ∈ S, mit Hilfe von (4.43) berechnet
werden.
4.181Vgl. Fußnote 4.178.
4.182D.h., die Rückwärtsgleichung, bzw. die Vorwärtsgleichung muß für die Anfangsbedingung
P0 (s, s′ ) = δs,s′ , s, s′ ∈ S, eine eindeutige Lösung Pt (s, s′ ), s, s′ ∈ S, t ≥ 0, besitzen.
4.183β = λ(0, 1) ist die Rate, mit der die Einwanderung eines einzelnen Individuums in eine
0
schon ausgestorbene Population stattfindet.
4.184
D.h., das Fehlen einer Wechselwirkung.
4.185Im Unterschied zu den in diesem Beispiel vorgestellten Geburts- und Todesprozessen
sind beim Galton-Watson-Prozess, vgl. Beispiel 4.24, die verschiedenen Generationen strikt voneinander getrennt.
4.186Für einen reinen“ Geburtsprozeß mit δ = 0, i ∈ N, und β > 0, i ∈ N , kann die
0
i
i
”
Vorwärtsgleichung, vgl. Fußnote 4.178, explizit durch Angabe der Laplacetransformierten der
Übergangswahrscheinlichkeiten gelöst werden, vgl. [12], Section 6.8, Theorem (14). Falls δi = δi,
i ∈ N, und βi = βi, i ∈ N0 , wobei β, δ > 0, können die erzeugenden Funktionen φXt , t ≥ 0, berechP
k
X
net werden, vgl. [12], Section 6.11, Theorem (10). Hierbei ist φX (s) = ∞
k=0 P[X = k]s = E[s ],
s ∈ [0, 1], die erzeugende Funktion einer N0 -wertigen Zufallsvariable X.
4.187Damit wird insbesondere P
′
s′ ∈S,s′ 6=s λ(s, s ) = λ(s) < ∞, s ∈ S, gefordert, vgl. (4.43).
22. Juli 2014
77
• Sei Xt = s für ein t ≥ 0 und ein s ∈ S. Die verbleibende Aufenthaltszeit
T = inf{u ≥ t : Xu 6= s} − t in s besitzt eine Exponentialverteilung mit
Parameter λ(s) 4.188.
• Nach dem Verlassen von s springt X zu einem Zustand s′ ∈ S \ {s} mit
Wahrscheinlichkeit λ(s, s′ )/λ(s) 4.189 4.190.
Eine Computersimulation von X kann somit auf den infinitesimalen Übergangswahrscheinlichkeiten λ(s), λ(s, s′ ), s, s′ ∈ S, s 6= s′ , aufgebaut werden. Bei einem
gegebenen Startpunkt X0 = s0 bietet sich folgendes Verfahren an:
• Sei T0 eine nach der Exponentialverteilung mit Parameter λ(s0 ) verteilte
Zufallsvariable 4.191. Setze dann Xt = s0 , 0 ≤ t < T0 .
• Wähle nun s1 ∈ S \ {s0 } unabhängig von T0 gemäß der diskreten Wahrscheinlichkeitsverteilung λ(s0 , s1 )/λ(s0 ), s1 ∈ S \ {s0 }.
• Sei T1 eine nach der Exponentialverteilung mit Parameter λ(s1 ) verteilte
und von T0 und der vorhergehenden Wahl von s1 unabhängige Zufallsvariable. Setze Xt = s1 , T0 ≤ t < T0 + T1 .
• Wähle s2 ∈ S \ {s1 } gemäß der diskreten Verteilung λ(s1 , s2 )/λ(s1 ), s2 ∈
S \ {s1 } 4.192.
• ...
4.4. Martingale. Martingale sind stochastische Prozesse, die sich vordergründig dadurch auszeichnen, daß sie
• oftmals kompliziert aussehen, aber
• äußerst nützlich sein können 4.193.
4.188Zur Begründung können die Argumente in Anhang A.4.5.1 leicht modifiziert übernommen werden.
4.189Da X als konservativ vorausgesetzt wird, definiert λ(s, s′ )/λ(s), s′ ∈ S \ {s}, für alle
s ∈ S ein Wahrscheinlichkeitsmaß auf S \ {s}.
4.190
Zur Begründung beachte man, daß für s, s′ ∈ S, s 6= s′ und u ≥ 0 gilt:
P[Xu+h = s′ |Xu+h 6= s, Xu = s]
P[Xu+h = s′ , Xu = s]
(da {Xu+h = s′ , Xu+h 6= s, Xu = s} = {Xu+h = s′ , Xu = s})
P[Xu+h 6= s, Xu = s]
P[Xu = s]P[Xu+h = s′ |Xu = s]
=
P[Xu = s]P[Xu+h 6= s|Xu = s]
{z
}
|
= 1 − P[Xu+h = s|Xu = s]
=
λ(s, s′ )h + o(h)
λ(s)h + o(h)
′
h→0 λ(s, s )
.
→
λ(s)
=
(nach Satz 4.28)
4.191Ein Verfahren zur Simulation von exponentiell verteilten Zufallsvariablen wird in Beispiel 2.13 beschrieben.
4.192Natürlich soll die Wahl von s unabhängig von T , T und der Wahl von s erfolgen.
2
0
1
1
4.193Vgl. z.B. Abschnitt 4.5.4. Dort werden aufbauend auf der Brownschen Bewegung sukzessive verschiedene Martingale angegeben. Mit Hilfe dieser Martingale können dann Lösungen
spezieller partieller Differentialgleichungen als Funktionale der Brownschen Bewegung dargestellt
werden. Jene Darstellungen könnten insbesondere zur Lösung der partiellen Differentialgleichungen durch ein Monte-Carlo-Verfahren angewandt werden.
22. Juli 2014
78
Sie dienen z.B. zur Charakterisierung anderer natürlicherer“ stochastischer Pro”
zesse 4.194 oder auch als Hilfsmittel zur Herleitung von Grenzwertsätzen 4.195.
Sei (Ω, F, P) ein Wahrscheinlichkeitsraum mit einer Filtration 4.196 (Ft )t≥0 .
X = (Xt )t≥0 sei ein R-wertiger an (Ft )t≥0 adaptierter 4.196 stochastischer Prozeß
mit
(4.45)
E[|Xt |] < ∞,
t ≥ 0.
X heißt Submartingal bzgl. (Ft )t≥0 , falls
(4.46a)
E[Xt |Fs ] ≥ Xs , P-f.s.,
bzw. Supermartingal bzgl. (Ft )t≥0 , falls
(4.46b)
0 ≤ s ≤ t < ∞,
4.197
E[Xt |Fs ] ≤ Xs , P-f.s.,
0 ≤ s ≤ t < ∞.
E[Xt |Fs ] = Xs , P-f.s.,
0 ≤ s ≤ t < ∞,
Wenn
(4.46c)
wird X als Martingal 4.198 bzgl. (Ft )t≥0 bezeichnet 4.199. Ein (Sub-, Super-) Martingal X bzgl. der Filtration (FtX )t≥0 4.200 wird einfach (Sub-, Super-) Martingal
genannt.
Zum Nachweis der Martingaleigenschaft eines reellwertigen, integrablen stochastischen Prozesses X = (Xn )n∈N0 in diskreter Zeit bzgl. einer Filtration (Fn )n∈N0
reicht die Verifikation von 4.201 4.202
(4.47)
E[Xn+1 |Fn ] = Xn , f.s.,
n ∈ N0 .
4.194Beispielsweise können Diffusionsprozesse X = (X )
t t≥0 als stetige Markovprozesse charakterisiert werden, die sich dadurch auszeichnen, daß spezielle, durch X bestimmte Prozesse
Martingale sind, vgl. [26], Chapter VII, Definition (2.1) und Proposition (2.2).
Als ein weiteres Beispiel sei ein Satz von Lévy erwähnt, der besagt, daß das einzige reellwertige Martingal X = (Xt )t≥0 mit stetigen Pfaden, für das auch der Prozeß t → Xt2 − t die
Martingaleigenschaft besitzt, die standard Brownsche Bewegung in R ist, vgl. [26], Chapter IV,
Theorem (3.6) und auch Abschnitt 6.2.5.
4.195
In folgenden Beispielen 4.36 und 4.38 wird z.B. demonstriert, wie Konvergenzsätze
für Martingale, vgl. Satz 4.34 und Satz 4.37, zur Analyse der Asymptotik des Galton-WatsonProzesses, vgl. Beispiel 4.24 und Satz 4.25, bzw. zum Beweis eines starken Gesetzes der großen
Zahlen, vgl. Satz 4.5, verwendet werden können.
4.196Vgl. Abschnitt 3.9.
4.197Offensichtlich ist X = (X )
t t≥0 genau dann ein Submartingal, wenn der Prozeß −X =
(−Xt )t≥0 ein Supermartingal ist.
4.198Reellwertige Martingale sind sowohl Sub- als auch Supermartingale. Auch vektorwertige
Prozesse können die Martingaleigenschaft besitzen. Z.B. wird in Abschnitt 4.5.4 mit C-wertigen
Martingalen gearbeitet.
4.199Die Erwähnung einer Filtration im Zusammenhang zur (Sub-, Super-) Martingaleigenschaft (4.46a), (4.46b), bzw. (4.46c), eines stochastischen Prozesses X ist wesentlich. Wenn (Ft )t≥0
durch eine andere Filtration (Gt )t≥0 ersetzt wird, brauchen diese Beziehungen nicht mehr zu
gelten, d.h., die (Sub-, Super-) Martingaleigenschaft von X kann beim Wechsel der Filtration
verlorengehen.
4.200(F X )
t t≥0 ist die von X erzeugte Filtration, vgl. Beispiel 3.3 und Abschnitt 3.9.
4.201Die Gültigkeit von E[X
n+k |Fn ] = Xn , f.s., n ∈ N0 , k ∈ N, ergibt sich dann durch
Iteration, d.h.,
E[Xn+k |Fn ] = E E[Xn+k |Fn+k−1 ]Fn = · · · = Xn , f.s., k = 2, 3, . . . .
|
{z
}
= Xn+k−1
Hier wird insbesondere (3.33) benutzt.
4.202
Sub- und Supermartingale in diskreter Zeit können durch eine entsprechende Beziehung
charakterisiert werden.
22. Juli 2014
79
Ein stochastischer Prozeß X = (Xn )n∈N0 , der Werte in einer höchstens abzählbaren Teilmenge S aus R oder Rd annimmt, ist ein Martingal, wenn 4.203
(4.48) E Xn+1 X0 = s0 , X1 = s1 , . . . , Xn = sn = sn , s0 , s1 , . . . , sn ∈ S, n ∈ N0 .
Beispiel 4.31. Die symmetrische Irrfahrt X = (Xn )n∈N0 in Zd
wertiges Martingal 4.205.
4.204
ist ein Zd -
Beispiel 4.32. Sei X = (Xt )t≥0 ein Martingal bzgl. einer Filtration (Ft )t≥0 und
φ : R → R eine konvexe Funktion mit E[|φ(Xt )|] < ∞, t ≥ 0. Dann ist φ(X) =
(φ(Xt ))t≥0 ein Submartingal, denn
(4.49)
E[φ(Xt )|Fs ] ≥
4.206
φ(E[Xt |Fs ]) =
4.207
φ(Xs ), f.s.,
0 ≤ s ≤ t < ∞.
Auch wenn X ein Submartingal und φ zusätzlich monoton steigend ist, ist φ(X)
ein Submartingal 4.208.
Beispiel 4.33. Sei X = (Xn )n∈N0 ein Galton-Watson-Prozeß
ren Nachkommenszahl m und E[X0 ] < ∞. Dann gilt
(4.50)
E[Xn+1 |X0 = x0 , . . . , Xn = xn ] =
=
4.210
4.211
4.209
mit der mittle-
E[Xn+1 |Xn = xn ]
xn m,
x0 , . . . , xn , n ∈ N0 .
Daher ist der Prozeß W = (Wn )n∈N0 mit Wn = Xn /mn , n = 0, 1, 2, . . . , ein
Martingal bzgl. (FnX )n∈N0 4.212.
Im Rest dieses Abschnitts werden nur (Sub-, Super-) Martingale X = (Xn )n∈N0
in diskreter Zeit betrachtet.
4.4.1. Konvergenzsätze für Submartingale. Unter minimalen Bedingungen konvergieren Submartingale f.s., bzw. in L1 bei n → ∞.
Satz 4.34. 4.213 Sei X = (Xn )n∈N0 ein Submartingal bzgl. einer Filtration (Fn )n∈N0
in einem Wahrscheinlichkeitsraum (Ω, F, P), wobei
(4.51)
sup E[(Xn )+ ] < ∞.
n∈N0
Dann existiert eine Zufallsvariable X∞ mit E[|X∞ |] < ∞ und
(4.52)
lim Xn = X∞ , P-f.s.
n→∞
4.203Man beachte, daß für alle n ∈ N die Ereignisse {X = s , X = s , . . . , X = s },
n
n
0
0
0
1
1
X = σ(X , X , . . . , X ) erzeugen.
s0 , s1 , . . . , sn ∈ S, die σ-Algebra Fn
n
0
1
4.204Vgl. Satz 4.23.
4.205Offensichtlich ist E[|X |] ≤ n, n ∈ N , d.h., die Integrabilitätsbedingung (4.45) ist
n
0
erfüllt. Da weiterhin die symmetrische Irrfahrt in jedem Zeitpunkt mit gleicher Wahrscheinlichkeit
zu den jeweiligen Nachbarpunkten in Zd springt, ergibt sich auch (4.48) und damit die Martingaleigenschaft von X.
4.206Nach der Jensenschen Ungleichung für bedingte Erwartungswerte, vgl. Beispiel 3.28.
4.207Da X ein Martingal ist.
4.208In diesem Fall führt in (4.49) die Submartingaleigenschaft von X und die Monotonie
von φ zu φ(E[Xt |Fs ]) ≥ φ(Xs ), f.s., 0 ≤ s ≤ t < ∞.
4.209Vgl. Beispiel 4.24 und Satz 4.25.
4.210Wegen der Markoveigenschaft von X. Beachte hier auch Fußnote 4.117.
4.211
Wegen (4.31).
4.212Diese Martingaleigenschaft, d.h., die Gültigkeit von (4.48), wird deutlich, wenn alle
Terme in (4.50) durch mn+1 dividiert werden. Aus (4.50) folgt übrigens E[Xn+1 ] = mE[Xn ],
n ∈ N0 , d.h., mit vollständiger Induktion kann (4.45) nachgewiesen werden.
4.213(4.52) wird in Beispiel 5.21, bzw. in [7], Section 4.2, Theorem (2.10) bewiesen. (4.53)
folgt dann mit Satz 3.13 und Satz 3.17.
22. Juli 2014
80
Falls die Familie der Zufallsvariablen Xn , n ∈ N0 , gleichgradig integrierbar
ist, so gilt zusätzlich die Konvergenz in L1 , d.h.,
4.214
lim E |Xn − X∞ | = 0.
(4.53)
n→∞
Beispiel 4.35. Sei X = (Xn )n∈N0 ein positives 4.215 Supermartingal. Damit ist der
Prozeß −X = (−Xn )n∈N0 ein negatives Submartingal 4.216, d.h., es gilt insbesondere
E[(−Xn )+ ] = 0, n ∈ N0 . Als Folge von Satz 4.34 exisitiert damit der Limes X∞ =
limn→∞ Xn , f.s., wobei X∞ ≥ 0.
Aufgrund der Supermartingaleigenschaft von X ist E[Xn ], n ∈ N0 , eine monoton fallende Folge. Mit dem Lemma von Fatou 4.217 folgt daher weiter, daß 4.218
E[X∞ ] ≤ E[X0 ].
Beispiel 4.36. Sei X = (Xn )n∈N0 ein Galton-Watson-Prozeß 4.219 mit X0 = 1 und
der mittleren Nachkommenszahl m. Das in Beispiel 4.33 beschriebene Martingal
W = (Wn )n∈N0 mit Wn = Xn /mn , n = 0, 1, 2, . . . , ist insbesondere ein positives
Supermartingal, so daß nach Beispiel 4.35 der Grenzwert
(4.54)
W∞ = lim Wn , f.s.,
n→∞
e = W∞ ist 4.220.
existiert. Damit ist die f.s.-Konvergenz in (4.35) bewiesen, wobei X
Weiterhin ist
(4.55)
und somit
E[Wn ] =
4.221
E[W0 ] = E[X0 ] = 1,
n ∈ N0 ,
4.222
E[W∞ ] ≤ 1.
(4.56)
Als Konsequenz aus (4.54) - (4.56) können nun weitere Teile von Satz 4.25
bewiesen werden 4.223.
Für m < 1 folgt zunächst 4.224 limn→∞ Xn = 0, f.s., und damit 4.225 P[Xn =
0, n ≥ N, N hinreichend groß] = 1 4.226.
Falls m = 1, ist Xn = Wn , n ∈ N0 , und daher nimmt W∞ = limn→∞ Xn Werte
in N0 an. Insbesondere ergibt sich P[Xn = W∞ , n ≥ N, N hinreichend groß] = 1.
4.214Vgl. Abschnitt 3.5.4.
4.215D.h., X ≥ 0, f.s., n ∈ N .
n
0
4.216Vgl. dazu Fußnote 4.197.
4.217Vgl. Satz 3.23.
4.218E[X ] = E[lim
∞
n→∞
Xn ] ≤ lim inf n→∞ E[Xn ] ≤ E[X0 ].
4.219Vgl. Beispiel 4.24 und Satz 4.25.
4.220Außer X
e ≥ 0 sind an dieser Stelle noch keine weiteren Details über die Eigenschaften
e = W∞ bekannt.
von X
4.221Weil W = (W )
n n∈N0 ein Martingal ist.
4.222
Vgl. Beispiel 4.35.
4.223Der Beweis eines ersten Teils ist in Anhang A.4.4 zu finden.
4.224Weil X /W = mn n→∞
→ 0 und da limn→∞ Wn = W∞ ∈ [0, ∞), f.s.
n
n
4.225Man beachte, daß (X )
n n∈N0 Werte in N0 annimmt.
4.226Damit ist der Fall m < 1 in (4.33) bewiesen.
22. Juli 2014
81
Wenn weiterhin b0 > 0, folgt 4.227 P[Xn = k, n ≥ N, N hinreichend groß] = 0,
k = 1, 2, . . . , und somit ist P[Xn = 0, n ≥ N, N hinreichend groß] = 1 4.228.
Ebenfalls mit Hilfe der Martingaleigenschaft des Prozesses W wird in Beispiel 4.44 nachgewiesen, daß die Konvergenz in (4.35) auch in L2 gilt, und weiterhin
e berechnet.
die Varianz von X
Auch in der weit zurückliegenden Vergangenheit“ können Submartingale kon”
vergieren.
Satz 4.37. 4.229 Der stochastische Prozeß 4.230 X = (Xn )n∈Z− sei ein Submartingal bzgl. einer Filtration (Fn )n∈Z− 4.231. Dann gibt es eine Zufallsvariable X−∞
mit 4.232
(4.57)
lim Xn = X−∞ , f.s.
n→−∞
Wenn X ein Martingal
(4.58)
4.233
ist, gilt darüberhinaus die Konvergenz in L1 , d.h.,
lim E |Xn − X−∞ | = 0.
n→−∞
Beispiel 4.38 (Starkes Gesetz der großen Zahlen). 4.234 Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und sei X1 , X2 , . . . eine Folge unabhängiger, identisch verteilter, reellwertiger Zufallsvariablen mit E[|X1 |] < ∞.
Sei
Sn = X 1 + · · · + X n ,
(4.59a)
n = 1, 2, . . . ,
4.227Offensichtlich ist nun P[X
k
n+1 = 0|Xn = k] = b0 ∈ (0, 1], n ∈ N0 , k = 1, 2, . . . , und
daher
P[Xn+r = Xn+r−1 = · · · = Xn+1 = k|Xn = k]
= P[Xn+r = k|Xn+r−1 = k]P[Xn+r−1 = k|Xn+r−2 = k] . . . P[Xn+1 = k|Xn = k]
(wegen der Markoveigenschaft von X)
≤ (1 − bk0 )r ,
n ∈ N0 , r, k = 1, 2, . . . .
Es folgt:
P[Xn+r = Xn+r−1 = · · · = Xn = k]
r→∞
= P[Xn+r = . . . = Xn+1 = k|Xn = k]P[Xn = k] ≤ (1 − bk0 )r → 0,
n ∈ N0 , k = 1, 2, . . . ,
d.h., die σ-Stetigkeit von oben von P, vgl. Satz 3.10(6), führt zu P[Xl = k, l ≥ n] = 0, n ∈ N0 ,
k = 1, 2, . . .
Folglich ist
P[Xl = k, l ≥ N, N hinreichend groß] ≤
∞
X
n=0
P[Xl = k, l ≥ n] = 0,
k = 1, 2, . . .
4.228
Damit ist (4.33) für den Fall m = 1, b0 > 0 verifiziert. In den Fällen m < 1 und
m = 1, b0 > 0 ist durch die in diesem Beispiel 4.36 vorgestellten Überlegungen gezeigt worden,
daß limn→∞ Xn = 0, f.s.
4.229Vgl. [26], Chapter II, Theorem (2.3), und [3], Korollar 19.10.
4.230Z = {−1, −2, . . . }.
−
4.231Es gilt also E[X
n+1 |Fn ] ≥ Xn , f.s., n = −2, −3, . . . . Ein derartiges, durch negative
Zeitpunkte indiziertes Submartingal wird auch als Rückwärtssubmartingal bezeichnet.
4.232Im Gegensatz zu Satz 4.34 wird in diesem Resultat zur fast-sicheren Konvergenz von
Submartingalen keine Bedingung wie z.B. (4.51), die eine spezielle gleichmäßige“ Integrabilität
”
fordert, benötigt.
4.233Ein solcher Prozeß wird auch Rückwärtsmartingal genannt.
4.234Zum starken Gesetz der großen Zahlen vgl. Abschnitt 4.1.2. Im vorliegenden Beispiel 4.38, in dem [7], Section 4.6, Example 6.1, vorgestellt wird, wird gezeigt, daß für eine Folge
von i.i.d. Zufallsvariablen deren Integrabilität hinreichend für die Gültigkeit des starken Gesetzes
der großen Zahlen ist.
22. Juli 2014
82
und
4.235
(4.59b)
ζn =
Durch
1
S−n
−n
n = −1, −2, . . .
Fn = σ(S−n , S−n+1 , S−n+2 , . . . ) = σ(S−n , X−n+1 , X−n+2 , . . . )
= σ(ζn , ζn−1 , ζn−2 , . . . ),
ist eine Filtration
4.236
(Fn )n∈Z− gegeben. Nun ist
E[ζn+1 |Fn ] = ζn , f.s.,
(4.60)
n = −1, −2, . . . ,
4.237 4.238
n = −2, −3, . . . ,
d.h., ζ = (ζn )n∈Z− ist ein Martingal bzgl. (Fn )n∈Z− . Daher existiert eine Zufallsvariable ζ−∞ mit
N
1 X
Xk =
N →∞ N
(4.61)
lim
4.239
lim ζn =
4.240
n→−∞
k=1
ζ−∞ ,
f.s. und in L1 .
Offensichtlich ist T
ζ−∞ meßbar bzgl. σ(Xm , Xm+1 , . . . ) für alle m ∈ N 4.241 und
somit auch bzgl. T = ∞
m=1 σ(Xm , Xm+1 , . . . ). Nach dem 0-1-Gesetz von Kolmogorov 4.242 ist T trivial, d.h.,
P[A] = 0 oder P[A] = 1,
A ∈ T.
Weil T trivial ist, sind alle T-meßbaren Funktionen, z.B. auch ζ−∞ , f.s. konstant.
Insbesondere gilt
(4.62)
ζ−∞ = E[ζ−∞ ] =
4.243
lim E[ζn ] =
n→−∞
4.244
E[X1 ], f.s.
4.235 Aus technischen Gründen“ wird ein stochastischer Prozeß ζ = (ζ )
n n∈Z− mit Zeitpunk”
ten in Z− eingeführt. Insbesondere wird dadurch die Anwendung von Satz 4.37 ermöglicht.
4.236Da F ⊆ F
n
n+1 , n = −2, −3, . . . .
4.237Die Integrabilität von ζ , n ∈ Z , folgt aus (4.59) und der Annahme E[|X |] < ∞.
n
− P
1
4.238
Für n = −1, −2, . . . tragen in Sm = m
k=1 Xk , m = −n, −n + 1, . . . , die Zufallsvariablen
Xk , k = 1, . . . , −n, auf die gleiche, symmetrische Weise als Summanden bei. Aus Symmetriegründen gilt somit
E[Xk |Fn ] = E[Xl |Fn ],
k, l = 1, . . . , −n, n = −1, −2, . . . ,
und daher
E[X−n |Fn ] =
=
Da ζn+1 = (−n − 1)−1
P−n−1
−n
1 X
E[Xk |Fn ]
−n k=1
1
1
E[S−n |Fn ] =
S−n ,
−n
−n
n = −1, −2, . . . .
−1 (S
−n − X−n ), n = −2, −3, . . . , folgt
k=1 Xk = (−n − 1)
X−n S−n F
Fn
−
E
E[ζn+1 |Fn ] = E
n
−n − 1 −n − 1 1
S−n
1
= S−n
=
−
= ζn , n = −2, −3, . . . .
−n − 1
−n(−n − 1)
−n
4.239Wegen (4.59).
4.240Wegen Satz 4.37.
4.241Durch diese Meßbarkeitseigenschaft kommt zum Ausdruck, daß für alle m ∈ N
P
die Zufallsvariable ζ−∞ = limN→∞ (1/N ) N
Xm−1 , wohl aber von
k=1 Xk nicht von X1 , . . . ,P
Xm , Xm+1 , . . . abhängt. Hierbei wird berücksichtigt, daß limN→∞ (1/N ) m−1
k=1 Xk = 0, f.s. und
in L1 , m ∈ N.
4.242Vgl. Satz 5.3.
22. Juli 2014
83
Mit (4.61) und (4.62) ist bewiesen, daß die Integrabilität von X1 hinreichend für
die Gültigkeit des starken Gesetzes der großen Zahlen für i.i.d. Zufallsvariablen Xn ,
n ∈ N, ist 4.245.
4.4.2. Transformationen von (Sub-) Martingalen. Es gibt viele unterschiedliche
Möglichkeiten aus (Sub-, Super-) Martingalen andere derartige Prozesse zu gewinnen 4.246.
Beispiel 4.39. 4.247 Ein reellwertiger stochastischer Prozeß X = (Xn )n∈N0 sei
ein Submartingal bzgl. einer Filtration (Fn )n∈N0 . Sei außerdem H = (Hn )n∈N ein
positiver, bzgl. (Fn )n∈N0 vorhersehbarer stochastischer Prozeß, d.h., für alle n ∈ N
sei die Zufallsvariable Hn meßbar bzgl. Fn−1 . Zusätzlich sei Hn für alle n ∈ N
beschränkt 4.248. Dann ist auch Y = (Yn )n∈N0 mit 4.249
n
X
(4.63)
Yn =
Hk (Xk − Xk−1 ), n ∈ N0 ,
k=1
ein Submartingal bzgl. (Fn )n∈N0 4.250. Wenn X ein Supermartingal, bzw. ein Martingal ist, so ist der durch (4.63) definierte Prozeß Y ebenfalls ein Supermartingal,
bzw. ein Martingal. Hierbei kann im Martingalfall auf die Positivität von H verzichtet werden 4.251.
Die (Sub-, Super-) Martingaleigenschaft eines stochastischen Prozesses bleibt
erhalten, wenn dieser Prozeß nur bis zu einer Stoppzeit 4.252 betrachtet wird.
Satz 4.40. Sei X = (Xn )n∈N0 ein (Sub-) Martingal und T eine Stoppzeit bzgl.
einer Filtration (Fn )n∈N0 . Dann ist der gestoppte Prozeß 4.253 XT = (Xn∧T )n∈N0
ebenfalls ein (Sub-) Martingal 4.254.
4.243Wegen (4.61).
4.244Wegen (4.59).
4.245Insbesondere ist die eine Richtung von Satz 4.5 gezeigt.
4.246Eine erste Möglichkeit wurde in Beispiel 4.32 beschrieben.
4.247Vgl. [7], Section 4.2, Theorem (2.7).
4.248D.h., für alle n ∈ N existiert ein M = M ∈ (0, ∞), so daß H ≤ M , f.s.
n
n
n
4.249Aus (4.63) folgt insbesondere Y = 0. Der Prozeß Y entsteht aus X, indem dessen
0
Zuwächse Xk − Xk−1 , k ∈ N, jeweils mit Hk gewichtet“ und aufsummiert werden.
4.250Die Integrabilität von Y, vgl. (4.45),” ist offensichtlich, weil X ein Submartingal ist und
weil Hn für alle n ∈ N beschränkt ist. Die Submartingaleigenschaft von Y folgt aus
E[Yn+1 |Fn ] = E[Hn+1 (Xn+1 − Xn )|Fn ] +
n
X
k=1
= Hn+1 E[Xn+1 − Xn |Fn ] +Yn
| {z } |
{z
}
≥0
≥0
≥ Yn , f.s.,
Hk (Xk − Xk−1 )
(wegen (3.32), da Hn+1 meßbar bzgl. Fn ist)
(da H positiv und X ein Submartingal ist)
n ∈ N0 .
4.251(4.63) ist eine zeitlich diskrete Version eines im Sinne von Itô definierten stochastischen
R
Integrals Yt = 0t Hs dXs , t ≥ 0, eines vorhersehbaren Prozesses H = (Ht )t≥0 bzgl. eines Submartingals X = (Xt )t≥0 , vgl. Abschnitte 4.6.1 und 6.2. Bei der Definition stochastischer Integrale im
Sinne von Itô benutzt man Prozesse Y = (Yn )n∈N0 wie in (4.63) als Approximation.
4.252Vgl. Abschnitt 3.9.
4.253a ∧ b = min{a, b}, a, b ∈ R.
4.254Die Behauptung ergibt sich aus der Darstellung
Xn∧T = X(n−1)∧T + (Xn − Xn−1 )I{T ≥n}
= · · · = X0 +
n
X
(Xk − Xk−1 )I{T ≥k} ,
n = 1, 2, . . . ,
k=1
der Beobachtung {T ≥ n} = Ω \ {T ≤ n − 1} ∈ Fn−1 , n = 1, 2, . . . , und Beispiel 4.39.
22. Juli 2014
84
Die Martingaleigenschaft eines Prozesses X = (Xn )n∈N0 bleibt bestehen, wenn
X an Stoppzeiten betrachtet wird.
Satz 4.41 ( Optional Stopping Theorem“). 4.255 Seien X = (Xn )n∈N0 ein Martin”
gal und S und T Stoppzeiten bzgl. einer Filtration (Fn )n∈N0 . Für ein M ∈ (0, ∞)
sei
0 ≤ S ≤ T ≤ M < ∞, f.s.
(4.64)
Dann gilt
4.256
E[XT |FS ] = XS , f.s.,
(4.65)
und
(4.66)
E[XT ] = E[XS ].
Seien Tk , k ∈ N0 , beschränkte Stoppzeiten
(4.67)
4.257
bzgl. (Fn )n∈N0 mit
4.258
0 ≤ T0 ≤ T1 ≤ T2 ≤ . . . , f.s.
bk = XT , k ∈ N0 , ein
b = (X
bk )k∈N0 mit X
Dann ist der stochastische Prozeß X
k
4.259
Martingal bzgl. der Filtration
(FTk )k∈N0 .
Satz 4.41 gilt sinngemäß auch, wenn X ein Sub- oder ein Supermartingal ist.
Beispiel 4.42. Sei (Xn )n∈N0 die symmetrische Irrfahrt in Z mit X0 = 0, f.s. 4.260,
und sei Tc = inf{n ∈ N0 : Xn = c}, c ∈ Z. Für a, b ∈ Z mit a < 0 < b sind Ta , Tb
und T = Ta ∧ Tb Stoppzeiten bzgl. der Filtration (FnX )n∈N0 4.261.
Für die Stoppzeiten T und S ≡ 0 gilt 0 = S ≤ T < ∞, f.s., und (4.66) 4.262. Es
folgt
0 = E[XS ] = E[XTa ∧Tb ]
=
und somit
4.263
a P[Ta < Tb ] + b P[Tb < Ta ]
| {z }
= 1 − P[Ta < Tb ]
b
,
b−a
d.h., mit Wahrscheinlichkeit b/(b−a) verläßt die symmetrische Irrfahrt das Intervall
(a, b) in a.
Es muß betont werden, daß (4.65) und (4.66) nicht für beliebige Stoppzeiten
S und T mit 0 ≤ S ≤ T < ∞, f.s., gelten können. Für S ≡ 0 und T = Ta ist
beispielsweise 0 = E[XS ] 6= E[XTa ] = a, falls a 6= 0.
P[Ta < Tb ] =
4.255Vgl. z.B. [7], Section 4.7, Theorem (7.4), und [6], Theorem 5.10. In jenen Resultaten
wird der hier vorgestellte Satz 4.41 verallgemeinert. Hierbei wird insbesondere mit geeigneten
unbeschränkten Stoppzeiten gearbeitet. Der Nachweis von (4.65) wird in Anhang A.4.6 geführt.
4.256Die σ-Algebra F , die einer Stoppzeit T zugeordnet ist, wird in Abschnitt 3.9
T
beschrieben.
4.257Zu jedem k ∈ N gibt es ein M ∈ (0, ∞) mit T ≤ M , f.s.
0
k
k
k
4.258Die Stoppzeiten T , k ∈ N , sind monoton ansteigend.
0
k
4.259Die Tatsache, daß (F )
Tk k∈N0 eine Filtration ist, d.h., daß FT0 ⊆ FT1 ⊆ FT2 ⊆ . . . , folgt
aus (4.67).
4.260Vgl. Satz 4.23.
4.261Vgl. Beispiel 3.30 und Satz 3.31. Aus Satz 4.23 folgt zunächst, daß T ′ = inf{n ∈ N :
0
Xn = 0} < ∞, f.s. Als Konsequenz ergibt sich letztendlich, daß auch Ta , Tb < ∞, f.s.
4.262Die Bedingung (4.64) ist zwar nicht erfüllt. Aufgrund von [7], Section 4.7, Theorem (7.4),
bleibt (4.66) für S und T dennoch gültig.
4.263Da T , T < ∞, f.s., vgl. Fußnote 4.261, ist offensichtlich P[T < T ] + P[T < T ] = 1.
a
a
a
b
b
b
Außerdem ist XTa ∧Tb = a, wenn Ta < Tb , und XTa ∧Tb = b, wenn Tb < Ta .
22. Juli 2014
85
4.4.3. Doobsche Zerlegung für Submartingale. Ein Submartingal X = (Xn )n∈N0
bzgl. einer Filtration (Fn )n∈N0 kann in der Form
Xn = Xn −
(4.68)
4.264
n−1
X
k=0
|
X
n−1
E[Xk+1 |Fk ] − Xk
E[Xk+1 |Fk ] − Xk +
{z
=: 4.265 Mn
= Mn + An , n ∈ N0 ,
}
k=0
|
=:
{z
4.266
An
}
dargestellt werden. M = (Mn )n∈N0 ist ein Martingal bzgl. (Fn )n∈N0 4.267, während
der Prozeß A = (An )n∈N0 vorhersehbar bzgl. (Fn )n∈N0 und anwachsend ist 4.268.
Hierbei heißt ein stochastischer Prozeß (An )n∈N0 anwachsend, wenn
0 = A0 ≤ A1 ≤ A2 ≤ . . . , f.s.,
und E[An ] < ∞, n ∈ N0 .
Die Darstellung (4.68) eines Submartingals als Summe eines Martingals und
eines vorhersehbaren, anwachsenden Prozesses ist eindeutig 4.269. Sie wird als Doobsche Zerlegung des Submartingals X bezeichnet 4.270.
Beispiel 4.43. Sei X = (Xn )n∈N0 ein Martingal bzgl. einer Filtration (Fn )n∈N0
mit 4.271 E[Xn2 ] < ∞, n ∈ N0 . Aufgrund von Beispiel 4.32 ist dann der Prozeß
X2 = (Xn2 )n∈N0 ein Submartingal bzgl. (Fn )n∈N0 4.272. Somit ist nach (4.68) und
den hierzu durchgeführten Überlegungen X2,c = (Xn2,c )n∈N0 mit
Xn2,c = Xn2 −
=
4.273
n−1
X
k=0
Xn2 −
2
|Fk ] − Xk2
E[Xk+1
n−1
X
k=0
E[(Xk+1 − Xk )2 |Fk ],
n ∈ N0 ,
4.264Für jeden Zeitpunkt n werden für die vorangegangenen Zeitpunkte k = 0, 1, . . . , n − 1,
die unter der jew. Vergangenheit Fk bedingten Zuwächse“ E[Xk+1 − Xk |Fk ] des Prozesses X
”
aufsummiert.
4.265
Für n = 0 sei Mn = X0 gesetzt.
4.266
Für n = 0 sei An = 0 gesetzt.
4.267Aufgrund von (4.47) folgt die Martingaleigenschaft von M aus
E[Mn |Fn−1 ] = E[Xn |Fn−1 ] −
= Xn−1 −
n−2
X
k=0
n−1
X
k=0
E[Xk+1 |Fk ] − Xk
E[Xk+1 |Fk ] − Xk = Mn−1 ,
n = 1, 2, . . . .
4.268Die in Beispiel 4.39 eingeführte Vorhersehbarkeit ist für A = (A )
n n∈N0 offensichtlich.
Weiterhin ist es eine Konsequenz der Submartingaleigenschaft von X, daß A anwachsend ist.
4.269Sei X = M ′ + A′ , n ∈ N , eine weitere Darstellung des Submartingals (X )
n
n n∈N0 als
0
n
n
Summe eines Martingals (Mn′ )n∈N0 und eines vorhersehbaren, anwachsenden Prozesses (A′n )n∈N0 .
Dann gilt
′
A′n+1 − A′n = −(Mn+1
− Mn′ ) + (Xn+1 − Xn ), n ∈ N0 .
Wenn nun E[ . |Fn ] auf beide Seiten angewandt wird, führen die Vorhersehbarkeit von (A′n )n∈N0 ,
die Martingaleigenschaft von (Mn′ )n∈N0 und die Definition von (An )n∈N0 in (4.68) zu
A′0
A′n+1 − A′n = E[Xn+1 |Fn ] − Xn = An+1 − An ,
n ∈ N0 .
= 0 folgt durch Induktion zunächst An = A′n , n ∈ N0 , und dann Mn = Mn′ , n ∈ N0 .
4.270Bei Submartingalen in kontinuierlicher Zeit wird die entsprechende Darstellung auch
Doob-Meyer-Zerlegung genannt, vgl. z.B. Abschnitt 5.3.3 oder [18], Theorem 25.5.
4.271X ist somit ein quadratintegrables Martingal.
4.272In Beispiel 4.32 ist φ(x) = x2 , x ∈ R, zu benutzen.
Da A0 =
22. Juli 2014
86
ebenfalls ein Martingal bzgl. (Fn )n∈N0 .
Beispiel 4.44. 4.274 Sei X = (Xn )n∈N0 ein Galton-Watson-Prozeß mit X0 = 1,
der mittleren Nachkommenszahl m > 1 und der Varianz σ 2 ∈ (0, ∞) der Nachkommensverteilung 4.275. Nach Beispiel 4.33 ist der Prozeß W = (Wn )n∈N0 mit
Wn = Xn /mn , n = 0, 1, 2, . . . , ein Martingal bzgl. (FnX )n∈N0 . Da σ 2 < ∞, ist
E[Wn2 ] < ∞, n ∈ N0 4.276.
Da
2 Xk X
Xk+1
2 X
(4.69)
− k Fk
E[(Wk+1 − Wk ) |Fk ] = E
mk+1
m
1
= 2(k+1) E[(Xk+1 − mXk )2 |FkX ]
m
" X
!2 #
k
X
1
X
l
4.277
=
E
(ζ
−
m)
Fk
k
m2(k+1)
l=1
1
=
4.278
=
1
σ 2 Wk ,
mk+2
m2(k+1)
σ 2 Xk
k ∈ N0 ,
ist nach Beispiel 4.43 der Prozeß W2,c = (Wn2,c )n∈N0 mit
Wn2,c = Wn2 − σ 2
n−1
X
k=0
1
Wk ,
mk+2
n ∈ N0 ,
ein Martingal bzgl. (FnX )n∈N0 . Folglich ist
(4.70) E[(Wn+r −Wn )2 ] =
4.279
2
E[Wn+r
−Wn2 ] =
4.280
σ2
∞
σ2 X 1
1
σ2
≤ n+2
=
,
m
mp
mn m2 − m
p=0
n+r−1
X
k=n
1
E[Wk ]
mk+2 | {z }
= 4.281 1
n ∈ N0 , r = 1, 2, . . . .
4.273Da
2
− 2Xk+1 Xk + Xk2 )|Fk ]
E[(Xk+1 − Xk )2 |Fk ] = E[(Xk+1
2
2
|Fk ] − Xk2 ,
|Fk ] − 2Xk E[Xk+1 |Fk ] + Xk2 = E[Xk+1
= E[Xk+1
wobei insbesondere (3.32) und die Martingaleigenschaft von X verwendet werden.
4.274In diesem Beispiel wird mit Hilfe des in Beispiel 4.33 eingeführten Martingals W ausgehend u.a. von den Überlegungen in Beispiel 4.43 nachgewiesen, daß die Konvergenz in (4.35) auch
e bestimmt. Nach den Ausführungen in
in L2 gilt. Außerdem wird die Varianz des Grenzwerts X
Anhang A.4.4 und in Beispiel 4.36 wird damit der Beweis von Satz 4.25 abgeschlossen.
4.275σ2 ist die Varianz des Wahrscheinlichkeitsmaßes b = (b )
k k∈N0 auf N0 , welches die Verteilung der Anzahl der Nachkommen eines Individuums angibt, vgl. Beispiel 4.24.
4.276Diese Abschätzung ergibt sich zunächst durch vollständige Induktion mit Hilfe von
(4.31). In (4.71) wird E[Wn2 ], n = 1, 2, . . . , exakt bestimmt.
4.277Wegen (4.31).
4.278Die einzelnen Zufallsvariablen ζ l , l = 1, 2, . . . , sind untereinander unabhängig und unk
abhängig von FkX und damit insbesondere von Xk . Außerdem hat jede dieser Zufallsvariablen den
2
Erwartungswert m und die Varianz σ . Hier kann somit insbesondere berücksichtigt werden, daß
sich die Varianzen unabhängiger Zufallsvariablen addieren.
22. Juli 2014
87
Somit ist Wn , n ∈ N0 , eine Cauchy-Folge in L2 (Ω, F, P), d.h., es existiert eine
L2 g 4.282
2
g
. Da
eindeutig bestimmte Zufallsvariable W
∞ ∈ L (Ω, F, P) mit Wn → W∞
2
e f.s. 4.283, ist W
g
e
limn→∞ Wn = W∞ = X,
=
X.
Damit
ist
die
L
-Konvergenz
in
∞
(4.35) nachgewiesen.
Weiterhin folgt:
(4.71)
E[Wn2 ] =
4.284
E[W02 ] + E[(Wn − W0 )2 ]
=
4.285
1 + σ2
n−1
X
k=0
1
,
mk+2
n = 1, 2, . . . .
2
L g
2
e
e
e2
Da Wn → W
∞ = X auch limn→∞ E[Wn ] = E[X] und limn→∞ E[Wn ] = E[X ]
4.286
impliziert
, führen (4.55) und (4.71) zu
e = E[X
e 2 ] − E[X]
e 2 = σ2
Var(X)
∞
X
k=0
1
mk+2
=
σ2
.
m2 − m
4.4.4. Doobsche Ungleichungen. Eine bemerkenswerte und sehr nützliche Eigenschaft von Submartingalen ist die Tatsache, daß sie in jedem beschränkten Zeitintervall gleichmäßig mit Hilfe ihres Werts am Ende jenes Zeitintervalls abgeschätzt
werden können.
Satz 4.45. 4.287 4.288 Der Prozeß X = (Xn )n=1,2,...,N sei ein Submartingal bzgl.
der Filtration (Fn )n=1,2,...,N . Für λ > 0 gilt dann
(4.72)
λP sup Xn ≥ λ ≤ E XN I{supn=1,...,N Xn ≥λ}
n=1,...,N
≤ E[(XN )+ ] ≤ E[|XN |].
Wenn insbesondere X ein Martingal mit E[|XN |p ] < ∞ für ein p ≥ 1 ist, so
folgt 4.289
(4.73)
λp P sup |Xn | ≥ λ ≤ E[|XN |p ].
n=1,...,N
4.279Da (W )
n n∈N0 ein Martingal ist, führen (3.27) und die Überlegungen in Fußnote 4.273
zu
X
E[(Wn+r − Wn )2 ] = E E[(Wn+r − Wn )2 |Fn
]
2
X
2
= E E[Wn+r
|Fn
] − Wn2 = E[Wn+r
− Wn2 ].
4.280
Da W2,c ein Martingal ist.
Vgl. (4.55).
4.282Als Hilbertraum ist L2 (Ω, F, P) vollständig, d.h., jede Cauchy-Folge besitzt einen eindeutig bestimmten Grenzwert.
4.283Vgl. Beispiel 4.36, insbesondere (4.54).
4.284Vgl. Fußnote 4.279.
4.285Weil W = X /m0 = X = 1 und wegen (4.70).
0
0
0
4.286Vgl. Abschnitt 3.5.4, insbesondere Satz 3.17.
4.287Vgl. [7], Section 4.4. Im Anhang A.4.7 werden (4.72) und (4.74) bewiesen.
4.288Satz 4.45 gilt auch für Submartingale mit einer abzählbaren oder kontinuierlichen Menge
von Zeitpunkten. Im kontinuierlichen Fall müssen die Pfade hinreichend regulär, z.B. rechtsstetig
sein, vgl. z.B. [19], Chapter 1, Theorem 3.8.
4.289Nach Beispiel 4.32 ist der Prozeß |X|p = (|X |p )
n
n=1,2,...,N ein Submartingal und daher
folgt (4.73) aus (4.72).
4.281
22. Juli 2014
88
Falls p > 1, gilt weiterhin
(4.74)
E sup
p p
E[|XN |p ].
|Xn |p ≤
p−1
n=1,...,N
Beispiel 4.46. Seien X1 , X2 , . . . , XN unabhängige, reellwertige Zufallsvariablen
mit E[Xk ] = 0, k = 1,P. . . , N , und E[Xk2 ] = σk2 , k = 1, . . . , N . Dann ist S =
n
2
]=
(Sn )n=1,...,N mit Sn = k=1 Xk , n = 1, . . . , N , ein Martingal 4.290 mit E[SN
PN
2
k=1 σk . Aufgrund von (4.73) gilt somit die Kolmogorovsche Ungleichung
N
1 X 2
P sup |Sn | ≥ λ ≤ 2
σk .
λ
n=1,...,N
k=1
4.5. Brownsche Bewegung. Die Brownsche Bewegung ist der wohl bekannteste Diffusionsprozeß, d.h. Markovprozeß mit stetigen Pfaden. In vielen Artikeln
und Büchern werden detaillierte Resultate über die Brownsche Bewegung vorgestellt. Dieser Prozeß ist einerseits innerhalb der Wahrscheinlichkeitstheorie von
großer Bedeutung 4.291. U.a. können beliebige Diffusionsprozesse durch geeignete
Transformationen der Brownschen Bewegung dargestellt werden 4.292.
Auch außerhalb der Wahrscheinlichkeitstheorie tritt die Brownsche Bewegung
in Erscheinung. Beispielsweise können die Lösungen gewisser elliptischer oder parabolischer Differentialgleichungen als Funktionale der Brownschen Bewegung repräsentiert werden 4.293. Bei der Modellierung zufallsbeeinflußter Zeitentwicklungen
durch stochastische Differentialgleichungen kann die Brownsche Bewegung zur Darstellung des Rauschanteils benutzt werden 4.294.
4.5.1. Definition der Brownschen Bewegung. 4.295 Die Brownsche Bewegung ergibt sich als Grenzfall der symmetrischen Irrfahrt 4.296 nach einer geeigneten Reskalierung. Diese Reskalierung entspricht einer Beobachtung der symmetrischen Irrfahrt aus einer großen Entfernung über einen langen Zeitraum. Aus diesem Grund
4.290D.h., S ist ein Martingal bzgl. der Filtration (F S )
n n=1,...,N .
4.291Die Brownsche Bewegung ist insbesondere ein Martingal, ein Gaußprozeß und auch ein
Prozeß mit stationären Zuwächsen. Sie ist damit für verschiedene Klassen stochastischer Prozesse
jeweils ein einfaches Beispiel.
4.292Weiterhin können recht allgemeine stetige Martingale durch unterschiedliche Transformationen der Brownschen Bewegung repräsentiert werden, vgl. z.B. Theorem 4.2 oder Theorem 4.6
in [19], Chapter 3.
4.293In den Beispielen 4.50 und 4.51 wird dieser Zusammenhang zu partiellen Differentialgleichungen im Rahmen eines Dirichlet- und eines Anfangswertproblems verdeutlicht.
4.294Eine stochastische Differentialgleichung ist beispielsweise
(∗1 )
dXt
|{z}
=
b(Xt )dt
| {z }
+
σ(Xt )dBt ,
| {z }
Zustandsänderung
deterministische
zufällige
in infinitesimalem
Zustandsänderung
Zustandsänderung
Zeitintervall
wobei b und σ geeignete Funktionen sind und B = (Bt )t≥0 eine Brownsche Bewegung ist. In einer
Integraldarstellung kann (∗1 ) auch in der Form
Z t
Z t
σ(Xs )dBs , t ≥ 0,
b(Xs )ds +
(∗2 )
Xt = X0 +
0
0
geschrieben werden.
Bei der mathematischen Diskussion von (∗1 ) oder (∗2 ) muß zunächst dem stochastischen InR
tegral 0t σ(Xs )dBs eine Bedeutung zugewiesen werden. Anschließend können Existenz und Eindeutigkeit, sowie qualitative und quantitative Eigenschaften einer Lösung X = (Xt )t≥0 untersucht werden. Erste weitergehende Informationen zu stochastischen Integralen und stochastischen
Differentialgleichungen finden sich in Abschnitt 4.6.
4.295
Ein Ausblick auf die Überlegungen dieses Abschnitts 4.5.1 wird in Abschnitt 4.2.6
gegeben.
4.296
Die symmetrische Irrfahrt in Zd wurde in Satz 4.23 vorgestellt.
22. Juli 2014
89
1000
800
600
400
Ort
200
0
-200
-400
-600
-800
-1000
0
20000
40000
60000
80000
100000
Zeit
Abbildung 4.6. Symmetrische Irrfahrt in Z. Zeitdauer = 100000,
20 Realisierungen.
350
300
250
Y
200
150
100
50
0
-50
-700
-600
-500
-400
-300
X
-200
-100
0
100
Abbildung 4.7. Symmetrische Irrfahrt in Z2. Zeitdauer = 100000,
Simulation eines Pfads.
können die Abbildungen 4.6 und 4.7 auch als Visualisierungen der Brownschen
Bewegung in R, bzw. in R2 betrachtet werden 4.297.
Während in Abbildung 4.6 die zeitliche Entwicklung verschiedener Pfade der
1-dimensionalen Irrfahrt dargestellt ist, zeigt Abbildung 4.7, wie ein einzelner Pfad
4.297In den Abbildungen 4.2 - 4.4 wird dementsprechend der Betrag der Brownschen Bewe-
gung in R2 , R3 , bzw. R10 visualisiert.
22. Juli 2014
90
der 2-dimensionalen Irrfahrt in R2 eingebettet ist. Wie dieser Pfad im Verlauf der
Zeit durchlaufen wird, ist nicht zu erkennen.
Sei X = (Xn )n∈N0 die symmetrische Irrfahrt in Z 4.298. X besitzt die Darstellung 4.299
n
X
(4.75)
Xn =
ξk , n ∈ N0 ,
k=1
wobei ξk , k ∈ N, unabhängige, in {−1, 1} gleichverteilte Zufallsvariablen sind.
Beim Übergang zur Brownschen Bewegung wird X zunächst
• auf alle Zeitpunkte t ≥ 0 fortgesetzt, d.h., Y = (Yt )t≥0 mit Yt = X⌊t⌋ ,
t ≥ 0, 4.300 eingeführt, und anschließend
• reskaliert, d.h., es werden die Prozesse XN = (XtN )t≥0 mit 4.301
1
(4.76)
XtN = √ YN t , t ≥ 0, N ∈ N,
N
betrachtet.
Zum Studium der Asymptotik von XN werden die Zuwächse XtN − XsN , 0 ≤
s < t < ∞, für N → ∞ untersucht. Aufgrund des Zentralen Grenzwertsatzes 4.302
ist zunächst
lim (XtN − XsN )
N →∞
p
⌊N t⌋
X
⌊N t⌋ − ⌊N s⌋
1
√
p
= lim
ξl
N →∞
N
⌊N t⌋ − ⌊N s⌋ l=⌊N s⌋+1
√
= t − s ζ, in Verteilung, 0 ≤ s < t < ∞,
wobei Pζ = N(0, 1) 4.303. Etwas allgemeiner folgt mit einem mehrdimensionalen
Zentralen Grenzwertsatz 4.304, daß
lim XtN1 , XtN2 − XtN1 , . . . , XtNn − XtNn−1
(4.77)
N →∞
p
√
√
t1 ζ1 , t2 − t1 ζ2 , . . . , tn − tn−1 ζn , in Verteilung,
=
0 = t0 < t1 < · · · < tn < ∞, n ∈ N,
4.298Die nun folgenden und schließlich zu (4.77) führenden Überlegungen lassen sich völlig
analog auch für die symmetrische Irrfahrt in Zd , d > 1, durchführen.
4.299Die Darstellung (4.75) der symmetrischen Irrfahrt wurde auch schon in Beispiel 2.9
benutzt. Sie impliziert insbesondere X0 = 0.
4.300Der Prozeß Y nimmt in den Zeitintervallen [l, l + 1), l ∈ N , einen konstanten Wert in Z
0
an und springt in den Zeitpunkten l ∈ N mit Wahrscheinlichkeit 1/2 jeweils um 1 nach oben oder
unten.
4.301Man könnte auch andere Skalierungen verwenden, d.h., beispielsweise Prozesse X(α,β) =
(α,β)
(α,β)
(Xt
)t≥0 mit Xt
= Yαt /β, t ≥ 0, α, β > 0, einführen. Die Überlegungen dieses Abschnitts 4.5.1, insbesondere das unten folgende Studium der Asymptotik von Summen unabhängiger, in {−1, 1} gleichverteilter Zufallsvariablen mit Hilfe des Zentralen Grenzwertsatzes,
lassen jedoch den Schluß zu, daß ein nichttrivialer Limes für X(α,β) bei α, β → ∞ nur dann
α→∞ √
erwartet werden kann, wenn β = β(α) ∼
α.
In den Abbildungen 4.6 und 4.7 wurde durch die Auswahl der jeweiligen Bildbereiche
durch den Computer automatisch eine Reskalierung von Raum√und Zeit vorgenommen. Bei einer
√ großzügigen Betrachtungsweise in Abbildung 4.7 ist sogar Zeitdauer/Raumdurchmesser ∼
100000/800 ∼ 316/800 ∼ 1 zu erkennen, d.h., die in (4.76) gewählte Skalierung drängt sich auch
im Rahmen dieser Simulationen auf.
4.302Vgl. Satz 4.10.
4.303Somit konvergiert X N − X N bei N → ∞ in Verteilung gegen eine gemäß N(0, t − s)
s
t
verteilte Zufallsvariable.
4.304
Vgl. z.B. Satz 4.18. Zu einem präzisen Beweis von (4.77) muß Satz 4.18 leicht modifiziert
werden.
22. Juli 2014
91
wobei ζ1 , ζ2 , . . . unabhängige Zufallsvariablen mit Pζk = N(0, 1), k = 1, 2, . . . ,
sind 4.305.
(4.77) berechtigt zur Vermutung, daß bei N → ∞ die Prozesse XN gegen einen
stochastischen Prozeß B = (Bt )t≥0 mit unabhängigen, normalverteilten Zuwächsen
konvergieren 4.306 4.307.
Dementsprechend wird ein Rd -wertiger stochastischer Prozeß B = (Bt )t≥0 als
(standard ) Brownsche Bewegung bezeichnet, falls
(a) B0 = 0, f.s. 4.308,
(b) t → Bt f.s. stetig ist 4.309 und wenn außerdem
(c) für 0 ≤ s < t < ∞ der Zuwachs Bt − Bs unabhängig von Bu , 0 ≤ u ≤ s,
ist und eine Normalverteilung mit Erwartungswert 0 und Kovarianzmatrix
(t − s)I 4.310 besitzt 4.311.
Als unmittelbare Konsequenz aus (a) und (c) ergibt sich, daß B = (Bt )t≥0 ein
Martingal bzgl. (FtB )t≥0 ist 4.312.
Im folgenden Abschnitt wird der Frage nachgegangen, ob ein stochastischer
Prozeß, der (a), (b) und (c) erfüllt, überhaupt existiert.
4.5.2. Konstruktion der Brownschen Bewegung. Wegen der Bedingung (c) ist
eine standard Brownsche Bewegung ein Markovprozeß mit gauß’schen Übergangswahrscheinlichkeiten 4.313. Insbesondere folgt
(4.78)
P Bt ∈ A|Bu , 0 ≤ u ≤ s 4.314 = 4.315 P Bt ∈ A|Bs
Z
(y − Bs )2
1
4.316
dy exp −
, f.s.,
=
2(t − s)
(2π(t − s))d/2 A
0 ≤ s < t < ∞, A ∈ B(Rd ).
4.305(4.77) besagt, daß asymptotisch bei N → ∞ die Zuwächse X N − X N , i = 1, . . . , n,
ti−1
ti
des Prozesses XN in den disjunkten Zeitintervallen (ti−1 , ti ], i = 1, . . . , n, unabhängig und gemäß
N(0, ti − ti−1 ), i = 1, . . . , n, verteilt sind.
4.306Für 0 ≤ s < t < ∞ sollte insbesondere B − B unabhängig von B , 0 ≤ u ≤ s, gemäß
t
s
u
N(0, t − s) verteilt sein.
4.307
Eine mathematisch rigorose, allgemeine Diskussion der Konvergenz von stochastischen
Prozessen wird an dieser Stelle nicht durchgeführt. Dazu sei auf die hierzu gemachten Andeutungen in Abschnitt 4.2.6 und deren Präzisierung in Abschnitt 5.4.2 verwiesen. Ausführlichere
Darstellungen finden sich z.B. in [8], Chapter 3, oder [18], Chapter 16. Die Beziehung (4.77),
die im wesentlichen die Konvergenz der endlich-dimensionalen Verteilungen der Prozesse XN
bei N → ∞ festhält, dient nur zur Motivation der nun folgenden Definition der Brownschen
Bewegung.
4.308Diese Bedingung ist nur eine Standardisierung.
4.309Sei B auf einem Wahrscheinlichkeitsraum (Ω, F, P) definiert. In (b) wird verlangt, daß
bzgl. P für fast alle ω ∈ Ω der Pfad t → Bt (ω) stetig ist. Diese Forderung der Stetigkeit wird
beispielsweise auch durch Simulationen der Irrfahrt, wie sie in den Abbildungen 4.2 - 4.4, 4.6
und 4.7 zu sehen sind, nahegelegt.
Weiterhin wird die Stetigkeit von B zu einer natürlichen Forderung, wenn beachtet wird, daß
für große N der Prozeß XN und daher auch B durch den in Abschnitt 4.2.6 eingeführten stetigen
e N approximiert wird.
Prozeß X
4.310I ist hier die d × d-Einheitsmatrix. Mehrdimensionale Normalverteilungen werden in
Abschnitt 4.2.3 vorgestellt.
4.311
Falls der Erwartungswert des Zuwachses gleich (t − s)a für ein a ∈ Rd und die Kovarianzmatrix gleich (t − s)Q für eine positiv-definite symmetrische Matrix Q ∈ Rd⊗d ist, spricht man
von einer Brownschen Bewegung mit Drift a und Diffusionsmatrix Q.
√
4.312Zunächst zeigen (a) und (c), daß E[|B |] ≤ E[B 2 ]1/2 = E[(B − B )2 ]1/2 = dt, 0 ≤
t
t
0
t
t < ∞. Weiterhin folgt für 0 ≤ s < t < ∞ aus (c) und der Tatsache, daß Bs meßbar bzgl.
σ(Bu , 0 ≤ u ≤ s) ist, 0 = E[Bt − Bs |Bu , 0 ≤ u ≤ s] = E[Bt |Bu , 0 ≤ u ≤ s] − Bs , f.s.
4.313
Übergangswahrscheinlichkeiten für Markovprozesse in kontinuierlicher Zeit mit diskretem Zustandsraum wurden am Anfang des Abschnitts 4.3.2 eingeführt. Im Gegensatz zu jenem
Fall ist nun zu berücksichtigen, daß der Zustandsraum nicht mehr abzählbar ist.
22. Juli 2014
92
4.314Hier ist eine unter dem Verhalten von B in dem ganzen Zeitintervall [0, s] der Vergangenheit und Gegenwart bedingte Wahrscheinlichkeit zu sehen. Zur Erläuterung solcher bedingter
Wahrscheinlichkeiten vgl. Abschnitt 3.8.
4.315
Da Bt − Bs unabhängig von Bu , 0 ≤ u ≤ s, ist und somit Bt nicht von Bu , 0 ≤ u < s,
abhängt, falls Bs bekannt ist.
4.316
Da PBt −Bs = N(0, (t−s)I) und somit PBt [ . |Bs ] = N(Bs , (t−s)I), f.s., wobei PBt [ . |Bs ]
die unter σ(Bs ) bedingte Verteilung von Bt ist. Eine Erläuterung des Begriffs der bedingten Verteilung einer Zufallsvariable X unter einer σ-Algebra A findet sich in Abschnitt 5.2.1. Speziell zur
Einordnung von (4.78) in die Theorie allgemeiner Markovprozesse sei auf Beispiel 5.9 verwiesen.
22. Juli 2014
KAPITEL 3
Weitere Gebiete der Wahrscheinlichkeitstheorie
5. Ausbau der theoretischen Basis der Wahrscheinlichkeitstheorie
In diesem Abschnitt werden einige Beiträge zu den theoretischen Grundlagen
der Wahrscheinlichkeitstheorie vorgestellt. Hiermit sollen zunächst die Ausführungen in Abschnitt 4 vertieft und ergänzt werden. Außerdem soll Abschnitt 6 vorbereitet werden.
5.1. Klassische Hilfsresultate. Wie in jeder anderen mathematischen Disziplin haben sich auch in der Wahrscheinlichkeitstheorie typische Denk- und Argumentationsschemata herausgebildet. So gibt es beispielsweise auch spezielle Hilfsresultate, die in vielen unterschiedlichen Situationen Verwendung finden, um korrekte
mathematische Schlüsse durchzuführen 5.1.
5.1.1. Lemma von Borel-Cantelli. Mit diesem Resultat können u.a. viele Aussagen zur Asymptotik von Folgen von Zufallsvariablen bewiesen werden 5.2.
Satz 5.1 (Lemma von Borel-Cantelli). 5.3 Sei An , n ∈ N, eine Folge von Ereignissen in einem Wahrscheinlichkeitsraum (Ω, F, P). Sei weiterhin 5.4
A=
∞ [
∞
\
n=1 k=n
Ak =: lim sup An =: {An i.o.}
n→∞
das Ereignis, daß An für unendlich viele n ∈ N eintritt.
P
5.5
(a) Wenn P ∞
.
n=1 P[An ] < ∞, dann ist P[A] = 0
∞
(b) Wenn n=1 P[An ] = ∞ und wenn An , n ∈ N, eine Familie unabhängiger
Ereignisse ist, so gilt P[A] = 1 5.6 5.7 5.8.
5.1
In diesem Abschnitt werden insbesondere das Lemma von Borel-Cantelli, vgl. Satz 5.1,
das 0 -1-Gesetz von Kolmogorov, vgl. Satz 5.3, und das π-λ-Theorem, vgl. Satz 5.5, vorgestellt.
5.2
Beispielsweise wird in Beispiel 5.2 mit Hilfe des Lemmas von Borel-Cantelli der zweite Teil
von Satz 4.5 bewiesen. Weiterhin ist in Anhang A.5.1 das Lemma von Borel-Cantelli das wesentliche Hilfsmittel beim Nachweis, daß eine stochastisch konvergente Folge von Zufallsvariablen eine
fast-sicher konvergente Teilfolge besitzt, vgl. Satz 3.13.
5.3
Vgl. [7], Section 1.6. In jenem Abschnitt finden sich auch etliche Anwendungen des Lemmas
von Borel-Cantelli.
5.4Mit i.o.“ wird infinitely often“, d.h., für unendlich viele n ∈ N“ abgekürzt.
S
P∞
”
”
”
5.5Offensichtlich
ist A ⊆ ∞
k=n Ak , n ∈ N. Somit folgt P[A] ≤
k=n
P∞P[Ak ], n ∈ N, aus
der Monotonie und der σ-Subadditivität von P, vgl. Satz 3.10. Weil
k=1 P[Ak ] < ∞ zu
P
limn→∞ ∞
k=n P[Ak ] = 0 führt, ergibt sich P[A] = 0.
5.6In (b) kann auf die Unabhängigkeit der Ereignisse A , n ∈ N, nicht verzichtet werden. Für
n
An = B, n ∈PN, wobei B ∈ F mit P[B] > 0, ist offensichtlich A = B und somit P[A] = P[B],
d.h., obwohl ∞
n=1 P[An ] = ∞ ist, kann in diesem Fall P[A] von 1 verschieden sein.
5.7
Aufgrund von Satz 5.1 gilt für unabhängige Ereignisse A1 , A2 , . . . und A = {An i.o.} entweder P[A] = 0 oder P[A] = 1. Diese Tatsache ist ein Beispiel eines 0 -1-Gesetzes und insbesondere
ein Spezialfall des 0 -1-Gesetzes
von
vgl. Satz 5.3 und Fußnote 5.19.
S
T∞ Kolmogorov,
5.8
c
c
Zunächst ist Ac = ∞
n=1 k=n Ak , wobei B = Ω \ B, B ∈ F. Außerdem gilt:
" ∞
#
" N
#
\
\
Ack = lim P
P
Ack
(da P σ-stetig von oben ist, vgl. Satz 3.10)
k=n
N→∞
k=n
109
110
Beispiel 5.2. In diesem Beispiel wird der zweite Teil von Satz 4.5 bewiesen 5.9.
Es ist noch zu zeigen, daß für reellwertige, i.i.d. Zufallsvariablen X1 , X2 , . . .
aus der Gültigkeit des starken Gesetzes der großen Zahlen, d.h.,
N
1 X
Xk = µ, f.s.,
N →∞ N
(5.1)
lim
k=1
für ein µ ∈ R die Integrabilität von X1 , d.h.,
E[|X1 |] < ∞,
(5.2)
folgt. Zum Beweis sei zunächst bemerkt, daß (5.1) zu
1
(5.3)
lim
XN = 0, f.s.,
N →∞ N
führt 5.10. Nun sind aufgrund der Unabhängigkeit der Zufallsvariablen X1 , X2 , . . .
auch die Ereignisse {|XN | ≥ N }, N ∈ N, unabhängig. Wegen (5.3) gilt außerdem
P[|XN | ≥ N i.o.] = 0.
(5.4)
Nach Teil (b) des Lemmas von Borel-Cantelli kann somit
∞
X
(5.5)
P[|XN | ≥ N ] < ∞
5.11
N =1
gefolgert werden. Daher ergibt sich
Z ∞
E[|X1 |] = 5.12
P|X1 | (dy) y
=
≤
=
≤
=
lim
N→∞
lim
N→∞
N
Y
∞ Z
X
0
[k,k+1)
k=0
∞
X
P|X1 | (dy) y
(k + 1)P[k ≤ |X1 | < k + 1]
k=0
(da A1 , A2 , . . . und somit Ac1 , Ac2 , . . . unabhängig sind)
(1 − P[Ak ])
k=n
N
Y
exp(−P[Ak ])
k=n
(da 1 − x ≤ exp(−x), x ≥ 0)
X
N
lim exp −
P[Ak ]
N→∞
k=n
|
{z
N→∞
= 0,
→
n = 1, 2, . . . .
}
∞
Nach Berücksichtigung
der σ-Subadditivität von P, vgl. Satz 3.10, ergibt sich P[Ac ] ≤
T∞
P∞
c = 0 und somit P[A] = 1.
A
P
k=n k
n=1
5.9
Der Beweis des ersten Teils von Satz 4.5 findet sich in Beispiel 4.38. Genaugenommen fehlen
zum jetzigen Zeitpunkt auch noch die Beweise von Satz 4.37, eines Konvergenzsatzes für Submartingale, und des 0 -1-Gesetzes von Kolmogorov, vgl. Satz 5.3. Diese beiden Resultate werden in
Beispiel 4.38 benutzt.
5.10Zum Nachweis von (5.3) ist
N−1
N
X
1
1 X
N −1
1
Xk
XN =
Xk −
N
N k=1
N
N − 1 k=1
| {z }
|
| {z }
{z
}
N→∞
→ 1
N→∞
N→∞
→ µ
→ µ
zu beachten.
5.11Wenn die Reihe in (5.5) divergieren würde, wäre nach dem Lemma von Borel-Cantelli
P[|XN | ≥ N i.o.] = 1 im Widerspruch zu (5.4).
22. Juli 2014
111
=
5.13
∞
X
N =0
=
5.14
1+
P[|X1 | ≥ N ]
∞
X
N =1
P[|XN | ≥ N ] <
5.15
∞,
d.h., (5.2) ist bewiesen.
5.1.2. 0 -1-Gesetz von Kolmogorov. Das nun vorgestellte Resultat ist insbesondere bei der Untersuchung der Asymptotik von unabhängigen Zufallsvariablen hilfreich.
Sei zunächst X = (Xn )n∈N ein stochastischer Prozeß in diskreter Zeit N auf
einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in einem meßbaren Raum
(Ω′ , F′ ). Bei vielen Untersuchungen der Asymptotik von X bei n → ∞ spielt das
Verhalten von jeweils endlich vielen Zufallsvariablen X1 , . . . , XN für ein N ∈ N
keine Rolle. M. a. W., dieser Aspekt der Asymptotik von X ist dann charakterisiert
durch Ereignisse, die in allen σ(XN , XN +1 , . . . ), N ∈ N, enthalten sind. Sei
\
(5.6)
TX =
σ(XN , XN +1 , . . . ) ⊆ FX
N ∈N
die σ-Algebra jener Ereignisse
5.16
. TX wird auch Tail-σ-Algebra genannt.
Satz 5.3 (0 -1-Gesetz von Kolmogorov).
unabhängig. Dann ist
5.17
Die Zufallsvariablen X1 , X2 , . . . seien
P[A] = 0 oder P[A] = 1,
Man bezeichnet TX in diesem Fall als trivial
A ∈ TX .
5.18 5.19
.
Beispiel 5.4. Sei Xk , k ∈ N, eine Folge unabhängiger, reellwertiger
Pn Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) und sei Sn = k=1 Xk , n ∈ N.
Zunächst ist 5.20
(5.7)
lim Sn existiert ∈ TX ,
n→∞
5.12Vgl. (3.21).
5.13Da P[|X | ≥ N ] = P∞
1
m=N P[m ≤ |X1 | < m + 1], N ∈ N0 , ist für jedes m ∈ N0 in der
P∞
N=0 P[|X1 | ≥ N ] der Beitrag P[m ≤ |X1 | < m + 1] genau m + 1 mal enthalten.
Da die Zufallsvariablen X1 , X2 , . . . die gleiche Verteilung haben.
5.15
Wegen (5.5).
5.16Als Durchschnitt von σ-Algebren ist T eine σ-Algebra, vgl. Fußnote 3.8.
X
5.17Vgl. z.B. [5], Theorem 22.3. Ein Beweis wird auch in Beispiel 5.6 als eine Anwendung des
π-λ-Theorems, vgl. Satz 5.5, vorgestellt.
5.18U.a. mit Hilfe des 0 -1-Gesetzes von Kolmogorov wurde in Beispiel 4.38 die eine Richtung
von Satz 4.5, d.h., das starke Gesetz der großen Zahlen bewiesen.
5.19
Seien An , n ∈ N, unabhängige Ereignisse in einem Wahrscheinlichkeitsraum (Ω, F, P)
sind Xn , n ∈ N, unund sei X = (Xn )n∈N , wobei Xn = IAn , n ∈ N. Offensichtlich
T
S∞
abhängige, {0, 1}-wertige Zufallsvariablen. Weiterhin seien A = ∞
n=1 k=n Ak = {An i.o.} und
Z = limn→∞ supk≥n Xk , d.h., A = {Z = 1} ∈ TX . In Übereinstimmung mit dem Lemma von
Borel-Cantelli, vgl. Satz 5.1 und insbesondere Fußnote 5.7, besagt das 0 -1-Gesetz von Kolmogorov,
daß P[A] = 0 oder P[A] = 1.
Pn
5.20Zum Beweis von (5.7) sei S
m,n =
k=m Xk , m, n ∈ N, m < n. Dann ist
lim Sn existiert =
lim Sm,n existiert ∈ σ(Xm , Xm+1 , . . . ), m ∈ N.
Summe
5.14
n→∞
n→∞
22. Juli 2014
112
während
5.21 5.22
lim sup Sn > 0 ∈
/ TX .
(5.8)
n→∞
Wenn E[Xk ] = 0, k ∈ N, und
P∞
Var(Xk ) < ∞, so gilt darüberhinaus
P lim Sn existiert = 1.
(5.9)
k=1
5.23 5.24
n→∞
5.1.3. π-λ-Theorem. Im folgenden wird ein Resultat präsentiert, das u.a. erlaubt, zu verifizieren, ob eine interessante“ Eigenschaft, die für eine spezielle Menge
”
A von Ereignissen gilt, sogar für alle Ereignisse in der σ-Algebra σ(A) zutrifft 5.25.
Sei P eine Familie von Teilmengen einer Menge Ω 5.26. P ist ein π-System,
falls 5.27
A, B ∈ P
(5.10)
A ∩ B ∈ P.
=⇒
Weiterhin wird eine Familie L ⊆ Pot(Ω) als λ-System bezeichnet, falls
Ω ∈ L,
(5.11a)
A, B ∈ L, A ⊆ B
(5.11b)
=⇒
5.28
B \ A ∈ L,
5.21Insbesondere ist nicht jedes Ereignis, das Aspekte der Asymptotik der Folge X , k ∈ N,
k
beschreibt, in
der Tail-σ-Algebra TX enthalten.
5.22
Da lim supn→∞ Sn > 0 = lim supn→∞ (X2 + · · · + Xn ) > −X1 , ist offensichtlich
lim supn→∞ Sn > 0 nicht in σ(X2 , X3 , . . . ) und damit auch nicht in TX enthalten.
5.23Insbesondere wird durch (5.9) die nach dem 0 -1-Gesetz von Kolmogorov bestehende
Möglichkeit P limn→∞ Sn existiert = 0 im vorliegenden Fall ausgeschlossen.
Zum Beweis von (5.9) sei m, M ∈ N mit m < M und ǫ > 0. Dann folgt
M
1 X
Var(Xk )
P max |Sn − Sm | ≥ ǫ ≤ 2
m≤n≤M
ǫ k=m+1
aus der Kolmogorovschen Ungleichung, vgl. Beispiel 4.46. Da P σ-stetig von unten ist, vgl.
Satz 3.10, ergibt sich somit
∞
1 X
m→∞
P max |Sn − Sm | ≥ ǫ = lim P max |Sn − Sm | ≥ ǫ ≤ 2
Var(Xk ) → 0.
M →∞
m≤n
m≤n≤M
ǫ k=m+1
Für Wm , m ∈ N, mit Wm = maxl,n≥m |Sl − Sn |, m ∈ N, zeigt sich daher, daß
m→∞
→ 0, ǫ > 0,
P[Wm ≥ 2ǫ] ≤ P max |Sn − Sm | ≥ ǫ
m≤n
P
d.h., Wm → 0. Da die Zufallsvariablen Wm offensichtlich monoton fallend in m sind, gilt sogar
f.s.
Wm → 0. Daher ist
P {ω ∈ Ω : Sn (ω), n ∈ N, ist eine Cauchy-Folge} = 1
und folglich (5.9) bewiesen.
5.24
In einem alternativen Beweis kann zunächst festgehalten werden, daß S = (Sn )n∈N ein
Martingal ist. Da in der hier betrachteten Situation
1/2
X
∞
2 1/2
<∞
E[Xk2 ]
sup E[(Sn )+ ] ≤ sup E[|Sn |] ≤ sup E[Sn
]
≤
n∈N
n∈N
n∈N
k=1
gilt, folgt (5.9) aus Satz 4.34, einem Konvergenzsatz für Submartingale.
5.25Diese interessante“ Eigenschaft könnte wie in Beispiel 5.6 beim Beweis des 0 -1-Gesetzes
”
von Kolmogorov die Unabhängigkeit von einer speziellen Familie B von Ereignissen sein.
5.26Auf Ω braucht keine spezielle Struktur wie die eines Wahrscheinlichkeitsraums vorzuliegen.
5.27P ist durchschnittsstabil. Beispielsweise ist eine Semialgebra, vgl. Abschnitt 3.3.1, ein
π-System.
5.28Jede σ-Algebra, vgl. Abschnitt 2.1.1, ist ein λ-System.
22. Juli 2014
113
A1 , A2 , · · · ∈ L, A1 ⊆ A2 ⊆ . . .
(5.11c)
=⇒
A=
∞
[
k=1
Ak ∈ L.
Satz 5.5 (π-λ-Theorem). 5.29 5.30 Sei P ein π-System und L ein λ-System in einer
Menge Ω. Falls P ⊆ L, so gilt auch σ(P) ⊆ L.
In typischen Anwendungen des π-λ-Theorems beschreibt L ein System von
Ereignissen (Mengen), die eine spezielle Eigenschaft α besitzen. Falls L ein unter
endlichen Durchschnitten abgeschlossenes Erzeugendensystem P einer σ-Algebra G
umfaßt, so gilt α für alle A ∈ G.
Die Vorgehensweise in einer derartigen Situation wird nun demonstriert.
Beispiel 5.6. In diesem Beispiel wird das 0 -1-Gesetz von Kolmogorov 5.31 bewiesen.
Sei X1 , X2 , . . . eine Folge unabhängiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in einem meßbaren Raum (Ω′ , F′ ). Für N ∈ N
sei dann
RN = 5.32 {X1 ∈ C1 , . . . , XN ∈ CN } : C1 , . . . , CN ∈ F′ ,
L1N = A ∈ σ(XN +1 , XN +2 , . . . ) : A, C unabhängig für alle C ∈ RN
und
P1N =
5.33
{XN +1 ∈ AN +1 , . . . , XN +k ∈ AN +k } : AN +1 , . . . , AN +k ∈ F′ , k ∈ N .
Als Grundlage einer Anwendung des π-λ-Theorems kann festgehalten werden:
• P1N ⊆ L1N 5.34,
• P1N ist ein π-System 5.35,
• L1N ist ein λ-System 5.36,
5.29Vgl. z.B. [7], Appendix A.2, Theorem (2.1). Ein Beweis von Satz 5.5 wird auch in An-
hang A.5.2 vorgestellt.
5.30Als Anwendung des π-λ-Theorems wird in [7] beispielsweise untersucht, inwieweit Wahrscheinlichkeitsmaße durch ihre Einschränkung auf π-Systeme eindeutig bestimmt sind, vgl. [7],
Appendix A.2, Theorem (2.2). Ein hierzu äquivalentes Resultat ist in Fußnote 3.40 erwähnt.
5.31Vgl. Satz 5.3.
5.32R ist die Menge der Rechtecke in σ(X , . . . , X ).
1
N
N
5.33 1
PN umfaßt die endlich-dimensionalen Rechtecke in σ(XN+1 , XN+2 , . . . ).
5.34Da die Zufallsvariablen X , X , . . . unabhängig sind.
1
2
5.35Der Durchschnitt zweier endlich-dimensionaler Rechtecke in σ(X
N+1 , XN+2 , . . . ) ist ein
ebensolches Rechteck.
5.36Es ist (5.11) für L1 nachzuweisen.
N
Für C = {X1 ∈ C1 , . . . , XN ∈ CN } ∈ RN gilt zunächst
P[Ω ∩ C] = P[C] = 1 · P[C] = P[Ω]P[C],
d.h., C und Ω sind unabhängig. Insbesondere ist Ω ∈ L1N und somit (5.11a) für L1N gültig.
Falls A, B ∈ L1N mit A ⊆ B und C ∈ RN , folgt weiterhin
P[(B \ A) ∩ C] = P[(B ∩ C) \ (A ∩ C)] = P[B ∩ C] − P[A ∩ C]
= P[B]P[C] − P[A]P[C]
(da A, B ∈ L1N )
= (P[B] − P[A])P[C] = P[B \ A]P[C].
Daher ist B \ A ∈ L1N und (5.11b) für L1N bewiesen.
Für A1 , A2 , · · · ∈ L1N mit A1 ⊆ A2 ⊆ . . . und C ∈ RN gilt letztendlich
!
#
" ∞
!
#
" L
[
[
(da P σ-stetig von unten ist, vgl. Satz 3.10)
Ak ∩ C = lim P
Ak ∩ C
P
L→∞
k=1
=
k=1
| {z }
= AL
lim P[AL ]P[C]
L→∞
(da AL ∈ L1N )
22. Juli 2014
114
• σ(P1N ) = σ(XN +1 , XN +2 , . . . )
Mit dem π-λ-Theorem ergibt sich
5.37
.
σ(XN +1 , XN +2 , . . . ) = σ(P1N ) ⊆ L1N ⊆ σ(XN +1 , XN +2 , . . . ).
Somit folgt L1N = σ(XN +1 , XN +2 , . . . ), d.h.,
(5.12)
A ∈ σ(XN +1 , XN +2 , . . . ), C ∈ RN .
A, C unabhängig,
Für eine weitere Anwendung des π-λ-Theorems sei
L2N = C ∈ σ(X1 , . . . , XN ) : A, C unabhängig für alle A ∈ σ(XN +1 , XN +2 , . . . )
und
P2N = RN .
Nun gilt:
• P2N ⊆ L2N 5.38,
• P2N ist ein π-System 5.39,
• L2N ist ein λ-System 5.40,
• σ(P2N ) = σ(X1 , . . . , XN ) 5.41.
In diesem Fall führt das π-λ-Theorem zu
σ(X1 , . . . , XN ) = σ(P2N ) ⊆ L2N ⊆ σ(X1 , . . . , XN ),
d.h., L2N = σ(X1 , . . . , XN ) und daher
(5.13)
A ∈ σ(XN +1 , XN +2 , . . . ), C ∈ σ(X1 , . . . , XN ).
A, C unabhängig,
Insbesondere ergibt sich
(5.14)
5.42
5.43
A, C unabhängig,
A ∈ TX , C ∈
∞
[
σ(X1 , . . . , XN ),
N =1
aus (5.13)
Zur Vorbereitung einer letzten Anwendung des π-λ-Theorems sei jetzt
L3 = C ∈ σ(X1 , X2 , . . . ) : A, C unabhängig für alle A ∈ TX
und
P3 =
∞
[
σ(X1 , . . . , XN ).
N =1
Nun beobachtet man:
=
d.h.,
S∞
k=1
"
lim P
L→∞
L
[
k=1
#
"
Ak P[C] = P
∞
[
k=1
#
Ak P[C],
Ak ∈ L1N . Hiermit ist auch (5.11c) für L1N verifiziert.
5.37Vgl. Abschnitt 3.1.4.
5.38Vgl. (5.12).
5.39Offensichtlich sind Durchschnitte zweier Rechtecke in σ(X , . . . , X ) wiederum solche
1
N
Rechtecke.
5.40Zum Nachweis dieser Eigenschaft können die Argumente in Fußnote 5.36 auf eine triviale
Weise modifiziert werden.
5.41Vgl. Abschnitt 3.1.4.
5.42Wegen der Unabhängigkeit der Zufallsvariablen X , X , . . . ist (5.13) sicherlich zu erwar1
2
ten. Allerdings muß bei einer mathematisch rigorosen Vorgehensweise diese Beziehung durchaus
bewiesen werden.
5.43Die Tail-σ-Algebra T von X , n ∈ N, wird in (5.6) eingeführt. Zur Herleitung von (5.14)
X
Tn
aus (5.13) beachte man, daß TX = m∈N σ(Xm , Xm+1 , . . . ) ⊆ σ(Xk , Xk+1 , . . . ), k ∈ N.
22. Juli 2014
115
• P3 ⊆ L3 5.44,
• P3 ist ein π-System,
• L3 ist ein λ-System,
• σ(P3 ) = σ(X1 , X2 , . . . ).
Aus dem π-λ-Theorem folgt somit
σ(X1 , X2 , . . . ) = σ(P3 ) ⊆ L3 ⊆ σ(X1 , X2 , . . . )
und daher L3 = σ(X1 , X2 , . . . ), d.h.,
(5.15)
A, C unabhängig,
A ∈ TX , C ∈ σ(X1 , X2 , . . . ).
Weil TX ⊆ σ(X1 , X2 , . . . ), führt (5.15) insbesondere zu
(5.16)
Folglich ist
und daher
A, C unabhängig,
5.45
5.46
A, C ∈ TX .
P[A] = P[A ∩ A] = P[A] · P[A],
A ∈ TX ,
P[A] = 0 oder P[A] = 1, A ∈ TX .
Damit ist das 0 -1-Gesetz von Kolmogorov bewiesen.
5.44Diese Eigenschaft folgt aus (5.14).
5.45Aufgrund von (5.16) ist A ∈ T von sich selbst unabhängig.
X
5.46Die einzigen Lösungen der Gleichung x = x2 sind x = 0 und x = 1.
22. Juli 2014
Anhang
In diesem Anhang werden einige der in den Abschnitten 3 - 6 nur zitierten
Resultate bewiesen.
A.3. Ergänzungen zu Abschnitt 3
A.3.1. Satz von Vitali. A.3.1 Dieser Satz deutet an, daß in überabzählbaren
Stichprobenräumen Ω die Verwendung der σ-Algebra Pot(Ω) im allgemeinen nicht
sinnvoll ist.
Satz A.3.1 (Vitali). A.3.2 Es kann kein Wahrscheinlichkeitsmaß auf dem meßbaren Raum (Ω, F) = ({0, 1}N , Pot({0, 1}N)) existieren, das neben den üblichen Eigenschaften (2.2) eines Wahrscheinlichkeitsmaßes auch die bei der Modellierung des
∞-fachen, unabhängigen Wurfs einer fairen Münze erwartete Invarianzeigenschaft
(3.1) besitzt.
Zum Beweis sei in Ω die Äquivalenzrelation
ω ∼ ω′
:⇐⇒
ωn = ωn′ , n ≥ n0 für ein hinreichend großes n0 ∈ N,
eingeführt. Nach dem Auswahlaxiom gibt es eine Menge A ⊆ Ω, die aus jeder
Äquivalenzklasse bzgl. ∼ genau ein Element enthält.
Sei nun S = {S ⊆ N : |S| < ∞} A.3.3. S ist abzählbar A.3.4. Für S =
{n1 , . . . , nk } ∈ S sei TS := Tn1 ◦ · · · ◦ Tnk A.3.5. Offensichtlich ist ω ∼ ω ′ genau
dann, wenn ein S ∈ S mit ω = TS ω ′ existiert. Nun gilt:
[
Ω=
(A.3.1)
TS A A.3.6,
S∈S
falls S 6= S ′
TS A ∩ TS ′ A = ∅,
A.3.7
.
Falls P ein Wahrscheinlichkeitsmaß auf (Ω, F) ist, das (2.2) und (3.1) erfüllt und
falls A.3.8 A ∈ F, folgt nun
X
X
1 = A.3.9 P[Ω] = A.3.10
P[TS A] = A.3.11
P[A].
S∈S
S∈S
A.3.1Mit diesem Anhang wird Beispiel 3.1 vervollständigt.
A.3.2Vgl. [10], Satz (1.5).
A.3.3S ist die Menge der endlichen Teilmengen von N.
A.3.4Weil S = S∞ {S ⊆ N : max{k : k ∈ S} = m} sich als abzählbare Vereinigung von
m=1
endlichen Mengen darstellen läßt, ist S abzählbar.
A.3.5Die Funktionen T : Ω → Ω, n ∈ N, sind in (3.1c) definiert. Für eine Abbildung T ,
n
S
S = {n1 , . . . , nk } ∈ S, und ω ∈ Ω ist TS ω jene Folge in {0, 1}, die aus der Folge ω durch
Vertauschen der Werte 0 und 1 in den Folgengliedern mit den Indizes n1 , . . . , nk hervorgeht.
A.3.6T A = {T ω ′ : ω ′ ∈ A}. Zu jedem ω ∈ Ω gibt es ein ω ′ ∈ A mit ω ∼ ω ′ . Insbesondere
S
S
ist ω ′ der Repräsentant in A jener Äquivalenzklasse, die ω enthält. Folglich gibt es ein S ∈ S mit
ω = TS ω ′ ∈ TS A.
A.3.7
Wäre TS A ∩ TS ′ A 6= ∅ für S, S ′ ∈ S, so gäbe es ω, ω ′ ∈ A mit ω ∼ TS ω = TS ′ ω ′ ∼ ω ′ . Da
A keine zwei verschiedenen, äquivalente Elemente enthalten kann, wäre dann ω = ω ′ und damit
auch S = S ′ .
A.3.8In diesem Fall ist auch T A ∈ F, S ∈ S. Insbesondere ist P[T A] für alle S ∈ S definiert.
S
S
175
176
Damit liegt ein Widerspruch vor, denn die Summe auf der rechten Seite ist entweder
gleich 0, wenn P[A] = 0, oder gleich ∞, wenn P[A] > 0.
Somit kann geschlossen werden, daß A ∈
/ F, falls ({0, 1}N, F, P) ein Wahrscheinlichkeitsraum mit einem (2.2) und (3.1) erfüllenden Wahrscheinlichkeitsmaß
ist. Insbesondere ist die Wahl F = Pot({0, 1}N) nicht möglich.
A.3.2. Stochastische Konvergenz als Folge der fast-sicheren Konvergenz. A.3.12 Es gelte limn→∞ Xn = X, f.s., d.h., P[limn→∞ Xn = X] = 1, bzw.
P[lim supn→∞ |Xn − X| > 0] = 0. Damit gleichbedeutend ist A.3.13
"
#
[
P
{ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ für unendlich viele n ∈ N} = 0.
ǫ>0,ǫ∈Q
Daraus folgt
0=
A.3.14
=
A.3.15
P {ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ für unendlich viele n ∈ N}
#
"∞ ∞
\ [
P
{ω ∈ Ω : |Xk (ω) − X(ω)| > ǫ} , ǫ > 0.
n=1 k=n
|
|
{z
= Aǫn
{z
= Aǫ
}
}
Für festes ǫ > 0 gilt Aǫn ց Aǫ . Weil das Wahrscheinlichkeitsmaß P σ-stetig von
oben ist A.3.16, ergibt sich limn→∞ P[Aǫn ] = P[Aǫ ] = 0, ǫ > 0. Da P[|Xn − X| > ǫ] ≤
P[Aǫn ] A.3.14, ist somit die stochastische Konvergenz der Folge Xn , n ∈ N, gegen X
nachgewiesen.
A.3.3. σ-Additivität des Erwartungswerts. A.3.17 Es ist nachzuweisen,
daß für Zufallsvariablen X, X1 , X2 , . . . , die einen Erwartungswert besitzen und
Xn ≥ 0, f.s., n ∈ N,
und X =
∞
X
Xk , f.s.,
k=1
erfüllen, die Beziehung
(A.3.2)
E[X] =
∞
X
E[Xk ]
k=1
gilt. Es folgt nun ein Beweis für integrable, diskrete Zufallsvariablen A.3.18 X, X1 , X2 ,
....
A.3.9Wegen (2.2a).
A.3.10Wegen (2.2b) und (A.3.1).
A.3.11Wegen (3.1).
A.3.12In diesem Anhang wird die erste Hälfte von Satz 3.13 bewiesen.
A.3.13Wenn für ein ω ∈ Ω die Folge X (ω), n ∈ N, nicht gegen X(ω) konvergiert, so gibt es
n
ein ǫ > 0, das o.E.d.A. als rational angenommen werden kann, so daß |Xn (ω) − X(ω)| > ǫ für
unendlich viele n.
A.3.14Wegen der Monotonie von P, vgl. Satz 3.10(3).
A.3.15
|X (ω) − X(ω)| > ǫ für unendlich viele n ∈ N“ ist gleichbedeutend mit zu jedem
” n
”
n ∈ N gibt es ein k ∈ N, k ≥ n, so daß |Xk (ω) − X(ω)| > ǫ“.
A.3.16Vgl. Satz 3.10(6).
A.3.17In diesem Anhang wird für diskrete Zufallsvariablen der erste Teil von Satz 3.18(3)
bewiesen.
A.3.18D.h., für X, X , X , . . . gilt (2.7).
1
2
22. Juli 2014
177
PN
Hierzu sei zunächst SN := k=1 Xk , N ∈ N. Da X ≥ SN , N ∈ N, folgt aus
Satz 3.18(1) und Satz 3.18(2) A.3.19, d.h., der Monotonie und der Linearität des
Erwartungswerts,
N
X
E[X] ≥ E[SN ] =
E[Xk ], N ∈ N.
k=1
Damit ergibt sich im Limes N → ∞ der erste Teil von (A.3.2), d.h.,
E[X] ≥
(A.3.3)
∞
X
E[Xk ].
k=1
Zum Beweis der umgekehrten Ungleichung sei nun c ∈ (0, 1) und
A.3.20
τ = inf{N ∈ N : SN ≥ cX}.
Da 0 ≤ SN ր X, f.s., ist τ < ∞, f.s. Nun sei
Sτ =
τ
X
A.3.21
Xk .
k=1
Sτ ist eine diskrete Zufallsvariable mit
Sτ (Ω) ⊆
Es folgt
∞
[
A.3.22
SN (Ω) =: S(Ω).
N =1
A.3.23
:
cE[X] ≤
=
A.3.24
X
E[Sτ ]
x∈Sτ (Ω)
x P[Sτ = x]
| {z }
[
• ∞
=P
{τ = N, SN = x} =
N =1
=
A.3.26
∞
X X
x∈S(Ω) N =1
=
A.3.27
∞
X
N =1
A.3.25
∞
X
P[τ = N, SN = x]
N =1
xP[I{τ =N } = 1, SN = x]
E[I{τ =N } SN ]
∞ X
N
X
=
A.3.28
=
N =1 k=1
∞ X
∞
X
X
E[I{τ =N } Xk ]
xP[τ = N, Xk = x]
k=1 N =k x∈Xk (Ω)
A.3.19Die Gültigkeit dieser beiden Resultate kann hier vorausgesetzt werden.
A.3.20τ ist eine N-wertige Zufallsvariable mit τ (ω) = inf{N ∈ N : S (ω) ≥ cX(ω)}, ω ∈ Ω.
N
Diese Zufallsvariable kann als eine Stoppzeit bzgl. der Filtration (σ(X, X1 , . . . , Xn ))n∈N betrachtet
werden. Zur Erläuterung dieser Begriffe und Notationen vgl. Beispiel 3.3 und Abschnitt 3.9.
A.3.21S (ω) = Pτ (ω) X (ω), ω ∈ Ω. Die Zufallsvariable S ist eine endliche Summe mit
τ
τ
k
k=1
einer zufälligen Anzahl von Summanden.
A.3.22Beachte, daß jede Menge S (Ω) höchstens abzählbar ist, da X , X , . . . diskrete Zu1
2
N
fallsvariablen sind.
A.3.23Im folgenden wird an verschiedenen Stellen in Mehrfachsummen die Summationsreihenfolge vertauscht. Da jeweils alle Summanden positiv sind, ist dies immer korrekt.
22. Juli 2014
178
=
A.3.29
∞
X
X
k=1 x∈Xk (Ω)
≤
∞
X
x P[τ ≥ k, Xk = x]
{z
}
|
≤ A.3.30 P[Xk = x]
E[Xk ].
k=1
Im Limes c ր 1 ergibt sich hieraus
E[X] ≤
(A.3.4)
∞
X
E[Xk ].
k=1
Zusammengenommen beweisen die beiden Abschätzungen (A.3.3) und (A.3.4) die
Behauptung (A.3.2) A.3.31.
A.4. Ergänzungen zu Abschnitt 4
A.4.1. Eigenschaften charakteristischer Funktionen. Für eine Zufallsvariable X = (X1 , . . . , Xd )T : (Ω, F, P) → (Rd , B(Rd )) ist die charakteristische
Funktion ψX : Rd → C durch
X
d
(A.4.1)
ψX (z) = E[exp(iz · X)] = E exp i
z k X k , z ∈ Rd ,
k=1
definiert. Wenn die Verteilung PX von X eine Dichte fX bzgl. des Lebesguemaßes
auf Rd besitzt, so ist A.4.1
Z
dx exp(iz · x)fX (x), z ∈ Rd ,
(A.4.2)
ψX (z) =
Rd
d.h., ψX entspricht der Fouriertransformierten von fX .
In diesem Anhang werden einige Eigenschaften von charakteristischen Funktionen vorgestellt. Diese Eigenschaften werden in den vielfältigen Situationen in der
Wahrscheinlichkeitstheorie, in denen charakteristische Funktionen als Hilfsmittel in
Erscheinung treten, benötigt A.4.2.
A.4.1.1. Charakteristische Funktion einer Summe unabhängiger Zufallsvariablen. Seien X und Y unabhängige, Rd -wertige Zufallsvariablen. Dann gilt:
(A.4.3)
ψX+Y (z) = ψX (z)ψY (z),
z ∈ Rd .
Beweis.
ψX+Y (z) = E[exp(iz · (X + Y ))] = E[exp(iz · X) exp(iz · Y )]
A.3.24Wegen der Monotonie und der Linearität des Erwartungswerts, vgl. Satz 3.18(1) und
(2), und aufgrund der Definition von τ und Sτ .
A.3.25
Wegen der σ-Additivität von P, vgl. (2.2b).
P
P
A.3.26
Wenn x∈Sτ (Ω) . . . durch x∈S(Ω) . . . ersetzt wird, werden keine nichtverschwindenden Summanden hinzugefügt. Wenn x ∈ S(Ω) \ Sτ (Ω), gilt P[I{τ =N} = 1, SN = x] = 0, N ∈ N.
A.3.27
Beachte, daß die Zufallsvariable I{τ =N} nur die Werte 0 und 1 annimmt.
P
A.3.28
Da SN = N
k=1 Xk , und wegen der Linearität des Erwartungswerts, vgl. Satz 3.18(2).
•∞
S
A.3.29
Da N=k {τ = N, Xk = x} = {τ ≥ k, Xk = x} und wegen der σ-Additivität von P.
A.3.30
Wegen der Monotonie von P, vgl. Satz 3.10(3).
A.3.31Die vorgestellten Argumente sind mit geringfügigen Modifikationen auch anwendbar,
wenn E[X] = ∞.
A.4.1Diese Darstellung von ψ ergibt sich aus (3.19).
X
A.4.2Vgl. z.B. Beispiel 4.4, bzw. Fußnote 4.18, und insbesondere den Beweis des Zentralen Grenzwertsatzes für unabhängige, identisch verteilte, quadratintegrable Zufallsvariable im
nächsten Anhang A.4.2. Natürlich werden in diesen Fällen charakteristische Funktionen genau
deswegen als Hilfsmittel benutzt, weil sie eben diese nützlichen Eigenschaften haben, die nun
vorgestellt werden.
22. Juli 2014
179
=
A.4.3
E[exp(iz · X)]E[exp(iz · Y )]
= ψX (z)ψY (z),
z ∈ Rd .
A.4.1.2. Taylorentwicklung einer charakteristischen Funktion. Sei X eine Rd wertige Zufallsvariable mit E[|X|2 ] < ∞. Dann ist ψX ∈ Cb2 (Rd ) und es gilt insbesondere
d
d
X
1 X
zk zl E[Xk Xl ] + o(|z|2 ), bei |z| → 0.
(A.4.4) ψX (z) = 1 + i
zk E[Xk ] −
2
k=1
k,l=1
p
Wenn E[|X| ] < ∞, für ein p = 3, 4, . . . , kann die Taylorentwicklung (A.4.4) bis zur
Ordnung p fortgesetzt werden, wobei weitere gemischte Momente der Komponenten
X1 , . . . , Xd von X als Koeffizienten in Erscheinung treten A.4.4.
Begründung. Nach formalem Vertauschen von Differentiation und E[ . ] folgt A.4.5
∂
ψX (z) = iE[Xk exp(iz · X)],
∂zk
∂2
ψX (z) = − E[Xk Xl exp(iz · X)], z ∈ Rd , k, l = 1, . . . , d,
∂zk ∂zl
d.h.,
∂
ψX (0) = 1,
ψX (z) = iE[Xk ],
∂zk
z=0
2
∂
ψX (z) = −E[Xk Xl ], k, l = 1, . . . , d.
∂zk ∂zl
z=0
Damit wird (A.4.4) als Taylorentwicklung der Ordnung 2 von ψX in 0 plausibel.
A.4.1.3. Charakteristische Funktion einer linearen Transformation einer Zufallsvariable. Sei X eine Rd -wertige Zufallsvariable und b ∈ Rd , bzw. A.4.6 A ∈ Rd⊗d .
Weiterhin sei Y = AX + b. Dann ist
ψY (z) = exp(iz · b)ψX (AT z),
(A.4.5)
z ∈ Rd .
Beweis.
ψY (z) = E[exp(iz · (AX + b))] = E[exp(iz · b) exp(iz · AX)]
= exp(iz · b)E[exp(iAT z · X)] = exp(iz · b)ψX (AT z),
z ∈ Rd .
A.4.1.4. Charakteristische Funktion einer standard normalverteilten Zufallsvariablen. Eine reellwertige Zufallsvariable X mit der standard Normalverteilung
N(0, 1) besitzt die charakteristische Funktion
ψX (z) = exp(−z 2 /2),
(A.4.6)
Beweis.
ψX (z) =
A.4.7
1
√
2π
Z
∞
−∞
z ∈ R.
dx exp(izx) exp(−x2 /2)
{z
}
|
2
= exp(izx − x /2) = exp((−(x − iz)2 − z 2 )/2)
A.4.3Wegen der Unabhängigkeit von X und Y , vgl. Satz 3.18(4). Man beachte, daß für jedes
feste z ∈ Rd mit X und Y auch die Zufallsvariablen exp(iz · X) und exp(iz · Y ) unabhängig sind.
A.4.4Aufgrund von (A.4.4) und analoger Taylorentwicklungen höherer Ordnung können die
Momente einer Zufallsvariable X durch Differentiation ihrer charakteristischen Funktion ψX in 0
bestimmt werden.
A.4.5Bei einem rigorosen Beweis kann neben (A.4.1) der Satz von der dominierten Konvergenz, vgl. Satz 3.24, herangezogen werden.
A.4.6A ist eine d × d-Matrix mit reellen Komponenten.
22. Juli 2014
180
1
= exp(−z /2) √
2π
|
2
=
=
Z
∞
dx exp(−(x − iz)2 /2) .
{z
}
Z ∞−iz
1
√
dy exp(−y 2 /2)
2π −∞−iz
|
{z
}
Z ∞
1
√
dy exp(−y 2 /2) = 1
2π −∞
−∞
A.4.8
A.4.9
Normalverteilungen im Rd können auf linearen Unterräumen konzentriert sein
und dann keine Dichte bzgl. des Lebesguemaßes im Rd mehr besitzen. Derartige
Wahrscheinlichkeitsmaße lassen sich durch ihre charakteristischen Funktionen, d.h.
geeignete Verallgemeinerungen von (A.4.6) definieren A.4.10.
A.4.1.5. Inversionsformel. Sei XR eine Rd -wertige Zufallsvariable mit der charakteristischen Funktion ψX . Wenn Rd dz |ψX (z)| < ∞, so hat die Verteilung PX
von X eine Dichte fX bzgl. des Lebesguemaßes auf Rd mit
Z
1
(A.4.7)
fX (x) =
dz exp(−iz · x)ψX (z), x ∈ Rd .
(2π)d Rd
Allgemein ist
A.4.11
(A.4.8) PX [A] =
1
M→∞ (2π)d
lim
Z
dz
[−M,M]d
Y
d
k=1
ϕak ,bk (zk ) ψX (z),
A = [a1 , b1 ] × · · · × [ad , bd ], −∞ < ak < bk < ∞, k = 1, . . . , d,
PX [∂A] = 0
A.4.12
,
wobei ϕa,b (t) = (exp(−ita) − exp(−itb))/(it), t ∈ R, −∞ < a < b < ∞.
Diese Beziehungen zeigen insbesondere, daß die Verteilung einer Rd -wertigen
Zufallsvariable durch deren charakteristische Funktion eindeutig bestimmt ist.
Formale Begründung für d = 1. Für eine beliebige, hinreichend reguläre Funktion
g : R → R und ihre Fouriertransformierte e
g gelten
Z
(A.4.9a)
dx exp(izx)g(x), z ∈ R,
ge(z) =
R
Z
1
g(x) =
(A.4.9b)
dz exp(−izx)e
g(z), x ∈ R.
2π R
(A.4.7) ergibt sich somit aus (A.4.2) und (A.4.9), wenn g = fX , bzw. e
g = ψX
gesetzt wird.
(A.4.9) zeigt auch die Gültigkeit der Beziehungen
Z
(A.4.10a)
dx exp(izx)g ′ (x)
ge′ (z) =
R
Z
g(z), z ∈ R,
= − iz dx exp(izx)g(x) = −ize
R
A.4.7Vgl. (A.4.2).
A.4.8Mit der Variablentransformation y = x − iz. Nach dieser Transformation ist der Inte-
grationsbereich die Gerade {ζ = η − iz : η ∈ R} in C.
R ∞−iz
A.4.9
Die Unabhängigkeit des Integrals −∞−iz
dy exp(−y 2 /2) von z ∈ R kann mit dem
Cauchyschen Integralsatz, vgl. [2], Chapter 4, Section 1.4, bewiesen werden.
A.4.10Vgl. Abschnitt 4.2.3.
A.4.11Die rechte Seite von (A.4.8) kann keineswegs bedenkenlos durch das Integral (2π)−d
R
Qd
dz
d
k=1 ϕak ,bk (zk ) ψX (z) ersetzt werden, da dessen Integrand i. allg. nicht integrabel ist.
R
Außerdem ist jener Integrand weder ≥ 0, f.s., noch ≤ 0, f.s.
A.4.12(A.4.8) kann nur gelten, wenn P keine Masse“ auf dem Rand ∂A von A besitzt.
X
”
22. Juli 2014
181
(A.4.10b)
1
g(x) =
2π
=
1
2π
Z
dz exp(−izx)e
g(z)
R
Z
dz exp(−izx)
R
ge′ (z)
,
−iz
x ∈ R,
wobei g ′ die Ableitung von g und ge′ die Fouriertransformierte von g ′ ist.
′
Da A.4.13 FX
= fX für die Verteilungsfunktion FX von X und weil ff
X = ψX ,
folgt nun
Z
1
ψX (z)
FX (x) = −
, x ∈ R,
dz exp(−izx)
2π R
iz
d.h.,
PX (a, b] = FX (b) − FX (a)
Z
1
1
exp(−iza) − exp(−izb) ψX (z), −∞ < a < b < ∞.
dz
=
2π R
iz
Damit ist (A.4.8) auf eine formale Weise für d = 1 begründet.
Details zu den Überlegungen dieses Anhangs und weiteren Eigenschaften charakteristischer Funktionen sind z.B. in [7], Sections 2.3 und 2.9, oder [12], Sections 5.7 - 5.9 nachzulesen.
A.4.2. Zentraler Grenzwertsatz für unabhängige, identisch verteilte,
reellwertige, quadratintegrable Zufallsvariablen. In der nun folgenden Skizze
eines Beweises von Satz 4.10 werden insbesondere verschiedene Eigenschaften von
charakteristischen Funktionen A.4.14 verwendet.
Sei A.4.15 Yn = (Xn − µ)/σ, n ∈ N. Die Zufallsvariablen Yn , n ∈ N, sind i.i.d.
mit E[Y1 ] = 0 und Var(Y1 ) = E[Y12 ] = 1, d.h., A.4.16
(A.4.11)
ψYn (z) = ψY1 (z) = 1 −
z2
+ o(|z|2 ),
2
bei z → 0, n ∈ N.
Weiterhin gilt
N
1 X
√
Yk =
N k=1
r
!
N
1 X
Xk − µ ,
N
N
σ2
k=1
N ∈ N,
und
ψ(1/√N ) PN
k=1
Yk (z) =
A.4.17
N
Y
√
ψYk (z/ N )
k=1
|z|2 N
z2
A.4.18
1−
=
+o
2N
N
N
2
z
N →∞
∼
1−
2N
N →∞
→
exp(−z 2 /2),
z ∈ R.
A.4.13Diese Beziehung gilt zumindest dann, wenn F stetig differenzierbar ist.
X
A.4.14Vgl. Anhang A.4.1.
A.4.15Für die Zufallsvariablen X , n ∈ N, seien die Annahmen von Satz 4.10 vorausgesetzt.
n
A.4.16Vgl. Abschnitt A.4.1.2.
22. Juli 2014
182
Aufgrund von Satz 3.14 und weil die Funktion R ∋ z → exp(−z 2 /2) die charakteristische Funktion einer standard normalverteilten Zufallsvariablen darstellt A.4.19,
ist damit Satz 4.10 bewiesen.
A.4.3. Verteilung einer Markovkette. A.4.20 Sei X = (Xn )n∈N0 eine Markovkette mit dem diskreten Zustandsraum S. Dann gilt A.4.21
P X0 = s0 , X1 = s1 , . . . , Xn−1 = sn−1 , Xn = sn
= P X0 = s0 , . . . , Xn−1 = sn−1 P Xn = sn |X0 = s0 , . . . , Xn−1 = sn−1
= P X0 = s0 , . . . , Xn−2 = sn−2 P Xn−1 = sn−1 |X0 = s0 , . . . , Xn−2 = sn−2
P Xn = sn |Xn−1 = sn−1
= ...
= P[X0 = s0 ]P X1 = s1 |X0 = s0 P1 (s1 , s2 ) . . . Pn−1 (sn−1 , sn )
= PX0 [s0 ]P0 (s0 , s1 ) · · · Pn−1 (sn−1 , sn ),
s0 , s1 , . . . , sn ∈ S, n ∈ N0 ,
womit (4.28) gezeigt ist. Weiterhin folgt:
(A.4.12) P X0 ∈ A0 , X1 ∈ A1 , . . . , Xn ∈ An
= P(X0 ,X1 ,...,Xn ) {η = (η0 , η1 , . . . , ηn ) ∈ S n+1 : η0 ∈ A0 , . . . , ηn ∈ An }
"•
#
[
=P
{X0 = s0 , X1 = s1 , . . . , Xn = sn }
s0 ∈A0 ,s1 ∈A1 ,...,sn ∈An
=
A.4.22
X
X
s0 ∈A0 s1 ∈A1
=
A.4.23
X
···
PX0 [s0 ]
s0 ∈A0
X
sn ∈An
X
s1 ∈A1
PX0 [s0 ]P0 (s0 , s1 ) · · · Pn−1 (sn−1 , sn )
P0 (s0 , s1 ) · · ·
A0 , A1 , . . . , An ∈ Pot(S), n ∈ N0 .
X
Pn−1 (sn−1 , sn ),
sn ∈An
Die endlich-dimensionalen Verteilungen der Markovkette X, d.h., die Verteilungen
P(X0 ,X1 ,...,Xn ) von (X0 , X1 , . . . , Xn ) auf (S n+1 , Pot(S)⊗(n+1) ), sind damit für alle
n ∈ N durch die Übergangsmatrizen Pn , n ∈ N, und die Anfangsverteilung PX0
von X eindeutig bestimmt.
Setzt man nun
" n
!
!#
∞
Y
Y
(A.4.13) P
Ak ×
S
:= P X0 ∈ A0 , X1 ∈ A1 , . . . , Xn ∈ An ,
k=0
k=n+1
A0 , A1 , . . . , An ∈ Pot(S), n ∈ N0 ,
Q∞
Qn
so werden den endlich-dimensionalen Rechtecken
k=n+1 S , A0 , . . . ,
k=0 Ak ×
An ∈ Pot(S), n ∈ N0 , in (S N0 , Pot(S)⊗N0 ) Wahrscheinlichkeiten zugewiesen, wobei diese Wahrscheinlichkeiten durch (A.4.12) spezifiziert sind. Durch eine Anwendung eines Resultats wie z.B. Satz 3.8 kann diese Zuordnung von Wahrscheinlichkeiten auf eine eindeutige Weise zu einem Wahrscheinlichkeitsmaß P =: PX
auf (S N0 , Pot(S)⊗N0 ) fortgesetzt werden. Dieses Wahrscheinlichkeitsmaß PX ist die
A.4.17Vgl. Abschnitte A.4.1.1 und A.4.1.3.
A.4.18Wegen (A.4.11).
A.4.19Vgl. Abschnitt A.4.1.4 und auch Abschnitt A.4.1.5.
A.4.20In diesem Anhang wird Satz 4.21 bewiesen.
A.4.21Hier wird neben der Markoveigenschaft (4.27) auch mehrmals die aus (2.9) folgende
Relation P[A ∩ B] = P[A|B]P[B] benutzt.
A.4.22Aufgrund der σ-Additivität von P, vgl. (2.2b), und (4.28).
A.4.23
Die Analogie zur Darstellung der endlich-dimensionalen Verteilungen der Brownschen
Bewegung in (4.26) ist offensichtlich.
22. Juli 2014
183
Verteilung der Markovkette X. Aufgrund von (A.4.12) und (A.4.13) ist PX durch
die Übergangsmatrizen und die Anfangsverteilung von X eindeutig bestimmt.
A.4.4. Aussterbewahrscheinlichkeit des superkritischen Galton-Watson-Prozesses. In diesem Anhang wird für den in Beispiel 4.24 eingeführten Galton-Watson-Prozeß X = (Xn )n∈N0 mit X0 = 1 im Fall m > 1, b0 > 0 A.4.24 die
Aussterbewahrscheinlichkeit q berechnet. Dieses q wird als die kleinste Lösung von
(4.34) identifiziert A.4.25.
Wie (4.34) andeutet, wird insbesondere mit erzeugenden Funktionen A.4.26 gearbeitet. So ergibt sich beispielsweise die erzeugende Funktion von Xn , n ∈ N,
gemäß
(A.4.14)
φXn (s) = E[sXn ] =
∞
X
P[Xn = k] sk
| {z }
k=0
∞
X
=
P[Xn−1 = r]P[Xn = k|Xn−1 = r]
r=0
=
A.4.27
∞
X
P[Xn−1 = r]
r=0
∞
X
k=0
1
r
P[ζn−1
+ · · · + ζn−1
= k]sk
|
= φXn−1 (φb (s))
=
{z
A.4.28
φb (s)
= φXn−2 φb (φb (s)) = φXn−2 ((φb ◦ φb )(s))
= ...
Sei nun
= φX1 ((φb ◦ · · · ◦ φb )(s))
{z
}
|
n − 1 mal
= A.4.29 (φb ◦ · · · ◦ φb )(s) =: φ◦n
b (s),
|
{z
}
n mal
A=
∞
[
k=1
r
}
s ∈ [0, 1], n ∈ N.
{Xk = 0}
A.4.24m ist die mittlere Nachkommenszahl eines einzelnen Individuums, d.h., m = P∞ kb .
k
k=0
Falls m > 1 ist, bezeichnet man X als superkritisch. Durch die Bedingung b0 > 0 wird sichergestellt, daß die Aussterbewahrscheinlichkeit q strikt positiv ist, denn offensichtlich gilt
q ≥ P[X1 = 0] = b0 .
A.4.25Insbesondere wird für den dritten Fall in (4.33) der Beweis durchgeführt.
A.4.26Die erzeugende Funktion φ einer N -wertigen Zufallsvariable X ist durch φ (s) =
0
X
X
P
k
E[sX ] = ∞
die erzeugende Funkk=0 P[X = k]s , s ∈ [0, 1], gegeben. Entsprechend definiert man P
k
tion φa eines Wahrscheinlichkeitsmaßes a = (ak )k∈N0 auf N0 durch φa (s) = ∞
k=0 ak s , s ∈ [0, 1].
In (A.4.14) wird insbesondere benutzt, daß für unabhängige, N0 -wertige Zufallsvariablen X
und Y die erzeugende Funktion der Summe X + Y faktorisiert, d.h.,
φX+Y (s) = φX (s)φY (s),
s ∈ [0, 1], X, Y unabhängig.
Für N0 -wertige Zufallsvariablen X besitzt die erzeugende Funktion φX ähnlich praktische
Eigenschaften wie die in Anhang A.4.1 vorgestellte charakteristische Funktion ψY für allgemeine
Rd -wertige Zufallsvariablen Y .
A.4.27Aufgrund von (4.32) gilt P[X = k|X
1
r
n
n−1 = r] = P[ζn−1 + · · · + ζn−1 = k].
A.4.28
1
r
Die innere Summe ist die erzeugende Funktion der Summe ζn−1 + · · · + ζn−1
der Zu1
r
. Jene Zufallsvariablen sind unabhängig und nach b verteilt, vgl. Beifallsvariablen ζn−1
, . . . , ζn−1
spiel 4.24. Somit berechnet sich nach Fußnote A.4.26 die innere Summe zu φb (s)r .
A.4.29
Da X0 = 1 und somit X1 die Verteilung b besitzt.
22. Juli 2014
184
das Ereignis, daß der Prozeß X ausstirbt, und sei
n ∈ N.
An = {Xn = 0},
An beschreibt das Ereignis, daß X zum Zeitpunkt n ausgestorben ist.
Da An ր A, gilt A.4.30
φXn (0) = P[An ] ր P[A] =: q.
(A.4.15)
Folglich ist
q=
A.4.31
lim φ◦n
b (0) =
A.4.32
=
A.4.33
n→∞
◦(n−1)
lim φb (φb
(0))
A.4.34
φb (q),
φb lim φ◦n
b (0) =
n→∞
n→∞
d.h., q ist eine Lösung von (4.34).
Sei jetzt a ∈ [0, 1] irgendeine Lösung von (4.34), d.h., es gelte a = φb (a). Nun
folgt aus der Monotonie von φb zunächst φb (0) ≤ φb (a) und dann weiterhin
q=
A.4.35
◦n
lim φ◦n
b (0) ≤ lim φb (a) = a,
n→∞
n→∞
d.h., q ist die kleinste Lösung von (4.34).
P∞
P∞
A.4.36
′
Offensichtlich ist φb (1) =
k=1 kbk = m und
k=0 bk = 1, φb (1) =
φb (0) = b0 . Wenn
nun
m
>
1
und
b
>
0,
ist
b
>
0
für
zumindest
ein k ≥ 2. Somit
0
k
P∞
ist φ′′b (s) = k=2 k(k − 1)bk sk−2 > 0, s ∈ (0, 1], d.h., φb ist strikt konvex in (0, 1].
Insbesondere ist q ∈ (0, 1) für die kleinste Lösung von (4.34) A.4.37.
Damit ist der dritte Fall in (4.33) vollständig behandelt.
A.4.5. Übergangswahrscheinlichkeiten des Poisson-Prozesses. Für die
Bestimmung der Übergangswahrscheinlichkeiten Pt (k, l), k, l ∈ N0 , t ≥ 0, des in Beispiel 4.27 vorgestellten Poisson-Prozesses X = (Xt )t≥0 wird ein System gewöhnlicher
Differentialgleichungen aufgestellt und gelöst werden. Diese Differentialgleichungen
sind durch die Übergangsintensität λ A.4.38 bestimmt.
A.4.5.1. Berechnung von Pt (0, 0), t ≥ 0. Zunächst gilt A.4.39
(A.4.16)
Pt+h (0, 0) = P[Xt+h = 0|X0 = 0]
=
A.4.40
P[Xt+h = 0, Xt = 0|X0 = 0]
=
A.4.41
=
A.4.43
P[Xt+h = 0|Xt = 0, X0 = 0] P[Xt = 0|X0 = 0]
{z
}
|
A.4.42
=
P[Xt+h = 0|Xt = 0]
Ph (0, 0)Pt (0, 0)
A.4.30Vgl. Satz 3.10(5). In (A.4.15) wird auch berücksichtigt, daß φ (0) = P[Y = 0] für jede
Y
N0 -wertige Zufallsvariable Y .
A.4.31Wegen (A.4.14) und (A.4.15).
A.4.32Weil φ◦n (0) = φ (φ◦(n−1) (0)).
b b
b
A.4.33
Aufgrund der Stetigkeit von φb .
A.4.34
Wegen (A.4.14) und (A.4.15).
A.4.35Wegen (A.4.14) und (A.4.15).
A.4.36Es ist noch q ∈ (0, 1) zu zeigen.
A.4.37Für die strikt konvexe Funktion φ : [0, 1] → [0, 1] ist φ (0) > 0, φ (1) = 1 und
b
b
b
φ′b (1) > 1. Somit gibt es in (0, 1) genau eine Lösung s von φb (s) = s.
A.4.38Vgl. (4.41).
A.4.39In den folgenden Argumenten wird angenommen, daß die Markoveigenschaft (4.36)
des Poisson-Prozesses vorausgesetzt werden kann, daß nur Sprünge mit zugehöriger positiver
Übergangsrate, d.h., Sprünge der Größe +1 möglich sind und daß zwischen den Sprüngen die
Pfade des Poisson-Prozesses konstant sind.
22. Juli 2014
185
= (1 − P[Xh 6= 0|X0 = 0] )Pt (0, 0),
{z
}
|
A.4.44
=
λh + o(h)
und damit
Pt+h (0, 0) − Pt (0, 0) = −λPt (0, 0)h + o(h),
bei h → 0.
Dividiert man beide Seiten durch h und betrachtet den Limes h ց 0 ergibt sich
d
Pt (0, 0) = −λPt (0, 0).
(A.4.17)
dt
Mit der Anfangsbedingung P0 (0, 0) = 1 erhält man daher
(A.4.18)
Pt (0, 0) = exp(−λt),
t ≥ 0.
Der Zeitpunkt des ersten Sprungs aus dem Punkt 0 besitzt folglich eine Exponentialverteilung mit Parameter λ A.4.45.
A.4.5.2. Gewöhnliche Differentialgleichungen für Pt (0, k), t ≥ 0, k = 1, 2, . . . .
Wie in (A.4.16) wird zur Bestimmung von Pt+h (0, k) der Zustand des PoissonProzesses X zur Zeit t als Hilfsgröße benutzt. Es gilt
Pt+h (0, k) =
A.4.46
+
Pt (0, k) Ph (k, k) +Pt (0, k − 1) Ph (k − 1, k)
{z
}
|
| {z }
A.4.47
A.4.47
=
1 − λh + o(h) =
λh + o(h)
k
X
l=2
und damit
Pt (0, k − l) Ph (k − l, k) ,
|
{z
}
= A.4.47 o(h)
k = 1, 2, . . . ,
Pt+h (0, k) − Pt (0, k) = (−Pt (0, k) + Pt (0, k − 1))λh + o(h),
k = 1, 2, . . . .
Bei h ց 0 führen diese Beziehungen zu dem System von Differentialgleichungen
d
(A.4.19)
Pt (0, k) = −λPt (0, k) + λPt (0, k − 1), k = 1, 2, . . . ,
dt
die durch die Anfangsbedingungen
(A.4.20)
P0 (0, k) = 0,
k = 1, 2, . . . ,
ergänzt werden.
A.4.40Da nur Sprünge der Größe +1 möglich sind und somit aus X
t+h = 0 unter der Bedingung X0 = 0 auch Xt = 0 folgt.
A.4.41
Mit (2.9) folgt
P[Xt+h = 0, Xt = 0, X0 = 0] P[Xt = 0, X0 = 0]
·
P[Xt = 0, X0 = 0]
P[X0 = 0]
= P[Xt+h = 0|Xt = 0, X0 = 0]P[Xt = 0|X0 = 0].
P[Xt+h = 0, Xt = 0|X0 = 0] =
A.4.42
Wegen der Markoveigenschaft (4.36).
Da nur Sprünge mit positiver Sprungrate, d.h., mit der Größe +1 auftreten können, folgt
Pt+h (0, 0) = Ph (0, 0)Pt (0, 0) auch unmittelbar aus der Chapman-Kolmogorov-Gleichung (4.39).
A.4.44
Weil
A.4.43
P[Xh 6= 0|X0 = 0] = P[Xh = 1|X0 = 0] + P[Xh 6∈ {0, 1}|X0 = 0] = λh + o(h),
bei h → 0,
vgl. (4.41).
A.4.45Sei T = inf{t ≥ 0 : X 6= 0}. Offensichtlich gilt P[T > t|X = 0] = P (0, 0), t ≥ 0.
t
t
0
Somit besitzt die unter X0 = 0 bedingte Verteilung von T die Dichte t → (d/dt)P[T ≤ t|X0 =
0] = (d/dt)(1 − P[T > t|X0 = 0]) = λ exp(−λt) bzgl. des Lebesguemaßes auf [0, ∞).
A.4.46Aufgrund der Chapman-Kolmogorov-Gleichung, vgl. (4.39), und weil nur Sprünge der
Größe +1 möglich sind.
A.4.47
Wegen (4.41), vgl. auch Fußnote 4.165.
22. Juli 2014
186
A.4.5.3. Lösung des Systems (A.4.19), (A.4.20). Mit dem Ansatz
(A.4.21)
Qt (k) = Pt (0, k) exp(λt),
t ≥ 0, k ∈ N0 ,
führt (A.4.19) zu
d
Qt (k) = λQt (k − 1), k = 1, 2, . . . .
dt
Unter Berücksichtigung von A.4.48 Qt (0) = 1, t ≥ 0, und A.4.49 Q0 (k) = 0, k =
1, 2, . . . , folgt sukzessive
(A.4.22)
d
Qt (1) = λ,
dt
d
Qt (2) = λQt (1) = λ2 t,
dt
...
...
d.h.,
Qt (1) = λt,
d.h.,
Qt (2) =
λ2 t2
,
2
d.h.,
Qt (k) =
λk tk
,
k!
Mit (A.4.18) und (A.4.21) erhält man nun
k = 3, 4, . . . , t ≥ 0.
A.4.50
λk tk
exp(−λt), k ∈ N0 , t ≥ 0.
k!
A.4.5.4. Darstellung aller Übergangswahrscheinlichkeiten Pt (m, k), t ≥ 0, m, k
∈ N0 . Aufgrund von (A.4.23) und wegen (4.41) A.4.51 gilt

k−m
 (λt)
exp(−λt), k ≥ m,
(A.4.24)
Pt (m, k) = Pt (0, k − m) = (k − m)!

0,
k < m.
(A.4.23)
Pt (0, k) =
Daher besitzt die Anzahl der Sprünge eines Poisson-Prozesses mit Parameter λ in
einem Zeitintervall der Länge T eine Poisson-Verteilung mit Parameter λT .
A.4.6. Überlegungen zum Optional Stopping Theorem“. In diesem
”
Anhang wird (4.65) bewiesen. Hierzu ist A.4.52
(A.4.25)
E[XT IA ] = E[XS IA ],
A ∈ FS ,
zu zeigen. Wenn o.E.d.A. mit der Filtration (FnX )n∈N0 gearbeitet wird, reicht es,
zum Nachweis von (A.4.25) Ereignisse der Form
(A.4.26)
A = {S = k, Xl ∈ G},
k = 0, 1, . . . , M, l = 0, 1, . . . , k, G ∈ B(R),
zu betrachten, da die Familie derartiger Ereignisse FSX erzeugt.
A.4.48Wegen (A.4.18) und (A.4.21).
A.4.49Vgl. (A.4.20) und (A.4.21).
A.4.50Für k = 2, 3, . . . sei T = inf{t ≥ 0 : X = k} der Zeitpunkt des k-ten Sprungs des
t
k
P
Poisson-Prozesses (Xt )t≥0 mit X0 = 0. Da P[Tk > t] = k−1
l=0 Pt (0, l), t ≥ 0, und somit (A.4.17),
(A.4.19) und (A.4.23) zu
d
P[Tk > t] = − λPt (0, k − 1) + λPt (0, k − 2) − λPt (0, k − 2) ± · · · − λPt (0, 0)
dt
λk tk−1
exp(−λt), t ≥ 0,
= − λPt (0, k − 1) = −
(k − 1)!
führen, hat die Verteilung von Tk die Dichte t → (d/dt)P[Tk ≤ t] = (d/dt)(1 − P[Tk > t]) =
λk tk−1 exp(−λt)/(k − 1)! bzgl. des Lebesguemaßes auf [0, ∞). Somit besitzt Tk eine GammaVerteilung mit den Parametern α = λ und r = k.
A.4.51(4.41) besagt insbesondere, daß die Verteilung der Größe eines Sprungs vom Startpunkt
jenes Sprungs unabhängig ist, und daß Sprünge mit negativer Größe f.s. nicht vorkommen.
A.4.52Vgl. (3.27).
22. Juli 2014
187
Sei (Ω, F, P) der Wahrscheinlichkeitsraum, auf dem X = (Xn )n∈N0 definiert
ist. Dann ist zunächst
(A.4.27)
E XT I{S=k,Xl ∈G} =
A.4.53
n=k
k = 0, 1, . . . , M, l = 0, 1, . . . , k, G ∈ B(R).
Weiterhin gilt:
(A.4.28) E XT I{T =M} I{S=k,Xl ∈G} =
=
A.4.55
M
X
E XT I{T =n} I{S=k,Xl ∈G} ,
A.4.54
E XM (1 − I{T ≤M−1} )I{S=k,Xl ∈G}
X M−1
E XM I{S=k,Xl ∈G} −
E XM I{T =n} I{S=k,Xl ∈G}
n=k
=
A.4.56
E Xk I{S=k,Xl ∈G} −
= E XS I{S=k,Xl ∈G} −
M−1
X
n=k
M−1
X
n=k
E Xn I{T =n} I{S=k,Xl ∈G}
E XT I{T =n} I{S=k,Xl ∈G} ,
k = 0, 1, . . . , M, l = 0, 1, . . . , k, G ∈ B(R).
Zusammengefaßt ergeben (A.4.27) und (A.4.28) die Beziehung (A.4.25) für die in
(A.4.26) aufgeführten Ereignisse. Damit ist der Beweis von (4.65) abgeschlossen.
A.4.7. Doobsche Ungleichungen. In diesem Abschnitt werden (4.72) und
(4.74) bewiesen. Die Zufallszeit
(
inf{n : Xn ≥ λ}, falls supn=1,...,N Xn ≥ λ,
T =
N,
sonst,
ist eine Stoppzeit bzgl. (Fn )n=1,...,N mit T ≤ N . Aus (4.66) folgt daher
A.4.57
E[XN ] ≥ E[XT ]
= E XT I{supn=1,...,N Xn ≥λ} + E XT I{supn=1,...,N Xn <λ}
≥ λP sup Xn ≥ λ + E XN I{supn=1,...,N Xn <λ} .
n=1,...,N
Nach Subtraktion von E XN I{supn=1,...,N Xn <λ} auf den äußeren Seiten folgt A.4.58
(4.72).
Zum Beweis von (4.74) sei X ∗ = supn=1,...,N |Xn |. Für k > 0 gilt dann
Z X ∗ ∧k
∗
p
p−1
E (X ∧ k) = E
(A.4.29)
dλ pλ
0
Z
=E p
k
p−1
dλ λ
0
I[0,X ∗ ] (λ)
A.4.53Wegen (4.64).
A.4.54Für ω ∈ Ω ist offensichtlich X
T (ω) (ω) = XM (ω), wenn T (ω) = M . Außerdem ist
{T = M } = Ω \ {T ≤ M − 1}.
• M −1
S
Man beachte, daß {T ≤ M − 1, S = k} = n=k {T = n, S = k}.
A.4.56
X)
Da X = (Xn )n∈N0 ein Martingal und S und T Stoppzeiten bzgl. (Fn
n∈N0 sind. Man
X
beachte, daß für n ≥ k ≥ l sowohl {S = k, Xl ∈ G} ∈ Fk als auch {T = n} ∩ {S = k, Xl ∈ G} ∈
X.
Fn
A.4.57Bei einem Submartingal X ist =“ in (4.66) durch ≥“ zu ersetzen.
”
”
A.4.58Offensichtlich sind die letzten beiden
Abschätzungen in (4.72) trivial.
A.4.55
22. Juli 2014
188
=
A.4.59
=p
Z
Z
k
d.h.,
dλ λp−1 E[I[λ,∞) (X ∗ )]
A.4.60
"
dλ λp−1 P[X ∗ ≥ λ]
p
Z
k
dλ λp−2 E |XN |I{X ∗ ≥λ}
0
#
Z ∗
= pE |XN |
Damit folgt
k
0
0
≤
p
X ∧k
dλ λp−2
0
p
E |XN |(X ∗ ∧ k)p−1
=
p−1
(p−1)/p
1/p ∗
p
A.4.61
≤
.
E (X ∧ k)p
E |XN |p
p−1
1/p
≤
E (X ∗ ∧ k)p
1/p
p
,
E |XN |p
p−1
p p E (X ∗ ∧ k)p ≤
E |XN |p .
p−1
Hieraus folgt mit dem Lemma von Fatou A.4.62 bei k → ∞ die Beziehung (4.74).
A.4.59Nach dem Satz von Fubini, vgl. [7], Appendix A.6, Theorem (6.2), oder auch Satz 3.21,
und weil I[0,y] (λ) = I[λ,∞) (y), λ, y ≥ 0.
A.4.60
Nach (4.72), angewandt auf das Submartingal |X| = (|Xn |)n=1,...,N .
A.4.61
Nach der Hölderschen Ungleichung mit p und q = p/(p − 1), vgl. Abschnitt 3.6.3.
A.4.62Vgl. Satz 3.23.
22. Juli 2014
193
A.5. Ergänzungen zu Abschnitt 5
A.5.1. Fast-sichere Konvergenz einer Teilfolge als Konsequenz der
stochastischen Konvergenz einer Folge von Zufallsvariablen. A.5.1 Sei Xn ,
n ∈ N, eine Folge reellwertiger Zufallsvariablen, die stochastisch gegen eine Zufallsvariable X konvergieren. Zu einer Folge ǫk , k ∈ N, in (0, ∞) mit limk→∞ ǫk = 0 wird
nun durch ein Iterationsverfahren eine Folge nk , k ∈ N, in N mit limk→∞ Xnk = X,
f.s., konstruiert.
Für k ∈ N seien hierzu n1 = 1, n2 , . . . , nk gegeben. Aufgrund der stochastischen
Konvergenz der Zufallsvariablen Xn , n ∈ N, gegen X gibt es ein nk+1 > nk mit
P |Xnk+1 − X| > ǫk+1 ≤ 2−k−1 .
Da dann
∞
X
P |Xnk − X| > ǫk < ∞,
k=1
zeigt Teil (a) des Lemmas von Borel-Cantelli A.5.2, daß
k→∞ P |Xnk − X| > ǫk i.o. = 0, d.h., P |Xnk − X| → 0 = 1.
Damit ist limk→∞ Xnk = X, f.s., gezeigt.
A.5.1
Im folgenden wird der zweite Teil von Satz 3.13 verifiziert. Auf den ersten Teil war in
Anhang A.3.2 eingegangen worden.
A.5.2Vgl. Satz 5.1.
22. Juli 2014
Literaturverzeichnis
[1] M. Abramowitz, I.A. Stegun: Handbook of Mathematical Functions (Ninth Printing). Dover
Publications, 1972.
[2] L.V. Ahlfors. Complex Analysis, 2nd Edition. McGraw-Hill, 1966.
[3] H. Bauer: Wahrscheinlichkeitstheorie, 5. Auflage. De Gruyter, 2001.
[4] P. Billingsley. Convergence of Probability Measures, Wiley, 1968.
[5] P. Billingsley. Probability and Measure, 3rd Edition. Wiley, 1995.
[6] L. Breiman. Probability. SIAM, 1992.
[7] R. Durrett. Probability: Theory and Examples, 2nd Edition. Duxbury Press, 1996.
[8] S.N. Ethier, T.G. Kurtz. Markov Processes. Characterization and Convergence. Wiley, 1986.
[9] W. Feller. An Introduction to Probability Theory and its Applications, Volume II, 2nd Edition. Wiley, 1971.
[10] H.-O. Georgii. Stochastik. De Gruyter, 2002.
[11] B.W. Gnedenko, A.N. Kolmogorov. Grenzverteilungen von Summen unabhängiger Zufallsgrößen. Akademie-Verlag, 1959.
[12] G. Grimmett, D. Stirzaker. Probability and Random Processes, 3rd Edition. Oxford University Press, 2003.
[13] C. Hesse. Angewandte Wahrscheinlichkeitstheorie. Vieweg 2003.
[14] F. Hirzebruch, W. Scharlau. Einführung in die Funktionalanalysis. Spektrum Akademischer
Verlag, 1991.
[15] K. Itô, H.P. McKean: Diffusion Processes and their Sample Paths (Second Printing, Corrected). Springer Verlag, 1974.
[16] N. Ikeda, S. Watanabe. Stochastic Differential Equations and Diffusion Processes. North
Holland, 1981.
[17] P. Jagers. Branching Processes with Biological Applications. Wiley, 1975.
[18] O. Kallenberg. Foundations of Modern Probability, 2nd Edition. Springer, 2002.
[19] I. Karatzas, S. E. Shreve. Brownian Motion and Stochastic Calculus (Second Edition). Springer Verlag, 1991.
[20] S. Karlin, H.M. Taylor. A First Course in Stochastic Processes (Second Edition). Academic
Press, 1975.
[21] S. Karlin, H.M. Taylor. A Second Course in Stochastic Processes. Academic Press, 1981.
[22] K. Knopp. Theorie und Anwendung der Unendlichen Reihen, 5. Auflage, Springer Verlag,
1964.
[23] M. Matsumoto, T. Nishimura. Mersenne twister: a 623-dimensionally equidistributed uniform
pseudo-random number generator. ACM Transactions on Modeling and Computer Simulation 8 (Special issue on uniform random number generation), 3 - 30, 1998.
[24] H. Niederreiter. Random Number Generation and Quasi-Monte-Carlo-Methods. SIAM,
CBMS-NSF Regional Conference Series in Applied Mathematics 63, 1992.
[25] Yu.V. Prohorov, Yu.A. Rozanov. Probability Theory. Springer Verlag, 1969.
[26] D. Revuz, M. Yor. Continuous Martingales and Brownian Motion (Third Edition). Springer
Verlag, 1999.
[27] H.L. Royden. Real Analysis, 2nd Edition. Macmillan, 1968.
[28] A.D. Wentzell. Theorie zufälliger Prozesse. Birkhäuser Verlag, 1979.
211