Grundlagen der Wahrscheinlichkeitstheorie

Werbung
KAPITEL 1
Grundlagen der Wahrscheinlichkeitstheorie
1. Ziele der Wahrscheinlichkeitstheorie
Eine vorrangige Aufgabe der Wahrscheinlichkeitstheorie ist die Zusammenfassung von Grundlagen zur mathematischen Modellierung solcher Vorgänge im
menschlichen Umfeld 1.1, die vom Zufall beeinflußt werden, wobei allerdings dieser
Zufall Gesetzmäßigkeiten unterliegt. Sie stellt Begriffe und Methoden zur Erstellung
entsprechender Modelle und ihrer mathematischen Untersuchung bereit.
Beispiel 1.1. Als Ausgangspunkt sei angenommen, daß an einem festen Ort in
regelmäßigen zeitlichen Abständen eine physikalische oder technische Größe, wie
z.B. Temperatur, Luftdruck, Lärmpegel oder Abgasbelastung, gemessen wird.
Eine mathematische Beschreibung der zu erwartenden Meßergebnisse und ihrer Struktur, beispielsweise der Eigenschaften ihrer zufälligen Schwankungen, ist
ein Ziel, das im Rahmen der Wahrscheinlichkeitstheorie verfolgt werden kann. Dies
bedeutet, daß ein mathematisches Modell für die Folge der Meßergebnisse zu entwerfen und auszuwerten ist 1.2.
Die übliche Vorgehensweise bei der Modellbildung mit Hilfe der Wahrscheinlichkeitstheorie besteht in einem Fall wie hier darin, von einem geeigneten Wahrscheinlichkeitsraum (Ω, F, P) 1.3 auszugehen und die einzelnen Messungen als Zufallsvariablen 1.4 X1 , X2 , . . . auf (Ω, F, P) zu charakterisieren. Ein mathematisches
Modell wird dann durch die Angabe von Eigenschaften der Zufallsvariablen Xn ,
n ∈ N, spezifiziert 1.5.
Bei der mathematischen Untersuchung eines derartigen Modells können dann
z.B. zur Charakterisierung des Langzeitverhaltens der zu messenden Größen Sätze
wie das Gesetz der großen Zahlen 1.6 oder der Zentrale Grenzwertsatz 1.7 abgeleitet
werden. Allgemeine Techniken zur Herleitung derartiger Resultate, wie z.B. Martingalsätze, werden ebenfalls in der Wahrscheinlichkeitstheorie bereitgestellt 1.8.
1.1Z.B. in der Natur, der Technik oder auch im sozialen Umfeld.
1.2Hier ist die mathematische Untersuchung des Modells gemeint und nicht die Auswertung
konkreter Meßdaten. Dies ist eine Aufgabe, die in der Statistik behandelt wird.
1.3Vgl. Abschnitt 2.1.
1.4D.h., reellwertige, meßbare Funktionen auf (Ω, F, P), vgl. Abschnitt 2.2.
1.5Man könnte beispielsweise annehmen, daß die Zufallsvariablen X , n ∈ N, unabhängig und
n
identisch verteilt sind, vgl. Abschnitt 2.2.2, oder daß sie einen stationären stochastischen Prozeß
X = (Xn )n∈N , bzw. einen Markovprozeß bilden, vgl. Abschnitt 2.5.
P
1.6
Beim Gesetz der großen Zahlen wird die Konvergenz bei N → ∞ von (1/N ) N
k=1 Xk ,
d.h., des Mittelwerts von N Messungen, gegen einen deterministischen Grenzwert X nachgewiesen,
vgl. Abschnitt 4.1.
√
P
1.7
Beim Zentralen Grenzwertsatz wird die Asymptotik bei N → ∞ von N (1/N ) N
k=1 Xk
−X , d.h., der reskalierten Fluktuationen der gemittelten Meßwerte um ihren Grenzwert, vgl.
Fußnote 1.6, untersucht. Hier ergibt sich unter geeigneten Voraussetzungen als Limes eine Zufallsvariable mit einer Normalverteilung N(0, σ2 ), σ2 > 0, vgl. Abschnitt 4.2.
1.8
Vgl. Beispiel 4.38. Dort wird ein starkes Gesetz der großen Zahlen mit Hilfe eines Konvergenzsatzes für Martingale bewiesen.
7
8
2. Grundlegende Begriffe und Konzepte der Wahrscheinlichkeitstheorie
In diesem Abschnitt werden einige für alle Bereiche der Wahrscheinlichkeitstheorie fundamentalen Begriffe wie Wahrscheinlichkeitsraum, Zufallsvariable, Verteilung, Erwartungswert, bedingte Wahrscheinlichkeit oder stochastischer Prozeß
vorgestellt und anhand elementarer Beispiele 2.1 erläutert. Hierbei wird u.a. auch
auf mögliche mathematische Schwierigkeiten und Verallgemeinerungen hingewiesen,
die im Zusammenhang mit komplizierteren Anwendungen eine gründliche maßtheoretische Fundierung der Wahrscheinlichkeitstheorie notwendig werden lassen. Am
Ende dieses Abschnitts finden sich außerdem einige Anmerkungen zur Simulation
von reellwertigen Zufallsvariablen mit Hilfe eines Computers 2.2.
2.1. Wahrscheinlichkeitsräume. In allen wahrscheinlichkeitstheoretischen
Modellen wird ein Wahrscheinlichkeitsraum (Ω, F, P) zur Bereitstellung des benö”
tigten Zufalls“ zugrundegelegt. Hierbei ist 2.3
• Ω eine als Stichprobenraum bezeichnete, hinreichend große Menge,
• F eine σ-Algebra von Teilmengen von Ω, deren Elemente als Ereignisse
bezeichnet werden, und
• P ein Wahrscheinlichkeitsmaß auf (Ω, F) 2.4, das den einzelnen Ereignissen
jeweils Wahrscheinlichkeiten in [0, 1] zuweist.
Beispiel 2.1. Zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen
Münze kann Ω = {0, 1}N mit der σ-Algebra F = Pot(Ω) 2.5 verwendet werden.
Wenn das Wurfergebnis Kopf“ durch 0 und das Wurfergebnis Zahl“ durch 1
”
”
dargestellt wird, beschreibt ein Element ω = (ω1 , . . . , ωN ) ∈ Ω eine Wurfsequenz
mit dem Wurfergebnis ωi beim i-ten Wurf, wobei i = 1, . . . , N . Da die Würfe
unabhängig sind und die Münze fair ist, muß jedem Ereignis {ω} ∈ F die gleiche
Wahrscheinlichkeit P[{ω}] = 2−N zugewiesen werden 2.6.
2.1.1. Definition von Wahrscheinlichkeitsräumen. Der Stichprobenraum Ω ist
keinerlei Einschränkungen unterworfen. Allerdings sind eine σ-Algebra F und ein
Wahrscheinlichkeitsmaß P durch einige wenige Bedingungen charakterisiert.
Insbesondere wird eine nichtleere Familie F von Teilmengen von Ω eine σAlgebra genannt, wenn 2.7
(2.1a)
A∈F
=⇒
(Ω \ A) ∈ F,
2.1
In diesen Beispielen wird hauptsächlich der N -fache, unabhängige Wurf einer fairen Münze
zugrundegelegt.
2.2
Simulationen einzelner Zufallsvariablen sind die Grundlage zur Simulation von wahrscheinlichkeitstheoretischen Modellen in realen Anwendungen.
2.3Eine präzise Definition von Wahrscheinlichkeitsräumen folgt in Abschnitt 2.1.1.
2.4Für eine Menge Ω′ und eine σ-Algebra F ′ von Teilmengen von Ω′ bezeichnet man (Ω′ , F ′ )
als meßbaren Raum. Ein solcher meßbarer Raum kann mit unterschiedlichen Wahrscheinlichkeitsmaßen P′ zu Wahrscheinlichkeitsräumen (Ω′ , F′ , P′ ) ergänzt werden.
2.5Pot(Ω) ist die Potenzmenge von Ω, d.h., die Menge aller Teilmengen von Ω.
2.6Ein Wahrscheinlichkeitsraum (Ω, F, P), wobei Ω eine endliche Menge mit |Ω| Elementen
und F = Pot(Ω) ist, und außerdem jedes Ereignis {ω}, ω ∈ Ω, unter P die gleiche Wahrscheinlichkeit 1/|Ω| besitzt, wird als Laplacescher Wahrscheinlichkeitsraum bezeichnet.
2.7Unmittelbar aus (2.1) folgen weiterhin
(∗1 )
(∗2 )
∅, Ω ∈ F,
A1 , A2 , · · · ∈ F
=⇒
∞
\
n=1
An ∈ F.
Zum Nachweis dieser Eigenschaften sei zunächst A ein beliebiges Element von F. Aus (2.1) folgt
nun, daß A ∪ (ΩS
\ A) = Ω ∈ F. Mit (2.1a) ergibt sich dann ∅ = Ω \ Ω ∈ F. Die Beziehung
T
∞
∞
n=1 (Ω \ An ) und (2.1) implizieren schließlich (∗2 ).
n=1 An = Ω \
Eine Familie von Teilmengen von Ω, die (2.1a) und (2.1b) mit jeweils nur endlich vielen
Mengen erfüllt, nennt man eine Algebra.
22. Juli 2014
9
A1 , A2 , · · · ∈ F
(2.1b)
=⇒
∞
[
n=1
An ∈ F.
Außerdem heißt eine Abbildung P : F → [0, 1] Wahrscheinlichkeitsmaß (auf (Ω, F)),
falls
(2.2a)
(2.2b)
#
"∞
∞
X
[
P[Ai ],
Ai =
P
i=1
i=1
P[Ω] = 1,
falls Ai ∩ Aj = ∅, i, j = 1, 2, . . . , i 6= j
Die Eigenschaft (2.2b) wird als σ-Additivität von P bezeichnet
2.8
.
2.9
.
Beispiel 2.2. Sei M eine beliebige Menge. Eine triviale σ-Algebra ist {∅, M }. Ebenso ist die Potenzmenge Pot(M ) = {A : A ⊆ M } eine σ-Algebra. Wenn allerdings
Wahrscheinlichkeitsmaße definiert werden sollen, stellt sich bei überabzählbaren
Mengen M die σ-Algebra Pot(M ) als i. allg. unbrauchbar heraus 2.10.
Beispiel 2.3. In Rd , d = 1, 2, . . . , bzw. in Teilgebieten des Rd , findet üblicherweise
die Borelsche σ-Algebra B(Rd ) Verwendung. Sie kann charakterisiert werden als die
eindeutig bestimmte, kleinste σ-Algebra, die alle offenen Rechtecke enthält 2.11.
σ-Algebren werden auch zur Zusammenfassung von Ereignissen mit speziellen
Eigenschaften benutzt. Wenn z.B. eine Zeitskala 0 ≤ t < ∞ vorliegt 2.12, können
die Ereignisse bis zu einem festen Zeitpunkt s durch eine σ-Algebra Fs ⊆ F 2.13
beschrieben werden.
Eine Beschreibung der Vorgehensweise zur Konstruktion von σ-Algebren und
Wahrscheinlichkeitsmaßen findet sich in Abschnitt 3.1, bzw. in Abschnitt 3.3. Insbesondere wird diskutiert, inwiefern Wahrscheinlichkeitsmaße durch die Wahrscheinlichkeiten der Ereignisse in speziellen Teilmengen der Menge F aller Ereignisse
eindeutig charakterisiert sind.
2.8In der in Beispiel 2.1 beschriebenen Situation kann (2.2b) zum Nachweis von P[A] =
|A|/2N , A ∈ F, benutzt werden.
2.9Eine σ-additive Abbildung µ : F → [0, ∞] mit µ(∅) = 0, einer Eigenschaft, die insbesondere auch für Wahrscheinlichkeitsmaße gilt, vgl. Satz 3.10(1), wird als Maß bezeichnet. Dementsprechend ist dann (Ω, F, µ) ein Maßraum.
µ, bzw. (Ω, F, µ) heißt σ-endlich , wenn eine Folge An , n ∈ N, in F mit
∞
[
n=1
An = Ω,
µ(An ) < ∞, n ∈ N,
existiert. Ein Beispiel eines σ-endlichen Maßraums ist (Rd , B(Rd ), λRd ), wobei B(Rd ) die Borelsche
σ-Algebra auf Rd , vgl. Abschnitt 3.1.3, und λRd das Lebesguemaß auf Rd , vgl. Abschnitt 3.3.2,
ist.
Auf Maßräumen können mit Hilfe von Wahrscheinlichkeitsdichten Wahrscheinlichkeitsmaße
definiert werden, vgl. Abschnitt 3.3.3.
2.10Vgl. Beispiel 3.1 und Anhang A.3.1. Dort wird erläutert, daß für ein Modell für den ∞fachen, unabhängigen Wurf einer fairen Münze bei Verwendung von F = Pot(Ω) kein vernünftiges
Wahrscheinlichkeitsmaß definiert werden kann. Daher muß in der Maßtheorie insbesondere auch
die Konstruktion von σ-Algebren systematisiert werden, vgl. Abschitt 3.1.
2.11Vgl. Abschnitt 3.1.3. Dort werden Borelsche σ-Algebren in allgemeinen topologischen
Räumen eingeführt.
2.12Beispielsweise bei der Untersuchung eines stochastischen Prozesses X = (X )
t 0≤t<∞ ,
d.h., einer zufälligen zeitlichen Entwicklung.
2.13Die Ereignisse F bis zum Zeitpunkt s sind eine Teilmenge aller Ereignisse F.
s
Offensichtlich ist Fu ⊆ Fs , falls 0 ≤ u ≤ s < ∞. Damit ist die Familie (Fs )0≤s<∞ eine
Filtration, vgl. Abschnitt 3.9.
22. Juli 2014
10
2.1.2. Interpretation der Eigenschaften von σ-Algebren und Wahrscheinlichkeitsmaßen. Im Rahmen der Wahrscheinlichkeitstheorie sind (2.1) und (2.2) naheliegende, natürliche Bedingungen mit den folgenden Interpretationen:
• (2.1a) hält fest, daß mit jedem Ereignis A auch dessen Komplement Ω \ A
in Ω, welches das Nichteintreten von A beschreibt, ein Ereignis ist.
• (2.1b) besagt, daß für beliebige, abzählbar viele Ereignisse A1 , A2 , . . . auch
A oder A2 oder . . .“ ein Ereignis ist.
” 1
• Mit (2.2a) wird die Wahrscheinlichkeit für das Eintreten des sicheren“
”
Ereignisses Ω gleich 1 gesetzt.
• (2.2b) besagt, daß sich die Wahrscheinlichkeiten abzählbar vieler, sich gegenseitig ausschließender Ereignisse addieren.
(2.1) und (2.2) sind damit mathematische Formulierungen von Gesetzmäßigkeiten aus dem alltäglichen, menschlichen Umfeld.
2.2. Zufallsvariablen. Zu modellierende, beobachtbare zufällige Größen“
”
werden durch Zufallsvariablen auf (Ω, F, P) beschrieben. Darunter versteht man
Funktionen X : (Ω, F, P) → (Ω′ , F′ ), wobei (Ω′ , F′ ) ein meßbarer Raum 2.14 ist,
mit 2.15
(2.3)
X −1 (A′ ) = {ω ∈ Ω : X(ω) ∈ A′ } ∈ F,
A′ ∈ F′ .
Beispiel 2.4. Sei (Ω, F, P) der in Beispiel 2.1 beschriebene Wahrscheinlichkeitsraum zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze.
Beispiele für (N0 , Pot(N0 ))-wertige Zufallsvariablen auf diesem Wahrscheinlichkeitsraum sind
• Xi , i = 1, . . . , N , mit Xi (ω) = ωi , ω = (ω1 , . . . , ωN ) ∈ Ω,
P
P
• Z= N
Xi , d.h., Z(ω) = N
i=1 Xi (ω), ω ∈ Ω,
( i=1
inf i ∈ {1, ..., N } : Xi = 1 , falls Z > 0,
• T =
N + 1,
sonst 2.16.
Für i = 1, . . . , N gibt Xi das Ergebnis des i-ten Wurfs an. Weiterhin beschreibt Z
die Anzahl der Würfe von Zahl“ , 1, während T den Zeitpunkt des ersten Wurfs
”
von Zahl“ modelliert.
”
Wenn F = Pot(Ω) 2.17, so ist die Meßbarkeitseigenschaft (2.3) offensichtlich für
jede auf (Ω, F, P) definierte Funktion erfüllt 2.18.
In komplizierteren Situationen können allerdings σ-Algebren eine unübersichtliche Struktur besitzen 2.19. Damit wird in konkreten Fällen die Verifizierung von
2.14Vgl. Fußnote 2.4.
2.15Eine Funktion X : (Ω, F) → (Ω′ , F ′ ), wobei (Ω, F) und (Ω′ , F ′ ) meßbare Räume sind,
heißt meßbar, wenn (2.3) gilt. Eine Zufallsvariable ist daher eine meßbare Funktion, die nicht nur
auf einem meßbaren Raum, sondern sogar auf einem Wahrscheinlichkeitsraum definiert ist. Aus
diesem Grund kann ihr dann auch eine Verteilung, vgl. Abschnitt 2.2.1, zugeordnet werden.
2.16Auf eine detailliertere Weise ist T durch
( inf i ∈ {1, ..., N } : Xi (ω) = 1 , falls Z(ω) > 0,
ω ∈ Ω,
T (ω) =
N + 1,
sonst,
definiert.
2.17In der Praxis ist F = Pot(Ω) nur sinnvoll, wenn Ω höchstens abzählbar ist, vgl. Beispiel 3.1.
2.18Insbesondere sind die in Beispiel 2.4 eingeführten Funktionen X , i = 1, . . . , N , Z und T
i
in der Tat Zufallsvariablen.
2.19Vgl. Abschnitt 3.1.
22. Juli 2014
11
(2.3) schwierig. Es reicht jedoch, (2.3) für alle A′ ∈ F∗′ nachzuweisen, wenn F∗′ ⊆ F′
hinreichend groß ist 2.20.
Zwei Zufallsvariablen X und Y auf einem Wahrscheinlichkeitsraum (Ω, F, P)
werden i. allg. dann als identisch betrachtet, wenn sie fast sicher (f.s.) übereinstimmen, d.h., wenn P[{ω ∈ Ω : X(ω) = Y (ω)}] = P[X = Y ] = 1. In diesem Fall
schreibt man X = Y , f.s. Dementsprechend sind in der Wahrscheinlichkeitstheorie
alle (Un-)Gleichungen zwischen Zufallsvariablen als f.s. gültige (Un-)Gleichungen
zu lesen. Um das auf einem vorgegebenen meßbaren Raum (Ω, F) jeweils verwendete Wahrscheinlichkeitsmaß P hervorzuheben, wird auch die Notation P-f.s. benutzt 2.21.
2.2.1. Verteilung von Zufallsvariablen. Eine (Ω′ , F′ )-wertige Zufallsvariable X
auf einem Wahrscheinlichkeitsraum (Ω, F, P) ist durch die Wahrscheinlichkeiten,
”
mit der die verschiedenen Werte in Ω′ angenommen werden“, d.h., durch ihre Verteilung PX charakterisiert 2.22. PX ist definiert durch 2.23
(2.4) PX [A′ ] := P[X ∈ A′ ] = P[{ω ∈ Ω : X(ω) ∈ A′ }] = P[X −1 (A′ )],
und stellt ein Wahrscheinlichkeitsmaß auf dem Bildraum (Ω′ , F′ ) dar
A′ ∈ F′ ,
2.24
.
Beispiel 2.5. Sei (Ω, F, P) der in Beispiel 2.1 beschriebene Wahrscheinlichkeitsraum zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze und
sei Z die in Beispiel 2.4 eingeführte (N0 , Pot(N0 ))-wertige Zufallsvariable zur Beschreibung der Anzahl der Würfe von Zahl“. Dann gilt
#”
"N
X
N
1 N
2.26
2.25
, k = 0, 1, . . . , N,
Xi = k =
P[Z = k] =
P
2
k
i=1
und außerdem
P[Z = k] = 0,
k = N + 1, N + 2, . . . .
2.20Beispielsweise reicht der Nachweis von (2.3) für alle A′ ∈ F ′ , wenn F ′ die kleinste F ′
∗
∗
enthaltende σ-Algebra ist und somit von F∗′ erzeugt wird, vgl. Satz 3.4.
2.21Sei (Ω, F) ein meßbarer Raum, auf dem zwei Wahrscheinlichkeitsmaße P und Q definiert
sind, und seien X und Y zwei (Ω′ , F′ )-wertige, meßbare Funktionen auf (Ω, F). Es kann durchaus
X = Y , P-f.s., und Q[X 6= Y ] = Q[{ω ∈ Ω : X(ω) 6= Y (ω)}] > 0 oder gar Q[X 6= Y ] = 1, d.h.,
X 6= Y , Q-f.s., gelten.
Sei beispielsweise Ω = {−1, 1}, F = Pot(Ω), P[{−1}] = Q[{1}] = 1 und P[{1}] = Q[{−1}] =
0. Außerdem sei X(−1) = X(1) = Y (−1) = 1 und Y (1) = −1. Dann ist {X = Y } = {−1}, d.h.,
P[X = Y ] = 1, bzw. Q[X = Y ] = 0.
2.22Genaugenommen gibt die Verteilung einer Zufallsvariablen X die Wahrscheinlichkeiten
an, die die verschiedenen mit X verbundenen Ereignisse“ {X ∈ A′ }, A′ ∈ F′ , haben.
2.23P[{ω ∈ Ω : X(ω)” ∈ A′ }] ist für alle A′ ∈ F ′ wohldefiniert, da aufgrund der Meßbarkeit
von X, vgl. (2.3) und Fußnote 2.15, die Menge {ω ∈ Ω : X(ω) ∈ A′ } ein Element von F ist.
2.24(Ω′ , F ′ , P ) ist damit ein Wahrscheinlichkeitsraum. Zum Nachweis, daß P ein WahrX
X
scheinlichkeitsmaß auf (Ω′ , F′ ) ist, d.h., die Bedingungen (2.2) erfüllt, beachte zunächst, daß
PX [Ω′ ] = P[X −1 (Ω′ )] = P[Ω] = 1. Außerdem sind für disjunkte Ereignisse A′1 , A′2 , . . . in F′
auch deren Urbilder X −1 (A′1 ), X −1 (A′2 ), . . . in F disjunkt. Wegen der Gültigkeit von (2.2b) für
das Wahrscheinlichkeitsmaß P auf (Ω, F) ist somit
"∞
#
"
#
!#
"∞
∞
∞
∞
[
[
X
X
[
′
−1
′
−1
′
Ak = P X
PX
Ak
PX [A′k ].
P[X −1 (A′k )] =
X (Ak ) =
=P
k=1
k=1
k=1
k=1
k=1
2.25Die {0, 1}-wertigen Zufallsvariablen X , i = 1, . . . , N , modellieren die Ergebnisse der
i
einzelnen Würfe, vgl. Beispiel 2.4.
P
2.26
Offensichtlich ist N
i=1 Xi = k genau dann, wenn Xi = 1 für genau k der N Würfe. Nun
gibt es N
Möglichkeiten, die Zeitpunkte“ i der in 1 resultierenden Würfe auszuwählen. Weiterk
”
hin hat jede Wurfsequenz die Wahrscheinlichkeit 2−N , vgl. Beispiel 2.1. In diesen Überlegungen
wird beachtet, daß (Ω, F, P) ein Laplacescher Wahrscheinlichkeitsraum, vgl. Fußnote 2.6, ist.
22. Juli 2014
12
Damit ist Z gemäß der Binomialverteilung
und 1/2 verteilt.
2.27
B(N, 1/2) mit den Parametern N
Außer in den einfachsten Fällen ist es zur Bestimmung der Verteilung PX von
X gemäß (2.4) nicht möglich und auch nicht sinnvoll, P[X ∈ A′ ] für alle A′ ∈ F′
zu berechnen. Zur eindeutigen Charakterisierung von PX reicht die Kenntnis von
P[X ∈ A′ ] für alle A′ ∈ F∗′ , falls F∗′ die σ-Algebra F′ erzeugt 2.28 und durchschnittsstabil ist 2.29. Für Zufallsvariablen mit Werten in (Ω′ , F′ ) = (R, B(R)) 2.30 kann
F∗′ = {(−∞, a] : a ∈ R} gewählt werden 2.31. Die Verteilung einer reellwertigen Zufallsvariable X ist damit durch ihre Verteilungsfunktion FX mit FX (u) = P[X ≤ u],
u ∈ R, eindeutig gegeben 2.32.
Die gegenseitigen Abhängigkeiten zwischen mehreren Zufallsvariablen werden
durch deren gemeinsame Verteilung beschrieben. Falls 2.33 Xλ , λ ∈ Λ, Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in meßbaren Räumen
(Ωλ , Fλ ), λ ∈ Λ, sind, so ist die gemeinsame Verteilung von Xλ , λ ∈ Λ, durch
P Xλ1 ∈ Aλ1 , Xλ2 ∈ Aλ2 , . . . , Xλm ∈ Aλm
(2.5)
= P ω ∈ Ω : Xλ1 (ω) ∈ Aλ1 , . . . , Xλm (ω) ∈ Aλm ,
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N,
eindeutig bestimmt 2.34.
2.2.2. Unabhängigkeit von Zufallsvariablen. Falls die gemeinsame Verteilung
der Zufallsvariablen Xλ , λ ∈ Λ, faktorisiert, d.h., wenn 2.35
P Xλ1 ∈ Aλ1 , Xλ2 ∈ Aλ2 , . . . , Xλm ∈ Aλm
(2.6)
= P[Xλ1 ∈ Aλ1 ] P[Xλ2 ∈ Aλ2 ] · · · P[Xλm ∈ Aλm ],
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N,
werden diese Zufallsvariablen unabhängig genannt
2.36
.
2.27Allgemeiner ist
B(N, p)[{k}] =
N pk (1 − p)N−k ,
k
k = 0, 1, . . . , N,
für die Binomialverteilung B(N, p) mit den Parametern N ∈ N und p ∈ [0, 1].
2.28Vgl. Fußnote 2.20.
2.29Vgl. [10], Satz (1.12). Ein Mengensystem F ′ heißt durchschnittsstabil, falls mit A, B ∈ F ′
∗
∗
auch A ∩ B ∈ F∗′ ist. Ein durchschnittsstabiles Mengensystem wird auch als π-System bezeichnet,
vgl. Abschnitt 5.1.3.
2.30Vgl. Beispiel 2.3.
2.31Es ist offensichtlich, daß dieses Mengensystem F ′ durchschnittsstabil ist.
∗
2.32Die Verteilungsfunktion F : R → [0, 1] einer Zufallsvariable X ist monoton steigend mit
X
limy→−∞ FX (y) = 0 und limy→∞ FX (y) = 1. FX ist rechtsstetig, d.h., limyցx0 FX (y) = FX (x0 ),
x0 ∈ R, und besitzt linksseitige Grenzwerte, d.h., limyրx0 FX (y) existiert für alle x0 ∈ R, vgl. [7],
Section 1.1, Theorem (1.1). Der Nachweis der Rechtsstetigkeit von FX findet sich in Fußnote 3.56.
2.33
Λ ist eine beliebige Indexmenge.
2.34Eigentlich ist die gemeinsame Verteilung der Zufallsvariablen X , λ ∈ Λ, ein Wahrscheinλ
N
Q
dem Produkt der meßbaren Räume
lichkeitsmaß auf dem meßbaren Raum
λ∈Λ Ωλ ,
λ∈Λ Fλ ,N
(Ωλ , Fλ ), λ ∈ Λ, vgl. Abschnitt 3.1.2. Die Produkt-σ-Algebra
λ∈Λ Fλ ist hierbei die kleinste σAlgebra, die die endlich-dimensionalen Rechtecke {ω = (ωλ )λ∈Λ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm },
der
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N, enthält. Die gemeinsame Verteilung
Q
N
Zufallsvariablen Xλ , λ ∈ Λ, ist identisch mit der Verteilung der
λ∈Λ Ωλ ,
λ∈Λ Fλ -wertigen
Zufallsvariable X = (Xλ )λ∈Λ , die durch Zusammenfassen der Zufallsvariablen Xλ , λ ∈ Λ, zu einer
einzigen vektorwertigen Zufallsvariable entsteht.
2.35Genaugenommen wird in (2.6) verlangt, daß alle gemeinsamen Verteilungen von jeweils
endlich vielen der Zufallsvariablen Xλ , λ ∈ Λ, faktorisieren.
2.36Um den Unterschied zur linearen Unabhängigkeit zu betonen, bezeichnet man die Zufallsvariablen Xλ , λ ∈ Λ, auch als stochastisch unabhängig.
22. Juli 2014
13
Beispiel 2.6. Die in Beispiel 2.4 eingeführten Zufallsvariablen Xi , i = 1, . . . , N ,
sind unabhängig 2.37. Es gilt beispielsweise 2.38
P[Xi = α, Xj = β] =
Hingegen sind X1 und
2.39
1 1
1
= · = P[Xi = α] · P[Xj = β],
4
2 2
α, β ∈ {0, 1}, i, j = 1, . . . , N, i 6= j.
Z nicht unabhängig, wie z.B.
0 = P[X1 = 1, Z = 0] 6= P[X1 = 1] · P[Z = 0] =
demonstriert.
2.40
1 1 N 1 N +1
=
·
2
2
2
Viele klassische Resultate der Wahrscheinlichkeitstheorie 2.41 beziehen sich auf
eine Familie Xλ , λ ∈ Λ, unabhängiger, identisch verteilter Zufallsvariablen 2.42, wobei im allgemeinen Λ nicht endlich ist. Um zu klären, ob solche Resultate sinnvoll
sind 2.43, ist zunächst zu prüfen, ob überhaupt ein Wahrscheinlichkeitsraum existiert, auf dem alle Xλ , λ ∈ Λ, definiert sind. Zu einer Lösung dieses Existenzproblems 2.44 können insbesondere Produkträume, genauer Produkte von Wahrscheinlichkeitsräumen 2.45, verwendet werden.
2.3. Erwartungswerte von Zufallsvariablen. Im täglichen Umgang mit
zufälligen Meßwerten oder sonstigen durch reelle Zahlen quantifizierten Beobachtungen werden Mittelwerte“ zur Beschreibung typischer Beobachtungswerte“ ver”
”
wendet. Dem Mittelwert“ entspricht in der Wahrscheinlichkeitstheorie der Erwar”
tungswert.
Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit
Werten in (R, B(R)) 2.46. X sei zunächst eine diskrete Zufallsvariable, d.h., X(Ω) =
{X(ω) : ω ∈ Ω} sei eine höchstens abzählbare Teilmenge von R 2.47. Dann besitzt
2.37Zur realistischen Modellierung der (umgangssprachlichen) Unabhängigkeit“ der einzel”
nen Würfe der Münze ist dies auch notwendig.
2.38Hier wird nur der Fall m = 2 aus (2.6) angesprochen. Die Fälle m = 3, . . . , N können auf
die gleiche Weise behandelt werden.
2.39Die Zufallsvariable Z wird in Beispiel 2.4 eingeführt.
2.40Es wird insbesondere berücksichtigt, daß X = 0, sobald Z = 0, und daß Z binomialver1
teilt mit Parametern N und 1/2 ist, vgl. Beispiel 2.5.
2.41Z.B. das Gesetz der großen Zahlen oder der Zentrale Grenzwertsatz in ihren Grundversionen, vgl. Satz 4.5, bzw. Satz 4.10. In diesen Resultaten ist Λ = N.
2.42Als Abkürzung wird in Fällen wie hier i.i.d. für independent, identically distributed“
”
verwendet.
2.43Es wäre nicht sinnvoll, mathematische Resultate für nichtexistierende Objekte herzuleiten.
2.44Vgl. Beispiel 3.9.
2.45Das Produkt der Wahrscheinlichkeitsräume (Ω , F , P ), λ ∈ Λ, hat die Gestalt
Q
N λ λ λ
Q
N
N
λ∈Λ Ωλ ,
λ∈Λ Fλ ein Produkt
λ∈Λ Ωλ ,
λ∈Λ Fλ ,
λ∈Λ Pλ , wobei
N meßbarer Räume
ist, vgl. Fußnote 2.34 und Abschnitt 3.1.2, und das Wahrscheinlichkeitsmaß
λ∈Λ Pλ durch seine
Einschränkung auf die endlich-dimensionalen Rechtecke, d.h., durch
)#
"(
m
Y
O
Y
Pλ
=
Pλi [Aλi ],
Ωλ : ω λ 1 ∈ A λ 1 , . . . , ω λ m ∈ A λ m
ω = (ωλ )λ∈Λ ∈
λ∈Λ
i=1
λ∈Λ
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N,
eindeutig bestimmt ist, vgl. Abschnitt 3.3.4.
2.46Zur Beschreibung des meßbaren Raums (R, B(R)) vgl. Beispiel 2.3.
2.47In diesem Abschnitt wird der Erwartungswert nur für diskrete Zufallsvariablen definiert.
Zur Erweiterung auf beliebige (R, B(R))-wertige Zufallsvariablen vgl. Abschnitt 3.6. Allgemeiner
können Erwartungswerte auch für Zufallsvariablen mit Werten in Vektorräumen definiert werden.
22. Juli 2014
14
X einen (endlichen) Erwartungswert, wenn 2.48
X
|x| P[X = x] < ∞.
(2.7)
x∈X(Ω)
Wenn (2.7) gilt, nennt man X auch integrabel. Man definiert nun den Erwartungswert von X durch 2.49
X
X
x PX [{x}].
x P[X = x] =
(2.8)
E[X] :=
x∈X(Ω)
x∈X(Ω)
Der Erwartungswert E[X] ist damit eine gewichtete Summe über den Wertebereich
von X, wobei die einzelnen Werte von X mit den Wahrscheinlichkeiten, mit denen
sie angenommen werden, gewichtet werden 2.50 2.51.
Für eine f.s. positive Zufallsvariable ist die Summe in (2.8) immer wohldefiniert,
d.h., für solche Zufallsvariablen X kann E[X] durch (2.8) definiert werden. Allerdings ist in einem solchen Fall E[X] = ∞ möglich. Nun wird deutlich, daß eine
beliebige diskrete reellwertige Zufallsvariable X genau dann integrabel ist, wenn
E[|X|] < ∞.
Beispiel 2.7. Für die in Beispiel 2.4 eingeführte Zufallsvariable Z zur Modellierung
der Anzahl der Würfe von Zahl“ beim N -fachen, unabhängigen Wurf einer fairen
”
Münze gilt 2.52:
E[Z] =
N
X
k P[Z = k]
| {z }
N
1 N
=
2
k
N −1 N
1 N
X
N X N
N!
=
=
k
k!(N − k)! 2
2
l=0
k=1 |
{z
}
|
N −1
=N
k−1
k=0
N
− 1 1 N −1
= .
2
2
l
{z
}
=1
Zur Berechnung des Erwartungswerts E[X] für eine allgemeine, reellwertige
Zufallsvariable X wird diese Zufallsvariable durch eine Folge geeigneter diskreter
Zufallsvariablen Xk , k ∈ N, approximiert und E[X] durch limk→∞ E[Xk ] definiert 2.53 2.54.
2.48In (2.7) muß P[X = x] wohldefiniert sein, d.h., {X = x} ∈ F, x ∈ X(Ω). Diese Eigenschaft
folgt aus der Meßbarkeit von X : (Ω, F) → (R, B(R)), vgl. (2.3), und aus {x} ∈ B(R), x ∈ R.
2.49Die Verteilung P einer Zufallsvariablen X ist in (2.4) charakterisiert.
X
2.50Offensichtlich hängt der Erwartungswert E[X] nur von der Verteilung P ab. Der WahrX
scheinlichkeitsraum (Ω, F, P), auf dem die Zufallsvariable X definiert ist, tritt, wie insbesondere
die zweite Summe in (2.8) andeutet, nur indirekt in Erscheinung. Allgemeinere Überlegungen zur
Bedeutung von Wahrscheinlichkeitsräumen, auf denen zur Modellbildung benutzte Zufallsvariablen X definiert sind, und deren Verteilung PX finden sich in Abschnitt 2.6.
2.51
In Anspielung auf die Gestalt der rechten Seite von (2.8) kann E[X] auch als ein Integral
R
X(Ω) x PX (dx) bzgl. des Wahrscheinlichkeitsmaßes PX über den Wertebereich X(Ω) betrachtet
werden. Dementsprechend besitzt Abschnitt 3.6, wo der Erwartungswert reellwertiger Zufallsvariablen rigoros eingeführt wird, den Titel Integrationstheorie“.
”
2.52Es wird berücksichtigt, daß Z binomialverteilt
mit Parametern N und 1/2 ist, vgl. Beispiel 2.5.
2.53Vgl. Abschnitt 3.6. Natürlich muß darauf geachtet werden, daß E[X] unabhängig von der
approximierenden Folge Xk , k ∈ N, ist.
2.54
Die hier in einer Definition angesprochene Beziehung E[limk→∞ Xk ] = limk→∞ E[Xk ] für
eine Folge von Zufallsvariablen Xk , k ∈ N, muß in vielen Situationen in der Wahrscheinlichkeitstheorie verifiziert werden. Zu diesem Zweck können Resultate wie der Satz von der monotonen
22. Juli 2014
15
2.4. Bedingte Wahrscheinlichkeiten. Mit (Ω, F, P) sei ein Wahrscheinlichkeitsraum gegeben. Durch das Wahrscheinlichkeitsmaß P[ . ] erhalten hierbei die
Ereignisse A ∈ F jeweils eine unbedingte Wahrscheinlichkeit P[A]. Falls nun bekannt wird, daß ein festes Ereignis B eingetreten ist, kann allen Ereignissen A ∈ F
eine neue, unter B bedingte Wahrscheinlichkeiten P[A|B] 2.55 zugewiesen werden.
Beispiel 2.8. Sei (Ω, F, P) der in Beispiel 2.1 beschriebene Wahrscheinlichkeitsraum zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen Münze und
seien X1 und Z Zufallsvariablen wie sie in Beispiel 2.4 eingeführt wurden 2.56. Weiterhin seien die Ereignisse A = {Z = N } und B = {X1 = 0} gegeben. Da Z
binomialverteilt mit den Parametern N und 1/2 ist 2.57, folgt P[A] = 2−N . Andererseits sollte offensichtlich P[A|B] = 0 gelten 2.58.
Allgemein ist für ein B ∈ F mit P[B] > 0 2.59 die unter B bedingte Wahrscheinlichkeit P[ . |B] ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum (Ω, F) 2.60.
Für dieses Wahrscheinlichkeitsmaß P[ . |B] sind folgende Eigenschaften zu erwarten:
(i) P[B|B] = 1 2.61.
(ii) Es gibt eine Konstante cB > 0, so daß P[A|B] = cB P[A], falls A ∈ F,
A ⊆ B 2.62.
Aus (i) und (ii) für A = B folgt 1 = P[B|B] = cB P[B], d.h., cB = 1/P[B].
Damit ergibt sich
(2.9)
2.63
P[A ∩ B|B] + P[A ∩ (Ω \ B)|B]
{z
}
|
= 0 2.64
= cB P[A ∩ B]
P[A|B] =
=
P[A ∩ B]
,
P[B]
A ∈ F.
Häufig müssen für reellwertige Zufallsvariablen X auf einem Wahrscheinlichkeitsraum (Ω, F, P) Erwartungswerte bestimmt werden, bei denen das Vorliegen
Konvergenz, vgl. Satz 3.18(3), oder der Satz von der dominierten Konvergenz, vgl. Satz 3.24,
verwendet werden.
2.55P[A|B] ist die Wahrscheinlichkeit des Ereignisses A, nachdem bekannt wird, daß das
Ereignis B schon eingetreten ist.
2.56X modelliert das Ergebnis des ersten Wurfs und Z die Anzahl aller Würfe von
1
Zahl“ , 1.
”
2.57Vgl. Beispiel 2.5.
2.58Wenn schon der erste Wurf Kopf“ ergibt, kann die Anzahl aller Würfe von Zahl“ nicht
”
”
N sein.
2.59Die Notwendigkeit dieser Bedingung ergibt sich aus der letztendlich P[ . |B] charakterisierenden Beziehung (2.9).
2.60Insbesondere erfüllt P[ . |B] die Beziehungen (2.2).
2.61Wenn B eingetreten ist, ist B sicher.
2.62Mit der Beobachtung, daß B eingetreten ist, sind keine weiteren Erkenntnisse über tiefergehende Details, d.h., Ereignisse A ⊆ B, verbunden. Für A, A′ ∈ F mit A, A′ ⊆ B sollte somit
das Verhältnis der Wahrscheinlichkeiten vor und nach dem Gewinn des Wissens um das Eintreten
von B gleich sein, d.h.,
P[A]
P[A|B]
=
,
P[A′ ]
P[A′ |B]
A, A′ ∈ F, A, A′ ⊆ B.
Diese Relation ist gleichbedeutend mit (ii), wobei cB = P[A′ |B]/P[A′ ] für ein beliebiges, fest
gewähltes A′ ⊆ B mit P[A′ ] > 0.
.
2.63Da A = (A ∩ B) ∪
(A ∩ (Ω \ B)) und weil P[ . |B] die Bedingung (2.2b) erfüllt.
2.64
Wegen (i) ist die gesamte Masse“ des Wahrscheinlichkeitsmaßes P[ . |B] auf B konzen”
triert, d.h., P[C|B] = 0, falls C ⊆ Ω \ B.
22. Juli 2014
16
zusätzlicher Informationen zu berücksichtigen ist. Wenn diese Informationen sich
auf Ereignisse in einer Teil-σ-Algebra G ⊆ F beziehen, ist der bedingte Erwartungswert E[X|G] zu berechnen. E[X|G] ist eine reellwertige Zufallsvariable auf dem
meßbaren Raum (Ω, G) 2.65. Der normale (unbedingte) Erwartungswert E[X] kann
in diesem Zusammenhang als ein bedingter Erwartungswert E[X|{∅, Ω}] bzgl. der
trivialen σ-Algebra {∅, Ω} interpretiert werden 2.66.
2.5. Stochastische Prozesse. Sei T eine Menge, (Ω, F, P) ein Wahrscheinlichkeitsraum und (Ω′ , F′ ) ein meßbarer Raum. Für alle t ∈ T sei Xt eine (Ω′ , F′ )wertige Zufallsvariable auf (Ω, F, P). Man bezeichnet dann die Familie X = (Xt )t∈T
dieser Zufallsvariablen auch als stochastischen Prozeß oder Zufallsprozeß 2.67.
Beispiel 2.9. Seien Xi , i = 1, . . . , N , die in Beispiel 2.4 eingeführten Zufallsvariablen zur Modellierung der Ergebnisse von N unabhängigen Würfen einer fairen
Münze. Offensichtlich sind dann die Zufallsvariablen Yi = 1 − 2Xi , i = 1, . . . , N ,
unabhängige, {−1, 1}-wertige Zufallsvariablen mit der Verteilung P[Yi = −1] =
P[Yi = 1] = 1/2, i = 1, . . . , N 2.68.
Die symmetrische Irrfahrt ζ = (ζk )k=0,...,N , ist nun definiert durch 2.69
ζk =
k
X
Yi ,
k = 0, . . . , N.
i=1
ζ startet zum Zeitpunkt 0 im Ursprung und springt später in den Zeitpunkten
1, 2, . . . , N jeweils mit Wahrscheinlichkeit 1/2 um 1 weiter nach rechts oder links.
Damit ist ζ ein sehr einfaches Modell für die Bewegung eines diffundierenden Teilchens in einer Dimension 2.70.
Die in Beispiel 2.9 vorgestellte symmetrische Irrfahrt ist ein einfaches Beispiel
eines Markovprozesses 2.71. Ein derartiger Prozeß 2.72 X = (Xt )0≤t<∞ zeichnet sich
dadurch aus, daß in jedem Zeitpunkt s ≥ 0 die zukünftige Entwicklung, d.h., Xu ,
2.65Die Forderung, daß der bedingte Erwartungswert E[X|G] nur von den Ereignissen in G
bestimmt ist, spiegelt sich in der Bedingung, daß E[X|G] eine meßbare Funktion auf (Ω, G) ist.
Allgemein zeichnet sich E[X|G] durch eine Projektionseigenschaft aus. Genauer, für eine reellwertige Zufallsvariable X mit E[|X|] < ∞ ist E[X|G] die f.s. eindeutig bestimmte meßbare,
(R, B(R))-wertige Funktion auf dem meßbaren Raum (Ω, G) mit
(∗)
E[XY ] = E E[X|G]Y , Y : (Ω, G) → (R, B(R)), meßbar, beschränkt.
E[X|G] ist damit die Projektion der auf (Ω, F, P) definierten Zufallsvariable X auf den Raum
”
der auf (Ω, G, P) definierten Zufallsvariablen“. Eine detailliertere Einführung von bedingten Erwartungswerten findet sich in Abschnitt 3.8.
2.66Da alle meßbaren Funktionen auf dem meßbaren Raum (Ω, {∅, Ω}) f.s. konstant sind, ist
auch E[X|{∅, Ω}] eine Konstante. Betrachtet man nun (∗) in Fußnote 2.65 mit G = {∅, Ω} und der
{∅, Ω}-meßbaren Zufallsvariablen Y ≡ 1, so folgt
E[X|{∅, Ω}] = E[E[X|{∅, Ω}]] = E[E[X|{∅, Ω}] · 1] = E[X · 1] = E[X], f.s.
2.67Wenn mit X eine zufällige zeitliche Dynamik modelliert werden soll, ist T eine Teilmenge
von R, z.B. [0, ∞), N oder [0, T ].
2.68Man beachte, daß Y = −1, bzw. Y = 1, genau dann, wenn X = 1, bzw. X = 0.
i
i
i
i
2.69Üblicherweise bezeichnet man als symmetrische Irrfahrt die offensichtliche Erweiterung
des hier definierten Prozesses ζ = (ζk )k=0,...,N zu einem stochastischen Prozeß ζ ′ = (ζk′ )k∈N0 mit
N0 als Menge der Zeitpunkte, vgl. dazu z.B. Beispiel 4.22 und Satz 4.23.
2.70Ein realistischeres Modell für ein diffundierendes Teilchen ist die aus ζ, bzw. aus dem
in Fußnote 2.69 eingeführten Prozeß ζ ′ durch Reskalierung hervorgehende Brownsche Bewegung,
vgl. Abschnitt 4.5.
2.71
Vgl. Abschnitte 4.3 und 6.1.
2.72
Zur Diskussion einer die symmetrische Irrfahrt etwas verallgemeinernden Situation sei
hier angenommen, daß die Zeit kontinuierlich ist.
22. Juli 2014
17
u > s, bei gegebenem gegenwärtigen Zustand Xs nicht von der Vergangenheit Xu ,
u < s, abhängt 2.73.
Es gibt viele weitere Klassen spezieller stochastischer Prozesse, beispielsweise Martingale 2.74 und stationäre Prozesse. Ein solcher stationärer Prozeß X =
(Xt )0≤t<∞ zeichnet sich durch die Invarianz seiner Verteilung unter Zeitverschiebungen aus, d.h., 2.75
P(Xt1 ,...,Xtn ) = P(Xt1 +t ,...,Xtn +t ) ,
0 ≤ t1 < · · · < tn < ∞, t > 0, n ∈ N.
2.6. Wahrscheinlichkeitsräume und Zufallsvariablen in der Modellbildung. In Anwendungen der Wahrscheinlichkeitstheorie bei der Bildung von Modellen für vom Zufall beeinflußte Phänomene dient typischerweise ein allgemeiner
Wahrscheinlichkeitsraum (Ω, F, P) als ein Zufallsgenerator“, während Zufallsvaria”
blen Messungen oder Beobachtungen mit zufälligem Ausgang modellieren. (Ω, F, P)
muß so groß“ sein, daß alle benötigten Zufallsvariablen mit den von ihnen erwar”
teten Eigenschaften konstruiert werden können. Insbesondere muß die gemeinsame
Verteilung dieser Zufallsvariablen 2.76 den Wünschen und Vorstellungen des modellbildenden Mathematikers gerecht werden.
Beim Entwurf eines mathematischen Modells für einen physikalischen oder technischen Vorgang ist nur die realistische Nachbildung“ der möglichen Beobachtungs”
ergebnisse wesentlich. Dies bedeutet, daß der zugrundeliegende Wahrscheinlichkeitsraum (Ω, F, P) in den Hintergrund tritt, d.h., sein detaillierter Aufbau irrelevant
bleibt, solange nur die für die Modellbildung benutzten Zufallsvariablen die richtige
Verteilung besitzen 2.77.
Beispiel 2.10. Zur Modellierung des N -fachen, unabhängigen Wurfs einer fairen
Münze könnte anstelle des in Beispiel 2.1 vorgestellten Wahrscheinlichkeitsraums
(Ω, F, P) mit
Ω = {0, 1}N ,
F = Pot(Ω),
P[{ω}] = 2−N , ω ∈ Ω,
2.73In einer präzisen Definition der Markoveigenschaft kann die Filtration (F X )
t 0≤t<∞ verwendet werden, vgl. Fußnote 2.13, Beispiel 3.3 und Abschnitt 3.9. Für 0 ≤ t < ∞ ist hier
FtX = σ(Xu , 0 ≤ u ≤ t) die kleinste σ-Algebra, bzgl. der alle Zufallsvariablen Xu , 0 ≤ u ≤ t,
meßbar sind, vgl. Abschnitt 3.1.4. Außerdem sei für 0 ≤ t < ∞ mit σ(Xt ) die kleinste σ-Algebra,
bzgl. der die Zufallsvariable Xt meßbar ist, bezeichnet.
Nun kann für einen reellwertigen stochastischen Prozeß die Markoveigenschaft in der Form
(∗)
E[f (Xt+h )|FtX ] = E[f (Xt+h )|σ(Xt )], f.s.,
0 ≤ t < ∞, h > 0, f ∈ Cb (R),
festgehalten werden. In (∗) werden bedingte Erwartungswerte, vgl. Fußnote 2.65 und Abschnitt 3.8,
verwendet.
2.74
Vgl. Abschnitte 4.4 und 5.3. Ein reellwertiger stochastischer Prozeß X = (Xt )0≤t<∞ mit
E[|Xt |] < ∞, 0 ≤ t < ∞, wird als Martingal bezeichnet, wenn
E[Xt+h |FtX ] = Xt , f.s.,
(FtX )0≤t<∞
0 ≤ t < ∞, h > 0,
wobei die Filtration
in Fußnote 2.73 beschrieben wird. Ein Martingal (Xt )0≤t<∞
zeichnet sich dadurch aus, daß für alle t ≥ 0 der unter seiner Vergangenheit FtX bedingte mittlere
”
zukünftige Zuwachs“ E[Xt+h − Xt |FtX ] = E[Xt+h |FtX ] − Xt für alle h > 0 verschwindet.
Aufgrund ihrer Nützlichkeit bei der mathematisch rigorosen Behandlung zahlreicher unterschiedlicher Probleme können Martingale als die wichtigsten stochastischen Prozesse bezeichnet
werden.
2.75Für 0 ≤ t < · · · < t < ∞ bezeichnet P
n
1
(Xt1 ,...,Xtn ) die gemeinsame Verteilung der
Zufallsvariablen Xt1 , . . . , Xtn , vgl. Abschnitt 2.2.1. Im Falle eines reellwertigen Prozesses X ist
P(Xt ,...,Xtn ) ein Wahrscheinlichkeitsmaß auf (Rn , B(Rn )).
1
2.76Vgl. Abschnitt 2.2.1.
2.77Diese Tatsache äußert sich u.a. durch die übliche Verwendung der Phrase Sei (Ω, F, P) ein
”
Wahrscheinlichkeitsraum . . . “ am Anfang vieler mathematischer Beiträge zur wahrscheinlichkeitstheoretischen Modellbildung, wobei dann in keiner Weise auf die genaue Struktur von (Ω, F, P)
eingegangen wird.
22. Juli 2014
18
e P)
e F,
e mit
ebenso (Ω,
e = {0, 1, . . . , 2N − 1},
Ω
e = Pot(Ω),
e
F
e ω}] = 2−N , ω
e
P[{e
e ∈ Ω,
2.78
ei , i = 1, . . . , N , mit
benutzt werden. Dann sind z.B. die Zufallsvariablen X
ω
e
e i = 1, . . . , N,
e
e ∈ Ω,
Xi (e
ω ) = i−1 mod 2, ω
2
2.79
unabhängig, {0, 1}-wertig mit der Verteilung
eX
ei = 0] = 1 = P[
eX
ei = 1] = P e [{1}],
PXei [{0}] = P[
Xi
2
i = 1, . . . , N,
ei das Ergebnis des i-ten Wurfs der Münze
d.h., für i = 1, . . . , N modelliert X
2.80
.
Bei Anwendungen der Wahrscheinlichkeitstheorie treten spezielle Wahrscheinlichkeitsräume meistens nur dann in Erscheinung, wenn letztendlich die Verteilungen von Zufallsvariablen untersucht werden sollen. Wenn diese beispielsweise nur
endlich viele Werte annehmen können und wenn außerdem diese Werte alle die
gleiche Wahrscheinlichkeit besitzen 2.81, kann man mit einem Laplaceschen Wahrscheinlichkeitsraum arbeiten 2.82.
2.7. Simulation von Zufallsvariablen. Typischerweise sind realitätsnahe
wahrscheinlichkeitstheoretische Modelle zufallsbeeinflußter Phänomene des menschlichen Umfeldes so kompliziert, daß exakte Berechnungen unmöglich sind. Zur
Überprüfung der Gültigkeit der Modelle und auch zur Gewinnung von Vorhersagen
wird dann oft auf deren Computersimulation zurückgegriffen 2.83.
Zur Erstellung guter Computerimplementationen wahrscheinlichkeitstheoretischer Modelle ist es offensichtlich wesentlich, daß auf eine zuverlässige Weise Zufallsvariablen mit einer vorgegebenen Verteilung simuliert werden können. Ein grundlegendes Problem ist hierbei die Simulation einer Folge unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen 2.84.
2.78Für beliebige A
e folgt P[
e∈F
e A]
e = |A|2
e −N aus der σ-Additivität (2.2b) von Wahrschein-
lichkeitsmaßen, vgl. Fußnote 2.8.
2.79⌊x⌋ = sup{n ∈ Z : n ≤ x}, x ∈ R. Damit gibt X
ei (e
ω ) die i-te Stelle in der Entwicklung
von ω
e im Dualsystem an.
2.80Wird in Beispiel 2.1 der Wahrscheinlichkeitsraum (Ω, F, P) durch (Ω,
e P)
e ersetzt, so
e F,
ei , i = 1, . . . , N , anstelle von Xi , i = 1, . . . , N , verkönnen in Beispiel 2.4 die Zufallsvariablen X
wendet werden.
2.81
Man denke z.B. an den Wurf einer fairen Münze oder eines fairen Würfels.
2.82
Gelegentlich wird in der Wahrscheinlichkeitstheorie eine spezielle Wahl eines Wahrscheinlichkeitsraums auch durch dessen Brauchbarkeit für die mathematischen Überlegungen oder die
Beweise der Resultate bestimmt. Beispielsweise eröffnet Satz 3.16 die Möglichkeit, bei der Untersuchung einer Folge in Verteilung konvergenter, reellwertiger Zufallsvariablen den zugrundeliegenden Wahrscheinlichkeitsraum zu wechseln, damit dann mit dem stärkeren Begriff der fast-sicheren
Konvergenz gearbeitet werden kann.
2.83
Zunächst kann ein mathematisches Modell dann als brauchbar betrachtet werden, wenn
Beobachtungen der realen Phänomene im Rahmen von Computersimulationen reproduziert werden können. In einem solchen Fall können nun weitere Computersimulationen benutzt werden, um
evtl. teure Experimente zu ersetzen oder auch um Vorhersagen über zukünftige Geschehnisse zu
treffen.
2.84Wie in Abschnitt 2.7.2 noch demonstriert werden wird, können aus derartigen Zufallsvariablen solche mit anderen Verteilungen mit Hilfe geeigneter Transformationen gewonnen werden.
22. Juli 2014
19
2.7.1. Erzeugung von Pseudozufallszahlen in [0, 1]. Ein erster, naheliegender
Ansatz besteht darin, ein als zufällig“ erachtetes physikalisches Phänomen 2.85 ge”
eignet zu verarbeiten 2.86. Auf diese Weise können wahre“ Zufallszahlen gewonnen
”
werden 2.87.
Eine bequemere Methode ist die Verwendung von sog. Pseudozufallszahlen.
Darunter versteht man Zahlenfolgen, die durch spezielle, i. allg. rekursive Algorithmen berechnet werden und somit völlig deterministisch sind, die jedoch aufgrund
ihrer Komplexität als zufällig erscheinen 2.88.
Beispiel 2.11. Ein bekanntes Verfahren ist die lineare Kongruenzmethode 2.89. Zu
vorgegebenen Parametern m ∈ N, a = 1, . . . , m − 1, c = 0, 1, . . . , m − 1 und einen
Startwert x0 = 0, 1, . . . , m − 1 betrachtet man zunächst die Folge xn , n ∈ N0 , mit
(2.10)
xn+1 = (axn + c) mod m,
n = 0, 1, 2, . . . ,
und bildet diese anschließend mit un = xn /m, n = 0, 1, 2, . . . , in das Intervall
[0, 1] ab. Wenn m, a, c und x0 geschickt“ gewählt werden, hat die Folge un ,
”
n = 0, 1, 2, . . . , ein Erscheinungsbild wie eine typische“ Realisierung einer Folge
”
unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen 2.90 2.91. Etliche klassische,
ältere Zufallsgeneratoren basieren auf der linearen Kongruenzmethode 2.92.
Beispiel 2.12. Der Mersenne Twister ist ein moderner Zufallsgenerator 2.93. Sei F2
der kommutative Körper der Charakteristik 2 2.94. Sei weiterhin w ∈ N hinreichend
w
groß, n ∈ N, m = 1, . . . , n − 1 und r = 1, 2, . . . , w − 1. Für y ∈ Fw
2 = {0, 1}
u
l
w
sei außerdem y = (y1 , . . . , yr , 0, . . . , 0) ∈ F2 und y = (0, . . . , 0, yr+1 , . . . , yw ) ∈
2.95
l u
w
. Wenn y, z ∈ Fw
Fw
2 , bezeichnet (y |z ) = (y1 , . . . , yr , zr+1 , . . . , zw ) ∈ F2 die
2
w⊗w
l
u
Verkettung von y und z . Letztendlich sei A ∈ F2
eine vorgegebene w × wMatrix mit Einträgen aus F2 .
2.85Man denke z.B. an thermisches Rauschen, radioaktiven Zerfall oder quantenoptische
Prozesse.
2.86In solchen Fällen spricht man von Hardware-basierten Zufallsgeneratoren. Wenn auf diese
Weise Zufallszahlen durch ein separates Gerät außerhalb eines Computers erzeugt werden, müssen
sie diesem über eine geeignete Schnittstelle zugeführt werden.
2.87Voraussetzung ist natürlich, daß das zugrundeliegende physikalische Phänomen in der
Tat zufällig“ ist, d.h. sich auf eine nichtvorhersehbare Weise verhält. Evtl. müssen die ermittelten
”
Zufallszahlen“ auch noch durch geeignete Verfahren aufbereitet werden, damit sie auch wirklich
”
unabhängige, auf [0, 1] gleichverteilte Zufallsvariablen nachbilden.
2.88
Ein zufälliges Erscheinungsbild“ einer Zahlenfolge kann mit geeigneten statistischen Tests
”
geprüft werden. Eine aktuelle Familie von Tests wurde insbesondere unter dem Namen DieHarder
von R. G. Brown (http://www.phy.duke.edu/~rgb/General/rand rate.php) entwickelt.
2.89
Vgl. z.B. [13], Abschnitt 10.2.
2.90Eine Realisierung einer Familie X , X , . . . von Zufallsvariablen, die auf einem Wahr1
2
scheinlichkeitsraum (Ω, F, P) definiert sind, ergibt sich, wenn eine Folge X1 (ω), X2 (ω), . . . für ein
festes, aber beliebiges ω ∈ Ω betrachtet wird. Für ein kleines“ A ∈ F mit P[A] = 1 kann man
”
{(X1 (ω), X2 (ω), . . . ) : ω ∈ A} als eine Menge typischer Realisierungen“ betrachten.
”
2.91
Bei einer unglücklichen Wahl der Parameter erhält man u.U. eine sehr regelmäßige Folge
x0 , x1 , x2 , . . . . Beispielsweise ergibt sich 5, 0, 5, 0, . . . für a = c = x0 = 5, m = 10. Allgemein
besitzt eine durch (2.10) bestimmte Zahlenfolge immer eine endliche Periode, die höchstens m ist.
2.92
Oft hat sich allerdings im Lauf der Zeit herausgestellt, daß jene oft benutzten Zufallsgeneratoren, deren Perioden zwischen 230 und 248 liegen, eine nur geringe Qualität besitzen.
2.93
Eine detaillierte Beschreibung findet sich in [23]. Die Periode einer gut bewährten Variante ist mit 219937 − 1 eine extrem große Mersennesche Primzahl. Durch die Multiplikation
mit der Matrix A in der Rekursionsformel (2.11) werden die Bits“ der erzeugten Zahlenfolgen
”
durcheinandergewirbelt“, was den Namensbestandteil twister“(≃ Wirbelwind“) erklärt.
”
2.94D.h., F = {0, 1} mit der Addition 0 ⊕ 0 = 0,” 0 ⊕ 1 = 1 ”
⊕ 0 = 1, 1 ⊕ 1 = 0 und der
2
Multiplikation 0 ⊙ 0 = 0, 0 ⊙ 1 = 1 ⊙ 0 = 0, 1 ⊙ 1 = 1.
2.95y l (y u ) faßt die unteren (oberen) Bits“ von y zusammen.
”
22. Juli 2014
20
Zunächst wird nach der Vorgabe von Startwerten x0 , x1 , . . . , xn−1 ∈ Fw
2 eine
2.96
Folge x0 , x1 , · · · ∈ Fw
2 rekursiv gemäß
(2.11)
xk+n := xk+m ⊕w (xlk |xuk+1 ) ⊙w A,
k = 0, 1, 2, . . . ,
P
2.97
−q
konstruiert. Der Folge x0 , x1 , . . . in Fw
uk = w
,
2 kann nun durch
q=1 xk;q 2
k = 0, 1, 2, . . . , eine Folge uk , k = 0, 1, 2, . . . , in [0, 1] zugeordnet werden, die bei einer vernünftigen“ Wahl von w, n, m, r, A und x0 , x1 , . . . , xn−1 wie eine typische“
”
”
Realisierung einer Folge unabhängiger, in [0, 1] gleichverteilter Zufallsvariablen aussieht.
2.7.2. Simulation beliebiger Folgen von reellwertigen, i.i.d. Zufallsvariablen.
Aus Zufallsvariablen, die gemäß der Gleichverteilung auf [0, 1] verteilt sind, können
mit geeigneten Transformationen reellwertige Zufallsvariablen mit beliebigen anderen Verteilungen gewonnen werden.
Beispiel 2.13. Zur Beschreibung der Inversionsmethode sei angenommen, daß
F : R → (0, 1) eine stetige, streng monoton steigende Verteilungsfunktion ist 2.98.
Insbesondere besitzt F damit eine ebenfalls stetige und streng monoton steigende Umkehrfunktion F −1 : (0, 1) → R. Wenn nun U eine in (0, 1) gleichverteilte
Zufallsvariable ist, so gilt
P[F −1 (U ) ≤ y] = P[U ≤ F (y)] = F (y),
2.99
y ∈ R.
Damit ist der reellwertigen Zufallsvariablen
X = F −1 (U ) die vorgegebene Verteilungsfunktion FX = F zugeordnet.
Sei z.B. F die Verteilungsfunktion der Exponentialverteilung mit Parameter
1, d.h., F (x) = (1 − exp(−x))I[0,∞) (x), x ∈ R. F ist stetig und nach der Einschränkung auf [0, ∞) auch streng monoton wachsend mit Wertebereich [0, 1). Diese Einschränkung von F besitzt die Umkehrfunktion F −1 : [0, 1) → [0, ∞) mit
F −1 (x) = − log(1 − x), x ∈ [0, 1). Somit ist die Zufallsvariable − log(1 − U ) exponentiell verteilt mit Parameter 1, wenn U auf (0, 1) gleichverteilt ist 2.100.
Wenn allgemeiner U1 , U2 , . . . unabhängig, in (0, 1) gleichverteilt sind, so sind
die Zufallsvariablen F −1 (U1 ), F −1 (U2 ), . . . i.i.d. mit Verteilungsfunktion F . Insbesondere ist durch F −1 (x1 ), F −1 (x2 ), . . . eine Simulation einer Folge von i.i.d.
Zufallsvariablen mit der Verteilungsfunktion F gegeben, falls x1 , x2 , . . . eine Folge
von unabhängigen, in [0, 1] gleichverteilten“ Zufallszahlen ist 2.101.
”
Auf den üblichen Computern sind Zufallsgeneratoren meistens verfügbar, evtl.
als Teil des Betriebssystems oder im Rahmen von Softwarepaketen wie Maple,
Mathematica oder R. Mit solchen Zufallsgeneratoren werden Folgen von Pseudozufallszahlen in [0, 1] erzeugt, die anschließend für eine Verteilungsfunktion F in
2.96⊕w , bzw. ⊙w , bezeichnet die Vektoraddition in Fw , bzw. die Multiplikation mit einer
2
Matrix in F2w⊗w .
2.97x = (x
k
k;1 , . . . , xk;w ), k = 0, 1, 2, . . . . Die Koordinaten der Vektoren xk , k ∈ N, werden
als Koeffizienten für die Darstellung der Zahlen uk , k ∈ N, im Dualsystem benutzt.
2.98D.h., F habe die in Fußnote 2.32 aufgeführten Eigenschaften und sei darüberhinaus streng
monoton und stetig. In [13], Abschnitt 10.2, werden die Überlegungen dieses Beispiels auf allgemeine, nicht unbedingt stetige oder streng monotone Verteilungsfunktionen verallgemeinert.
2.99Die Funktion X = F −1 ◦ U ist als Verknüpfung einer stetigen Funktion F −1 mit einer
meßbaren Funktion U ebenfalls meßbar und somit eine Zufallsvariable, falls auf dem Bildraum R
von F −1 die Borelsche σ-Algebra B(R) benutzt wird, vgl. Beispiele 3.5 und 3.6.
2.100Mit einer Zufallsvariablen U ist offensichtlich auch die Zufallsvariable 1 − U in (0, 1)
gleichverteilt. Somit ist − log(U ) exponentiell verteilt mit Parameter 1.
2.101Beispielsweise können x , x , . . . Pseudozufallszahlen sein, wie sie in den Beispielen 2.11
1
2
und 2.12 beschrieben werden.
22. Juli 2014
21
eine Folge unabhängiger“, gemäß F verteilter Zufallszahlen transformiert werden
”
können 2.102.
Für Berechnungen, bei denen hohe Ansprüche an die Qualität 2.103 der Zufallsgeneratoren gestellt werden, können diese auch aus wissenschaftlichen SoftwareBibliotheken, wie z.B. der GNU Scientific Library (GSL) entnommen werden 2.104.
2.7.3. Quasizufallszahlen. Die bisher angesprochenen Pseudozufallszahlen, die
der Nachbildung“ von Zufallsvariablen dienen, sollten nicht mit den sog. Qua”
sizufallszahlen verwechselt werden 2.105. Hinter der Konstruktion einer Folge von
Quasizufallszahlen x1 , x2 , . . . , z.B. in [0, 1], steht die Absicht, die Diskrepanz
|{xi : i = 1, . . . , N, xi ∈ [0, u)}|
∗
− u, N ∈ N,
DN
(x1 , . . . , xN ) := sup N
u∈[0,1]
2.106
zu minimieren
, d.h., für derartige Folgen sollte der Unterschied zwischen der
relativen Anzahl von Folgengliedern, die in ein Intervall [a, b) ∈ [0, 1] fallen, und
der Länge von [a, b) gleichmäßig in a, b ∈ [0, 1] möglichst klein werden. Wenn Quasizufallszahlen im Rahmen von Quasi-Monte-Carlo-Methoden auf die gleiche Weise
verwendet werden wie Pseudozufallszahlen in Monte-Carlo-Methoden, können in
manchen Fällen wesentlich bessere Resultate erzielt werden 2.107.
Pseudozufallszahlen und Quasizufallszahlen unterscheiden sich gravierend. Einerseits ist die Diskrepanz von wahren“ Zufallszahlen oder von Pseudozufallszahlen
”
wesentlich größer als die von Quasizufallszahlen 2.108. Andererseits besitzen Quasizufallszahlen nicht die gleichen statistischen Eigenschaften wie wahre“ Zufallszahlen
”
oder Pseudozufallszahlen 2.109.
2.102Neben der in Beispiel 2.13 beschriebenen Inversionsmethode stehen zu diesem Zweck in
den gängigen Softwarepaketen üblicherweise noch andere Verfahren zur Verfügung.
2.103Insbesondere müssen evtl. die statistischen Eigenschaften wahrer “ Zufallszahlen gut
”
reproduziert werden. Wenn weiterhin viele Zufallszahlen benötigt werden, sollten diese schnell zur
Verfügung gestellt werden.
2.104Vgl. http://www.gnu.org/software/gsl/. Die GSL ist für Linux und in inoffiziellen
Versionen auch für etliche andere Betriebssysteme verfügbar. Neben verschiedenen auf der linearen Kongruenzmethode, vgl. Beispiel 2.11, basierenden Zufallsgeneratoren ist u.a. auch der
Mersenne Twister, vgl. Beispiel 2.12, implementiert. Weiterhin gibt es Befehle zur Simulation von
unabhängigen Zufallsvariablen mit einer vorgegebenen Verteilung wie der Normalverteilung, der
Exponentialverteilung, der Multinomialverteilung, der χ2 -Verteilung, . . . .
2.105
Vgl. [24].
2.106Folgen von Quasizufallszahlen werden daher auch Folgen mit niedriger Diskrepanz
genannt.
2.107Für die besten Folgen von Quasizufallszahlen wie z.B. Halton- oder Sobol-Folgen ist
∗ (x , . . . , x ) ≤ C log(N )/N , N ∈ N, für eine von der jew. Folge abhängige Konstante
DN
1
N
√
∗ (X , . . . , X ) ≃ 1/ N ,
C > 0. Aufgrund des Zentralen Grenzwertsatzes ist im Vergleich dazu DN
1
N
N → ∞, wenn Xn , n ∈ N, eine Folge von unabhängigen, in [0, 1] gleichverteilten Zufallsvariablen
ist. Bei der Monte-Carlo-Integration einer meßbaren, beschränkten Funktion h : [0, 1] → R, d.h.,
R
P
der Approximation von 01 dx h(x) durch (1/N ) N
k=1 h(Xk ), ergibt sich folglich ein Fehler der
√
Größenordnung 1/ N . Wenn hingegen eine der optimalen“ Folgen x1 , x2 , . . . von Quasizufalls”
P
zahlen verwendet wird, d.h., wenn bei der Quasi-Monte-Carlo-Integration (1/N ) N
k=1 h(xk ) als
R1
Approximation von 0 dx h(x) benutzt wird, ist der Fehler nur noch von der Größenordnung
log(N )/N .
2.108
Vgl. Fußnote 2.107. Dort ist Diskrepanz von hochwertigen Folgen von Quasizufallszahlen,
bzw. von unabhängigen, in [0, 1] gleichverteilten Zufallsvariablen angegeben.
2.109
Beispielsweise versagen Quasizufallszahlen bei Tests wie der in Fußnote 2.88 erwähnten
DieHarder-Testfamilie.
22. Juli 2014
KAPITEL 2
Maßtheoretische Grundlagen und einige Themen
der Wahrscheinlichkeitstheorie
3. Beiträge aus der Maßtheorie zur Lösung technischer Probleme in
der Wahrscheinlichkeitstheorie
Die Maßtheorie stellt wesentliche Grundlagen zur mathematisch rigorosen Behandlung wahrscheinlichkeitstheoretischer Probleme zur Verfügung. In diesem Abschnitt 3 wird ein Überblick über einige der in diesem Zusammenhang wichtigsten
Begriffsbildungen und Resultate gegeben.
3.1. Konstruktion von σ-Algebren. Wie das folgende Beispiel 3.1 demonstriert, ist im allgemeinen bei sehr großen Stichprobenräumen Ω die Potenzmenge
Pot(Ω) als σ-Algebra für wahrscheinlichkeitstheoretische Überlegungen ungeeignet.
Beispiel 3.1. Analog zu Beispiel 2.1 kann zur Modellierung des ∞-fachen, unabhängigen Wurfs einer fairen Münze der Stichprobenraum Ω = {0, 1}N = {ω =
(ωi )i∈N : ωi ∈ {0, 1}, i ∈ N} 3.1 verwendet werden 3.2. Auf Ω sei eine σ-Algebra F
von Ereignissen gegeben 3.3. Wegen der Fairness der Münze sollte ein vernünftiges
Wahrscheinlichkeitsmaß P auf (Ω, F) die Invarianzeigenschaft
(3.1a)
P[A] = P[Tn A],
A ∈ F, n ∈ N,
wobei
(3.1b)
Tn A = {Tn ω : ω ∈ A},
A ∈ F, n ∈ N,
mit
(3.1c)
Tn ω = (ω1 , . . . , ωn−1 , 1 − ωn , ωn+1 , . . . )
3.4
,
ω ∈ Ω, n ∈ N,
3.5
besitzen. Ein Satz von Vitali (1905) besagt, daß auf (Ω, Pot(Ω)) ein Wahrscheinlichkeitsmaß P mit den Eigenschaften (2.2) und (3.1) nicht existieren kann.
3.1.1. Allgemeine Vorgehensweise. Sei Ω ein gegebener Stichprobenraum und
sei F∗ eine Familie von Ereignissen, die in einer speziellen Anwendungssituation
wesentlich oder interessant erscheinen 3.6. Es gibt eine nichtleere Menge FF∗ von
3.1Ω ist die Menge aller {0, 1}-wertigen Folgen.
3.2
Das hier vorgestellte Modell kann auch angewandt werden in dem evtl. realistischeren
Fall einer endlichen Anzahl von unabhängigen Würfen einer fairen Münze, wobei allerdings die
genaue Anzahl der Würfe a priori nicht feststeht, sondern vom zufälligen Verlauf der Wurffolge
abhängt. Ein mögliches zu behandelndes Problem wäre die Bestimmung der Verteilung des ersten
Zeitpunkts, an dem zum zehnten Mal drei mal hintereinander Kopf geworfen worden ist.
3.3Es folgen nun Überlegungen zur Wahl von F.
3.4T ω ist eine Wurfsequenz, bei der im Vergleich zu ω beim n-ten Wurf das Ergebnis von 0
n
nach 1, bzw. von 1 nach 0 geändert ist.
3.5
Vgl. [10], Satz (1.5). In Anhang A.3.1 findet sich ein Beweis.
3.6Im Rahmen von Beispiel 3.1 könnte F die Menge jener Ereignisse sein, die durch endlich
∗
viele Würfe der Münze bestimmt sind, und damit die Gestalt {ω ∈ Ω : ω1 ∈ B1 , . . . , ωn ∈ Bn } ⊆
Ω = {0, 1}N haben, wobei Bk ⊆ {0, 1}, k = 1, . . . , n, n ∈ N.
23
24
σ-Algebren, die F∗ enthalten
(3.2)
3.7
, d.h., F ⊇ F∗ für alle F ∈ FF∗ . Nun ist
\
F
σ(F∗ ) =
F∈FF∗
ebenfalls eine σ-Algebra 3.8, und zwar die kleinste“ in FF∗ . Sie wird als die von F∗
”
erzeugte σ-Algebra bezeichnet und ist die minimale Erweiterung von F∗ zu einer
σ-Algebra.
Es werden nun drei wichtige Spezialfälle beschrieben, in denen das hier beschriebene allgemeine Verfahren zur Konstruktion einer σ-Algebra konkretisiert wird.
3.1.2. Produkte meßbarer Räume. 3.9 Sei (Ωλ , Fλ ), λQ∈ Λ, eine Familie meßbarer Räume 3.10. Endlich-dimensionale Rechtecke in 3.11 λ∈Λ Ωλ sind Mengen der
Gestalt 3.12
Y
ω = (ωλ )λ∈Λ ∈
Ωλ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm ,
λ∈Λ
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N.
Sei R die Menge aller dieser endlich-dimensionalen
Rechtecke. Die nun gemäß (3.2)
N
F
wird
als
Produkt-σ-Algebra bezeichnet.
konstruierte σ-Algebra σ(R) =:
Nλ∈Λ λ Q
nennt
man
das Produkt der meßbaren
F
Ω
,
Den meßbaren Raum
λ∈Λ λ
λ∈Λ λ
Räume (Ωλ , Fλ ), λ ∈ Λ. Wenn Ωλ = Ω, Fλ = F für alle λ ∈ Λ, verwendet man auch
die Notation (ΩΛ , F⊗Λ ) für diesen Produktraum 3.13.
3.1.3. Borelsche σ-Algebren. Sei (Ω, O) ein topologischer Raum 3.14. Die gemäß
(3.2) konstruierte σ-Algebra σ(O) =: B(Ω) heißt Borelsche σ-Algebra in Ω.
Sei O∗ ⊆ O, so daß jedes O ∈ O eine höchstens abzählbare Vereinigung von
Mengen in O∗ ist. Dann gilt B(Ω) = σ(O∗ ) 3.15.
3.7Beispielsweise ist Pot(Ω) ∈ F .
F∗
3.8Der Durchschnitt von beliebig vielen σ-Algebren erfüllt (2.1), ist also ebenfalls eine σ-
Algebra. Hingegen ist eine Vereinigung zweier σ-Algebren i. allg. keine σ-Algebra.
3.9Vgl. Fußnote 2.34.
3.10Λ ist eine beliebige, nichtleere Menge.
3.11Q
λ∈Λ Ωλ = {ω = (ωλ )λ∈Λ : ωλ ∈ Ωλ , λ ∈ Λ} ist das kartesische Produkt der Mengen
Ωλ , λ ∈ Λ.
3.12Vgl. Fußnote 3.6. Dort wird der Fall Ω = {0, 1}, F = Pot({0, 1}), λ ∈ Λ = N, betrachtet.
λ
λ
3.13Produkte meßbarer Räume wie z.B. ((Rd )[0,∞) , (B(Rd ))⊗[0,∞) ) finden bei der Untersuchung stochastischer Prozesse Verwendung, wenn (noch) keine Kenntnisse über Regularitätseigenschaften ihrer Pfade vorliegen. Derartige Produkträume sind Räume in denen alle Arten
von Pfaden ω = (ωt )t≥0 = (ω(t))t≥0 enthalten sind. Für detaillierte Untersuchungen sind sie oft
ungeeignet. Da beispielsweise die Menge {ω ∈ (Rd )[0,∞) : ω(t) = 0 für ein t ≥ 0} durch Eigenschaften in überabzählbar vielen Zeitpunkten beschrieben wird, gilt {ω ∈ (Rd )[0,∞) : ω(t) =
0 für ein t ≥ 0} ∈
/ (B(Rd ))⊗[0,∞) . Damit z.B. die Menge stetiger Pfade mit einer Nullstelle meßbar
wird, muß in (Rd )[0,∞) ein Teilraum mit einer geeigneten σ-Algebra als Pfadraum gewählt werden,
vgl. dazu Beispiel 3.2 und auch Abschnitt 4.5.2 zur Konstruktion der Brownschen Bewegung.
3.14 Ein topologischer Raum besteht aus einer Menge Ω und einer Topologie O auf Ω. Hierbei
ist O eine Familie von Teilmengen von Ω, die die Bedingungen
[
Oi ∈ O, i ∈ I =⇒
Oi ∈ O,
O1 , . . . , On ∈ O
=⇒
i∈I
n
\
i=1
Oi ∈ O
mit jeder beliebigen Menge I und n ∈ N erfüllt. Die Mengen O ∈ O werden offene Mengen genannt.
Ein Beispiel eines topologischen Raums ist Rd mit den üblichen offenen Mengen, die sich als
beliebige Vereinigungen von offenen Kugeln {x ∈ Rd : |x − a| < ε}, a ∈ Rd , ε > 0, ergeben.
3.15Da jede offene Menge in Rd schon als abzählbare Vereinigung offener Kugeln dargestellt
werden kann, ist insbesondere B(Rd ) die kleinste σ-Algebra, die alle offenen Kugeln in Rd umfaßt.
22. Juli 2014
25
Beispiel 3.2. Für T > 0 und d = 1, 2, . . . sei C([0, T ]; Rd ) die Menge der stetigen
Funktionen ω : [0, T ] → Rd . Mit der Metrik
(3.3)
ρ(ω, ω ′ ) = sup |ω(t) − ω ′ (t)|,
t≤T
ω, ω ′ ∈ C([0, T ]; Rd ),
wird C([0, T ]; Rd ) zu einem metrischen und damit insbesondere zu einem topologischen Raum. Daher kann in C([0, T ]; Rd) die Borelsche σ-Algebra B(C([0, T ]; Rd ))
eingeführt werden 3.16
Ein Beispiel einer Borelschen Menge in C([0, T ]; R) ist 3.17
(3.4)
{ω ∈ C([0, T ]; R) : ω(t) = 0 für ein t ∈ [0, T ]}
\
[
ω ∈ C([0, T ]; R) : ρ(ω, η) < q .
=
q∈Q,q>0 η∈PQ0 ([0,T ];R)
Hier wird mit PQ0 ([0, T ]; R) die Menge aller R-wertigen Polynome mit rationalen
Koeffizienten, die Nullstellen in [0, T ] besitzen, bezeichnet 3.18.
3.1.4. Durch Funktionen erzeugte σ-Algebren. Eine Menge Ω und einige Funktionen φ : Ω → R, φ ∈ Φ, seien gegeben. In einer Anwendung seien beispielsweise
ω ∈ Ω mögliche elementare Zustände der Welt“, die durch Funktionen φ ∈ Φ auf
”
Meßwerte“ in R abgebildet werden. Die einem Beobachter vorliegenden Meßwerte
”
3.19
seien zufällig“
.
”
Bei der Bildung eines mathematischen Modells sollte daher Ω mit der Struktur eines Wahrscheinlichkeitsraums versehen werden. Insbesondere sollte eine σAlgebra F konstruiert werden, so daß φ : (Ω, F) → (R, B(R)) 3.20, φ ∈ Φ, meßbare
Funktionen sind 3.21. Dieses Ziel wird erreicht mit F = σ(F∗ ) =: σ(Φ), wobei 3.22
F∗ = A ⊆ Ω : A = φ−1 (B) = {ω ∈ Ω : φ(ω) ∈ B}, φ ∈ Φ, B ∈ B(R) .
σ(Φ) ist die kleinste σ-Algebra, so daß alle φ : (Ω, F) → (R, B(R)), φ ∈ Φ, meßbar
sind. Man nennt σ(Φ) auch die durch die Abbildungen φ ∈ Φ erzeugte σ-Algebra.
Beispiel 3.3. Sei X = (Xt )0≤t<∞ ein auf (Ω, F, P) definierter reellwertiger stochastischer Prozeß. Zu jedem Zeitpunkt t ≥ 0 kennzeichnen die Zufallsvariablen
Xu , 0 ≤ u ≤ t, die Vergangenheit des Prozesses X. Die Gesamtheit der durch
die Vergangenheit von X bestimmten Ereignisse kann dann durch die σ-Algebra
FtX = σ(Xu , 0 ≤ u ≤ t) beschrieben werden 3.23. Da FsX ⊆ FtX ⊆ F, 0 ≤ s ≤ t <
3.16Der meßbare Raum (C([0, T ]; Rd ), B(C([0, T ]; Rd ))) findet bei der Untersuchung Rd -
wertiger stochastischer Prozesse X = (Xt )t∈[0,T ] mit stetigen Pfaden Verwendung. Zur Konstruktion der Brownschen Bewegung wird beispielsweise in Abschnitt 4.5.2 mit dem Wienermaß ein
Wahrscheinlichkeitsmaß auf (C([0, ∞); Rd ), B(C([0, ∞); Rd ))) eingeführt. Ein Vorschlag für eine
(3.3) verallgemeinernde Metrik in jenem Raum C([0, ∞); Rd ) findet sich übrigens in Fußnote 4.342.
3.17Offensichtlich ist die Menge auf der rechten Seite von (3.4) ein abzählbarer Durchschnitt
von abzählbaren Vereinigungen von offenen Mengen in C([0, T ]; R) und daher ein Element von
B(C([0, T ]; R)).
3.18In (3.4) wird benutzt, daß in jeder Umgebung (bzgl. der Metrik ρ) von ω ′ ∈ {ω ∈
C([0, T ]; R) : ω(t) = 0 für ein t ∈ [0, T ]} ein η ∈ PQ0 ([0, T ]; R) liegt.
3.19Diese Meßwerte sind Bilder φ(ω ∗ ), φ ∈ Φ, eines dem Beobachter verborgenen Zustandes
ω ∗ ∈ Ω. Der Beobachter kann die Meßwerte somit als zufällig“ interpretieren.
3.20Hier wird davon ausgegangen, daß B(R) die ”
natürliche“ σ-Algebra in R ist.
”
3.21Wenn dann in einem weiteren Schritt der Modellbildung
auf dem meßbaren Raum (Ω, F)
ein Wahrscheinlichkeitsmaß P konstruiert worden ist, werden damit die Funktionen φ ∈ Φ zu
Zufallsvariablen.
3.22F besteht aus den Urbildern von Borelschen Mengen in R unter den Abbildungen φ ∈ Φ.
∗
3.23In Fußnote 2.73 werden die σ-Algebren F X , t ≥ 0, zur Formulierung der Markovt
eigenschaft verwendet. Außerdem wird in Fußnote 2.74 mit diesen σ-Algebren die Martingaleigenschaft formuliert.
22. Juli 2014
26
∞, ist (FtX )0≤t<∞ eine aufsteigende Familie von σ-Algebren, d.h., eine Filtration.
(FtX )0≤t<∞ wird die vom stochastischen Prozeß X erzeugte Filtration genannt. 3.24.
3.2. Meßbare Funktionen. Zur Überprüfung der Meßbarkeit einer Abbildung φ ist oft die Verifizierung von (2.3) nicht möglich, da die σ-Algebren im
Urbildraum und im Bildraum von φ zu komplexe Strukturen besitzen. Dann kann
das folgende Resultat benutzt werden.
Satz 3.4. 3.25 Seien (Ω, F) und (Ω′ , F′ ) meßbare Räume und sei φ : Ω → Ω′ eine
Abbildung. Wenn F∗′ ⊆ F′ die σ-Algebra F′ erzeugt, d.h., wenn σ(F∗′ ) = F′ 3.26,
und wenn
(3.5)
φ−1 (A′ ) = {ω ∈ Ω : φ(ω) ∈ A′ } ∈ F,
so ist φ : (Ω, F) → (Ω′ , F′ ) meßbar
A′ ∈ F∗′ ,
3.27
.
Beispiel 3.5. Seien (Ω, O) und (Ω′ , O′ ) topologische Räume und f : Ω → Ω′ eine
stetige Funktion, d.h., f −1 (O′ ) = {ω ∈ Ω : f (ω) ∈ O′ } ∈ O, O′ ∈ O′ 3.28. Daher ist
f : (Ω, B(Ω)) → (Ω′ , B(Ω′ )) meßbar 3.29.
Beispiel 3.6. Die üblichen“ Kombinationen von meßbaren Funktionen sind im
”
allgemeinen auch wieder meßbare Funktionen 3.30.
• Seien f : (Ω, F) → (Ω′ , F′ ) und g : (Ω′ , F′ ) → (Ω′′ , F′′ ) meßbar. Dann ist
g(f ) = g ◦ f : (Ω, F) → (Ω′′ , F′′ ) meßbar.
• Seien fk : (Ω, F) → (R, B(R)), k = 1, . . . , n, und g : (Rn , B(Rn )) →
(R, B(R)) meßbar. Dann ist g(f1 , . . . , fn ) : (Ω, F) → (R, B(R)) meßbar 3.31.
• Seien fk : (Ω, F) → (R, B(R)), k ∈ N, meßbar 3.32. Dann sind inf k∈N fk ,
supk∈N fk , lim inf k→∞ fk , lim supk→∞ fk meßbare Funktionen mit Werten
in (R, B(R)) 3.33 3.34.
3.24Ein Ausblick auf allgemeinere Filtrationen und ihre Anwendungen in der Wahrscheinlichkeitstheorie wird in Abschnitt 3.9 gegeben.
3.25Vgl. [7], Section 1.2, Theorem (2.1).
3.26Vgl. Abschnitt 3.1.1.
3.27Die Meßbarkeitsbedingung (2.3) muß also nur für die Mengen A′ ∈ F ′ geprüft werden.
∗
3.28Die Stetigkeit einer Funktion ist dadurch definiert, daß das Urbild einer offenen Menge
offen ist. Die Analogie zur Definition der Meßbarkeit einer Funktion, vgl. (2.3), ist offensichtlich.
3.29Dies folgt aus der Tatsache, daß B(Ω) = σ(O), B(Ω′ ) = σ(O′ ), vgl. Abschnitt 3.1.3, und
aus Satz 3.4.
3.30
Vgl. [7], Section 1.2.
3.31Aufgrund von Beispiel 3.5 sind damit insbesondere auch Funktionen wie f + · · · + f ,
n
1
min{f1 , . . . , fn }, f1 · . . . · fn , . . . meßbar.
3.32Um Probleme mit der Konvergenz von Folgen von Funktionswerten gegen ±∞ zu umgehen, wird hier mit dem meßbaren Raum (R, B(R)) gearbeitet. Hierbei ist R = R ∪ {−∞, ∞} und
B(R) = σ(B(R), {−∞}, {∞}), d.h., B(R) ist die kleinste σ-Algebra, die die Mengen {−∞}, {∞}
und alle Borelschen Mengen B(R) enthält.
3.33Die Meßbarkeit von inf
k∈N fk und supk∈N fkSfolgt aus {inf k∈N fk < a} = {ω ∈ Ω :
S
inf k∈N fk (ω) < a} = k∈N {ω ∈ Ω : fk (ω) < a} = k∈N {fk < a}, bzw. {supk∈N fk > b} =
S
k∈N {fk > b}, der Tatsache, daß σ({[−∞, a) : a ∈ (−∞, ∞)}) = σ({(b, ∞] : b ∈ (−∞, ∞)}) =
B(R), und aus Satz 3.4. Aus diesen Beobachtungen und weil lim inf k→∞ fk = supn∈N inf k≥n fk ,
bzw. lim supk→∞ fk = inf n∈N supk≥n fk , folgt auch die Meßbarkeit der (R, B(R))-wertigen Funktionen lim inf k→∞ fk und lim supk→∞ fk .
3.34
Für meßbare Funktionen fk : (Ω, F) → (R, B(R)), k ∈ N, sind beispielsweise die Funktionen IR (inf k∈N fk ) inf k∈N fk , IR (supk∈N fk ) supk∈N fk , IR (lim inf k→∞ fk ) lim inf k→∞ fk und auch
IR (lim supk→∞ fk ) lim supk→∞ fk meßbar mit Werten in (R, B(R)).
22. Juli 2014
27
Sei φ : (Ω, F) → (Ω′ , F′ ) meßbar. Um die spezielle in Ω verwendete σ-Algebra
F hervorzuheben, nennt man φ auch F-meßbar oder meßbar bzgl. F 3.35. Wenn
außerdem auf die σ-Algebra F′ im Bildraum Ω′ hingewiesen werden soll, wird die
Bezeichnung F-F′ -Meßbarkeit benutzt.
3.3. Konstruktion von Wahrscheinlichkeitsmaßen. Typischerweise werden in Anwendungen der Wahrscheinlichkeitstheorie anfangs nicht für alle Elemente
einer σ-Algebra F sondern nur für eine Teilmenge gut beschreibbarer“ Ereignisse
”
Wahrscheinlichkeiten angegeben.
Beispiel 3.7. Bei der Konstruktion von Wahrscheinlichkeitsmaßen
Q
Nauf den meßbaren Räumen (Rd , B(Rd )), d ≥ 1, bzw. auf Produkten
λ∈Λ Ωλ ,
λ∈Λ Fλ meßbarer Räume 3.36 werden beispielsweise meistens zunächst die Wahrscheinlichkeiten
von halboffenen Rechtecken 3.37
(3.6a)
(a1 , b1 ] × · · · × (ad , bd ],
−∞ ≤ ak < bk ≤ ∞, k = 1, . . . , d,
bzw. von endlich-dimensionalen Rechtecken
Y
ω = (ωλ )λ∈Λ ∈
(3.6b)
Ωλ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm ,
λ∈Λ
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N,
spezifiziert.
Bei der Erweiterung einer Zuordnung von Wahrscheinlichkeiten für Mengen wie
in (3.6a), bzw.N(3.6b), zu einem Wahrscheinlichkeitsmaß auf der gesamten σ-Algebra
B(Rd ), bzw. λ∈Λ Fλ , ist der folgende Satz 3.8 ein wesentliches Hilfsmittel 3.38.
3.3.1. Allgemeine Vorgehensweise. Familien von Mengen wie in (3.6a),
Q bzw. in
(3.6b), bilden jeweils eine Semialgebra von Teilmengen in Rd , bzw. in λ∈Λ Ωλ .
Eine nichtleere Familie S von Teilmengen einer Menge Ω heißt hierbei Semialgebra, wenn
A, B ∈ S
(3.7a)
(3.7b) A ∈ S
=⇒
Ω\A =
m
[
i=1
=⇒
A ∩ B ∈ S,
Bi für ein m ∈ N und disjunkte B1 , . . . , Bm ∈ S.
Eine auf den Elementen einer Semialgebra S definierte Zuordnung von Wahrscheinlichkeiten kann unter gewissen Bedingungen in eindeutiger Weise zu einem
Wahrscheinlichkeitsmaß auf der von S erzeugten σ-Algebra σ(S) erweitert werden.
Satz 3.8. 3.39 Sei Ω eine Menge und S eine Semialgebra von Teilmengen von Ω
mit ∅, Ω ∈ S. Sei weiterhin eine Abbildung P∗ : S → [0, 1] gegeben mit
(3.8a)
P∗ [∅] = 0,
P∗ [Ω] = 1,
3.35In manchen Anwendungen sind in Ω verschiedene σ-Algebren, die unterschiedliche Klassen von Ereignissen zusammenfassen, gegeben. Im Zusammenhang mit zufälligen Zeitentwicklungen werden beispielsweise Filtrationen benutzt, vgl. Beispiel 3.3 und Abschnitt 3.9.
3.36Vgl. Abschnitt 3.1.2.
3.37Falls b = ∞, ist (a , b ] durch (a , b ) zu ersetzen.
k
k k
k k
3.38Zunächst ist natürlich überhaupt nicht klar, ob die hier angesprochene Erweiterung
überhaupt existiert, bzw. eindeutig ist.
3.39Satz 3.8 ist eine Zusammenfassung von Theorem (1.1), d.h., dem Satz von Carathéodory,
und Theorem (1.3) in [7], Appendix A.1. Es sei bemerkt, daß analog zu Satz 3.8 der Satz von
Carathéodory die Frage diskutiert, wann eine auf einer Algebra A ⊆ Pot(Ω), vgl. Fußnote 2.7,
definierte [0, 1]-wertige Abbildung auf eindeutige Weise zu einem Wahrscheinlichkeitsmaß auf σ(A)
fortgesetzt werden kann.
22. Juli 2014
28
(3.8b)
P∗
"m
[
i=1
#
Ai =
m
X
i=1
P∗ [Ai ],
A1 , . . . , Am ,
(3.8c)
P∗
"∞
[
i=1
#
Ai ≤
m
[
i=1
∞
X
i=1
Ai ∈ S, Ai ∩Aj = ∅, i, j = 1, . . . , m, i 6= j, m ∈ N,
P∗ [Ai ],
A1 , A2 , . . . ,
∞
[
i=1
Ai ∈ S, Ai ∩ Aj = ∅, i, j = 1, 2, . . . , i 6= j.
Dann läßt sich P∗ auf eine eindeutige Weise zu einem Wahrscheinlichkeitsmaß P
auf der von S erzeugten σ-Algebra σ(S) erweitern 3.40.
In den Situationen der folgenden Abschnitte 3.3.2 - 3.3.4 kann Satz 3.8 angewandt werden, um die eindeutige Existenz eines Wahrscheinlichkeitsmaßes mit
einer vorgegebenen Einschränkung auf Mengen wie in (3.6) sicherzustellen 3.41.
3.3.2. Lebesguemaß auf (0, 1]d . Für Mengen der Gestalt (3.6a) mit 0 ≤ ak <
bk ≤ 1, k = 1, . . . , d, sei 3.42
d
Y
(bk − ak ),
λ∗ (a1 , b1 ] × · · · × (ad , bd ] =
k=1
0 ≤ ak < bk ≤ 1, k = 1, . . . , d.
λ∗ kann mit Hilfe von Satz 3.8 zu dem Lebesguemaß λ auf ((0, 1]d , B((0, 1]d )) erweitert werden 3.43.
3.3.3. Wahrscheinlichkeitsmaße
mit einer Dichte auf Rd . Es sei eine Funktion
R
d
f ∈ Cb (R ; [0, ∞)) mit Rd dx f (x) = 1 3.44 gegeben. Sei
Z bd
Z b1
(3.9)
dxd f (x1 , . . . , xd ),
dx1 . . .
P∗,f (a1 , b1 ] × · · · × (ad , bd ] =
a1
ad
− ∞ ≤ ak < bk ≤ ∞, k = 1, . . . , d.
Unter Zuhilfenahme von Satz 3.8 kann P∗,f auf eindeutige Weise zu einem Wahrscheinlichkeitsmaß auf (Rd , B(Rd )) fortgesetzt werden 3.45 3.46.
3.40Satz 3.8 ist insbesondere ein Existenzresultat. Ein schon in Abschnitt 2.2.1 angesprochenes
Eindeutigkeitsresultat, vgl. [10], Satz (1.12), besagt, daß ein Wahrscheinlichkeitsmaß P auf einem
meßbaren Raum (Ω, F) durch seine Einschränkung auf ein Erzeugendensystem A von F, d.h. eine
Menge A ⊆ F mit F = σ(A), eindeutig bestimmt ist, sobald A durchschnittsstabil ist.
3.41
In allen Fällen wird (3.8a) offensichtlich gültig sein. Für die detaillierten Berechnungen
zur Verifizierung von (3.8b) und insbesondere von (3.8c) sei auf die entsprechende Literatur, z.B.
[7], Appendices A.1, A.6 und A.7, verwiesen.
3.42Für d-dimensionale Rechtecke R in (0, 1]d gibt λ (R) das Volumen an.
∗
3.43Vgl. [7], Appendix A.1, Theorem (1.6). Für den hier vorliegenden Fall ist F (x) =
Qd
d
k=1 Fk (xk ), x = (x1 , . . . , xd ) ∈ R , mit


0, falls y < 0,
Fk (y) = y, falls 0 ≤ y < 1, k = 1, . . . , d,


1, falls y ≥ 1,
zu verwenden.
3.44Da f stetig ist, können dieses und auch die Integrale in (3.9) als Riemann-Integrale
aufgefaßt werden.
3.45Insbesondere ist dann R dx f (x) für alle A ∈ B(Rd ) wohldefiniert. Für hinreichend
A
irreguläre A ∈ B(Rd ) brauchen diese Integrale nicht als Riemann-Integrale zu existieren.
3.46
Zur Integration beliebiger meßbarer reellwertiger Funktionen f auf (Rd , B(Rd )) und damit insbesondere zur Definition von Wahrscheinlichkeitsmaßen auf Rd mit beliebigen meßbaren
Dichten f bzgl. des Lebesguemaßes auf (Rd , B(Rd )) kann nach der Einführung des Lebesguemaßes
22. Juli 2014
29
3.3.4. Produkte von Wahrscheinlichkeitsräumen. 3.47 Sei (Ωλ , Fλ , Pλ ), λ ∈ Λ,
eine Familie von Wahrscheinlichkeitsräumen. Sei weiterhin
Y
m
Y
(3.10) P∗ ω = (ωλ )λ∈Λ ∈
=
Pλk [Aλk ],
Ωλ : ωλ1 ∈ Aλ1 , . . . , ωλm ∈ Aλm
k=1
λ∈Λ
{λ1 , . . . , λm } ⊆ Λ, Aλ1 ∈ Fλ1 , . . . , Aλm ∈ Fλm , m ∈ N.
N
Mit Satz 3.8 kann die eindeutige Existenz einer Fortsetzung
λ∈Λ Pλ von P∗
N
Q
auf den meßbaren RaumN3.48 ( λ∈Λ Ωλ , λ∈Λ Fλ ) nachgewiesen werden. Dieses
Wahrscheinlichkeitsmaß
λ wird Produktmaß genannt. Der WahrscheinlichQ
N λ∈Λ P
N
keitsraum ( λ∈Λ Ωλ , λ∈Λ Fλ , λ∈Λ Pλ ) ist das Produkt der Wahrscheinlichkeitsräume (Ωλ , Fλ , Pλ ), λ ∈ Λ. Wenn Ωλ = Ω, Fλ = F, Pλ = P für alle λ ∈ Λ,
verwendet man auch die Notation (ΩΛ , F⊗Λ , P⊗Λ ) für diesen Produktraum.
Beispiel 3.9. Eine Folge unabhängiger, identisch verteilter, reellwertiger Zufallsvariablen Xn , n ∈ N, wobei PX1 = µ 3.49 sei, ist zu konstruieren 3.50. Insbesondere
sind ein Wahrscheinlichkeitsraum (Ω, F, P) und Zufallsvariablen Xn : (Ω, F, P) →
(R, B(R)), n ∈ N, anzugeben, so daß für die Folge Xn , n ∈ N, die Beziehungen
m
Y
(3.11)
µ(Akl ),
P[Xk1 ∈ Ak1 , . . . , Xkm ∈ Akm ] =
l=1
{k1 , . . . , km } ⊆ N, Ak1 , . . . , Akm ∈ B(R), m ∈ N,
gelten.
Diese Konstruktionsaufgabe wird beispielsweise gelöst durch
∞
Y
(3.12)
Ω=
R = RN ,
F=
k=1
∞
O
3.51
B(R) = B(R)⊗N ,
k=1
P=
∞
O
µ = µ⊗N ,
k=1
wie in den Abschnitten 3.3.2 und 3.3.3 eine Approximationsmethode wie z.B. in Abschnitt 3.6.2
angewandt werden.
3.47
Vgl. dazu [7], Appendices A.6 und A.7, und [3], §9. Produkte von Wahrscheinlichkeitsräumen werden auch in Fußnote 2.45 angesprochen.
3.48Dieser meßbare Raum wird in Abschnitt 3.1.2 eingeführt.
3.49P
X1 ist die Verteilung von X1 , vgl. Abschnitt 2.2.1. µ ist ein gegebenes Wahrscheinlichkeitsmaß auf (R, B(R)).
3.50
Diese Konstruktionsaufgabe ist zu lösen, weil man auch in der Wahrscheinlichkeitstheorie
sicher sein muß, daß man sich mit real existierenden“ Objekten beschäftigt. In Anwendungen,
”
in denen unabhängige, identisch verteilte, reellwertige Zufallsvariablen eine Rolle spielen, kann
man sich dann auf deren eigentliche Untersuchung konzentrieren. Derartige Anwendungen sind
beispielsweise das Gesetz der großen Zahlen oder der Zentrale Grenzwertsatz in ihren einfachsten
Varianten, vgl. Abschnitte 4.1 und 4.2.
3.51Bei der Verifizierung von (3.11) ist
P[Xk1 ∈ Ak1 , . . . , Xkm ∈ Akm ] = P[{ω ∈ Ω : Xk1 (ω) ∈ Ak1 , . . . , Xkm (ω) ∈ Akm }]
= µ⊗N {ω ∈ Ω : ωk1 ∈ Ak1 , . . . , ωkm ∈ Akm }
(nach Definition von P und Xn , n ∈ N, in (3.12))
=
m
Y
µ(Akl )
l=1
(nach Definition von µ⊗N , vgl. (3.10))
zu beachten.
22. Juli 2014
30
Xn (ω) = ωn ,
ω = (ωk )k∈N ∈ Ω, n ∈ N.
3.4. Eigenschaften von Wahrscheinlichkeitsmaßen. Zunächst werden einige Eigenschaften vorgestellt, durch die sich einzelne Wahrscheinlichkeitsmaße auszeichnen. Beziehungen zwischen verschiedenen, auf demselben meßbaren Raum definierten Wahrscheinlichkeitsmaßen werden anschließend betrachtet.
3.4.1. Charakterisierung allgemeiner Wahrscheinlichkeitsmaße. Einige elementare, aber grundlegende Eigenschaften von Wahrscheinlichkeitsmaßen folgen direkt
aus den Bedingungen (2.2).
Satz 3.10. 3.52 Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A, B, A1 , A2 , · · · ∈
F. Dann gilt:
(1) P[∅] = 0.
(2) Endliche Additivität: P[A ∪ B] = P[A] + P[B] − P[A ∩ B].
(3) Monotonie: A ⊆ B S
=⇒ P[A]
P[B].
≤P
∞
∞
(4) σ-Subadditivität: P k=1 Ak ≤ k=1 P[Ak ].
(5) σ-Stetigkeit von unten: Ak ր A 3.53 =⇒ P[Ak ] ր P[A] 3.54.
(6) σ-Stetigkeit von oben: Ak ց A 3.55 =⇒ P[Ak ] ց P[A] 3.56.
3.4.2. Beziehungen zwischen verschiedenen Wahrscheinlichkeitsmaßen auf einem meßbaren Raum. Sei ein meßbarer Raum (Ω, F) gegeben. Zwei Wahrscheinlichkeitsmaße P und Q auf (Ω, F) unterscheiden sich gravierend“, wenn sie auf
”
verschiedenen Bereichen“ von (Ω, F) konzentriert sind, d.h., wenn ein A ∈ F exi”
3.57
stiert mit P[A] = 1 = Q[Ω\ A]
. Man bezeichnet dann P und Q als (zueinander)
singulär oder orthogonal und schreibt P ⊥ Q 3.58.
Im Gegensatz dazu ist ein Wahrscheinlichkeitsmaß P zu einem gewissen Grad“
”
durch ein Wahrscheinlichkeitsmaß Q bestimmt, wenn für alle A ∈ F die Bedingung
Q[A] = 0 zu P[A] = 0 führt. In diesem Fall nennt man P absolutstetig bzgl. Q und
schreibt P ≪ Q 3.59.
3.52Vgl. [10], Satz (1.11).
3.53D.h., A ⊆ A ⊆ . . . und A = S∞ A .
1
2
k=1 k
3.54
Diese Beziehung ergibt sich beispielsweise aus
#
"∞
∞
X
[
P[Al \ Al−1 ]
(Al \ Al−1 ) =
P[A] = P
l=1
l=1
= lim
k→∞
k
X
l=1
"
P[Al \ Al−1 ] = lim P
k→∞
k
[
#
(Al \ Al−1 ) = lim P[Ak ].
l=1
k→∞
Hierbei wurde A0 = ∅ gesetzt und die σ-Additivität (2.2b) und die endliche Additivität benutzt.
Weiterhin wurde beachtet, daß die Ereignisse Al \ Al−1 , l = 1, 2, . . . , disjunkt sind.
3.55D.h., A ⊇ A ⊇ . . . und A = T∞ A .
1
2
k=1 k
3.56
Mit Hilfe der in diesem Satz genannten Eigenschaften können z.B. auch die in Fußnote 2.32
aufgeführten Eigenschaften der Verteilungsfunktion FX einer reellwertigen Zufallsvariablen X
bewiesen werden. Sei z.B. für ein x ∈ R durch xn , n ∈ N, eine monoton fallende Folge mit
lim
T∞n→∞ xn = x gegeben. Sei dann Cn = {X ≤ xn }, n ∈ N. Da C1 ⊇ C2 ⊇ . . . und Ck ց C =
k=1 Ck = {X ≤ x} folgt
lim FX (xk ) = lim P[Ck ] = P[C] = FX (x),
k→∞
k→∞
falls die σ-Setigkeit von oben von P berücksichtigt wird. Damit ist die Rechtsstetigkeit von FX in
x nachgewiesen.
3.57In diesem Fall gilt auch P[Ω \ A] = 0 = Q[A].
3.58Ein diskretes Wahrscheinlichkeitsmaß P auf (R, B(R)) und ein Wahrscheinlichkeitsmaß
Q auf (R, B(R)) mit einer Dichte f bzgl. des Lebesguemaßes sind zueinander singulär. Dies folgt
aus der Tatsache,R daß es eine abzählbare Menge A = {an : n ∈ N} ⊂ R mit P[A] = 1 gibt und
daß andererseits B dx f (x) = 0 für alle abzählbaren Mengen B ⊂ R.
3.59Jedes Wahrscheinlichkeitsmaß auf (R, B(R)) mit einer Dichte bzgl. des Lebesguemaßes ist
absolutstetig bzgl. einer Normalverteilung N(µ, σ2 ), µ ∈ R, σ2 > 0.
22. Juli 2014
31
Bei zwei gegebenen Wahrscheinlichkeitsmaßen P und Q kann obigen Definitionen folgend geprüft werden, inwieweit P sich unterschiedlich zu Q verhält, bzw.
”
in welchem Umfang P durch Q bestimmt ist“.
Satz 3.11 (Lebesguesche Zerlegung und Satz von Radon-Nikodým). 3.60 Seien P
und Q Wahrscheinlichkeitsmaße auf einem meßbaren Raum (Ω, F). Dann gibt es
ein α ∈ [0, 1] und zwei Wahrscheinlichkeitsmaße Pa und Ps , so daß
(3.12.a.∗)
Pa ≪ Q,
Ps ⊥ Q
und
3.61
P = αPa + (1 − α)Ps .
Weiterhin existiert eine meßbare, Q-f.s. eindeutige Funktion f : (Ω, F) → ([0, ∞),
B([0, ∞))) mit 3.62
Z
f (ω)Q(dω), A ∈ F.
(3.12.b.∗)
Pa [A] =
A
Die Funktion f =: dPa /dQ wird als die Radon-Nikodým-Dichte von Pa bzgl.
Q bezeichnet 3.63.
3.5. Konvergenzbegriffe. In der Wahrscheinlichkeitstheorie werden etliche
unterschiedlich starke“ Konvergenzbegriffe verwendet. In den folgenden Abschnit”
ten 3.5.1 - 3.5.4 werden die wichtigsten beschrieben 3.64.
3.5.1. Stochastische Konvergenz. 3.65 Seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Folge Xn , n ∈ N,
konvergiert stochastisch oder in Wahrscheinlichkeit gegen X, wenn 3.66
lim P[|Xn − X| > ǫ] = 0,
n→∞
ǫ > 0.
P
Man schreibt dann auch 3.67 Xn → X.
3.5.2. Fast-sichere Konvergenz. 3.68 Seien X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P). Die Folge Xn , n ∈ N,
konvergiert fast sicher (f.s.) gegen X, wenn 3.69
hn
oi
P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n→∞
3.60Vgl. [18], Theorem 2.10. Dort wird Satz 3.11 für σ-endliche Maße, vgl. Fußnote 2.9, vorgestellt. Üblicherweise wird der erste Teil von Satz 3.11, vgl. (3.12.a.∗), als Lebesguesche Zerlegung
bezeichnet, während der zweite Teil, vgl. (3.12.b.∗), Satz von Radon-Nikodým heißt.
3.61P ist eine konvexe Kombination von P und P .
a
s
3.62R f (ω)Q(dω) ist das Integral der meßbaren Funktion I f : (Ω, F) → (R, B(R)) bzgl. des
A
A
Wahrscheinlichkeitsmaßes Q. Derartige Integrale, bzw. Erwartungswerte wurden in Abschnitt 2.3
erstmals vorgestellt und werden in den Abschnitten 3.6.1 und 3.6.2 detaillierter diskutiert, vgl.
insbesondere auch (3.21).
3.63Seien P und Q Wahrscheinlichkeitsmaße auf (R, B(R)) mit den Dichten f und g bzgl. des
Lebesguemaßes, wobei die Dichte g von Q strikt positiv sei. Dann ist P ≪ Q und dP/dQ = f /g.
3.64
Eine ausführlichere Diskussion der verschiedenen Konvergenzbegriffe ist in [18], Chapter 4, und in [12], Section 7.2, enthalten.
3.65
Dieser Konvergenzbegriff wird z.B. beim schwachen Gesetz der großen Zahlen benutzt,
vgl. Satz 4.1.
3.66Offensichtlich läßt sich dieser Konvergenzbegriff unmittelbar auf Folgen von Zufallsvariablen mit Werten in einem metrischen Raum verallgemeinern.
3.67Diese Notation erinnert an die englische Bezeichnung Convergence in Probability“.
3.68Dieser Konvergenzbegriff tritt u.a. beim starken Gesetz”der großen Zahlen in Erscheinung,
vgl. Satz 4.5.
3.69Die Menge {ω ∈ Ω : lim
n→∞ Xn (ω) = X(ω)} = A ist meßbar, d.h., P[{ω ∈ Ω :
limn→∞ Xn (ω) = X(ω)}] ist wohldefiniert. Die Meßbarkeit von A folgt aus der Darstellung
A = {lim supn→∞ Xn − lim inf n→∞ Xn = 0} ∩ {X − lim supn→∞ Xn = 0}, Beispiel 3.6 und
{0} ∈ B(R).
Insbesondere konvergieren reellwertige Zufallsvariablen Xn , n ∈ N, f.s. (gegen irgendeine
Zufallsvariable), wenn P[lim supn→∞ Xn − lim inf n→∞ Xn = 0] = 1.
22. Juli 2014
32
f.s.
Man schreibt dann auch Xn → X, f.s., oder Xn → X
3.70
.
Beispiel 3.12. Sei (Ω, F, P) = ([0, 1), B([0, 1)), λ), wobei λ das Lebesguemaß auf
[0, 1) bezeichnet. Sei Xk (ω) = I[m2−n ,(m+1)2−n ) (ω), ω ∈ [0, 1), falls k = 2n + m mit
m = 0, 1, . . . , 2n − 1 und n ∈ N0 . Der Graph dieser Zufallsvariablen ist eine Recht”
ecksfunktion“, die mit wachsendem n immer enger“ wird und mit steigendem m
”
von 0 nach rechts“ gegen 1 wandert und dann wieder nach 0 zurückspringt. Die
”
Folge Xn , n ∈ N, konvergiert stochastisch 3.71 aber nicht f.s. 3.72 gegen 0.
Satz 3.13. 3.73 Eine f.s. gegen eine Zufallsvariable X konvergente Folge von Zufallsvariablen Xn , n ∈ N, konvergiert auch stochastisch gegen X. Umgekehrt existiert zu
einer stochastisch gegen eine Zufallsvariable X konvergierenden Folge Xn , n ∈ N,
von Zufallsvariablen eine Teilfolge Xnk , k ∈ N, die f.s. gegen X konvergiert.
3.5.3. Konvergenz in Verteilung. 3.74 Die in den Abschnitten 3.5.1 und 3.5.2
vorgestellten Konvergenzbegriffe beziehen sich auf Zufallsvariablen Xn , n ∈ N, die
alle auf dem gleichen Wahrscheinlichkeitsraum (Ω, F, P) definiert sind. Wenn die
Zufallsvariablen Xn , n ∈ N, verschiedene Wahrscheinlichkeitsräume als Definitionsbereiche besitzen, ist das Konzept der Konvergenz in Verteilung nützlich.
Für n ∈ N sei Xn eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ωn , Fn , Pn ). Die Folge Xn , n ∈ N, konvergiert in Verteilung gegen eine
Zufallsvariable X, wenn 3.75 3.76
lim E[h(Xn )] = E[h(X)],
n→∞
Man schreibt dann auch
3.77
h ∈ Cb (R).
d
Xn → X.
3.70Wie durch die beiden folgenden Resultate belegt wird, ist im Vergleich zum stochastischen
der fast-sichere Konvergenzbegriff der stärkere. Damit sind die Bezeichnungen schwaches, bzw.
starkes Gesetz der großen Zahlen gerechtfertigt, vgl. Fußnoten 3.65 und 3.68.
3.71λ[{ω ∈ [0, 1) : |X (ω)| > ǫ}] = 2−n , falls k = 2n + m mit m = 0, 1, . . . , 2n − 1 und
k
ǫ ∈ (0, 1).
3.72
Zu einem festen ω ∈ [0, 1) gibt es beliebig große k, so daß Xk (ω) = 1, nämlich k =
2n + ⌊ω2n ⌋, n ∈ N. Ebenso ist Xk (ω) = 0 für beliebig große k.
3.73
Vgl. [18], Lemma 4.2. Ein Beweis dafür, daß die stochastische Konvergenz eine Folge der
fast-sicheren Konvergenz ist, ist in Anhang A.3.2 zu finden. Der Nachweis, daß eine stochastisch
konvergente Folge von Zufallsvariablen eine fast-sicher konvergente Teilfolge besitzt, wird mit Hilfe
des Lemmas von Borel-Cantelli, vgl. Satz 5.1, in Anhang A.5.1 geführt.
3.74Dieser Konvergenzbegriff findet z.B. beim Zentralen Grenzwertsatz Verwendung, vgl.
Satz 4.10.
3.75Offensichtlich kann diese Definition unverändert auf Folgen X , n ∈ N, von Zufallsvarian
blen mit Werten in einem topologischen Raum (O, O), vgl. Fußnote 3.14, übertragen werden. Dann
werden beschränkte, stetige, reellwertige Funktionen h ∈ Cb (O) als Testfunktionen verwendet.
3.76
Der Erwartungswert E[ . ], der im Rest dieses Abschnitts 3.5 mehrmals benutzt werden wird, wurde auf einem elementaren Niveau in Abschnitt 2.3 eingeführt. Eine ausführlichere
Diskussion folgt in Abschnitt 3.6.
3.77Diese Notation erinnert an Convergence in Distribution“.
”
22. Juli 2014
33
Zur Verifizierung dieser Konvergenz kann in speziellen Fällen der folgende
Satz 3.14 verwendet werden. In diesem Resultat werden insbesondere auch charakteristische Funktionen ψY reellwertiger Zufallsvariablen Y benutzt 3.78 3.79.
Satz 3.14. 3.80 Für reellwertige Zufallsvariablen X, Xn , n ∈ N, sind die folgenden
Aussagen äquivalent:
(1)
(2)
(3)
(4)
d
Xn → X.
limn→∞ PXn [A] = PX [A], A ∈ B(R), PX [∂A] = 0 3.81
limn→∞ FXn (y) = FX (y), y ∈ R, FX stetig in y 3.83.
limn→∞ ψXn (y) = ψX (y), y ∈ R.
3.82
.
Das nächste Resultat ergänzt Satz 3.13 bei der Verdeutlichung der Zusammenhänge zwischen den verschiedenen Konvergenzbegriffen.
Satz 3.15. 3.84 Eine stochastisch gegen eine Zufallsvariable X konvergente Folge
von Zufallsvariablen Xn , n ∈ N, konvergiert auch in Verteilung gegen X.
Satz 3.13 und Satz 3.15 lassen sich zusammenfassen in
(3.13)
f.s.
Xn → X
P
Xn → X
=⇒
d
Xn → X.
=⇒
Es ist bemerkenswert, daß (3.13) umkehrbar ist, falls man bereit ist, seine mathematischen Überlegungen in einen anderen Wahrscheinlichkeitsraum zu verlegen.
Satz 3.16 (Skorohod).
3.86
blen
d
3.85
Seien Xn , n ∈ N, und X reellwertige Zufallsvaria-
e P)
e F,
e und
mit Xn → X. Dann gibt es einen Wahrscheinlichkeitsraum (Ω,
3.78Für eine reellwertige Zufallsvariable Y ist ihre charakteristische Funktion ψ : R → C
Y
durch
ψY (z) = E[exp(izY )],
z ∈ R,
definiert. Wenn die Verteilung PY der Zufallsvariable Y eine Dichte f bzgl. des Lebesguemaßes
besitzt, so hat ψY die Darstellung
ψY (z) =
Z
dx exp(izx)f (x),
R
z ∈ R.
Die charakteristische Funktion entspricht somit der Fouriertransformierten.
Ausführlicher werden charakteristische Funktionen z.B. in Anhang A.4.1 oder in [12], Sections 5.7 - 5.9, besprochen.
3.79
In Anhang A.4.2 treten charakteristische Funktionen als wesentliches Hilfsmittel beim
Beweis des Zentralen Grenzwertsatzes 4.10 in Erscheinung. Insbesondere wird die Äquivalenz
zwischen (1) und (4) in Satz 3.14 verwendet.
3.80
Vgl. [12], Section 5.9, Theorem (5), und [18], Theorem 4.25.
3.81∂A = A ∩ (R \ A) ist der Rand der Menge A. Durch P [∂A] = 0 wird gefordert, daß f.s.
X
die Zufallsvariable X keine Werte in ∂A annimmt.
3.82
Die Einschränkung PX [∂A] = 0 wird plausibel, falls z.B. X(ω) = 0 und Xn (ω) = 1/n,
d
n ∈ N, für alle ω ∈ Ω. Da limn→∞ h(1/n) = h(0), h ∈ Cb (R), ist Xn → X. Weiterhin sitzt in 0
ein Atom von PX und es gilt limn→∞ PXn [(0, a]] = 1 6= 0 = PX [(0, a]], a > 0.
3.83F ist die Verteilungsfunktion der Zufallsvariablen Y , vgl. Abschnitt 2.2.1.
Y
3.84Vgl. [18], Lemma 4.7.
3.85Vgl. [16], Chapter I, Theorem 2.7.
3.86Die Wahrscheinlichkeitsräume, auf denen diese Zufallsvariablen definiert sind, sind
zunächst irrelevant.
22. Juli 2014
34
e P)
en , n ∈ N, und X
e auf (Ω,
e F,
e mit P e = PXn ,
reellwertige Zufallsvariablen X
Xn
f.s.
e 3.88 3.89.
en → X
n ∈ N, und P e = PX 3.87, so daß X
X
3.5.4. Konvergenz im p-ten Mittel, p ∈ [1, ∞). Sei p ∈ [1, ∞). Außerdem seien
X und Xn , n ∈ N, reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum
(Ω, F, P), wobei E[|Xn |p ] < ∞, n ∈ N 3.90. Die Folge Xn , n ∈ N, konvergiert im
p-ten Mittel oder in Lp 3.91 gegen X, wenn
lim E[|Xn − X|p ] = 0.
n→∞
Lp
Man schreibt dann auch Xn → X 3.92.
Insbesondere zu einer genaueren Charakterisierung der Konvergenz im p-ten
Mittel für p ∈ [1, ∞) ist der folgende Integrabilitätsbegriff hilfreich.
3.87X
en , n ∈ N, und X
e haben die gleiche Verteilung wie Xn , n ∈ N, bzw. X.
3.88In [16] wird Satz 3.16 für Zufallsvariablen mit Werten in einem vollständigen, separablen
metrischen Raum (S, m) formuliert. Diese Verallgemeinerung kann z.B. bei der Untersuchung ei(n)
ner Folge reellwertiger, stetiger stochastischer Prozesse X(n) = (Xt )t∈[0,T ] , n ∈ N, in einem
Zeitintervall [0, T ] angewandt werden, da derartige stochastische Prozesse auch als Zufallsvariablen mit Werten in dem metrischen Raum (C([0, T ]; R), ρ), der in Beispiel 3.2 vorgestellt wurde,
betrachtet werden können. Insbesondere kann die Konvergenz von X(n) in Verteilung mit einem
geeigneten Wahrscheinlichkeitsraum als fast-sicher gleichmäßige Konvergenz der Pfade“ realisiert
”
werden.
3.89
Satz 3.16 besagt keineswegs, daß sich (3.13) völlig bedenkenlos umkehren läßt. Beispielsweise sind zunächst folgende Argumente korrekt:
(A) Seien X und Xn , n ∈ N, unabhängige, identisch verteilte Zufallsvariablen auf einem
d
Wahrscheinlichkeitsraum (Ω, F, P). Offensichtlich gilt Xn → X. Nach Satz 3.16 gibt es
e P)
e F,
e und darauf definierte Zufallsvariablen
daher einen Wahrscheinlichkeitsraum (Ω,
e und X
en , n ∈ N, die alle die Verteilung PX besitzen, mit X
en f.s.
e
X
→ X.
Offensichtlich wäre aber die Folgerung,
(B) unabhängige, identisch verteilte Zufallsvariablen Xn , n ∈ N, sind f.s. konvergent, sobald
e P)
e definiert,
e F,
man sie auf einem geeigneten Wahrscheinlichkeitsraum (Ω,
e P)
e F,
e die Zuunsinnig. In (B) wird nicht berücksichtigt, daß in (A) nach dem Übergang zu (Ω,
en , n ∈ N, nur dann noch unabhängig sein können, wenn sie f.s. konstant sind.
fallsvariablen X
en , n ∈ N, auch f.s. konvergent sind,
In der Tat, wenn reellwertige, i.i.d. Zufallsvariablen X
ergeben formale Überlegungen, daß
e1 ∈ A] = P[X
ek ∈ A]
P[X
ek ∈ A, X
em ∈ A]
≃ P[X
ek ∈ A]P[X
em ∈ A]
= P[X
e1 ∈ A]2 ,
= P[X
en , n ∈ N, konvergent ist)
(für k, m hinreichend groß, da X
ek und X
em unabhängig sind)
(da X
A ⊆ R offen.
e1 ∈ A] = 0 oder 1 folgt, zeigt sich, daß X
e1 , X
e2 , . . . fast-sicher
Da für alle offenen A ⊆ R hieraus P[X
konstant sind.
3.90E[|X |p ] < ∞, n ∈ N, besagt, daß X ∈ Lp (Ω, F, P), n ∈ N, wobei Lp (Ω, F, P) der
n
n
Banachraum der p-fach integrierbaren, reellwertigen Funktionen auf (Ω, F, P) ist.
3.91Der zugrundeliegende Wahrscheinlichkeitsraum (Ω, F, P) wird als bekannt oder irrelevant
vorausgesetzt und anstelle von Lp (Ω, F, P) nur von Lp gesprochen.
3.92Im Fall dieser Konvergenz ist neben den Zufallsvariablen X , n ∈ N, auch der Limes
n
X ∈ Lp (Ω, F, P), d.h., E[|X|p ] < ∞, vgl. Fußnote 3.90.
22. Juli 2014
35
Eine Familie 3.93 Yλ , λ ∈ Λ, reellwertiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) heißt gleichgradig integrierbar, wenn 3.94 3.95
lim sup E[|Yλ |I{|Yλ |≥M} ] = 0.
M→∞ λ∈Λ
Satz 3.17. 3.96 Sei p ∈ [1, ∞). Eine stochastisch gegen eine Zufallsvariable X
konvergente Folge von reellwertigen Zufallsvariablen Xn , n ∈ N, auf einem Wahrscheinlichkeitsraum (Ω, F, P) konvergiert genau dann auch im p-ten Mittel, wenn
die Zufallsvariablen |Xn |p , n ∈ N, gleichgradig integrierbar sind, oder wenn 3.97
lim E[|Xn |p ] = E[|X|p ].
n→∞
Umgekehrt gilt:
3.98 3.99
Lp
Xn → X
(3.14)
=⇒
P
Xn → X.
Lr
Lr
′
Falls Xn → X für ein r ∈ (1, ∞), so gilt auch Xn → X für alle r′ ∈ [1, r)
3.100
.
3.93Λ ist eine beliebige Menge.
3.94Ein Beispiel einer nicht gleichgradig integrierbaren Folge von Zufallsvariablen auf dem
Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), λ) mit dem Lebesguemaß λ auf (0, 1] ist durch Xn =
nI(0,1/n] , n ∈ N, gegeben. Für festes M > 0 und n ≥ M gilt in diesem Fall E[|Xn |I{|Xn |≥M } ] =
R
n 01/n dx = 1, d.h., limM →∞ supn∈N E[|Xn |I{|Xn |≥M } ] = 1.
3.95
Aufgrund von [18], Lemma 4.10, ist die Menge der Zufallsvariablen Yλ , λ ∈ Λ, genau
dann gleichgradig integrierbar, wenn
sup E[|Yλ |] < ∞
und
λ∈Λ
lim
sup E[|Yλ |IA ] = 0,
sup
ǫ→0 {A∈F:P[A]<ǫ} λ∈Λ
d.h., wenn die Einschränkungen von Yλ , λ ∈ Λ, auf bzgl. P kleine“ Mengen A ∈ F gleichmäßig
”
kleine“ Beiträge zum Erwartungswert der jeweiligen Zufallsvariable |Yλ | liefern.
”
3.96Vgl. [18], Proposition 4.12.
3.97In dieser Bedingung wird die Vertauschbarkeit von lim
n→∞ . . . und E[ . ] gefordert.
Möglichkeiten zu ihrer Überprüfung eröffnen z.B. der Satz von der monotonen Konvergenz, vgl.
Satz 3.18(3), bzw. der Satz von der dominierten Konvergenz, vgl. Satz 3.24.
3.98Zum Beweis von (3.14) kann auf die Markov-Ungleichung, vgl. Abschnitt 3.6.3(1), mit
f (x) = |x|p , x ≥ 0, zurückgegriffen werden. Insbesondere ist P[|Xn − X| > ǫ] ≤ E[|Xn − X|p ]/ǫp ,
n ∈ N, ǫ > 0.
3.99
Aufgrund von (3.13) und (3.14) drängt sich die Frage nach einem Zusammenhang zwischen fast-sicherer Konvergenz und Konvergenz im p-ten Mittel auf. Beim Vergleich dieser beiden
Konvergenzbegriffe kann einerseits berücksichtigt werden, daß die fast-sichere Konvergenz die stochastische Konvergenz impliziert, vgl. Satz 3.13, und dann zur Prüfung der Lp -Konvergenz der
erste Teil von Satz 3.17 herangezogen werden.
Andererseits gibt es beispielsweise in dem Wahrscheinlichkeitsraum ([0, 1], B([0, 1]), λ), wobei
λ das Lebesguemaß bezeichnet, jeweils Folgen Xn , n ∈ N, von Zufallsvariablen, die
• in L1 aber nicht f.s., bzw.
• f.s. aber nicht in L1
gegen eine Zufallsvariable X konvergieren. Solche Folgen sind in Beispiel 3.12, bzw. in Fußnote 3.94
beschrieben. In beiden Fällen ist X(.) ≡ 0.
3.100Wendet man die Höldersche Ungleichung, vgl. Abschnitt 3.6.3(4), mit p = r/r ′ und
q = r/(r − r ′ ) an, so folgt
′
′
E[|Xn − X|r ] = E[|Xn − X|r · 1]
≤ E[|Xn − X|r
′
(r/r ′ ) r ′ /r
]
′
E[1r/(r−r ) ](r−r
22. Juli 2014
′
)/r
= E[|Xn − X|r ]r
′
/r
.
36
3.6. Integrationstheorie. 3.101 Zunächst werden einige grundlegende Eigenschaften des Erwartungswerts E[X] von reellwertigen Zufallsvariablen X festgehalten. Anschließend wird die Erweiterung des Erwartungswerts von diskreten auf
beliebige reellwertige Zufallsvariablen diskutiert. Weiterhin wird auf einige in vielen
Bereichen der Wahrscheinlichkeitstheorie nützliche Ungleichungen für Wahrscheinlichkeiten und Erwartungswerte hingewiesen. Letztendlich wird auf die Berechnung
von Erwartungswerten von Zufallsvariablen, die auf Produkten von Wahrscheinlichkeitsräumen definiert sind, eingegangen.
3.6.1. Rechenregeln für Erwartungswerte. Die folgenden Eigenschaften gelten
für den Erwartungswert beliebiger reellwertiger Zufallsvariablen. Zu ihrem Beweis
kann zunächst mit diskreten Zufallsvariablen gearbeitet werden 3.102. Bei beliebigen reellwertigen Zufallsvariablen können dann im Rahmen eines Grenzübergangs
diskrete Approximationen verwendet werden 3.103.
Satz 3.18. Seien X, Y , X1 , X2 , . . . , Y1 , Y2 , . . . reellwertige Zufallsvariablen auf
einem Wahrscheinlichkeitsraum (Ω, F, P), die einen Erwartungswert besitzen 3.104.
(1) Monotonie. Ist X ≤ Y , f.s. 3.105, so gilt
E[X] ≤ E[Y ].
(2) Linearität. Sei c ∈ R. Dann ist
E[cX] = cE[X]
und außerdem
3.106
E[X + Y ] = E[X] + E[Y ].
(3) σ-Additivität des Erwartungswerts, bzw. SatzPvon der monotonen Kon∞
vergenz. Wenn Xn ≥ 0, f.s., n ∈ N, und X = k=1 Xk , f.s., so ist 3.107
E[X] =
∞
X
E[Xk ].
k=1
3.108
, so folgt 3.109 3.110
lim E[Yk ] = E lim Yk = E[Y ].
Wenn Yk ր Y , f.s.,
k→∞
k→∞
3.101
Bisher wurde der Erwartungswert für reellwertige Zufallsvariablen nur auf einem elementaren Niveau, d.h., für diskrete Zufallsvariablen eingeführt, vgl. Abschnitt 2.3. Andererseits
wurde insbesondere in den Abschnitten 3.5.3 und 3.5.4 der Erwartungswert E[X] für beliebige
reellwertige Zufallsvariablen X benutzt. Die hierbei entstandenen Lücken sollen nun geschlossen
werden.
3.102Vgl. [10], Satz (4.7).
3.103Vgl. [10], Satz (4.11). Die genannten Approximationen X
(n) , n ∈ N, für reellwertige
Zufallsvariablen X werden in (3.15) vorgestellt.
3.104Diskrete Zufallsvariablen besitzen einen (endlichen) Erwartungswert, wenn sie integrabel sind, d.h., wenn (2.7) erfüllt ist. In Abschnitt 3.6.2 wird beschrieben, wann eine beliebige
reellwertige Zufallsvariable einen Erwartungswert besitzt. Im allgemeinen kann dieser auch +∞
oder −∞ sein.
3.105D.h., P[{ω ∈ Ω : X(ω) ≤ Y (ω)}] = 1.
3.106Hier muß allerdings E[X] = +∞, E[Y ] = −∞, bzw. E[X] = −∞, E[Y ] = +∞, ausgeschlossen werden, was bei Berücksichtigung von Abschnitt 3.6.2 möglich wäre. In diesen Fällen ist
E[X + Y ] nicht definiert.
3.107Für diskrete Zufallsvariablen X, X , X , . . . wird diese Beziehung in Anhang A.3.3 be1
2
wiesen.
3.108D.h., Y ≤ Y ≤ . . . , f.s., und lim
1
2
k→∞ Yk = Y , f.s.
3.109
In Abschnitt 3.7 wird auf das Vertauschen von limn→∞ . . . “ und E[ . ]“ näher einge”
”
gangen.
3.110
Zum Beweis dieser Beziehung, dem Satz von der monotonen Konvergenz, setze X1 = 0,
P
P
X2 = Y2 −Y1 , X3 = Y3 −Y2 , . . . . Damit ist Yk = Y1 + kn=1 Xn und limk→∞ Yk = Y1 + ∞
n=1 Xn .
22. Juli 2014
37
(4) Produktregel für unabhängige Zufallsvariablen
abhängig. Dann gilt
3.111
. Seien X und Y un-
E[XY ] = E[X]E[Y ].
Alle in Satz 3.18 vorkommenden Erwartungswerte sind wohldefiniert
3.112
.
3.6.2. Erwartungswert für allgemeine, reellwertige Zufallsvariablen. Für eine
beliebige Zufallsvariable 3.113 X : (Ω, F, P) → (R, B(R)) wird durch 3.114
1
(3.15)
X(n) (ω) = ⌊nX(ω)⌋, ω ∈ Ω, n ∈ N,
n
eine Folge diskreter Zufallsvariablen X(n) , n ∈ N, definiert. Da 3.115
1
, n ∈ N,
n
wird bei n → ∞ die Zufallsvariable X durch X(n) beliebig genau approximiert.
X(n) ≤ X ≤ X(n) +
(3.16)
Satz 3.19. 3.116 Sei X : (Ω, F, P) → (R, B(R)) eine Zufallsvariable und X(n) , n ∈
N, die gemäß (3.15) definierte approximierende Folge. Wenn dann für ein n0 ∈ N
die Zufallsvariable X(n0 ) integrabel ist 3.117, d.h., einen endlichen Erwartungswert
besitzt, so sind alle X(n) , n ∈ N, integrabel 3.118. In diesem Fall ist E[X(n) ], n ∈ N,
eine Cauchy-Folge 3.119.
Aufgrund von Satz 3.19 kann in Erweiterung von Abschnitt 2.3 eine Zufallsvariable X dann durch einen endlichen Erwartungswert charakterisiert werden, wenn
eine und damit alle Approximationen X(n) , n ∈ N, integrabel sind. In einem solchen
Fall wird X als integrabel bezeichnet. Der Erwartungswert von X kann nun durch
(3.17)
E[X] := lim E[X(n) ]
n→∞
Da Xn ≥ 0, n ∈ N, kann nun das zuvor angegebene Resultat, die σ-Additivität des Erwartungswerts, zusammen mit der Linearität des Erwartungswerts angewandt werden. Insbesondere gilt:
"
#
k
k
X
X
lim E[Yk ] = lim E Y1 +
Xn = lim E[Y1 ] +
E[Xn ]
k→∞
k→∞
= E[Y1 ] +
n=1
∞
X
n=1
k→∞
"
E[Xn ] = E[Y1 ] + E
n=1
∞
X
#
"
Xn = E Y 1 +
n=1
∞
X
n=1
#
Xn = E lim Yk .
k→∞
3.111Die Unabhängigkeit von Zufallsvariablen wurde in Abschnitt 2.2.2 definiert, vgl. (2.6).
3.112Insbesondere besitzen auch die Zufallsvariablen cX, X + Y und XY einen Erwartungs-
wert. Für X + Y müssen hierbei die in Fußnote 3.106 beschriebenen Fälle ausgeschlossen werden.
3.113
X braucht nicht unbedingt eine diskrete Zufallsvariable zu sein.
3.114Die Zufallsvariablen X
(n) , n ∈ N, bilden eine X von unten approximierende Folge, d.h.,
für n ∈ N ist X(n) die größte diskrete Zufallsvariable, die Werte k/n, k ∈ Z, annimmt und
kleiner oder höchstens gleich X ist. Für jedes n ist X(n) eine Diskretisierung von X mit der
Schrittweite 1/n.
3.115Aus
nX(n) (ω) = ⌊nX(ω)⌋ ≤ nX(ω) ≤ ⌊nX(ω)⌋ + 1 = nX(n) (ω) + 1,
ω ∈ Ω,
folgt (3.16) nach Division durch n.
3.116Vgl. [10], Lemma (4.9).
3.117Es soll also (2.7) für X
(n0 ) gelten.
3.118Diese Behauptung ergibt sich aus der Tatsache, daß X
(n) genau dann integrabel ist,
wenn E[|X(n) |] < ∞ ist, vgl. Abschnitt 2.3, der Monotonie des Erwartungswerts für diskrete
−1 }, die
Zufallsvariablen, vgl. Satz 3.18(1), und der Abschätzung |X(n) | ≤ |X(n0 ) | + max{n−1
0 ,n
−1
eine Konsequenz der aus (3.16) folgenden Beziehungen X(n) ≤ X(n0 ) + n−1
≤
|X
|
+
n
(n0 )
0
0 und
−1
−1
X(n0 ) ≤ X(n) + n , d.h., −X(n) ≤ |X(n0 ) | + n
ist.
3.119Dies folgt aus der Abschätzung |E[X
−1 , n−1 }, m, n ∈ N, die
(n) ] − E[X(m) ]| ≤ max{m
sich durch Überlegungen wie in Fußnote 3.118 aus (3.16) ergibt.
22. Juli 2014
38
definiert werden.
Beispiel 3.20. Die Verteilung einer reellwertigen Zufallsvariable X habe eine Dichte f bzgl. des Lebesguemaßes, d.h.,
PX [A] = P[X ∈ A] =
X sei integrabel, d.h., es gelte
3.120
(3.18)
Z
∞
−∞
Z
dx f (x),
A
A ∈ B(R).
dx |x|f (x) < ∞.
Dann folgt
E[X] =
3.121
=
3.122
=
3.123
=
3.124
=
3.125
lim E[X(n) ]
n→∞
∞
X
k
k
P X(n) =
n→∞
n
n
k=−∞
|
{z
}
= PX [k/n, (k + 1)/n)
Z
∞
X
k (k+1)/n
dx f (x)
lim
n→∞
n k/n
k=−∞
Z ∞
1
lim
dx ⌊xn⌋ f (x)
n→∞ −∞
n
| {z }
→ x, falls n → ∞
Z ∞
dx xf (x).
lim
−∞
3.120Nach (2.7) und Satz 3.19 ist zu prüfen, ob
∞>
∞ ∞
X
X
k k+1
k
|k|
k P X∈
,
=
P X(n0 ) =
n0
n0
n
n0 n0
k=−∞
k=−∞ 0
Z
Z ∞
∞
X |k| (k+1)/n0
|⌊xn0 ⌋|
dx f (x) =
dx
f (x)
=
n
n0
−∞
k=−∞ 0 k/n0
für ein n0 ∈ N. Da
|x| −
1
|⌊xn⌋|
1
≤
≤ |x| + ,
n
n
n
ist X genau dann integrabel, wenn (3.18) gilt.
22. Juli 2014
x ∈ R, n ∈ N,
39
Etwas allgemeiner, für eine Rd -wertige Zufallsvariable X mit Dichte f 3.126 und
d
Reine meßbare Funktion H : R → R ist die Zufallsvariable H(X) integrabel, wenn
dx |H(x)|f (x) < ∞. In diesem Fall ist
Rd
Z
dx H(x)f (x).
(3.19)
E[H(X)] =
Rd
Für eine positive Zufallsvariable kann man in einer Verallgemeinerung des bisher
benutzten Begriffs des Erwartungswerts 3.127 die Definition E[X] := ∞ einführen,
wenn E[X(n) ] = ∞ 3.128 für ein, d.h., aufgrund von Satz 3.19 für alle n ∈ N.
Für eine beliebige reellwertige Zufallsvariable X gibt es die Zerlegung X =
X+ −X− , wobei X+ = max{X, 0} und X− = max{−X, 0}. Da X+ und X− positive
Zufallsvariablen sind, ist nun der Erwartungswert von X auf eine eindeutige Weise
durch
(3.20)
E[X] := E[X+ ] − E[X− ]
definierbar 3.129 3.130, wenn nicht E[X+ ] = E[X− ] = ∞ 3.131. Insbesondere besitzt eine Zufallsvariable X genau dann einen endlichen Erwartungswert E[X], wenn 3.132
E[X+ ] + E[X− ] = E[|X|] < ∞, d.h., wenn X integrabel ist 3.133.
3.121Nach (3.17), wobei die Zufallsvariablen X
(n) , n ∈ N, in (3.15) definiert sind.
3.122
Hier wird die Definition des Erwartungswerts für diskrete Zufallsvariablen benutzt, vgl.
Abschnitt 2.3. Außerdem findet die Tatsache, daß X(n) die Werte k/n, k ∈ Z, jeweils mit der
Wahrscheinlichkeit P[X ∈ [k/n, (k + 1)/n)] annimmt, Verwendung.
3.123
Da PX die Dichte f bzgl. des Lebesguemaßes in R hat.
3.124
Da k = ⌊xn⌋, sobald x ∈ [k/n, (k + 1)/n).
3.125
Nach dem Satz von der dominierten Konvergenz, vgl. Satz 3.24. Dieser Satz wird hier
angewandt für reellwertige Zufallsvariablen Yn , n ∈ N, und Y auf dem Wahrscheinlichkeitsraum
(R, B(R), PX ), wobei Yn (ω) = ⌊ωn⌋/n, ω ∈ R, n ∈ N, und Y (ω) = ω, ω ∈ R. Da limn→∞ Yn = Y ,
f.s., und |Yn | ≤ |Y | + 1, f.s., n ∈ N, mit E[|Y |] < ∞, folgt
Z ∞
Z ∞
1
lim
dx ⌊xn⌋f (x) = lim E[Yn ] = E[Y ] =
dx xf (x).
n→∞ −∞
n→∞
n
−∞
In diesen Argumenten beziehen sich natürlich f.s.“ und E[ . ]“ auf das Wahrscheinlichkeitsmaß
”
”
PX auf (R, B(R)).
Für x ∈ R ist die Folge ⌊x2n ⌋2−n , n ∈ N, monoton steigend. Somit kann hier auch mit
dem Satz von der monotonen Konvergenz, vgl. Satz 3.18(3), gearbeitet werden, wenn anstelle der
approximierenden Zufallsvariablen X(n) , n ∈ N, die Folge X(2n ) , n ∈ N, benutzt wird.
3.126Hiermit ist gemeint, daß die Verteilung P von X die Dichte f : Rd → [0, ∞) hat.
X
3.127Bisher wurde E[X] im wesentlichen nur für integrable Zufallsvariablen eingeführt. Auf
die Tatsache, daß für positive, diskrete Zufallsvariablen immer auf eindeutige Weise ein Erwartungswert definiert werden kann, wurde in Abschnitt 2.3 vor Beispiel 2.7 hingewiesen.
3.128In diesem Fall sollte also P
x∈X
(Ω) x P[X(n) = x] = ∞ sein. Diese Summe ist wohl(n)
definiert, weil X(n) (Ω) ⊂ [0, ∞).
3.129Die Werte ∞ oder −∞ für E[X] sind nun möglich.
3.130
In (3.20) scheint die Linearität des Erwartungswerts, vgl. Satz 3.18(2), ausgenutzt zu
werden. Letztendlich kann man jedoch (3.20) auch als eine Einführung jener Linearität für nichtintegrable Zufallsvariablen durch eine Definition betrachten.
3.131Für eine Zufallsvariable X mit einer Cauchy-Verteilung und damit mit einer Dichte
f (x) = a/(π(a2 + x2 )), x ∈ R, für ein a > 0 gilt E[X+ ] = E[X− ] = ∞. Daher ist in diesem Fall
E[X] nicht definiert.
3.132Offensichtlich ist |X| = X + X .
+
−
3.133Bisher wurde eine Zufallsvariable X als integrabel bezeichnet, wenn die diskreten Approximationen X(n) , n ∈ N, integrabel sind, d.h., wenn E[|X(n) |] < ∞, n ∈ N, vgl. auch (2.7)
und (2.8). Nun impliziert (3.16), daß |X(n) | − 1/n ≤ |X| ≤ |X(n) | + 1/n, n ∈ N, d.h., es gilt
E[|X(n) |] < ∞, n ∈ N, genau dann, wenn E[|X|] < ∞.
22. Juli 2014
40
Für eine reellwertige Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω,
F, P) werden gelegentlich auch die Schreibweisen 3.134
Z
E[X] = 3.135
(3.21)
P(dω) X(ω)
Ω
Z
= 3.136
PX (dx) x
R
verwendet. Als Verallgemeinerung von (3.19) wird weiterhin die Beziehung
Z
PX (dx)H(x)
(3.22)
E[H(X)] =
3.137
Rd
benutzt, falls die beiden Seiten von (3.22) für eine meßbare Funktion H : Rd → R
wohldefiniert sind 3.138.
3.6.3. Ungleichungen für Wahrscheinlichkeiten und Erwartungswerte. Oft werden in wahrscheinlichkeitstheoretischen Überlegungen keine exakten Wahrscheinlichkeiten oder Erwartungswerte benötigt, sondern nur evtl. relativ einfach zu bestimmende Abschätzungen. Zu diesem Zweck sind in der Wahrscheinlichkeitstheorie
viele verschiedene Ungleichungen abgeleitet worden. Die folgende Liste enthält einige der bekannteren.
(1) Markov-Ungleichung. 3.139 Sei X eine reellwertige Zufallsvariable und f :
[0, ∞) → [0, ∞) eine monoton wachsende Funktion mit f (x) > 0 für x > 0.
Dann gilt 3.140
P[|X| ≥ ǫ] ≤
E[f (|X|)]
,
f (ǫ)
ǫ > 0.
Speziell, wenn f (x) = x2 , ergibt sich hieraus die
(2) Čebyšev-Ungleichung 3.141, d.h.,
P[|X| ≥ ǫ] ≤
E[X 2 ]
,
ǫ2
ǫ > 0.
(3) Jensensche Ungleichung. 3.142 Sei X eine reellwertige Zufallsvariable und
φ : R → R eine konvexe Funktion 3.143, so daß X und φ(X) integrabel
3.134Durch diese Schreibweisen wird zum Ausdruck gebracht, daß die Abbildung X → E[X]
die Eigenschaften eines abstrakten Integrals besitzt. Insbesondere ist diese Zuordnung ein DaniellIntegral, d.h., eine spezielle, hinreichend reguläre, lineare Abbildung auf einem geeigneten Funktionenraum, vgl. [27], Chapter 13. Mit dem Konzept der Daniell-Integrale ist ein alternativer
Zugang zur üblichen Maß- und Integrationstheorie möglich.
3.135E[X] ist das Integral der reellwertigen Funktion X auf dem Wahrscheinlichkeitsraum
(Ω, F, P).
3.136
Durch diese Notation wird verdeutlicht, daß E[X] nur von der Verteilung PX von X
abhängt, vgl. (2.8) und Fußnote 2.51.
3.137
Offensichtlich ist (3.22) auch eine Verallgemeinerung der Darstellung von E[X] in (3.21).
3.138Wenn eine der beiden Seiten von (3.22) wohldefiniert ist, so ist dies auch die andere
Seite.
3.139Vgl. [10], Proposition (5.4).
3.140Da f (|X|) ≥ 0, ist der Erwartungswert auf der rechten Seite immer definiert, wobei auch
E[f (|X|)] = ∞ möglich ist, vgl. Abschnitt 3.6.2. In diesem Fall allerdings ist die Ungleichung
nutzlos.
3.141Vgl. [10], Korollar (5.5).
3.142Vgl. [7], Appendix A.5, (5.1).
3.143D.h., es gilt λφ(x) + (1 − λ)φ(y) ≥ φ(λx + (1 − λ)y), x, y ∈ R, λ ∈ [0, 1].
22. Juli 2014
41
sind. Dann gilt
3.144
φ(E[X]) ≤ E[φ(X)].
(4) Höldersche Ungleichung. 3.145 Seien p, q ∈ (1, ∞) mit p−1 + q −1 = 1 und
seien X und Y reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit E[|X|p ] < ∞, bzw. E[|Y |q ] < ∞. In diesem Fall
folgt
p
p
q
p
E[|XY |] ≤ E[|X|p ] E[|Y |q ].
Im Fall p = q = 2 wird diese Ungleichung auch Cauchy-Schwarzsche
Ungleichung genannt.
(5) Minkowski-Ungleichung. 3.146 Sei p ∈ [1, ∞) und seien X und Y reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit
E[|X|p ] + E[|Y |p ] < ∞. Damit folgt 3.147
p
p
p
p
p
p
E[|X + Y |p ] ≤ E[|X|p ] + E[|Y |p ].
3.6.4. Integration auf Produkten von Wahrscheinlichkeitsräumen. Zur konkreten Berechnung des Erwartungswerts einer reellwertigen Zufallsvariable X auf einem Produkt 3.148 (Ω1 × ΩR2 , F1 ⊗ F2 , P1 ⊗ P2 ) von Wahrscheinlichkeitsräumen ist
es hilfreich, wenn E[X] = Ω1 ×Ω2 (P1 ⊗ P2 )(dω)X(ω) 3.149 mit Hilfe von Integralen
bzgl. P1 und P2 bestimmt werden kann. Es gilt:
Satz 3.21 (Satz von Fubini). 3.150 Seien (Ω1 , F1 , P1 ) und (Ω2 , F2 , P2 ) Wahrscheinlichkeitsräume und X eine reellwertige Zufallsvariable auf (Ω1 × Ω2 , F1 ⊗ F2 , P1 ⊗
P2 ). Falls 3.151 X ≥ 0, P1 ⊗ P2 -f.s., oder wenn E[|X|] < ∞ 3.152, so ist 3.153
Z
(3.23)
(P1 ⊗ P2 )(dω)X(ω)
E[X] =
Ω1 ×Ω2
3.144Zum Beweis der Jensenschen Ungleichung kann aufgrund der Konvexität von φ eine
lineare Funktion ℓ : x → ax + b, x ∈ R, so gewählt werden, daß sich die Graphen von ℓ und φ im
Punkt (E[X], φ(E[X])) berühren. Insbesondere gilt dann
(∗)
ℓ(E[X]) = φ(E[X]),
ℓ(x) ≤ φ(x), x ∈ R,
so daß sich
E[φ(X)] ≥ E[ℓ(X)] = ℓ(E[X]) = φ(E[X])
ergibt. Hier wurden der zweite Teil von (∗) und die Monotonie des Erwartungswerts, vgl.
Satz 3.18(1), die Linearität von ℓ und des Erwartungswerts, vgl. Satz 3.18(2), und letztendlich der
erste Teil von (∗) verwendet.
3.145Vgl. [7], Appendix A.5, (5.2).
3.146Vgl. [7], Appendix A.5, Exercise 5.3.
3.147Diese Ungleichung ist die Dreiecksungleichung im Banachraum Lp (Ω, F, P) = {X :
p
p
(Ω, F, P) → (R, B(R)) : X meßbar, kXkp < ∞} mit der Norm kXkp =
E[|X|p ].
3.148Produkte von Wahrscheinlichkeitsräumen werden in Abschnitt 3.3.4 eingeführt. Für die
Indexmenge Λ aus jenem Abschnitt gilt nun Λ = {1, 2}.
3.149Diese Schreibweise wurde in (3.21) eingeführt.
3.150Vgl. z.B. [7], Appendix A.6, Theorem (6.2). Dort wird der Satz von Fubini für σ-endliche
Maße, vgl. Fußnote 2.9, vorgestellt.
3.151Wegen der Linearität des Erwartungswerts, vgl. Satz 3.18(2), gilt (3.23) natürlich auch
wenn X ≤ 0, P1 ⊗ P2 -f.s.
3.152D.h., X ist integrabel.
3.153
Beim Beweis von (3.23), vgl. [7], Appendix A.6, ist zunächst zu prüfen, ob die Integrale in
der zweiten und dritten Zeile in (3.23) wohldefiniert sind. Dazu ist nachzuweisen, daß Funktionen
wie X1ω2 : (Ω1 , F1 ) → (R, B(R)), ω2 ∈ Ω2 , mit X1ω2 (ω1 ) = X(ω1 , ω2 ), ω1 ∈ Ω1 , ω2 ∈ Ω2 , oder
R
X 1 : (Ω2 , F2 ) → (R, B(R)) mit X 1 (ω2 ) = Ω P1 (dω1 )X(ω1 , ω2 ), ω2 ∈ Ω2 , meßbar sind. Hierzu
1
kann insbesondere auch mit dem π-λ-Theorem, vgl. Satz 5.5, gearbeitet werden.
Anschließend kann (3.23) zuerst für diskrete Zufallsvariablen, vgl. Abschnitt 2.3, und dann
durch Approximation für beliebige Zufallsvariablen verifiziert werden.
22. Juli 2014
42
Z
P1 (dω1 )
=
P2 (dω2 )X(ω1 , ω2 )
Ω1
Ω2
Z
Z
P2 (dω2 )
P1 (dω1 )X(ω1 , ω2 ) .
=
Z
Ω2
Ω1
Satz 3.21 zeigt, daß in Mehrfachintegralen die Integrationsreihenfolge häufig,
aber nicht bedenkenlos vertauscht werden kann.
Beispiel 3.22. 3.154 Sei (Ω1 , F1 , P1 ) = (R, B(R), µ1 ) und (Ω2 , F2 , P2 ) = (R, B(R),
µ2 ), wobei µ1 die Gleichverteilung auf (0, 1) 3.155 und µ2 die Verteilung mit der
Dichte 3.156 exp(−(x − 1))I[1,∞) (x), x ∈ R, ist. Außerdem sei X(ω1 , ω2 ) = exp(ω2 −
1)(exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )), (ω1 , ω2 ) ∈ Ω1 × Ω2 . In diesem Fall sind die Voraussetzungen von Satz 3.21 nicht erfüllt, d.h., die Zufallsvariable X ist weder positiv 3.157 noch integrabel 3.158. Letztendlich kann die Integrationsreihenfolge nicht
vertauscht werden, denn 3.159
Z
Z
P1 (dω1 )
P2 (dω2 )X(ω1 , ω2 )
Ω1
=
=
Z
Ω2
1
dω1
0
3.160
Z
Z
∞
1
1
dω1
0
bzw.,
Z
Ω2
Z
P2 (dω2 )
Ω1
∞
dω2 exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )
1
exp(−ω1 ) − exp(−2ω1 ) >
ω1
3.161
0,
P1 (dω1 )X(ω1 , ω2 )
Z
dω1 exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )
1
0
Z ∞
1
− exp(−ω2 ) + exp(−2ω2 ) < 0.
=
dω2
ω2
1
=
Z
dω2
1
3.154Dieses Beispiel entspricht Example 6.2 in [7], Appendix A.6.
3.155µ hat somit die Dichte I
1
(0,1) auf R.
3.156µ ist eine um 1 nach rechts verschobene Exponentialverteilung“.
2
”
3.157Man beachte,
daß
exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )
3.158
Z
Ω1 ×Ω2
≥
=
< 0,
falls ω1 ω2 > log 2,
falls ω1 ω2 < log 2.
Da
(P1 ⊗ P2 )(dω)|X(ω)|
Z
(P1 ⊗P2 )(dω)X(ω)
{(ω1 ,ω2 )∈Ω1 ×Ω2 :ω1 ω2 >log 2}
Z ∞
1
Z
dω1
log 2/ω1
0
=
(
> 0,
Z
0
1
dω1
(da X(ω1 , ω2 ) > 0, falls ω1 ω2 > log 2)
dω2 exp(−ω1 ω2 ) − 2 exp(−2ω1 ω2 )
(wegen Satz 3.21)
1
1 = ∞.
−
2ω1
4ω1
{z
}
|
= 1/(4ω1 )
3.159
Obwohl X nicht integrabel ist, sind die beiden nun folgenden Doppelintegrale, die sich
in der Integrationsreihenfolge unterscheiden, endlich.
3.160Da | exp(−ω ) − exp(−2ω )| ≤ C|ω |, ω ∈ (0, 1), ist (0, 1) ∋ ω → (1/ω )(exp(−ω ) −
1
1
1
1
1
1
1
exp(−2ω1 )) eine bzgl. des Lebesguemaßes auf (0, 1) integrable Funktion.
3.161
Da exp(−ω1 ) − exp(−2ω1 ) = exp(−ω1 )(1 − exp(−ω1 )) > 0, ω1 > 0.
22. Juli 2014
43
3.7. Erwartungswerte für Limiten von Zufallsvariablen. Es gibt Zufallsvariablen X, die als Limiten X = limn→∞ Xn für eine Folge Xn , n ∈ N, von
Zufallsvariablen in Erscheinung treten. Bei der Abschätzung, bzw. der Berechnung
von E[X] für solche Zufallsvariablen können neben dem Satz von der monotonen
Konvergenz 3.162 oder Satz 3.17 3.163 auch die beiden folgenden Resultate nützlich
sein.
Satz 3.23 (Lemma von Fatou). 3.164 Sei Xn , n ∈ N, eine Folge reellwertiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit
n ∈ N.
Xn ≥ 0, f.s.,
Dann gilt
E lim inf Xn ≤ lim inf E[Xn ].
n→∞
n→∞
Satz 3.24 (Satz von der dominierten Konvergenz). 3.165 Seien X, Xn , n ∈ N,
reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit
(3.24)
lim Xn = X, f.s.
n→∞
Es gebe eine Zufallsvariable Z ≥ 0 mit E[Z] < ∞ und
|Xn | ≤ Z, f.s.,
(3.25)
Dann gilt
3.166 3.167
n ∈ N.
lim E[Xn ] = E lim Xn = E[X].
(3.26)
n→∞
n→∞
Beispiel 3.25. Auf dem Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), λ) seien die positiven Zufallsvariablen X, Xn , n ∈ N, durch X ≡ 0 und Xn = nI(0,1/n] , n ∈ N,
definiert 3.168. Offensichtlich gilt (3.24), während (3.25) für keine positive, integrable Zufallsvariable Z erfüllt ist. Da E[Xn ] = 1, n ∈ N, und E[X] = 0, gilt auch
(3.26) nicht. E[ . ] und limn→∞ . . . dürfen also nie leichtfertig vertauscht werden.
3.162Vgl. Satz 3.18(3).
3.163Für reellwertige, integrable Zufallsvariablen X und Y auf einem Wahrscheinlichkeits-
raum (Ω, F, P) gilt |E[X] − E[Y ]| = |E[X − Y ]| ≤ E[|X − Y |] als Konsequenz der Jensenschen
Ungleichung, vgl. Abschnitt 3.6.3, angewandt auf die konvexe Funktion R ∋ z → |z| und die
Zufallsvariable X − Y . Daher folgt limn→∞ E[Xn ] = E[X] für Zufallsvariablen X und Xn , n ∈ N,
L1
mit limn→∞ E[|Xn − X|] = 0, d.h., mit Xn → X.
3.164
Vgl. [7], Appendix A.5, Theorem (5.4).
3.165Vgl. [7], Appendix A.5, Theorem (5.6).
3.166Wenn Satz 3.24 auf die Zufallsvariablen |X| und |X |, n ∈ N, angewandt wird, folgt
n
limn→∞ E[|Xn |] = E[|X|]. Somit kann mit Satz 3.13 und Satz 3.17 sogar die Konvergenz in L1 ,
d.h., limn→∞ E[|Xn − X|] = 0, gefolgert werden.
3.167
Durch eine zweimalige Anwendung des Lemmas von Fatou läßt sich (3.26) leicht beweisen. Aufgrund von (3.25) sind die Zufallsvariablen Z + Xn , Z − Xn , n ∈ N, positiv, so daß bei
Beachtung von (3.24) zunächst
E[Z + X] ≤ lim inf E[Z + Xn ] = E[Z] + lim inf E[Xn ]
n→∞
n→∞
und
E[Z − X] ≤ lim inf E[Z − Xn ] = E[Z] − lim sup E[Xn ]
n→∞
n→∞
folgen. Hieraus ergibt sich
lim inf E[Xn ] ≥ E[X] ≥ lim sup E[Xn ],
n→∞
n→∞
und damit (3.26) als Konsequenz.
3.168Diese Zufallsvariablen wurden auch in den Fußnoten 3.94 und 3.99 betrachtet, wo im
wesentlichen dieses Beispiel schon vorweggenommen wurde.
22. Juli 2014
44
3.8. Bedingte Erwartungswerte. Sei X eine reellwertige, integrable Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P). Sei weiterhin A eine
Teil-σ-Algebra von F.
Eine A-meßbare Zufallsvariable Y heißt bedingte Erwartung von X bzgl. A, falls
E[Y IA ] = E[XIA ],
(3.27)
A ∈ A.
In diesem Fall findet die Schreibweise Y = E[X|A] Verwendung. Gleichbedeutend
mit (3.27) ist die Bedingung
(3.28)
E[Y Z] = E[XZ],
Z beschränkte, reellwertige Zufallsvariable auf (Ω, A, P).
(3.27) und (3.28) besagen, daß die Projektionen“ von X, bzw. Y = E[X|A]
”
auf Ereignisse A ∈ A oder auf Zufallsvariablen, die nur von diesen Ereignissen
abhängen, übereinstimmen.
Der bedingte Erwartungswert Y = E[X|A] von X existiert eindeutig 3.169 und
ist ebenfalls integrabel 3.170.
3.169Die Existenz kann mit Hilfe des Satzes von Radon-Nikodým, vgl. Satz 3.11 und Fußnote 3.60, nachgewiesen werden. Sei z.B. X eine positive, integrable Zufallsvariable auf (Ω, F) und
sei
(∗)
PX
A [A] := E[XIA ] =
Z
X(ω)P(dω),
A
A ∈ A.
X
Offensichtlich ist PX
A ein endliches Maß auf (Ω, A) mit PA ≪ PA , wobei mit PA die Einschränkung von P auf (Ω, A) gemeint ist. Somit existiert eine (Ω, A)-meßbare, positive Funktion,
X
die Radon-Nikodým-Dichte dPX
A /dPA von PA bzgl. PA , mit
(∗1 )
PX
A [A] =
Z
A
dPX
A
dPA
(ω)PA (dω) = E[(dPX
A /dPA )IA ],
A ∈ A.
Aufgrund von (∗) und (∗1 ) ist (3.27) durch Y = dPX
A /dPA erfüllt. Für eine beliebige reellwertige,
integrable Zufallsvariable X = X+ − X− sind diese Argumente getrennt auf den Positivteil X+
und den Negativteil X− von X anzuwenden.
Zum Beweis der Eindeutigkeit seien Y und Y ′ zwei A-meßbare Zufallsvariablen, die (3.27) zu
der vorgegebenen Zufallsvariable X erfüllen. Zu ǫ > 0 sei nun Aǫ = {Y − Y ′ ≥ ǫ}. Da Aǫ ∈ A, gilt:
ǫP[Aǫ ] ≤ E[(Y − Y ′ )IAǫ ] = E[XIAǫ ] − E[XIAǫ ] = 0. Somit ist P[Aǫ ] = 0, ǫ > 0, d.h., Y ≤ Y ′ ,
f.s. Da ebenso Y ′ ≤ Y , f.s., gezeigt werden kann, folgt Y = Y ′ , f.s.
3.170
Mit A = {Y > 0} ∈ A gilt
E[|Y |IA ] = E[Y IA ] = E[XIA ] ≤ E[|X|IA ],
bzw.
E[|Y |IΩ\A ] = E[(−Y )IΩ\A ] = E[(−X)IΩ\A ] ≤ E[|X|IΩ\A ],
und daher E[|Y |] ≤ E[|X|] < ∞, womit die Integrabilität von Y gezeigt ist, vgl. Abschnitt 3.6.2
und insbesondere Fußnote 3.133.
22. Juli 2014
45
Beispiel 3.26. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und A∗ = {Ak : k ∈ N}
eine Partition von (Ω, F, P) 3.171. Weiterhin sei A = σ(A∗ ) 3.172. Für eine integrable, reellwertige Zufallsvariable X auf (Ω, F, P) gilt in dieser speziellen Situation 3.173 3.174 3.175
∞
X
E[XIAk ]
.
(3.29)
E[X|A] =
IAk
P[Ak ]
k=1
Beispiel 3.27. Sei E[|X|2 ] < ∞, d.h., X ∈ L2 (Ω, F, P) 3.176. In diesem Fall ist Y =
E[X|A] die orthogonale Projektion von X in L2 (Ω, F, P) auf den linearen Unterraum
L2 (Ω, A, P) aller A-meßbaren und bzgl. P quadratintegrablen Funktionen 3.177.
3.171{A : k ∈ N} ist eine Partition von (Ω, F, P), wenn
k
Ak ∈ F, P[Ak ] > 0,
∞
[
k ∈ N,
k, l ∈ N, k 6= l,
Ak ∩ Al = ∅,
Ak = Ω.
k=1
3.172A = σ(A ) ist die kleinste, A enthaltende σ-Algebra, vgl. Abschnitt 3.1.1. Da A eine
∗
∗
∗
S
abzählbare Partition von (Ω, F, P) ist, ist B ∈ A genau dann, wenn B = l∈NB Al , wobei NB ⊆ N.
P
∞
3.173Offensichtlich ist die rechte Seite ξ =
k=1 IAk E[XIAk ]/P[Ak ] von (3.29) meßbar bzgl.
S
A. Für alle A = l∈NA Al ∈ A, vgl. Fußnote 3.172, gilt außerdem (3.27), d.h.,
" ∞
!#
!
X
X
E[XIAk ]
IAk
E[ξIA ] = E
IAl
P[Ak ]
k=1
l∈NA
#
"
X
E[XIAl ]
IAl
(da Ak ∩ Al = ∅, k 6= l)
=E
P[Al ]
l∈NA
!#
"
X
X
E[XIAl ]
E[IAl ]
=
IAl
= E[XIA ].
=E X
| {z } P[Al ]
l∈NA
l∈NA
= P[Al ]
P
Die zweimalige Vertauschung von l∈NA . . . und E[ . ] ist aufgrund des Satzes von Fubini möglich,
vgl. Satz 3.21 und Fußnote 3.150.
3.174
Anschaulich besagt (3.29), daß im vorliegenden speziellen Fall E[X|A](ω) für ω ∈ Ω
folgendermaßen bestimmt wird:
• Suche k ∈ N mit ω ∈ Ak , d.h., mit IAk (ω) = 1, und
• definiere dann E[X|A](ω) als den mittleren Wert“ (bzgl. P) von X in Ak .
”
3.175
Setzt man in (3.29) zunächst X = IB , B ∈ F, und bildet anschließend auf beiden Seiten
den Erwartungswert, so ergibt sich mit
P[B] = E[IB ] = E[IB IΩ ] = E[E[IB |A]IΩ ]
= E[E[IB |A]]
=
=
∞
X
k=1
∞
X
E[IAk ]
P[Ak ]
k=1
(wegen (3.27), da Ω ∈ A)
E[IB IAk ]
P[Ak ]
(vgl. Satz 3.21 und Fußnote 3.150)
P[B ∩ Ak ]
P[Ak ]
|
{z
}
= P[B|Ak ] (vgl. (2.9))
die Fallunterscheidungsformel, vgl. [10], Satz (3.3)(a).
3.176L2 (Ω, F, P) ist der Hilbertraum aller meßbaren, quadratintegrablen Funktionen X :
R
(Ω, F, P) → (R, B(R)) versehen mit dem Skalarprodukt hX, Y iL2 (Ω,F,P) := Ω P(dω)X(ω)Y (ω),
X, Y ∈ L2 (Ω, F, P).
3.177Die Zufallsvariable Y = E[X|A] ist für X ∈ L2 (Ω, F, P) neben (3.27) oder (3.28) auch
durch
E[Y Z] = E[XZ], Z ∈ L2 (Ω, A, P),
22. Juli 2014
46
Der in den Abschnitten 2.3 und 3.6 eingeführte unbedingte Erwartungswert
E[ . ] stimmt mit dem bedingten Erwartungswert E[ . |{∅, Ω}] bzgl. der trivialen
σ-Algebra {∅, Ω} f.s. überein 3.178.
Wenn A ∈ F, nennt man
(3.30)
P[A|A] := E[IA |A]
die unter A bedingte Wahrscheinlichkeit des Ereignisses A.
Die in den Abschnitten 3.6.1, 3.6.3 und 3.7 zusammengestellten Eigenschaften
des Erwartungswerts E[ . ] gelten sinngemäß auch für bedingte Erwartungswerte
E[ . |A] 3.179.
Beispiel 3.28. Insbesondere sind bedingte Erwartungswerte linear, d.h.,
E[aX + bY |A] = aE[X|A] + bE[Y |A], f.s.,
X, Y reellwertige, integrable Zufallsvariablen, a, b ∈ R.
Beispielsweise gilt auch die Jensensche Ungleichung, d.h.,
(3.31)
φ(E[X|A]) ≤ E[φ(X)|A], f.s.,
falls φ : R → R konvex und X eine reellwertige, integrable Zufallsvariable mit
E[|φ(X)|] < ∞ ist 3.180.
Seien X, Z reellwertige Zufallsvariablen auf (Ω, F, P) mit E[|XZ|] < ∞ und
E[|X|] < ∞. Falls Z für eine Teil-σ-Algebra A ⊆ F meßbar bzgl. A ist, folgt 3.181
(3.32)
E[XZ|A] = ZE[X|A].
Seien A ⊆ B ⊆ F σ-Algebren und sei X eine reellwertige, integrable Zufallsvariable auf (Ω, F, P). Dann gilt 3.182
(3.33)
E E[X|B]A = E[X|A].
eindeutig gekennzeichnet. Dies folgt aus der Tatsache, daß die Menge der beschränkten Zufallsvariablen auf (Ω, A, P) in L2 (Ω, A, P) dicht ist. Offensichtlich gilt weiterhin
0 = E[(X − Y )Z] = h(X − Y ), ZiL2 (Ω,F,P) ,
Z ∈ L2 (Ω, A, P),
genau dann, wenn Y die orthogonale Projektion von X auf L2 (Ω, A, P) ist.
Als Alternative zu den Überlegungen in Fußnote 3.169 kann mit den hier vorgestellten L2 Argumenten für quadratintegrable Zufallsvariablen die Existenz und Eindeutigkeit bedingter Erwartungswerte nachgewiesen werden.
3.178Eine Erläuterung findet sich in Fußnote 2.66.
3.179Bei diesen Verallgemeinerungen werden aus (Un-)Gleichungen für Erwartungswerte entsprechende P-f.s. gültige (Un-)Gleichungen für bedingte Erwartungswerte. Bei den jeweiligen Beweisen ist nur die bedingte Erwartungswerte charakterisierende Beziehung (3.27) zusätzlich zu
berücksichtigen.
3.180Bei der Verallgemeinerung der Produktregel für unabhängige Zufallsvariablen, vgl.
Satz 3.18(4), muß berücksichtigt werden, daß zwei (Ω′ , F′ )-wertige Zufallsvariablen X und Y
bedingt unter A unabhängig genannt werden, wenn
P[X ∈ A′ , Y ∈ B ′ |A] = P[X ∈ A′ |A] · P[Y ∈ B ′ |A], f.s.,
A′ , B ′ ∈ F ′ .
3.181Offensichtlich ist ZE[X|A] meßbar bzgl. A. Für B ∈ A gilt außerdem
E[IA (IB E[X|A])] = E[IA∩B E[X|A]]
= E[IA∩B X]
= E[IA (IB X)],
(wegen (3.27))
A ∈ A,
d.h., bei Berücksichtigung von (3.27) wird deutlich, daß (3.32) zumindest dann erfüllt ist, wenn
Z = IB , B ∈ A. Weitere Argumente zum vollständigen Nachweis von (3.32) für allgemeine Ameßbare Zufallsvariablen Z finden sich im Beweis von Theorem (1.3) in [7], Section 4.1.
3.182Zumindest für X ∈ L2 (Ω, F, P) ist durch die Identifizierung des bedingten Erwartungswerts als orthogonale Projektion, vgl. Beispiel 3.27, die Beziehung (3.33) offensichtlich.
22. Juli 2014
47
Falls A = FtX für einen stochastischen Prozeß X = (Xt )0≤t<∞ 3.183, verwendet
man auch offensichtliche Abkürzungen wie E[X|A] = E[X|Xu , 0 ≤ u ≤ t] oder
P[A|A] = P[A|Xu , 0 ≤ u ≤ t].
3.9. Filtrationen, Meßbarkeit stochastischer Prozesse und Stoppzeiten. Eine Filtration in einem gegebenen meßbaren Raum (Ω, F) ist eine aufsteigende Familie (Ft )t≥0 von Teil-σ-Algebren von F, d.h.,
(3.34)
Fs ⊆ Ft ⊆ F,
0 ≤ s ≤ t < ∞.
Mit Filtrationen können beispielsweise Ereignisse zeitlich“ eingeordnet werden.
”
Dann kann Ft als die Menge der Ereignisse vor dem Zeitpunkt t betrachtet werden.
Wie in Beispiel 3.3 kann jedem stochastischen Prozeß X = (Xt )0≤t<∞ die von
X erzeugte Filtration (FtX )0≤t<∞ mit FtX = σ(Xu , 0 ≤ u ≤ t), t ≥ 0, zugeordnet
werden. (FtX )0≤t<∞ ist die minimale Filtration (Ft )t≥0 , so daß für alle t ≥ 0 die
Zufallsvariablen Xu , 0 ≤ u ≤ t, meßbar bzgl. Ft sind.
Ein stochastischer Prozeß X = (Xt )t≥0 ist wesentlich mehr als eine Menge
X = {Xt : t ≥ 0} unzusammenhängender Zufallsvariablen. Auf einem niedrigen
”
Niveau“ äußern sich Zusammenhänge zwischen den Zufallsvariablen in X durch
3.184
gemeinsame Meßbarkeitseigenschaften
.
Sei X = (Xt )t≥0 ein stochastischer Prozeß auf einem Wahrscheinlichkeitsraum
(Ω, F, P) mit Werten in dem meßbaren Raum (S, S) und sei (Ft )t≥0 eine Filtration
in (Ω, F).
X heißt meßbar, falls 3.185 3.186 3.187 3.188
(ω, t) ∈ Ω × [0, ∞) : Xt (ω) ∈ A ∈ F ⊗ B([0, ∞)), A ∈ S.
X heißt adaptiert an (Ft )t≥0 , falls für alle t ≥ 0 die Abbildung Xt : (Ω, Ft ) →
(S, S) meßbar ist 3.189.
Beispiel 3.29. Ein stochastischer Prozeß X = (Xt )t≥0 ist adaptiert an die von X
erzeugte Filtration (FtX )t≥0 3.190 3.191.
3.183Vgl. Beispiel 3.3.
3.184Auf einem höheren Niveau“ wäre ein Zusammenhang z.B. durch die Stetigkeit der Pfade
”
t → Xt (ω) für (fast) alle ω ∈ Ω gegeben.
3.185Zur Definition des Produkts A ⊗ B von σ-Algebren A und B vgl. Abschnitt 3.1.2.
3.186
Die Meßbarkeit des Prozesses X ist gleichbedeutend mit der Meßbarkeit der Abbildung
(Ω × [0, ∞), F ⊗ B([0, ∞))) ∋ (ω, t) → Xt (ω) ∈ (S, S).
3.187
Wenn für einen reellwertigen stochastischen Prozeß X = (Xt )t≥0 auf (Ω, F, P) Größen
R1
wie 0 dt Xt (ω), ω ∈ Ω, untersucht werden sollen, ist deren Meßbarkeit durch die Meßbarkeit von
X gesichert. Zur Verifizierung dieser Aussage kann auf den Beweis des Satzes von Fubini, vgl.
Satz 3.21, Bezug genommen werden. Jener Beweis ist in Fußnote 3.153 grob skizziert.
3.188
Für ein A ⊆ [0, ∞) mit A ∈
/ B([0, ∞)) und einen Wahrscheinlichkeitsraum (Ω, F, P)
sei Xt (ω) = IA (t), ω ∈ Ω, t ≥ 0. X = (Xt )t≥0 ist ein stochastischer Prozeß, denn für alle
t ≥ 0 ist Xt eine reellwertige Zufallsvariable auf (Ω, F, P). Allerdings ist X nicht meßbar, denn
{(ω, t) ∈ Ω × [0, ∞) : Xt (ω) = 1} = Ω × A ∈
/ F ⊗ B([0, ∞)).
3.189Die Adaptiertheit besagt, daß die zeitliche Entwicklung des stochastischen Prozesses X
an den durch die Filtration (Ft )t≥0 charakterisierten zeitlichen Fluß“ von Ereignissen angepaßt
”
ist. Andere Varianten dieser Anpassung können durch Begriffe wie progressive Meßbarkeit, vgl.
[26], Chapter I, Definition (4.7), bzw. Vorhersehbarkeit, vgl. [26], Chapter IV, §5, beschrieben
werden. Mit vorhersehbaren stochastischen Prozessen in diskreter Zeit wird in Beispiel 4.39 gearbeitet.
Progressiv meßbare, bzw. vorhersehbare stochastische Prozesse werden auch in Abschnitt
5.2.5 vorgestellt. Sie werden zur Charakterisierung allgemeiner Integranden in stochastischen Integralen bzgl. quadratintegrabler Martingale benötigt, vgl. Abschnitt 6.2.4.
3.190Für alle t ≥ 0 ist nach Definition von F X = σ(X , 0 ≤ u ≤ t) insbesondere X meßbar
u
t
t
bzgl. FtX .
3.191
Der in Fußnote 3.188 betrachtete stochastische Prozeß X ist zwar adaptiert an (FtX )t≥0
aber nicht meßbar. Andererseits braucht ein meßbarer stochastischer Prozeß X nicht adaptiert an
eine Filtration (Ft )t≥0 zu sein, wenn Ft ( FtX , t ≥ 0.
22. Juli 2014
48
Wenn der Zeitpunkt des Eintretens eines Ereignisses zufällig ist, spricht man
von einer Zufallszeit. In speziellen Situationen kann es evtl. für jeden beliebigen,
festen Zeitpunkt t ≥ 0 nur vom Geschehen bis zu diesem Zeitpunkt und nicht von
der Zukunft abhängen, ob jenes Ereignis dann schon eingetreten ist. Dann liegt eine
Stoppzeit vor.
Für genauere Definitionen sei (Ω, F, P) ein Wahrscheinlichkeitsraum mit einer
Filtration (Ft )t≥0 . Eine Zufallszeit T ist eine F-meßbare Zufallsvariable mit Werten
in ([0, ∞], B([0, ∞])) 3.192. Eine Zufallszeit T heißt Stoppzeit bzgl. (Ft )t≥0 , falls 3.193
{T ≤ t} ∈ Ft ,
Im speziellen zeitlich diskreten Fall
zu Stoppzeiten.
t ∈ [0, ∞).
3.194
vereinfachen sich viele Überlegungen
Beispiel 3.30. Sei X = (Xn )n∈N0 die symmetrische Irrfahrt in Z 3.195 und sei
a ∈ Z. Ta = inf{n ∈ N0 : Xn = a} 3.196 ist eine Stoppzeit bzgl. (FnX )n∈N0 , während
Sa = sup{n ∈ N0 : Xn = a} zwar eine Zufallszeit aber keine Stoppzeit bzgl.
(FnX )n∈N0 ist 3.197 3.198.
Das folgende Resultat zeigt, daß durch gewisse Kombinationen von gegebenen
Stoppzeiten neue Stoppzeiten entstehen.
Satz 3.31. Sei (Ω, F, P) ein mit einer Filtration (Fn )n∈N0 versehener Wahrscheinlichkeitsraum. Seien außerdem S, T und Tk , k ∈ N, Stoppzeiten bzgl. (Fn )n∈N0 und
Θ ≥ 0 eine Konstante.
(a) T + Θ ist eine Stoppzeit 3.199.
(b) T + S, T ∨ S = max{T, S} und T ∧ S = min{T, S} sind Stoppzeiten 3.200.
(c) supk∈N Tk , inf k∈N Tk , lim supk∈N Tk und lim inf k∈N Tk sind Stoppzeiten.
Sei T eine Stoppzeit und A ein Ereignis, das vom Geschehen bis zum zufälligen
”
Zeitpunkt T abhängt“. Dann gilt auf einem anschaulichen Niveau: Wenn zu einem
Somit sind Meßbarkeit und Adaptiertheit eines stochastischen Prozesses keine vergleichbaren
Begriffe, wenn nicht zusätzliche Voraussetzungen angenommen werden.
3.192Der Fall T = ∞ soll nicht ausgeschlossen sein. Hierzu wird in [0, ∞] die σ-Algebra
B([0, ∞]) = σ(B([0, ∞)), {∞}) benutzt.
3.193Um die Präzision zu verdeutlichen, mit der in der Wahrscheinlichkeitstheorie i. allg.
gearbeitet werden sollte, sei daraufhingewiesen, daß eine ([0, ∞], B([0, ∞]))-wertige, meßbare Abbildung T auf (Ω, F, P) als optionale Zeit bzgl. (Ft )t≥0 bezeichnet wird, wenn
{T < t} ∈ Ft ,
t ∈ [0, ∞).
Eine Stoppzeit ist optional. Andererseits ist beispielsweise eine optionale Zeit auch eine Stoppzeit, wenn die Filtration (Ft )t≥0 rechtsstetig ist, vgl. Abschnitt 5.2.3. Weitere Informationen zu
optionalen Zeiten und Stoppzeiten finden sich in [19], Abschnitt 1.2.
3.194Nun werden Stoppzeiten bzgl. einer Filtration (F )
n n∈N0 betrachtet.
3.195Vgl. Beispiel 2.9 und Fußnote 2.69.
3.196T ist die Eintrittszeit in die Menge {a}.
a
3.197Zu keinem Zeitpunkt reichen die dann vorliegenden Informationen über X aus, um zu
X , n ∈ N . Trivialerweise ist S eine
entscheiden, ob Sa schon eingetreten ist, d.h., {Sa ≤ n} 6∈ Fn
a
0
X;∞
X;∞
Stoppzeit bzgl. der Filtration (Fn )n∈N0 , wobei Fn
= σ(Xk , k ∈ N0 ), n ∈ N0 . Allerdings ist
diese Beobachtung mathematisch nutzlos.
3.198
Aus Satz 4.23 und Satz (6.29) in [10] folgt, daß P[Sa = ∞] = 1.
3.199Offensichtlich braucht T + Θ keine Stoppzeit zu sein, wenn Θ < 0, denn für n ∈ N ist
0
(
⊆ Fn , falls Θ ≥ 0,
{T + Θ ≤ n} = {T ≤ n − Θ} ∈ Fn−Θ
* Fn , i. allg., falls Θ < 0.
3.200Beispielsweise ist {T + S ≤ n} = Sn ({T = k} ∩ {S ≤ n − k}) ∈ F , bzw., {T ∧ S ≤
n
k=0
n} = {T ≤ n} ∪ {S ≤ n} ∈ Fn für alle n ∈ N0 .
22. Juli 2014
49
festen Zeitpunkt n bekannt ist, daß T ≤ n, dann ist zusätzlich zu diesem Zeitpunkt
auch bekannt, ob A eingetreten ist oder nicht, d.h.,
{T ≤ n} ∩ A ∈ Fn , {T ≤ n} ∩ (Ω \ A) ∈ Fn ,
(3.35)
n ∈ N0 .
Man bezeichnet die Menge aller Ereignisse A ∈ F, die (3.35) erfüllen, als die von T
erzeugte σ-Algebra FT 3.201.
Beispiel 3.32. Für a > 0 und ein b < 0 sei in der in Beispiel 3.30 angesprochenen
Situation 3.202 A = {min{Xk : k ≤ Ta } < b}. Dann gilt A ∈ FTa .
Um in mathematisch komplexen Situationen lästige Probleme mit Nullmen”
gen“ zu vermeiden, arbeitet man oft mit Vervollständigungen von σ-Algebren. Zur
3.203
Erläuterung sei (Ω, F, P) ein Wahrscheinlichkeitsraum und
NP = A ⊆ Ω : A ⊆ B, B ∈ F, P[B] = 0 .
Für eine σ-Algebra G ⊆ F wird dann GP = σ(G∪NP ) als Vervollständigung von
G bzgl. P in (Ω, F) bezeichnet 3.204 3.205. Eine σ-Algebra G heißt vollständig bzgl. P
in (Ω, F), wenn G = GP , d.h., wenn NP ⊆ G.
Falls (Gt )t≥0 eine Filtration in (Ω, F, P) ist, so ist entsprechend (GP
t )t≥0 die
Vervollständigung von (Gt )t≥0 bzgl. P in (Ω, F). (GP
)
ist
offensichtlich
eine Filt t≥0
tration in FP , braucht jedoch keine Filtration in F zu sein. Im Rest dieses Skripts
sei angenommen, daß allgemeine 3.206 σ-Algebren und Filtrationen in einem Wahrscheinlichkeitsraum (Ω, F, P) bzgl. P in (Ω, F) vollständig sind. Weiterhin sei auch
für einen stochastischen Prozeß X = (Xt )t≥0 unter (FtX )t≥0 immer ((FtX )P )t≥0
verstanden 3.207. Abweichend hiervon werden Borelsche σ-Algebren 3.208 nicht als
vollständig betrachtet.
4. Ausblick auf zentrale Themen der Wahrscheinlichkeitstheorie
In der Wahrscheinlichkeitstheorie lassen sich größere Themenkomplexe identifizieren, in denen jeweils zusammenhängende Fragestellungen behandelt werden. In
diesem Abschnitt 4 sollen exemplarisch einige der herausragenden Themenbereiche
vorgestellt werden 4.1.
3.201F
T
ist in der Tat eine σ-Algebra, d.h., die Bedingungen (2.1) sind erfüllt.
3.202A ist das Ereignis, daß die Irrfahrt vor dem Eintritt in {a} die Schranke b unterschreitet.
3.203NP ist die Menge aller Teilmengen von F-meßbaren Mengen B mit P[B] = 0. I. allg.
enthält NP auch Mengen C ∈
/ F.
3.204Da NP Mengen enthalten kann, die nicht F-meßbar sind, ist i. allg. GP nicht in F
enthalten.
3.205
Wenn P und Q zwei verschiedene Wahrscheinlichkeitsmaße in (Ω, F) sind, so ist i.allg.
P
G 6= GQ .
3.206Die Bezeichnung allgemein“ soll andeuten, daß keine spezielle Struktur, die über die in
”
(2.1) und (3.34) gegebenen Definitionen von σ-Algebren, bzw. Filtrationen hinausgeht, angenommen wird.
3.207Anders als in der am Anfang dieses Abschnitts 3.9 gegebenen Definition ist somit F X =
t
(FtX )P = σ(Xu , 0 ≤ u ≤ t)P , t ≥ 0, d.h., für t ≥ 0 ist FtX die kleinste σ-Algebra, bzgl. der alle
Zufallsvariablen Xu , 0 ≤ u ≤ t, meßbar sind, und die außerdem alle Teilmengen von P-Nullmengen
in F enthält.
3.208Vgl. Abschnitt 3.1.3.
4.1Diese Themenbereiche sind Gesetz der großen Zahlen, Zentraler Grenzwertsatz, Markovprozesse, Martingale, Brownsche Bewegung, bzw. stochastische Integrale und stochastische
Differentialgleichungen.
22. Juli 2014
50
4.1. Gesetz der großen Zahlen. Für eine Folge Xn , n ∈ N, von ZufallsPN
variablen ist die Asymptotik des empirischen Mittels (1/N ) k=1 Xk bei N → ∞
zu bestimmen. In den üblichen Resultaten ergibt sich hierbei ein deterministischer
Grenzwert 4.2. Die verschiedenen Resultate dieses Themenbereichs unterscheiden
sich im wesentlichen hinsichtlich des
• Grades der Abhängigkeit zwischen den Zufallsvariablen Xn , n ∈ N, 4.3
bzw. des
• verwendeten Konvergenzbegriffs 4.4, oder auch der
• Dimension des Wertebereichs der Zufallsvariablen Xn , n ∈ N.
4.1.1. Schwaches Gesetz der großen Zahlen. In der zunächst vorgestellten Variante sind Abhängigkeiten zwischen den Zufallsvariablen Xn , n ∈ N, erlaubt.
Während diese Zufallsvariablen nicht die gleiche Verteilung zu besitzen brauchen,
müssen sie jedoch gleichmäßig quadratintegrabel sein.
Satz 4.1. 4.5 Seien X1 , X2 , . . . reellwertige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit supn∈N E[Xn2 ] < ∞ und E[Xn ] = µ, n ∈ N. Diese Zufallsvariablen seien paarweise unkorreliert, d.h., E[(Xn −µ)(Xm −µ)] = 0, m, n ∈ N,
PN
m 6= n. Dann konvergiert ZN = (1/N ) k=1 Xk bei N → ∞ stochastisch gegen eine
Zufallsvariable, die f.s. den Wert µ annimmt 4.6.
Das nächste Resultat beschreibt notwendige und hinreichende Bedingungen für
die Gültigkeit des schwachen Gesetzes der großen Zahlen für unabhängige, identisch
verteilte, reellwertige Zufallsvariablen. Diese müssen nicht notwendigerweise quadratintegrabel sein. Sogar auf die Existenz eines Erwartungswerts kann verzichtet
werden 4.7.
Satz 4.2. 4.8 Seien X1 , X2 , . . . unabhängige, identisch verteilte, reellwertige ZufallsPN
variablen. Dann konvergieren die Zufallsvariablen ZN = (1/N ) k=1 Xk , N ∈ N,
genau dann in Wahrscheinlichkeit gegen eine Konstante µ, wenn
(4.1)
oder wenn gilt
(4.2)
lim nP[|X1 | > n] = 0,
n→∞
lim E[X1 I{|X1 |≤n} ] = µ
n→∞
4.9
:
′
(0) = iµ.
ψX1 ist differenzierbar in 0 mit ψX
1
Beispiel 4.3. 4.10 Auch wenn X1 und damit alle Xk , k ∈ N, einer Folge von i.i.d.
Zufallsvariablen keinen Erwartungswert besitzen, kann das schwache Gesetz der
4.2Wenn der Grenzwert zwar existiert, aber zufällig ist, spricht man oft nicht mehr von einem
Gesetz der großen Zahlen. Solche Fälle werden in Beispiel 4.4 und in Abschnitt 4.1.3 angesprochen.
4.3In den einfachsten Varianten des Gesetzes der großen Zahlen wird angenommen, daß die
Zufallsvariablen Xn , n ∈ N, unabhängig und identisch verteilt sind.
4.4Wenn stochastische Konvergenz, d.h., Konvergenz in Wahrscheinlichkeit, gegen den
Grenzwert vorliegt, spricht man von einem schwachen Gesetz der großen Zahlen. Ein Resultat
mit der stärkeren fast sicheren Konvergenz wird als starkes Gesetz der großen Zahlen bezeichnet.
4.5Vgl. [10], Satz (5.6).
PN
4.6Für die Zufallsvariablen Z
g
g
N = ZN −µ = (1/N )
k=1 (Xk −µ), N ∈ N, gilt E[ZN ] = 0 und
P
P
2
N
N
−2
−2
2
g
E[ZN ] = N
E[(Xk −µ)(Xl −µ)] = N
E[(Xk −µ) ] ≤ C/N , wobei insbesondere
k,l=1
k=1
benutzt wurde, daß die Zufallsvariablen Xk , k ∈ N, unkorreliert und ihre Varianzen gleichmäßig
beschränkt sind. Mit der Čebyšev-Ungleichung, vgl. Abschnitt 3.6.3, folgt nun P[|Zn − µ| > ǫ] ≤
N→∞
E[|Zn − µ|2 ]/ǫ2 ≤ C/(ǫ2 N ) → 0, ǫ > 0.
4.7
Vgl. Beispiel 4.3.
4.8
Vgl. [12], Section 7.4, Theorem (7).
4.9ψ
X1 ist die charakteristische Funktion der Zufallsvariable X1 , vgl. Fußnote 3.78 und Anhang A.4.1.
4.10Die Beispiele 4.3 und 4.4 werden in [12], Section 7.4 angesprochen.
22. Juli 2014
51
großen Zahlen gelten 4.11. Zur Begründung wird nun eine Zufallsvariable X1 ohne
Erwartungswert, die jedoch (4.1) erfüllt, beschrieben.
Hierzu sei angenommen, daß X1 eine Verteilung PX1 mit einer Dichte f besitzt,
wobei
f (x) = f (−x), x ∈ R,
1
, x ≥ C,
PX1 [(x, ∞)] =
x log x
für ein hinreichend großes C. Offensichtlich ist (4.1) mit µ = 0 erfüllt. Andererseits
ist
d
d
P[X1 ≤ x] =
(1 − PX1 [(x, ∞)])
dx
dx
1 + log x
, x > C,
=
(x log x)2
f (x) =
und daher
4.12
4.13
E[(X1 )+ ] = E[(X1 )− ]
Z ∞
Z ∞
1
1 + log x
dx
≥
=
dx x
≥
2
(x
log
x)
x
log
x
C
C
4.14
∞,
d.h., X1 besitzt keinen Erwartungswert 4.15.
Beispiel 4.4. Die Zufallsvariablen X1 , X2 , . . . seien unabhängig und identisch gemäß der Cauchy-Verteilung mit der Dichte f1 (x) = (π(1 + x2 ))−1 , x ∈ R, verteilt.
Da
Z
Z ∞
2
2 ∞
1
1
n→∞ 2
∼
P[|X1 | > n] =
,
dx
dx 2 =
2
π n
1+x
π n
x
πn
ist die erste Bedingung in (4.1) nicht erfüllt. Ebenso ist (4.2) nicht gültig, denn
E[exp(iλX1 )] =
1
π
Z
∞
−∞
dx
exp(iλx)
= exp(−|λ|),
1 + x2
4.16
λ ∈ R.
Nach Satz 4.2 kann daher das schwache Gesetz der großen Zahlen nicht gelten
4.17
.
4.11Nach Satz 4.5 gilt in einem solchen Fall kein starkes Gesetz der großen Zahlen.
4.12Wenn die Verteilungsfunktion einer Zufallsvariable Y , vgl. Abschnitt 2.2.1, eine Ableitung
g hat, so besitzt die Verteilung PY von Y die Dichte g.
4.13
(X1 )+ = max{X1 , 0} und (X1 )− = max{−X1 , 0} sind Positiv-, bzw. Negativteil von X1 .
4.14Man beachte, daß P∞ (k log k)−1 = ∞, vgl. [22], §39.
k=2
4.15Vgl. Abschnitt 3.6.2.
4.16Diese Beziehung kann mit dem Residuensatz aus der Funktionentheorie bewiesen werden,
vgl. [2], Chapter 4, Section 5.
4.17Die Dichte der Zufallsvariablen X , n ∈ N, dieses Beispiels, für die kein schwaches Gesetz
n
der großen Zahlen gilt, verhält sich bei |x| → ∞ wie x−2 . Im Vergleich dazu fällt die Dichte
der Zufallsvariablen Xn , n ∈ N, aus Beispiel 4.3, für die ein schwaches Gesetz der großen Zahlen
vorliegt, wie (x2 log |x|)−1 , d.h. ein wenig stärker ab.
22. Juli 2014
52
PN
Mit X1 , X2 , . . . besitzen auch die Zufallsvariablen ZN = (1/N ) k=1 Xk , N ∈
N, eine Cauchy-Verteilung mit Dichte f1 (x) = (π(1 + x2 ))−1 , x ∈ R 4.18. Insbesondere konvergiert ZN bei N → ∞ in Verteilung 4.19 gegen eine Cauchy-verteilte
Zufallsvariable Z mit Dichte f1 4.20.
4.1.2. Starkes Gesetz der großen Zahlen. Analog zu Satz 4.2 können notwendige und hinreichende Bedingungen für die Gültigkeit des starken Gesetzes der großen
Zahlen für unabhängige, identisch verteilte, reellwertige Zufallsvariablen angegeben
werden.
Satz 4.5. 4.21 Seien X1 , X2 , . . . unabhängige, identisch verteilte, reellwertige ZuPN
fallsvariablen. Dann konvergiert ZN = (1/N ) k=1 Xk bei N → ∞ f.s. genau dann
gegen eine Konstante µ, wenn E[|X1 |] < ∞. In diesem Fall ist µ = E[X1 ].
Unter den Voraussetzungen von Satz 4.1, d.h., für nicht notwendigerweise unabhängige aber gleichmäßig quadratintegrable Zufallsvariablen, gilt übrigens auch
das starke Gesetz der großen Zahlen 4.22.
4.1.3. Subadditiver Ergodensatz. 4.23 Das nun beschriebene Resultat kann dem
weiteren Umfeld des Gesetzes der großen Zahlen zugeordnet werden 4.24.
Satz 4.6. 4.25 Sei Xm,n , m = 0, . . . , n − 1, n ∈ N, eine Familie von reellwertigen
Zufallsvariablen mit
(4.3a)
(4.3b)
(4.3c)
(4.3d)
X0,k + Xk,n ≥ X0,n ,
k = 1, . . . , n − 1, n = 2, 3, . . . ,
4.26
für festes k ∈ N ist der Prozeß (Xnk,(n+1)k )n∈N stationär
die gemeinsame Verteilung
4.28
,
von Xm,m+k , k ∈ N,
ist von m ∈ N0 unabhängig,
E[max{X0,1 , 0}] < ∞,
4.27
E[X0,n ] ≥ γ0 n, n ∈ N, für ein γ0 > −∞
4.29
.
4.18Für charakteristische Funktionen von Zufallsvariablen gilt insbesondere
ψX+Y = ψX ψY ,
falls X und Y unabhängig sind,
ψαX (λ) = ψX (αλ),
α, λ ∈ R,
vgl. Anhänge A.4.1.1 und A.4.1.3. Somit hat ZN die charakteristische Funktion ψZN (λ) =
(exp(−|λ|/N ))N = exp(−|λ|), λ ∈ R. Da die Verteilung einer Zufallsvariable durch ihre charakteristische Funktion eindeutig bestimmt ist, vgl. Anhang A.4.1.5, besitzt ZN eine Cauchy-Verteilung
mit Dichte f1 .
4.19Vgl. Satz 3.14.
4.20Dieses Konvergenzresultat kann auch als ein nicht-zentraler Grenzwertsatz betrachtet
werden, vgl. Abschnitt 4.2.4.
4.21Vgl. [12], Section 7.5, Theorem (1). Die Behauptung, daß E[|X |] < ∞ hinreichend für die
1
Konvergenz limN→∞ ZN = E[X1 ], f.s., ist, wird in Beispiel 4.38 mit Hilfe eines Konvergenzsatzes
für Submartingale, vgl. Satz 4.37, bewiesen. Hierbei findet auch das 0 -1-Gesetz von Kolmogorov,
vgl. Satz 5.3, Verwendung. Die Notwendigkeit von E[|X1 |] < ∞ für die genannte Konvergenz wird
in Beispiel 5.2 als eine Anwendung des Lemmas von Borel-Cantelli, vgl. Satz 5.1, demonstriert.
4.22Vgl. [10], Satz (5.15).
4.23Die in diesem Abschnitt 4.1.3 beschriebenen Resultate geben einen Einblick in jenen Teil
des mathematischen Gebiets der Ergodentheorie, der in die Wahrscheinlichkeitstheorie hineinragt.
Weitere Informationen können [7], Chapter 6, oder [18], Chapter 10, entnommen werden.
4.24Die folgenden Beispiele 4.7 und 4.8 demonstrieren allerdings, daß Satz 4.6 die Behandlung von Problemen, die wesentlich über die in den Sätzen 4.1, 4.2 oder 4.5 angesprochenen
Fragestellungen hinausgehen, ermöglicht.
4.25Vgl. [7], Section 6.6, Theorem (6.1).
22. Juli 2014
53
Dann gilt
(4.4a)
(4.4b)
1
1
E[X0,n ] = inf E[X0,n ] = γ für ein γ ∈ R,
n∈N n
n
1
X = lim X0,n existiert f.s. und in L1 4.30.
n→∞ n
lim
n→∞
Der Grenzwert X muß in der in Satz 4.6 beschriebenen Situation keine Konstante sein 4.31.
Beispiel 4.7 (Ergodensatz 4.32). Sei (ξn )P
n∈N ein stationärer, reellwertiger Pron
zeß 4.33 mit E[|ξ1 |] < ∞ und sei Xm,n = k=m+1 ξk , m = 0, . . . , n − 1, n ∈ N.
Die Familie der Zufallsvariablen Xm,n , m = 0, . . . , n − 1, n ∈ N, erfüllt die Voraussetzungen (4.3) von Satz 4.6 und damit existiert f.s. und in L1 der Grenzwert
PN
X = limN →∞ (1/N )X0,N = limN →∞ (1/N ) k=1 ξk 4.34 4.35.
Beispiel 4.8. 4.36 Sei (ξn )n∈N der stationäre Prozeß aus Beispiel 4.7 und sei Sn =
ξ1 + · · · + ξn , n ∈ N. Außerdem sei 4.37 Xm,n = |{Sm+1 , . . . , Sn }|, m = 0, . . . , n − 1,
n ∈ N. Diese Familie von Zufallsvariablen erfüllt ebenfalls die Voraussetzungen von
Satz 4.6, d.h., X0,n /n = (1/n)|{S1 , . . . , Sn }| konvergiert bei n → ∞ f.s. und in
L1 4.38.
4.1.4. Ein Gesetz der großen Zahlen für Zufallsvariablen mit Werten in einem
hochdimensionalen“ Raum. Als ein Beispiel wird die Asymptotik des empirischen
”
Mittels spezieller unabhängiger, identisch verteilter Zufallsvariablen betrachtet, die
Werte in einem Raum von Funktionen annehmen.
4.26(4.3a) ist eine Subadditivitätseigenschaft. Diese Eigenschaft ist beispielsweise für die
Zuwächse Xm,n = Xn − Xm , m = 0, . . . , n − 1, n ∈ N, eines stochastischen Prozeßes (Xn )n∈N
oder auch für deren Beträge, d.h. für Xm,n = |Xn − Xm |, m = 0, . . . , n − 1, n ∈ N, erfüllt.
4.27
Vgl. Abschnitt 2.5.
4.28
Vgl. Abschnitt 2.2.1.
4.29
Es wird insbesondere angenommen, daß die in (4.3d) angesprochenen Erwartungswerte
existieren, vgl. Abschnitt 3.6.2. Mit den Bedingungen (4.3a) - (4.3d) folgt dann weiterhin, daß die
Zufallsvariablen Xm,n , m = 0, . . . , n − 1, n ∈ N, integrabel sind.
4.30Aus (4.4) folgt insbesondere E[X] = γ, vgl. Fußnote 3.163.
4.31Wenn die stationären Prozesse in (4.3b) sogar ergodisch sind, gilt X = γ, f.s., vgl. [7],
Section 6.6, Theorem (6.1). Die Ergodizität eines auf einem Wahrscheinlichkeitsraum (Ω, F, P)
definierten reellwertigen stationären stochastischen Prozesses Y = (Yn )n∈N besagt im wesentlichen, daß alle durch Y bestimmten Ereignisse A ∈ F, die invariant unter Verschiebungen des
Zeitursprungs sind, die Wahrscheinlichkeit P[A] = 0 oder P[A] = 1 besitzen, vgl. [7], Section 6.1.
Für B ∈ B(R) ist {Yn ∈ B für jedes zweite n bei n → ∞} ein Beispiel für ein solches invariantes
Ereignis. Andererseits ist das Ereignis {Y3 ∈ B} i. allg. nicht invariant.
4.32
Vgl. [7], Section 6.6, Example 6.1, und insbesondere [12], Section 9.5, Theorem (2).
4.33Vgl. Abschnitt 2.5.
4.34Eine genauere Beschreibung des Grenzwerts X wird außer im Fall X = konstant, f.s., von
Satz 4.6 nicht geliefert.
4.35
Wegen der hier vorausgesetzten Integrabilitätsbedingung E[|ξ1 |] < ∞, umfaßt dieses Beispiel nicht den in Beispiel 4.4 vorgestellten Fall.
4.36
Vgl. [7], Section 6.6, Example 6.2.
4.37X
m,n ist das Volumen“ des Bereichs, der von dem Prozeß S = (Sn )n∈N zwischen den
”
Zeitpunkten m + 1 und n besucht wird.
4.38Seien ξ , n ∈ N, unabhängige Zufallsvariablen mit P[ξ = −1] = P[ξ = 1] = 1/2,
n
n
n
Pn
n ∈ N, d.h., (ξn )n∈N ist ein Bernoulli-Prozeß. Dann ist S = (Sn )n∈N0 mit Sn =
k=1 ξk ,
n ∈ N0 , die symmetrische Irrfahrt, vgl. Beispiel 2.9 und Fußnote 2.69. Auf eine analoge Weise
kann die symmetrische Irrfahrt in höherdimensionalen quadratischen Gittern dargestellt werden.
Somit zeigen die Überlegungen dieses Beispiels 4.8, daß das Volumen“ der Pfade der Irrfahrt in
”
Zd , d = 1, 2, . . . , asymptotisch höchstens linear anwächst.
22. Juli 2014
54
Sei zunächst Xn , n ∈ N, eine Folge unabhängiger, identisch verteilter, reellwertiger Zufallsvariablen, deren Verteilung durch die Verteilungsfunktion 4.39 F
charakterisiert ist. Für n ∈ N sei außerdem die Funktion Yn : R → [0, 1] durch
Yn (x) = I(−∞,x] (Xn ), x ∈ R, definiert 4.40.
Für x ∈ R und N ∈ N gibt die empirische Verteilungsfunktion
(4.5) FN (x) :=
N
N
1 X
1
1 X
Yk (x) =
I(−∞,x] (Xk ) = |{k = 1, . . . , N : Xk ≤ x}|
N
N
N
k=1
k=1
die relative Anzahl der Zufallsvariablen X1 , . . . , XN an, die einen Wert ≤ x annehmen. Nach dem starken Gesetz der großen Zahlen 4.41 gilt
lim FN (x) = E[Y1 (x)] = P[X1 ≤ x] = F (x), f.s.,
(4.6)
N →∞
x ∈ R.
Als Erweiterung von (4.6) belegt das nachfolgende Resultat, daß die Konvergenz
von FN (x) gegen F (x) sogar gleichmäßig in x ∈ R gilt.
Satz 4.9 (Satz von Glivenko-Cantelli). 4.42 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige Zufallsvariablen mit der Verteilungsfunktion F . Seien
weiterhin die empirischen Verteilungsfunktionen FN , N ∈ N, durch (4.5) gegeben.
Dann gilt 4.43 4.44
f.s.
sup |FN (x) − F (x)| → 0.
(4.7)
x∈R
Der Satz von Glivenko-Cantelli verdeutlicht, wie die empirischen Verteilungsfunktionen FN , N ∈ N, bei der Schätzung einer unbekannten Verteilungsfunktion
F anwendbar sind.
4.2. Zentraler Grenzwertsatz. In diesem Abschnitt wird die im Gesetz der
großen Zahlen festgehaltene Konvergenz von normierten Partialsummen ZN =
P
(1/N ) N
k=1 Xk einer Folge Xn , n ∈ N, von Zufallsvariablen gegen einen deterministischen Grenzwert µ präzisiert. Durch einen Zentralen Grenzwertsatz kann
√ in vielen
Situationen nachgewiesen werden, daß die reskalierten Fluktuationen N (ZN − µ)
der ZN , N ∈ N, um ihren Grenzwert µ asymptotisch bei N → ∞ normalverteilt
sind.
4.39Vgl. Abschnitt 2.2.1.
4.40Mit X , n ∈ N, sind auch Y , n ∈ N, unabhängige, identisch verteilte Zufallsvariablen.
n
n
Allerdings sind Yn , n ∈ N, Zufallsvariablen mit Werten in einem Raum von Funktionen. Für n ∈ N
hat die zufällige Funktion Yn einen Sprung der Größe 1 an der Stelle Xn . Sonst ist Yn konstant
mit Yn (x) = 0, x < Xn , und Yn (x) = 1, x ≥ Xn .
4.41 Vgl. Satz 4.5. Beachte, daß für x ∈ R die {0, 1}-wertigen Zufallsvariablen Y (x), n ∈ N,
n
i.i.d. mit E[Y1 (x)] = E[I(−∞,x] (X1 )] = P[X1 ≤ x] = F (x) sind.
4.42Vgl. [5], Theorem 20.6
4.43sup
x∈R |FN (x) − F (x)| ist eine meßbare (R, B(R))-wertige Funktion, d.h., eine reellwertige Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, F, P), auf dem die Zufallsvariablen
X1 , X2 , . . . definiert sind. Dies folgt aus Beispiel 3.6 und der Tatsache, daß die Funktionen F
und FN , N ∈ N, rechtsstetig sind, vgl. insbesondere Fußnote 2.32, und daher supx∈R . . . in (4.7)
durch supx∈Q . . . ersetzt werden kann.
4.44
Die zufälligen Funktionen“ Yn , n ∈ N, können als i.i.d. Zufallsvariablen auf einem Wahr”
scheinlichkeitsraum (Ω, F, P) mit Werten in dem Raum D(R; R) der reellwertigen, rechtsstetigen
Funktionen mit linksseitigem Grenzwert auf R betrachtet werden. Durch kf k∞ = supx∈R |f (x)|,
f ∈ D(R; R), wird eine Norm in dem Vektorraum D(R; R) definiert. Nun kann (4.7) in der für das
starke Gesetz der großen Zahlen üblichen“ Form
”
"(
)#
N
N
1 X
1 X
f.s.
Yk → F = E[Y1 ], bzw. P ω ∈ Ω : lim Yk (., ω) − F (.) = 0
= 1,
N→∞ N
N
k=1
k=1
∞
geschrieben werden, wobei Yn (x, ω) = I(−∞,x] (Xn (ω)), x ∈ R, ω ∈ Ω, n ∈ N, ist.
Normalerweise wird allerdings in D(R; R) die sog. Skorohod-Topologie benutzt, die nicht durch
die Norm k . k∞ erzeugt werden kann, vgl. [4], Chapter 3.
22. Juli 2014
55
In diesem Abschnitt wird zunächst der Zentrale Grenzwertsatz für unabhängige,
reellwertige Zufallsvariablen diskutiert. Die im√Fall von i.i.d. Zufallsvariablen sich
ergebende Beschreibung der Asymptotik von N (ZN − µ) bei N → ∞ wird anschließend in ergänzenden Resultaten durch weitere Details präzisiert. Nach einem
Zentralen Grenzwertsatz für mehrdimensionale i.i.d. Zufallsvariablen wird in einem Ausblick auf nicht-zentrale Grenzwertsätze erläutert, welche Grenzverteilungen
allgemein für reskalierte Fluktuationen von normierten Partialsummen von reellwertigen, i.i.d. Zufallsvariablen möglich sind 4.45. Abschließend wird ein Zentraler
Grenzwertsatz für abhängige Zufallsvariablen und eine ∞-dimensionale Variante
des Zentralen Grenzwertsatzes vorgestellt.
4.2.1. Zentraler Grenzwertsatz für reellwertige, unabhängige Zufallsvariablen.
Als eine klassische Variante des Zentralen Grenzwertsatzes kann das folgende Resultat betrachtet werden.
Satz 4.10. 4.46 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige,
quadratintegrable Zufallsvariablen mit E[X1 ] = µ und Var(X1 ) = σ 2 ∈ (0, ∞) 4.47.
PN
Sei weiter ZN = (1/N ) k=1 Xk , N ∈ N. Dann gilt
r
N
(ZN − µ) = ζ in Verteilung, wobei Pζ = N(0, 1) 4.48.
(4.8)
lim
N →∞
σ2
Als Konsequenz von Satz 3.14 ist (4.8) äquivalent zu 4.49
"r
#
N
lim P
(4.9)
(ZN − µ) ∈ (a, b)
N →∞
σ2
Z b
1
dx exp(−x2 /2), −∞ ≤ a < b ≤ ∞.
= √
2π a
Die folgende Variante des Zentralen Grenzwertsatzes zeigt, daß viele kleine,
”
unabhängige, zufällige Beiträge“ sich zu einem normalverteilten Gesamteffekt aufsummieren 4.50.
Satz 4.11 (Satz von Lindeberg-Feller). 4.51 Für n ∈ N seien die Zufallsvariablen
Xn,m , m = 1, . . . , n, unabhängig mit E[Xn,m ] = 0, m = 1, . . . , n. Es gelte 4.52
(4.10a)
(4.10b)
lim
n→∞
lim
n→∞
n
X
m=1
n
X
m=1
E[(Xn,m )2 ] = σ 2 ∈ (0, ∞),
E (Xn,m )2 I{|Xn,m |>ε} = 0,
ε > 0.
4.45Damit wird der Zentrale Grenzwertsatz als ein Spezialfall einer ganzen Familie ähnlicher
Resultate identifiziert.
4.46Vgl. [7], Section 2.4, Theorem (4.1). Ein Beweis von Satz 4.10 wird in Anhang A.4.2
skizziert.
4.47Die Varianz einer Zufallsvariablen Y ist durch Var(Y ) := E[(Y − E[Y ])2 ] definiert.
4.48Die Verteilung P der Zufallsvariablen ζ ist die standard Normalverteilung N(0, 1), d.h.,
ζ
sie besitzt die Dichte (2π)−1/2 exp(−x2 /2), x ∈ R, bzgl. des Lebesguemaßes auf R.
4.49
In den Sätzen 4.14 und 4.15 wird erläutert, inwiefern (4.9) auch noch richtig bleibt, wenn
bei N → ∞ das Intervall (a, b) klein wird, bzw. sich immer weiter vom Ursprung entfernt. Die
Konvergenzgeschwindigkeit in (4.9) wird in Satz 4.16 angegeben.
4.50Da in vielen Anwendungen beobachtete Meßwerte sich aus vielen kleinen, unabhängigen,
”
zufälligen Beiträgen“ zusammensetzen, wird die außerordentliche Wichtigkeit des Zentralen Grenzwertsatzes und der Normalverteilung deutlich.
4.51Vgl. [7], Section 2.4, Theorem (4.5).
Pn
4.52Beachte, daß in der vorliegenden Situation Pn
2
m=1 E[(Xn,m ) ] =
m=1 Var(Xn,m ) =
Pn
Var
m=1 Xn,m , n ∈ N. Während (4.10a) erlaubt, daß bei n → ∞ ein Xn,m0 alle anderen
Xn,m , m = 1, . . . , n, m 6= m0 , dominiert, ergibt sich aus (4.10b), daß alle Xn,m gleichmäßig in
”
m = 1, . . . , n klein“ werden, wenn n → ∞.
22. Juli 2014
56
Dann folgt
lim
n→∞
n
X
in Verteilung, wobei Pζ = N(0, σ 2 ).
Xn,m = ζ
m=1
Zur Gültigkeit des Zentralen Grenzwertsatzes müssen die einzelnen Summanden stärker voneinander unabhängig“ sein als beim Gesetz der großen Zahlen.
”
Beispielsweise ist paarweise Unabhängigkeit nicht ausreichend 4.53.
Beispiel 4.12. 4.54 Seien ξ1 , ξ2 , . . . i.i.d. Zufallsvariablen mit P[ξ1 = 1] = P[ξ1 =
−1] = 1/2. Sei nun X1 = ξ1 und X2 = ξ1 ξ2 . Falls weiter m = 2n−1 + j für ein
j = 1, . . . , 2n−1 mit einem n = 2, 3, . . . so sei Xm = Xj ξn+1 4.55. Als Konsequenz dieser Vorgehensweise wird deutlich,
daß für alle n ∈ N für jede Teilmenge
Q
M ⊆ {2, . . . , n + 1} das Produkt ξ1 j∈M ξj mit genau einer der Zufallsvariablen
X1 , . . . , X2n übereinstimmt. Alle Zufallsvariablen Xk , k ∈ N, enthalten den Faktor ξ1 . Darüberhinaus sind für k 6= l die jeweiligen Mengen der Faktoren ξj , die
Xk , bzw. Xl definieren, verschieden. Die Zufallsvariablen Xk , k ∈ N, sind identisch verteilt mit 4.56 P[X1 = 1] = P[X1 = −1] = 1/2, d.h., mit E[X1 ] = 0, bzw.
Var(X1 ) = 1. Sie sind paarweise unabhängig 4.57, jedoch nicht unabhängig 4.58.
4.53Vgl. Satz 4.1. In jener Version des schwachen Gesetzes der großen Zahlen wird nur vorausgesetzt, daß die Zufallsvariablen X1 , X2 , . . . paarweise unkorreliert sind, was insbesondere aus
der paarweisen Unabhängigkeit folgt.
4.54
Vgl. [7], Section 2.4, Example 4.5
4.55Damit gilt z.B. X = ξ ξ , X = ξ ξ ξ , X = ξ ξ , X = ξ ξ ξ , X = ξ ξ ξ ,
3
1 3
4
1 2 3
5
1 4
6
1 2 4
7
1 3 4
X8 = ξ1 ξ2 ξ3 ξ4 , . . . .
Induktiv wird bei der Konstruktion der Zufallsvariablen Xm , m ∈ N, nach folgendem Schema
vorgegangen:
• Für m = 20 = 1 ist Xm = ξ1 .
• Wenn für n = 1, 2, . . . die Zufallsvariablen Xm , m = 1, . . . , 2n−1 , bekannt sind, so
ergeben sich Xm , m = 2n−1 + 1, . . . , 2n , durch Multiplikation der einzelnen Xm , m =
1, . . . , 2n−1 , mit ξn+1 .
4.56Aufgrund ihrer Konstruktion als Produkte von Zufallsvariablen ξ , n ∈ N, besitzen X ,
n
m
m ∈ N, Werte in {−1, 1}, wobei −1 und 1 aus Symmetriegründen offensichtlich jeweils mit Wahrscheinlichkeit 1/2 angenommen werden.
Q
4.57Für eine endliche Menge M ⊆ N sei ξ
M =
j∈M ξj . Für l, k ∈ N mit l 6= k folgt nun
aus der Konstruktion der Xm , m ∈ N, vgl. insbesondere Fußnote 4.55, daß Xk = ξM · ξM1 und
Xl = ξM ·ξM2 , wobei M , M1 und M2 disjunkt sind. Da die Zufallsvariablen ξn , n ∈ N, unabhängig
sind, sind auch ξM , ξM1 und ξM2 unabhängig. Somit gilt
X
P[Xk = α, Xl = β] =
P[Xk = α, Xl = β|ξM = γ]P[ξM = γ]
γ∈{−1,1}
(nach der Fallunterscheidungsformel, vgl. [10], Satz (3.3))
X
=
P ξM1 = α/γ, ξM2 = β/γ ξM = γ P[ξM = γ]
{z
}
|
γ∈{−1,1}
= P[ξM1 = α/γ]P[ξM2 = β/γ] = (1/2) · (1/2)
(da ξM , ξM1 , ξM2 unabhängig und in {−1, 1} gleichverteilt sind)
=
1
= P[Xk = α] P[Xl = β],
4
α, β ∈ {−1, 1},
d.h., Xk und Xl sind unabhängig.
4.58
Beispielsweise gilt
P[X1 = X2 = X3 = X4 = 1] = P[ξ1 = ξ2 = ξ3 = 1] =
6=
1
8
1
= P[X1 = 1]P[X2 = 1]P[X3 = 1]P[X4 = 1].
16
22. Juli 2014
57
Weiterhin folgt
4.59
Y
{X1 , . . . , X2n } = ξ1
ξj : M ∈ Pot({2, . . . , n + 1}) ,
j∈M
und daher
X1 + · · · + X2n = ξ1 (1 + ξ2 )(1 + ξ3 ) . . . (1 + ξn+1 ).
Somit ergibt sich
4.60
P X1 + · · · + X2n

2−n−1 ,
falls k = −2n ,

−n
= k = 1 − 2 , falls k = 0,

 −n−1
2
,
falls k = 2n .
√
Folglich konvergiert (X1 + · · · + X2n )/ 2n bei n → ∞ in Verteilung gegen eine im
Ursprung konzentrierte und nicht gegen eine gemäß N(0,1) verteilte Zufallsvariable 4.61.
Für i.i.d. Zufallsvariablen gibt es notwendige und hinreichende Bedingungen
für die Gültigkeit von schwachem, bzw. starkem Gesetz der großen Zahlen, vgl.
Satz 4.2 und Satz 4.5. Ein analoges Resultat für den Zentralen Grenzwertsatz ist
der folgende Satz.
Satz 4.13. 4.62 Seien X1 , X2 , . . . unabhängige, identisch verteilte, reellwertige ZuPN
fallsvariablen und sei SN =
k=1 Xk , N ∈ N. Es gibt genau dann Folgen aN ,
N ∈ N, und bN , N ∈ N, mit bN > 0, N ∈ N, so daß (SN − aN )/bN bei N →
∞ in Verteilung gegen eine standard normalverteilte Zufallsvariable konvergiert,
4.59
Da für jedeQTeilmenge M ⊆ {2, . . . , n + 1} genau eine der Zufallsvariablen X1 , . . . , X2n
die Darstellung ξ1 j∈M ξj besitzt, vgl. insbesondere die Erläuterung der Konstruktion von
X1 , X2 , . . . in Fußnote 4.55.
4.60X +· · ·+X n kann nur die Werte −2n , 0 und 2n annehmen. Hierbei wird 0 angenommen,
1
2
sobald ξj = −1 für ein j = 2, . . . , n + 1. 2n wird angenommen, wenn ξj = 1 für alle j = 1, . . . , n + 1
und −2n wird angenommen, wenn ξ1 = −1 und ξj = 1 für alle j = 2, . . . , n + 1.
4.61Man beachte, daß
" #
2n
√
√
n→∞
1 X
Xk
E h √
= (1−2−n )h(0) + 2−n−1 h(− 2n )+h( 2n ) → h(0),
2n k=1
und berücksichtige die Definition der Konvergenz in Verteilung in Abschnitt 3.5.3.
4.62
Vgl. [7], Section 2.4, Theorem (4.6).
22. Juli 2014
h ∈ Cb (R),
58
wenn
4.63 4.64 4.65
y 2 P[|X1 | > y]
= 0.
y→∞ E[|X1 |2 I{|X |≤y|} ]
1
(4.11)
lim
4.2.2. Ergänzungen zum Zentralen Grenzwertsatz. In diesem Abschnitt werden
einige Resultate vorgestellt, die die in Satz 4.10 beschriebene Asymptotik reskalierter Fluktuationen normierter Partialsummen von reellwertigen, quadratintegrablen,
i.i.d. Zufallsvariablen näher beleuchten.
In der folgenden lokalen Variante des Zentralen Grenzwertsatzes, dem sog. lokalen Zentralen Grenzwertsatz wird nachgewiesen, daß die Konvergenz in Satz 4.10,
bzw. in (4.9) auch in asymptotisch kleiner werdenden Raumbereichen“ gültig
”
bleibt.
Satz 4.14. 4.66 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige
Zufallsvariablen mit E[X1 ] = µ, Var(X1 ) = σ 2 ∈ (0, ∞) und 4.67 4.68
|ψX1 (λ)| < 1,
(4.12)
Sei weiter ZN = (1/N )
PN
k=1
falls λ 6= 0.
Xk , N ∈ N. Dann gilt
"r
#
√
N
α
β −α
β
(ZN −µ) ∈ x+ √ , x+ √
(4.13) lim N P
= √ exp(−x2 /2),
2
N →∞
σ
2π
N
N
x ∈ R, −∞ < α < β < ∞.
4.63 Für i.i.d., quadratintegrable Zufallsvariablen X , X , . . . mit E[X ] = µ und Var(X ) =
1
2
1
1
√
σ2 ∈ (0, ∞) zeigt Satz 4.10, daß aN = N µ und bN = N σ2 für N ∈ N zu wählen ist. Jedoch
kann auch für i.i.d. Zufallsvariablen
X1 , X2 , . . . , die nicht quadratintegrabel sind, Konvergenz
PN
von
k=1 Xk − aN /bN gegen eine normalverteilte Zufallsvariable vorliegen. Wenn z.B. die
−3
Verteilung von X1 eine Dichte f ∈ Cb (R) mit f (x) = f (−x), x ∈ R, und f (x)
R ∼ |x| , |x| → ∞,
besitzt, so ist E[|X1 |2 ] = ∞ und bei y → ∞ weiterhin P[|X1 | > y] ∼ y∞ dx |x|−3 ∼ y −2 ,
R
bzw. E[|X1 |2 I{|X1 |≤y|} ] ∼ 1y dx |x|−1 ∼ log y, d.h., (4.11) ist erfüllt. Die Überlegungen in [7],
√
Section 2.4, Example 4.8, zeigen, daß in diesem Fall aN = 0, bN = C N log N , N ∈ N, zu wählen
ist.
4.64
Wenn wie in Beispiel 4.4 die Zufallsvariablen
X1 , X2 , . . . eine Cauchy-Verteilung besitzen,
R
so gilt bei y → ∞ sowohl P[|X1 | > y] ∼ y∞ dx (1 + x2 )−1 ∼ y −1 als auch E[|X1 |2 I{|X1 |≤y|} ] ∼
Ry
dx x2 (1 + x2 )−1 ∼ y. In diesem Fall ist der Grenzwert in (4.11) strikt positiv, d.h., die in
0
Satz 4.13 beschriebene Konvergenz in Verteilung gegen eine normalverteilte Zufallsvariable ist
nicht möglich.
4.65
Für viele Familien Xk , k ∈ N, von reellwertigen, i.i.d. Zufallsvariablen ist die
Konvergenz
PN
in Verteilung reskalierter Fluktuationen von Partialsummen wie
k=1 Xk − aN /bN bei N →
∞ möglich. Auf die Frage, welche Limiten hierbei im Rahmen nicht-zentraler Grenzwertsätze
überhaupt möglich sind, wird in Abschnitt 4.2.4 eingegangen.
4.66Vgl. [7], Section 2.5, Theorem (5.4).
4.67ψ
Y ist die charakteristische Funktion einer reellwertigen Zufallsvariable Y , vgl. Anhang A.4.1. Es sei daraufhingewiesen, daß charakteristische Funktionen als wesentliches Hilfsmittel
beim Beweis von Satz 4.10 benutzt werden können, vgl. Anhang A.4.2.
4.68
Nach Theorem (5.1) in [7], Section 2.5, besagt die Bedingung (4.12), daß die Zufallsvariable X1 nicht auf einem Gitter in R konzentriert ist, d.h., es gibt kein b ∈ R und kein h > 0, so
daß P[X1 ∈ {b + hk : k ∈ Z}] = 1.
Auch wenn (4.12) nicht erfüllt ist, gilt ein (4.13) entsprechendes Resultat, vgl. [7], Section 2.5,
Theorem (5.2). Der Fall von i.i.d. Zufallsvariablen Xn , n ∈ N, die eine Bernoulli-Verteilung besitzen, wird auch in [10], Satz (5.19), betrachtet.
22. Juli 2014
59
(4.13) kann insbesondere in der an (4.9) erinnernden Form 4.69 4.70
"r
#
α
β
N
N →∞ β −α 1
(4.14) P
(ZN −µ) ∈ x+ √ , x+ √
∼ √ √ exp(−x2 /2),
σ2
N
N
N 2π
x ∈ R, −∞ < α < β < ∞,
präsentiert werden.
Der nun folgende Satz, ein Resultat über große Abweichungen, zeigt, daß auch in
asymptotisch sehr weit vom Ursprung entfernten“ Bereichen, die unter der stan”
dard Normalverteilung N(0, 1) eine asymptotisch verschwindende“ Wahrschein”
lichkeit haben, der Zentrale Grenzwertsatz in einer speziellen Formulierung gültig
bleibt.
Satz 4.15. 4.71 Seien Xk , k ∈ N, unabhängige, identisch verteilte, reellwertige
PN
Zufallsvariablen und ZN = (1/N ) k=1 Xk , N ∈ N. Sei E[X1 ] = µ, Var(X1 ) =
σ 2 ∈ (0, ∞) und 4.72
(4.15)
Dann folgt
4.73
E[exp(ζX1 )] < ∞,
lim
N →∞
für ein α > 0.
#
N
(ZN − µ) > aN
σ2
Z ∞
=1
dx exp(−x2 /2)
"r
P
(4.16)
|ζ| ≤ α,
1
√
2π
für alle Folgen aN , N ∈ N, mit
4.74
aN
aN = o(N 1/6 ) bei N → ∞.
Es ist möglich, die Konvergenzgeschwindigkeit beim Zentralen Grenzwertsatz
zu präzisieren. Wenn die reellwertigen, i.i.d. Zufallsvariablen Xk , k ∈ N, nicht nur
quadratintegrabel sind, sondern darüberhinaus ein endliches drittes Moment besitzen 4.75, ist die Konvergenz in (4.9) gleichmäßig in −∞
√ ≤ a < b ≤ ∞, wobei
zusätzlich noch die Konvergenzgeschwindigkeit durch C/ N abgeschätzt werden
kann.
Satz 4.16 (Satz von Berry-Esseen). 4.76 Seien Xk , k ∈ N, unabhängige, idenPN
tisch verteilte, reellwertige Zufallsvariablen und ZN = (1/N ) k=1 Xk , N ∈ N. Sei
4.69(4.13) zeigt, daß der Quotient der beiden Seiten von (4.14) bei N → ∞ gegen 1 konver-
giert.
√
√
Wenn in (4.9) das Intervall (a, b) durch (x + (α/ N ), x + (β/ N )) ersetzt und die Ste2
tigkeit von R ∋ x → exp(−x /2) berücksichtigt wird, ergibt sich (4.14) auf eine formale Weise.
4.71Vgl. [9], Chapter XVI, Section 7.
4.72Es wird die Existenz von gewissen exponentiellen Momenten gefordert. Bei gleichmäßig
beschränkten Zufallsvariablen X1 ist (4.15) offenbar erfüllt. Diese Bedingung ist übrigens
äquivalent zur Forderung, daß die charakteristische Funktion ψX1 von X1 in einer Umgebung
des Ursprungs analytisch ist.
4.73Die Ähnlichkeit zwischen (4.16) und (4.9) oder (4.14) ist offensichtlich. Für Folgen spezieller Intervalle AN , N ∈ N, wird in diesen Resultaten jeweils gezeigt, daß
#
"r
N
N→∞
(Z
−
µ)
∈
A
∼ P[ζ ∈ AN ],
P
N
N
σ2
4.70
wobei ζ eine standard normalverteilte Zufallsvariable ist.
4.74Durch die Forderung a = o(N 1/6 ) bei N → ∞ wird sichergestellt, daß die Folge a ,
N
N
N ∈ N, nicht zu stark mit N anwächst.
4.75D.h., es gilt E[|X |3 ] < ∞.
1
4.76Vgl. [7], Section 2.4, Theorem (4.9).
22. Juli 2014
60
Symmetrische Irrfahrt in 1D; Gesetz vom iterierten Logarithmus:
Z(N)=(X(1)+...+X(N))/(sqrt(2*N*log(log(N)))), N=1,2,...; T=100000; 5 Simulationen
2.0
1.6
1.2
0.8
0.4
0
−0.4
−0.8
−1.2
−1.6
−2.0
0
1e4
2e4
3e4
4e4
5e4
6e4
7e4
8e4
9e4
10e4
Abbildung 4.1. Verdeutlichung des Gesetzes vom Iterierten Logarithmus mit unabhängigen, in {−1, 1} gleichverteilten Zufallsvariablen Xk , k ∈ N (N ≤ 100000, 5 Simulationen). Bei der
Durchführung der Simulationen fand das wissenschaftliche Softwarepaket Scilab, vgl. http://www.scilab.org/, Verwendung.
E[X1 ] = µ, Var(X1 ) = σ 2 ∈ (0, ∞) und E[|X1 |3 ] < ∞. Dann gilt
"r
#
Z y
x2 1
N
(4.17)
(ZN − µ) ≤ y − √
sup P
dx exp −
σ2
2 2π −∞
y∈R ≤
3E[|X1 − µ|3 ]
√
,
σ3 N
N ∈ N.
In Satz 4.10 wird für reskalierte Fluktuationen von normierten Partialsummen
von i.i.d. Zufallsvariablen die Asymptotik in Verteilung untersucht. Wenn die Reskalierung auf eine etwas merkwürdig erscheinende Weise modifiziert wird, kann auch
die f.s.-Asymptotik beschrieben werden.
Satz 4.17 (Gesetz vom Iterierten Logarithmus). 4.77 Seien Xk , k ∈ N, unabhängige,
identisch verteilte, reellwertige Zufallsvariablen mit E[X1 ] = µ und Var(X1 ) =
P
4.78
σ 2 ∈ (0, ∞). Sei außerdem ZN = (1/N ) N
:
k=1 Xk , N ∈ N. Dann gilt
r
N
1
(4.18)
(ZN − µ) = 1, f.s.,
lim sup p
2
σ
2 log(log N )
N →∞
r
1
N
p
lim inf
(ZN − µ) = − 1, f.s.
2
N →∞
σ
2 log(log N )
4.77Vgl. [5], Theorem 9.5.
4.78Eine Illustration des Gesetzes vom Iterierten Logarithmus ist durch Abbildung 4.1
gegeben.
22. Juli 2014
61
Als eine Verschärfung von (4.18) kann festgehaltenpwerden, daß die
p Menge der
Häufungspunkte des stochastischen Prozesses N → (1/ 2 log(log N )) N/σ 2 (ZN −
µ) bei N → ∞ das Intervall [−1, 1] ist 4.79.
4.2.3. Mehrdimensionaler Zentraler Grenzwertsatz. Bei der Übertragung von
Satz 4.10 auf Rd -wertige Zufallsvariablen muß berücksichtigt werden, daß eine Normalverteilung N(µ, C) in Rd durch einen Vektor µ ∈ Rd und eine symmetrische,
nichtnegativ-definite 4.80 d × d - Matrix C parametrisiert ist. Insbesondere ist eine
gemäß N(µ, C) verteilte Rd -wertige Zufallsvariable X = (X1 , . . . , Xd )T durch ihre
charakteristische Funktion
d
1 X
Ck,l λk λl , λ ∈ Rd ,
(4.19) ψX (λ) = E[exp(iλ · X)] = exp(iλ · µ) exp −
2
k,l=1
charakterisiert, wobei µk = E[Xk ], k = 1, . . . , d, und Ck,l = Cov(Xk , Xl ) =
E[(Xk − µk )(Xl − µl )], k, l = 1, . . . , d 4.81 4.82 4.83.
Eine Rd -wertige Zufallsvariable X mit der Verteilung PX = N(µ, C) hat eine Darstellung X = µ + AY , wobei 4.84 A ∈ Rd⊗d mit C = AAT , d.h., Ck,l =
Pd
T
n=1 Ak,n Al,n , k, l = 1, . . . , d, und Y = (Y1 , . . . , Yd ) mit unabhängigen, standard
4.85
.
normalverteilten Zufallsvariablen Y1 , . . . , Yd
4.79Der stochastische Prozeß N →
p
N/σ2 (ZN −µ) bleibt nach dem Zentralen Grenzwertsatz
bei N → ∞ in Verteilung
p beschränkt“. Damit er allerdings ”f.s. beschränkt“ bleibt, muß er aber
”
noch zusätzlich durch log(log N ) dividiert werden.
4.80Eine symmetrische d × d - Matrix C = (C )
k,l k,l=1,...,d wird nichtnegativ-definit genannt,
wenn
d
X
Ck,l xk xl ≥ 0, x = (x1 , . . . , xd )T ∈ Rd .
k,l=1
4.81µ ist der Erwartungswert und C die Kovarianzmatrix der Normalverteilung N(µ, C).
4.82
N(µ, C) besitzt nur dann eine Dichte bzgl. des Lebesguemaßes auf Rd , wenn C positiv
definit ist, d.h., wenn
d
X
k,l=1
Ck,l xk xl ≥ α
d
X
k=1
|xk |2 ,
x = (x1 , . . . , xd )T ∈ Rd ,
für ein α > 0. In diesem Fall besitzt C eine Inverse C −1 und die Dichte von N(µ, C) ist
d
1 X −1
1
√
exp −
f (x) =
Ck,l (xk − µk )(xl − µl ) , x ∈ Rd ,
2 k,l=1
(2π)d/2 det C
vgl. z.B. [6], Section 11.4. Wenn C nicht positiv definit ist, ist N(µ, C) auf einem niederdimensionalen affinen Unterraum des Rd konzentriert.
4.83
Wenn C = 0, d.h., wenn Ck,l = 0, k, l = 1, . . . , d, gilt X = µ, f.s. Insbesondere ist in
diesem Fall X deterministisch.
4.84A ist eine d × d - Matrix.
4.85Da die Verteilung einer Rd -wertigen Zufallsvariablen X durch deren charakteristische
Funktion eindeutig bestimmt ist, vgl. Anhang A.4.1.5, ist die Gültigkeit von (4.19) für X = µ+AY
nachzuweisen. Weil Y1 , . . . , Yd unabhängige, standard normalverteilte Zufallsvariablen sind, hat
Qd
−1/2 exp(−x2 /2) = (2π)−d/2 exp(−x2 /2), x ∈ Rd .
zunächst PY die Dichte f (x) =
k=1 (2π)
k
Überlegungen wie in Anhang A.4.1.4 ergeben nun ψY (λ) = exp(−λ2 /2), λ ∈ Rd . Aufgrund von
Anhang A.4.1.3 folgt schließlich
ψµ+AY (λ) = exp(iλ · µ) exp(−(AT λ)2 /2)
!
X
d
d d
1 X X
Al,n λl
Ak,n λk
= exp(iλ · µ) exp −
2 n=1 k=1
l=1
!
d d
1 X X
Ak,n Al,n λk λl
= exp(iλ · µ) exp −
2 k,l=1 n=1
22. Juli 2014
62
Satz 4.18. 4.86 Seien Xk , k ∈ N, i.i.d., Rd -wertige, quadratintegrable Zufallsvariablen mit E[X1 ] = µ und Kovarianzmatrix 4.87 C = (E[(X1,p − µp )(X1,q −
PN
µq )])p,q=1,...,d . Außerdem sei ZN = (1/N ) k=1 Xk , N ∈ N. Dann gilt
√
lim N (ZN − µ) = ζ in Verteilung, wobei Pζ = N(0, C).
N →∞
4.2.4. Nicht-zentrale Grenzwertsätze. Aufgrund von Resultaten wie Satz 4.10
oder Satz 4.13 kann die Bedeutung der standard Normalverteilung µ = N(0, 1) in der
Wahrscheinlichkeitstheorie auch durch folgende Eigenschaft ausgedrückt werden:
(Zµ ) Es gibt reellwertige, i.i.d. Zufallsvariablen Xk , k ∈ N, und eine Folge
(aN , bN ), N ∈ N mit bN > 0, N ∈ N, so daß die reskalierten FluktuaPN
tionen (SN − aN )/bN der Partialsummen SN = k=1 Xk bei N → ∞ in
Verteilung gegen eine Zufallsvariable η mit Verteilung Pη = µ konvergieren 4.88.
Wie in Beispiel 4.4 demonstriert wird, gilt auch für die Cauchy-Verteilung µ1 mit
der Dichte f1 (x) = (π(1 + x2 ))−1 , x ∈ R, die entsprechende Eigenschaft (Zµ1 ) 4.89.
Sei Z die Klasse jener Wahrscheinlichkeitsmaße µ auf (R, B(R)), die die Eigenschaft (Zµ ) besitzen. Offensichtlich tritt jedes µ ∈ Z in einem zum Zentralen
Grenzwertsatz analogen Resultat (Rµ ) als Grenzverteilung“ in Erscheinung 4.90.
”
Wenn µ keine Normalverteilung ist, bezeichnet man ein solches (Rµ ) als einen
nicht-zentralen Grenzwertsatz.
Genaue Informationen über die Klasse Z, die nach obigen Ausführungen zumindest Normalverteilungen und Cauchy-Verteilungen enthält, gibt folgendes Resultat.
Satz 4.19. 4.91 Ein Wahrscheinlichkeitsmaß µ auf (R, B(R)) besitzt genau dann
die Eigenschaft (Zµ ), d.h., µ ∈ Z, wenn µ eine stabile Verteilung ist.
Hierbei wird µ stabil genannt, wenn es für alle k ∈ N i.i.d. Zufallsvariablen
Y1 , . . . , Yk mit PY1 = µ und Konstanten ak ∈ R, bzw. bk > 0 gibt, so daß
P(Y1 +···+Yk −ak )/bk = µ.
Nach der Definition stabiler Verteilungen ist die erste Hälfte von Satz 4.19,
nämlich daß Z die Menge der stabilen Verteilungen umfaßt, offensichtlich.
Mit Hilfe von charakteristischen Funktionen lassen sich stabile Verteilungen µ
recht übersichtlich charakterisieren 4.92. Entweder ist µ eine Normalverteilung oder
es gibt einen Exponenten α ∈ (0, 2), so daß die charakteristische Funktion einer
= exp(iλ · µ) exp −
!
d
1 X
Ck,l λk λl ,
2 k,l=1
λ ∈ Rd ,
womit (4.19) gezeigt ist.
4.86
Vgl. [6], Theorem 11.10.
4.87Für k ∈ N sei X = (X , . . . , X
T
k
k,1
k,d ) .
4.88Satz 4.13 besagt, daß mit jeder Folge X , k ∈ N, von i.i.d. Zufallsvariablen, die (4.11)
k
erfüllen, die Gültigkeit von (Zµ ) für µ = N(0, 1) nachgewiesen werden kann. Wenn Xk , k ∈ N,
2
sogar quadratintegrabel
√ mit Var(X1 ) = σ ∈ (0, ∞) und E[X1 ] = m sind, impliziert Satz 4.10,
daß (aN , bN ) = (N m, N σ2 ), N ∈ N, gewählt werden kann.
4.89Aufgrund von Beispiel 4.4 kann (Z ) für i.i.d. Zufallsvariablen X , k ∈ N, mit P
µ1
X1 = µ1
k
verifiziert werden, wenn (aN , bN ) = (0, N ), N ∈ N, angenommen wird.
4.90Zur genauen Formulierung eines Resultats (R ) wäre insbesondere eine Menge K von
µ
µ
Wahrscheinlichkeitsmaßen auf (R, B(R)) anzugeben, so daß für alle Familien Xk , k ∈ N, von i.i.d.
Zufallsvariablen mit PX1 ∈ Kµ für eine geeignete Folge (aN , bN ), N ∈ N, mit bN > 0, N ∈ N,
P
die reskalierten Fluktuationen (SN − aN )/bN der Partialsummen SN = N
k=1 Xk bei N → ∞ in
Verteilung gegen eine Zufallsvariable η mit Verteilung Pη = µ konvergieren.
4.91Vgl. [7], Section 2.7, Theorem (7.15).
4.92Vgl. [6], Theorem 9.27 und Theorem 9.32.
22. Juli 2014
63
Zufallsvariable Y mit PY = µ die Darstellung R ∋ λ → ψY (λ) = exp(ϕ(λ)) mit
(
icλ − d|λ|α (1 + iκ sgn(λ) tan(πα/2)), λ ∈ R, α ∈ (0, 2) \ {1},
ϕ(λ) =
icλ − d|λ|(1 + iκ sgn(λ)2 log(|λ|)/π), λ ∈ R, α = 1,
wobei c ∈ R, d > 0, κ ∈ [−1, 1], besitzt 4.93.
4.2.5. Zentraler Grenzwertsatz für abhängige Zufallsvariablen. Durch das Beispiel 4.12 wird deutlich, daß für eine Folge Xk , k ∈ N, von reellwertigen, identisch
verteilten, quadratintegrablen Zufallsvariablen Abhängigkeiten zwischen diesen die
Gültigkeit eines Zentralen Grenzwertsatzes 4.94 verhindern können. Ein solches Resultat kann jedoch durchaus gelten, wenn nur für solche Zufallsvariablen Xk und
Xl , die benachbart“ sind, d.h., mit nicht zu großem Abstand |k−l|, eine merkliche
”
”
Abhängigkeit“ besteht.
Zu einer mathematischen Präzisierung dieser vagen Formulierungen sei X =
(Xk )k∈N ein reellwertiger, stationärer Prozeß 4.95 und α = (αk )k∈N eine Folge in
(0, ∞) mit limk→∞ αk = 0. X heißt α-mischend, wenn 4.96 4.97
(4.20) sup |P[A ∩ B] − P[A]P[B]| :
A ∈ σ(X1 , ..., Xn ), B ∈ σ(Xn+k , Xn+k+1 , ...), n ∈ N ≤ αk , k ∈ N.
Ein Beispiel für einen Zentralen Grenzwertsatz für abhängige Zufallsvariablen ist
nun 4.98:
Satz 4.20. 4.99 Sei X = (Xk )k∈N ein α-mischender, reellwertiger, stationärer Prozeß, wobei 4.100
(4.21)
E[|X1 |12 ] < ∞
αn = O(n−5 ) bei n → ∞.
PN
= (1/N ) k=1 Xk , N ∈ N. Dann gilt
und
Sei außerdem µ = E[X1 ] und ZN
√
(4.22)
lim N (ZN − µ) = ζ
N →∞
4.101
in Verteilung, wobei Pζ = N(0, σ 2 ).
Hierbei ist
(4.23)
σ 2 = lim
1
Var(X1 + · · · + XN )
N
∞
X
Var(X1 ) + 2
Cov(X1 , Xk ),
N →∞
=
4.102
k=2
4.93Für α = 1 und κ = 0 liegt eine Cauchy-Verteilung vor, vgl. hierzu Beispiel 4.4, wo die
charakteristische Funktion einer Zufallsvariable mit einer Cauchy-Verteilung
angegeben wird.
√
4.94D.h., die Konvergenz in Verteilung bei N → ∞ von N (1/N ) PN X − E[X ] gegen
1
k=1 k
eine normalverteilte Zufallsvariable.
4.95Vgl. Abschnitt 2.5.
4.96(4.20) besagt, daß die Abhängigkeit zweier Ereignisse gleichmäßig klein wird, sobald ihre
zeitliche Distanz“ groß wird. Jene Abnahme der Abhängigkeit bei wachsender zeitlicher Entfer”
nung kann durch die Folge α quantifiziert werden.
4.97
σ-Algebren σ(Φ), wobei Φ eine Familie von Zufallsvariablen ist, werden in Abschnitt 3.1.4
beschrieben.
4.98Weitere Beispiele können z.B. aus den in [7], Section 7.7, vorgestellten Resultaten entnommen werden. Insbesondere werden dort auch Zentrale Grenzwertsätze für Martingale, vgl.
Abschnitt 4.4, präsentiert.
4.99Vgl. [5], Theorem 27.4.
4.100Die Bedingungen (4.21) könnten abgeschwächt werden. Sie dienen der Vereinfachung des
Beweises von Satz 4.20, vgl. [5], Theorem 27.4.
4.101Als α-mischender stochastischer Prozeß ist X auch ergodisch, vgl. Fußnote 4.31. Als
Konsequenz folgt aus dem Ergodensatz, vgl. Abschnitt 4.1.3, daß limN→∞ ZN = µ, f.s. und in L1 .
22. Juli 2014
64
wobei die Reihe in (4.23) absolut konvergiert.
4.2.6. Ein funktionaler Zentraler Grenzwertsatz. 4.103 Wie beim Gesetz der
großen Zahlen 4.104 gibt es auch für den Zentralen Grenzwertsatz ∞-dimensionale
Varianten. Ein bekanntes Beispiel ist die
(4.24)
Konvergenz einer reskalierten symmetrischen Irrfahrt
”
gegen die Brownsche Bewegung“.
Formale Überlegungen zu (4.24) finden sich in Abschnitt 4.5.1 4.105, während eine
präzise Formulierung von (4.24) zusammen mit einem rigorosen Beweis in Beispiel 5.34 gegeben wird 4.106. In diesem Abschnitt 4.2.6 wird als Ausblick im wesentlichen eine Erläuterung der verschiedenen Begriffe in (4.24) gegeben:
• Für i.i.d. Zufallsvariablen ξk , k ∈ N, mit P[ξ1 = −1] = P[ξ1 = 1] = 1/2
ist in Z die symmetrische Irrfahrt 4.107 X = (Xn )n∈N0 durch 4.108
Xn =
n
X
n ∈ N0 ,
ξk ,
k=1
definiert.
• Reskalierte symmetrische Irrfahrten XN = (XtN )t≥0 , N ∈ N, ergeben sich
durch Anwendung der beim Zentralen Grenzwertsatz üblichen Reskalierung für Summen von i.i.d., quadratintegrablen Zufallsvariablen auf die
Irrfahrt X. Insbesondere ist 4.109
XtN
(4.25)
4.102Wenn P∞
k=2
⌊tN ⌋
1 X
√
ξk ,
=
N k=1
t ≥ 0, N ∈ N.
Cov(X1 , Xk ) absolut konvergiert, gilt
1
1
Var(X1 + · · · + XN ) =
N
N
N
X
X
Var(Xk ) +
k=1
!
Cov(Xk , Xl )
k,l=1,...,N
k6=l
|
=2
{z
N
N
X
X
}
Cov(Xk , Xl )
k=1 l=k+1
=
1
N
N Var(X1 ) + 2
= Var(X1 ) +
N→∞
→
N
N
X
X
k=1 l=k+1
Cov(X1 , Xl−k+1 )
N N−k+1
2 X X
Cov(X1 , Xm )
N k=1 m=2
Var(X1 ) + 2
∞
X
(da X stationär ist)
(mit der Variablensubstitution m = l−k+1)
Cov(X1 , Xm ).
m=2
4.103
Die Bezeichnung funktional deutet an, daß ein Zentraler Grenzwertsatz in einem Funktionenraum betrachtet wird. In diesem Abschnitt ist dies C([0, T ]; R) für T > 0, vgl. Beispiel 3.2.
4.104
Vgl. Abschnitt 4.1.4.
4.105Jene formalen Überlegungen dienen dazu, Eigenschaften des Grenzprozesses“ reskalier”
ter Irrfahrten festzuhalten. Diese Eigenschaften führen letztendlich in Abschnitt 4.5.1 zu einer
Definition der Brownschen Bewegung.
4.106Beispiel 5.34 ist ein Spezialfall des Donskerschen Invarianzprinzips, vgl. Satz 5.35, des
klassischen funktionalen und damit ∞-dimensionalen Zentralen Grenzwertsatzes.
4.107Vgl. Beispiel 2.9 und Fußnote 2.69.
4.108Man beachte, daß insbesondere X = 0 festgesetzt wird.
0
4.109Analog zu (4.8) wird für jedes t > 0 eine Summe von O(N ) i.i.d., quadratintegrablen
√
Zufallsvariablen mit Erwartungswert 0 durch N dividiert.
22. Juli 2014
65
Um die symmetrische Irrfahrt als stochastischen Prozeß zu reskalieren,
wird in (4.25) die für den Zentralen Grenzwertsatz übliche Reskalierung
simultan für alle Zeitpunkte t ≥ 0“ angewandt 4.110.
”
• Durch lineare Interpolation zwischen den Sprungzeitpunkten, d.h., mit
etN
X
:=
(
N
N
(n+1−tN )Xn/N
+(tN −n)X(n+1)/N
, t ∈ (n/N, (n+1)/N ),
N
Xn/N
,
t = n/N,
n ∈ N0 ,
N ∈ N,
e N = (X
e N )t≥0 der Prozesse XN .
entstehen stetige Approximationen X
t
• Die Brownsche Bewegung B = (Bt )t≥0 ist ein reellwertiger stochastischer Prozeß mit stetigen Pfaden 4.111 und B0 = 0, f.s., dessen endlichdimensionale Verteilungen 4.112 durch die durch 4.113
(4.26)
P[Bt1 ∈ A1 , Bt2 ∈ A2 , . . . , Btn ∈ An ]
Z
Z
dx2 πt2 −t1 (x1 , x2 )
dx1 πt1 (0, x1 )
=
A2
A1
Z
dxn πtn −tn−1 (xn−1 , xn ),
...
An
0 < t1 < · · · < tn < ∞, A1 , . . . , An ∈ B(R), n ∈ N,
mit
(y − x)2
1
exp −
,
πu (x, y) = √
2u
2πu
x, y ∈ R, 0 < u < ∞,
charakterisierten Normalverteilungen gegeben sind.
e N , N ∈ N, und B auf das Zeitinter• Für T > 0 seien die stetigen Prozesse X
vall [0, T ] eingeschränkt. Jene Prozesse können nun auch als Zufallsvariablen mit Werten in 4.114 (C([0, T ]; R), B(C([0, T ]; R))) betrachtet werden.
Der durch (4.24) umschriebene funktionale Zentrale Grenzwertsatz lautet
jetzt 4.115
e N = B, in Verteilung.
lim X
N →∞
4.110Aufgrund von (4.25) ist XN ein reellwertiger stochastischer Prozeß, der in 0 startet und
in √
den Zeitpunkten
√ n/N , n ∈ N0 , jeweils mit Wahrscheinlichkeit 1/2 einen Sprung der Größe
1/ N , bzw. −1/ N macht. In den Zeitintervallen [n/N, (n + 1)/N ), n ∈ N0 , ist XN konstant. In
allen Sprungzeitpunkten n/N , n ∈ N0 , ist die Sprungrichtung unabhängig von der Vergangenheit
XuN , u < n/N , von XN .
4.111Falls ein stochastischer Prozeß X = (X )
t t≥0 auf dem Wahrscheinlichkeitsraum (Ω, F, P)
definiert ist, bedeutet die Stetigkeit der Pfade, daß P[{ω ∈ Ω : [0, ∞) → Xt (ω) stetig}] = 1.
4.112Die Verteilung eines reellwertigen stochastischen Prozesses X = (X )
t t≥0 mit stetigen
Pfaden ist durch seine endlich-dimensionalen Verteilungen, d.h., durch die Größen
P[Xt1 ∈ A1 , Xt2 ∈ A2 , . . . , Xtn ∈ An ],
0 ≤ t1 < · · · < tn < ∞, A1 , . . . , An ∈ B(R), n ∈ N,
eindeutig bestimmt.
4.113
Eine Begründung, bzw. Herleitung von (4.26) findet sich in Abschnitt 4.5.2, vgl. (4.81).
4.114Vgl. Beispiel 3.2. Für einen auf einem Wahrscheinlichkeitsraum (Ω, F, P) definierten
stetigen, reellwertigen Prozeß X = (Xt )0≤t≤T ist durch die Zuordnung Ω ∋ ω → ([0, T ] ∋ t →
Xt (ω)) eine C([0, T ]; R)-wertige Zufallsvariable gegeben.
4.115In Fußnote 3.75 wurde daraufhingewiesen, daß die Konvergenz in Verteilung auch für
Zufallsvariablen mit Werten in topologischen Räumen betrachtet werden kann.
22. Juli 2014
66
4.3. Markovprozesse. Die elementarsten Beispiele für Markovprozesse 4.116
sind Markovketten, d.h. Markovprozesse in diskreter Zeit mit Werten in einem diskreten, d.h. höchstens abzählbaren Zustandsraum. Neben solchen Prozessen wird
in diesem Abschnitt auch auf Markovprozesse mit einem diskreten Zustandsraum,
aber in kontinuierlicher Zeit eingegangen.
4.3.1. Markovketten. Ein stochastischer Prozeß X = (Xn )n∈N0 in diskreter Zeit
mit Werten in einem höchstens abzählbaren Zustandsraum S heißt Markovkette,
falls 4.117
(4.27) P Xn+k = s′ | X0 = s0 , . . . , Xn−1 = sn−1 , Xn = sn
{z
} | {z }
| {z } |
Zukunft
Vergangenheit
= P Xn+k = s′ |Xn = sn ,
Gegenwart
n ∈ N0 , k ∈ N, s0 , s1 , . . . , sn , s′ ∈ S.
Zur Charakterisierung der zukünftigen Entwicklung einer Markovkette reicht
also die Kenntnis des gegenwärtigen Zustandes aus. Die Kenntnis der zeitlichen
Entwicklung in der Vergangenheit bringt in diesem Fall keinen Informationsgewinn.
Die bedingten Wahrscheinlichkeiten
Pn (s1 , s2 ) = P Xn+1 = s2 |Xn = s1 , s1 , s2 ∈ S, n ∈ N0 ,
heißen (1-Schritt-) Übergangswahrscheinlichkeiten. Sie werden zu den (1-Schritt-)
Übergangsmatrizen Pn = (Pn (s, s′ ))s,s′ ∈S , n ∈ N0 , zusammengefaßt. Eine Markovkette besitzt stationäre Übergangswahrscheinlichkeiten, falls Pn = P unabhängig
von n ist 4.118.
Unter der Verteilung einer Markovkette X = (Xn )n∈N0 versteht man die gemeinsame Verteilung der Zufallsvariablen 4.119 Xn , n ∈ N0 .
Satz 4.21. 4.120 Die Verteilung einer Markovkette X = (Xn )n∈N0 mit einem diskreten Zustandsraum S ist durch ihre Übergangsmatrizen und ihre Anfangsverteilung,
d.h., die Verteilung PX0 von X0 , eindeutig bestimmt. Es gilt
(4.28) P X0 = s0 , X1 = s1 , . . . , Xn−1 = sn−1 , Xn = sn
= PX0 [s0 ]P0 (s0 , s1 ) · · · Pn−1 (sn−1 , sn ),
s0 , s1 , . . . , sn ∈ S, n ∈ N0 .
Im Rest dieses Abschnitts werden nur Markovketten mit stationären Übergangswahrscheinlichkeiten betrachtet.
Beispiel 4.22. Sei ζn , n ∈ N, eine Folge von unabhängigen, identisch verteilten
Zufallsvariablen mit Werten in Z. Außerdem sei X = (Xn )n∈N0 durch
X0 = 0,
Xk =
k
X
ζl ,
k = 1, 2, . . . ,
l=1
4.116Eine kurze, allgemeine Beschreibung von Markovprozessen wurde in Abschnitt 2.5, insbesondere in Fußnote 2.73, gegeben.
4.117Stillschweigend sei angenommen, daß P[X = s , . . . , X = s ] > 0. Nur in diesem Fall
n
n
0
0
sind mit (2.9) die beiden Seiten von (4.27) wohldefiniert.
4.118In diesem Fall besitzt die Markovkette X eine zeitlich homogene Dynamik. Allerdings ist
eine Markovkette mit stationären Übergangswahrscheinlichkeiten i. allg. kein stationärer Prozeß,
vgl. Abschnitt 2.5. Dies wird am Beispiel der im Ursprung startenden symmetrischen Irrfahrt, vgl.
Satz 4.23, deutlich.
4.119Vgl. Abschnitt 2.2.1.
4.120Ein Beweis dieses Satzes ist in Anhang A.4.3 enthalten. Dort wird auch erläutert,
inwiefern die Verteilung von X als ein Wahrscheinlichkeitsmaß PX auf dem meßbaren Raum
(S N0 , Pot(S)⊗N0 ) betrachtet werden kann. Vgl. dazu auch Fußnote 2.34.
22. Juli 2014
67
definiert. X ist eine Markovkette mit dem Zustandsraum Z und der Übergangsmatrix 4.121
P = (P[Xn+1 = q|Xn = p])p,q∈Z = (P[ζn+1 = q − p])p,q∈Z


..
..
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


 . . . a0
a1
a2 . . . . . . . 


. . . a−1 a0
a 1 a 2 . . .

,
= (P[ζ1 = q − p])p,q∈Z = 

 . . . . . . . . a−1 a0 a1 . . .
. . . . . . . . . . . . . . a−1 a0 . . .


.. ..
.
.
....................
(4.29)
wobei ak = P[ζ1 = k], k ∈ Z. Ein Spezialfall ist die schon in Beispiel 2.9 vorgestellte
symmetrische Irrfahrt, für die a−1 = a1 = 1/2 und ak = 0, k ∈ Z \ {−1, 1}, ist.
Als Verallgemeinerung der (1-Schritt-)Übergangswahrscheinlichkeiten werden
die n-Schritt-Übergangswahrscheinlichkeiten durch
P n (s1 , s2 ) = P[Xn+m = s2 |Xm = s1 ]
4.122
,
m, n ∈ N0 , s1 , s2 ∈ S,
definiert. Diese n-Schritt-Übergangswahrscheinlichkeiten genügen der ChapmanKolmogorov-Gleichung, d.h., 4.123
X
(4.30) P n (s1 , s2 ) =
P k (s1 , s)P l (s, s2 ), k, l, n ∈ N0 , k + l = n, s1 , s2 ∈ S.
s∈S
Im Rest diese Abschnitts 4.3.1 werden im Rahmen von zwei speziellen Beispielen allgemeine Fragestellungen zur Asymptotik von Markovketten bei großen Zeiten
angesprochen.
Satz 4.23.
4.124
Sei X = (Xn )n∈N0 die symmetrische Irrfahrt in Zd , d.h.,
X0 = 0, f.s.,
P[Xn+1 = k ± eq |Xn = k] =
1
,
2d
n ∈ N0 , k ∈ Zd , q = 1, . . . , d.
Dann gilt
P[Xn = 0 für ein n = 1, 2, . . . ]
(
= 1,
< 1,
4.125
falls d = 1, 2,
falls d = 3, 4, . . . .
4.121In den Übergangsmatritzen der in diesem Beispiel beschriebenen verallgemeinerten Irr-
fahrten geht jeweils die (n + 1)-te Zeile aus der n-ten Zeile durch Verschieben um eine Spalte
”
nach rechts“ hervor.
4.122Da hier nur Markovketten mit stationären Übergangswahrscheinlichkeiten betrachtet
werden, sind P[Xn+m = s2 |Xm = s1 ], m, n ∈ N0 , s1 , s2 ∈ S, von m unabhängig.
4.123Der Weg vom Startpunkt s nach s in n Schritten führt durch einen Zwischenzustand
1
2
s ∈ S nach k Schritten. Wegen der Markoveigenschaft hat bedingt unter dem Start in s1 der
k Schritte
l Schritte
Weg s1 −−−−−−−→ s −−−−−−→ s2 für ein festes s die Wahrscheinlichkeit P k (s1 , s)P l (s, s2 ), vgl.
Satz 4.21. Die Übergänge durch die verschiedenen möglichen Zwischenzustände s entsprechen
disjunkten Ereignissen, d.h., ihre jeweiligen unter dem Start in s1 bedingten Wahrscheinlichkeiten
addieren sich zur gesamten unter dem Start in s1 bedingten Wahrscheinlichkeit P n (s1 , s2 ), nach
n Schritten s2 zu erreichen.
4.124Vgl. z.B. [20], Chapter 2, Section 6, Example 1 - 3. Jene Überlegungen basieren auf
[20], Chapter 2, Theorem 5.1, einem allgemeinen Rekurrenzkriterium für Markovketten.
4.125e ist der Einheitsvektor in die q-te Koordinatenrichtung. Bei der symmetrischen Irrq
fahrt werden zu jedem Zeitpunkt im nächsten Schritt alle 2d Nachbarpunkte mit gleicher Wahrscheinlichkeit erreicht. Bei einer nichtsymmetrischen Irrfahrt sind diese Sprungwahrscheinlichkeiten unterschiedlich.
22. Juli 2014
68
700
600
500
|X|
400
300
200
100
0
0
20000
40000
60000
80000
100000
Zeit
Abbildung 4.2. Betrag der symmetrischen Irrfahrt in Z2 . Zeitdauer = 100000, 4 Simulationen.
Satz 4.23 besagt, daß für d = 1 und d = 2 die symmetrische Irrfahrt in Zd
rekurrent ist, d.h., sie kehrt f.s. wieder an ihren Startpunkt 0 zurück. Für d ≥ 3 andererseits ist die symmetrische Irrfahrt transient, d.h., sie kehrt mit einer positiven
Wahrscheinlichkeit nie wieder an ihren Startpunkt 0 zurück 4.126.
Das Resultat von Satz 4.23 wird in den Abbildungen 4.2 - 4.4 durch Darstellungen von Simulationsergebnissen verdeutlicht 4.127.
Beispiel 4.24. Zur Modellierung der zeitlichen Entwicklung einer Population sei
angenommen, daß
•
•
•
•
die Menge der Zeitpunkte diskret ist, daß es
keine Unterschiede zwischen den einzelnen Individuen gibt
die Individuen voneinander unabhängig sind, und daß
ihre Lebensdauer gleich 1 ist 4.129.
4.128
, daß
Diese Vorgaben werden bei der mathematischen Modellierung realisiert durch die
Annahme, daß zu jedem Zeitpunkt n ∈ N0 jedes dann lebende Individuum unabhängig von den anderen eine zufällige Anzahl von Nachkommen hat und dann
stirbt. Die Anzahl der Nachkommen habe die Verteilung b = (bk )k∈N0 .
Für n ∈ N0 sei Xn die Größe der Population zum Zeitpunkt n. Außerdem sei
ζnl , n ∈ N0 , l ∈ N, eine Familie von N0 -wertigen, i.i.d. Zufallsvariablen mit der
4.126Die Charakterisierung von Rekurrenzeigenschaften ist ein typisches Problem bei der
Untersuchung von Markovketten, vgl. z.B. [20], Chapter 2, Sections 5 - 7.
4.127Diese Simulationen demonstrieren, daß die symmetrische Irrfahrt in Zd eine mit wachsendem d geringer werdende Tendenz, zum Startpunkt zurückzukehren, besitzt.
4.128Insbesondere gibt es nur ein Geschlecht.
4.129Der auf diesen Modellannahmen basierende, hier vorgestellte einfache Verzweigungsprozeß läßt sich auf Bemühungen im 18. und 19. Jahrhundert, das Anwachsen und Aussterben
von Adelsfamilien zu beschreiben, zurückführen. In einem solchen Zusammenhang entspricht eine
Zeiteinheit einer Generation.
22. Juli 2014
69
250
200
|X|
150
100
50
0
0
2000
4000
6000
8000
10000
Zeit
Abbildung 4.3. Betrag der symmetrischen Irrfahrt in Z3 . Zeitdauer = 10000, 10 Simulationen.
500
450
400
350
|X|
300
250
200
150
100
50
0
0
2000
4000
6000
8000
10000
Zeit
Abbildung 4.4. Betrag der symmetrischen Irrfahrt in Z10 . Zeitdauer = 10000, 2 Simulationen.
Verteilung
4.130
b, d.h., P[ζnl = m] = bm , n, m ∈ N0 , l ∈ N. Der stochastische
4.130Mit der Zufallsvariablen ζ l kann die Anzahl der Nachkommen des l-ten zur Zeit n
n
lebenden Individuums modelliert werden. Da die Populationsgröße zur Zeit n a priori unbekannt
l für alle n ∈ N eingeführt.
ist, werden die Zufallsvariablen ζn
22. Juli 2014
70
Prozeß X = (Xn )n∈N0 kann nun durch die Beziehung
(4.31)
Xn+1 =
Xn
X
ζnl ,
l=1
n ∈ N0 ,
repräsentiert werden. X ist eine Markovkette mit Zustandsraum S = N0 und den
Übergangswahrscheinlichkeiten
(4.32) P[Xn+1 = k|Xn = j] =
=
P[ζn1 + · · · + ζnj = k]

X
4.132

bl1 · · · blj , j ∈ N, n, k ∈ N0 ,


4.131
l1 ,...,lj =0,1,...,k
l1 +···+lj =k


4.133 δ ,
k,0
j = 0, n, k ∈ N0 .
Das durch (4.31) oder (4.32) zusammengefaßte Modell wird auch Galton-WatsonProzeß genannt.
Angesichts von Simulationsergebnissen, wie z.B. in Abbildung 4.5, drängen sich
die folgenden Fragen auf.
• Unter welchen Bedingungen, bzw. mit welcher Wahrscheinlichkeit stirbt
ein Galton-Watson-Prozeß aus?
• Wie sieht unter der Bedingung, daß die Population nicht ausstirbt, das
asymptotische Verhalten von Xn bei n → ∞ aus?
Satz 4.25. 4.134 Sei X = (Xn )n∈N0 der Galton-Watson-Prozeß zur
P∞Nachkommit
X
=
1.
Insbesondere
seien
m
=
mensverteilung
b
=
(b
)
0
k
k∈N
0
k=0 kbk und
P∞
σ 2 = k=0 k 2 bk − m2 Erwartungswert und Varianz von b 4.135. Dann gilt 4.136

1,



1,
(4.33) P[Xn = 0 für ein n ∈ N0 ] 4.137 = q =
ρ ∈ (0, 1),



0,
falls
falls
falls
falls
m < 1, 4.138
m = 1, b0 > 0,
m > 1, b0 > 0,
b0 = 0. 4.140
4.139
4.131Vgl. (4.31).
4.132Die Wahrscheinlichkeit, daß das 1. Individuum l Nachkommen, das 2. Individuum l
1
2
Nachkommen, . . . und das j. Individuum lj Nachkommen hat, ist aufgrund der Unabhängigkeit
der Individuen gleich bl1 bl2 · · · blj . Die hier angesprochenen Ereignisse sind für unterschiedliche
Sequenzen l1 , l2 , . . . , lj disjunkt, d.h., ihre jeweiligen Einzelwahrscheinlichkeiten addieren sich. In
(4.32) findet auch die Annahme, daß die einzelnen Individuen nach der Erzeugung ihrer Nachkommen sterben, Beachtung.
4.133
Wenn Xn = 0, so ist die Population zum Zeitpunkt n und damit auch in den zukünftigen
Zeitpunkten n + 1, n + 2, . . . ausgestorben. In diesem Fall folgt Xn+1 = Xn+2 = · · · = 0, f.s.
4.134Vgl. [17], Chapter 2, insbesondere Theorem (2.3.1) und Lemma (2.9.1). Satz 4.25 wird
in Anhang A.4.4 und in Abschnitt 4.4, vgl. insbesondere Beispiele 4.36 und 4.44, bewiesen werden.
4.135m ist damit die mittlere Nachkommenszahl eines Individuums.
4.136
Die Fälle m < 1 und m = 1, b0 > 0 werden in Beispiel 4.36 im Rahmen einer Anwendung
eines Konvergenzsatzes für Submartingale diskutiert. Die genaue Behandlung des Falls m > 1,
b0 > 0 findet sich im Anhang A.4.4. Der Fall b0 = 0 ist trivial.
22. Juli 2014
71
3000
Bevoelkerungsgroesse
2500
2000
1500
1000
500
0
0
20
40
60
80
100
Zeit
Abbildung 4.5. 20 Simulationen eines Verzweigungsprozesses
mit b0 = 0.25, b1 = 0.5, b2 = 0.2 und b3 = 0.05. In 3 Fällen
überlebt die Population bis zum Zeitpunkt 100.
Hierbei ist ρ die kleinste Lösung von
(4.34)
s = φb (s) =
4.141
∞
X
b k sk ,
k=0
s ∈ [0, 1].
e mit
Wenn m > 1 und σ 2 < ∞, gibt es eine [0, ∞)-wertige Zufallsvariable X
4.142
4.143 4.144
2
2
e
Var(X) = σ /(m − m)
, so daß
Xn
e f.s. und in L2 .
=X
mn
4.3.2. Markovprozesse in kontinuierlicher Zeit mit diskretem Zustandsraum.
Ein stochastischer Prozeß X = (Xt )t≥0 4.145 mit Werten in einem diskreten, d.h.,
(4.35)
lim
n→∞
4.137Wenn X = 0 für ein n ∈ N , so ist offensichtlich X = 0 für alle k = n, n + 1, . . . , d.h.,
n
0
k
die Population stirbt aus. q ist daher die Aussterbewahrscheinlichkeit.
4.138
Wenn in einer Population im Mittel weniger Individuen geboren werden als sterben,
stirbt diese aus.
4.139
Wenn b0 > 0 hat jedes Individuum mit positiver Wahrscheinlichkeit keinen Nachkommen. Daher besteht zu jedem Zeitpunkt mit positiver Wahrscheinlichkeit die Möglichkeit, daß die
Population ausstirbt. Die Aussterbewahrscheinlichkeit ist folglich auf jeden Fall strikt positiv.
4.140
Jedes Individums hat mindestens einen Nachkommen. In diesem Fall kann die Population
nicht aussterben.
4.141φ mit φ (s) = P∞ b sk , s ∈ [0, 1], ist die erzeugende Funktion der Nachkommensb
b
k=0 k
verteilung b.
4.142Wenn σ2 > 0, ist Var(X)
e > 0. Dann ist X
e nichttrivial, d.h., nicht in einem Punkt
konzentriert.
n→∞ e
4.143
e > 0, liegt geometrisches oder exponentielles
Es gilt somit Xn ∼ X
· mn , d.h., wenn X
Wachstum vor, vgl. Abbildung 4.5.
4.144
Die f.s.-Konvergenz in (4.35) folgt aus einem Konvergenzsatz für Submartingale, vgl.
Satz 4.34 und Beispiel 4.36. Zum Nachweis der L2 -Konvergenz wird in Beispiel 4.44 ebenfalls mit
Martingaltechniken gearbeitet.
4.145Das Zeitintervall kann auch beschränkt sein, z.B. [a, b], 0 ≤ a < b < ∞.
22. Juli 2014
72
höchstens abzählbaren Zustandsraum S 4.146 heißt Markovprozeß, falls 4.147
(4.36)
P[Xt+h = sσ(Xu , 0 ≤ u ≤ t)] 4.148 = P[Xt+h = sσ(Xt )] 4.149,
t, h ≥ 0, s ∈ S.
Die bedingten Wahrscheinlichkeiten
Pt,t′ (s, s′ ) = P[Xt′ = s′ |Xt = s],
0 ≤ t ≤ t′ < ∞, s, s′ ∈ S,
die die rechte Seite von (4.36) bestimmen 4.150, heißen Übergangswahrscheinlichkeiten. Diese können zu den Übergangsmatrizen Pt,t′ = (Pt,t′ (s, s′ ))s,s′ ∈S , 0 ≤ t ≤ t′ <
∞, zusammengefaßt werden.
Ein Markovprozeß ist durch seine Übergangswahrscheinlichkeiten vollständig
charakterisiert.
Satz 4.26. 4.151 Die Verteilung eines Markovprozesses X = (Xt )t≥0 mit diskretem
Zustandsraum S ist eindeutig durch die Wahrscheinlichkeiten
(4.37)
P Xt1 = s1 , Xt2 = s2 , . . . , Xtn = sn ,
0 ≤ t1 < t2 < · · · < tn < ∞, s1 , s2 , . . . , sn ∈ S, n ∈ N,
bestimmt 4.152. Diese sind durch die Übergangswahrscheinlichkeiten und die Anfangsverteilung PX0 charakterisiert. Es gilt
(4.38)
P X0 = s0 , Xt1 = s1 , Xt2 = s2 , . . . , Xtn = sn
= PX0 [s0 ]P0,t1 (s0 , s1 )Pt1 ,t2 (s1 , s2 ) . . . Ptn−1 ,tn (sn−1 , sn ),
0 < t1 < t2 < · · · < tn < ∞, s0 , s1 , . . . , sn ∈ S, n ∈ N.
Wie im zeitlich diskreten Fall bestehen gewisse Beziehungen zwischen den
Übergangswahrscheinlichkeiten. So gilt auch hier die Chapman-Kolmogorov-Gleichung 4.153
X
(4.39)
Pt1 ,t2 (s1 , s2 )Pt2 ,t3 (s2 , s3 ) = Pt1 ,t3 (s1 , s3 ),
s2 ∈S
0 ≤ t1 ≤ t2 ≤ t3 < ∞, s1 , s3 ∈ S.
4.146Wie üblich wird in S die σ-Algebra S = Pot(S) betrachtet.
4.147
Jetzt werden bedingte Wahrscheinlichkeiten bzgl. einer σ-Algebra, vgl. Abschnitt 3.8, benutzt. Der elementare Begriff der bedingten Wahrscheinlichkeit, vgl. Abschnitt 2.4, ist letztendlich
nicht ausreichend.
4.148Hier ist die bedingte Wahrscheinlichkeit für ein zukünftiges Ereignis {X
t+h = s} bzgl.
der σ-Algebra σ(Xu , 0 ≤ u ≤ t) aller durch Xu , 0 ≤ u ≤ t, bestimmten Ereignisse, d.h., der
σ-Algebra aller (bzgl. X) vergangenen und gegenwärtigen Ereignisse, gemeint.
4.149
Dies ist die bedingte Wahrscheinlichkeit bzgl. der die Gegenwart des Prozesses X beschreibenden σ-Algebra σ(Xt ).
4.150Es ist zu beachten, daß für t ≥ 0 die σ-Algebra σ(X ) durch die disjunkten Ereignisse
t
{Xt = s′ }, s′ ∈ S, erzeugt wird, vgl. Abschnitt 3.1.4. Mit Beispiel 3.26 folgt daher
P[Xt+h = s|σ(Xt )](ω) =
X
I{ω ′ ∈Ω:Xt (ω ′ )=s′ } (ω)
s′ ∈S
=
X
E[I{Xt+h =s} I{Xt =s′ } ]
P[Xt = s′ ]
I{ω ′ ∈Ω:Xt (ω ′ )=s′ } (ω)P[Xt+h = s|Xt = s′ ],
s′ ∈S
ω ∈ Ω,
t, h ≥ 0, s ∈ S.
4.151Satz 4.26 entspricht dem sich auf den zeitlich diskreten Fall beziehenden Satz 4.21.
4.152Durch die Größen in (4.37) bzw. in (4.38) kann den endlich-dimensionalen Rechtecken
in (S [0,∞) , Pot(S)⊗[0,∞) ) jeweils eine Wahrscheinlichkeit zugeordnet werden. Diese Zuordnung
kann anschließend durch eine Anwendung von Satz 3.8 zu einem Wahrscheinlichkeitsmaß PX auf
(S [0,∞) , Pot(S)⊗[0,∞) ) erweitert werden. PX ist die Verteilung des Prozesses X. Details zu diesen
Argumenten im zeitlich diskreten Fall finden sich in Anhang A.4.3.
4.153Vgl. die zeitlich diskrete Variante (4.30) und zu deren Begründung auch Fußnote 4.123.
22. Juli 2014
73
Ein direktes Analogon zu den 1-Schritt-Übergangswahrscheinlichkeiten aus Abschnitt 4.3.1 existiert im zeitlich kontinuierlichen Fall nicht 4.154. Stattdessen spielen
die infinitesimalen Übergangswahrscheinlichkeiten (Übergangsraten oder -intensitäten) 4.155
(4.40) λt (s, s′ ) =
4.156 4.157
lim
h→0
1
P[Xt+h = s′ |Xt = s],
h
t ≥ 0, s, s′ ∈ S, s 6= s′ ,
eine große Rolle bei der Beschreibung und Untersuchung der Markovprozesse dieses
Abschnitts. Insbesondere besitzen solche Markovprozesse f.s. nur Sprünge mit strikt
positiver Übergangsintensität 4.158.
Bei der Modellierung von zufälligen zeitlichen Entwicklungen in der Physik oder
der Biologie durch Markovprozesse
• sind oft die Übergangsraten leicht zugänglich 4.159.
• Die Übergangswahrscheinlichkeiten ergeben sich dann durch Lösen eines
geeigneten Systems gewöhnlicher Differentialgleichungen 4.160.
Die von nun an betrachteten Markovprozesse haben stationäre Übergangswahrscheinlichkeiten, d.h., 4.161
Pt,t′ (s, s′ ) = Pt′ −t (s, s′ ),
0 ≤ t ≤ t′ < ∞, s, s′ ∈ S.
In diesem Fall sind die infinitesimalen Übergangswahrscheinlichkeiten von der Zeit
unabhängig 4.162.
Beispiel 4.27 (Poisson-Prozeß). Der Poisson-Prozeß X = (Xt )t≥0 ist ein N0 wertiger Markovprozeß mit endlich vielen Sprüngen der Größe +1 in jedem beschränkten Zeitintervall, der zwischen den Sprungzeitpunkten konstant bleibt.
Dieser einfache, aber wichtige Prozess spielt in vielen Anwendungen eine Rolle.
Beispielsweise kann für t ≥ 0 die Zufallsvariable Xt
• die Anzahl der an einem Servicepunkt im Zeitintervall [0, t] ankommenden
Kunden,
• die Anzahl der Zerfälle eines radioaktiven Präparats in [0, t] oder
• die Anzahl der Verkehrsunfälle in [0, t] an einer bestimmten Kreuzung
modellieren.
4.154Insbesondere gibt es keine elementare Zeiteinheit“ 1, so daß die Differenz zwischen zwei
”
verschiedenen Zeitpunkten ein ganzzahliges Vielfaches von 1 ist.
4.155Zur Existenz der Limiten in (4.40) vgl. Satz 4.28.
4.156Die infinitesimalen Übergangsraten λ (s, s′ ), s, s′ ∈ S, s 6= s′ , t ≥ 0, sind nichtnegativ.
t
4.157
Eine äquivalente Formulierung von (4.40) ist: P[Xt+h = s′ |Xt = s] = λt (s, s′ )h + o(h)
bei h → 0, t ≥ 0, s, s′ ∈ S, s 6= s′ .
4.158
Ist beispielsweise der Markovprozeß X = (Xt )t≥0 konservativ, vgl. (4.43), so ist
P
′
{s′ ∈S:s′ 6=s} λt (s, s ) < ∞. In diesem Fall ist die Wahrscheinlichkeit, daß ein Sprung im Zeitpunkt
P
′ −1 , vgl.
t, mit dem s verlassen wird, zum Zustand s′′ führt, gleich λt (s, s′′ )
{s′ ∈S:s′ 6=s} λt (s, s )
Abschnitt 4.3.3 und insbesondere Fußnote 4.190.
4.159Beispielsweise sind Zerfalls-, Geburts- oder Todesraten häufig vorgegeben oder einfach
zu bestimmen.
4.160Vgl. Satz 4.29 und auch Fußnote 4.178. Für einen speziellen Prozeß, den in Beispiel 4.27
beschriebenen Poisson-Prozeß, wird ein solches System gewöhnlicher Differentialgleichungen in
Anhang A.4.5 abgeleitet und gelöst.
4.161Die nun diskutierten Prozesse besitzen somit eine zeitlich stationäre Dynamik.
4.162Vgl. (4.40). Es gilt also λ (s, s′ ) = λ(s, s′ ), t ≥ 0, s, s′ ∈ S, s 6= s′ .
t
22. Juli 2014
74
In diesen Beispielen ist die Qualität des Poisson’schen Modells“ gut, wenn die
”
jeweiligen äußeren Bedingungen zeitlich konstant sind 4.163, d.h., wenn keine bevorzugten Einkaufszeiten der Kunden bestehen, bzw. die Halbwertszeit des radioaktiven Präparats groß ist, bzw. keine zeitlichen Verkehrsschwankungen zu beobachten
sind 4.164.
Ein Markovprozeß X = (Xt )t≥0 mit Werten in N0 heißt Poisson-Prozeß mit
Intensität (oder Übergangsintensität oder Rate) λ > 0, falls 4.165
1
(4.41)
lim P[Xt+h = n + 1|Xt = n] = λ,
hց0 h
1
lim P[Xt+h ∈
/ {n, n + 1}|Xt = n] = 0, n ∈ N0 , t ≥ 0.
hց0 h
Durch die Beziehungen in (4.41) wird die Bestimmung der Übergangswahrscheinlichkeiten des Poisson-Prozesses ermöglicht, vgl. Anhang A.4.5 4.166.
Die infinitesimalen Übergangswahrscheinlicheiten wurden in (4.40) als Grenzwerte eingeführt. Wie jetzt im zeitlich stationären Fall erläutert wird, existieren sie
unter vernünftigen Bedingungen 4.167.
Die Größen Pt (s, s′ ), t > 0, s, s′ ∈ S, bilden eine standard Familie von Übergangswahrscheinlichkeiten, falls 4.168
(a) P
Pt (s, s′ ) ≥ 0, t > 0, s, s′ ∈ S,
(b) Ps′ ∈S Pt (s, s′ ) = 1, t > 0, s ∈ S,
′
′ ′′
′′
t, u > 0, s, s′′ ∈ S, und falls
(c)
s′ ∈S Pt (s, s )Pu (s , s ) = Pt+u (s, s ),
′
′
(d) die Funktionen (0, ∞) ∋ t → Pt (s, s ), s, s ∈ S, stetig sind mit limtց0 Pt (s, s′ ) =
δs,s′ , s, s′ ∈ S.
Es stellt sich heraus, daß die Bedingungen (a) - (d) die Existenz der Übergangsintensitäten sicherstellen 4.169.
Satz 4.28. 4.170 Sei X = (Xt )t≥0 ein Markovprozeß mit Werten in S und einer
standard Familie von Übergangswahrscheinlichkeiten. Dann existiert für s ∈ S der
Grenzwert 4.171
d
1
(4.42a)
− Pt (s, s) = lim
1 − Ph (s, s) = λ(s)
hց0
dt
h
t=0
in [0, ∞]
(4.42b)
4.172
. Außerdem existiert für s, s′ ∈ S mit s 6= s′ der Grenzwert
d
Ph (s, s′ )
Pt (s, s′ ) = lim
= λ(s, s′ )
hց0
dt
h
t=0
4.163Falls die äußeren Bedingungen“ zeitlich langsam veränderlich sind, ist das Poisson’sche
”
Modell evtl. (zeitlich) lokal brauchbar.
4.164
Die Rate, mit der die zu zählenden Geschehnisse jeweils eintreten, muß zeitlich (nahezu)
konstant sein.
4.165Aus (4.41) folgt insbesondere auch lim
hց0 (1/h)(1 − P[Xt+h = n|Xt = n]) = λ, n ∈ N0 ,
t ≥ 0.
4.166Die wesentliche Aufgabe bei dieser Bestimmung der Übergangswahrscheinlichkeiten ist
die Lösung eines geeigneten Systems gewöhnlicher Differentialgleichungen.
4.167In [21], Chapter 14, wird die nun behandelte Thematik ausführlicher dargestellt.
4.168Für ein festes t > 0 ist P nach (a) und (b) eine stochastische Matrix. Nach (c) erfüllen
t
die Matrizen Pt , t > 0, die Chapman-Kolmogorov-Gleichung (4.39). Die letzte Bedingung (d) ist
eine Regularitätsbedingung, die von vernünftigen Prozessen erwartet werden kann.
4.169Es ist bemerkenswert, daß in (d) nur eine Stetigkeitseigenschaft gefordert wird. Andererseits sind in (4.40) oder Satz 4.28 die Übergangsintensitäten durch Ableitungen definiert.
4.170Vgl. [21], Chapter 14, Theorem 1.1 und Theorem 1.2.
4.171Die jeweils erste Gleichheit in den beiden Beziehungen (4.42) wird plausibel, wenn
P0 (s, s′ ) = limtց0 Pt (s, s′ ) = δs,s′ , s, s′ ∈ S, berücksichtigt wird.
4.172Der Grenzwert λ(s) = ∞ kommt bei solchen Zuständen s ∈ S vor, die sofort, nachdem
sie durch den Prozeß X erreicht wurden, wieder verlassen werden.
22. Juli 2014
75
in [0, ∞)
4.173
.
Wenn die Übergangsraten bekannt sind, können üblicherweise die Übergangswahrscheinlichkeiten durch Lösen eines Systems gewöhnlicher Differentialgleichungen bestimmt werden.
Ein Markovprozeß X wie in Satz 4.28 heißt konservativ, wenn die Raten λ(s),
s ∈ S, und λ(s, s′ ), s, s′ ∈ S, s 6= s′ , die Beziehung
X
(4.43)
s′ ∈S
s′ 6=s
erfüllen
λ(s, s′ ) = λ(s) < ∞,
s ∈ S,
4.174
.
Satz 4.29. 4.175 Sei X = (Xt )t≥0 ein Markovprozeß wie in Satz 4.28, wobei X
zusätzlich konservativ sei 4.176. Dann erfüllen die Übergangwahrscheinlichkeiten die
Rückwärtsgleichungen 4.177 4.178.
(4.44)
X
d
λ(s, s′′ )Pt (s′′ , s′ ) − λ(s)Pt (s, s′ )
Pt (s, s′ ) =
dt
′′
s ∈S
s′′ 6=s
=
4.179
X
s′′ ∈S
s′′ 6=s
λ(s, s′′ ) Pt (s′′ , s′ ) − Pt (s, s′ ) ,
s, s′ ∈ S, t ≥ 0.
4.173Insbesondere ist λ(s, s′ ) ∞, falls s 6= s′ .
4.174Aufgrund der formalen, aus Satz 4.28 folgenden Beziehung
(∗)
λ(s) −
X
λ(s, s′ ) = lim
s′ ∈S
s′ 6=s
hց0
≃ lim
hց0
X
Ph (s, s′ )
1
1 − Ph (s, s) −
lim
hց0
h
h
′
s ∈S
s′ 6=s
!
X
1
1 − Ph (s, s) −
Ph (s, s′ ) = 0
h
′
s ∈S
s′ 6=s
ist (4.43) plausibel. In (∗) wird insbesondere die Eigenschaft (b) einer standard Familie von Übergangswahrscheinlichkeiten benutzt.
4.175
Vgl. [21], Chapter 14, Section 2.
4.176Vgl. (4.43).
4.177Für eine formale Herleitung von (4.44) kann in der Beziehung
Pt+h (s, s′ ) − Pt (s, s′ ) =
=
X
s′′ ∈S
X
s′′ ∈S
s′′ 6=s
Ph (s, s′′ )Pt (s′′ , s′ ) − Pt (s, s′ )
Ph (s, s′′ )Pt (s′′ , s′ ) + (Ph (s, s) − 1)Pt (s, s′ ),
s, s′ ∈ S, t ≥ 0, h > 0,
die sich mit der Chapman-Kolmogorov-Gleichung (4.39) ergibt, nach einer Division beider Seiten
durch h der Grenzfall h ց 0 betrachtet werden. Hierbei muß Satz 4.28 berücksichtigt werden.
22. Juli 2014
76
Wenn in einer konkreten Anwendung die Übergangsintensitäten 4.180 λ(s, s′ ),
s, s ∈ S, s 6= s′ , so gegeben sind, daß mit Hilfe der Rückwärtsgleichung (4.44) oder
der Vorwärtsgleichung 4.181, die Übergangswahrscheinlichkeiten eindeutig berechnet
werden können 4.182, ist dank Satz 4.26 der zugehörige Markovprozeß X = (Xt )t≥0 ,
d.h., dessen Verteilung, eindeutig bestimmt.
′
Beispiel 4.30 (Geburts- und Todesprozesse). Für einen einfachen Markovprozeß
X = (Xt )t≥0 mit Zustandsraum S = N0 zur Modellierung der Zeitentwicklung der
Größe einer Population seien Geburtsraten βi > 0, i ∈ N0 , und Todesraten δi > 0,
i ∈ N, gegeben, so daß

4.183

βi , j = i + 1, i = 0, 1, 2, . . . ,
λ(i, j) = δi , j = i − 1, i = 1, 2, . . . ,


0, sonst.
Unabhängigkeit“ zwischen den einzelnen Individuen 4.184 der Population kann
”
durch die Annahme, daß die Geburts- und Todesraten zur Populationsgröße proportional sind, zum Ausdruck gebracht werden. In diesem Fall ist βi = βi, i ∈ N,
bzw. δi = δi, i ∈ N, für β, δ > 0 4.185 4.186.
4.3.3. Simulation von Markovprozessen (Xt )t≥0 mit einem diskreten Zustandsraum. Sei X = (Xt )t≥0 ein konservativer Markovprozeß mit einem diskreten Zustandsraum S 4.187. Das zeitliche Verhalten von X zeichnet sich u.a. durch folgende
Eigenschaften aus:
4.178(4.44) heißt Rückwärtsgleichung, weil auf der rechten Seite die Übergangsintensitäten
λ(s, s′′ ), bzw. λ(s), an die ersten (zeitlich rückwärtigen“) Argumente s′′ , bzw. s, der Über”
gangswahrscheinlichkeiten gekoppelt sind. Im Gegensatz dazu sind diese Raten bei der Vorwärtsgleichung
X
d
Pt (s, s′ ) =
Pt (s, s′′ )λ(s′′ , s′ ) − Pt (s, s′ )λ(s′ ), s, s′ ∈ S, t ≥ 0,
dt
′′
s ∈S
s′′ 6=s′
an die zeitlich später“ liegenden Argumente der Übergangswahrscheinlichkeiten gebunden. I. allg.
”
sind die Rückwärtsgleichungen mathematisch einfacher als die Vorwärtsgleichungen zu handhaben
und werden daher vorgezogen.
Aufgrund der Vorgehensweise in ihrer Ableitung in Anhang A.4.5 entsprechen die Differentialgleichungen (A.4.17) und (A.4.19) für die Übergangswahrscheinlichkeiten des Poisson-Prozesses
übrigens der Vorwärtsgleichung.
4.179
Wegen (4.43).
4.180
Für konservative Prozesse X können die Raten λ(s), s ∈ S, mit Hilfe von (4.43) berechnet
werden.
4.181Vgl. Fußnote 4.178.
4.182D.h., die Rückwärtsgleichung, bzw. die Vorwärtsgleichung muß für die Anfangsbedingung
P0 (s, s′ ) = δs,s′ , s, s′ ∈ S, eine eindeutige Lösung Pt (s, s′ ), s, s′ ∈ S, t ≥ 0, besitzen.
4.183β = λ(0, 1) ist die Rate, mit der die Einwanderung eines einzelnen Individuums in eine
0
schon ausgestorbene Population stattfindet.
4.184
D.h., das Fehlen einer Wechselwirkung.
4.185Im Unterschied zu den in diesem Beispiel vorgestellten Geburts- und Todesprozessen
sind beim Galton-Watson-Prozess, vgl. Beispiel 4.24, die verschiedenen Generationen strikt voneinander getrennt.
4.186Für einen reinen“ Geburtsprozeß mit δ = 0, i ∈ N, und β > 0, i ∈ N , kann die
0
i
i
”
Vorwärtsgleichung, vgl. Fußnote 4.178, explizit durch Angabe der Laplacetransformierten der
Übergangswahrscheinlichkeiten gelöst werden, vgl. [12], Section 6.8, Theorem (14). Falls δi = δi,
i ∈ N, und βi = βi, i ∈ N0 , wobei β, δ > 0, können die erzeugenden Funktionen φXt , t ≥ 0, berechP
k
X
net werden, vgl. [12], Section 6.11, Theorem (10). Hierbei ist φX (s) = ∞
k=0 P[X = k]s = E[s ],
s ∈ [0, 1], die erzeugende Funktion einer N0 -wertigen Zufallsvariable X.
4.187Damit wird insbesondere P
′
s′ ∈S,s′ 6=s λ(s, s ) = λ(s) < ∞, s ∈ S, gefordert, vgl. (4.43).
22. Juli 2014
77
• Sei Xt = s für ein t ≥ 0 und ein s ∈ S. Die verbleibende Aufenthaltszeit
T = inf{u ≥ t : Xu 6= s} − t in s besitzt eine Exponentialverteilung mit
Parameter λ(s) 4.188.
• Nach dem Verlassen von s springt X zu einem Zustand s′ ∈ S \ {s} mit
Wahrscheinlichkeit λ(s, s′ )/λ(s) 4.189 4.190.
Eine Computersimulation von X kann somit auf den infinitesimalen Übergangswahrscheinlichkeiten λ(s), λ(s, s′ ), s, s′ ∈ S, s 6= s′ , aufgebaut werden. Bei einem
gegebenen Startpunkt X0 = s0 bietet sich folgendes Verfahren an:
• Sei T0 eine nach der Exponentialverteilung mit Parameter λ(s0 ) verteilte
Zufallsvariable 4.191. Setze dann Xt = s0 , 0 ≤ t < T0 .
• Wähle nun s1 ∈ S \ {s0 } unabhängig von T0 gemäß der diskreten Wahrscheinlichkeitsverteilung λ(s0 , s1 )/λ(s0 ), s1 ∈ S \ {s0 }.
• Sei T1 eine nach der Exponentialverteilung mit Parameter λ(s1 ) verteilte
und von T0 und der vorhergehenden Wahl von s1 unabhängige Zufallsvariable. Setze Xt = s1 , T0 ≤ t < T0 + T1 .
• Wähle s2 ∈ S \ {s1 } gemäß der diskreten Verteilung λ(s1 , s2 )/λ(s1 ), s2 ∈
S \ {s1 } 4.192.
• ...
4.4. Martingale. Martingale sind stochastische Prozesse, die sich vordergründig dadurch auszeichnen, daß sie
• oftmals kompliziert aussehen, aber
• äußerst nützlich sein können 4.193.
4.188Zur Begründung können die Argumente in Anhang A.4.5.1 leicht modifiziert übernommen werden.
4.189Da X als konservativ vorausgesetzt wird, definiert λ(s, s′ )/λ(s), s′ ∈ S \ {s}, für alle
s ∈ S ein Wahrscheinlichkeitsmaß auf S \ {s}.
4.190
Zur Begründung beachte man, daß für s, s′ ∈ S, s 6= s′ und u ≥ 0 gilt:
P[Xu+h = s′ |Xu+h 6= s, Xu = s]
P[Xu+h = s′ , Xu = s]
(da {Xu+h = s′ , Xu+h 6= s, Xu = s} = {Xu+h = s′ , Xu = s})
P[Xu+h 6= s, Xu = s]
P[Xu = s]P[Xu+h = s′ |Xu = s]
=
P[Xu = s]P[Xu+h 6= s|Xu = s]
{z
}
|
= 1 − P[Xu+h = s|Xu = s]
=
λ(s, s′ )h + o(h)
λ(s)h + o(h)
′
h→0 λ(s, s )
.
→
λ(s)
=
(nach Satz 4.28)
4.191Ein Verfahren zur Simulation von exponentiell verteilten Zufallsvariablen wird in Beispiel 2.13 beschrieben.
4.192Natürlich soll die Wahl von s unabhängig von T , T und der Wahl von s erfolgen.
2
0
1
1
4.193Vgl. z.B. Abschnitt 4.5.4. Dort werden aufbauend auf der Brownschen Bewegung sukzessive verschiedene Martingale angegeben. Mit Hilfe dieser Martingale können dann Lösungen
spezieller partieller Differentialgleichungen als Funktionale der Brownschen Bewegung dargestellt
werden. Jene Darstellungen könnten insbesondere zur Lösung der partiellen Differentialgleichungen durch ein Monte-Carlo-Verfahren angewandt werden.
22. Juli 2014
78
Sie dienen z.B. zur Charakterisierung anderer natürlicherer“ stochastischer Pro”
zesse 4.194 oder auch als Hilfsmittel zur Herleitung von Grenzwertsätzen 4.195.
Sei (Ω, F, P) ein Wahrscheinlichkeitsraum mit einer Filtration 4.196 (Ft )t≥0 .
X = (Xt )t≥0 sei ein R-wertiger an (Ft )t≥0 adaptierter 4.196 stochastischer Prozeß
mit
(4.45)
E[|Xt |] < ∞,
t ≥ 0.
X heißt Submartingal bzgl. (Ft )t≥0 , falls
(4.46a)
E[Xt |Fs ] ≥ Xs , P-f.s.,
bzw. Supermartingal bzgl. (Ft )t≥0 , falls
(4.46b)
0 ≤ s ≤ t < ∞,
4.197
E[Xt |Fs ] ≤ Xs , P-f.s.,
0 ≤ s ≤ t < ∞.
E[Xt |Fs ] = Xs , P-f.s.,
0 ≤ s ≤ t < ∞,
Wenn
(4.46c)
wird X als Martingal 4.198 bzgl. (Ft )t≥0 bezeichnet 4.199. Ein (Sub-, Super-) Martingal X bzgl. der Filtration (FtX )t≥0 4.200 wird einfach (Sub-, Super-) Martingal
genannt.
Zum Nachweis der Martingaleigenschaft eines reellwertigen, integrablen stochastischen Prozesses X = (Xn )n∈N0 in diskreter Zeit bzgl. einer Filtration (Fn )n∈N0
reicht die Verifikation von 4.201 4.202
(4.47)
E[Xn+1 |Fn ] = Xn , f.s.,
n ∈ N0 .
4.194Beispielsweise können Diffusionsprozesse X = (X )
t t≥0 als stetige Markovprozesse charakterisiert werden, die sich dadurch auszeichnen, daß spezielle, durch X bestimmte Prozesse
Martingale sind, vgl. [26], Chapter VII, Definition (2.1) und Proposition (2.2).
Als ein weiteres Beispiel sei ein Satz von Lévy erwähnt, der besagt, daß das einzige reellwertige Martingal X = (Xt )t≥0 mit stetigen Pfaden, für das auch der Prozeß t → Xt2 − t die
Martingaleigenschaft besitzt, die standard Brownsche Bewegung in R ist, vgl. [26], Chapter IV,
Theorem (3.6) und auch Abschnitt 6.2.5.
4.195
In folgenden Beispielen 4.36 und 4.38 wird z.B. demonstriert, wie Konvergenzsätze
für Martingale, vgl. Satz 4.34 und Satz 4.37, zur Analyse der Asymptotik des Galton-WatsonProzesses, vgl. Beispiel 4.24 und Satz 4.25, bzw. zum Beweis eines starken Gesetzes der großen
Zahlen, vgl. Satz 4.5, verwendet werden können.
4.196Vgl. Abschnitt 3.9.
4.197Offensichtlich ist X = (X )
t t≥0 genau dann ein Submartingal, wenn der Prozeß −X =
(−Xt )t≥0 ein Supermartingal ist.
4.198Reellwertige Martingale sind sowohl Sub- als auch Supermartingale. Auch vektorwertige
Prozesse können die Martingaleigenschaft besitzen. Z.B. wird in Abschnitt 4.5.4 mit C-wertigen
Martingalen gearbeitet.
4.199Die Erwähnung einer Filtration im Zusammenhang zur (Sub-, Super-) Martingaleigenschaft (4.46a), (4.46b), bzw. (4.46c), eines stochastischen Prozesses X ist wesentlich. Wenn (Ft )t≥0
durch eine andere Filtration (Gt )t≥0 ersetzt wird, brauchen diese Beziehungen nicht mehr zu
gelten, d.h., die (Sub-, Super-) Martingaleigenschaft von X kann beim Wechsel der Filtration
verlorengehen.
4.200(F X )
t t≥0 ist die von X erzeugte Filtration, vgl. Beispiel 3.3 und Abschnitt 3.9.
4.201Die Gültigkeit von E[X
n+k |Fn ] = Xn , f.s., n ∈ N0 , k ∈ N, ergibt sich dann durch
Iteration, d.h.,
E[Xn+k |Fn ] = E E[Xn+k |Fn+k−1 ]Fn = · · · = Xn , f.s., k = 2, 3, . . . .
|
{z
}
= Xn+k−1
Hier wird insbesondere (3.33) benutzt.
4.202
Sub- und Supermartingale in diskreter Zeit können durch eine entsprechende Beziehung
charakterisiert werden.
22. Juli 2014
79
Ein stochastischer Prozeß X = (Xn )n∈N0 , der Werte in einer höchstens abzählbaren Teilmenge S aus R oder Rd annimmt, ist ein Martingal, wenn 4.203
(4.48) E Xn+1 X0 = s0 , X1 = s1 , . . . , Xn = sn = sn , s0 , s1 , . . . , sn ∈ S, n ∈ N0 .
Beispiel 4.31. Die symmetrische Irrfahrt X = (Xn )n∈N0 in Zd
wertiges Martingal 4.205.
4.204
ist ein Zd -
Beispiel 4.32. Sei X = (Xt )t≥0 ein Martingal bzgl. einer Filtration (Ft )t≥0 und
φ : R → R eine konvexe Funktion mit E[|φ(Xt )|] < ∞, t ≥ 0. Dann ist φ(X) =
(φ(Xt ))t≥0 ein Submartingal, denn
(4.49)
E[φ(Xt )|Fs ] ≥
4.206
φ(E[Xt |Fs ]) =
4.207
φ(Xs ), f.s.,
0 ≤ s ≤ t < ∞.
Auch wenn X ein Submartingal und φ zusätzlich monoton steigend ist, ist φ(X)
ein Submartingal 4.208.
Beispiel 4.33. Sei X = (Xn )n∈N0 ein Galton-Watson-Prozeß
ren Nachkommenszahl m und E[X0 ] < ∞. Dann gilt
(4.50)
E[Xn+1 |X0 = x0 , . . . , Xn = xn ] =
=
4.210
4.211
4.209
mit der mittle-
E[Xn+1 |Xn = xn ]
xn m,
x0 , . . . , xn , n ∈ N0 .
Daher ist der Prozeß W = (Wn )n∈N0 mit Wn = Xn /mn , n = 0, 1, 2, . . . , ein
Martingal bzgl. (FnX )n∈N0 4.212.
Im Rest dieses Abschnitts werden nur (Sub-, Super-) Martingale X = (Xn )n∈N0
in diskreter Zeit betrachtet.
4.4.1. Konvergenzsätze für Submartingale. Unter minimalen Bedingungen konvergieren Submartingale f.s., bzw. in L1 bei n → ∞.
Satz 4.34. 4.213 Sei X = (Xn )n∈N0 ein Submartingal bzgl. einer Filtration (Fn )n∈N0
in einem Wahrscheinlichkeitsraum (Ω, F, P), wobei
(4.51)
sup E[(Xn )+ ] < ∞.
n∈N0
Dann existiert eine Zufallsvariable X∞ mit E[|X∞ |] < ∞ und
(4.52)
lim Xn = X∞ , P-f.s.
n→∞
4.203Man beachte, daß für alle n ∈ N die Ereignisse {X = s , X = s , . . . , X = s },
n
n
0
0
0
1
1
X = σ(X , X , . . . , X ) erzeugen.
s0 , s1 , . . . , sn ∈ S, die σ-Algebra Fn
n
0
1
4.204Vgl. Satz 4.23.
4.205Offensichtlich ist E[|X |] ≤ n, n ∈ N , d.h., die Integrabilitätsbedingung (4.45) ist
n
0
erfüllt. Da weiterhin die symmetrische Irrfahrt in jedem Zeitpunkt mit gleicher Wahrscheinlichkeit
zu den jeweiligen Nachbarpunkten in Zd springt, ergibt sich auch (4.48) und damit die Martingaleigenschaft von X.
4.206Nach der Jensenschen Ungleichung für bedingte Erwartungswerte, vgl. Beispiel 3.28.
4.207Da X ein Martingal ist.
4.208In diesem Fall führt in (4.49) die Submartingaleigenschaft von X und die Monotonie
von φ zu φ(E[Xt |Fs ]) ≥ φ(Xs ), f.s., 0 ≤ s ≤ t < ∞.
4.209Vgl. Beispiel 4.24 und Satz 4.25.
4.210Wegen der Markoveigenschaft von X. Beachte hier auch Fußnote 4.117.
4.211
Wegen (4.31).
4.212Diese Martingaleigenschaft, d.h., die Gültigkeit von (4.48), wird deutlich, wenn alle
Terme in (4.50) durch mn+1 dividiert werden. Aus (4.50) folgt übrigens E[Xn+1 ] = mE[Xn ],
n ∈ N0 , d.h., mit vollständiger Induktion kann (4.45) nachgewiesen werden.
4.213(4.52) wird in Beispiel 5.21, bzw. in [7], Section 4.2, Theorem (2.10) bewiesen. (4.53)
folgt dann mit Satz 3.13 und Satz 3.17.
22. Juli 2014
80
Falls die Familie der Zufallsvariablen Xn , n ∈ N0 , gleichgradig integrierbar
ist, so gilt zusätzlich die Konvergenz in L1 , d.h.,
4.214
lim E |Xn − X∞ | = 0.
(4.53)
n→∞
Beispiel 4.35. Sei X = (Xn )n∈N0 ein positives 4.215 Supermartingal. Damit ist der
Prozeß −X = (−Xn )n∈N0 ein negatives Submartingal 4.216, d.h., es gilt insbesondere
E[(−Xn )+ ] = 0, n ∈ N0 . Als Folge von Satz 4.34 exisitiert damit der Limes X∞ =
limn→∞ Xn , f.s., wobei X∞ ≥ 0.
Aufgrund der Supermartingaleigenschaft von X ist E[Xn ], n ∈ N0 , eine monoton fallende Folge. Mit dem Lemma von Fatou 4.217 folgt daher weiter, daß 4.218
E[X∞ ] ≤ E[X0 ].
Beispiel 4.36. Sei X = (Xn )n∈N0 ein Galton-Watson-Prozeß 4.219 mit X0 = 1 und
der mittleren Nachkommenszahl m. Das in Beispiel 4.33 beschriebene Martingal
W = (Wn )n∈N0 mit Wn = Xn /mn , n = 0, 1, 2, . . . , ist insbesondere ein positives
Supermartingal, so daß nach Beispiel 4.35 der Grenzwert
(4.54)
W∞ = lim Wn , f.s.,
n→∞
e = W∞ ist 4.220.
existiert. Damit ist die f.s.-Konvergenz in (4.35) bewiesen, wobei X
Weiterhin ist
(4.55)
und somit
E[Wn ] =
4.221
E[W0 ] = E[X0 ] = 1,
n ∈ N0 ,
4.222
E[W∞ ] ≤ 1.
(4.56)
Als Konsequenz aus (4.54) - (4.56) können nun weitere Teile von Satz 4.25
bewiesen werden 4.223.
Für m < 1 folgt zunächst 4.224 limn→∞ Xn = 0, f.s., und damit 4.225 P[Xn =
0, n ≥ N, N hinreichend groß] = 1 4.226.
Falls m = 1, ist Xn = Wn , n ∈ N0 , und daher nimmt W∞ = limn→∞ Xn Werte
in N0 an. Insbesondere ergibt sich P[Xn = W∞ , n ≥ N, N hinreichend groß] = 1.
4.214Vgl. Abschnitt 3.5.4.
4.215D.h., X ≥ 0, f.s., n ∈ N .
n
0
4.216Vgl. dazu Fußnote 4.197.
4.217Vgl. Satz 3.23.
4.218E[X ] = E[lim
∞
n→∞
Xn ] ≤ lim inf n→∞ E[Xn ] ≤ E[X0 ].
4.219Vgl. Beispiel 4.24 und Satz 4.25.
4.220Außer X
e ≥ 0 sind an dieser Stelle noch keine weiteren Details über die Eigenschaften
e = W∞ bekannt.
von X
4.221Weil W = (W )
n n∈N0 ein Martingal ist.
4.222
Vgl. Beispiel 4.35.
4.223Der Beweis eines ersten Teils ist in Anhang A.4.4 zu finden.
4.224Weil X /W = mn n→∞
→ 0 und da limn→∞ Wn = W∞ ∈ [0, ∞), f.s.
n
n
4.225Man beachte, daß (X )
n n∈N0 Werte in N0 annimmt.
4.226Damit ist der Fall m < 1 in (4.33) bewiesen.
22. Juli 2014
81
Wenn weiterhin b0 > 0, folgt 4.227 P[Xn = k, n ≥ N, N hinreichend groß] = 0,
k = 1, 2, . . . , und somit ist P[Xn = 0, n ≥ N, N hinreichend groß] = 1 4.228.
Ebenfalls mit Hilfe der Martingaleigenschaft des Prozesses W wird in Beispiel 4.44 nachgewiesen, daß die Konvergenz in (4.35) auch in L2 gilt, und weiterhin
e berechnet.
die Varianz von X
Auch in der weit zurückliegenden Vergangenheit“ können Submartingale kon”
vergieren.
Satz 4.37. 4.229 Der stochastische Prozeß 4.230 X = (Xn )n∈Z− sei ein Submartingal bzgl. einer Filtration (Fn )n∈Z− 4.231. Dann gibt es eine Zufallsvariable X−∞
mit 4.232
(4.57)
lim Xn = X−∞ , f.s.
n→−∞
Wenn X ein Martingal
(4.58)
4.233
ist, gilt darüberhinaus die Konvergenz in L1 , d.h.,
lim E |Xn − X−∞ | = 0.
n→−∞
Beispiel 4.38 (Starkes Gesetz der großen Zahlen). 4.234 Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und sei X1 , X2 , . . . eine Folge unabhängiger, identisch verteilter, reellwertiger Zufallsvariablen mit E[|X1 |] < ∞.
Sei
Sn = X 1 + · · · + X n ,
(4.59a)
n = 1, 2, . . . ,
4.227Offensichtlich ist nun P[X
k
n+1 = 0|Xn = k] = b0 ∈ (0, 1], n ∈ N0 , k = 1, 2, . . . , und
daher
P[Xn+r = Xn+r−1 = · · · = Xn+1 = k|Xn = k]
= P[Xn+r = k|Xn+r−1 = k]P[Xn+r−1 = k|Xn+r−2 = k] . . . P[Xn+1 = k|Xn = k]
(wegen der Markoveigenschaft von X)
≤ (1 − bk0 )r ,
n ∈ N0 , r, k = 1, 2, . . . .
Es folgt:
P[Xn+r = Xn+r−1 = · · · = Xn = k]
r→∞
= P[Xn+r = . . . = Xn+1 = k|Xn = k]P[Xn = k] ≤ (1 − bk0 )r → 0,
n ∈ N0 , k = 1, 2, . . . ,
d.h., die σ-Stetigkeit von oben von P, vgl. Satz 3.10(6), führt zu P[Xl = k, l ≥ n] = 0, n ∈ N0 ,
k = 1, 2, . . .
Folglich ist
P[Xl = k, l ≥ N, N hinreichend groß] ≤
∞
X
n=0
P[Xl = k, l ≥ n] = 0,
k = 1, 2, . . .
4.228
Damit ist (4.33) für den Fall m = 1, b0 > 0 verifiziert. In den Fällen m < 1 und
m = 1, b0 > 0 ist durch die in diesem Beispiel 4.36 vorgestellten Überlegungen gezeigt worden,
daß limn→∞ Xn = 0, f.s.
4.229Vgl. [26], Chapter II, Theorem (2.3), und [3], Korollar 19.10.
4.230Z = {−1, −2, . . . }.
−
4.231Es gilt also E[X
n+1 |Fn ] ≥ Xn , f.s., n = −2, −3, . . . . Ein derartiges, durch negative
Zeitpunkte indiziertes Submartingal wird auch als Rückwärtssubmartingal bezeichnet.
4.232Im Gegensatz zu Satz 4.34 wird in diesem Resultat zur fast-sicheren Konvergenz von
Submartingalen keine Bedingung wie z.B. (4.51), die eine spezielle gleichmäßige“ Integrabilität
”
fordert, benötigt.
4.233Ein solcher Prozeß wird auch Rückwärtsmartingal genannt.
4.234Zum starken Gesetz der großen Zahlen vgl. Abschnitt 4.1.2. Im vorliegenden Beispiel 4.38, in dem [7], Section 4.6, Example 6.1, vorgestellt wird, wird gezeigt, daß für eine Folge
von i.i.d. Zufallsvariablen deren Integrabilität hinreichend für die Gültigkeit des starken Gesetzes
der großen Zahlen ist.
22. Juli 2014
82
und
4.235
(4.59b)
ζn =
Durch
1
S−n
−n
n = −1, −2, . . .
Fn = σ(S−n , S−n+1 , S−n+2 , . . . ) = σ(S−n , X−n+1 , X−n+2 , . . . )
= σ(ζn , ζn−1 , ζn−2 , . . . ),
ist eine Filtration
4.236
(Fn )n∈Z− gegeben. Nun ist
E[ζn+1 |Fn ] = ζn , f.s.,
(4.60)
n = −1, −2, . . . ,
4.237 4.238
n = −2, −3, . . . ,
d.h., ζ = (ζn )n∈Z− ist ein Martingal bzgl. (Fn )n∈Z− . Daher existiert eine Zufallsvariable ζ−∞ mit
N
1 X
Xk =
N →∞ N
(4.61)
lim
4.239
lim ζn =
4.240
n→−∞
k=1
ζ−∞ ,
f.s. und in L1 .
Offensichtlich ist T
ζ−∞ meßbar bzgl. σ(Xm , Xm+1 , . . . ) für alle m ∈ N 4.241 und
somit auch bzgl. T = ∞
m=1 σ(Xm , Xm+1 , . . . ). Nach dem 0-1-Gesetz von Kolmogorov 4.242 ist T trivial, d.h.,
P[A] = 0 oder P[A] = 1,
A ∈ T.
Weil T trivial ist, sind alle T-meßbaren Funktionen, z.B. auch ζ−∞ , f.s. konstant.
Insbesondere gilt
(4.62)
ζ−∞ = E[ζ−∞ ] =
4.243
lim E[ζn ] =
n→−∞
4.244
E[X1 ], f.s.
4.235 Aus technischen Gründen“ wird ein stochastischer Prozeß ζ = (ζ )
n n∈Z− mit Zeitpunk”
ten in Z− eingeführt. Insbesondere wird dadurch die Anwendung von Satz 4.37 ermöglicht.
4.236Da F ⊆ F
n
n+1 , n = −2, −3, . . . .
4.237Die Integrabilität von ζ , n ∈ Z , folgt aus (4.59) und der Annahme E[|X |] < ∞.
n
− P
1
4.238
Für n = −1, −2, . . . tragen in Sm = m
k=1 Xk , m = −n, −n + 1, . . . , die Zufallsvariablen
Xk , k = 1, . . . , −n, auf die gleiche, symmetrische Weise als Summanden bei. Aus Symmetriegründen gilt somit
E[Xk |Fn ] = E[Xl |Fn ],
k, l = 1, . . . , −n, n = −1, −2, . . . ,
und daher
E[X−n |Fn ] =
=
Da ζn+1 = (−n − 1)−1
P−n−1
−n
1 X
E[Xk |Fn ]
−n k=1
1
1
E[S−n |Fn ] =
S−n ,
−n
−n
n = −1, −2, . . . .
−1 (S
−n − X−n ), n = −2, −3, . . . , folgt
k=1 Xk = (−n − 1)
X−n S−n F
Fn
−
E
E[ζn+1 |Fn ] = E
n
−n − 1 −n − 1 1
S−n
1
= S−n
=
−
= ζn , n = −2, −3, . . . .
−n − 1
−n(−n − 1)
−n
4.239Wegen (4.59).
4.240Wegen Satz 4.37.
4.241Durch diese Meßbarkeitseigenschaft kommt zum Ausdruck, daß für alle m ∈ N
P
die Zufallsvariable ζ−∞ = limN→∞ (1/N ) N
Xm−1 , wohl aber von
k=1 Xk nicht von X1 , . . . ,P
Xm , Xm+1 , . . . abhängt. Hierbei wird berücksichtigt, daß limN→∞ (1/N ) m−1
k=1 Xk = 0, f.s. und
in L1 , m ∈ N.
4.242Vgl. Satz 5.3.
22. Juli 2014
83
Mit (4.61) und (4.62) ist bewiesen, daß die Integrabilität von X1 hinreichend für
die Gültigkeit des starken Gesetzes der großen Zahlen für i.i.d. Zufallsvariablen Xn ,
n ∈ N, ist 4.245.
4.4.2. Transformationen von (Sub-) Martingalen. Es gibt viele unterschiedliche
Möglichkeiten aus (Sub-, Super-) Martingalen andere derartige Prozesse zu gewinnen 4.246.
Beispiel 4.39. 4.247 Ein reellwertiger stochastischer Prozeß X = (Xn )n∈N0 sei
ein Submartingal bzgl. einer Filtration (Fn )n∈N0 . Sei außerdem H = (Hn )n∈N ein
positiver, bzgl. (Fn )n∈N0 vorhersehbarer stochastischer Prozeß, d.h., für alle n ∈ N
sei die Zufallsvariable Hn meßbar bzgl. Fn−1 . Zusätzlich sei Hn für alle n ∈ N
beschränkt 4.248. Dann ist auch Y = (Yn )n∈N0 mit 4.249
n
X
(4.63)
Yn =
Hk (Xk − Xk−1 ), n ∈ N0 ,
k=1
ein Submartingal bzgl. (Fn )n∈N0 4.250. Wenn X ein Supermartingal, bzw. ein Martingal ist, so ist der durch (4.63) definierte Prozeß Y ebenfalls ein Supermartingal,
bzw. ein Martingal. Hierbei kann im Martingalfall auf die Positivität von H verzichtet werden 4.251.
Die (Sub-, Super-) Martingaleigenschaft eines stochastischen Prozesses bleibt
erhalten, wenn dieser Prozeß nur bis zu einer Stoppzeit 4.252 betrachtet wird.
Satz 4.40. Sei X = (Xn )n∈N0 ein (Sub-) Martingal und T eine Stoppzeit bzgl.
einer Filtration (Fn )n∈N0 . Dann ist der gestoppte Prozeß 4.253 XT = (Xn∧T )n∈N0
ebenfalls ein (Sub-) Martingal 4.254.
4.243Wegen (4.61).
4.244Wegen (4.59).
4.245Insbesondere ist die eine Richtung von Satz 4.5 gezeigt.
4.246Eine erste Möglichkeit wurde in Beispiel 4.32 beschrieben.
4.247Vgl. [7], Section 4.2, Theorem (2.7).
4.248D.h., für alle n ∈ N existiert ein M = M ∈ (0, ∞), so daß H ≤ M , f.s.
n
n
n
4.249Aus (4.63) folgt insbesondere Y = 0. Der Prozeß Y entsteht aus X, indem dessen
0
Zuwächse Xk − Xk−1 , k ∈ N, jeweils mit Hk gewichtet“ und aufsummiert werden.
4.250Die Integrabilität von Y, vgl. (4.45),” ist offensichtlich, weil X ein Submartingal ist und
weil Hn für alle n ∈ N beschränkt ist. Die Submartingaleigenschaft von Y folgt aus
E[Yn+1 |Fn ] = E[Hn+1 (Xn+1 − Xn )|Fn ] +
n
X
k=1
= Hn+1 E[Xn+1 − Xn |Fn ] +Yn
| {z } |
{z
}
≥0
≥0
≥ Yn , f.s.,
Hk (Xk − Xk−1 )
(wegen (3.32), da Hn+1 meßbar bzgl. Fn ist)
(da H positiv und X ein Submartingal ist)
n ∈ N0 .
4.251(4.63) ist eine zeitlich diskrete Version eines im Sinne von Itô definierten stochastischen
R
Integrals Yt = 0t Hs dXs , t ≥ 0, eines vorhersehbaren Prozesses H = (Ht )t≥0 bzgl. eines Submartingals X = (Xt )t≥0 , vgl. Abschnitte 4.6.1 und 6.2. Bei der Definition stochastischer Integrale im
Sinne von Itô benutzt man Prozesse Y = (Yn )n∈N0 wie in (4.63) als Approximation.
4.252Vgl. Abschnitt 3.9.
4.253a ∧ b = min{a, b}, a, b ∈ R.
4.254Die Behauptung ergibt sich aus der Darstellung
Xn∧T = X(n−1)∧T + (Xn − Xn−1 )I{T ≥n}
= · · · = X0 +
n
X
(Xk − Xk−1 )I{T ≥k} ,
n = 1, 2, . . . ,
k=1
der Beobachtung {T ≥ n} = Ω \ {T ≤ n − 1} ∈ Fn−1 , n = 1, 2, . . . , und Beispiel 4.39.
22. Juli 2014
84
Die Martingaleigenschaft eines Prozesses X = (Xn )n∈N0 bleibt bestehen, wenn
X an Stoppzeiten betrachtet wird.
Satz 4.41 ( Optional Stopping Theorem“). 4.255 Seien X = (Xn )n∈N0 ein Martin”
gal und S und T Stoppzeiten bzgl. einer Filtration (Fn )n∈N0 . Für ein M ∈ (0, ∞)
sei
0 ≤ S ≤ T ≤ M < ∞, f.s.
(4.64)
Dann gilt
4.256
E[XT |FS ] = XS , f.s.,
(4.65)
und
(4.66)
E[XT ] = E[XS ].
Seien Tk , k ∈ N0 , beschränkte Stoppzeiten
(4.67)
4.257
bzgl. (Fn )n∈N0 mit
4.258
0 ≤ T0 ≤ T1 ≤ T2 ≤ . . . , f.s.
bk = XT , k ∈ N0 , ein
b = (X
bk )k∈N0 mit X
Dann ist der stochastische Prozeß X
k
4.259
Martingal bzgl. der Filtration
(FTk )k∈N0 .
Satz 4.41 gilt sinngemäß auch, wenn X ein Sub- oder ein Supermartingal ist.
Beispiel 4.42. Sei (Xn )n∈N0 die symmetrische Irrfahrt in Z mit X0 = 0, f.s. 4.260,
und sei Tc = inf{n ∈ N0 : Xn = c}, c ∈ Z. Für a, b ∈ Z mit a < 0 < b sind Ta , Tb
und T = Ta ∧ Tb Stoppzeiten bzgl. der Filtration (FnX )n∈N0 4.261.
Für die Stoppzeiten T und S ≡ 0 gilt 0 = S ≤ T < ∞, f.s., und (4.66) 4.262. Es
folgt
0 = E[XS ] = E[XTa ∧Tb ]
=
und somit
4.263
a P[Ta < Tb ] + b P[Tb < Ta ]
| {z }
= 1 − P[Ta < Tb ]
b
,
b−a
d.h., mit Wahrscheinlichkeit b/(b−a) verläßt die symmetrische Irrfahrt das Intervall
(a, b) in a.
Es muß betont werden, daß (4.65) und (4.66) nicht für beliebige Stoppzeiten
S und T mit 0 ≤ S ≤ T < ∞, f.s., gelten können. Für S ≡ 0 und T = Ta ist
beispielsweise 0 = E[XS ] 6= E[XTa ] = a, falls a 6= 0.
P[Ta < Tb ] =
4.255Vgl. z.B. [7], Section 4.7, Theorem (7.4), und [6], Theorem 5.10. In jenen Resultaten
wird der hier vorgestellte Satz 4.41 verallgemeinert. Hierbei wird insbesondere mit geeigneten
unbeschränkten Stoppzeiten gearbeitet. Der Nachweis von (4.65) wird in Anhang A.4.6 geführt.
4.256Die σ-Algebra F , die einer Stoppzeit T zugeordnet ist, wird in Abschnitt 3.9
T
beschrieben.
4.257Zu jedem k ∈ N gibt es ein M ∈ (0, ∞) mit T ≤ M , f.s.
0
k
k
k
4.258Die Stoppzeiten T , k ∈ N , sind monoton ansteigend.
0
k
4.259Die Tatsache, daß (F )
Tk k∈N0 eine Filtration ist, d.h., daß FT0 ⊆ FT1 ⊆ FT2 ⊆ . . . , folgt
aus (4.67).
4.260Vgl. Satz 4.23.
4.261Vgl. Beispiel 3.30 und Satz 3.31. Aus Satz 4.23 folgt zunächst, daß T ′ = inf{n ∈ N :
0
Xn = 0} < ∞, f.s. Als Konsequenz ergibt sich letztendlich, daß auch Ta , Tb < ∞, f.s.
4.262Die Bedingung (4.64) ist zwar nicht erfüllt. Aufgrund von [7], Section 4.7, Theorem (7.4),
bleibt (4.66) für S und T dennoch gültig.
4.263Da T , T < ∞, f.s., vgl. Fußnote 4.261, ist offensichtlich P[T < T ] + P[T < T ] = 1.
a
a
a
b
b
b
Außerdem ist XTa ∧Tb = a, wenn Ta < Tb , und XTa ∧Tb = b, wenn Tb < Ta .
22. Juli 2014
85
4.4.3. Doobsche Zerlegung für Submartingale. Ein Submartingal X = (Xn )n∈N0
bzgl. einer Filtration (Fn )n∈N0 kann in der Form
Xn = Xn −
(4.68)
4.264
n−1
X
k=0
|
X
n−1
E[Xk+1 |Fk ] − Xk
E[Xk+1 |Fk ] − Xk +
{z
=: 4.265 Mn
= Mn + An , n ∈ N0 ,
}
k=0
|
=:
{z
4.266
An
}
dargestellt werden. M = (Mn )n∈N0 ist ein Martingal bzgl. (Fn )n∈N0 4.267, während
der Prozeß A = (An )n∈N0 vorhersehbar bzgl. (Fn )n∈N0 und anwachsend ist 4.268.
Hierbei heißt ein stochastischer Prozeß (An )n∈N0 anwachsend, wenn
0 = A0 ≤ A1 ≤ A2 ≤ . . . , f.s.,
und E[An ] < ∞, n ∈ N0 .
Die Darstellung (4.68) eines Submartingals als Summe eines Martingals und
eines vorhersehbaren, anwachsenden Prozesses ist eindeutig 4.269. Sie wird als Doobsche Zerlegung des Submartingals X bezeichnet 4.270.
Beispiel 4.43. Sei X = (Xn )n∈N0 ein Martingal bzgl. einer Filtration (Fn )n∈N0
mit 4.271 E[Xn2 ] < ∞, n ∈ N0 . Aufgrund von Beispiel 4.32 ist dann der Prozeß
X2 = (Xn2 )n∈N0 ein Submartingal bzgl. (Fn )n∈N0 4.272. Somit ist nach (4.68) und
den hierzu durchgeführten Überlegungen X2,c = (Xn2,c )n∈N0 mit
Xn2,c = Xn2 −
=
4.273
n−1
X
k=0
Xn2 −
2
|Fk ] − Xk2
E[Xk+1
n−1
X
k=0
E[(Xk+1 − Xk )2 |Fk ],
n ∈ N0 ,
4.264Für jeden Zeitpunkt n werden für die vorangegangenen Zeitpunkte k = 0, 1, . . . , n − 1,
die unter der jew. Vergangenheit Fk bedingten Zuwächse“ E[Xk+1 − Xk |Fk ] des Prozesses X
”
aufsummiert.
4.265
Für n = 0 sei Mn = X0 gesetzt.
4.266
Für n = 0 sei An = 0 gesetzt.
4.267Aufgrund von (4.47) folgt die Martingaleigenschaft von M aus
E[Mn |Fn−1 ] = E[Xn |Fn−1 ] −
= Xn−1 −
n−2
X
k=0
n−1
X
k=0
E[Xk+1 |Fk ] − Xk
E[Xk+1 |Fk ] − Xk = Mn−1 ,
n = 1, 2, . . . .
4.268Die in Beispiel 4.39 eingeführte Vorhersehbarkeit ist für A = (A )
n n∈N0 offensichtlich.
Weiterhin ist es eine Konsequenz der Submartingaleigenschaft von X, daß A anwachsend ist.
4.269Sei X = M ′ + A′ , n ∈ N , eine weitere Darstellung des Submartingals (X )
n
n n∈N0 als
0
n
n
Summe eines Martingals (Mn′ )n∈N0 und eines vorhersehbaren, anwachsenden Prozesses (A′n )n∈N0 .
Dann gilt
′
A′n+1 − A′n = −(Mn+1
− Mn′ ) + (Xn+1 − Xn ), n ∈ N0 .
Wenn nun E[ . |Fn ] auf beide Seiten angewandt wird, führen die Vorhersehbarkeit von (A′n )n∈N0 ,
die Martingaleigenschaft von (Mn′ )n∈N0 und die Definition von (An )n∈N0 in (4.68) zu
A′0
A′n+1 − A′n = E[Xn+1 |Fn ] − Xn = An+1 − An ,
n ∈ N0 .
= 0 folgt durch Induktion zunächst An = A′n , n ∈ N0 , und dann Mn = Mn′ , n ∈ N0 .
4.270Bei Submartingalen in kontinuierlicher Zeit wird die entsprechende Darstellung auch
Doob-Meyer-Zerlegung genannt, vgl. z.B. Abschnitt 5.3.3 oder [18], Theorem 25.5.
4.271X ist somit ein quadratintegrables Martingal.
4.272In Beispiel 4.32 ist φ(x) = x2 , x ∈ R, zu benutzen.
Da A0 =
22. Juli 2014
86
ebenfalls ein Martingal bzgl. (Fn )n∈N0 .
Beispiel 4.44. 4.274 Sei X = (Xn )n∈N0 ein Galton-Watson-Prozeß mit X0 = 1,
der mittleren Nachkommenszahl m > 1 und der Varianz σ 2 ∈ (0, ∞) der Nachkommensverteilung 4.275. Nach Beispiel 4.33 ist der Prozeß W = (Wn )n∈N0 mit
Wn = Xn /mn , n = 0, 1, 2, . . . , ein Martingal bzgl. (FnX )n∈N0 . Da σ 2 < ∞, ist
E[Wn2 ] < ∞, n ∈ N0 4.276.
Da
2 Xk X
Xk+1
2 X
(4.69)
− k Fk
E[(Wk+1 − Wk ) |Fk ] = E
mk+1
m
1
= 2(k+1) E[(Xk+1 − mXk )2 |FkX ]
m
" X
!2 #
k
X
1
X
l
4.277
=
E
(ζ
−
m)
Fk
k
m2(k+1)
l=1
1
=
4.278
=
1
σ 2 Wk ,
mk+2
m2(k+1)
σ 2 Xk
k ∈ N0 ,
ist nach Beispiel 4.43 der Prozeß W2,c = (Wn2,c )n∈N0 mit
Wn2,c = Wn2 − σ 2
n−1
X
k=0
1
Wk ,
mk+2
n ∈ N0 ,
ein Martingal bzgl. (FnX )n∈N0 . Folglich ist
(4.70) E[(Wn+r −Wn )2 ] =
4.279
2
E[Wn+r
−Wn2 ] =
4.280
σ2
∞
σ2 X 1
1
σ2
≤ n+2
=
,
m
mp
mn m2 − m
p=0
n+r−1
X
k=n
1
E[Wk ]
mk+2 | {z }
= 4.281 1
n ∈ N0 , r = 1, 2, . . . .
4.273Da
2
− 2Xk+1 Xk + Xk2 )|Fk ]
E[(Xk+1 − Xk )2 |Fk ] = E[(Xk+1
2
2
|Fk ] − Xk2 ,
|Fk ] − 2Xk E[Xk+1 |Fk ] + Xk2 = E[Xk+1
= E[Xk+1
wobei insbesondere (3.32) und die Martingaleigenschaft von X verwendet werden.
4.274In diesem Beispiel wird mit Hilfe des in Beispiel 4.33 eingeführten Martingals W ausgehend u.a. von den Überlegungen in Beispiel 4.43 nachgewiesen, daß die Konvergenz in (4.35) auch
e bestimmt. Nach den Ausführungen in
in L2 gilt. Außerdem wird die Varianz des Grenzwerts X
Anhang A.4.4 und in Beispiel 4.36 wird damit der Beweis von Satz 4.25 abgeschlossen.
4.275σ2 ist die Varianz des Wahrscheinlichkeitsmaßes b = (b )
k k∈N0 auf N0 , welches die Verteilung der Anzahl der Nachkommen eines Individuums angibt, vgl. Beispiel 4.24.
4.276Diese Abschätzung ergibt sich zunächst durch vollständige Induktion mit Hilfe von
(4.31). In (4.71) wird E[Wn2 ], n = 1, 2, . . . , exakt bestimmt.
4.277Wegen (4.31).
4.278Die einzelnen Zufallsvariablen ζ l , l = 1, 2, . . . , sind untereinander unabhängig und unk
abhängig von FkX und damit insbesondere von Xk . Außerdem hat jede dieser Zufallsvariablen den
2
Erwartungswert m und die Varianz σ . Hier kann somit insbesondere berücksichtigt werden, daß
sich die Varianzen unabhängiger Zufallsvariablen addieren.
22. Juli 2014
87
Somit ist Wn , n ∈ N0 , eine Cauchy-Folge in L2 (Ω, F, P), d.h., es existiert eine
L2 g 4.282
2
g
. Da
eindeutig bestimmte Zufallsvariable W
∞ ∈ L (Ω, F, P) mit Wn → W∞
2
e f.s. 4.283, ist W
g
e
limn→∞ Wn = W∞ = X,
=
X.
Damit
ist
die
L
-Konvergenz
in
∞
(4.35) nachgewiesen.
Weiterhin folgt:
(4.71)
E[Wn2 ] =
4.284
E[W02 ] + E[(Wn − W0 )2 ]
=
4.285
1 + σ2
n−1
X
k=0
1
,
mk+2
n = 1, 2, . . . .
2
L g
2
e
e
e2
Da Wn → W
∞ = X auch limn→∞ E[Wn ] = E[X] und limn→∞ E[Wn ] = E[X ]
4.286
impliziert
, führen (4.55) und (4.71) zu
e = E[X
e 2 ] − E[X]
e 2 = σ2
Var(X)
∞
X
k=0
1
mk+2
=
σ2
.
m2 − m
4.4.4. Doobsche Ungleichungen. Eine bemerkenswerte und sehr nützliche Eigenschaft von Submartingalen ist die Tatsache, daß sie in jedem beschränkten Zeitintervall gleichmäßig mit Hilfe ihres Werts am Ende jenes Zeitintervalls abgeschätzt
werden können.
Satz 4.45. 4.287 4.288 Der Prozeß X = (Xn )n=1,2,...,N sei ein Submartingal bzgl.
der Filtration (Fn )n=1,2,...,N . Für λ > 0 gilt dann
(4.72)
λP sup Xn ≥ λ ≤ E XN I{supn=1,...,N Xn ≥λ}
n=1,...,N
≤ E[(XN )+ ] ≤ E[|XN |].
Wenn insbesondere X ein Martingal mit E[|XN |p ] < ∞ für ein p ≥ 1 ist, so
folgt 4.289
(4.73)
λp P sup |Xn | ≥ λ ≤ E[|XN |p ].
n=1,...,N
4.279Da (W )
n n∈N0 ein Martingal ist, führen (3.27) und die Überlegungen in Fußnote 4.273
zu
X
E[(Wn+r − Wn )2 ] = E E[(Wn+r − Wn )2 |Fn
]
2
X
2
= E E[Wn+r
|Fn
] − Wn2 = E[Wn+r
− Wn2 ].
4.280
Da W2,c ein Martingal ist.
Vgl. (4.55).
4.282Als Hilbertraum ist L2 (Ω, F, P) vollständig, d.h., jede Cauchy-Folge besitzt einen eindeutig bestimmten Grenzwert.
4.283Vgl. Beispiel 4.36, insbesondere (4.54).
4.284Vgl. Fußnote 4.279.
4.285Weil W = X /m0 = X = 1 und wegen (4.70).
0
0
0
4.286Vgl. Abschnitt 3.5.4, insbesondere Satz 3.17.
4.287Vgl. [7], Section 4.4. Im Anhang A.4.7 werden (4.72) und (4.74) bewiesen.
4.288Satz 4.45 gilt auch für Submartingale mit einer abzählbaren oder kontinuierlichen Menge
von Zeitpunkten. Im kontinuierlichen Fall müssen die Pfade hinreichend regulär, z.B. rechtsstetig
sein, vgl. z.B. [19], Chapter 1, Theorem 3.8.
4.289Nach Beispiel 4.32 ist der Prozeß |X|p = (|X |p )
n
n=1,2,...,N ein Submartingal und daher
folgt (4.73) aus (4.72).
4.281
22. Juli 2014
88
Falls p > 1, gilt weiterhin
(4.74)
E sup
p p
E[|XN |p ].
|Xn |p ≤
p−1
n=1,...,N
Beispiel 4.46. Seien X1 , X2 , . . . , XN unabhängige, reellwertige Zufallsvariablen
mit E[Xk ] = 0, k = 1,P. . . , N , und E[Xk2 ] = σk2 , k = 1, . . . , N . Dann ist S =
n
2
]=
(Sn )n=1,...,N mit Sn = k=1 Xk , n = 1, . . . , N , ein Martingal 4.290 mit E[SN
PN
2
k=1 σk . Aufgrund von (4.73) gilt somit die Kolmogorovsche Ungleichung
N
1 X 2
P sup |Sn | ≥ λ ≤ 2
σk .
λ
n=1,...,N
k=1
4.5. Brownsche Bewegung. Die Brownsche Bewegung ist der wohl bekannteste Diffusionsprozeß, d.h. Markovprozeß mit stetigen Pfaden. In vielen Artikeln
und Büchern werden detaillierte Resultate über die Brownsche Bewegung vorgestellt. Dieser Prozeß ist einerseits innerhalb der Wahrscheinlichkeitstheorie von
großer Bedeutung 4.291. U.a. können beliebige Diffusionsprozesse durch geeignete
Transformationen der Brownschen Bewegung dargestellt werden 4.292.
Auch außerhalb der Wahrscheinlichkeitstheorie tritt die Brownsche Bewegung
in Erscheinung. Beispielsweise können die Lösungen gewisser elliptischer oder parabolischer Differentialgleichungen als Funktionale der Brownschen Bewegung repräsentiert werden 4.293. Bei der Modellierung zufallsbeeinflußter Zeitentwicklungen
durch stochastische Differentialgleichungen kann die Brownsche Bewegung zur Darstellung des Rauschanteils benutzt werden 4.294.
4.5.1. Definition der Brownschen Bewegung. 4.295 Die Brownsche Bewegung ergibt sich als Grenzfall der symmetrischen Irrfahrt 4.296 nach einer geeigneten Reskalierung. Diese Reskalierung entspricht einer Beobachtung der symmetrischen Irrfahrt aus einer großen Entfernung über einen langen Zeitraum. Aus diesem Grund
4.290D.h., S ist ein Martingal bzgl. der Filtration (F S )
n n=1,...,N .
4.291Die Brownsche Bewegung ist insbesondere ein Martingal, ein Gaußprozeß und auch ein
Prozeß mit stationären Zuwächsen. Sie ist damit für verschiedene Klassen stochastischer Prozesse
jeweils ein einfaches Beispiel.
4.292Weiterhin können recht allgemeine stetige Martingale durch unterschiedliche Transformationen der Brownschen Bewegung repräsentiert werden, vgl. z.B. Theorem 4.2 oder Theorem 4.6
in [19], Chapter 3.
4.293In den Beispielen 4.50 und 4.51 wird dieser Zusammenhang zu partiellen Differentialgleichungen im Rahmen eines Dirichlet- und eines Anfangswertproblems verdeutlicht.
4.294Eine stochastische Differentialgleichung ist beispielsweise
(∗1 )
dXt
|{z}
=
b(Xt )dt
| {z }
+
σ(Xt )dBt ,
| {z }
Zustandsänderung
deterministische
zufällige
in infinitesimalem
Zustandsänderung
Zustandsänderung
Zeitintervall
wobei b und σ geeignete Funktionen sind und B = (Bt )t≥0 eine Brownsche Bewegung ist. In einer
Integraldarstellung kann (∗1 ) auch in der Form
Z t
Z t
σ(Xs )dBs , t ≥ 0,
b(Xs )ds +
(∗2 )
Xt = X0 +
0
0
geschrieben werden.
Bei der mathematischen Diskussion von (∗1 ) oder (∗2 ) muß zunächst dem stochastischen InR
tegral 0t σ(Xs )dBs eine Bedeutung zugewiesen werden. Anschließend können Existenz und Eindeutigkeit, sowie qualitative und quantitative Eigenschaften einer Lösung X = (Xt )t≥0 untersucht werden. Erste weitergehende Informationen zu stochastischen Integralen und stochastischen
Differentialgleichungen finden sich in Abschnitt 4.6.
4.295
Ein Ausblick auf die Überlegungen dieses Abschnitts 4.5.1 wird in Abschnitt 4.2.6
gegeben.
4.296
Die symmetrische Irrfahrt in Zd wurde in Satz 4.23 vorgestellt.
22. Juli 2014
89
1000
800
600
400
Ort
200
0
-200
-400
-600
-800
-1000
0
20000
40000
60000
80000
100000
Zeit
Abbildung 4.6. Symmetrische Irrfahrt in Z. Zeitdauer = 100000,
20 Realisierungen.
350
300
250
Y
200
150
100
50
0
-50
-700
-600
-500
-400
-300
X
-200
-100
0
100
Abbildung 4.7. Symmetrische Irrfahrt in Z2. Zeitdauer = 100000,
Simulation eines Pfads.
können die Abbildungen 4.6 und 4.7 auch als Visualisierungen der Brownschen
Bewegung in R, bzw. in R2 betrachtet werden 4.297.
Während in Abbildung 4.6 die zeitliche Entwicklung verschiedener Pfade der
1-dimensionalen Irrfahrt dargestellt ist, zeigt Abbildung 4.7, wie ein einzelner Pfad
4.297In den Abbildungen 4.2 - 4.4 wird dementsprechend der Betrag der Brownschen Bewe-
gung in R2 , R3 , bzw. R10 visualisiert.
22. Juli 2014
90
der 2-dimensionalen Irrfahrt in R2 eingebettet ist. Wie dieser Pfad im Verlauf der
Zeit durchlaufen wird, ist nicht zu erkennen.
Sei X = (Xn )n∈N0 die symmetrische Irrfahrt in Z 4.298. X besitzt die Darstellung 4.299
n
X
(4.75)
Xn =
ξk , n ∈ N0 ,
k=1
wobei ξk , k ∈ N, unabhängige, in {−1, 1} gleichverteilte Zufallsvariablen sind.
Beim Übergang zur Brownschen Bewegung wird X zunächst
• auf alle Zeitpunkte t ≥ 0 fortgesetzt, d.h., Y = (Yt )t≥0 mit Yt = X⌊t⌋ ,
t ≥ 0, 4.300 eingeführt, und anschließend
• reskaliert, d.h., es werden die Prozesse XN = (XtN )t≥0 mit 4.301
1
(4.76)
XtN = √ YN t , t ≥ 0, N ∈ N,
N
betrachtet.
Zum Studium der Asymptotik von XN werden die Zuwächse XtN − XsN , 0 ≤
s < t < ∞, für N → ∞ untersucht. Aufgrund des Zentralen Grenzwertsatzes 4.302
ist zunächst
lim (XtN − XsN )
N →∞
p
⌊N t⌋
X
⌊N t⌋ − ⌊N s⌋
1
√
p
= lim
ξl
N →∞
N
⌊N t⌋ − ⌊N s⌋ l=⌊N s⌋+1
√
= t − s ζ, in Verteilung, 0 ≤ s < t < ∞,
wobei Pζ = N(0, 1) 4.303. Etwas allgemeiner folgt mit einem mehrdimensionalen
Zentralen Grenzwertsatz 4.304, daß
lim XtN1 , XtN2 − XtN1 , . . . , XtNn − XtNn−1
(4.77)
N →∞
p
√
√
t1 ζ1 , t2 − t1 ζ2 , . . . , tn − tn−1 ζn , in Verteilung,
=
0 = t0 < t1 < · · · < tn < ∞, n ∈ N,
4.298Die nun folgenden und schließlich zu (4.77) führenden Überlegungen lassen sich völlig
analog auch für die symmetrische Irrfahrt in Zd , d > 1, durchführen.
4.299Die Darstellung (4.75) der symmetrischen Irrfahrt wurde auch schon in Beispiel 2.9
benutzt. Sie impliziert insbesondere X0 = 0.
4.300Der Prozeß Y nimmt in den Zeitintervallen [l, l + 1), l ∈ N , einen konstanten Wert in Z
0
an und springt in den Zeitpunkten l ∈ N mit Wahrscheinlichkeit 1/2 jeweils um 1 nach oben oder
unten.
4.301Man könnte auch andere Skalierungen verwenden, d.h., beispielsweise Prozesse X(α,β) =
(α,β)
(α,β)
(Xt
)t≥0 mit Xt
= Yαt /β, t ≥ 0, α, β > 0, einführen. Die Überlegungen dieses Abschnitts 4.5.1, insbesondere das unten folgende Studium der Asymptotik von Summen unabhängiger, in {−1, 1} gleichverteilter Zufallsvariablen mit Hilfe des Zentralen Grenzwertsatzes,
lassen jedoch den Schluß zu, daß ein nichttrivialer Limes für X(α,β) bei α, β → ∞ nur dann
α→∞ √
erwartet werden kann, wenn β = β(α) ∼
α.
In den Abbildungen 4.6 und 4.7 wurde durch die Auswahl der jeweiligen Bildbereiche
durch den Computer automatisch eine Reskalierung von Raum√und Zeit vorgenommen. Bei einer
√ großzügigen Betrachtungsweise in Abbildung 4.7 ist sogar Zeitdauer/Raumdurchmesser ∼
100000/800 ∼ 316/800 ∼ 1 zu erkennen, d.h., die in (4.76) gewählte Skalierung drängt sich auch
im Rahmen dieser Simulationen auf.
4.302Vgl. Satz 4.10.
4.303Somit konvergiert X N − X N bei N → ∞ in Verteilung gegen eine gemäß N(0, t − s)
s
t
verteilte Zufallsvariable.
4.304
Vgl. z.B. Satz 4.18. Zu einem präzisen Beweis von (4.77) muß Satz 4.18 leicht modifiziert
werden.
22. Juli 2014
91
wobei ζ1 , ζ2 , . . . unabhängige Zufallsvariablen mit Pζk = N(0, 1), k = 1, 2, . . . ,
sind 4.305.
(4.77) berechtigt zur Vermutung, daß bei N → ∞ die Prozesse XN gegen einen
stochastischen Prozeß B = (Bt )t≥0 mit unabhängigen, normalverteilten Zuwächsen
konvergieren 4.306 4.307.
Dementsprechend wird ein Rd -wertiger stochastischer Prozeß B = (Bt )t≥0 als
(standard ) Brownsche Bewegung bezeichnet, falls
(a) B0 = 0, f.s. 4.308,
(b) t → Bt f.s. stetig ist 4.309 und wenn außerdem
(c) für 0 ≤ s < t < ∞ der Zuwachs Bt − Bs unabhängig von Bu , 0 ≤ u ≤ s,
ist und eine Normalverteilung mit Erwartungswert 0 und Kovarianzmatrix
(t − s)I 4.310 besitzt 4.311.
Als unmittelbare Konsequenz aus (a) und (c) ergibt sich, daß B = (Bt )t≥0 ein
Martingal bzgl. (FtB )t≥0 ist 4.312.
Im folgenden Abschnitt wird der Frage nachgegangen, ob ein stochastischer
Prozeß, der (a), (b) und (c) erfüllt, überhaupt existiert.
4.5.2. Konstruktion der Brownschen Bewegung. Wegen der Bedingung (c) ist
eine standard Brownsche Bewegung ein Markovprozeß mit gauß’schen Übergangswahrscheinlichkeiten 4.313. Insbesondere folgt
(4.78)
P Bt ∈ A|Bu , 0 ≤ u ≤ s 4.314 = 4.315 P Bt ∈ A|Bs
Z
(y − Bs )2
1
4.316
dy exp −
, f.s.,
=
2(t − s)
(2π(t − s))d/2 A
0 ≤ s < t < ∞, A ∈ B(Rd ).
4.305(4.77) besagt, daß asymptotisch bei N → ∞ die Zuwächse X N − X N , i = 1, . . . , n,
ti−1
ti
des Prozesses XN in den disjunkten Zeitintervallen (ti−1 , ti ], i = 1, . . . , n, unabhängig und gemäß
N(0, ti − ti−1 ), i = 1, . . . , n, verteilt sind.
4.306Für 0 ≤ s < t < ∞ sollte insbesondere B − B unabhängig von B , 0 ≤ u ≤ s, gemäß
t
s
u
N(0, t − s) verteilt sein.
4.307
Eine mathematisch rigorose, allgemeine Diskussion der Konvergenz von stochastischen
Prozessen wird an dieser Stelle nicht durchgeführt. Dazu sei auf die hierzu gemachten Andeutungen in Abschnitt 4.2.6 und deren Präzisierung in Abschnitt 5.4.2 verwiesen. Ausführlichere
Darstellungen finden sich z.B. in [8], Chapter 3, oder [18], Chapter 16. Die Beziehung (4.77),
die im wesentlichen die Konvergenz der endlich-dimensionalen Verteilungen der Prozesse XN
bei N → ∞ festhält, dient nur zur Motivation der nun folgenden Definition der Brownschen
Bewegung.
4.308Diese Bedingung ist nur eine Standardisierung.
4.309Sei B auf einem Wahrscheinlichkeitsraum (Ω, F, P) definiert. In (b) wird verlangt, daß
bzgl. P für fast alle ω ∈ Ω der Pfad t → Bt (ω) stetig ist. Diese Forderung der Stetigkeit wird
beispielsweise auch durch Simulationen der Irrfahrt, wie sie in den Abbildungen 4.2 - 4.4, 4.6
und 4.7 zu sehen sind, nahegelegt.
Weiterhin wird die Stetigkeit von B zu einer natürlichen Forderung, wenn beachtet wird, daß
für große N der Prozeß XN und daher auch B durch den in Abschnitt 4.2.6 eingeführten stetigen
e N approximiert wird.
Prozeß X
4.310I ist hier die d × d-Einheitsmatrix. Mehrdimensionale Normalverteilungen werden in
Abschnitt 4.2.3 vorgestellt.
4.311
Falls der Erwartungswert des Zuwachses gleich (t − s)a für ein a ∈ Rd und die Kovarianzmatrix gleich (t − s)Q für eine positiv-definite symmetrische Matrix Q ∈ Rd⊗d ist, spricht man
von einer Brownschen Bewegung mit Drift a und Diffusionsmatrix Q.
√
4.312Zunächst zeigen (a) und (c), daß E[|B |] ≤ E[B 2 ]1/2 = E[(B − B )2 ]1/2 = dt, 0 ≤
t
t
0
t
t < ∞. Weiterhin folgt für 0 ≤ s < t < ∞ aus (c) und der Tatsache, daß Bs meßbar bzgl.
σ(Bu , 0 ≤ u ≤ s) ist, 0 = E[Bt − Bs |Bu , 0 ≤ u ≤ s] = E[Bt |Bu , 0 ≤ u ≤ s] − Bs , f.s.
4.313
Übergangswahrscheinlichkeiten für Markovprozesse in kontinuierlicher Zeit mit diskretem Zustandsraum wurden am Anfang des Abschnitts 4.3.2 eingeführt. Im Gegensatz zu jenem
Fall ist nun zu berücksichtigen, daß der Zustandsraum nicht mehr abzählbar ist.
22. Juli 2014
92
4.314Hier ist eine unter dem Verhalten von B in dem ganzen Zeitintervall [0, s] der Vergangenheit und Gegenwart bedingte Wahrscheinlichkeit zu sehen. Zur Erläuterung solcher bedingter
Wahrscheinlichkeiten vgl. Abschnitt 3.8.
4.315
Da Bt − Bs unabhängig von Bu , 0 ≤ u ≤ s, ist und somit Bt nicht von Bu , 0 ≤ u < s,
abhängt, falls Bs bekannt ist.
4.316
Da PBt −Bs = N(0, (t−s)I) und somit PBt [ . |Bs ] = N(Bs , (t−s)I), f.s., wobei PBt [ . |Bs ]
die unter σ(Bs ) bedingte Verteilung von Bt ist. Eine Erläuterung des Begriffs der bedingten Verteilung einer Zufallsvariable X unter einer σ-Algebra A findet sich in Abschnitt 5.2.1. Speziell zur
Einordnung von (4.78) in die Theorie allgemeiner Markovprozesse sei auf Beispiel 5.9 verwiesen.
22. Juli 2014
KAPITEL 3
Weitere Gebiete der Wahrscheinlichkeitstheorie
5. Ausbau der theoretischen Basis der Wahrscheinlichkeitstheorie
In diesem Abschnitt werden einige Beiträge zu den theoretischen Grundlagen
der Wahrscheinlichkeitstheorie vorgestellt. Hiermit sollen zunächst die Ausführungen in Abschnitt 4 vertieft und ergänzt werden. Außerdem soll Abschnitt 6 vorbereitet werden.
5.1. Klassische Hilfsresultate. Wie in jeder anderen mathematischen Disziplin haben sich auch in der Wahrscheinlichkeitstheorie typische Denk- und Argumentationsschemata herausgebildet. So gibt es beispielsweise auch spezielle Hilfsresultate, die in vielen unterschiedlichen Situationen Verwendung finden, um korrekte
mathematische Schlüsse durchzuführen 5.1.
5.1.1. Lemma von Borel-Cantelli. Mit diesem Resultat können u.a. viele Aussagen zur Asymptotik von Folgen von Zufallsvariablen bewiesen werden 5.2.
Satz 5.1 (Lemma von Borel-Cantelli). 5.3 Sei An , n ∈ N, eine Folge von Ereignissen in einem Wahrscheinlichkeitsraum (Ω, F, P). Sei weiterhin 5.4
A=
∞ [
∞
\
n=1 k=n
Ak =: lim sup An =: {An i.o.}
n→∞
das Ereignis, daß An für unendlich viele n ∈ N eintritt.
P
5.5
(a) Wenn P ∞
.
n=1 P[An ] < ∞, dann ist P[A] = 0
∞
(b) Wenn n=1 P[An ] = ∞ und wenn An , n ∈ N, eine Familie unabhängiger
Ereignisse ist, so gilt P[A] = 1 5.6 5.7 5.8.
5.1
In diesem Abschnitt werden insbesondere das Lemma von Borel-Cantelli, vgl. Satz 5.1,
das 0 -1-Gesetz von Kolmogorov, vgl. Satz 5.3, und das π-λ-Theorem, vgl. Satz 5.5, vorgestellt.
5.2
Beispielsweise wird in Beispiel 5.2 mit Hilfe des Lemmas von Borel-Cantelli der zweite Teil
von Satz 4.5 bewiesen. Weiterhin ist in Anhang A.5.1 das Lemma von Borel-Cantelli das wesentliche Hilfsmittel beim Nachweis, daß eine stochastisch konvergente Folge von Zufallsvariablen eine
fast-sicher konvergente Teilfolge besitzt, vgl. Satz 3.13.
5.3
Vgl. [7], Section 1.6. In jenem Abschnitt finden sich auch etliche Anwendungen des Lemmas
von Borel-Cantelli.
5.4Mit i.o.“ wird infinitely often“, d.h., für unendlich viele n ∈ N“ abgekürzt.
S
P∞
”
”
”
5.5Offensichtlich
ist A ⊆ ∞
k=n Ak , n ∈ N. Somit folgt P[A] ≤
k=n
P∞P[Ak ], n ∈ N, aus
der Monotonie und der σ-Subadditivität von P, vgl. Satz 3.10. Weil
k=1 P[Ak ] < ∞ zu
P
limn→∞ ∞
k=n P[Ak ] = 0 führt, ergibt sich P[A] = 0.
5.6In (b) kann auf die Unabhängigkeit der Ereignisse A , n ∈ N, nicht verzichtet werden. Für
n
An = B, n ∈PN, wobei B ∈ F mit P[B] > 0, ist offensichtlich A = B und somit P[A] = P[B],
d.h., obwohl ∞
n=1 P[An ] = ∞ ist, kann in diesem Fall P[A] von 1 verschieden sein.
5.7
Aufgrund von Satz 5.1 gilt für unabhängige Ereignisse A1 , A2 , . . . und A = {An i.o.} entweder P[A] = 0 oder P[A] = 1. Diese Tatsache ist ein Beispiel eines 0 -1-Gesetzes und insbesondere
ein Spezialfall des 0 -1-Gesetzes
von
vgl. Satz 5.3 und Fußnote 5.19.
S
T∞ Kolmogorov,
5.8
c
c
Zunächst ist Ac = ∞
n=1 k=n Ak , wobei B = Ω \ B, B ∈ F. Außerdem gilt:
" ∞
#
" N
#
\
\
Ack = lim P
P
Ack
(da P σ-stetig von oben ist, vgl. Satz 3.10)
k=n
N→∞
k=n
109
110
Beispiel 5.2. In diesem Beispiel wird der zweite Teil von Satz 4.5 bewiesen 5.9.
Es ist noch zu zeigen, daß für reellwertige, i.i.d. Zufallsvariablen X1 , X2 , . . .
aus der Gültigkeit des starken Gesetzes der großen Zahlen, d.h.,
N
1 X
Xk = µ, f.s.,
N →∞ N
(5.1)
lim
k=1
für ein µ ∈ R die Integrabilität von X1 , d.h.,
E[|X1 |] < ∞,
(5.2)
folgt. Zum Beweis sei zunächst bemerkt, daß (5.1) zu
1
(5.3)
lim
XN = 0, f.s.,
N →∞ N
führt 5.10. Nun sind aufgrund der Unabhängigkeit der Zufallsvariablen X1 , X2 , . . .
auch die Ereignisse {|XN | ≥ N }, N ∈ N, unabhängig. Wegen (5.3) gilt außerdem
P[|XN | ≥ N i.o.] = 0.
(5.4)
Nach Teil (b) des Lemmas von Borel-Cantelli kann somit
∞
X
(5.5)
P[|XN | ≥ N ] < ∞
5.11
N =1
gefolgert werden. Daher ergibt sich
Z ∞
E[|X1 |] = 5.12
P|X1 | (dy) y
=
≤
=
≤
=
lim
N→∞
lim
N→∞
N
Y
∞ Z
X
0
[k,k+1)
k=0
∞
X
P|X1 | (dy) y
(k + 1)P[k ≤ |X1 | < k + 1]
k=0
(da A1 , A2 , . . . und somit Ac1 , Ac2 , . . . unabhängig sind)
(1 − P[Ak ])
k=n
N
Y
exp(−P[Ak ])
k=n
(da 1 − x ≤ exp(−x), x ≥ 0)
X
N
lim exp −
P[Ak ]
N→∞
k=n
|
{z
N→∞
= 0,
→
n = 1, 2, . . . .
}
∞
Nach Berücksichtigung
der σ-Subadditivität von P, vgl. Satz 3.10, ergibt sich P[Ac ] ≤
T∞
P∞
c = 0 und somit P[A] = 1.
A
P
k=n k
n=1
5.9
Der Beweis des ersten Teils von Satz 4.5 findet sich in Beispiel 4.38. Genaugenommen fehlen
zum jetzigen Zeitpunkt auch noch die Beweise von Satz 4.37, eines Konvergenzsatzes für Submartingale, und des 0 -1-Gesetzes von Kolmogorov, vgl. Satz 5.3. Diese beiden Resultate werden in
Beispiel 4.38 benutzt.
5.10Zum Nachweis von (5.3) ist
N−1
N
X
1
1 X
N −1
1
Xk
XN =
Xk −
N
N k=1
N
N − 1 k=1
| {z }
|
| {z }
{z
}
N→∞
→ 1
N→∞
N→∞
→ µ
→ µ
zu beachten.
5.11Wenn die Reihe in (5.5) divergieren würde, wäre nach dem Lemma von Borel-Cantelli
P[|XN | ≥ N i.o.] = 1 im Widerspruch zu (5.4).
22. Juli 2014
111
=
5.13
∞
X
N =0
=
5.14
1+
P[|X1 | ≥ N ]
∞
X
N =1
P[|XN | ≥ N ] <
5.15
∞,
d.h., (5.2) ist bewiesen.
5.1.2. 0 -1-Gesetz von Kolmogorov. Das nun vorgestellte Resultat ist insbesondere bei der Untersuchung der Asymptotik von unabhängigen Zufallsvariablen hilfreich.
Sei zunächst X = (Xn )n∈N ein stochastischer Prozeß in diskreter Zeit N auf
einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in einem meßbaren Raum
(Ω′ , F′ ). Bei vielen Untersuchungen der Asymptotik von X bei n → ∞ spielt das
Verhalten von jeweils endlich vielen Zufallsvariablen X1 , . . . , XN für ein N ∈ N
keine Rolle. M. a. W., dieser Aspekt der Asymptotik von X ist dann charakterisiert
durch Ereignisse, die in allen σ(XN , XN +1 , . . . ), N ∈ N, enthalten sind. Sei
\
(5.6)
TX =
σ(XN , XN +1 , . . . ) ⊆ FX
N ∈N
die σ-Algebra jener Ereignisse
5.16
. TX wird auch Tail-σ-Algebra genannt.
Satz 5.3 (0 -1-Gesetz von Kolmogorov).
unabhängig. Dann ist
5.17
Die Zufallsvariablen X1 , X2 , . . . seien
P[A] = 0 oder P[A] = 1,
Man bezeichnet TX in diesem Fall als trivial
A ∈ TX .
5.18 5.19
.
Beispiel 5.4. Sei Xk , k ∈ N, eine Folge unabhängiger, reellwertiger
Pn Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) und sei Sn = k=1 Xk , n ∈ N.
Zunächst ist 5.20
(5.7)
lim Sn existiert ∈ TX ,
n→∞
5.12Vgl. (3.21).
5.13Da P[|X | ≥ N ] = P∞
1
m=N P[m ≤ |X1 | < m + 1], N ∈ N0 , ist für jedes m ∈ N0 in der
P∞
N=0 P[|X1 | ≥ N ] der Beitrag P[m ≤ |X1 | < m + 1] genau m + 1 mal enthalten.
Da die Zufallsvariablen X1 , X2 , . . . die gleiche Verteilung haben.
5.15
Wegen (5.5).
5.16Als Durchschnitt von σ-Algebren ist T eine σ-Algebra, vgl. Fußnote 3.8.
X
5.17Vgl. z.B. [5], Theorem 22.3. Ein Beweis wird auch in Beispiel 5.6 als eine Anwendung des
π-λ-Theorems, vgl. Satz 5.5, vorgestellt.
5.18U.a. mit Hilfe des 0 -1-Gesetzes von Kolmogorov wurde in Beispiel 4.38 die eine Richtung
von Satz 4.5, d.h., das starke Gesetz der großen Zahlen bewiesen.
5.19
Seien An , n ∈ N, unabhängige Ereignisse in einem Wahrscheinlichkeitsraum (Ω, F, P)
sind Xn , n ∈ N, unund sei X = (Xn )n∈N , wobei Xn = IAn , n ∈ N. Offensichtlich
T
S∞
abhängige, {0, 1}-wertige Zufallsvariablen. Weiterhin seien A = ∞
n=1 k=n Ak = {An i.o.} und
Z = limn→∞ supk≥n Xk , d.h., A = {Z = 1} ∈ TX . In Übereinstimmung mit dem Lemma von
Borel-Cantelli, vgl. Satz 5.1 und insbesondere Fußnote 5.7, besagt das 0 -1-Gesetz von Kolmogorov,
daß P[A] = 0 oder P[A] = 1.
Pn
5.20Zum Beweis von (5.7) sei S
m,n =
k=m Xk , m, n ∈ N, m < n. Dann ist
lim Sn existiert =
lim Sm,n existiert ∈ σ(Xm , Xm+1 , . . . ), m ∈ N.
Summe
5.14
n→∞
n→∞
22. Juli 2014
112
während
5.21 5.22
lim sup Sn > 0 ∈
/ TX .
(5.8)
n→∞
Wenn E[Xk ] = 0, k ∈ N, und
P∞
Var(Xk ) < ∞, so gilt darüberhinaus
P lim Sn existiert = 1.
(5.9)
k=1
5.23 5.24
n→∞
5.1.3. π-λ-Theorem. Im folgenden wird ein Resultat präsentiert, das u.a. erlaubt, zu verifizieren, ob eine interessante“ Eigenschaft, die für eine spezielle Menge
”
A von Ereignissen gilt, sogar für alle Ereignisse in der σ-Algebra σ(A) zutrifft 5.25.
Sei P eine Familie von Teilmengen einer Menge Ω 5.26. P ist ein π-System,
falls 5.27
A, B ∈ P
(5.10)
A ∩ B ∈ P.
=⇒
Weiterhin wird eine Familie L ⊆ Pot(Ω) als λ-System bezeichnet, falls
Ω ∈ L,
(5.11a)
A, B ∈ L, A ⊆ B
(5.11b)
=⇒
5.28
B \ A ∈ L,
5.21Insbesondere ist nicht jedes Ereignis, das Aspekte der Asymptotik der Folge X , k ∈ N,
k
beschreibt, in
der Tail-σ-Algebra TX enthalten.
5.22
Da lim supn→∞ Sn > 0 = lim supn→∞ (X2 + · · · + Xn ) > −X1 , ist offensichtlich
lim supn→∞ Sn > 0 nicht in σ(X2 , X3 , . . . ) und damit auch nicht in TX enthalten.
5.23Insbesondere wird durch (5.9) die nach dem 0 -1-Gesetz von Kolmogorov bestehende
Möglichkeit P limn→∞ Sn existiert = 0 im vorliegenden Fall ausgeschlossen.
Zum Beweis von (5.9) sei m, M ∈ N mit m < M und ǫ > 0. Dann folgt
M
1 X
Var(Xk )
P max |Sn − Sm | ≥ ǫ ≤ 2
m≤n≤M
ǫ k=m+1
aus der Kolmogorovschen Ungleichung, vgl. Beispiel 4.46. Da P σ-stetig von unten ist, vgl.
Satz 3.10, ergibt sich somit
∞
1 X
m→∞
P max |Sn − Sm | ≥ ǫ = lim P max |Sn − Sm | ≥ ǫ ≤ 2
Var(Xk ) → 0.
M →∞
m≤n
m≤n≤M
ǫ k=m+1
Für Wm , m ∈ N, mit Wm = maxl,n≥m |Sl − Sn |, m ∈ N, zeigt sich daher, daß
m→∞
→ 0, ǫ > 0,
P[Wm ≥ 2ǫ] ≤ P max |Sn − Sm | ≥ ǫ
m≤n
P
d.h., Wm → 0. Da die Zufallsvariablen Wm offensichtlich monoton fallend in m sind, gilt sogar
f.s.
Wm → 0. Daher ist
P {ω ∈ Ω : Sn (ω), n ∈ N, ist eine Cauchy-Folge} = 1
und folglich (5.9) bewiesen.
5.24
In einem alternativen Beweis kann zunächst festgehalten werden, daß S = (Sn )n∈N ein
Martingal ist. Da in der hier betrachteten Situation
1/2
X
∞
2 1/2
<∞
E[Xk2 ]
sup E[(Sn )+ ] ≤ sup E[|Sn |] ≤ sup E[Sn
]
≤
n∈N
n∈N
n∈N
k=1
gilt, folgt (5.9) aus Satz 4.34, einem Konvergenzsatz für Submartingale.
5.25Diese interessante“ Eigenschaft könnte wie in Beispiel 5.6 beim Beweis des 0 -1-Gesetzes
”
von Kolmogorov die Unabhängigkeit von einer speziellen Familie B von Ereignissen sein.
5.26Auf Ω braucht keine spezielle Struktur wie die eines Wahrscheinlichkeitsraums vorzuliegen.
5.27P ist durchschnittsstabil. Beispielsweise ist eine Semialgebra, vgl. Abschnitt 3.3.1, ein
π-System.
5.28Jede σ-Algebra, vgl. Abschnitt 2.1.1, ist ein λ-System.
22. Juli 2014
113
A1 , A2 , · · · ∈ L, A1 ⊆ A2 ⊆ . . .
(5.11c)
=⇒
A=
∞
[
k=1
Ak ∈ L.
Satz 5.5 (π-λ-Theorem). 5.29 5.30 Sei P ein π-System und L ein λ-System in einer
Menge Ω. Falls P ⊆ L, so gilt auch σ(P) ⊆ L.
In typischen Anwendungen des π-λ-Theorems beschreibt L ein System von
Ereignissen (Mengen), die eine spezielle Eigenschaft α besitzen. Falls L ein unter
endlichen Durchschnitten abgeschlossenes Erzeugendensystem P einer σ-Algebra G
umfaßt, so gilt α für alle A ∈ G.
Die Vorgehensweise in einer derartigen Situation wird nun demonstriert.
Beispiel 5.6. In diesem Beispiel wird das 0 -1-Gesetz von Kolmogorov 5.31 bewiesen.
Sei X1 , X2 , . . . eine Folge unabhängiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in einem meßbaren Raum (Ω′ , F′ ). Für N ∈ N
sei dann
RN = 5.32 {X1 ∈ C1 , . . . , XN ∈ CN } : C1 , . . . , CN ∈ F′ ,
L1N = A ∈ σ(XN +1 , XN +2 , . . . ) : A, C unabhängig für alle C ∈ RN
und
P1N =
5.33
{XN +1 ∈ AN +1 , . . . , XN +k ∈ AN +k } : AN +1 , . . . , AN +k ∈ F′ , k ∈ N .
Als Grundlage einer Anwendung des π-λ-Theorems kann festgehalten werden:
• P1N ⊆ L1N 5.34,
• P1N ist ein π-System 5.35,
• L1N ist ein λ-System 5.36,
5.29Vgl. z.B. [7], Appendix A.2, Theorem (2.1). Ein Beweis von Satz 5.5 wird auch in An-
hang A.5.2 vorgestellt.
5.30Als Anwendung des π-λ-Theorems wird in [7] beispielsweise untersucht, inwieweit Wahrscheinlichkeitsmaße durch ihre Einschränkung auf π-Systeme eindeutig bestimmt sind, vgl. [7],
Appendix A.2, Theorem (2.2). Ein hierzu äquivalentes Resultat ist in Fußnote 3.40 erwähnt.
5.31Vgl. Satz 5.3.
5.32R ist die Menge der Rechtecke in σ(X , . . . , X ).
1
N
N
5.33 1
PN umfaßt die endlich-dimensionalen Rechtecke in σ(XN+1 , XN+2 , . . . ).
5.34Da die Zufallsvariablen X , X , . . . unabhängig sind.
1
2
5.35Der Durchschnitt zweier endlich-dimensionaler Rechtecke in σ(X
N+1 , XN+2 , . . . ) ist ein
ebensolches Rechteck.
5.36Es ist (5.11) für L1 nachzuweisen.
N
Für C = {X1 ∈ C1 , . . . , XN ∈ CN } ∈ RN gilt zunächst
P[Ω ∩ C] = P[C] = 1 · P[C] = P[Ω]P[C],
d.h., C und Ω sind unabhängig. Insbesondere ist Ω ∈ L1N und somit (5.11a) für L1N gültig.
Falls A, B ∈ L1N mit A ⊆ B und C ∈ RN , folgt weiterhin
P[(B \ A) ∩ C] = P[(B ∩ C) \ (A ∩ C)] = P[B ∩ C] − P[A ∩ C]
= P[B]P[C] − P[A]P[C]
(da A, B ∈ L1N )
= (P[B] − P[A])P[C] = P[B \ A]P[C].
Daher ist B \ A ∈ L1N und (5.11b) für L1N bewiesen.
Für A1 , A2 , · · · ∈ L1N mit A1 ⊆ A2 ⊆ . . . und C ∈ RN gilt letztendlich
!
#
" ∞
!
#
" L
[
[
(da P σ-stetig von unten ist, vgl. Satz 3.10)
Ak ∩ C = lim P
Ak ∩ C
P
L→∞
k=1
=
k=1
| {z }
= AL
lim P[AL ]P[C]
L→∞
(da AL ∈ L1N )
22. Juli 2014
114
• σ(P1N ) = σ(XN +1 , XN +2 , . . . )
Mit dem π-λ-Theorem ergibt sich
5.37
.
σ(XN +1 , XN +2 , . . . ) = σ(P1N ) ⊆ L1N ⊆ σ(XN +1 , XN +2 , . . . ).
Somit folgt L1N = σ(XN +1 , XN +2 , . . . ), d.h.,
(5.12)
A ∈ σ(XN +1 , XN +2 , . . . ), C ∈ RN .
A, C unabhängig,
Für eine weitere Anwendung des π-λ-Theorems sei
L2N = C ∈ σ(X1 , . . . , XN ) : A, C unabhängig für alle A ∈ σ(XN +1 , XN +2 , . . . )
und
P2N = RN .
Nun gilt:
• P2N ⊆ L2N 5.38,
• P2N ist ein π-System 5.39,
• L2N ist ein λ-System 5.40,
• σ(P2N ) = σ(X1 , . . . , XN ) 5.41.
In diesem Fall führt das π-λ-Theorem zu
σ(X1 , . . . , XN ) = σ(P2N ) ⊆ L2N ⊆ σ(X1 , . . . , XN ),
d.h., L2N = σ(X1 , . . . , XN ) und daher
(5.13)
A ∈ σ(XN +1 , XN +2 , . . . ), C ∈ σ(X1 , . . . , XN ).
A, C unabhängig,
Insbesondere ergibt sich
(5.14)
5.42
5.43
A, C unabhängig,
A ∈ TX , C ∈
∞
[
σ(X1 , . . . , XN ),
N =1
aus (5.13)
Zur Vorbereitung einer letzten Anwendung des π-λ-Theorems sei jetzt
L3 = C ∈ σ(X1 , X2 , . . . ) : A, C unabhängig für alle A ∈ TX
und
P3 =
∞
[
σ(X1 , . . . , XN ).
N =1
Nun beobachtet man:
=
d.h.,
S∞
k=1
"
lim P
L→∞
L
[
k=1
#
"
Ak P[C] = P
∞
[
k=1
#
Ak P[C],
Ak ∈ L1N . Hiermit ist auch (5.11c) für L1N verifiziert.
5.37Vgl. Abschnitt 3.1.4.
5.38Vgl. (5.12).
5.39Offensichtlich sind Durchschnitte zweier Rechtecke in σ(X , . . . , X ) wiederum solche
1
N
Rechtecke.
5.40Zum Nachweis dieser Eigenschaft können die Argumente in Fußnote 5.36 auf eine triviale
Weise modifiziert werden.
5.41Vgl. Abschnitt 3.1.4.
5.42Wegen der Unabhängigkeit der Zufallsvariablen X , X , . . . ist (5.13) sicherlich zu erwar1
2
ten. Allerdings muß bei einer mathematisch rigorosen Vorgehensweise diese Beziehung durchaus
bewiesen werden.
5.43Die Tail-σ-Algebra T von X , n ∈ N, wird in (5.6) eingeführt. Zur Herleitung von (5.14)
X
Tn
aus (5.13) beachte man, daß TX = m∈N σ(Xm , Xm+1 , . . . ) ⊆ σ(Xk , Xk+1 , . . . ), k ∈ N.
22. Juli 2014
115
• P3 ⊆ L3 5.44,
• P3 ist ein π-System,
• L3 ist ein λ-System,
• σ(P3 ) = σ(X1 , X2 , . . . ).
Aus dem π-λ-Theorem folgt somit
σ(X1 , X2 , . . . ) = σ(P3 ) ⊆ L3 ⊆ σ(X1 , X2 , . . . )
und daher L3 = σ(X1 , X2 , . . . ), d.h.,
(5.15)
A, C unabhängig,
A ∈ TX , C ∈ σ(X1 , X2 , . . . ).
Weil TX ⊆ σ(X1 , X2 , . . . ), führt (5.15) insbesondere zu
(5.16)
Folglich ist
und daher
A, C unabhängig,
5.45
5.46
A, C ∈ TX .
P[A] = P[A ∩ A] = P[A] · P[A],
A ∈ TX ,
P[A] = 0 oder P[A] = 1, A ∈ TX .
Damit ist das 0 -1-Gesetz von Kolmogorov bewiesen.
5.44Diese Eigenschaft folgt aus (5.14).
5.45Aufgrund von (5.16) ist A ∈ T von sich selbst unabhängig.
X
5.46Die einzigen Lösungen der Gleichung x = x2 sind x = 0 und x = 1.
22. Juli 2014
Anhang
In diesem Anhang werden einige der in den Abschnitten 3 - 6 nur zitierten
Resultate bewiesen.
A.3. Ergänzungen zu Abschnitt 3
A.3.1. Satz von Vitali. A.3.1 Dieser Satz deutet an, daß in überabzählbaren
Stichprobenräumen Ω die Verwendung der σ-Algebra Pot(Ω) im allgemeinen nicht
sinnvoll ist.
Satz A.3.1 (Vitali). A.3.2 Es kann kein Wahrscheinlichkeitsmaß auf dem meßbaren Raum (Ω, F) = ({0, 1}N , Pot({0, 1}N)) existieren, das neben den üblichen Eigenschaften (2.2) eines Wahrscheinlichkeitsmaßes auch die bei der Modellierung des
∞-fachen, unabhängigen Wurfs einer fairen Münze erwartete Invarianzeigenschaft
(3.1) besitzt.
Zum Beweis sei in Ω die Äquivalenzrelation
ω ∼ ω′
:⇐⇒
ωn = ωn′ , n ≥ n0 für ein hinreichend großes n0 ∈ N,
eingeführt. Nach dem Auswahlaxiom gibt es eine Menge A ⊆ Ω, die aus jeder
Äquivalenzklasse bzgl. ∼ genau ein Element enthält.
Sei nun S = {S ⊆ N : |S| < ∞} A.3.3. S ist abzählbar A.3.4. Für S =
{n1 , . . . , nk } ∈ S sei TS := Tn1 ◦ · · · ◦ Tnk A.3.5. Offensichtlich ist ω ∼ ω ′ genau
dann, wenn ein S ∈ S mit ω = TS ω ′ existiert. Nun gilt:
[
Ω=
(A.3.1)
TS A A.3.6,
S∈S
falls S 6= S ′
TS A ∩ TS ′ A = ∅,
A.3.7
.
Falls P ein Wahrscheinlichkeitsmaß auf (Ω, F) ist, das (2.2) und (3.1) erfüllt und
falls A.3.8 A ∈ F, folgt nun
X
X
1 = A.3.9 P[Ω] = A.3.10
P[TS A] = A.3.11
P[A].
S∈S
S∈S
A.3.1Mit diesem Anhang wird Beispiel 3.1 vervollständigt.
A.3.2Vgl. [10], Satz (1.5).
A.3.3S ist die Menge der endlichen Teilmengen von N.
A.3.4Weil S = S∞ {S ⊆ N : max{k : k ∈ S} = m} sich als abzählbare Vereinigung von
m=1
endlichen Mengen darstellen läßt, ist S abzählbar.
A.3.5Die Funktionen T : Ω → Ω, n ∈ N, sind in (3.1c) definiert. Für eine Abbildung T ,
n
S
S = {n1 , . . . , nk } ∈ S, und ω ∈ Ω ist TS ω jene Folge in {0, 1}, die aus der Folge ω durch
Vertauschen der Werte 0 und 1 in den Folgengliedern mit den Indizes n1 , . . . , nk hervorgeht.
A.3.6T A = {T ω ′ : ω ′ ∈ A}. Zu jedem ω ∈ Ω gibt es ein ω ′ ∈ A mit ω ∼ ω ′ . Insbesondere
S
S
ist ω ′ der Repräsentant in A jener Äquivalenzklasse, die ω enthält. Folglich gibt es ein S ∈ S mit
ω = TS ω ′ ∈ TS A.
A.3.7
Wäre TS A ∩ TS ′ A 6= ∅ für S, S ′ ∈ S, so gäbe es ω, ω ′ ∈ A mit ω ∼ TS ω = TS ′ ω ′ ∼ ω ′ . Da
A keine zwei verschiedenen, äquivalente Elemente enthalten kann, wäre dann ω = ω ′ und damit
auch S = S ′ .
A.3.8In diesem Fall ist auch T A ∈ F, S ∈ S. Insbesondere ist P[T A] für alle S ∈ S definiert.
S
S
175
176
Damit liegt ein Widerspruch vor, denn die Summe auf der rechten Seite ist entweder
gleich 0, wenn P[A] = 0, oder gleich ∞, wenn P[A] > 0.
Somit kann geschlossen werden, daß A ∈
/ F, falls ({0, 1}N, F, P) ein Wahrscheinlichkeitsraum mit einem (2.2) und (3.1) erfüllenden Wahrscheinlichkeitsmaß
ist. Insbesondere ist die Wahl F = Pot({0, 1}N) nicht möglich.
A.3.2. Stochastische Konvergenz als Folge der fast-sicheren Konvergenz. A.3.12 Es gelte limn→∞ Xn = X, f.s., d.h., P[limn→∞ Xn = X] = 1, bzw.
P[lim supn→∞ |Xn − X| > 0] = 0. Damit gleichbedeutend ist A.3.13
"
#
[
P
{ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ für unendlich viele n ∈ N} = 0.
ǫ>0,ǫ∈Q
Daraus folgt
0=
A.3.14
=
A.3.15
P {ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ für unendlich viele n ∈ N}
#
"∞ ∞
\ [
P
{ω ∈ Ω : |Xk (ω) − X(ω)| > ǫ} , ǫ > 0.
n=1 k=n
|
|
{z
= Aǫn
{z
= Aǫ
}
}
Für festes ǫ > 0 gilt Aǫn ց Aǫ . Weil das Wahrscheinlichkeitsmaß P σ-stetig von
oben ist A.3.16, ergibt sich limn→∞ P[Aǫn ] = P[Aǫ ] = 0, ǫ > 0. Da P[|Xn − X| > ǫ] ≤
P[Aǫn ] A.3.14, ist somit die stochastische Konvergenz der Folge Xn , n ∈ N, gegen X
nachgewiesen.
A.3.3. σ-Additivität des Erwartungswerts. A.3.17 Es ist nachzuweisen,
daß für Zufallsvariablen X, X1 , X2 , . . . , die einen Erwartungswert besitzen und
Xn ≥ 0, f.s., n ∈ N,
und X =
∞
X
Xk , f.s.,
k=1
erfüllen, die Beziehung
(A.3.2)
E[X] =
∞
X
E[Xk ]
k=1
gilt. Es folgt nun ein Beweis für integrable, diskrete Zufallsvariablen A.3.18 X, X1 , X2 ,
....
A.3.9Wegen (2.2a).
A.3.10Wegen (2.2b) und (A.3.1).
A.3.11Wegen (3.1).
A.3.12In diesem Anhang wird die erste Hälfte von Satz 3.13 bewiesen.
A.3.13Wenn für ein ω ∈ Ω die Folge X (ω), n ∈ N, nicht gegen X(ω) konvergiert, so gibt es
n
ein ǫ > 0, das o.E.d.A. als rational angenommen werden kann, so daß |Xn (ω) − X(ω)| > ǫ für
unendlich viele n.
A.3.14Wegen der Monotonie von P, vgl. Satz 3.10(3).
A.3.15
|X (ω) − X(ω)| > ǫ für unendlich viele n ∈ N“ ist gleichbedeutend mit zu jedem
” n
”
n ∈ N gibt es ein k ∈ N, k ≥ n, so daß |Xk (ω) − X(ω)| > ǫ“.
A.3.16Vgl. Satz 3.10(6).
A.3.17In diesem Anhang wird für diskrete Zufallsvariablen der erste Teil von Satz 3.18(3)
bewiesen.
A.3.18D.h., für X, X , X , . . . gilt (2.7).
1
2
22. Juli 2014
177
PN
Hierzu sei zunächst SN := k=1 Xk , N ∈ N. Da X ≥ SN , N ∈ N, folgt aus
Satz 3.18(1) und Satz 3.18(2) A.3.19, d.h., der Monotonie und der Linearität des
Erwartungswerts,
N
X
E[X] ≥ E[SN ] =
E[Xk ], N ∈ N.
k=1
Damit ergibt sich im Limes N → ∞ der erste Teil von (A.3.2), d.h.,
E[X] ≥
(A.3.3)
∞
X
E[Xk ].
k=1
Zum Beweis der umgekehrten Ungleichung sei nun c ∈ (0, 1) und
A.3.20
τ = inf{N ∈ N : SN ≥ cX}.
Da 0 ≤ SN ր X, f.s., ist τ < ∞, f.s. Nun sei
Sτ =
τ
X
A.3.21
Xk .
k=1
Sτ ist eine diskrete Zufallsvariable mit
Sτ (Ω) ⊆
Es folgt
∞
[
A.3.22
SN (Ω) =: S(Ω).
N =1
A.3.23
:
cE[X] ≤
=
A.3.24
X
E[Sτ ]
x∈Sτ (Ω)
x P[Sτ = x]
| {z }
[
• ∞
=P
{τ = N, SN = x} =
N =1
=
A.3.26
∞
X X
x∈S(Ω) N =1
=
A.3.27
∞
X
N =1
A.3.25
∞
X
P[τ = N, SN = x]
N =1
xP[I{τ =N } = 1, SN = x]
E[I{τ =N } SN ]
∞ X
N
X
=
A.3.28
=
N =1 k=1
∞ X
∞
X
X
E[I{τ =N } Xk ]
xP[τ = N, Xk = x]
k=1 N =k x∈Xk (Ω)
A.3.19Die Gültigkeit dieser beiden Resultate kann hier vorausgesetzt werden.
A.3.20τ ist eine N-wertige Zufallsvariable mit τ (ω) = inf{N ∈ N : S (ω) ≥ cX(ω)}, ω ∈ Ω.
N
Diese Zufallsvariable kann als eine Stoppzeit bzgl. der Filtration (σ(X, X1 , . . . , Xn ))n∈N betrachtet
werden. Zur Erläuterung dieser Begriffe und Notationen vgl. Beispiel 3.3 und Abschnitt 3.9.
A.3.21S (ω) = Pτ (ω) X (ω), ω ∈ Ω. Die Zufallsvariable S ist eine endliche Summe mit
τ
τ
k
k=1
einer zufälligen Anzahl von Summanden.
A.3.22Beachte, daß jede Menge S (Ω) höchstens abzählbar ist, da X , X , . . . diskrete Zu1
2
N
fallsvariablen sind.
A.3.23Im folgenden wird an verschiedenen Stellen in Mehrfachsummen die Summationsreihenfolge vertauscht. Da jeweils alle Summanden positiv sind, ist dies immer korrekt.
22. Juli 2014
178
=
A.3.29
∞
X
X
k=1 x∈Xk (Ω)
≤
∞
X
x P[τ ≥ k, Xk = x]
{z
}
|
≤ A.3.30 P[Xk = x]
E[Xk ].
k=1
Im Limes c ր 1 ergibt sich hieraus
E[X] ≤
(A.3.4)
∞
X
E[Xk ].
k=1
Zusammengenommen beweisen die beiden Abschätzungen (A.3.3) und (A.3.4) die
Behauptung (A.3.2) A.3.31.
A.4. Ergänzungen zu Abschnitt 4
A.4.1. Eigenschaften charakteristischer Funktionen. Für eine Zufallsvariable X = (X1 , . . . , Xd )T : (Ω, F, P) → (Rd , B(Rd )) ist die charakteristische
Funktion ψX : Rd → C durch
X
d
(A.4.1)
ψX (z) = E[exp(iz · X)] = E exp i
z k X k , z ∈ Rd ,
k=1
definiert. Wenn die Verteilung PX von X eine Dichte fX bzgl. des Lebesguemaßes
auf Rd besitzt, so ist A.4.1
Z
dx exp(iz · x)fX (x), z ∈ Rd ,
(A.4.2)
ψX (z) =
Rd
d.h., ψX entspricht der Fouriertransformierten von fX .
In diesem Anhang werden einige Eigenschaften von charakteristischen Funktionen vorgestellt. Diese Eigenschaften werden in den vielfältigen Situationen in der
Wahrscheinlichkeitstheorie, in denen charakteristische Funktionen als Hilfsmittel in
Erscheinung treten, benötigt A.4.2.
A.4.1.1. Charakteristische Funktion einer Summe unabhängiger Zufallsvariablen. Seien X und Y unabhängige, Rd -wertige Zufallsvariablen. Dann gilt:
(A.4.3)
ψX+Y (z) = ψX (z)ψY (z),
z ∈ Rd .
Beweis.
ψX+Y (z) = E[exp(iz · (X + Y ))] = E[exp(iz · X) exp(iz · Y )]
A.3.24Wegen der Monotonie und der Linearität des Erwartungswerts, vgl. Satz 3.18(1) und
(2), und aufgrund der Definition von τ und Sτ .
A.3.25
Wegen der σ-Additivität von P, vgl. (2.2b).
P
P
A.3.26
Wenn x∈Sτ (Ω) . . . durch x∈S(Ω) . . . ersetzt wird, werden keine nichtverschwindenden Summanden hinzugefügt. Wenn x ∈ S(Ω) \ Sτ (Ω), gilt P[I{τ =N} = 1, SN = x] = 0, N ∈ N.
A.3.27
Beachte, daß die Zufallsvariable I{τ =N} nur die Werte 0 und 1 annimmt.
P
A.3.28
Da SN = N
k=1 Xk , und wegen der Linearität des Erwartungswerts, vgl. Satz 3.18(2).
•∞
S
A.3.29
Da N=k {τ = N, Xk = x} = {τ ≥ k, Xk = x} und wegen der σ-Additivität von P.
A.3.30
Wegen der Monotonie von P, vgl. Satz 3.10(3).
A.3.31Die vorgestellten Argumente sind mit geringfügigen Modifikationen auch anwendbar,
wenn E[X] = ∞.
A.4.1Diese Darstellung von ψ ergibt sich aus (3.19).
X
A.4.2Vgl. z.B. Beispiel 4.4, bzw. Fußnote 4.18, und insbesondere den Beweis des Zentralen Grenzwertsatzes für unabhängige, identisch verteilte, quadratintegrable Zufallsvariable im
nächsten Anhang A.4.2. Natürlich werden in diesen Fällen charakteristische Funktionen genau
deswegen als Hilfsmittel benutzt, weil sie eben diese nützlichen Eigenschaften haben, die nun
vorgestellt werden.
22. Juli 2014
179
=
A.4.3
E[exp(iz · X)]E[exp(iz · Y )]
= ψX (z)ψY (z),
z ∈ Rd .
A.4.1.2. Taylorentwicklung einer charakteristischen Funktion. Sei X eine Rd wertige Zufallsvariable mit E[|X|2 ] < ∞. Dann ist ψX ∈ Cb2 (Rd ) und es gilt insbesondere
d
d
X
1 X
zk zl E[Xk Xl ] + o(|z|2 ), bei |z| → 0.
(A.4.4) ψX (z) = 1 + i
zk E[Xk ] −
2
k=1
k,l=1
p
Wenn E[|X| ] < ∞, für ein p = 3, 4, . . . , kann die Taylorentwicklung (A.4.4) bis zur
Ordnung p fortgesetzt werden, wobei weitere gemischte Momente der Komponenten
X1 , . . . , Xd von X als Koeffizienten in Erscheinung treten A.4.4.
Begründung. Nach formalem Vertauschen von Differentiation und E[ . ] folgt A.4.5
∂
ψX (z) = iE[Xk exp(iz · X)],
∂zk
∂2
ψX (z) = − E[Xk Xl exp(iz · X)], z ∈ Rd , k, l = 1, . . . , d,
∂zk ∂zl
d.h.,
∂
ψX (0) = 1,
ψX (z) = iE[Xk ],
∂zk
z=0
2
∂
ψX (z) = −E[Xk Xl ], k, l = 1, . . . , d.
∂zk ∂zl
z=0
Damit wird (A.4.4) als Taylorentwicklung der Ordnung 2 von ψX in 0 plausibel.
A.4.1.3. Charakteristische Funktion einer linearen Transformation einer Zufallsvariable. Sei X eine Rd -wertige Zufallsvariable und b ∈ Rd , bzw. A.4.6 A ∈ Rd⊗d .
Weiterhin sei Y = AX + b. Dann ist
ψY (z) = exp(iz · b)ψX (AT z),
(A.4.5)
z ∈ Rd .
Beweis.
ψY (z) = E[exp(iz · (AX + b))] = E[exp(iz · b) exp(iz · AX)]
= exp(iz · b)E[exp(iAT z · X)] = exp(iz · b)ψX (AT z),
z ∈ Rd .
A.4.1.4. Charakteristische Funktion einer standard normalverteilten Zufallsvariablen. Eine reellwertige Zufallsvariable X mit der standard Normalverteilung
N(0, 1) besitzt die charakteristische Funktion
ψX (z) = exp(−z 2 /2),
(A.4.6)
Beweis.
ψX (z) =
A.4.7
1
√
2π
Z
∞
−∞
z ∈ R.
dx exp(izx) exp(−x2 /2)
{z
}
|
2
= exp(izx − x /2) = exp((−(x − iz)2 − z 2 )/2)
A.4.3Wegen der Unabhängigkeit von X und Y , vgl. Satz 3.18(4). Man beachte, daß für jedes
feste z ∈ Rd mit X und Y auch die Zufallsvariablen exp(iz · X) und exp(iz · Y ) unabhängig sind.
A.4.4Aufgrund von (A.4.4) und analoger Taylorentwicklungen höherer Ordnung können die
Momente einer Zufallsvariable X durch Differentiation ihrer charakteristischen Funktion ψX in 0
bestimmt werden.
A.4.5Bei einem rigorosen Beweis kann neben (A.4.1) der Satz von der dominierten Konvergenz, vgl. Satz 3.24, herangezogen werden.
A.4.6A ist eine d × d-Matrix mit reellen Komponenten.
22. Juli 2014
180
1
= exp(−z /2) √
2π
|
2
=
=
Z
∞
dx exp(−(x − iz)2 /2) .
{z
}
Z ∞−iz
1
√
dy exp(−y 2 /2)
2π −∞−iz
|
{z
}
Z ∞
1
√
dy exp(−y 2 /2) = 1
2π −∞
−∞
A.4.8
A.4.9
Normalverteilungen im Rd können auf linearen Unterräumen konzentriert sein
und dann keine Dichte bzgl. des Lebesguemaßes im Rd mehr besitzen. Derartige
Wahrscheinlichkeitsmaße lassen sich durch ihre charakteristischen Funktionen, d.h.
geeignete Verallgemeinerungen von (A.4.6) definieren A.4.10.
A.4.1.5. Inversionsformel. Sei XR eine Rd -wertige Zufallsvariable mit der charakteristischen Funktion ψX . Wenn Rd dz |ψX (z)| < ∞, so hat die Verteilung PX
von X eine Dichte fX bzgl. des Lebesguemaßes auf Rd mit
Z
1
(A.4.7)
fX (x) =
dz exp(−iz · x)ψX (z), x ∈ Rd .
(2π)d Rd
Allgemein ist
A.4.11
(A.4.8) PX [A] =
1
M→∞ (2π)d
lim
Z
dz
[−M,M]d
Y
d
k=1
ϕak ,bk (zk ) ψX (z),
A = [a1 , b1 ] × · · · × [ad , bd ], −∞ < ak < bk < ∞, k = 1, . . . , d,
PX [∂A] = 0
A.4.12
,
wobei ϕa,b (t) = (exp(−ita) − exp(−itb))/(it), t ∈ R, −∞ < a < b < ∞.
Diese Beziehungen zeigen insbesondere, daß die Verteilung einer Rd -wertigen
Zufallsvariable durch deren charakteristische Funktion eindeutig bestimmt ist.
Formale Begründung für d = 1. Für eine beliebige, hinreichend reguläre Funktion
g : R → R und ihre Fouriertransformierte e
g gelten
Z
(A.4.9a)
dx exp(izx)g(x), z ∈ R,
ge(z) =
R
Z
1
g(x) =
(A.4.9b)
dz exp(−izx)e
g(z), x ∈ R.
2π R
(A.4.7) ergibt sich somit aus (A.4.2) und (A.4.9), wenn g = fX , bzw. e
g = ψX
gesetzt wird.
(A.4.9) zeigt auch die Gültigkeit der Beziehungen
Z
(A.4.10a)
dx exp(izx)g ′ (x)
ge′ (z) =
R
Z
g(z), z ∈ R,
= − iz dx exp(izx)g(x) = −ize
R
A.4.7Vgl. (A.4.2).
A.4.8Mit der Variablentransformation y = x − iz. Nach dieser Transformation ist der Inte-
grationsbereich die Gerade {ζ = η − iz : η ∈ R} in C.
R ∞−iz
A.4.9
Die Unabhängigkeit des Integrals −∞−iz
dy exp(−y 2 /2) von z ∈ R kann mit dem
Cauchyschen Integralsatz, vgl. [2], Chapter 4, Section 1.4, bewiesen werden.
A.4.10Vgl. Abschnitt 4.2.3.
A.4.11Die rechte Seite von (A.4.8) kann keineswegs bedenkenlos durch das Integral (2π)−d
R
Qd
dz
d
k=1 ϕak ,bk (zk ) ψX (z) ersetzt werden, da dessen Integrand i. allg. nicht integrabel ist.
R
Außerdem ist jener Integrand weder ≥ 0, f.s., noch ≤ 0, f.s.
A.4.12(A.4.8) kann nur gelten, wenn P keine Masse“ auf dem Rand ∂A von A besitzt.
X
”
22. Juli 2014
181
(A.4.10b)
1
g(x) =
2π
=
1
2π
Z
dz exp(−izx)e
g(z)
R
Z
dz exp(−izx)
R
ge′ (z)
,
−iz
x ∈ R,
wobei g ′ die Ableitung von g und ge′ die Fouriertransformierte von g ′ ist.
′
Da A.4.13 FX
= fX für die Verteilungsfunktion FX von X und weil ff
X = ψX ,
folgt nun
Z
1
ψX (z)
FX (x) = −
, x ∈ R,
dz exp(−izx)
2π R
iz
d.h.,
PX (a, b] = FX (b) − FX (a)
Z
1
1
exp(−iza) − exp(−izb) ψX (z), −∞ < a < b < ∞.
dz
=
2π R
iz
Damit ist (A.4.8) auf eine formale Weise für d = 1 begründet.
Details zu den Überlegungen dieses Anhangs und weiteren Eigenschaften charakteristischer Funktionen sind z.B. in [7], Sections 2.3 und 2.9, oder [12], Sections 5.7 - 5.9 nachzulesen.
A.4.2. Zentraler Grenzwertsatz für unabhängige, identisch verteilte,
reellwertige, quadratintegrable Zufallsvariablen. In der nun folgenden Skizze
eines Beweises von Satz 4.10 werden insbesondere verschiedene Eigenschaften von
charakteristischen Funktionen A.4.14 verwendet.
Sei A.4.15 Yn = (Xn − µ)/σ, n ∈ N. Die Zufallsvariablen Yn , n ∈ N, sind i.i.d.
mit E[Y1 ] = 0 und Var(Y1 ) = E[Y12 ] = 1, d.h., A.4.16
(A.4.11)
ψYn (z) = ψY1 (z) = 1 −
z2
+ o(|z|2 ),
2
bei z → 0, n ∈ N.
Weiterhin gilt
N
1 X
√
Yk =
N k=1
r
!
N
1 X
Xk − µ ,
N
N
σ2
k=1
N ∈ N,
und
ψ(1/√N ) PN
k=1
Yk (z) =
A.4.17
N
Y
√
ψYk (z/ N )
k=1
|z|2 N
z2
A.4.18
1−
=
+o
2N
N
N
2
z
N →∞
∼
1−
2N
N →∞
→
exp(−z 2 /2),
z ∈ R.
A.4.13Diese Beziehung gilt zumindest dann, wenn F stetig differenzierbar ist.
X
A.4.14Vgl. Anhang A.4.1.
A.4.15Für die Zufallsvariablen X , n ∈ N, seien die Annahmen von Satz 4.10 vorausgesetzt.
n
A.4.16Vgl. Abschnitt A.4.1.2.
22. Juli 2014
182
Aufgrund von Satz 3.14 und weil die Funktion R ∋ z → exp(−z 2 /2) die charakteristische Funktion einer standard normalverteilten Zufallsvariablen darstellt A.4.19,
ist damit Satz 4.10 bewiesen.
A.4.3. Verteilung einer Markovkette. A.4.20 Sei X = (Xn )n∈N0 eine Markovkette mit dem diskreten Zustandsraum S. Dann gilt A.4.21
P X0 = s0 , X1 = s1 , . . . , Xn−1 = sn−1 , Xn = sn
= P X0 = s0 , . . . , Xn−1 = sn−1 P Xn = sn |X0 = s0 , . . . , Xn−1 = sn−1
= P X0 = s0 , . . . , Xn−2 = sn−2 P Xn−1 = sn−1 |X0 = s0 , . . . , Xn−2 = sn−2
P Xn = sn |Xn−1 = sn−1
= ...
= P[X0 = s0 ]P X1 = s1 |X0 = s0 P1 (s1 , s2 ) . . . Pn−1 (sn−1 , sn )
= PX0 [s0 ]P0 (s0 , s1 ) · · · Pn−1 (sn−1 , sn ),
s0 , s1 , . . . , sn ∈ S, n ∈ N0 ,
womit (4.28) gezeigt ist. Weiterhin folgt:
(A.4.12) P X0 ∈ A0 , X1 ∈ A1 , . . . , Xn ∈ An
= P(X0 ,X1 ,...,Xn ) {η = (η0 , η1 , . . . , ηn ) ∈ S n+1 : η0 ∈ A0 , . . . , ηn ∈ An }
"•
#
[
=P
{X0 = s0 , X1 = s1 , . . . , Xn = sn }
s0 ∈A0 ,s1 ∈A1 ,...,sn ∈An
=
A.4.22
X
X
s0 ∈A0 s1 ∈A1
=
A.4.23
X
···
PX0 [s0 ]
s0 ∈A0
X
sn ∈An
X
s1 ∈A1
PX0 [s0 ]P0 (s0 , s1 ) · · · Pn−1 (sn−1 , sn )
P0 (s0 , s1 ) · · ·
A0 , A1 , . . . , An ∈ Pot(S), n ∈ N0 .
X
Pn−1 (sn−1 , sn ),
sn ∈An
Die endlich-dimensionalen Verteilungen der Markovkette X, d.h., die Verteilungen
P(X0 ,X1 ,...,Xn ) von (X0 , X1 , . . . , Xn ) auf (S n+1 , Pot(S)⊗(n+1) ), sind damit für alle
n ∈ N durch die Übergangsmatrizen Pn , n ∈ N, und die Anfangsverteilung PX0
von X eindeutig bestimmt.
Setzt man nun
" n
!
!#
∞
Y
Y
(A.4.13) P
Ak ×
S
:= P X0 ∈ A0 , X1 ∈ A1 , . . . , Xn ∈ An ,
k=0
k=n+1
A0 , A1 , . . . , An ∈ Pot(S), n ∈ N0 ,
Q∞
Qn
so werden den endlich-dimensionalen Rechtecken
k=n+1 S , A0 , . . . ,
k=0 Ak ×
An ∈ Pot(S), n ∈ N0 , in (S N0 , Pot(S)⊗N0 ) Wahrscheinlichkeiten zugewiesen, wobei diese Wahrscheinlichkeiten durch (A.4.12) spezifiziert sind. Durch eine Anwendung eines Resultats wie z.B. Satz 3.8 kann diese Zuordnung von Wahrscheinlichkeiten auf eine eindeutige Weise zu einem Wahrscheinlichkeitsmaß P =: PX
auf (S N0 , Pot(S)⊗N0 ) fortgesetzt werden. Dieses Wahrscheinlichkeitsmaß PX ist die
A.4.17Vgl. Abschnitte A.4.1.1 und A.4.1.3.
A.4.18Wegen (A.4.11).
A.4.19Vgl. Abschnitt A.4.1.4 und auch Abschnitt A.4.1.5.
A.4.20In diesem Anhang wird Satz 4.21 bewiesen.
A.4.21Hier wird neben der Markoveigenschaft (4.27) auch mehrmals die aus (2.9) folgende
Relation P[A ∩ B] = P[A|B]P[B] benutzt.
A.4.22Aufgrund der σ-Additivität von P, vgl. (2.2b), und (4.28).
A.4.23
Die Analogie zur Darstellung der endlich-dimensionalen Verteilungen der Brownschen
Bewegung in (4.26) ist offensichtlich.
22. Juli 2014
183
Verteilung der Markovkette X. Aufgrund von (A.4.12) und (A.4.13) ist PX durch
die Übergangsmatrizen und die Anfangsverteilung von X eindeutig bestimmt.
A.4.4. Aussterbewahrscheinlichkeit des superkritischen Galton-Watson-Prozesses. In diesem Anhang wird für den in Beispiel 4.24 eingeführten Galton-Watson-Prozeß X = (Xn )n∈N0 mit X0 = 1 im Fall m > 1, b0 > 0 A.4.24 die
Aussterbewahrscheinlichkeit q berechnet. Dieses q wird als die kleinste Lösung von
(4.34) identifiziert A.4.25.
Wie (4.34) andeutet, wird insbesondere mit erzeugenden Funktionen A.4.26 gearbeitet. So ergibt sich beispielsweise die erzeugende Funktion von Xn , n ∈ N,
gemäß
(A.4.14)
φXn (s) = E[sXn ] =
∞
X
P[Xn = k] sk
| {z }
k=0
∞
X
=
P[Xn−1 = r]P[Xn = k|Xn−1 = r]
r=0
=
A.4.27
∞
X
P[Xn−1 = r]
r=0
∞
X
k=0
1
r
P[ζn−1
+ · · · + ζn−1
= k]sk
|
= φXn−1 (φb (s))
=
{z
A.4.28
φb (s)
= φXn−2 φb (φb (s)) = φXn−2 ((φb ◦ φb )(s))
= ...
Sei nun
= φX1 ((φb ◦ · · · ◦ φb )(s))
{z
}
|
n − 1 mal
= A.4.29 (φb ◦ · · · ◦ φb )(s) =: φ◦n
b (s),
|
{z
}
n mal
A=
∞
[
k=1
r
}
s ∈ [0, 1], n ∈ N.
{Xk = 0}
A.4.24m ist die mittlere Nachkommenszahl eines einzelnen Individuums, d.h., m = P∞ kb .
k
k=0
Falls m > 1 ist, bezeichnet man X als superkritisch. Durch die Bedingung b0 > 0 wird sichergestellt, daß die Aussterbewahrscheinlichkeit q strikt positiv ist, denn offensichtlich gilt
q ≥ P[X1 = 0] = b0 .
A.4.25Insbesondere wird für den dritten Fall in (4.33) der Beweis durchgeführt.
A.4.26Die erzeugende Funktion φ einer N -wertigen Zufallsvariable X ist durch φ (s) =
0
X
X
P
k
E[sX ] = ∞
die erzeugende Funkk=0 P[X = k]s , s ∈ [0, 1], gegeben. Entsprechend definiert man P
k
tion φa eines Wahrscheinlichkeitsmaßes a = (ak )k∈N0 auf N0 durch φa (s) = ∞
k=0 ak s , s ∈ [0, 1].
In (A.4.14) wird insbesondere benutzt, daß für unabhängige, N0 -wertige Zufallsvariablen X
und Y die erzeugende Funktion der Summe X + Y faktorisiert, d.h.,
φX+Y (s) = φX (s)φY (s),
s ∈ [0, 1], X, Y unabhängig.
Für N0 -wertige Zufallsvariablen X besitzt die erzeugende Funktion φX ähnlich praktische
Eigenschaften wie die in Anhang A.4.1 vorgestellte charakteristische Funktion ψY für allgemeine
Rd -wertige Zufallsvariablen Y .
A.4.27Aufgrund von (4.32) gilt P[X = k|X
1
r
n
n−1 = r] = P[ζn−1 + · · · + ζn−1 = k].
A.4.28
1
r
Die innere Summe ist die erzeugende Funktion der Summe ζn−1 + · · · + ζn−1
der Zu1
r
. Jene Zufallsvariablen sind unabhängig und nach b verteilt, vgl. Beifallsvariablen ζn−1
, . . . , ζn−1
spiel 4.24. Somit berechnet sich nach Fußnote A.4.26 die innere Summe zu φb (s)r .
A.4.29
Da X0 = 1 und somit X1 die Verteilung b besitzt.
22. Juli 2014
184
das Ereignis, daß der Prozeß X ausstirbt, und sei
n ∈ N.
An = {Xn = 0},
An beschreibt das Ereignis, daß X zum Zeitpunkt n ausgestorben ist.
Da An ր A, gilt A.4.30
φXn (0) = P[An ] ր P[A] =: q.
(A.4.15)
Folglich ist
q=
A.4.31
lim φ◦n
b (0) =
A.4.32
=
A.4.33
n→∞
◦(n−1)
lim φb (φb
(0))
A.4.34
φb (q),
φb lim φ◦n
b (0) =
n→∞
n→∞
d.h., q ist eine Lösung von (4.34).
Sei jetzt a ∈ [0, 1] irgendeine Lösung von (4.34), d.h., es gelte a = φb (a). Nun
folgt aus der Monotonie von φb zunächst φb (0) ≤ φb (a) und dann weiterhin
q=
A.4.35
◦n
lim φ◦n
b (0) ≤ lim φb (a) = a,
n→∞
n→∞
d.h., q ist die kleinste Lösung von (4.34).
P∞
P∞
A.4.36
′
Offensichtlich ist φb (1) =
k=1 kbk = m und
k=0 bk = 1, φb (1) =
φb (0) = b0 . Wenn
nun
m
>
1
und
b
>
0,
ist
b
>
0
für
zumindest
ein k ≥ 2. Somit
0
k
P∞
ist φ′′b (s) = k=2 k(k − 1)bk sk−2 > 0, s ∈ (0, 1], d.h., φb ist strikt konvex in (0, 1].
Insbesondere ist q ∈ (0, 1) für die kleinste Lösung von (4.34) A.4.37.
Damit ist der dritte Fall in (4.33) vollständig behandelt.
A.4.5. Übergangswahrscheinlichkeiten des Poisson-Prozesses. Für die
Bestimmung der Übergangswahrscheinlichkeiten Pt (k, l), k, l ∈ N0 , t ≥ 0, des in Beispiel 4.27 vorgestellten Poisson-Prozesses X = (Xt )t≥0 wird ein System gewöhnlicher
Differentialgleichungen aufgestellt und gelöst werden. Diese Differentialgleichungen
sind durch die Übergangsintensität λ A.4.38 bestimmt.
A.4.5.1. Berechnung von Pt (0, 0), t ≥ 0. Zunächst gilt A.4.39
(A.4.16)
Pt+h (0, 0) = P[Xt+h = 0|X0 = 0]
=
A.4.40
P[Xt+h = 0, Xt = 0|X0 = 0]
=
A.4.41
=
A.4.43
P[Xt+h = 0|Xt = 0, X0 = 0] P[Xt = 0|X0 = 0]
{z
}
|
A.4.42
=
P[Xt+h = 0|Xt = 0]
Ph (0, 0)Pt (0, 0)
A.4.30Vgl. Satz 3.10(5). In (A.4.15) wird auch berücksichtigt, daß φ (0) = P[Y = 0] für jede
Y
N0 -wertige Zufallsvariable Y .
A.4.31Wegen (A.4.14) und (A.4.15).
A.4.32Weil φ◦n (0) = φ (φ◦(n−1) (0)).
b b
b
A.4.33
Aufgrund der Stetigkeit von φb .
A.4.34
Wegen (A.4.14) und (A.4.15).
A.4.35Wegen (A.4.14) und (A.4.15).
A.4.36Es ist noch q ∈ (0, 1) zu zeigen.
A.4.37Für die strikt konvexe Funktion φ : [0, 1] → [0, 1] ist φ (0) > 0, φ (1) = 1 und
b
b
b
φ′b (1) > 1. Somit gibt es in (0, 1) genau eine Lösung s von φb (s) = s.
A.4.38Vgl. (4.41).
A.4.39In den folgenden Argumenten wird angenommen, daß die Markoveigenschaft (4.36)
des Poisson-Prozesses vorausgesetzt werden kann, daß nur Sprünge mit zugehöriger positiver
Übergangsrate, d.h., Sprünge der Größe +1 möglich sind und daß zwischen den Sprüngen die
Pfade des Poisson-Prozesses konstant sind.
22. Juli 2014
185
= (1 − P[Xh 6= 0|X0 = 0] )Pt (0, 0),
{z
}
|
A.4.44
=
λh + o(h)
und damit
Pt+h (0, 0) − Pt (0, 0) = −λPt (0, 0)h + o(h),
bei h → 0.
Dividiert man beide Seiten durch h und betrachtet den Limes h ց 0 ergibt sich
d
Pt (0, 0) = −λPt (0, 0).
(A.4.17)
dt
Mit der Anfangsbedingung P0 (0, 0) = 1 erhält man daher
(A.4.18)
Pt (0, 0) = exp(−λt),
t ≥ 0.
Der Zeitpunkt des ersten Sprungs aus dem Punkt 0 besitzt folglich eine Exponentialverteilung mit Parameter λ A.4.45.
A.4.5.2. Gewöhnliche Differentialgleichungen für Pt (0, k), t ≥ 0, k = 1, 2, . . . .
Wie in (A.4.16) wird zur Bestimmung von Pt+h (0, k) der Zustand des PoissonProzesses X zur Zeit t als Hilfsgröße benutzt. Es gilt
Pt+h (0, k) =
A.4.46
+
Pt (0, k) Ph (k, k) +Pt (0, k − 1) Ph (k − 1, k)
{z
}
|
| {z }
A.4.47
A.4.47
=
1 − λh + o(h) =
λh + o(h)
k
X
l=2
und damit
Pt (0, k − l) Ph (k − l, k) ,
|
{z
}
= A.4.47 o(h)
k = 1, 2, . . . ,
Pt+h (0, k) − Pt (0, k) = (−Pt (0, k) + Pt (0, k − 1))λh + o(h),
k = 1, 2, . . . .
Bei h ց 0 führen diese Beziehungen zu dem System von Differentialgleichungen
d
(A.4.19)
Pt (0, k) = −λPt (0, k) + λPt (0, k − 1), k = 1, 2, . . . ,
dt
die durch die Anfangsbedingungen
(A.4.20)
P0 (0, k) = 0,
k = 1, 2, . . . ,
ergänzt werden.
A.4.40Da nur Sprünge der Größe +1 möglich sind und somit aus X
t+h = 0 unter der Bedingung X0 = 0 auch Xt = 0 folgt.
A.4.41
Mit (2.9) folgt
P[Xt+h = 0, Xt = 0, X0 = 0] P[Xt = 0, X0 = 0]
·
P[Xt = 0, X0 = 0]
P[X0 = 0]
= P[Xt+h = 0|Xt = 0, X0 = 0]P[Xt = 0|X0 = 0].
P[Xt+h = 0, Xt = 0|X0 = 0] =
A.4.42
Wegen der Markoveigenschaft (4.36).
Da nur Sprünge mit positiver Sprungrate, d.h., mit der Größe +1 auftreten können, folgt
Pt+h (0, 0) = Ph (0, 0)Pt (0, 0) auch unmittelbar aus der Chapman-Kolmogorov-Gleichung (4.39).
A.4.44
Weil
A.4.43
P[Xh 6= 0|X0 = 0] = P[Xh = 1|X0 = 0] + P[Xh 6∈ {0, 1}|X0 = 0] = λh + o(h),
bei h → 0,
vgl. (4.41).
A.4.45Sei T = inf{t ≥ 0 : X 6= 0}. Offensichtlich gilt P[T > t|X = 0] = P (0, 0), t ≥ 0.
t
t
0
Somit besitzt die unter X0 = 0 bedingte Verteilung von T die Dichte t → (d/dt)P[T ≤ t|X0 =
0] = (d/dt)(1 − P[T > t|X0 = 0]) = λ exp(−λt) bzgl. des Lebesguemaßes auf [0, ∞).
A.4.46Aufgrund der Chapman-Kolmogorov-Gleichung, vgl. (4.39), und weil nur Sprünge der
Größe +1 möglich sind.
A.4.47
Wegen (4.41), vgl. auch Fußnote 4.165.
22. Juli 2014
186
A.4.5.3. Lösung des Systems (A.4.19), (A.4.20). Mit dem Ansatz
(A.4.21)
Qt (k) = Pt (0, k) exp(λt),
t ≥ 0, k ∈ N0 ,
führt (A.4.19) zu
d
Qt (k) = λQt (k − 1), k = 1, 2, . . . .
dt
Unter Berücksichtigung von A.4.48 Qt (0) = 1, t ≥ 0, und A.4.49 Q0 (k) = 0, k =
1, 2, . . . , folgt sukzessive
(A.4.22)
d
Qt (1) = λ,
dt
d
Qt (2) = λQt (1) = λ2 t,
dt
...
...
d.h.,
Qt (1) = λt,
d.h.,
Qt (2) =
λ2 t2
,
2
d.h.,
Qt (k) =
λk tk
,
k!
Mit (A.4.18) und (A.4.21) erhält man nun
k = 3, 4, . . . , t ≥ 0.
A.4.50
λk tk
exp(−λt), k ∈ N0 , t ≥ 0.
k!
A.4.5.4. Darstellung aller Übergangswahrscheinlichkeiten Pt (m, k), t ≥ 0, m, k
∈ N0 . Aufgrund von (A.4.23) und wegen (4.41) A.4.51 gilt

k−m
 (λt)
exp(−λt), k ≥ m,
(A.4.24)
Pt (m, k) = Pt (0, k − m) = (k − m)!

0,
k < m.
(A.4.23)
Pt (0, k) =
Daher besitzt die Anzahl der Sprünge eines Poisson-Prozesses mit Parameter λ in
einem Zeitintervall der Länge T eine Poisson-Verteilung mit Parameter λT .
A.4.6. Überlegungen zum Optional Stopping Theorem“. In diesem
”
Anhang wird (4.65) bewiesen. Hierzu ist A.4.52
(A.4.25)
E[XT IA ] = E[XS IA ],
A ∈ FS ,
zu zeigen. Wenn o.E.d.A. mit der Filtration (FnX )n∈N0 gearbeitet wird, reicht es,
zum Nachweis von (A.4.25) Ereignisse der Form
(A.4.26)
A = {S = k, Xl ∈ G},
k = 0, 1, . . . , M, l = 0, 1, . . . , k, G ∈ B(R),
zu betrachten, da die Familie derartiger Ereignisse FSX erzeugt.
A.4.48Wegen (A.4.18) und (A.4.21).
A.4.49Vgl. (A.4.20) und (A.4.21).
A.4.50Für k = 2, 3, . . . sei T = inf{t ≥ 0 : X = k} der Zeitpunkt des k-ten Sprungs des
t
k
P
Poisson-Prozesses (Xt )t≥0 mit X0 = 0. Da P[Tk > t] = k−1
l=0 Pt (0, l), t ≥ 0, und somit (A.4.17),
(A.4.19) und (A.4.23) zu
d
P[Tk > t] = − λPt (0, k − 1) + λPt (0, k − 2) − λPt (0, k − 2) ± · · · − λPt (0, 0)
dt
λk tk−1
exp(−λt), t ≥ 0,
= − λPt (0, k − 1) = −
(k − 1)!
führen, hat die Verteilung von Tk die Dichte t → (d/dt)P[Tk ≤ t] = (d/dt)(1 − P[Tk > t]) =
λk tk−1 exp(−λt)/(k − 1)! bzgl. des Lebesguemaßes auf [0, ∞). Somit besitzt Tk eine GammaVerteilung mit den Parametern α = λ und r = k.
A.4.51(4.41) besagt insbesondere, daß die Verteilung der Größe eines Sprungs vom Startpunkt
jenes Sprungs unabhängig ist, und daß Sprünge mit negativer Größe f.s. nicht vorkommen.
A.4.52Vgl. (3.27).
22. Juli 2014
187
Sei (Ω, F, P) der Wahrscheinlichkeitsraum, auf dem X = (Xn )n∈N0 definiert
ist. Dann ist zunächst
(A.4.27)
E XT I{S=k,Xl ∈G} =
A.4.53
n=k
k = 0, 1, . . . , M, l = 0, 1, . . . , k, G ∈ B(R).
Weiterhin gilt:
(A.4.28) E XT I{T =M} I{S=k,Xl ∈G} =
=
A.4.55
M
X
E XT I{T =n} I{S=k,Xl ∈G} ,
A.4.54
E XM (1 − I{T ≤M−1} )I{S=k,Xl ∈G}
X M−1
E XM I{S=k,Xl ∈G} −
E XM I{T =n} I{S=k,Xl ∈G}
n=k
=
A.4.56
E Xk I{S=k,Xl ∈G} −
= E XS I{S=k,Xl ∈G} −
M−1
X
n=k
M−1
X
n=k
E Xn I{T =n} I{S=k,Xl ∈G}
E XT I{T =n} I{S=k,Xl ∈G} ,
k = 0, 1, . . . , M, l = 0, 1, . . . , k, G ∈ B(R).
Zusammengefaßt ergeben (A.4.27) und (A.4.28) die Beziehung (A.4.25) für die in
(A.4.26) aufgeführten Ereignisse. Damit ist der Beweis von (4.65) abgeschlossen.
A.4.7. Doobsche Ungleichungen. In diesem Abschnitt werden (4.72) und
(4.74) bewiesen. Die Zufallszeit
(
inf{n : Xn ≥ λ}, falls supn=1,...,N Xn ≥ λ,
T =
N,
sonst,
ist eine Stoppzeit bzgl. (Fn )n=1,...,N mit T ≤ N . Aus (4.66) folgt daher
A.4.57
E[XN ] ≥ E[XT ]
= E XT I{supn=1,...,N Xn ≥λ} + E XT I{supn=1,...,N Xn <λ}
≥ λP sup Xn ≥ λ + E XN I{supn=1,...,N Xn <λ} .
n=1,...,N
Nach Subtraktion von E XN I{supn=1,...,N Xn <λ} auf den äußeren Seiten folgt A.4.58
(4.72).
Zum Beweis von (4.74) sei X ∗ = supn=1,...,N |Xn |. Für k > 0 gilt dann
Z X ∗ ∧k
∗
p
p−1
E (X ∧ k) = E
(A.4.29)
dλ pλ
0
Z
=E p
k
p−1
dλ λ
0
I[0,X ∗ ] (λ)
A.4.53Wegen (4.64).
A.4.54Für ω ∈ Ω ist offensichtlich X
T (ω) (ω) = XM (ω), wenn T (ω) = M . Außerdem ist
{T = M } = Ω \ {T ≤ M − 1}.
• M −1
S
Man beachte, daß {T ≤ M − 1, S = k} = n=k {T = n, S = k}.
A.4.56
X)
Da X = (Xn )n∈N0 ein Martingal und S und T Stoppzeiten bzgl. (Fn
n∈N0 sind. Man
X
beachte, daß für n ≥ k ≥ l sowohl {S = k, Xl ∈ G} ∈ Fk als auch {T = n} ∩ {S = k, Xl ∈ G} ∈
X.
Fn
A.4.57Bei einem Submartingal X ist =“ in (4.66) durch ≥“ zu ersetzen.
”
”
A.4.58Offensichtlich sind die letzten beiden
Abschätzungen in (4.72) trivial.
A.4.55
22. Juli 2014
188
=
A.4.59
=p
Z
Z
k
d.h.,
dλ λp−1 E[I[λ,∞) (X ∗ )]
A.4.60
"
dλ λp−1 P[X ∗ ≥ λ]
p
Z
k
dλ λp−2 E |XN |I{X ∗ ≥λ}
0
#
Z ∗
= pE |XN |
Damit folgt
k
0
0
≤
p
X ∧k
dλ λp−2
0
p
E |XN |(X ∗ ∧ k)p−1
=
p−1
(p−1)/p
1/p ∗
p
A.4.61
≤
.
E (X ∧ k)p
E |XN |p
p−1
1/p
≤
E (X ∗ ∧ k)p
1/p
p
,
E |XN |p
p−1
p p E (X ∗ ∧ k)p ≤
E |XN |p .
p−1
Hieraus folgt mit dem Lemma von Fatou A.4.62 bei k → ∞ die Beziehung (4.74).
A.4.59Nach dem Satz von Fubini, vgl. [7], Appendix A.6, Theorem (6.2), oder auch Satz 3.21,
und weil I[0,y] (λ) = I[λ,∞) (y), λ, y ≥ 0.
A.4.60
Nach (4.72), angewandt auf das Submartingal |X| = (|Xn |)n=1,...,N .
A.4.61
Nach der Hölderschen Ungleichung mit p und q = p/(p − 1), vgl. Abschnitt 3.6.3.
A.4.62Vgl. Satz 3.23.
22. Juli 2014
193
A.5. Ergänzungen zu Abschnitt 5
A.5.1. Fast-sichere Konvergenz einer Teilfolge als Konsequenz der
stochastischen Konvergenz einer Folge von Zufallsvariablen. A.5.1 Sei Xn ,
n ∈ N, eine Folge reellwertiger Zufallsvariablen, die stochastisch gegen eine Zufallsvariable X konvergieren. Zu einer Folge ǫk , k ∈ N, in (0, ∞) mit limk→∞ ǫk = 0 wird
nun durch ein Iterationsverfahren eine Folge nk , k ∈ N, in N mit limk→∞ Xnk = X,
f.s., konstruiert.
Für k ∈ N seien hierzu n1 = 1, n2 , . . . , nk gegeben. Aufgrund der stochastischen
Konvergenz der Zufallsvariablen Xn , n ∈ N, gegen X gibt es ein nk+1 > nk mit
P |Xnk+1 − X| > ǫk+1 ≤ 2−k−1 .
Da dann
∞
X
P |Xnk − X| > ǫk < ∞,
k=1
zeigt Teil (a) des Lemmas von Borel-Cantelli A.5.2, daß
k→∞ P |Xnk − X| > ǫk i.o. = 0, d.h., P |Xnk − X| → 0 = 1.
Damit ist limk→∞ Xnk = X, f.s., gezeigt.
A.5.1
Im folgenden wird der zweite Teil von Satz 3.13 verifiziert. Auf den ersten Teil war in
Anhang A.3.2 eingegangen worden.
A.5.2Vgl. Satz 5.1.
22. Juli 2014
Literaturverzeichnis
[1] M. Abramowitz, I.A. Stegun: Handbook of Mathematical Functions (Ninth Printing). Dover
Publications, 1972.
[2] L.V. Ahlfors. Complex Analysis, 2nd Edition. McGraw-Hill, 1966.
[3] H. Bauer: Wahrscheinlichkeitstheorie, 5. Auflage. De Gruyter, 2001.
[4] P. Billingsley. Convergence of Probability Measures, Wiley, 1968.
[5] P. Billingsley. Probability and Measure, 3rd Edition. Wiley, 1995.
[6] L. Breiman. Probability. SIAM, 1992.
[7] R. Durrett. Probability: Theory and Examples, 2nd Edition. Duxbury Press, 1996.
[8] S.N. Ethier, T.G. Kurtz. Markov Processes. Characterization and Convergence. Wiley, 1986.
[9] W. Feller. An Introduction to Probability Theory and its Applications, Volume II, 2nd Edition. Wiley, 1971.
[10] H.-O. Georgii. Stochastik. De Gruyter, 2002.
[11] B.W. Gnedenko, A.N. Kolmogorov. Grenzverteilungen von Summen unabhängiger Zufallsgrößen. Akademie-Verlag, 1959.
[12] G. Grimmett, D. Stirzaker. Probability and Random Processes, 3rd Edition. Oxford University Press, 2003.
[13] C. Hesse. Angewandte Wahrscheinlichkeitstheorie. Vieweg 2003.
[14] F. Hirzebruch, W. Scharlau. Einführung in die Funktionalanalysis. Spektrum Akademischer
Verlag, 1991.
[15] K. Itô, H.P. McKean: Diffusion Processes and their Sample Paths (Second Printing, Corrected). Springer Verlag, 1974.
[16] N. Ikeda, S. Watanabe. Stochastic Differential Equations and Diffusion Processes. North
Holland, 1981.
[17] P. Jagers. Branching Processes with Biological Applications. Wiley, 1975.
[18] O. Kallenberg. Foundations of Modern Probability, 2nd Edition. Springer, 2002.
[19] I. Karatzas, S. E. Shreve. Brownian Motion and Stochastic Calculus (Second Edition). Springer Verlag, 1991.
[20] S. Karlin, H.M. Taylor. A First Course in Stochastic Processes (Second Edition). Academic
Press, 1975.
[21] S. Karlin, H.M. Taylor. A Second Course in Stochastic Processes. Academic Press, 1981.
[22] K. Knopp. Theorie und Anwendung der Unendlichen Reihen, 5. Auflage, Springer Verlag,
1964.
[23] M. Matsumoto, T. Nishimura. Mersenne twister: a 623-dimensionally equidistributed uniform
pseudo-random number generator. ACM Transactions on Modeling and Computer Simulation 8 (Special issue on uniform random number generation), 3 - 30, 1998.
[24] H. Niederreiter. Random Number Generation and Quasi-Monte-Carlo-Methods. SIAM,
CBMS-NSF Regional Conference Series in Applied Mathematics 63, 1992.
[25] Yu.V. Prohorov, Yu.A. Rozanov. Probability Theory. Springer Verlag, 1969.
[26] D. Revuz, M. Yor. Continuous Martingales and Brownian Motion (Third Edition). Springer
Verlag, 1999.
[27] H.L. Royden. Real Analysis, 2nd Edition. Macmillan, 1968.
[28] A.D. Wentzell. Theorie zufälliger Prozesse. Birkhäuser Verlag, 1979.
211
Herunterladen