Wahrscheinlichkeitstheorie - KIT

Werbung
Wahrscheinlichkeitstheorie
Sommersemester 2016
Norbert Henze, Institut für Stochastik
Norbert Henze, KIT
0.1
Inhaltsverzeichnis
1. Grundlagen
2. Stochastische Unabhängigkeit
3. Konvergenzbegriffe
4. Gesetze Großer Zahlen
5. Charakteristische Funktionen
6. Verteilungskonvergenz
7. Zentrale Grenzwertsätze
8. Übergangswahrscheinlichkeiten und bedingte Verteilungen
9. Bedingte Erwartungswerte und bedingte Erwartungen
10. Stoppzeiten und Martingale
Norbert Henze, KIT
0.2
Grundlagen
1 Grundlagen
1.1 Definition (Axiomensystem von Kolmogorov, 1933)
Ein Wahrscheinlichkeitsraum (kurz: W-Raum) ist ein Tripel (Ω, A, P).
Dabei sind Ω 6= ∅ und A ⊂ P(Ω) eine σ-Algebra über Ω.
Weiter ist P : A → R eine Funktion mit folgenden Eigenschaften:
a) P(A) ≥ 0,
A ∈ A,
(Nichtnegativität)
b) P(Ω) = 1,
P
P∞
c) P( ∞
j=1 Aj ) =
j=1 P(Aj )
(Normierung)
(σ-Additivität)
für jede Folge (Aj )j≥1 paarweise disjunkter Mengen aus A.
P heißt Wahrscheinlichkeitsmaß auf A (kurz: W-Maß).
Jede Menge A aus A heißt Ereignis.
Beachte: Falls (anstelle von P) µ : A → [0, ∞] mit µ(∅) = 0 und
P
P∞
∞
µ
=
(A1 , A2 , . . . ∈ A paarweise disjunkt),
j=1 Aj
j=1 µ(Aj )
so heißen µ ein Maß auf A und (Ω, A, µ) ein Maßraum.
Norbert Henze, KIT
1.1
Grundlagen
Folgende Begriffe werden als bekannt vorausgesetzt (vgl. ES Kap. 23):
σ-Algebra A ⊂ P(Ω),
von einem Mengensystem M ⊂ P(Ω) erzeugte σ-Algebra σ(M),
σ-Algebra Bk der Borelmengen im Rk , Bk := σ(Ok ), B := B1 ,
M ⊂ σ(N ) und N ⊂ σ(M) =⇒ σ(M) = σ(N ).
σ-endliches Maß: ∃(An ) ∈ AN mit An ↑ Ω und µ(An ) < ∞ ∀n,
Dirac-Maß δω , ω ∈ Ω.
Zählmaß auf T ⊂ Ω: µT (A) := |A ∩ T |, A ∈ A,
Q
Borel–Lebesgue-Maß λk auf Bk : λk ((x, y]) = kj=1 (yj − xj ),
Halbring H ⊂ P(Ω):
∅ ∈ H,
H ∩-stabil,
A, B ∈ H =⇒ ∃n ∃C1 , . . . .Cn ∈ H : A\B =
n
X
Cj
j=1
Inhalt µ : H → [0, ∞]: µ(∅) = 0, µ endlich-additiv,
Prämaß µ : H → [0, ∞]: µ Inhalt und σ-additiv.
Norbert Henze, KIT
1.2
Grundlagen
Die wichtigsten grundlegenden Sätze der Maßtheorie:
1.2 Satz (Eindeutigkeitssatz für Maße)
Es seien M ⊂ P(Ω) ∩-stabil mit σ(M) =: A und µ1 , µ2 Maße auf A mit
µ1 (A) = µ2 (A)
für jedes A ∈ M.
Weiter gebe es eine Folge (An ) in M mit An ↑ Ω und µ1 (An ) < ∞ für jedes n.
Dann folgt µ1 = µ2 .
1.3 Satz (Fortsetzungssatz für Maße)
Es seien H ⊂ P(Ω) ein Halbring und µ : H → [0, ∞] ein Prämaß.
Dann existiert ein Maß µ
e auf σ(H) mit µ
e(A) = µ(A) für jedes A ∈ H.
Norbert Henze, KIT
1.3
Grundlagen
1.4 Definition (maßdefinierende Funktion, Verteilungsfunktion)
Eine Funktion G : R → R heißt maßdefinierende Funktion, falls gilt:
a) G ist (schwach) monoton wachsend (d.h. x ≤ y =⇒ G(x) ≤ G(y)),
b) G ist rechtsseitig stetig.
Gilt zusätzlich
c) G(∞) := lim G(x) = 1,
x→∞
G(−∞) := lim G(x) = 0,
x→−∞
so heißt G Verteilungsfunktion.
1.5 Satz (Maßdefinierende Funktionen rechtfertigen ihre Namensgebung)
Zu jeder maßdefinierenden Funktion G existiert genau ein Maß µG auf B mit
µG ((a, b]) = G(b) − G(a)
∀(a, b] mit a < b.
Ist G eine Verteilungsfunktion, so ist µG ein Wahrscheinlichkeitsmaß.
Das Maß µG heißt Lebesgue-Stieltjes-Maß zu G.
Norbert Henze, KIT
1.4
Grundlagen
Weitere grundlegende Begriffsbildungen: Messbarkeit, Bildmaß, Verteilung:
1.6 Definition (Messbarkeit)
Seien (Ω, A), (Ω′ , A′ ) Messräume sowie f : Ω → Ω′ eine Abbildung.
f heißt (A, A′ )-messbar, falls gilt:
f −1 (A′ ) ∈ A
∀A′ ∈ A′
(kurz: f −1 (A′ ) ⊂ A).
1.7 Satz und Definition (Bildmaß, Verteilung)
Sei in obiger Situation µ ein Maß auf A. Dann ist die durch
µf (A′ ) := µ f −1 (A′ ) , A′ ∈ A′ ,
definierte Abbilung µf : A′ → [0, ∞] ein Maß auf A′ .
µf heißt Bildmaß von µ unter f .
Andere Bezeichungen sind f (µ) := µ ◦ f −1 := µf .
Im Fall µ = P eines Wahrscheinlichkeitsmaßes und einer (A, A′ )-messbaren
Abbildung X : Ω → Ω′ heißt PX die Verteilung von X.
Norbert Henze, KIT
1.5
Grundlagen
Memo: (Ω, A), (Ω′ , A′ ) :
f : Ω → Ω′ (A, A′ )-mb. ⇐⇒ f −1 (A′ ) ⊂ A.
Wichtige Punkte im Zusammenhang mit Messbarkeit:
Falls A′ = σ(M′ ) und f −1 (M′ ) ⊂ A, so ist f messbar.
Beweis mithilfe des Prinzips des guten Mengensystems“: Sei
”
′
′
−1
′
G := {A ∈ A : f (A ) ∈ A}
(System guter Mengen“).
”
Zu zeigen: A′ ⊂ G (⇐⇒ f messbar).
Nach Voraussetzung gilt M′ ⊂ G, und G ist eine σ-Algebra über Ω′ (!).
Es folgt A′ = σ(M′ ) ⊂ G, q.e.d.
Falls (Ω′ , A′ ) = (Rk , Bk ), so spricht man kurz von (Borel-)Messbarkeit.
Rechenregeln für (Borel-)messbare Funktionen im Fall k = 1 (→ Ana 3)
Im Fall Ω′ = R = R ∪ {∞, −∞} Rechenregeln mit ±∞ beachten!
Dann: B := {B ∪ E : B ∈ B, E ⊂ {−∞, +∞}}
(σ-Algebra der in R borelschen Mengen)
Norbert Henze, KIT
1.6
Grundlagen
1.8 Das Maß-Integral
Es seien (Ω, A, µ) ein Maßraum und f : Ω → R messbar. Ziel:
Z
(µ-Integral von f über Ω)
f dµ
Ω
definieren. Entscheidende Definition:
Z
1A dµ := µ(A), A ∈ A.
Rest ist Technik!
Ω
E := {f : Ω → R : f ≥ 0, f mb., |f (Ω)| < ∞} (Mg. der Elementarfunktionen)
f ∈ E =⇒ ∃n ∈ N ∃α1 , . . . , αn ∈ R≥0 ∃A1 , . . . , An ∈ A: f =
Z
f dµ :=
Ω
n
X
Pn
j=1
αj 1{Aj }
αj µ(Aj ).
j=1
E ∗ := {f : Ω → R : f ≥ 0, f mb.} (Mg. der nichtneg. mb. numer. Funktionen)
Entscheidend: Zu jedem f ∈ E ∗ gibt es eine Folge (un ) aus E mit un ↑ f .
Norbert Henze, KIT
1.7
Grundlagen
Setze
Z
f dµ :=
Ω
lim
n→∞
Z
un dµ
Ω
(≤ ∞).
Sei f : Ω → R messbar.
Es gilt f = f + − f − , wobei
f + (ω) := max(f (ω), 0),
f − (ω) := − min(f (ω), 0),
ω ∈ Ω.
(sog. Positivteil bzw. Negativteil von f .)
Dann:
f (µ)-integrierbar :⇐⇒
In diesem Fall:
Z
f dµ :=
Ω
Z
Ω
Z
Ω
f + dµ < ∞ und
f + dµ −
Z
Ω
Z
Ω
f − dµ < ∞.
f − dµ =:
Z
f (ω) µ(dω).
Ω
Beachte: f µ-integrierbar ⇐⇒ |f | µ-integrierbar.
Norbert Henze, KIT
1.8
Grundlagen
1.9 Eigenschaften des µ-Integrals
Falls f, g : Ω → R integrierbar, so gelten:
Z
Z
Z
(αf + βg) dµ = α f dµ + β g dµ,
a)
Z
Z
b) f ≤ g =⇒
f dµ ≤ g dµ,
Z
Z
c) f dµ ≤ |f | dµ
α, β ∈ R
(Linearität)
(Monotonie)
(Dreiecksungleichung).
1.10 Definition (Erwartungswert)
Es seien (Ω, A, P) ein W-Raum und X : Ω → R eine Zufallsvariable.
R
Der Erwartungswert von X existiert :⇐⇒ Ω |X| dP < ∞. In diesem Fall heißt
Z
Z
E(X) :=
X dP =
X(ω) P(dω)
Ω
Ω
der Erwartungswert von X.
Norbert Henze, KIT
1.9
Grundlagen
1.11 Definition (µ-fast überall, P-fast sicher)
Seien (Ω, A, µ) ein Maßraum und E eine Aussage, die für jedes ω ∈ Ω gilt oder
nicht gilt.
E gilt µ-fast überall :⇐⇒ ∃N ∈ A mit µ(N ) = 0 und E gilt ∀ω ∈ N c .
µ-f.ü.
Falls µ = P, so P-fast sicher“ (P-f.s.).
”
Dann existiert ein A ∈ A mit P(A) = 1, so dass E für jedes ω ∈ A gilt.
1.12 Satz (Nullmengen-Unempfindlichkeit des µ-Integrals)
Es seien (Ω, A, µ) ein Maßraum und f, g : Ω → R messbare Funktionen
mit f = g µ-f.ü. Dann gilt:
f ist µ-integrierbar ⇐⇒ g ist µ-integrierbar.
R
R
In diesem Fall gilt f dµ = g dµ.
Norbert Henze, KIT
1.10
Grundlagen
Grundlegende abkürzende Notation:
µ(f ≥ t) := µ({f ≥ t}) := µ({ω ∈ Ω : f (ω) ≥ t})
(vgl. P(X ≥ t)).
1.13 Satz (Markov-Ungleichung)
Es seien (Ω, A, µ) ein Maßraum und f : Ω → R≥0 eine nichtnegative messbare
Funktion. Dann gilt für jedes t > 0:
Z
1
f dµ.
µ(f ≥ t) ≤
t Ω
1.14 Folgerungen (für c),d) sei µ =: P und f =: X)
Z
a) Falls f ≥ 0, so
f dµ = 0 ⇐⇒ f = 0 µ-f.ü.
Z
b) Falls
|f | dµ < ∞, so |f | < ∞ µ-f.ü.
c) Falls X ≥ 0, so E(X) = 0 ⇐⇒ P(X = 0) = 1,
d) Falls E|X| < ∞, so P(|X| < ∞) = 1.
Norbert Henze, KIT
1.11
Grundlagen
Seien (Ω, A, µ) ein Maßraum und f, f1 , f2 , . . . : Ω → R messbare Funktionen.
1.15 Satz (von der monotonen Konvergenz (MON), Beppo Levi)
Falls fn ≥ 0 µ-f.ü. und fn ≤ fn+1 µ-f.ü. für jedes n ≥ 1, so gilt
Z
Z
lim fn dµ = lim
fn dµ.
Ω n→∞
n→∞
Ω
1.16 Satz (Lemma von Fatou)
Falls fn ≥ 0 µ-f.ü. für jedes n ≥ 1, so gilt
Z
Z
lim inf fn dµ ≤ lim inf
fn dµ.
Ω n→∞
n→∞
Ω
1.17 Satz (von der dominierten Konvergenz (DOM), Lebesgue)
Falls limn→∞ fn = f µ-f.ü. und |fn | ≤ g µ-f.ü. für jedes n ≥ 1 für eine
µ-integrierbare Funktion g, so ist f µ-integrierbar, und es gilt
Z
Z
f dµ = lim
fn dµ.
Ω
n→∞
Ω
Norbert Henze, KIT
1.12
Grundlagen
1.18 Beweisprinzip der algebraischen Induktion (Lebesguesche Leiter)
Es soll eine Aussage E für messbare Funktionen bewiesen werden. Zeige:
a) E gilt für Elementarfunktionen, (insbesondere für f = 1A )
b) E gilt für nichtnegative messbare Funktionen, (mit un ↑ f )
c) E gilt allgemein. (mit f = f + − f − )
1.19 Beispiele Seien (Ω, A) ein messbarer Raum, f : Ω → R messbar.
a) Es gilt
Z
f dδω0 = f (ω0 ),
Ω
falls |f (ω0 )| < ∞.
P
b) Falls µ = k≥1 αk µk mit 0 < αk < ∞, k ≥ 1, und Maßen µ1 , µ2 , . . ., so:
Z
Z
X
αk
f dµk ,
f dµ =
Ω
falls
P
k≥1
αk
R
Ω
k≥1
Ω
|f | dµk < ∞.
Norbert Henze, KIT
1.13
Grundlagen
Seien (Ω, A, µ) ein Maßraum, (Ω′ , A′ ) ein Messraum und f : Ω → Ω′
(A, A′ )-messbar.
Memo: µf (A′ ) := µ(f −1 (A′ )), A′ ∈ A′
(Bildmaß von µ unter f )
Sei h : Ω′ → R eine (A′ , B)-messbare Funktion.
1.20 Satz (Integration bezüglich eines Bildmaßes)
a) Ist in obiger Situation h nichtnegativ, so gilt:
Z
Z
h dµf =
h ◦ f dµ.
Ω′
(1.1)
Ω
b) Es gilt: h ist µf -integrierbar ⇐⇒ h ◦ f ist µ-integrierbar.
In diesem Fall gilt auch (1.1).
Norbert Henze, KIT
1.14
Grundlagen
Memo:
Z
h dµf =
Ω′
Z
Ω
h ◦ f dµ
Sei (Ω, A, P) ein W-Raum, (Ω′ , A′ ) := (R, B).
1.21 Folgerung
Sei X : Ω → R eine Zufallsvariable. Sei h := idR , also h(x) = x, x ∈ R.
Nach Teil b) des Satzes über die Integration bzgl. eines Bildmaßes gilt:
E(X) existiert
:⇐⇒
⇐⇒
⇐⇒
In diesem Fall gilt
E(X)
=
=
Z
X dP =
ZΩ
idR dPX
idR ◦ X ist P-integrierbar
idR ist PX -integrierbar
Z ∞
|x| PX (dx) < ∞.
−∞
Z
Ω
idR ◦ X dP
(Int. bzgl. Bildmaß),
R
also
E(X) =
Z
∞
x PX (dx).
(=⇒ E(X) hängt nur von PX ab!)
−∞
Norbert Henze, KIT
1.15
Grundlagen
1.22 Definition und Satz (Integral über Teilmengen, Maße mit Dichten)
Es sei (Ω, A, µ) ein Maßraum.
a) Sei f : Ω → R A-messbar, f ≥ 0 oder f µ-integrierbar. Für A ∈ A heißt
Z
Z
f dµ :=
f 1A dµ
A
Ω
das µ-Integral von f über A.
b) Ist f ≥ 0, so wird durch
ν(A) :=
Z
f dµ,
A
A ∈ A,
ein Maß auf A definiert. Es heißt Maß mit der Dichte f bezüglich µ und
wird mit ν =: f µ bezeichnet.
R
Im Fall f dµ = 1 ist ν ein Wahrscheinlichkeitsmaß.
c) Falls (Ω, A, µ) = (Rk , Bk , λk ), so heißt f (Lebesgue-)Dichte von ν.
Falls ν = PX für einen k-dimensionalen Zufallsvektor X = (X1 , . . . , Xk ),
so heißt f Dichte von X oder gemeinsame Dichte von X1 , . . . , Xk .
Norbert Henze, KIT
1.16
Grundlagen
Memo: (f µ)(A) =
Z
A
f dµ,
A ∈ A.
1.23 Satz (Zur Eindeutigkeit der Dichte)
Es seien (Ω, A, µ) ein Maßraum und f, g : Ω → R≥0 messbare Funktionen.
Dann gelten:
a) Falls f = g µ-f.ü., so folgt f µ = gµ.
b) Ist f oder g µ-integierbar, so gilt in a) auch die Umkehrung.
Beweis: a): f = g µ-f.ü. =⇒ f 1A = g1A µ-f.ü. 1.12 =⇒ Behauptung.
R
R
R
b):
R Sei f dµ < ∞. Wegen f dµ = (f µ)(Ω) = (gµ)(Ω) = g dµ gilt auch
g dµ < ∞. Sei
N := {f > g},
h := f 1N − g1N .
Beachte: f 1N ≤ f und g1N ≤ g =⇒ f 1N , g1N µ-integrierbar.
R
R
R
Vorauss. f µ = gµ =⇒ f 1N dµ = g1N dµ =⇒ h dµ = 0.
Wegen N = {h > 0} und h ≥ 0 liefert 1.14 a): µ(N ) = µ(f > g) = 0.
Vertauschen von f und g liefert µ(g > f ) = 0 und damit µ(f 6= g) = 0.
Norbert Henze, KIT
1.17
Grundlagen
1.24 Satz (Integration bezüglich ν (= f µ))
Es seien (Ω, A, µ) ein Maßraum und ν = f µ das Maß mit der Dichte f bzgl. µ.
Dann gelten:
a) Ist ϕ : Ω → R≥0 eine nichtnegative A-messbare Funktion, so gilt
Z
Z
ϕ dν =
ϕ·f dµ.
Ω
(1.2)
Ω
b) Ist ϕ : Ω → R eine A-messbare Funktion, so gilt:
ϕ ist ν-integrierbar ⇐⇒ ϕ·f ist µ-integrierbar.
In diesem Fall gilt ebenfalls (1.2).
Beachte:
Z
1A dν = ν(A) =
Rest mit algebraischer Induktion (!).
Z
1A f dµ.
Merkregel:
d(f µ) = f dµ.
Norbert Henze, KIT
1.18
Grundlagen
Memo: E(X) =
Z
idR dPX =
R
Z
∞
x PX (dx)
−∞
Wie berechnet man dieses Integral für konkrete Verteilungen?
Falls PX = f µ, µ Maß auf B und f : R → R≥0 mb., so:
Z ∞
E(X) =
x f (x) µ(dx).
−∞
Spezialfälle:
P
a) µ = k≥1 δxk , (d.h., µ ist Zähl-Maß auf {x1 , x2 , . . .}). Dann:
E(X) =
X
xk f (xk ) =
k≥1
X
xk P(X = xk ).
(!)
k≥1
(diskrete Verteilung)
b) Falls µ = λ1 , so
E(X) =
Z
∞
−∞
xf (x) λ1 (dx) =:
Z
∞
xf (x) dx.
−∞
(absolut stetige Verteilung)
Norbert Henze, KIT
1.19
Grundlagen
Seien µ und ν beliebige Maße auf A.
Angenommen, ν habe eine Dichte f bezüglich µ.
Sei A ∈ A mit µ(A) = 0 =⇒ f 1A = 0 µ-f.ü =⇒ ν(A) =
Jede µ-Nullmenge ist also auch eine ν-Nullmenge.
Z
f 1A dµ = 0.
1.25 Definition (absolute Stetigkeit)
Es seien (Ω, A) ein messbarer Raum und µ, ν Maße auf A.
ν ≪ µ :⇐⇒ ∀ A ∈ A : µ(A) = 0 =⇒ ν(A) = 0.
In Worten: ν ist absolut stetig bezüglich µ, µ dominiert ν.
1.26 Satz (von Radon–Nikodym, 1930)
Ist in obiger Situation das Maß µ σ-endlich, so gilt:
ν ≪ µ ⇐⇒ ν besitzt eine Dichte bezüglich µ.
Beweis: Ohne (siehe z.B. Skript).
Norbert Henze, KIT
1.20
Grundlagen
1.27 Bemerkungen
a) Die σ-Endlichkeit von µ in Satz 1.26 ist notwendig für die Existenz einer
Dichte im Fall ν ≪ µ. (Übungsaufgabe).
b) Im Fall ν(Ω) < ∞ gibt es ein ε-δ-Kriterium für absolute Stetigkeit:
ν ≪ µ ⇐⇒ ∀ ε > 0 ∃ δ > 0 ∀A ∈ A : µ(A) ≤ δ =⇒ ν(A) ≤ ε.
(Übungsaufgabe)
c) Die Dichte f im Satz von Radon–Nikodym ist µ-fast überall eindeutig
bestimmt (ohne Beweis, s. z.B. Skript).
Man nennt in der Situation des Satzes von Radon–Nikodym jede Dichte f
von ν bezüglich µ Radon–Nikodym-Ableitung oder
Radon–Nikodym-Dichte von ν bezüglich µ und schreibt
dν
(µ-f.ü.)
f =:
dµ
d) Sei X eine Zufallsvariable mit Verteilungsfunktion F . Dann gilt (vgl. ES
24-6):
F ist absolut stetig
⇐⇒ PX ≪ λ1 .
|
{z
}
Rx
∃f : F (x) = −∞ f (t) dt = PX ((−∞, x])
Norbert Henze, KIT
1.21
Grundlagen
1.28 Definition (Singularität von Maßen)
Es seien (Ω, A) ein messbarer Raum und µ, ν Maße auf A.
µ ⊥ ν :⇐⇒ ∃ A ∈ A mit µ(A) = 0 und ν(Ω \ A) = 0.
In Worten: µ und ν sind gegenseitig singulär, µ is singulär bzgl. ν,
ν is singulär bzgl. µ.
Beachte: Aus µ ⊥ ν und ν ≪ µ folgt ν ≡ 0 (!).
µ ⊥ ν bedeutet anschaulich, dass µ und ν auf disjunkten Mengen leben“.
”
1.29 Beispiel (Gleichverteilung auf dem Kreisrand)
Es sei (Ω, A) := (R2 , B2 ).
Sei ν die Gleichverteilung auf S 2 := {(x, y) ∈ R2 : x2 + y 2 = 1}
(Bildmaß der Gleichverteilung auf [0, 1] unter der Abbildung T : [0, 1] → R2 ,
T (ϕ) := (cos(2πϕ), sin(2πϕ))).
Es gilt λ2 (S 2 ) = 0 und ν(R2 \ S 2 ) = 0, also ν ⊥ λ2 .
Norbert Henze, KIT
1.22
Grundlagen
1.30 Satz (Lebesgue–Zerlegung, 1910)
Ist in 1.28 ν σ-endlich, so existieren eindeutig bestimmte Maße νa , νs mit
νa ≪ µ,
νs ⊥ µ und ν = νa + νs .
νa und νs heißen absolut stetiger Teil bzw. singulärer Teil von ν bzgl. µ.
Beweis: (Existenz für den Fall ν(Ω) < ∞).
Seien Nµ := {A ∈ A : µ(A) = 0} und α := sup{ν(A) : A ∈ Nµ }.
Sei (An ) ∈ NµN ↑ N = ∪∞
n=1 An mit limn→∞ ν(An ) = α.
Dann: N ∈ Nµ , d.h., µ(N ) = 0, und ν(N ) = α. Wir setzen
νa (A) := ν(A ∩ N c ),
νs (A) := ν(A ∩ N ),
A ∈ A.
Dann sind νa , νs Maße auf A (!) mit ν = νa + νs .
Weiter gilt: νs (N c ) = 0 und µ(N ) = 0 und damit νs ⊥ µ.
Aus µ(A) = 0 folgt N + A ∩ N c ∈ Nµ , also nach Definition von α
ν(N + A ∩ N c ) = ν(N ) + ν(A ∩ N c ) = α + νa (A) ≤ α =⇒ νa (A) = 0.
Wegen ν(Ω) < ∞ gilt νa ≪ µ.
Norbert Henze, KIT
1.23
Grundlagen
1.31 Singularität und absolute Stetigkeit bzgl. λk
Sei ν ein σ-endliches Maß auf Bk , S(x, r) := {y ∈ Rk : kx−yk < r}, x ∈ Rk , r > 0.
Der Grenzwert (falls existent)
Dν(x) := lim
r↓0
ν(S(x, r))
λk (S(x, r))
heißt symmetrische Ableitung oder lokale Dichte von ν bzgl. λk im Punkt x.
Beachte:
a) Im Fall ν({x}) > 0 gilt Dν(x) = ∞.
b) Im Fall ν = f λk gilt Dν(x) = f (x), falls f stetig an der Stelle x.
Beweis: Voraussetzung =⇒ ∀ ε > 0 ∃δ > 0 ∀y: ky − xk < δ =⇒
|f (x) − f (y)| < ε. Für r ≤ δ folgt dann
R
f dλk ≤ (f (x) + ε)λk (S(x, r))
ν(S(x, r)) =
S(x,r)
≥ (f (x) − ε)λk (S(x, r))
=⇒ f (x) − ε ≤ lim inf
r↓0
ν(S(x, r))
ν(S(x, r))
≤ lim sup k
≤ f (x) + ε.
λk (S(x, r))
λ (S(x, r))
r↓0
ε ↓ 0 =⇒ Beh.
Norbert Henze, KIT
1.24
Grundlagen
Im Fall ν = f λk kann also f (x) in jedem Stetigkeitspunkt x von f als lokale
”
ν-Massendichte“ angesehen werden.
Es gilt sogar der folgende Sachverhalt:
1.32 Definition und Satz (Lebesgue-Punkt, Lebesguescher Dichte-Satz,
1910)
Es seien g ∈ L1 (Rk , Bk , λk ) und x ∈ Rk . x heißt Lebesgue-Punkt von g, falls
gilt:
Z
1
|g(y) − g(x)| dy = 0.
(1.3)
lim k
r↓0 λ (S(x, r)) S(x,r)
Die Eigenschaft (1.3) gilt für λk -fast jedes x ∈ Rk .
Norbert Henze, KIT
1.25
Grundlagen
1.33 Satz (Transformationssatz ( Trafosatz“) für λk -Dichten)
”
Es sei X ein k-dimensionaler Zufallsvektor mit λk -Dichte f , wobei {f > 0} ⊂ O
für eine offene Menge O.
Weiter sei T : Rk → Rk eine Borel-messbare Abbildung, deren Restriktion auf O
stetig differenzierbar sei, eine nirgends verschwindende Funktionaldeterminante
besitze und O bijektiv auf eine Menge V ⊂ Rk abbilde.
Dann ist die durch


f (T −1 (y))
, falls y ∈ V,
|detT ′ (T −1 (y))|
g(y) :=

0
, sonst,
definierte Funktion g eine λk -Dichte des Zufallsvektors Y := T (X).
Norbert Henze, KIT
1.26
Grundlagen
1.34 Satz (Lemma von Scheffé, 1947)
Es seien (Ω, A, µ) ein Maßraum und P = f µ, Q = gµ, Pn = fn µ, n ≥ 1,
Wahrscheinlichkeitsmaße auf A mit Dichten bzgl. µ. Dann gelten:
Z
1
a) sup |P(A) − Q(A)| =
|f − g| dµ,
2 Ω
A∈A
|
{z
}
Totalvariationsabstand von P und Q“
”
Z
b) fn → f µ-f.ü. =⇒ lim
|fn − f | dµ = 0.
n→∞
Ω
R
R
R
Beweis: a) Es ist 0 = (f − g) dµ = (f − g)+ dµ − (f − g)− dµ
R
R
1R
|f − g| dµ.
=⇒ (f − g)+ dµ = (f − g)− dµ =
2
Für A ∈ A gilt
R
R
P(A) − Q(A) = (f − g)+ 1A dµ − (f − g)− 1A dµ
|
{z
}
R
+
≤ (f − g) 1A dµ
≥0
R
1R
+
≤ (f − g) dµ =
|f − g| dµ ( =“ für A = {f − g > 0})
”
2
+
b) Es gilt 0 ≤ (f − fn ) ≤ f ; DOM =⇒ Beh.
Norbert Henze, KIT
1.27
Grundlagen
1.35 Satz und Definition (Produkt-Maß)
Es seien (Ωj , Aj , µj ), 1 ≤ j ≤ n, n ≥ 2, σ-endliche Maßräume. Sei
Ω
:=
A
:=
Ω1 × . . . × Ωn ,
n
O
Aj := σ ({A1 × . . . × An : A1 ∈ A1 , . . . , An ∈ An })
j=1
(Produkt-σ-Algebra von A1 , . . . , An ).
Dann existiert genau ein Maß µ auf A mit
n
Y
µj (Aj ) ∀A1 ∈ A1 , . . . , ∀An ∈ An .
µ (A1 × . . . × An ) =
j=1
Das Maß µ heißt Produkt von µ1 , . . . , µn . Es wird mit
n
O
µ = µ1 ⊗ . . . ⊗ µn =:
µj
bezeichnet. Der Maßraum
n
O
(Ωj , Aj , µj ) :=
j=1
j=1
n
×Ω ,
j
j=1
n
O
j=1
Aj ,
n
O
j=1
µj
!
heißt Produkt von (Ωj , Aj , µj ), 1 ≤ j ≤ n.
Norbert Henze, KIT
1.28
Grundlagen
1.36 Satz (von Tonelli, 1909)
In der Situation von 1.35 mit n = 2 sei f : Ω → R eine nichtnegative A-messbare
Funktion. Dann gilt:
Z
Z Z
f d(µ1 ⊗ µ2 ) =
f (ω1 , ω2 )µ1 (dω1 ) µ2 (dω2 ) (1.4)
Ω
=
Z
Ω2
Ω1
Ω1
Z
Ω2
f (ω1 , ω2 )µ2 (dω2 ) µ1 (dω1 )
(1.5)
1.37 Satz (von Fubini, 1907)
In der Situation von 1.36 mit n = 2 sei f : Ω → R eine A-messbare und
µ1 ⊗ µ2 -integrierbare Funktion. Dann gilt:
a) f (ω1 , ·) ist µ2 -integrierbar für µ1 -fast alle ω1 ,
f (·, ω2 ) ist µ1 -integrierbar für µ2 -fast alle ω2 .
R
b) Die µ1 -f.ü. defin. Funktion ω1 7→ R f (ω1 , ω2 )µ2 (dω2 ) ist µ1 -integrierbar,
die µ2 -f.ü. defin. Funktion ω2 7→ f (ω1 , ω2 )µ1 (dω1 ) ist µ2 -integrierbar,
und es gelten (1.4), (1.5).
Verallgemeinerung auf den Fall n ≥ 3 mit Induktion.
Norbert Henze, KIT
1.29
Grundlagen
1.38 Satz (Integral von Dirichlet)
Z ∞
Z t
Es gilt
sin x
π
sin x
dx := lim
dx =
.
t→∞
x
x
2
0
0
Z t
Beweis: Sei
sin x
S(t) :=
dx, t > 0.
x
0
Es gilt (Differentiation nach t!):
Z t
1 e−ux sin x dx =
1 − e−ut (u · sin t + cos t) , t, u > 0. (1.6)
2
1
+
u
0
Z t
Z t Z ∞
| sin x|
Beachte:
dx ≤ t < ∞.
|e−ux sin x| du dx =
x
0
0
0
Fubini auf die Integration von e−ux sin x über (0, t) × (0, ∞) anwenden =⇒
Z ∞
Z t
Z ∞ Z t
−ux
−ux
S(t) =
sin x
e
du dx =
e
sin x dx du
=
Z
|
0
∞
0
0
0
0
Z ∞ −ut
du
e
−
(u · sin t + cos t) du
1 + u2
1 + u2
0
{z }
|
{z
}
= π/2
(nach (1.6))
→ 0 bei t → ∞
Norbert Henze, KIT
1.30
Grundlagen
1.39 Satz (Darstellungsformel für den Erwartungswert)
Es sei X eine Zufallsvariable mit Verteilungsfunktion F . Dann gilt:
Z ∞
Z 0
Der Erw.wert von X existiert ⇐⇒
(1 − F (x))dx < ∞,
F (x)dx < ∞.
0
−∞
In diesem Fall gilt
E(X) =
Z
∞
0
(1 − F (x)) dx −
Z
0
F (x) dx.
−∞
F (x)
1
⊕
⊖
0
x
Erwartungswert als Differenz zweier Flächeninhalte
Norbert Henze, KIT
1.31
Grundlagen
Memo: Zu zeigen: E(X) =
Z
0
∞
(1 − F (x)) dx −
Z
0
F (x) dx.
−∞
Beweis: Sei B := {(x, y) ∈ R2 : x ≥ 0, 0 ≤ y < x}.
Mit dem Satz von Tonelli folgt
Z ∞
Z ∞
(1 − F (y)) dy =
PX ((y, ∞)) λ1 (dy)
0
0
Z ∞ Z
1B (x, y) PX (dx) λ1 (dy)
=
Z0Z
=
1B (x, y) PX ⊗ λ1 (d(x, y))
Z ∞ Z x
=
1B (x, y) λ1 (dy) PX (dx)
0
{z
}
| 0
=
x
Z
∞
=
(Tonelli)
(Tonelli)
x PX (dx).
0
Norbert Henze, KIT
1.32
Grundlagen
Z
Memo: Zu zeigen: E(X) =
∞
(1 − F (x)) dx −
0
Memo:
Z
∞
0
(1 − F (y)) dy =
Z
∞
0
F (x) dx.
−∞
x PX (dx)
0
Analog (Übungsaufgabe!):
Z 0
Z
−
F (y) dy =
−∞
Z
0
x PX (dx).
−∞
Nach 1.21 existiert der Erwartungswert von X genau dann, wenn gilt:
Z ∞
|x| PX (dx) < ∞.
−∞
Wegen
E(X) =
Z
0
∞
x PX (dx) +
Z
0
x PX (dx)
−∞
folgt die Behauptung.
Norbert Henze, KIT
1.33
Grundlagen
1.40 Definition (Lebesgue–Stieltjes-Integral)
Seien F : R → R eine maßdefinierende Funktion und µ das zu F gehörende,
durch µ((a, b]) = F (b) − F (a) ∀ a, b mit a < b festgelegte Maß auf B, vgl. 1.4.
Ist h : R → R eine messbare nichtnegative oder µ-integrierbare Funktion, so
schreibt man
Z
Z
Z
h dF :=
h(x) dF (x) :=
h dµ, B ∈ B,
B
und nennt
R
B
B
B
h dF das Lebesgue–Stieltjes-Integral von h bezüglich F über B.
1.41 Satz (partielle Integration)
Es seien F und G maßdefinierende Funktionen und a, b ∈ R mit a < b.
Haben F und G keine gemeinsamen Unstetigkeitsstellen im Intervall (a, b], so
gilt:
Z
Z
(a,b]
G dF = F (b)G(b) − F (a)G(a) −
F dG.
(a,b]
Norbert Henze, KIT
1.34
Grundlagen
Memo: Zu zeigen:
Z
(a,b]
G dF = F (b)G(b) − F (a)G(a) −
Z
F dG
(a,b]
Beweis: Sei o.B.d.A. F (a) = G(a) = 0 (!)
(
]
Seien µ bzw. ν die zu F bzw. G gehörenden Maße. Wir setzen
y
A := {(x, y) ∈ R2 : a < y ≤ x ≤ b}
b
B
B := {(x, y) ∈ R2 : a < x ≤ y ≤ b}
A
a
(
]
Es ist
x
a
b
Z
Z
µ ⊗ ν(A) =
ν((a, x]) µ(dx) =
G(x) dF (x),
µ ⊗ ν(B)
=
µ ⊗ ν(A ∩ B)
=
Z
Z
(a,b]
µ((a, y]) ν(dy) =
(a,b]
Z
(a,b]
F (y) dG(y),
(a,b]
ν({x}) µ(dx) = 0 (da keine gem. Unstetigkeiten)
Z
Z
=⇒ F (b)G(b) = µ((a, b])ν((a, b]) = µ ⊗ ν(A ∪ B) =
G dF +
F dG
(a,b]
(a,b]
(a,b]
Norbert Henze, KIT
1.35
Grundlagen
1.42 Wichtige Ungleichungen
a) E|X Y | ≤ (E|X|p )1/p (E|Y |q )1/q ,
b) |Cov(X, Y )| ≤
p
1 < p < ∞,
1
1
+ =1
p
q
V(X) V(Y )
(Hölder)
(Cauchy–Schwarz)
c) (E|X + Y |p )1/p ≤ (E|X|p )1/p + (E|Y |p )1/p , 1 ≤ p < ∞
(Minkowski)
Eg(|X|)
, ε>0
(Markov)
g(ε)
Hierbei: g : R≥0 → R monoton wachsend, g(0) ≥ 0, g(t) > 0 ∀ t > 0
d) P(|X| ≥ ε) ≤
Beachte: 1{|X(ω)| ≥ ε} ≤
e) P(|X| ≥ ε) ≤
E|X|p
,
εp
f) P(|X − EX| ≥ ε) ≤
g(|X(ω)|)
, ω ∈ Ω.
g(ε)
ε > 0, 0 < p < ∞
V(X)
ε2
(Markov)
(Tschebyschow)
Norbert Henze, KIT
1.36
Grundlagen
Memo: g konvex :⇐⇒ g(λx + (1 − λ)y) ≤ λg(x) + (1 − λ)g(y)
∀λ ∈ [0, 1] ∀x, y ∈ M
1.43 Satz (Jensen-Ungleichung)
Seien M ⊂ R ein Intervall, g : M → R eine konvexe Funktion und X eine reelle
Zufallsvariable mit P(X ∈ M ) = 1, E|X| < ∞ und E|g(X)| < ∞. Dann gilt:
E g(X) ≥ g(EX).
Beweis: Es gilt E(X) ∈ M (Übungsaufgabe!)
Zu jedem a ∈ M gibt es eine Stützgerade im Punkt (a, g(a)) an g. Es gibt also
ein b = b(a) mit
g(x) ≥ g(a) + b(x − a),
x ∈ M.
Wähle speziell a = E(X). Dann gilt (elementweise auf Ω)
g(X) ≥ g(EX) + b(X − EX).
Monotonie von E(·) liefert die Behauptung.
Norbert Henze, KIT
1.37
Stochastische Unabhängigkeit
2 Stochastische Unabhängigkeit
Seien (Ωj , Aj ), j ∈ J 6= ∅, messbare Räume, Ω 6= ∅, und fj : Ω → Ωj , j ∈ J.
Gesucht: Kleinste σ-Algebra (=: A) über Ω, sodass jedes fj (A, Aj )-mb. ist.
2.1 Definition (von Abbildungen erzeugte σ-Algebra)
!
[ −1
σ(fj : j ∈ J) := σ
fj (Aj )
j∈J
heißt die von (fj )j∈J erzeugte σ-Algebra.
Falls J = {1, . . . , n}, so schreiben wir hierfür σ(f1 , . . . , fn ).
2.2 Satz (Messbarkeit bezüglich σ(fj : j ∈ J))
Seien (Ω0 , A0 ) ein messbarer Raum und f : Ω0 → Ω. Dann gilt in der Situation
von 2.1:
f ist (A0 , σ(fj : j ∈ J))-messbar ⇐⇒ fj ◦ f ist (A0 , Aj )-messbar ∀j ∈ J.
Norbert Henze, KIT
2.1
Stochastische Unabhängigkeit
(Ω0 , A0 )
f
−→
(Ω, σ(fj : j ∈ J))
↓ fj
(Ωj , Aj )
Memo: Z.z.: f ist (A0 , σ(fj : j ∈ J))-mb. ⇐⇒ fj ◦f ist (A0 , Aj )-mb.∀j ∈ J.
Beweis: Die Richtung =⇒“ folgt unmittelbar, da die Verkettung messbarer
”
Abbildungen messbar ist.
⇐=“: Sei
”
M :=
[
fj−1 (Aj ) .
j∈J
A ∈ M =⇒ ∃j ∈ J ∃Aj ∈ Aj mit A = fj−1 (Aj ).
Nach Voraussetzung gilt f −1 (A) = f −1 fj−1 (Aj ) = (fj ◦ f )−1 (Aj ) ∈ A0 .
Es gilt also f −1 (M) ⊂ A0 und damit
A0 ⊃ σ f −1 (M) = f −1 (σ(M)).
Norbert Henze, KIT
2.2
Stochastische Unabhängigkeit
2.3 Beispiel Seien Ω := C[0, 1] := {x : [0, 1] → R : x stetig}, J := [0, 1].
Für t ∈ J sei ft : Ω → R definiert durch ft (x) := x(t).
Weiter sei (Ωt , At ) := (R, B), t ∈ J.
Für x, y ∈ C[0, 1] sei d(x, y) := max0≤t≤1 |x(t) − y(t)|.
(C[0, 1], d) ist ein vollständiger separabler metrischer Raum.
Seien O das System der offenen Mengen in C[0, 1] und Bd := σ(O)
die σ-Algebra der Borelmengen über C[0, 1].
Es gilt Bd = σ(ft : t ∈ [0, 1]) (!).
2
1
0
t
0.5
1.0
−1
−2
Norbert Henze, KIT
2.3
Stochastische Unabhängigkeit
Im Folgenden seien (Ωj , Aj , Pj ), j ∈ N, Wahrscheinlichkeitsräume.
∞
Ω :=
= {ω = (ωj )j≥1 : ωj ∈ Ωj ∀j ∈ N},
×Ω
j
j=1
A :=
πj
:
∞
O
j=1
Aj = σ(πj : j ∈ N),
Ω → Ωj ,
ω 7→ πj (ω) := ωj
(j-te Projektion)
2.4 Satz (Existenz und Eindeutigkeit des Produkt-W-Maßes)
In obiger Situation existiert genau ein Wahrscheinlichkeitsmaß P auf A mit
!
∞
n
Y
Ωℓ
P A1 × . . . × An ×
=
Pj (Aj )
(2.1)
×
ℓ=n+1
j=1
für jedes n ≥ 1 und jede Wahl von A1 ∈ A1 , . . . , An ∈ An . Weiter gilt
!
∞
P Bn ×
×Ω
ℓ
ℓ=n+1
= P1 ⊗ . . . ⊗ Pn (Bn )
für jedes n ≥ 1 und jedes Bn ∈ A1 ⊗ . . . ⊗ An .
Norbert Henze, KIT
2.4
Stochastische Unabhängigkeit
Beweisskizze: Für jedes n ≥ 1 sei
o
n
Fn := Bn × ×∞
ℓ=n+1 Ωℓ : Bn ∈ A1 ⊗ . . . ⊗ An .
Fn ist eine σ-Algebra über Ω.
Es gilt Fn ⊂ Fn+1 , n ≥ 1 (da Bn × Ωn+1 ∈ A1 ⊗ . . . ⊗ An+1 ).
Sei
Z :=
Es gilt A = σ(Z).
∞
[
n=1
Fn
(warum?)
(sog. Algebra der Zylindermengen).
(warum?)
Definiere für n ∈ N und Bn ∈ A1 ⊗ . . . ⊗ An
P Bn × ×∞
:= P1 ⊗ . . . ⊗ Pn (Bn ).
ℓ=n+1 Ωℓ
Nach dem Eindeutigkeitsatz für Maße ist P eindeutig bestimmt.
Zeige: Ist (An ) eine Folge in Z mit An ↓ ∅, so gilt P(An ) → 0.
Damit ist P σ-additiv auf Z. Maß-Fortsetzungssatz =⇒ Beh.
Norbert Henze, KIT
2.5
Stochastische Unabhängigkeit
2.5 Definition (Unendlicher Produkt-Wahrscheinlichkeitsraum)
Das W-Maß P aus Satz 2.4 heißt Produkt-Wahrscheinlichkeitsmaß von (Pj )j≥1 .
Es wird mit
∞
O
Pj := P
j=1
bezeichnet. Der Wahrscheinlichkeitsraum
∞
O
j=1
∞
(Ωj , Aj , Pj ) := (Ω, A, P) =
×Ω ,
j
j=1
∞
O
j=1
Aj , P
!
heißt Produkt der Wahrscheinlichkeitsräume (Ωj , Aj , Pj ), j ∈ N.
Wichtig:
Der unendliche Produktraum dient als Bestandteil eines Modells für unendlich
viele stochastisch unabhängige Zufallsvariablen mit vorgegebenen Verteilungen.
Norbert Henze, KIT
2.6
Stochastische Unabhängigkeit
2.6 Definition (Unabhängigkeit von Ereignissen und Mengensystemen)
Seien (Ω, A, P) ein W-Raum und J eine Menge mit mindestens zwei Elementen.
a) Es seien Aj ∈ A, j ∈ J, Ereignisse. Die Familie (Aj )j∈J heißt
(stochastisch) unabhängig (bzgl. P), falls gilt:
!
\
Y
P
At
=
P(At ) ∀T ⊂ J mit 2 ≤ |T | < ∞.
(2.2)
t∈T
t∈T
Im Fall J = {1, . . . , n}: A1 , . . . , An unabhängig.
Im Fall J = N: A1 , A2 , . . . unabhängig.
b) Sei Mj ⊂ A, j ∈ J. Die Familie (Mj )j∈J von Mengensystemen heißt
(stochastisch) unabhängig (bzgl. P) :⇐⇒
(2.2) gilt für jede endliche mindestens zweielementige Teilmenge T von J
und jede Wahl von At ∈ Mt , t ∈ T .
Beachte:
a) ist ein Spezialfall von b) (setze Mj := {Aj }, j ∈ J),
In einem diskreten W-Raum kann es keine unabhängigen Ereignisse
A1 , A2 , . . . mit gleicher Wahrscheinlichkeit p ∈ (0, 1) geben (Übungsaufg.!)
Norbert Henze, KIT
2.7
Stochastische Unabhängigkeit
2.7 Beispiel für eine Folge unabhängiger Mengensysteme
N∞
Sei (Ω, A, P) :=
j=1 (Ωj , Aj , Pj ) der Produkt-W-Raum wie in 2.5. Sei
A∗j
:=
πj−1 (Aj )
=
(
j−1
×Ω × A × × Ω
ℓ
ℓ=1
)
∞
j
ℓ
ℓ=j+1
: Aj ∈ Aj .
Dann sind A∗1 , A∗2 , . . . unabhängig bezüglich P (Übung, vgl. ES 11-8, 11-9).
Memo: Seien Mj ⊂ A, j ∈ J : (Mj )j∈J unabh. :⇐⇒
∀T ⊂ J mit 2 ≤ |T | < ∞ ∀At ∈ Mt , t ∈ T : P
\
t∈T
At
!
=
Y
P(At )
t∈T
2.8 Folgerungen
a) (Mj )j∈J unabhängig ⇐⇒ ∀Je⊂ J, Je 6= ∅, |Je| < ∞ : (Mj )j∈Je unabhängig,
b) (Mj )j∈J unabhängig und Nj ⊂ Mj , j ∈ J =⇒ (Nj )j∈J unabhängig.
Können Sie diese Folgerungen verbal beschreiben?
Norbert Henze, KIT
2.8
Stochastische Unabhängigkeit
Memo: D ⊂ P(Ω) Dynkin-System :⇐⇒
1) Ω ∈ D
2) D, E ∈ D und D ⊂ E =⇒ E \ D ∈ D
3) E1 , E2 , . . . ∈ D paarweise disjunkt =⇒
Memo: M ⊂ P(Ω) : δ(M) :=
T
P∞
j=1
Ej ∈ D
{D : M ⊂ D ⊂ P(Ω), D Dynkin-System}
2.9 Satz (mit Systemen sind auch deren erzeugte Dynkin-Systeme unabh.)
In der Situation von 2.6 seien die Mengensysteme (Mj )j∈J unabhängig.
Dann sind auch deren erzeugte Dynkin-Systeme (δ(Mj ))j∈J unabhängig.
Beweis: Nach 2.8 a) sei o.B.d.A. |J| < ∞. Sei k := |J| und (o.B.d.A.)
J = {1, 2, . . . , k}. Setze
Dk := E ∈ A : M1 , . . . , Mk−1 , {E} unabhängig .
Dk ist ein Dynkin-System (Übungsaufgabe)
Norbert Henze, KIT
2.9
Stochastische Unabhängigkeit
Memo: Dk := E ∈ A : M1 , . . . , Mk−1 , {E} unabhängig .
Memo: Dk ist ein Dynkin-System.
Nach Konstruktion gilt: M1 , . . . , Mk−1 , Dk unabhängig.
Wegen Mk ⊂ Dk (warum?) folgt δ(Mk ) ⊂ Dk (warum?).
Nach 2.8 b) sind M1 , . . . , Mk−1 , δ(Mk ) unabhängig.
Fährt man so sukzessive mit Mk−1 , Mk−2 , . . . fort, so folgt die Beh.
2.10 Folgerung Mit unabhängigen durchschnittstabilen Mengensystemen sind
auch deren erzeugte σ-Algebren unabhängig.
Vgl. mit ES, Folie 11-6: A, B unabhängig =⇒ A, B c unabhängig.
Aus 2.10 folgt:
{A}, {B} unabhängig
=⇒
{∅, A, Ac , Ω}, {∅, B, B c , Ω} unabhängig.
|
{z
} |
{z
}
= σ({A})
= σ({B})
Norbert Henze, KIT
2.10
Stochastische Unabhängigkeit
2.11 Folgerung (Disjunkte Blöcke unabh. ∩-stabiler Systeme sind unabh.)
Sei (MP
j )j∈J eine Familie unabhängiger durchschnittsstabiler Mengensysteme.
Sei J = s∈S Js eine Zerlegung von J in paarweise disjunkte nichtleere Mengen
!
Js , s ∈ S. Setzt man
[
Mj ,
As := σ
s ∈ S,
j∈Js
so ist die Familie (As )s∈S unabhängig.
Beweis: Für jedes s ∈ S sei
)
( n
\
Aiν : n ≥ 1, ∅ 6= {i1 , . . . , in } ⊂ Js , Ai1 ∈ Mi1 , . . . , Ain ∈ Min
Bs :=
ν=1
das System aller endlichen Durchschnitte von Mengen aus den
Mengensystemen Mj mit j ∈ Js .
Wegen der ∩-Stabilität aller Mj ist Bs ∩-stabil.
Die Familie (Bs )s∈S ist unabhängig (warum?).
Weiter gilt:
[
j∈Js
Mj ⊂ Bs ⊂ As
=⇒ σ(Bs ) = As .
2.10 =⇒ Beh.
Norbert Henze, KIT
2.11
Stochastische Unabhängigkeit
2.12 Definition (Unabhängigkeit von Zufallsvariablen)
Es seien (Ω, A, P) ein W-Raum, (Ωj , Aj ), j ∈ J, messbare Räume und Xj :
Ω → Ωj , j ∈ J, Zufallsvariablen (d.h. Xj ist (A, Aj )-messbar).
Die Familie (Xj )j∈J heißt (stochastisch) unabhängig (bzgl. P), wenn die Familie
(σ(Xj ))j∈J der erzeugten σ-Algebren unabhängig ist.
Memo: Es ist σ(Xj ) = Xj−1 (Aj ) = {Xj−1 (Aj ) : Aj ∈ Aj }
2.13 Folgerung Es gilt:
(Xj )j∈J unabhängig
⇐⇒ ∀k ≥ 2 ∀j1 , . . . , jk ∈ J ∀Aj1 ∈ Aj1 . . . ∀Ajk ∈ Ajk :
!
k
k
Y
\
P Xj−1
(Ajm )
Xj−1
(A
)
=
P
jm
m
m
m=1
Beachte:
P
k
\
m=1
k
Y
m=1
Xj−1
(Ajm )
m
!
P Xj−1
(Ajm )
m
m=1
=
P (Xj1 ∈ Aj1 , . . . , Xjk ∈ Ajk ) ,
=
P(Xj1 ∈ Aj1 ) · . . . · P(Xjk ∈ Ajk ).
Norbert Henze, KIT
2.12
Stochastische Unabhängigkeit
2.14 Folgerung (Funktionen unabhängiger Zufallsvariablen sind unabh.)
In der Situation von 2.12 seien (Ω′j , A′j ), j ∈ J, messbare Räume und Yj : Ωj →
Ω′j , eine (Aj , A′j )-messbare Abbildung, j ∈ J.
Dann ist mit (Xj )j∈J auch die Familie (Yj ◦ Xj )j∈J stochastisch unabhängig.
Beweis: Es gilt
σ(Yj ◦ Xj ) = (Yj ◦ Xj )−1 (A′j ) = Xj−1 Yj−1 (A′j ) ⊂ Xj−1 (Aj ) = σ(Xj ).
Die Behauptung folgt jetzt aus 2.8 b).
An welcher Stelle in der obigen Beweiszeile ging die Messbarkeit von Yj ein?
Norbert Henze, KIT
2.13
Stochastische Unabhängigkeit
2.15 Satz (Blockungslemma)
Es seien (Ω, A, P) ein W-Raum, (Ωj , Aj ), 1 ≤ j ≤ n, n ≥ 2, Messräume sowie
Xj : Ω → Ωj , 1 ≤ j ≤ n, unabhängige Zufallsvariablen. Für ℓ ∈ {1, . . . , n − 1}
sei
Z1 := (X1 , . . . , Xℓ ), Z2 := (Xℓ+1 , . . . , Xn ).
Dann sind auch Z1 , Z2 stochastisch unabhängig.
Eine analoge Aussage gilt auch für Unterteilungen in mehr als zwei Blöcke.
Beweis: Vorüberlegungen:
Nℓ
Nn
e 1 := ×ℓ Ωj , Ω
e 2 := ×n
Sei Ω
j=1
j=ℓ+1 Ωj , B1 :=
j=1 Aj , B2 :=
j=ℓ+1 Aj .
e j eine Zufallsvariable, also (A, Bj )-messbar, j ∈ {1, 2}
Dann ist Zj : Ω → Ω
(warum?).
Beachte: Es gilt:
S
ℓ
σ(Z1 ) = σ
j=1 σ(Xj ) ,
σ(Z2 ) = σ
S
n
j=ℓ+1 σ(Xj )
(warum?).
Die Behauptung folgt jetzt aus 2.11 und der Definition der Unabhängigkeit.
Beachte: Auf Z1 , Z2 lassen sich messbare Funktionen schalten.
Unabhängigkeit bleibt nach 2.14 erhalten!
Norbert Henze, KIT
2.14
Stochastische Unabhängigkeit
2.16 Satz (Unabhängigkeit und Erzeugendensysteme)
Es seien (Ω, A, P) ein W-Raum, (Ωj , Aj ), j = 1, . . . , k, messbare Räume und
Xj : Ω → Ωj , j = 1, . . . , k, Zufallsvariablen. Weiter sei Mj ⊂ Aj ein durchschnittsstabiler Erzeuger von Aj mit Ωj ∈ Mj , j = 1, . . . , k. Dann gilt:
!
k
k
Y
\
−1
P (Xj−1 (Aj )
Xj (Aj ) =
X1 , . . . , Xk unabhängig ⇐⇒ P
j=1
j=1
für jede Wahl von A1 ∈ M1 , . . . , Ak ∈ Mk .
Beweis: Die Richtung =⇒ “ ist offensichtlich (vgl. 2.13).
”
⇐=“: Sei Bj := Xj−1 (Mj ). Es gilt
”
σ(Bj ) = Xj−1 (σ(Mj )) = Xj−1 (Aj ) = σ(Xj ).
Wegen Ωj ∈ M und Ω = Xj−1 (Ωj ) ist die rechte Seite der zu beweisenden
Äquivalenz gleichbedeutend mit der Unabhängigkeit von B1 , . . . , Bk .
Wegen der ∩-Stabilität von M1 , . . . , Mk sind B1 , . . . , Bk ∩-stabil.
Die Behauptung folgt jetzt aus 2.10.
Norbert Henze, KIT
2.15
Stochastische Unabhängigkeit
2.17 Satz (Unabhängigkeit und Produktmaße)
In der Situation von 2.16 (Xj : Ω → Ωj , j = 1, . . . , k) gilt:
X1 , . . . , Xk unabhängig ⇐⇒ P(X1 ,...,Xk ) = PX1 ⊗ . . . ⊗ PXk .
Beweis: Es gilt:
X1 , . . . , Xk unabh.
⇐⇒ σ(X1 ), . . . , σ(Xk ) unabh.
2.12
!
k
k
\
Y
⇐⇒ P
Xj−1 (Aj ) =
P Xj−1 (Aj ) ∀Aj ∈ Aj
2.16
j=1
j=1
k
Y
PXj (Aj ) ∀Aj ∈ Aj
⇐⇒ P(X1 ,...,Xk ) (A1 ×. . .×Ak ) =
j=1
⇐⇒ P
(X1 ,...,Xk )
= P
X1
⊗ . . . ⊗ PXk (warum?)
In Worten: Zufallsvariablen sind genau dann stochastisch unabhängig, wenn
ihre gemeinsame Verteilung gleich dem Produkt der Marginalverteilungen ist.
Norbert Henze, KIT
2.16
Stochastische Unabhängigkeit
2.18 Folgerung (Unabhängigkeit und Verteilungsfunktionen)
Es seien X1 , . . . , Xk reelle Zufallsvariablen mit Verteilungsfunktionen Fj (x) :=
P(Xj ≤ x), x ∈ R, j = 1, . . . , k. Es sei
F (t) := P(X1 ≤ t1 , . . . , Xk ≤ tk ),
t := (t1 , . . . , tk ) ∈ Rk
(sog. gemeinsame Verteilungsfunktion von X1 , . . . , Xk ). Dann gilt:
Q
X1 , . . . , Xk unabhängig ⇐⇒ F (t) = kj=1 Fj (tj ) ∀t ∈ Rk .
Beweis: Die Richtung =⇒“ ist klar (warum?).
”
⇐=“: Es ist
”
F (t) = P(X1 ,...,Xk ) ×kj=1 (−∞, tj ]
k
k
O
Y
PXj ×kj=1 (−∞, tj ] .
Fj (tj ) =
j=1
j=1
Somit gilt P(X1 ,...,Xk ) (A) =
k
O
PXj (A), A ∈ J k := {(−∞, t] : t ∈ Rk }.
j=1
k
k
J k ist ∩-stabil, und es gilt
Nkσ(J X)j= B . Nach dem Eindeutigkeitssatz für
(X1 ,...,Xk )
Maße gilt P
= j=1 P .
2.17 =⇒ Beh.
Norbert Henze, KIT
2.17
Stochastische Unabhängigkeit
2.19 Satz (Unabhängigkeit und λk -Dichten)
Der k-dimensionale Zufallsvektor (X1 , . . . , Xk ) besitze eine λk -Dichte f .
Es gelte also P(X1 ,...,Xk ) = f λk . Bezeichnet
Z ∞
Z ∞
fj (tj ) :=
···
f (t1 , . . . , tk ) dt1 · · · dtj−1 dtj+1 · · · dtk
−∞
−∞
1
die marginale λ -Dichte von Xj , so gilt (mit t = (t1 , . . . , tk )):
k
Y
X1 , . . . , Xk unabhängig ⇐⇒ f (t) =
fj (tj ) λk -f.ü.
j=1
Beweis: Es gilt (mit (
Qk
k
O
j=1
j=1
fj )(t) :=
P Xj =
k
Y
j=1
Qk
fj
j=1
!
fj (tj ), t = (t1 , . . . , tk ))
λk
(warum?).
(2.3)
Nk
Xj
=⇒“: Nach 2.17 gilt P(X1 ,...,Xk ) =
. Wegen P(X1 ,...,Xk ) = f λk
j=1 P
”
und (2.3) folgt dann die Behauptung aus 1.23 b).
N
Q
⇐=“: Mit 1.23 a) folgt f λk = ( kj=1 fj )λk , also P(X1 ,...,Xk ) = kj=1 PXj .
”
Norbert Henze, KIT
2.18
Stochastische Unabhängigkeit
2.20 Satz (Existenz von Folgen unabhängiger Zufallsvariablen I)
Es seien (Ωj , Aj , Pj ), j ∈ N, Wahrscheinlichkeitsräume. Dann existieren ein
W-Raum (Ω, A, P) und Zufallsvariablen Xj : Ω → Ωj , j ∈ N, mit:
a) X1 , X2 , . . . sind stochastisch unabhängig bzgl. P,
b) Pj = PXj , j ≥ 1.
Beweis: Setze (sog. kanonisches Modell)
(Ω, A, P)
:=
Xj
:=
∞
O
(Ωj , Aj , Pj ) =
j=1
σ(Xj ) =
×Ω ,
j
j=1
πj−1 (Aj )
=
∞
O
j=1
πj ,
d.h. Xj ((ωk )k≥1 ) = ωj (j-te Projektion).
( j−1
Beachte:
∞
Aj ,
∞
O
j=1
,
)
∞
×Ω ×A × × Ω
ℓ=1
Pj
!
ℓ
j
ℓ
ℓ=j+1
: Aj ∈ Aj .
Spezialfall: (Ωj , Aj , Pj ) = (Rk , Bk , Q), j ≥ 1, wobei Q W-Maß auf Bk .
Es gibt also eine Folge unabhängiger k-dimensionaler Zufallsvektoren mit
identischer Verteilung Q. Wir schreiben hierfür kurz X1 , X2 , . . . u.i.v. ∼ Q.
Norbert Henze, KIT
2.19
Stochastische Unabhängigkeit
2.21 Satz (Existenz von Folgen unabhängiger Zufallsvariablen II)
Es seien Q1 , Q2 , . . . beliebige W-Maße auf B. Dann existieren ein W-Raum
(Ω, A, P) und unabhängige Zufallsvariablen Xj : Ω → R, j ≥ 1, sodass für jedes
j ≥ 1 die Zufallsvariable Xj die Verteilung Qj besitzt.
Beweis: Seien Ω := (0, 1], A := {B ∈ B : B ⊂ Ω}, P := λ1|Ω . (!!!)
Jedes ω ∈ Ω hat eindeutige nicht abbrechende dyadische Darstellung der Form
P∞ dj (ω)
P∞
ω =
wobei dj (ω) ∈ {0, 1}, j ≥ 1, und
j=1 2j ,
j=1 dj (ω) = ∞
1
2
= 0.011111 . . .). Diese erhält man durch
(
0, falls 0 < ω ≤ 1/2,
d1 (ω) :=
dn (ω) := d1 T n−1 (ω) , n ≥ 2,
1, falls 1/2 < ω ≤ 1.
(z.B.:
wobei
sowie T
T (ω) := 2ω(mod 1),
n
:= T ◦ T
n−1
(sog. Blätterteig-Transformation)
1
, n ≥ 2, T := T .
Es gilt: Y := idΩ ∼ U(0, 1].
Weiter gilt: Y1 := d1 (Y ), Y2 := d2 (Y ), . . . u.i.v. ∼ Bin(1, 1/2) (Übungsaufg.!)
Norbert Henze, KIT
2.20
Stochastische Unabhängigkeit
Memo: Y = idΩ ∼ U(0, 1],
Y1 = d1 (Y ), Y2 = d2 (Y ), . . . u.i.v. ∼ Bin(1, 1/2).
Seien ψ : N × N → N eine beliebige Bijektion (!), z.B.:
ψ(i, j) := 1{i + j = k} · k−1
+ i , k ≥ 2, 1 ≤ i ≤ k − 1.
2
Sei
Yj,k := Yψ(j,k) ,
Uj :=
∞
X
Yj,k
k=1
sowie Ej := σ(∪∞
k=1 σ(Yj,k )), j ≥ 1.
2k
,
j ∈ N,
Folg. 2.11 =⇒ Ej , j ≥ 1, sind unabhängige Mengensysteme.
Wegen σ(Uj ) ⊂ Ej (!) sind dann U1 , U2 , . . . stochastisch unabhängig.
Es gilt Uj ∼ U(0, 1], j ≥ 1 (Übungsaufgabe!).
Sei Fj (t) := Qj ((−∞, t]), t ∈ R, die Verteilungsfunktion von Qj . Setze
(
Fj−1 (Uj (ω)), falls ω < 1,
Xj (ω) :=
1,
falls ω = 1.
Wegen P({1}) = 0 und ES, Satz 25.21, hat Xj die Verteilungsfunktion Fj .
Nach Folgerung 2.14 sind X1 , X2 , . . . stochastisch unabhängig.
Norbert Henze, KIT
2.21
Stochastische Unabhängigkeit
2.22 Definition (terminale σ-Algebra, terminales Ereignis)
Es seien (Ω, A) und (Ωj , Aj ), j ≥ 1, messbare Räume. Weiter sei Xj : Ω → Ωj
eine (A, Aj )-messbare Abbildung, j ≥ 1. Das Mengensystem
∞
\
σ(Xk , Xk+1 , . . .)
(⊂ A)
A∞ :=
k=1
heißt σ-Algebra der terminalen Ereignisse oder kurz terminale σ-Algebra
bezüglich der Folge (Xj )j≥1 . Jedes A ∈ A∞ heißt terminales Ereignis.
2.23 Beispiel Es seien X1 , X2 , . . . reelle Zufallsvariablen auf einem W-Raum
(Ω, A, P). Weiter sei Sn := X1 + . . . + Xn , n ≥ 1. Sei
n
o
n
o
1
1
A := ω ∈ Ω : lim Sn (ω) = 0 =
lim Sn = 0 .
n→∞ n
n→∞ n
Für festes k ≥ 1 und jedes n mit n ≥ k gilt
1 Pk−1
1 Pn
1
Sn =
Xj +
Xj
n
n j=1
n j=k
T∞ S∞ T∞ 1 Pn
1
=⇒ A =
k ≥ 1,
j=k Xj ≤ ℓ ,
ℓ=1 m=k n=m
n
|
{z
}
∈ σ(Xk , . . . , Xn ) ⊂ σ(Xk , Xk+1 , . . .).
D.h. es gilt A ∈ σ(Xk , Xk+1 , . . .) für jedes k ≥ 1 und damit A ∈ A∞ .
Norbert Henze, KIT
2.22
Stochastische Unabhängigkeit
2.24 Satz (Null-Eins-Gesetz von Kolmogorov)
Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Sind in 2.22 die Zufallsvariablen
X1 , X2 , . . . stochastisch unabhängig, so gilt für jedes terminale Ereignis A entweder P(A) = 0 oder P(A) = 1.
Beweis: Wir zeigen: Für jedes A ∈ A∞ gilt P(A ∩ A) = P(A)2 (q.e.d.!)
=⇒
=⇒
σ(X1 , . . . , Xk ), σ(Xk+1 , Xk+2 , . . .) unabhängig ∀k ∈ N
|
{z
}
⊃ A∞
σ(X1 , . . . , Xk ), A∞ unabhängig ∀k ∈ N
S∞
σ(X1 , . . . , Xk ), A∞ unabh.
| k=1
{z
}
(nach 2.11)
(nach 2.8 b))
∩-stabil,da σ(X1 , . . . , Xk ) ↑
S
σ( ∞
σ(X1 , . . . , Xk )), A∞ unabhängig
(nach 2.10)
| k=1 {z
}
S
= σ( ∞
ℓ=1 σ(Xℓ )) (!)
S∞
S
Wegen σ( ℓ=1 σ(Xℓ )) ⊃ σ( ∞
k fest,
ℓ=k σ(Xℓ )) = σ(Xk , Xk+1 , . . .),
=⇒
⊃ A∞
folgt mit 2.8 b): A∞ , A∞ unabhängig.
Norbert Henze, KIT
2.23
Stochastische Unabhängigkeit
2.25 Beispiel (Kantenperkolation auf Zd )
Seien d ∈ N, d ≥ 2, Ed := {e := {x, y} : x, y ∈ Zd , kx − yk2 = 1}, p ∈ [0, 1].
Seien Xe (p), e ∈ Ed , u.i.v. ∼ Bin(1, p) auf einem gemeinsamen W-Raum
(Ω, A, P).
Xe (p) = 1(= 0) heißt: Kante
”
• •
• •
• •
• •
• •
• •
• •
• •
• •
e offen (geschlossen)“.
• • • • • • • •
• • • • • • • •
• • • • • • • •
• • • • • • • •
• • • • • • • •
• • • • • • • •
• • • • • • • •
• • • • • • • •
• • • • • • • •
•
•
•
•
•
•
•
•
•
Γ(p) := {e ∈ Ed : Xe (p) = 1} (Menge der offenen Kanten, Teilgraph von Ed )
Beachte: Xe (p, ·) : Ω → R. Sei Γ(p, ω) := {e ∈ Ed : Xe (p, ω) = 1}.
Sei A(p) := {ω ∈ Ω : Γ(p, ω) enthält unbeschr. zusammenh. Teilgraphen}.
Norbert Henze, KIT
2.24
Stochastische Unabhängigkeit
Memo: A(p) := {ω ∈ Ω : Γ(p, ω) enthält unbeschr. zusammenh. Teilgraphen}.
Sprechweise: Perkolation tritt auf :⇐⇒ A(p) tritt ein.
Nach dem Null-Eins-Gesetz von Kolmogorov gilt
P(A(p)) ∈ {0, 1}
für jedes p ∈ [0, 1].
Sei
pd
:=
inf{p ∈ [0, 1] : P(A(p)) = 1}
|
{z
}
6= ∅, da P(A(1)) = 1
pd ist kritische, von der Dimension d abhängende Wahrscheinlichkeit, oberhalb
derer mit W’ Eins und unterhalb derer mit W’ Null Perkolation auftritt (sog.
Perkolationsschwelle).
Es gilt p2 = 0.5.
Für höhere Dimensionen ungelöste Probleme! (z.B.: p3 =?)
Norbert Henze, KIT
2.25
Stochastische Unabhängigkeit
2.26 Definition (Limes superior und inferior von Ereignissen)
Es seien (Ω, A) ein messbarer Raum und (An )n≥1 eine Folge aus A.
a) Das Ereignis
lim sup An :=
n→∞
heißt Limes superior der Folge (An ).
b) Das Ereignis
lim inf An :=
n→∞
heißt Limes inferior der Folge (An ).
∞
∞ [
\
Ak
n=1 k=n
∞ \
∞
[
Ak
n=1 k=n
Sehen Sie Analogien zu den entsprechenden Definitionen bei Zahlenfolgen?
Es gelten:
=
{ω ∈ Ω : ω ∈ An für unendlich viele n},
lim inf An
=
{ω ∈ Ω : ω ∈ An bis auf endlich viele Ausnahmen},
lim inf An
⊂
lim sup An .
lim sup An
n→∞
n→∞
n→∞
n→∞
lim sup An und lim inf An sind terminale Ereignisse bzgl. (1{An })n≥1 (Ü!)
n→∞
n→∞
Norbert Henze, KIT
2.26
Stochastische Unabhängigkeit
2.27 Satz (Lemma von Borel–Cantelli)
Es seien A1 , A2 , . . . Ereignisse in einem W-Raum (Ω, A, P). Dann gelten:
∞
X
P(An ) < ∞ folgt P lim sup An = 0.
a) Aus
n→∞
n=1
b) Falls A1 , A2 , . . . stochastisch unabhängig sind, so gilt auch die
Umkehrung, also:
∞
X
P(An ) = ∞ =⇒ P lim sup An = 1.
n→∞
n=1
Warum ist b) (unter der Vorauss. der Unabhängigkeit) die Umkehrung von a)?
Beweis: a) Sei Bn := ∪k≥n Ak . Dann gilt Bn ↓ und
P(Bn ) ≤
=⇒ P lim sup An
n→∞
= P
∞
X
k=n
P(Ak ) → 0 für n → ∞
∞
\
n=1
Bn
!
= lim P(Bn ) = 0, q.e.d. a).
n→∞
Norbert Henze, KIT
2.27
Stochastische Unabhängigkeit
Memo: A1 , A2 , . . . unabh. : Z.z.:
P∞
n=1
P(An ) = ∞ =⇒ P(lim sup An ) = 1.
b) Es gilt 1 − x ≤ e−x , x ≥ 0. Setze x := P(Ak )
=⇒ 1 − P(Ak ) ≤ exp(−P(Ak )). Für n ≤ s folgt
s
Y
k=n
=⇒
(1 − P(Ak )) ≤ exp −
1 − exp −
|
s
X
P(Ak )
k=n
!
s
X
k=n
≤ 1−
{z
}
→ 0 bei s → ∞
=⇒
Es folgt
= 1 − lim P
1 − P lim sup An
n→∞
n→∞
=
=
lim
n→∞
0.
"
Ak
k=n
lim P
s→∞
∞
[
P(Ak )
s
\
k=n
!
Ack
s
Y
k=n
!
≤ 1
(1 − P(Ak )) ≤ 1.
|
{z
}
→ 0 bei s → ∞
= lim P
n→∞
!#
= lim
n→∞
∞
\
Ack
k=n
"
lim
s→∞
|
!
s
Y
(1−P(Ak ))
k=n
{z
=0
Norbert Henze, KIT
}
#
2.28
Stochastische Unabhängigkeit
2.28 Definition (Faltungen von Wahrscheinlichkeitsverteilungen)
Es seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen auf einem W-Raum
(Ω, A, P).
PX1 ∗ PX2 ∗ . . . ∗ PXn := PX1 +X2 +...+Xn
heißt Faltung(sprodukt) der Verteilungen von X1 , . . . , Xn .
Beachte: Es gilt PX1 ∗ PX2 ∗ . . . ∗ PXn = µT , wobei
n
O
PXj , T : Rn → R, T (x1 , . . . , xn ) := x1 + . . . + xn .
µ=
j=1
2.29 Beispiele (Additionsgesetze für wichtige Verteilungen)
a) Bin(m, p) ∗ Bin(n, p) = Bin(m + n, p),
b) Po(λ) ∗ Po(µ) = Po(λ + µ),
c) N(µ, σ 2 ) ∗ N(ν, τ 2 ) = N(µ + ν, σ 2 + τ 2 ).
Achtung! Faltung von Verteilungen beinhaltet in der Formulierung mithilfe von
Zufallsvariablen stochastische Unabhängigkeit, also etwa:
X, Y unabhängig, X ∼ Bin(m, p), Y ∼ Bin(n, p) =⇒ X + Y ∼ Bin(m + n, p).
Norbert Henze, KIT
2.29
Stochastische Unabhängigkeit
Seien X, Y unabhängige reelle Zufallsvariablen. Wie bestimmt man die
Verteilung von X + Y ? Seien
F (t) := P(X ≤ t),
G(t) := P(Y ≤ t),
t ∈ R,
die Verteilungsfunktionen von X bzw. Y . Sei
F ∗ G(t) := P(X + Y ≤ t),
t ∈ R,
die Verteilungsfunktion von X + Y .
Sei B := {(x, y) ∈ R2 : x + y ≤ t}. Nach dem Satz von Tonelli gilt
Z
Z
F ∗ G(t) = P((X, Y ) ∈ B) =
1 dP(X,Y ) =
1 dPX ⊗ PY
B
B
Z ∞
=
PY ((−∞, t − x]) PX (dx)
−∞
Z ∞
=
G(t − x) dF (x)
−∞
Z ∞
=
F (t − y) dG(y). (warum?)
−∞
Norbert Henze, KIT
2.30
Stochastische Unabhängigkeit
Memo: F ∗ G(t) =
Z
Falls PY = gλ1 , so
G(t − x) =
und damit
F ∗ G(t)
=
=
∞
−∞
Z
G(t − x) dF (x) =
t−x
g(s) ds =
−∞
Z
Z
∞
−∞
t
−∞
Z
t
−∞
∞
Z
Z
Z
∞
−∞
F (t − y) dG(y)
t
−∞
g(s − x) ds
(warum?)
g(s − x) ds dF (x)
g(s − x) dF (x)
| −∞
{z
}
=: h(s)
ds
(Tonelli)
Folg.: F ∗ G hat λ1 -Dichte h. Besitzt zusätzlich X eine λ1 -Dichte f , so folgt:
2.30 Faltungsformel für Dichten
Sind X und Y unabhängige Zufallsvariablen mit λ1 -Dichten f bzw. g, so besitzt
X + Y die λ1 -Dichte
Z ∞
f ∗ g(s) :=
g(s − x)f (x) dx,
s ∈ R.
−∞
Norbert Henze, KIT
2.31
Konvergenzbegriffe
3 Konvergenzbegriffe
Seien X, X1 , X2 , . . . reelle Zufallsvariablen auf einem W-Raum (Ω, A, P).
3.1 Definition (P-fast sichere Konvergenz)
f.s.
= 1.
Xn −→ X :⇐⇒ P ω ∈ Ω : lim Xn (ω) = X(ω)
n→∞
In Worten: (Xn ) konvergiert (P-)fast sicher gegen X.
f.s.
Anstelle von Xn −→ X schreibt man häufig auch Xn → X P-f.s.
3.2 Bemerkungen
o
\ [
a) Es gilt n
lim Xn = X =
n→∞
\ n
1o
|Xn −X| ≤
∈ A.
k
k≥1 m≥1 n≥m
b) In der Maßtheorie entspricht der P-fast sicheren Konvergenz die
Konvergenz µ-fast überall.
c) P-fast sichere Konvergenz ist punktweise Konvergenz auf einer Eins-Menge
(Menge Ω0 ∈ A mit P(Ω0 ) = 1).
d) Der Grenzwert einer P-fast sicher konvergenten Folge ist P-fast sicher
eindeutig bestimmt (warum?).
Norbert Henze, KIT
3.1
Konvergenzbegriffe
3.3 Satz (Charakterisierung der fast sicheren Konvergenz)
In der Situation von Definition 3.1 gilt:
n
o
f.s.
Xn −→ X ⇐⇒ ∀ ε > 0 : lim P supk≥n Xk − X > ε
= 0.
n→∞
Beweis: =⇒“: Sei ε > 0 beliebig, A := {limn→∞ Xn = X}. Nach Vorauss.
”
gilt P(A) = 1. Sei
An := supk≥n Xk − X > ε . Zu zeigen: P(An ) → 0.
Es gilt An ↓. Sei Bn := A ∩ An . Es gilt Bn ↓ ∅ (warum?) und damit
0 = lim P(Bn ) = lim P(An ).
n→∞
n→∞
(warum gilt die letzte Gleichheit?)
⇐=“: Sei Dε := {lim supn→∞ |Xn − X| > ε}. Nach Definition von An gilt
”
Dε ⊂ An , n ≥ 1. Nach Voraussetzung gilt P(An ) → 0 und somit P(Dε ) = 0.
Wegen
∞ ∞
[
[
1
c
lim sup Xn − X >
A =
D1/k
=
k
n→∞
k=1
k=1
P
folgt P(Ac ) ≤ ∞
k=1 P(D1/k ) = 0.
Norbert Henze, KIT
3.2
Konvergenzbegriffe
3.4 Satz (Reihenkriterium für fast sichere Konvergenz)
∞
X
P (|Xn − X| > ε) < ∞ für jedes ε > 0,
Gilt
n=1
so folgt Xn → X P-f.s.
Beweis: Übungsaufgabe!
3.5 Definition ((P)-stochastische Konvergenz)
P
Xn −→ X :⇐⇒ lim P (|Xn − X| > ε) = 0
n→∞
für jedes ε > 0.
In Worten: (Xn ) konvergiert (P-)stochastisch gegen X.
P
Gilt P(X = a) = 1 für ein a ∈ R, so schreibt man hierfür Xn −→ a.
Beachte: In der Maßtheorie entspricht der stochastischen Konvergenz die
Konvergenz nach Maß.
Norbert Henze, KIT
3.3
Konvergenzbegriffe
f.s.
Memo: Xn −→ X ⇐⇒ ∀ ε > 0 : lim P
n→∞
n
o
supk≥n Xk − X > ε
= 0.
3.6 Satz (Fast sichere Konvergenz ist stärker als stochastische Konvergenz)
f.s.
P
Aus Xn −→ X folgt Xn −→ X. Die Umkehrung gilt im Allgemeinen nicht.
Beweis: Es gilt {|Xn − X| > ε} ⊂ {supk≥n |Xk − X| > ε}.
3.3 (siehe Memo) =⇒ Beh.
f.s.
P
Beachte: In einem diskreten W-Raum gilt Xn −→ X ⇐⇒ Xn −→ X.
(Übungsaufgabe!)
Norbert Henze, KIT
3.4
Konvergenzbegriffe
3.7 Eine Folge, die stochastisch, aber nicht P-f.s. konvergiert
Seien Ω := [0, 1), A := B ∩ Ω, P := λ1|Ω (Gleichverteilung auf [0, 1)).
Sei X ≡ 0 und Xn := 1{An }, wobei
j j+1
,
An := k , k
2
2
X1 (ω)
n = 2k + j, 0 ≤ j < 2k .
X2 (ω)
1 ω
X4 (ω)
X3 (ω)
1 ω
X5 (ω)
1 ω
1 ω
X6 (ω)
1 ω
1 ω
Für ε ∈ (0, 1) gilt P(|Xn | > ε) = P(An ) → 0. Die Folge (Xn (ω)) konvergiert
für kein ω! Daher konvergiert Xn insbesondere nicht P-f.s. gegen X.
Norbert Henze, KIT
3.5
Konvergenzbegriffe
3.8 Satz (Teilfolgenkriterium für stochastische Konvergenz)
Folgende Aussagen sind äquivalent:
P
a) Xn −→ X.
b) Jede Teilfolge (Xnk ) von (Xn ) besitzt eine weitere Teilfolge (Xn′ ) mit
k
f.s.
Xn′k −→ X.
Beweis: a) =⇒ b): Sei (Xnk ) eine beliebige Teilfolge von (Xn ). Es existiert
eine Teilfolge (Xn′ ) von (Xnk ) mit
k
1
P Xn′k − X >
k
1
,
k2
≤
k ≥ 1.
(warum?)
Sei ε > 0 beliebig. Für k > k0 gilt 1/k < ε. Es folgt
k0
∞
∞
X
X
X
P |Xn′ −X| >
P |Xn′ −X| > ε ≤
P |Xn′ −X| > ε +
k
k
k
k=1
k=k0 +1
k=1
≤
k0 +
∞
X
k=k0 +1
1
k
1
< ∞. Reihenkrit. 3.4 =⇒ b).
k2
Norbert Henze, KIT
3.6
Konvergenzbegriffe
P
Memo: a) Xn −→ X.
f.s.
b) Jede TF (Xnk ) von (Xn ) besitzt eine weitere TF (Xn′k ) mit Xn′k −→ X.
b) =⇒ a): Sei ε > 0 beliebig, an := P(|Xn − X| > ε).
Zu zeigen: limn→∞ an = 0.
Sei (ank ) eine beliebige TF von (an ). Nach Voraussetzung existiert eine TF
f.s.
(an′ ) mit Xn′ −→ X.
k
k
P
Nach Satz 3.6 folgt Xn′k −→ X, also an′k → 0.
Damit konvergiert (an ) gegen 0.
Aus dem Teilfolgenkriterium folgt unmittelbar, dass der stochastische Limes
P-fast sicher eindeutig bestimmt ist:
P
P
Aus Xn −→ X und Xn −→ Y folgt P(X = Y ) = 1.
Können Sie diese Aussage beweisen?
Norbert Henze, KIT
3.7
Konvergenzbegriffe
3.9 Verallgemeinerung auf Zufallsvektoren
Es seien X, X1 , X2 , . . . d-dimensionale Zufallsvektoren auf einem W-Raum
(Ω, A, P). Weiter sei k · k eine beliebige Norm auf Rd . Man definiert dann
n
o
f.s.
Xn −→ X :⇐⇒ P ω ∈ Ω : lim Xn (ω) = X(ω)
= 1,
n→∞
P
Xn −→ X
:⇐⇒
lim P (kXn − Xk > ε) = 0
n→∞
für jedes ε > 0.
Achtung: Je zwei Normen k · k und k · k′ auf Rd sind äquivalent, d.h.: ∃ a, b > 0
mit
a kxk ≤ kxk′ ≤ bkxk ∀ x ∈ Rd .
P
Folg.: Konkrete Norm bei Def. von Xn −→ X irrelevant! Eine bequeme Wahl
ist
kxk∞ := max(|x1 |, . . . , |xd |),
x = (x1 , . . . , xd ).
(d)
(1)
Mit X =: (X (1) , . . . , X (d) ), Xn =: (Xn , . . . , Xn ), n ≥ 1, gilt: (Übungsaufg!)
f.s.
Xn −→ X
⇐⇒
Xn −→ X
⇐⇒
P
f.s.
Xn(j) −→ X (j)
Xn(j)
P
−→ X
(j)
für jedes j ∈ {1, . . . , d},
für jedes j ∈ {1, . . . , d}.
Norbert Henze, KIT
3.6
Konvergenzbegriffe
f.s.
P
Memo: Xn −→ X ⇐⇒ ∀ TF (Xnk ) ∃ TF (Xn′k ) : Xn′k −→ X.
3.10 Rechenregeln
Es seien X, X1 , X2 , . . . d-dimensionale Zufallsvektoren auf einem W-Raum
(Ω, A, P). Weiter seien h : Rd → Rs eine stetige Funktion und (an ) eine reelle Folge mit an → a. Dann gelten:
P
P
a) Aus Xn −→ X folgt h(Xn ) −→ h(X).
P
P
b) Aus Xn −→ X folgt an Xn −→ aX.
Beweis: a): Wir verwenden das Teilfolgenkriterium 3.8 (s. Memo).
Sei (h(Xnk )) eine beliebige Teilfolge von (h(Xn )). 3.8 =⇒ ∃ Teilfolge (Xn′k )
f.s.
von (Xnk ) mit Xn′k −→ X. D.h.: ∃ Ω0 ∈ A, P(Ω0 ) = 1, und
h stetig =⇒
für jedes ω ∈ Ω0 .
lim Xn′ (ω)
=
X(ω)
lim h(Xn′k (ω))
=
h(X(ω))
k→∞
k
k→∞
für jedes ω ∈ Ω0 .
3.8 =⇒ a). b) folgt völlig analog (!).
Norbert Henze, KIT
3.7
Konvergenzbegriffe
3.11 Folgerung Seien X, Xn , Y, Yn , n ≥ 1, reelle Zufallsvariablen auf einem
P
P
W-Raum (Ω, A, P) mit Xn −→ X und Yn −→ Y . Dann gelten:
P
a) aXn + bYn −→ aX + bY , a, b ∈ R,
P
b) Xn Yn −→ X Y ,
P
c) |Xn | −→ |X|.
P
Beweis: a): Es gilt (Xn , Yn ) −→ (X, Y ). Die Funktion
(
R2 → R,
h:
(x, y) 7→ h(x, y) := ax + by
ist stetig. Die Behauptung folgt damit aus 3.10 a).
Genauso folgen b) und c).
Norbert Henze, KIT
3.8
Konvergenzbegriffe
Memo: Lp := Lp (Ω, A, P) := {X : Ω → R : E|X|p < ∞},
0 < p < ∞.
3.12 Definition (Konvergenz im p-ten Mittel)
Seien X, X1 , X2 , . . . in Lp .
Lp
Xn −→ X :⇐⇒
lim E|Xn − X|p = 0.
n→∞
In Worten: (Xn ) konvergiert im p-ten Mittel gegen X.
p = 1 bzw. p = 2: Konvergenz im Mittel bzw. im quadratischen Mittel.
Beachte: Im Gegensatz zur fast sicheren Konvergenz und zur stochastischen
Konvergenz müssen bei der Konvergenz im p-ten Mittel die p-ten absoluten
Momente existieren!
Norbert Henze, KIT
3.9
Konvergenzbegriffe
3.13 Beziehungen zwischen Konvergenzbegriffen
Lp
P
a) Aus Xn −→ X folgt Xn −→ X.
Lp
f.s.
f.s.
Lp
b) Aus Xn −→ X folgt im Allg. nicht Xn −→ X.
c) Aus Xn −→ X folgt im Allg. nicht Xn −→ X.
a) folgt aus
P(|Xn − X| > ε) ≤
E|Xn − X|p
εp
(Markov-Ungleichung).
Ein Beispiel für b) ist 3.7 (Xn = 1{An }, An = [j2−k , (j + 1)2−k ), X ≡ 0).
Beachte: E|Xn |p = E1{An } = P(An ) → 0.
Ein Beispiel für c) ist (mit dem W-Raum aus 3.7) Xn = n2/p 1{An } mit
An = [0, 1/n) und X ≡ 0.
Beachte: E|Xn |p = E[n2 1{An }] = n2 P(An ) = n → ∞.
Norbert Henze, KIT
3.10
Gesetze Großer Zahlen
4 Gesetze Großer Zahlen
Es seien X, X1 , X2 , . . . reelle Zufallsvariablen auf einem W-Raum (Ω, A, P).
Wir sprechen von einer u.i.v.-Folge, falls X1 , X2 , . . . stochastisch unabhängig
und identisch verteilt sind.
Im Folgenden bezeichne
Sn := X1 + . . . + Xn ,
n ≥ 1,
die n-te Partialsumme der Folge (Xn )n≥1 .
Gesetze Großer Zahlen betreffen die stochastische oder fast sichere Konvergenz
des arithmetischen Mittels
X n :=
n
Sn
1X
Xj =
.
n j=1
n
Liegt stochastische Konvergenz vor, so spricht man von einem schwachen, im
Fall von fast sicherer Konvergenz von einem starken Gesetz Großer Zahlen.
Norbert Henze, KIT
4.1
Gesetze Großer Zahlen
Das folgende schwache Gesetz Großer Zahlen ist aus der Vorlesung Einführung
in die Stochastik bekannt.
4.1 Satz (Schwaches Gesetz Großer Zahlen)
Ist (Xn ) eine u.i.v.-Folge mit EX12 < ∞, so gilt
n
1X
P
Xj −→ E X1 .
n j=1
Das nachstehende Resultat bildet eines der Hauptergebnisse der klassischen
Wahrscheinlichkeitstheorie.
4.2 Satz (Starkes Gesetz Großer Zahlen, Kolmogorov)
Es sei (Xn ) eine u.i.v.-Folge. Dann sind folgende Aussagen äquivalent:
1
f.s.
a) Es existiert eine Zufallsvariable X mit Sn −→ X.
n
b) Es gilt E|X1 | < ∞.
In diesem Fall folgt X = EX1 P-fast sicher, d.h. es gilt
n
1X
f.s.
Xj −→ E X1 .
n j=1
Norbert Henze, KIT
4.2
Gesetze Großer Zahlen
f.s.
Beweis: a) =⇒ b)“ Annahme: Sn /n −→ X. Beachte:
”
Sn − Sn−1
Sn
n − 1 Sn−1
Xn f.s.
Xn
−→ 0.
=
=
−
·
=⇒
n
n
n
n
n−1
n
o
n X n
Sei An := {|Xn | ≥ n} = ≥ 1 , n ≥ 1 =⇒ P (lim supn→∞ An ) = 0.
n
Es gilt P(An ) = P(|X1 | ≥ n) (warum?).
Teil b) des Lemmas von Borel–Cantelli liefert somit
∞
X
n=1
P(|X1 | ≥ n) < ∞.
(warum?)
Mit der Darstellungsformel für den Erwartungswert (Satz 1.39) erhalten wir
E |X1 |
=
Z
∞
0
≤
∞
X
n=1
P(|X1 | > t) dt =
∞ Z
X
n=1
[n−1,n)
P(|X1 | > t) dt
P(|X1 | ≥ n − 1) < ∞ =⇒ b).
Beweis von b) =⇒ a)“ später.
”
Norbert Henze, KIT
4.3
Gesetze Großer Zahlen
4.3 Beispiel (Borels Satz über normale Zahlen)
Seien Ω := (0, 1], A := {B ∈ B : B ⊂ Ω}, P := λ1|Ω .
Jedes ω ∈ Ω hat eindeutige nicht abbrechende dyadische Darstellung der Form
ω =
∞
X
dj (ω)
,
2j
j=1
wobei dj (ω) ∈ {0, 1}, j ≥ 1, und
∞
X
j=1
dj (ω) = ∞.
Eine Zahl ω ∈ Ω heißt normal, falls gilt:
lim
n→∞
n
1
1X
dj (ω) = .
n j=1
2
d1 , d2 , . . . sind unabhängige Zufallsvariablen auf Ω mit dj ∼ Bin(1, 1/2), j ≥ 1.
Wegen Ed1 =
1
folgt aus dem starken Gesetz Großer Zahlen
2
!
n
n
1X
1o
=1
P
ω ∈ Ω : lim
dj (ω) =
n→∞ n
2
j=1
Folglich ist also fast jede Zahl ω ∈ (0, 1] normal.
Norbert Henze, KIT
4.4
Gesetze Großer Zahlen
4.4 Satz (Kolmogorovsche Maximal-Ungleichung)
Es seien X1 , . . . , Xn unabhängige Zufallsvariablen
auf einem W-Raum (Ω, A, P)
Pk
mit EXj2 < ∞, j = 1, . . . , n. Sei Sk :=
(X
− EXj ), k = 1, . . . , n. Dann
j
j=1
gilt für jedes ε > 0:
1
P max |Sk | ≥ ε
≤ 2 V(Sn ).
1≤k≤n
ε
Beweis: Sei o.B.d.A. EXj = 0, j = 1, . . . , n (warum?). Sei
Ak := {|Sk | ≥ ε, |S1 | < ε, . . . , |Sk−1 | < ε},
k = 1, . . . , n.
( |Sk | ≥ ε tritt erstmals zum Zeitpunkt k ein“)
”
P
A1 , . . . , An sind paarweise disjunkt, und wegen n
k=1 Ak ⊂ Ω folgt
V(Sn )
=
ESn2 ≥
≥
n
X
=
k=1
n
X
k=1
n
X
k=1
n
X
E (Sk + (Sn − Sk ))2 1{Ak }
E Sn2 1{Ak } =
k=1
E (Sk2 + 2Sk (Sn − Sk ))1{Ak }
n
X
E [Sk (Sn − Sk )1{Ak }] .
E Sk2 1{Ak } + 2
k=1
Norbert Henze, KIT
4.5
Gesetze Großer Zahlen
Memo: X1 , . . . , Xn unabhängig, EXj2 < ∞, EXj = 0 ∀j.
Memo: Z.z.: P
max |Sk | ≥ ε
1≤k≤n
≤
V(Sn )
ε2
Memo: Ak := {|Sk | ≥ ε, |S1 | < ε, . . . , |Sk−1 | < ε},
Bislang gezeigt:
V(Sn )
≥
Pn
k=1
Ak ⊂ Ω.
n
X
E [(Sn − Sk ) · Sk 1{Ak }]
E Sk2 1{Ak } + 2
{z
}
k=1
k=1 |
n
X
≥ ε2 P(Ak )
Beachte: Sn − Sk = f (Xk+1 , . . . , Xn ),
Sk 1{Ak } = g(X1 , . . . , Xk )
=⇒ Sn − Sk , Sk 1{Ak } stochastisch unabhängig (Blockungslemma)
=⇒ E[(Sn − Sk )Sk 1{Ak }] = E[Sn − Sk ] E[Sk 1{Ak }] = 0
n
X
P(Ak ) = ε2 P max |Sk | ≥ ε .
=⇒ V(Sn ) ≥ ε2
k=1
1≤k≤n
Norbert Henze, KIT
4.6
Gesetze Großer Zahlen
4.5 Das Lemma von Cesàro
Seien (an ), (bn ) Folgen reeller Zahlen mit bn → b ∈ R sowie an > 0, n ≥ 1,
und an ↑ ∞. Dann gilt mit a0 := b0 := 0:
n
1 X
lim
(aj − aj−1 )bj−1 = b.
n→∞ an
j=1
Beweis: Zu jedem ε > 0 gibt es ein k = k(ε) mit
b − ε ≤ bj ≤ b + ε für jedes j ≥ k.
Sei
cn :=
Dann folgt für n > k
cn
=
(4.1)
n
1 X
(aj − aj−1 )bj−1 .
an j=1
k
n
1 X
1 X
(aj − aj−1 ) bj−1
(aj − aj−1 )bj−1 +
an j=1
an
j=k+1
|
{z
}
|
{z
}| {z }
→ 0 für n → ∞
= an − ak
≤b+ε
=⇒ lim sup cn ≤ b + ε.
n→∞
ε > 0 beliebig =⇒ lim sup cn ≤ b.
n→∞
Analog: lim inf n→∞ cn ≥ b.
Norbert Henze, KIT
4.7
Gesetze Großer Zahlen
4.6 Das Lemma von Kronecker
Es seien (xn ), (an ) reelle Folgen mit an > 0, n ≥ 1, und an ↑ ∞. Dann gilt:
Ist
∞
X
xj
konvergent, so folgt
aj
j=1
Beweis: Sei
bn :=
n
X
xj
j=1
aj
,
lim
n→∞
n
1 X
xj = 0.
an j=1
n ≥ 1, sowie b0 := 0.
Vorauss. =⇒ ∃b ∈ R mit bn → b für n → ∞.
Es gilt bn − bn−1 = xn /an =⇒ xj = aj (bj − bj−1 ) =⇒
n
X
j=1
xj =
n
X
j=1
aj (bj − bj−1 ) = an bn −
Memo: bn → b, 0 < an ↑ ∞ =⇒
n
X
(aj − aj−1 )bj−1 .
j=1
n
1 X
(aj − aj−1 )bj−1 → b.
an j=1
Division durch an und Cesàros Lemma =⇒ Behauptung.
Norbert Henze, KIT
4.8
Gesetze Großer Zahlen
4.7 Satz (Kolmogorov-Kriterium)
Es sei (Xn )n≥1 eine Folge unabhängiger Zufallsvariablen mit EXn2 < ∞, n ≥ 1.
Gilt für eine Folge (an ) positiver reeller Zahlen mit an ↑ ∞
∞
X
V(Xn )
< ∞,
a2n
n=1
n
1 X
f.s.
so folgt
(Xj − EXj ) −→ 0.
an j=1
Beweis: Sei Yj :=
1
aj
(Xj − EXj ), j ≥ 1, Sn := Y1 + . . . + Yn , S0 := 0.
Seien m, k mit m > k fest. Die Kolmogorovsche Maximal-Ungleichung,
angewandt
auf Yk+1 , . . . , Ym , liefert
m
1
1 X
V(Yn ).
P max |Sn − Sk | ≥ ε
≤ 2 V(Sm − Sk ) = 2
k≤n≤m
ε
ε
n=k+1
m → ∞ =⇒
Nach Vorauss. gilt
P∞
n=1
P sup |Sn − Sk | ≥ ε
n≥k
≤
∞
1 X
V(Yn ).
ε2 n=k+1
P
V(Yn ) < ∞ =⇒ supn≥k |Sn − Sk | −→ 0 für k → ∞.
Norbert Henze, KIT
4.9
Gesetze Großer Zahlen
Memo: Yj =
1
aj
(Xj − EXj ), Sn := Y1 + . . . + Yn , S0 := 0
P
Memo: sup |Sn − Sk | −→ 0 für k → ∞.
n≥k
∞
X
xj
j=1
aj
konv. =⇒
n
1 X
xj → 0.
an j=1
Sei Zn := supℓ,k≥n |Sℓ − Sk |. Beachte: 0 ≤ Zn+1 ≤ Zn = |Zn |, n ≥ 1 =⇒
P sup |Zk | ≥ ε
= P(|Zn | ≥ ε) = P sup |Sℓ −Sn +Sn − Sk | ≥ ε
{z
}
k≥n
ℓ,k≥n |
≤ |Sℓ −Sn |+|Sk −Sn |
≤ P 2 sup |Sk − Sn | ≥ ε
→ 0 für n → ∞.
k≥n
f.s.
3.3 =⇒ Zn −→ 0. Def. von Zn =⇒ (Sn ) ist mit W’ 1 eine Cauchy-Folge, d.h.:
∃ Ω0 ∈ A mit P(Ω0 ) = 1 und
∀ ω ∈ Ω0 :
lim
sup |Sℓ (ω) − Sk (ω)| = 0.
n→∞ ℓ,k≥n
Cauchy-Kriterium für reelle Folgen =⇒ ∀ ω ∈ Ω0 : S(ω) := limn→∞ Sn (ω) ex.
Lemma von Kronecker (s. Memo) mit xj := Xj (ω) − EXj =⇒ Beh.
Norbert Henze, KIT
4.10
Gesetze Großer Zahlen
4.8 Folgerung (Starkes GGZ bei gleichmäßig beschränkten Varianzen)
Sei (Xn ) eine Folge unabhängiger Zufallsvariablen mit gleichmäßig beschränkten
Varianzen, also supn∈N V(Xn ) ≤ c < ∞ für ein c ∈ [0, ∞). Dann gilt
lim
n→∞
n
1X
(Xj − EXj ) = 0 P-fast sicher.
n j=1
Beachte: Diese Situation deckt den Fall identisch verteilter Zufallsvariablen mit
EX12 < ∞ ab. Es gilt dann
n
1X
Xj → EX1 P-fast sicher,
n j=1
vgl. Satz 4.2.
Norbert Henze, KIT
4.11
Gesetze Großer Zahlen
Beweis von Satz 4.2, b) =⇒ a): “
”
Memo: Zu zeigen: X1 , X2 , . . . u.i.v. , E|X1 | < ∞ =⇒
Sn f.s.
−→ EX1
n
en := Xn · 1{|Xn | < n} ( Stutzung von Xn“).
Sei X
”
e1 , X
e2 , . . . unabhängig und EX
en2 < ∞, n ≥ 1.
Es gilt: X
P
Sei Aj := {x ∈ R : j − 1 ≤ |x| < j}, j ≥ 1 (=⇒ ∞
j=1 Aj = R)
∞
X
en )
V(X
2
n
n=1
≤
=
=
≤
≤
∞
n Z
X
1 X
e n ) ≤ EX
en2 , |X
en | < n)
en2 dP (V(X
X
2
n
e
{j−1≤|
X
|<j}
n
n=1
j=1
∞
n Z
X
1 X
X12 dP (warum?)
n2 j=1 {j−1≤|X1 |<j}
n=1
Z
∞ X
∞
∞
X
X
1
1
2
beachte jetzt:
x2 PX1 (dx)
≤
2
2
n Aj
n
j
j=1 n=j
n=j
Z
∞
X
|x| X1
|x|
|x| ·
beachte jetzt:
P (dx)
≤ 1 auf Aj
2
j
j
j=1 Aj
Z
2 |x| PX1 (dx) = 2E|X1 | < ∞.
R
Norbert Henze, KIT
4.12
Gesetze Großer Zahlen
Memo: Zu zeigen: X1 , X2 , . . . u.i.v. , E|X1 | < ∞ =⇒
en = Xn 1{|Xn | < n},
Memo: X
Sn f.s.
−→ EX1
n
∞
X
en )
V(X
<∞
2
n
n=1
Kolmogorov-Kriterium 4.7 =⇒
n
1 X e
f.s.
ej
Xj − EX
−→ 0 bei n → ∞.
n j=1
D.h.: ∃Ω0 ∈ A mit P(Ω0 ) = 1 und
∀ ω ∈ Ω0 :
Beachte:
n
n
1X e
1X e
Xj (ω) −
EXj → 0.
n j=1
n j=1
ej = E[Xj 1{|Xj | < j}]
EX
= E[X1 1{|X1 | < j}]
→ EX1 für j → ∞
Hieraus folgt lim
n→∞
1
n
n
X
j=1
ej = EX1
EX
(warum?)
(warum?)
(warum?).
Norbert Henze, KIT
4.13
Gesetze Großer Zahlen
Memo: Zu zeigen: X1 , X2 , . . . u.i.v. , E|X1 | < ∞ =⇒
en = Xn 1{|Xn | < n},
Memo: X
Memo:
∞
X
n=1
1
n
n
X
ej (ω) − 1
X
n
j=1
en ) =
P(Xn 6= X
Borel–Cantelli
∞
X
n=1
< ∞
=⇒ P
n
X
j=1
lim
n→∞
n
1X e
EXj = EX1
n j=1
ej → 0 ∀ω ∈ Ω0 , P(Ω0 ) = 1
EX
P(|Xn | ≥ n) =
(warum?)
∞
\
Sn f.s.
−→ EX1
n
∞
[
∞
X
n=1
P(|X1 | ≥ n)
(ident. Verteilung!)
!
e
{Xk 6= Xk } = 0. Komplementbild. =⇒
n=1 k=n
ek (ω)
∃Ω1 ∈ A mit P(Ω1 ) = 1 : ∀ ω ∈ Ω1 ∃n0 = n0 (ω) ∀k ≥ n0 : Xk (ω) = X
Folgerung: ∀ω ∈ Ω1 :
n
n
1X e
1X
Xj (ω) → 0
Xj (ω) −
n j=1
n j=1
Es gilt P(Ω0 ∩ Ω1 ) = 1 und ∀ω ∈ Ω0 ∩ Ω1 :
(warum?)
n
1X
Xj (ω) → EX1 .
n j=1
Norbert Henze, KIT
4.14
Gesetze Großer Zahlen
4.9 Anwendung: Monte-Carlo-Integration
Seien
B eine beschänkte Borelmenge in Rk mit 0 < |B| := λk (B),
f eine auf B definierte, messbare Lebesgue-integrierbare Funktion.
Sei U ein Zufallsvektor mit der Gleichverteilung U(B) auf B. Dann existiert der
Erwartungswert von f (U ), und es gilt
Z
1
I
Ef (U ) =
f (x)
dx =
,
|B|
|B|
B
wobei
Z
I :=
f (x) dx.
B
Sei U1 , U2 , . . . eine u.i.v.-Folge mit Verteilung U(B). Dann ist f (U1 ), f (U2 ), . . .
eine u.i.v.-Folge reeller Zufallsvariablen.
Nach dem starken Gesetz Großer Zahlen gilt
n
n
|B| X
I
1X
f.s.
f.s.
f (Uj ) −→
f (Uj ) −→ I.
,
also
n j=1
|B|
n j=1
Durch Mittelung vieler Funktionswerte an unabhängigen rein zufälligen
Stützstellen kann man also das Integral I schätzen.
Norbert Henze, KIT
4.15
Gesetze Großer Zahlen
Zahlenbeispiel:
k = 3, B := [0, 1]3 , f (x1 , x2 , x3 ) := sin(x1 + x2 + x3 ).
In diesem Fall kann man das Integral I direkt ausrechnen: Es ist
Z 1Z 1Z 1
I :=
sin(x1 + x2 + x3 ) dx1 dx2 dx3
0
=
0
0
cos(3) + 3 cos(1) − 3 cos(2) − 1 = 0.879354 · · ·
10 Simulationen mit jeweils n = 10000 gleichverteilten Pseudozufallspunkten in
B ergaben die Werte
0.8791, 0.8777, 0.8808, 0.8789, 0.8808, 0.8801, 0.8812, 0.8785, 0.8783, 0.8813.
In jedem Fall ist die betragsmäßige Abweichung zum wahren Wert höchstens
gleich 0.002.
Norbert Henze, KIT
4.16
Gesetze Großer Zahlen
Seien X1 , X2 , . . . u.i.v. mit E(X1 ) = 0, E(X12 ) = 1, Sn := X1 + . . . + Xn .
Sei ε > 0 beliebig, an := n1/2+ε . Es gilt:
∞
∞
X
X
1
Sn
V(Xn )
f.s.
=
< ∞ =⇒ 1/2+ε −→ 0.
2
1+2ε
a
n
n
n
n=1
n=1
4.10 Gesetz vom iterierten Logarithmus (Hartman/Wintner, 1941)
Ist (Xn ) eine u.i.v.-Folge auf (Ω, A, P) mit EX1 = 0 und EX12 = 1, so gilt:
Sn
Sn
= 1 = 1 = P lim inf √
= −1 .
P lim sup √
n→∞
2n log log n
2n log log n
n→∞
Für eine relle Folge (bn ) sei H(bn ) die Menge der Häufungspunkte von (bn ).
Unter obigen Voraussetzungen gilt:
4.11 Satz (Strassen, 1967)
n
o
Sn (ω)
P
ω∈Ω:H √
= [−1, 1]
=1
2n log log n
Norbert Henze, KIT
4.17
Charakteristische Funktionen
5 Charakteristische Funktionen
Charakteristische Funktionen sind ein wichtiges Hilfsmittel zur
Charakterisierung von Verteilungen und zur Herleitung von Grenzwertsätzen.
Zur Einführung benötigen wir komplexwertige Zufallsvariablen.
C
:=
{z := u + iv : u, v ∈ R},
u
=:
|z|
:=
iϑ
e
=
Re z, v =: Im z,
p
u2 + v 2 ,
B(C)
:=
i2 = −1,
z := u − iv,
cos ϑ + i sin ϑ,
{u + iv : (u, v) ∈ B}B ∈ B2 .
Sei (Ω, A, P) ein W-Raum. Sind U, V reelle Zufallsvariablen auf Ω, so ist
Z := U + iV
eine C-wertige Zufallsvariable. Falls E|U | < ∞ und E|V | < ∞, so
E(Z) := E(U ) + iE(V ).
Norbert Henze, KIT
5.1
Charakteristische Funktionen
Memo: E(Z) := E(U ) + iE(V ),
|Z| =
√
U2 + V 2
Beachte: max(|U |, |V |) ≤ |Z| ≤ |U | + |V |
Folg: E(Z) existiert ⇐⇒ E|Z| < ∞.
Rechenregeln für E(·) auf L1 (C) := {Z : Ω → C : E|Z| < ∞}
Für Z, Z1 , Z2 ∈ L1 (C) und α1 , α2 ∈ C gelten:
E (α1 Z1 + α2 Z2 )
=
α1 EZ1 + α2 EZ2 ,
|E(Z)|
≤
E|Z|.
(5.1)
Beweis von (5.1): Sei E(Z) =: reiϑ mit r = |E(Z)|, ϑ = arg E(Z).
Wegen Re e−iϑ Z ≤ |Z| (!) und r ∈ R sowie e−iϑ E(Z) = r folgt
|E(Z)| = r = E e−iϑ Z = E Re(e−iϑ Z) ≤ E|Z|.
Norbert Henze, KIT
5.2
Charakteristische Funktionen
5.1 Definition (Charakteristische Funktion)
Sei X eine reelle Zufallsvariable mit Verteilung PX und Verteilungsfunktion F .
Dann heißt die durch
Z ∞
Z ∞
ϕX (t) := E eitX
=
eitx PX (dx) =
eitx dF (x)
−∞
−∞
definierte Funktion ϕX : R → C die charakteristische Funktion (CF) oder
Fourier-Transformierte von X (von PX , von F ).
5.2 Folgerungen
a) Im Fall PX = f λ1 gilt wegen eitx = cos(tx) + i sin(tx)
Z ∞
Z ∞
ϕX (t) =
cos(tx)f (x) dx + i
sin(tx)f (x) dx.
−∞
−∞
X
b) Falls P (D) = 1, D abzählbar, so gilt
X
X
ϕX (t) =
cos(tx) P(X = x) + i
sin(tx) P(X = x).
x∈D
x∈D
Norbert Henze, KIT
5.3
Charakteristische Funktionen
5.3 Beispiel (Poisson-Verteilung)
Falls X ∼ Po(λ), so folgt
k
∞
∞
X
X
λeit
λk
e−λ eitk = e−λ
= e−λ exp λeit
ϕX (t) = E eitX =
k!
k!
k=0
k=0
= exp λ(eit − 1) .
Das Bild {ϕX (t) : t ∈ R}(⊂ {z ∈ C : |z| ≤ 1}) ist eine (2π-periodische) Kurve.
Im
λ=1
λ=5
0.5
λ = 10
0.5
Re
Norbert Henze, KIT
5.4
Charakteristische Funktionen
5.4 Beispiel (Normalverteilung N(0, 1))
Sei X ∼ N(0, 1). Dann hat X die λ1 -Dichte
1
x2
,
f (x) = √
exp −
2
2π
x ∈ R.
Beachte: f (x) = f (−x) und f ′ (x) = −xf (x). Es folgt für jedes t ∈ R:
Z ∞
ϕX (t) =
cos(tx) f (x) dx,
−∞
Z ∞
(DOM, Diff. unter Integral!)
ϕ′X (t) =
sin(tx) (−xf (x)) dx
−∞
Z ∞
=
sin(tx) f ′ (x) dx
−∞
Z ∞
(partielle Integration)
= −t
cos(tx) f (x) dx
−∞
=
−t ϕX (t).
Die einzige Lösung dieser DGL mit der Anfangsbedingung ϕX (0) = 1 ist
2
ϕX (t) = exp − t2 , t ∈ R.
Beachte: ϕX ist reellwertig!
Norbert Henze, KIT
5.5
Charakteristische Funktionen
Memo: ϕX (t) = E eitX
5.5 Satz (Elementare Eigenschaften charakteristischer Funktionen)
Für die charakteristische Funktion einer Zufallsvariablen X gelten:
a) ϕX (0) = 1, |ϕX (t)| ≤ 1,
t ∈ R,
b) ϕX ist gleichmäßig stetig,
c) ϕX (−t) = ϕX (t),
t ∈ R,
d) ϕaX+b (t) = eitb ϕX (at),
a, b, t ∈ R.
Beweis: a), c) und d) folgen direkt aus der Definition (!).
b): Sei kurz ϕ := ϕX . Mit |EZ| ≤ E|Z| folgt für t, h ∈ R
|ϕ(t+h)−ϕ(t)| = E ei(t+h)X − eitX = E eitX (eihX − 1) ≤ EeihX −1.
DOM =⇒ limh→0 EeihX − 1 = 0.
5.6 Beispiel (Normalverteilung N(µ, σ 2 ))
Falls X ∼ N(µ, σ 2 ), so X ∼ σY + µ mit Y ∼ N(0, 1). Mit d) und 5.4 folgt
σ 2 t2
, t ∈ R.
ϕX (t) = eitµ exp −
2
Norbert Henze, KIT
5.6
Charakteristische Funktionen
5.7 Satz (Charakteristische Funktionen und Momente)
Es gelte E|X|k < ∞ für ein k ∈ N. Dann ist ϕX k mal stetig differenzierbar,
und es gilt für r = 1, . . . , k:
Z ∞
dr ϕX (t)
(r)
ϕX (t) =
=
(ix)r eitx PX (dx), t ∈ R,
dtr
−∞
insbesondere also
(r)
ϕX (0) = ir EX r ,
r = 1, . . . , k.
(5.2)
Mit der Abkürzung x ∧ y := min(x, y) gilt weiter für jedes t ∈ R:
k
X
(it)r
|tX|k+1
2|tX|k
r
ϕX (t) −
EX
∧
≤
E
.
r!
k!
(k + 1)!
r=0
(5.3)
Beweis: Sei ϕ := ϕX . Für h ∈ R mit h 6= 0 gilt
ihx
Z
ϕ(t + h) − ϕ(t)
e −1
=
eitx
PX (dx).
h
h
ihx
eihx − 1
e − 1
= ix.
Beachte: ≤ |x| (!) und lim
h→0
h
h
Z
(r)
DOM =⇒ ϕ′ (t) =
ix eitx PX (dx). Induktiv fortfahren =⇒ ϕX (t) = · · ·
Norbert Henze, KIT
5.7
Charakteristische Funktionen
k
X
(it)r
|tX|k+1
2|tX|k
Memo: Zu zeigen: ϕX (t) −
EX r ≤ E
∧
.
r!
k!
(k + 1)!
r=0
Sei Rk (x) := eix −
Behauptung: Es gilt
k
X
(ix)r
r=0
|Rk (x)| ≤
r!
,
x ∈ R, k ∈ N0 .
2|x|k
|x|k+1
∧
,
k!
(k + 1)!
x ∈ R, k ∈ N0 .
(5.4)
Beweis: Induktion über k. Induktionsanfang k = 0: Es gilt:
Rx
R0 (x) = eix − 1 = 0 i eiy dy.
Hieraus folgen sowohl |R0 (x)| ≤ 2 als auch |R0 (x)| ≤ |x| =⇒ Ind.anfang.
Rx
Induktionsschluss k → k + 1: Es gilt Rk+1 (x) = i 0 Rk (y) dy. (!) Ind.vor. =⇒
|Rk+1 (x)| ≤
Z
0
x
2|x|k+1
2|y|k
dy =
,
k!
(k + 1)!
|Rk+1 (x)| ≤
Z
In (5.4) x durch tX ersetzen und E(·) bilden =⇒ Beh.
x
0
|x|k+2
|y|k+1
dy =
.
(k + 1)!
(k + 2)!
.
Norbert Henze, KIT
5.8
Charakteristische Funktionen
5.8 Satz (Multiplikationsformel für charakteristische Funktionen)
Sind X1 , . . . , Xn unabhängige Zufallsvariablen, so gilt:
ϕX1 +...+Xn (t) =
n
Y
ϕXj (t),
j=1
t ∈ R.
Beweis: Sei o.B.d.A. n = 2 (warum?) und kurz X := X1 , Y := X2 gesetzt.
Die Multiplikationsformel E(U V ) = (EU )(EV ) für reelle unabhängige
Zufallsvariablen überträgt sich durch Zerlegung in Real- und Imaginärteil
unmittelbar auf C-wertige Zufallsvariablen. (!)
Mit X und Y sind auch eitX und eitY unabhängig. Es folgt
ϕX+Y (t) = E eit(X+Y ) = E eitX eitY
= E eitX E eitY
=
ϕX (t) ϕY (t),
t ∈ R.
Norbert Henze, KIT
5.9
Charakteristische Funktionen
5.9 Satz (Umkehrformeln)
Es sei X eine Zufallsvariable mit charakteristischer Funktion ϕ. Dann gelten:
a) Sind a, b ∈ R mit a < b, so gilt:
Z T −ita −itb
1
P(X = a)
P(X = b)
e
−e
lim
ϕ(t) dt =
+P(a < X < b)+
.
T →∞ 2π −T
it
2
2
Z ∞
b) Gilt
|ϕ(t)| dt < ∞,
−∞
so besitzt X die stetige beschränkte λ1 -Dichte
Z ∞
1
e−itx ϕ(t) dt,
f (x) =
2π −∞
x ∈ R.
5.10 Korollar (Eindeutigkeitssatz)
Es seien X, Y Zufallsvariablen mit charakt. Funktionen ϕX bzw. ϕY . Dann gilt:
PX = PY ⇐⇒ ϕX = ϕY .
Beweis: ⇐=“: Seien F und G die VF’en von X bzw. Y , C(F ) := {t ∈ R : F
”
stetig in t}. a) =⇒ F (b)−F (a) = G(b)−G(a) ∀a, b ∈ C(F ) ∩ C(G), a < b.
R \ C(F ) und R \ C(G) abzählbar, rechtss. Stetigkeit =⇒ F = G.
Norbert Henze, KIT
5.10
Charakteristische Funktionen
Beweis von Satz 5.9: a): Sei für T > 0
Z T −ita −itb
1
e
−e
I(T ) :=
ϕ(t) dt
2π −T
it
Z T −ita −itb Z ∞
e
−e
1
itx X
e P (dx) dt.
=
2π −T
it
−∞
Z b
−ita −itb e
−e
−itξ
e
dξ ≤ b − a. Satz von Fubini =⇒
Beachte: = it
a
I(T )
=
Z
∞
−∞
=
1
π
Z
Sei
S(T ) :=
1
2π
|
T
0
Z
0
Z
T
0
Z
T
−T
eit(x−a) −eit(x−b)
dt PX (dx).
it
{z
}
sin(t(x − a)) − sin(t(x − b))
dt
t
T
sin x
dx,
x
T ≥0
sin(ϑt)
dt = sgn(ϑ) S(T |ϑ|),
t
=⇒
ϑ ∈ R.
Norbert Henze, KIT
5.11
Charakteristische Funktionen
Memo: S(T ) =
Es folgt I(T ) =
wobei
Z
T
0
Z
sin x
dx,
x
∞
Z
T
0
sin(ϑt)
dt = sgn(ϑ) S(T |ϑ|)
t
g(x, T ) PX (dx),
−∞
sgn(x − a)S(T |x − a|) − sgn(x − b)S(T |x − b|)
.
π
Die Funktion g ist beschränkt, und wegen
π
(Integral von Dirichlet, s. Kap. 1)
lim S(T ) =
T →∞
2
g(x, T ) :=
ergibt sich:


0, falls x < a oder x > b,
1
ψa,b (x) := lim g(x, T ) =
, falls x = a oder x = b,
2
T →∞


1, falls a < x < b.
DOM =⇒
lim I(T ) =
T →∞
Z
∞
−∞
ψa,b (x) PX (dx) =
1
1 X
P ({a}) + PX ({b}) + PX ((a, b)).
2
2
Norbert Henze, KIT
5.12
Charakteristische Funktionen
Z ∞
Memo: Z.z.: Falls
|ϕ(t)|dt < ∞, so hat X die stetige beschränkte
−∞
Z ∞
1
Dichte f (x) =
e−itx ϕ(t)dt, x ∈ R.
2π −∞
b): Die Funktion f ist beschränkt. Wegen
Z ∞
−itx
1
e
− e−ity |ϕ(t)| dt
|f (x) − f (y)| ≤
2π −∞
ist f stetig (DOM!). Für a, b ∈ R mit a < b gilt
Z b
Z ∞
Z b
1
f (x) dx =
e−itx ϕ(t) dt dx
a
a 2π −∞
Z ∞
Z b
1
=
(Fubini)
ϕ(t)
e−itx dx dt
2π −∞
a
Z T
1
e−ita −e−itb
dt
=
lim
ϕ(t)
T →∞ 2π −T
it
1
1
=
P(X = a) + P(a < X < b) + P(X = b)
2
2
(nach a))
=⇒ f (x) ∈ R, P(X = b) = 0 ∀b ∈ R und PX = f λ1 .
Norbert Henze, KIT
5.13
Charakteristische Funktionen
5.11 Korollar (Charakterisierung der nullsymmetrischen Verteilungen)
Für eine Zufallsvariable X gilt:
X ∼ −X ⇐⇒ ϕX (t) ∈ R ∀ t ∈ R.
Beweis: Übungsaufgabe!
5.12 Korollar (Additionsgesetze)
Es seien X und Y unabhängige Zufallsvariablen. Dann gelten:
a) X ∼ N(µ, σ 2 ), Y ∼ N(ν, τ 2 ) =⇒ X + Y ∼ N(µ + ν, σ 2 + τ 2 ).
b) X ∼ Po(λ), Y ∼ Po(µ) =⇒ X + Y ∼ Po(λ + µ).
c) X ∼ Bin(m, p), Y ∼ Bin(n, p) =⇒ X + Y ∼ Bin(m + n, p).
Beweis: a) Es gelten
σ 2 t2
ϕX (t) = eiµt · exp −
,
2
τ 2 t2
ϕY (t) = eiνt · exp −
.
2
Multiplikationsformel und Eindeutigkeitssatz liefern die Behauptung.
Analog folgen b) und c).
Norbert Henze, KIT
5.14
Charakteristische Funktionen
5.13 Satz (Konzentrations-Ungleichung von Lévy)
Sei X eine Zufallsvariable mit charakteristischer Funktion ϕ. Dann gilt für jedes
a > 0:
Z
1
7 a
P |X| ≥
≤
(1 − Re ϕ(t)) dt.
a
a 0
1
sin u
≤ sin 1 für |u| ≥ 1 und 1 − sin 1 ≥
Beweis: Es gilt
u
7
Z
Z Z ∞
1 a
1 a
=⇒
1−
(1 − Re ϕ(t)) dt =
cos(tx) PX (dx) dt
a 0
a 0
−∞
Z ∞ Z a
1
=
(1 − cos(tx)) dt PX (dx)
−∞ a 0
Z ∞ sin(ax)
=
1−
PX (dx)
ax
−∞
Z
sin(ax)
≥
1−
PX (dx)
ax
{|x|≥1/a}
Z
≥ (1 − sin 1)
1 PX (dx)
{|x|≥1/a}
≥
1
1
P |X| ≥
.
7
a
Norbert Henze, KIT
5.15
Charakteristische Funktionen
5.14 Abschließende Bemerkungen
a) Falls PX = f λ1 , so gilt lim|t|→∞ ϕX (t) = 0 (Riemann-Lebesgue-Lemma).
Beweisidee: Approximiere
f durch eine Elementarfunktion. Letztlich
R
kommt es nur auf eitx 1[a,b] (x) dx an. Beachte:
Z
Z b
1 ita
e − eitb → 0 bei t → ±∞.
eitx 1[a,b] (x) dx =
eitx dx =
it
a
b) Falls |ϕX (t)| = 1 für ein t 6= 0, so ist X diskret verteilt (auf äquidistant
liegenden Punkten, Übungsaufgabe).
c) In der Vorlesung Einführung in die Stochastik wurde für eine N0 -wertige
Zufallsvariable X die (wahrscheinlichkeits-)erzeugende Funktion
∞
X
P(X = k)sk ,
|s| ≤ 1,
gX (s) :=
k=0
eingeführt. Beachte: gX (s) = E sX , ϕX (t) = E eitX .
d) Für eine nichtnegative Zufallsvariable X (d.h. P(X ≥ 0) = 1) arbeitet
man oft mit der sog. Laplace-Transformierten
h
i
LX (λ) := E e−λX , λ ≥ 0.
Norbert Henze, KIT
5.16
Verteilungskonvergenz
6 Verteilungskonvergenz
Seien X, X1 , X2 , . . . reelle Zufallsvariablen auf einem W-Raum (Ω, A, P)
mit Verteilungsfunktionen F, F1 , F2 , . . ..
Für eine Funktion G : Rk → Rs sei C(G) := {x ∈ Rk : G stetig an der Stelle x}
die Menge der Stetigkeitsstellen von G.
6.1 Definition (Verteilungskonvergenz)
D
Xn −→ X :⇐⇒
lim Fn (x) = F (x) für jedes x ∈ C(F ).
n→∞
In Worten: (Xn ) konvergiert in Verteilung gegen X.
PX heißt Grenzverteilung (asymptotische Verteilung) von (Xn ) bzw. von (PXn ).
Beachte: Es finden sich auch die Schreibweisen
D
Fn −→ F,
D
PXn −→ PX ,
D
Xn −→ PX .
D
Offenbar gilt Xn −→ X ⇐⇒ lim PXn ((−∞, x]) = PX ((−∞, x]) ∀x ∈ C(F ).
n→∞
Norbert Henze, KIT
6.1
Verteilungskonvergenz
D
Memo: Xn −→ X :⇐⇒ limn→∞ Fn (x) = F (x) für jedes x ∈ C(F ).
6.2 Bemerkungen
D
D
D
a) Aus Xn −→ X und Xn −→ Y folgt X = Y (:⇐⇒ PX = PY ).
D
D
Beachte: Xn −→ X, Xn −→ Y =⇒ F (x) = G(x) ∀x ∈ C(F ) ∩ C(G)
=⇒ F = G (warum?).
b) Falls F in Definition 6.1 stetig, so gilt (Übungsaufgabe!):
D
Xn −→ X ⇐⇒ sup Fn (x) − F (x) → 0
(Satz von Pólya)
x∈R
D
c) Warum nur Stetigkeitsstellen von F in Definition von Xn −→ X?
Betrachte (Xn ) und (Yn ) mit
1
1
= P Yn = −
= 1,
P Xn =
n
n
n ≥ 1.
Norbert Henze, KIT
6.2
Verteilungskonvergenz
D
D
Es gelten Xn −→ X, Yn −→ X, wobei P(X = 0) = 1, denn:
1
Fn (x)
•
◦
1/n
•
x
Gn (x)
◦
−1/n
x
Es gelten:
Fn (x) → 1 für x > 0,
Fn (x) → 0 für x ≤ 0,
Gn (x) → 1 für x ≥ 0,
Gn (x) → 0 für x < 0,
F (x) = 1 für x ≥ 0,
F (x) = 0 für x < 0.
Keine Konvergenz von (Fn (x)) für x = 0!
Norbert Henze, KIT
6.3
Verteilungskonvergenz
6.3 Beispiel (Gumbelsche Extremwertverteilung)
Seien Y1 , Y2 , . . . u.i.v. mit Exponentialverteilung Exp(1), also
P(Y1 ≤ t) = 1 − e−t ,
t ≥ 0,
und P(Y1 ≤ t) = 0, t < 0.
Sei Xn := max(Y1 , . . . , Yn ) − log n, n ≥ 1.
Für x ∈ R gilt
Fn (x)
:=
=
=
=
=
P(Xn ≤ x) = P( max(Y1 , . . . , Yn ) − log n ≤ x)
P(max(Y1 , . . . , Yn ) ≤ x + log n)
!
n
n
o
\
n
P(Y1 ≤ x + log n)
max Yj ≤ u =
{Yj ≤ u}
1≤j≤n
(1 − exp (−(x + log n)))
n
e−x
,
1−
n
also lim Fn (x) =: G(x), x ∈ R,
n→∞
n
j=1
(falls x + log n ≥ 0)
wobei G(x) := exp −e−x .
G heißt Verteilungsfunktion der Extremwertverteilung von Gumbel.
Norbert Henze, KIT
6.4
Verteilungskonvergenz
Memo: Y1 , Y2 , . . . u.i.v. ∼ Exp(1),
Xn = max Yj − log n
1≤j≤n
D
Xn −→ X, wobei P(X ≤ x) = G(x), x ∈ R.
exp(−(x + e−x )) = G′ (x)
.3
.2
.1
−3
−2
−1
0
1
2
3
4
5
x
Dichte der Gumbelschen Extremwertverteilung
Norbert Henze, KIT
6.5
Verteilungskonvergenz
6.4 Beispiel (Zentraler Grenzwertsatz von de Moivre-Laplace)
Sei Sn ∼ Bin(n, p), 0 < p < 1. Dann gilt
Sn − np
D
p
−→ N(0, 1)
np(1 − p)
bei n → ∞.
Beweis: In größerer Allgemeinheit später.
n = 100
−3
−2
−1
0
1
2
3
Histogramm der standardisierten Binomialverteilung Bin(100, 0.3) mit Dichte
der Standardnormalverteilung
Norbert Henze, KIT
6.6
Verteilungskonvergenz
6.5 Beispiel (Gesetz seltener Ereignisse)
Sei Xn ∼ Bin(n, pn ), n ≥ 1, wobei limn→∞ npn = λ, 0 < λ < ∞. Dann gilt
D
Xn −→ Po(λ).
Beachte (vgl. Vorlesung Einführung in die Stochastik):
Für jedes k ∈ N0 gilt für n ≥ k
!
n k
pn (1 − pn )n−k
P(Xn = k) =
k
=
→
=
1 n(n − 1) . . . (n − k + 1)
npn n
k
−k
(np
)
(1
−
p
)
1
−
n
n
k!
nk
n
1
k
−λ
·1·λ ·1·e
k!
P(X = k),
wobei X ∼ Po(λ). Wegen P(Xn ≤ x) =
⌊x⌋
X
k=0
D
P(Xn = k) folgt Xn −→ X.
Norbert Henze, KIT
6.7
Verteilungskonvergenz
6.6 Satz (Aus stochastischer Konvergenz folgt Verteilungskonvergenz)
D
P
a) Aus Xn −→ X folgt Xn −→ X.
b) Die Umkehrung gilt, wenn X eine Einpunktverteilung besitzt.
Beweis: a) Seien Fn (x) = P(Xn ≤ x), F (x) = P(X ≤ x), ε > 0. ∆-Ungl. =⇒
{X ≤ x − ε} ⊂ {Xn ≤ x} ∪ {|Xn − X| ≥ ε},
x ∈ R, (!)
=⇒
F (x − ε) ≤ Fn (x) + P(|Xn − X| ≥ ε)
=⇒
F (x − ε) ≤ lim inf Fn (x).
n→∞
Analog: lim sup Fn (x) ≤ F (x + ε). ε ↓ 0 =⇒ Fn (x) → F (x) ∀x ∈ C(F ).
n→∞
b) Sei P(X = a) = 1. Sei ε > 0 beliebig =⇒
P(|Xn − X| ≥ ε) = P(|Xn − a| ≥ ε) = P(Xn ≤ a − ε) + P(Xn ≥ a + ε)
≤ Fn (a − ε) + 1 − Fn (a + ε/2). (warum ε/2 und nicht ε?)
Wegen a − ε ∈ C(F ), a + ε/2 ∈ C(F ) (warum?) sowie F (a − ε) = 0,
P
F (a + ε/2) = 1 folgt P(|Xn − X| ≥ ε) → 0, also Xn −→ X.
Norbert Henze, KIT
6.8
Verteilungskonvergenz
Lp
f.s.
Xn −→ X
Xn −→ X
P
Xn −→ X
D
Xn −→ X
Konvergenzbegriffe für Zufallsvariablen in ihrer Hierarchie
Norbert Henze, KIT
6.9
Verteilungskonvergenz
6.7 Satz (Lemma von Sluzki)
Es seien X, X1 , X2 , . . . ; Y1 , Y2 , . . . reelle Zufallsvariablen auf einem W-Raum
D
P
(Ω, A, P) mit Xn −→ X und Yn −→ a für ein a ∈ R. Dann gelten:
D
a) Xn + Yn −→ X + a,
D
b) Xn Yn −→ aX.
Beweis: a) Seien F die Verteilungsfkt. (VF) von X, ε > 0 und t ∈ R bel. =⇒
P(Xn + Yn ≤ t)
=
≤
P(Xn + Yn ≤ t, |Yn − a| > ε)
+P(Xn + Yn ≤ t, |Yn − a| ≤ ε)
P(|Yn − a| > ε) + P(Xn ≤ t − a + ε).
P
Falls t − a + ε ∈ C(F ), so folgt wegen Yn −→ a
lim sup P(Xn + Yn ≤ t) ≤ F (t − a + ε).
n→∞
Beachte: P(X + a ≤ t) = F (t − a). Folg.: t Stetigkeitsst. der VF von X + a
⇐⇒ t − a ∈ C(F ). Falls ε = εk ↓ 0 mit x − a + εk ∈ C(F ), so
lim sup P(Xn + Yn ≤ t) ≤ P(X + a ≤ t).
n→∞
Norbert Henze, KIT
6.10
Verteilungskonvergenz
D
P
D
Memo: Vorauss.: Xn −→ X, Yn −→ a. Beh.: Xn + Yn −→ X + a.
Bereits gezeigt: Falls t ∈ C (FX+a ), so:
lim sup P(Xn + Yn ≤ t) ≤ P(X + a ≤ t).
n→∞
Analog ergibt sich für t − a ∈ C(F )
lim inf P(Xn + Yn ≤ t) ≥ P(X + a ≤ t).
n→∞
(!)
Insgesamt folgt lim P(Xn + Yn ≤ t) = P(X + a ≤ t)
n→∞
für jedes t mit t − a ∈ C(F ) und damit a).
b) Übungsaufgabe!
Norbert Henze, KIT
6.11
Verteilungskonvergenz
Achtung! Es gelten:
f.s.
f.s.
=⇒
Xn + Yn −→ X + Y,
P
P
=⇒
Xn + Yn −→ X + Y,
Xn −→ X und Yn −→ Y
Xn −→ X und Yn −→ Y
D
f.s.
P
D
D
aber i. Allg. folgt aus Xn −→ X und Yn −→ Y nicht Xn + Yn −→ X + Y .
Gegenbeispiel: Sei
X ∼ N(0, 1),
Xn := Yn := X, n ≥ 1,
Y := −X (∼ N(0, 1)).
D
D
D
Es gelten Xn −→ X, Yn −→ Y , Xn + Yn = 2X −→ 2X ∼ N(0, 4),
aber X + Y = 0.
Memo: F −1 (p) := inf{x ∈ R : F (x) ≥ p},
U ∼ U(0, 1) =⇒ F −1 (U ) ∼ F
Interessanterweise besteht ein direkter Zusammenhang zwischen Konvergenz in
Verteilung und fast sicherer Konvergenz:
Norbert Henze, KIT
6.12
Verteilungskonvergenz
6.8 Satz (Skorokhod)
Es seien X, X1 , X2 , . . . reelle Zufallsvariablen auf einem W-Raum (Ω, A, P) mit
D
e Zufallsvae A,
e P)
Xn −→ X. Dann existieren auf einem geeigneten W-Raum (Ω,
riablen Y, Y1 , Y2 , . . . mit
e Y = PX ,
P
D
also insbesondere Yn −→ Y , und
eYn = PXn , n ≥ 1,
P
(6.1)
e
lim Yn = Y P-fast
sicher.
(6.2)
n→∞
Beweis: Seien F, F1 , F2 , . . . die Verteilungsfunktionen von X, X1 , X2 , . . ..
Wir setzen
e A,
e P)
e := ((0, 1), B ∩ (0, 1), λ1|(0,1) )
(Ω,
e
und Y (p) := F −1 (p), Yn (p) := Fn−1 (p), n ≥ 1, p ∈ Ω.
Nach dem Satz über die Quantiltransformation (vgl. ES, Satz 25.21) folgt
(6.1).
Aus Fn (x) → F (x) ∀x ∈ C(F ) folgt Fn−1 (p) → F −1 (p) ∀p ∈ C(F −1 ) (Ü!).
Da R\C(F −1 ) abzählbar ist (warum?), folgt (6.2).
Norbert Henze, KIT
6.13
Verteilungskonvergenz
6.9 Satz (Abbildungssatz, Continuous mapping theorem)
Seien X, X1 , X2 , . . . Zufallsvariablen auf (Ω, A, P) und h : R → R eine messbare
Funktion, die PX -fast überall stetig ist, d.h. es gelte PX (C(h)) = 1. Dann gilt:
D
D
Xn −→ X =⇒ h(Xn ) −→ h(X).
e und Yn = Fn−1 , Y = F −1 wie in 6.8. Es existiert eine
e A,
e P)
Beweis: Seien (Ω,
e 0 ∈ Ae mit P(
e Ω
e 0 ) = 1 und
Menge Ω
e 0.
lim Yn (p) = Y (p) für jedes p ∈ Ω
n→∞
eY (C(h)) = P(Y
e −1 (C(h))).
Nach Voraussetzung gilt: 1 = PX (C(h)) = P
e 1 := Ω
e 0 ∩ Y −1 (C(h)). Dann gilt P(
e Ω
e 1 ) = 1.
Sei Ω
e
e 1 gilt h(Yn (p)) → h(Y (p)), also h(Yn ) → h(Y ) P-fast
Für jedes p ∈ Ω
sicher
D eh(Y )
eh(Yn ) −→
und damit P
P
. (warum?)
D
e h(Yn ) = Ph(Xn ) , P
eh(Y ) = Ph(X) (warum?) folgt h(Xn ) −→
Wegen P
h(X).
Norbert Henze, KIT
6.14
Verteilungskonvergenz
D
Warnung! Aus Xn −→ X folgt im Allgemeinen nicht EXn → EX.
Gegenbeispiel: Seien X, X1 , X2 , . . . ∼ N(0, 1).
D
Damit gelten trivialerweise Xn −→ X und EXn → EX.
Sei weiter Yn mit P(Yn = n2 ) :=
1
1
und P(Yn = 0) := 1 − .
n
n
D
P
Es gilt Yn −→ 0 und damit (Sluzki) Xn + Yn −→ X, aber
E(Xn + Yn ) = n → ∞.
Beachte: Seien X, X1 , X2 , . . . mit Verteilungsfunktionen F, F1 , F2 , . . ..
Sei
HF := 1(−∞,x] : x ∈ C(F ) .
Wegen Fn (x) = PXn ((−∞, x]) = E 1(−∞,x] (Xn ) (u. dgl. für F ) folgt:
D
Xn −→ X ⇐⇒
lim E h(Xn ) = E h(X) ∀h ∈ HF .
n→∞
Die Funktionen aus HF sind (im Gegensatz zu idR ) beschränkt.
Norbert Henze, KIT
6.15
Verteilungskonvergenz
Im Folgenden seien
Cb := {h : R → R : h stetig und beschränkt},
Cb,∞ := {h ∈ Cb : limx→±∞ h(x) existiert}.
Beachte: Die Funktionen aus Cb,∞ sind gleichmäßig stetig.
6.10 Satz (Kriterium für Verteilungskonvergenz)
Die folgenden Aussagen sind äquivalent:
D
a) Xn −→ X,
b) lim E h(Xn ) = E h(X) ∀h ∈ Cb ,
n→∞
c) lim E h(Xn ) = E h(X) ∀h ∈ Cb,∞ .
n→∞
Beachte: Seien F die Verteilungsfunktion von X und
HF := {1(−∞,x] : x ∈ C(F )}.
D
Damit: Xn −→ X ⇐⇒ limn→∞ Eh(Xn ) = Eh(X) ∀ h ∈ HF .
Beweis: b) =⇒ c)“: Klar, da Cb,∞ ⊂ Cb .
”
Norbert Henze, KIT
6.16
Verteilungskonvergenz
D
Memo: a) Xn −→ X,
b) Eh(Xn ) → Eh(X) ∀ h ∈ Cb .
a) =⇒ b)“: Seien h ∈ Cb beliebig und
”
K := sup |h(x)|, Yn := h(Xn ),
Y := h(X).
x∈R
Zu zeigen: EYn → EY .
Sei Gn (x) := P(Yn ≤ x), n ≥ 1, und G(x) := P(Y ≤ x), x ∈ R.
D
D
Aus Xn −→ X folgt Yn −→ Y (warum?) und damit Gn → G λ1 -f.ü. (warum?)
Wegen |Yn | ≤ K und |Y | ≤ K ergibt sich
Z K
Z
EYn =
(1 − Gn (x)) dx −
→
Z
0
K
0
(1 − G(x)) dx −
Z
0
Gn (x) dx
(Darstell.formel)
−K
0
G(x) dx = EY.
(warum?)
−K
Norbert Henze, KIT
6.17
Verteilungskonvergenz
D
Memo: Zu zeigen: E h(Xn ) → E h(X) ∀h ∈ Cb,∞ =⇒ Xn −→ X
D
Xn −→ X ⇐⇒ E h(Xn ) → E h(X) ∀h ∈ HF , HF = {1(−∞,x] : x ∈ C(F )}
c) =⇒ a)“: Idee: Approximiere 1(−∞,x] ∈ HF durch h ∈ Cb,∞ . Sei ε > 0 bel.
”
Sei hε (t) := 1 für t ≤ x − ε, hε (t) := 0 für t ≥ x und lineare Interpolation.
1(−∞,x] (t)
•
x−ε x
hε (t)
t
x−ε x
t
Es gilt 1(−∞,x] ≥ hε ≥ 1(−∞,x−ε] und damit
Fn (x)
=
→
E1(−∞,x] (Xn ) ≥ E hε (Xn )
E hε (X) ≥ E1(−∞,x−ε] (X) = F (x − ε),
also lim inf Fn (x) ≥ F (x − ε). Analog (!): lim sup Fn (x) ≤ F (x + ε).
n→∞
n→∞
Norbert Henze, KIT
6.18
Verteilungskonvergenz
6.11 Satz (Auswahlsatz von Helly)
Zu jeder Folge (Fn ) von Verteilungsfunktionen gibt es eine Teilfolge (Fnk ) und
eine monoton wachsende, rechtsseitig stetige Funktion F : R → [0, 1] mit
lim Fnk (x) = F (x)
k→∞
∀x ∈ C(F ).
(6.3)
Beweis: Sei Q =: {r1 , r2 , . . .}. Satz von Bolzano-Weierstraß und
Diagonalfolgen-Bildung (Cantor) =⇒ ∃ Teilfolge (Fnk ), sodass
G(r) := lim Fnk (r),
k→∞
r ∈ Q,
existiert. Setze
F (x) := inf{G(r) : r ∈ Q, r > x}.
Dann ist F : R → [0, 1] wohldefiniert, monoton wachsend.
F ist rechsseitig stetig, denn:
Seien x ∈ R und ε > 0 beliebig. Es gibt ein r ∈ Q mit x < r und
G(r) < F (x) + ε.
Für jedes y ∈ R mit x ≤ y < r gilt dann F (y) ≤ G(r) < F (x) + ε.
√
Norbert Henze, KIT
6.19
Verteilungskonvergenz
r ∈ Q.
Memo: G(r) = lim Fnk (r),
k→∞
Memo: F (x) := inf{G(r) : r ∈ Q, r > x}.
Sei x ∈ C(F ). Behauptung:
F (x) = lim Fnk (x).
k→∞
Beweis: Wähle zu ε > 0 ein y < x mit F (x) − ε < F (y).
Wähle dann r, s ∈ Q mit y < r < x < s und G(s) < F (x) + ε. Wegen
F (x) − ε < G(r) ≤ G(s) < F (x) + ε
und Fn (r) ≤ Fn (x) ≤ Fn (s), n ≥ 1, folgt dann
F (x) − ε
<
G(r) = lim Fnk (r) ≤ lim inf Fnk (x)
≤
lim sup Fnk (x) ≤ lim Fnk (s) = G(s)
<
F (x) + ε.
k→∞
k→∞
k→∞
k→∞
ε ↓ 0 =⇒ limk→∞ Fnk (x) = F (x).
Norbert Henze, KIT
6.20
Verteilungskonvergenz
Achtung! Die Funktion F im Satz von Helly muss keine Verteilungsfunktion
sein! Betrachte Fn := 1[n,∞) , n ≥ 1.
−2
−1
0
Fn (x)
•
•
•
•
•
•
1
2
3
4
5
6
x
Es gilt Fn → F ≡ 0.
Masse ist nach Unendlich abgewandert“.
”
Wie stellt man sicher, das kein derartiger Masseverlust“ stattfindet?
”
Norbert Henze, KIT
6.21
Verteilungskonvergenz
6.12 Definition (Straffheit)
Es sei Q =
6 ∅ eine Menge von Wahrscheinlichkeitsmaßen auf B. Q heißt straff,
falls gilt: Zu jedem ε > 0 gibt es eine kompakte Menge K = Kε ⊂ R mit
Q(K) ≥ 1 − ε für jedes Q ∈ Q.
6.13 Beispiele
a) Jede endliche Menge Q ist straff (Übungsaufgabe).
b) Seien X1 , X2 , . . . Zufallsvariablen mit existierenden Erwartungswerten.
Gilt supn∈N E|Xn | < ∞, so ist PXn : n ∈ N straff.
Beweis: Sei E|Xn | ≤ M < ∞, n ≥ 1. Für c > 0 gilt dann
M
E|Xn |
≤
≤ ε,
c
c
Setze K := [−c, c]. K ist kompakt, und es gilt
P(|Xn | > c) ≤
falls c :=
M
.
ε
PXn (K) = P(|Xn | ≤ c) ≥ 1 − ε, n ≥ 1.
Norbert Henze, KIT
6.22
Verteilungskonvergenz
6.14 Beispiel (Translationen einer Verteilung)
Es seien (Ω, A, P) ein W-Raum und X : Ω → R eine Zufallsvariable.
Weiter sei (an ) eine reelle Zahlenfolge. Dann gilt:
X+an
P
: n ≥ 1 ist straff ⇐⇒ (an ) ist beschränkt.
Beweis: ⇐=“: Es gelte |an | ≤ a für jedes n ≥ 1. Sei ε > 0 beliebig.
”
Es existiert ein c ∈ (0, ∞) mit PX ([−c, c]) ≥ 1 − ε. (warum?)
Für jedes n ≥ 1 folgt dann
1 − ε ≤ PX ([−c, c]) ≤ PX+an ([−(c + a), c + a]).
=⇒“: Angenommen, die Folge (an ) sei nicht beschränkt. O.B.d.A. gelte
”
an → ∞. Sei [−c, c] ein kompaktes Intervall. Es gilt
P(X+an ∈ [−c, c]) = P(X ∈ [−c−an , c−an ]) ≤ P(X ≤ c−an ) → 0 bei n → ∞.
Damit kann PX+an : n ≥ 1 nicht straff sein. (warum?)
Norbert Henze, KIT
6.23
Verteilungskonvergenz
6.15 Definition (relative Kompaktheit)
Es sei Q 6= ∅ eine Menge von Wahrscheinlichkeitsmaßen auf B.
Q heißt relativ kompakt, falls gilt: Zu jeder Folge (Qn ) aus Q existieren eine
/ Q!) mit
Teilfolge (Qnk ) und ein Wahrscheinlichkeitsmaß Q (u.U. Q ∈
D
Qnk −→ Q
für k → ∞.
(6.4)
D
6.16 Folgerung Gilt Xn −→ X, so ist PXn : n ≥ 1 relativ kompakt.
6.17 Beispiel
Jede endliche Menge Q von Wahrscheinlichkeitsmaßen ist relativ kompakt.
6.18 Satz (Straffheit und relative Kompaktheit sind äquivalent)
Für eine Menge Q =
6 ∅ von Wahrscheinlichkeitsmaßen auf B sind äquivalent:
a) Q ist straff,
b) Q ist relativ kompakt.
Norbert Henze, KIT
6.24
Verteilungskonvergenz
Memo: a) Q ist straff ⇐⇒ b) Q ist relativ kompakt.
Beweis: a) =⇒ b)“: Sei (Qn ) eine beliebige Folge aus Q.
”
Sei Fn (x) := Qn ((−∞, x]), x ∈ R, die Verteilungsfunktion von Qn , n ≥ 1.
Auswahlsatz von Helly (Satz 6.11) =⇒ ∃ Teilfolge (Fnk ), ∃F : R → [0, 1],
F monoton wachsend und rechtsseitig stetig, mit Fnk (x) → F (x) ∀x ∈ C(F ).
Vorauss. =⇒ zu beliebigem ε > 0 existieren a, b ∈ R mit a < b und
Qn ((a, b]) = Fn (b) − Fn (a) ≥ 1 − ε für jedes n ≥ 1.
′
′
Seien a , b ∈ C(F ) mit a′ < a und b′ > b. Dann folgt
1−ε
≤
Qnk ((a, b]) ≤ Qnk ((a′ , b′ ])
→
F (b′ ) − F (a′ )
=
Fnk (b′ ) − Fnk (a′ )
=⇒ F ist Verteilungsfunktion.
D
Sei Q das zu F geh. W-Maß. Dann gilt Qnk −→ Q.
Norbert Henze, KIT
6.25
Verteilungskonvergenz
Memo: Noch zu zeigen: Q relativ kompakt =⇒ Q straff.
b) =⇒ a)“: Annahme: Q ist nicht straff. Dann existieren ein ε > 0 und eine
”
Folge (Qn ) aus Q mit
Qn ([−n, n]) < 1 − ε,
n ≥ 1.
Vorauss. =⇒ es existieren eine Teilfolge (Qnk ) von (Qn ) und ein W-Maß Q
D
mit Qnk −→ Q für k → ∞.
Wir wählen Stetigkeitsstellen a, b der Verteilungsfunktion von Q mit
Q((a, b]) ≥ 1 −
ε
.
2
(warum geht das?)
(6.5)
Für hinreichend großes k gilt
1−ε
>
Qnk ([−nk , nk ])
≥
Qnk ((a, b])
→
Q((a, b])
für k → ∞.
Dies ist ein Widerspruch zu (6.5)!
Norbert Henze, KIT
6.26
Verteilungskonvergenz
Memo: Q straff ⇐⇒ Q relativ kompakt
6.19 Satz (über Straffheit und Verteilungskonvergenz)
Seien X, X1 , X2 , . . . Zufallsvariablen auf (Ω, A, P). Dann gelten:
D
a) Aus Xn −→ X folgt die Straffheit von PXn : n ∈ N .
b) Ist PXn : n ∈ N straff, und existiert ein W-Maß Q, sodass jede
(überhaupt) verteilungskonvergente Teilfolge (Xnk ) in Verteilung gegen Q
D
konvergiert, so folgt Xn −→ Q.
Beweis: a) folgt, da eine verteilungskonvergente Folge relativ kompakt ist.
D
b) Sei Fn (t) = P(Xn ≤ t), F (t) = P(X ≤ t). Annahme: Xn 6−→ Q =⇒
∃x ∈ C(F ) ∃ε > 0 ∃ TF (Fnk ) von (Fn ) mit
Fn (x) − F (x) > ε, k ≥ 1.
(6.6)
k
Xn
Xn
: n ∈ N ist straff =⇒ P k : k ∈ N ist straff. Satz 6.18
Vorauss. =⇒ P
D
=⇒ ∃ verteil.konvergente TF (Xn′k ) von (Xnk ). Vorauss. =⇒ Xn′k −→ Q.
Insbes. müsste Fn′k (x) → F (x) bei k → ∞ gelten. Widerspruch zu (6.6)!
Norbert Henze, KIT
6.27
Verteilungskonvergenz
6.20 Bemerkungen
a) (Xn ) straff :⇐⇒ {PXn : n ≥ 1} straff.
b) (Xn ) stochastisch beschränkt :⇐⇒ (Xn ) straff.
c) Xn = OP (1) :⇐⇒ (Xn ) straff.
n
d) Xn = OP (an ) :⇐⇒ X
straff.
an
(an 6= 0 ∀n)
P
e) Xn = oP (1) :⇐⇒ Xn −→ 0.
f) Xn = oP (an ) :⇐⇒
Xn
an
P
−→ 0.
(an 6= 0 ∀n)
Die Notation OP , oP wird als stochastische Landau-Notation bezeichnet.
Beachte: Für reelle Zahlenfolgen (an ), (bn ), bn 6= 0, gelten analoge Notationen.
an = O(1) :⇐⇒ (an ) beschränkt,
an = O(bn ) :⇐⇒ abnn beschränkt,
an = o(1) :⇐⇒ limn→∞ an = 0,
an = o(bn ) :⇐⇒ limn→∞ an /bn = 0.
Norbert Henze, KIT
6.28
Verteilungskonvergenz
6.21 Satz (Stetigkeitssatz von Lévy-Cramér)
Seien X1 , X2 , . . . Zufallsvariablen mit Verteilungsfunktionen F1 , F2 , . . . und charakteristischen Funktionen ϕ1 , ϕ2 . . .. Dann sind folgende Aussagen äquivalent:
D
a) Es gibt eine Verteilungsfunktion F mit Fn −→ F .
b) Für jedes t ∈ R existiert ϕ(t) := limn→∞ ϕn (t), und die Funktion
ϕ : R → C ist stetig im Nullpunkt.
Falls a) oder b) gilt, so ist ϕ die charakteristische Funktion von F , es gilt also
Z ∞
ϕ(t) =
eitx dF (x),
t ∈ R.
−∞
Beweis:
a) =⇒ b)“:
”
D
Memo: Xn −→ X ⇐⇒ Eh(Xn ) → Eh(X) ∀h ∈ Cb
Memo: ϕn (t) = E eitXn
= E cos(tXn ) + i E sin(tXn ).
Setze h(x) := cos(tx) und h(x) := sin(tx) für festes t ∈ R.
√
Norbert Henze, KIT
6.29
Verteilungskonvergenz
D
Memo: a) : Es gibt eine Verteilungsfunktion F mit Fn −→ F.
Memo: b) : ϕ(t) := limn→∞ ϕn (t) ex. ∀t ∈ R, und ϕ : R → C ist stetig in 0.
b) =⇒ a)“ Nach der Konzentrations-Ungleichung von Lévy gilt für a > 0
”
Z
1
7 a
P |Xn | >
≤
(1 − Re ϕn (t)) dt
{z
}
a
a 0 |
→ 1 − Re ϕ(t)
{z
}
|
Z a
→
(1 − Re ϕ(t)) dt (warum?)
0
ϕ stetig in 0 und ϕ(0) = 1 =⇒ zu ε > 0 ∃ a > 0 mit
Z
7 a
(1 − Re ϕ(t)) dt < ε.
a 0
Es folgt P(|Xn | > 1/a) ≤ ε für hinreichend großes n. Also ist (Xn ) straff
(warum?).
Norbert Henze, KIT
6.30
Verteilungskonvergenz
Memo: Bereits gezeigt: (Xn )n≥1 straff.
D
Satz 6.18 =⇒ ∃ Teilfolge (Xnk ) ∃ W-Maß Q mit Xnk −→ Q.
Sei X eine Zufallsvariable mit Verteilung Q und Verteilungsfunktion F .
Aus a) =⇒ b)“ folgt ϕnk (t) → EeitX =: ψ(t), t ∈ R.
”
Wegen ϕnk → ϕ gilt ϕ = ψ. Damit ist ϕ die CF von X (von F ).
Somit konvergiert jede verteilungskonvergente Teilfolge von (Xn ) gegen Q.
Satz 6.19 b) =⇒ Beh.
6.22 Folgerung (Charakteristische Funktionen und Verteilungskonvergenz)
Es seien X, X1 , X2 , . . . Zufallsvariablen mit charakteristischen Funktionen
ϕ, ϕ1 , ϕ2 , . . .. Dann gilt:
D
Xn −→ X ⇐⇒
lim ϕn (t) = ϕ(t)
n→∞
∀t ∈ R.
Norbert Henze, KIT
6.31
Zentrale Grenzwertsätze
7 Zentrale Grenzwertsätze
Zentrale Grenzwertsätze betreffen die Verteilungkonvergenz von
standardisierten Summen unabhängiger Zufallsvariablen gegen eine
Normalverteilung.
7.1 Satz (Zentraler Grenzwertsatz von Lindeberg-Lévy, 1924)
Seien X1 , X2 , . . . unabhängige identisch verteilte Zufallsvariablen mit EX12 < ∞
und σ 2 := V(X1 ) > 0. Setzen wir a := EX1 , so gilt
Pn
D
j=1 Xj − na
√
−→ N(0, 1) für n → ∞.
σ n
P
Mit Sn := n
j=1 Xj (sog. n-te Partialsumme der Folge (Xk )) und ESn = na
sowie V(Sn ) = nσ 2 nimmt obiges Resultat folgende Gestalt an:
Sn∗ :=
Sn − ESn D
p
−→ N(0, 1)
V(Sn )
für n → ∞.
Botschaft: Für eine u.i.v.-Folge (Xn ) mit EX12 < ∞ und V(X1 ) > 0 ist die
Folge (Sn∗ ) der standardisierten Partialsummen asymptotisch N(0, 1)-verteilt.
Norbert Henze, KIT
7.1
Zentrale Grenzwertsätze
Beachte:
n
1 X Xj − a
Sn − E(Sn )
p
= √
σ
n j=1
V(Sn )
Sn∗ :=
=⇒ o.B.d.A. a = E(X1 ) = 0 , σ 2 = V(X1 ) = 1.
Beweis: Sei
1
x2
,
ϕ(x) := √
exp −
2
2π
x ∈ R.
Sei h ∈ Cb,∞ beliebig.
Memo: Cb,∞ = {h ∈ Cb : limx→±∞ h(x) existiert}.
Zu zeigen:
lim Eh(Sn∗ ) =
n→∞
Z
∞
−∞
Sei
f (x) := h(x) −
Zu zeigen:
h(y)ϕ(y) dy = (Eh(Z), wobei Z ∼ N(0, 1).)
Z
∞
h(y)ϕ(y) dy.
−∞
(Beachte: f ∈ Cb,∞ )
lim Ef (Sn∗ ) = 0.
n→∞
Norbert Henze, KIT
7.2
Zentrale Grenzwertsätze
Memo: f (x) = h(x) −
Z
∞
Sei
g(x) :=
Es gilt:
h(y)ϕ(y) dy.
−∞
Rx
−∞
Zu zeigen: Ef (Sn∗ ) → 0.
f (y)ϕ(y) dy
ϕ(x)
f (x) = g ′ (x) − xg(x)
,
x ∈ R.
(nachrechnen!)
(7.1)
(7.2)
In (7.1) Nenner durch x dividieren und l’Hospital anwenden =⇒
limx→±∞ xg(x) existiert. Also ist x 7→ xg(x) gleichmäßig stetig. Wegen (7.2)
und gleichm. Stetigkeit von f ist auch g ′ gleichm. stetig (sogar: g ′ ∈ Cb,∞ ).
Es folgt:
Ef (Sn∗ )
=
=
=
Eg ′ (Sn∗ ) − E (Sn∗ g(Sn∗ ))
!
n
n
1 X
1 X
∗
∗
′
∗
E (Xj g(Sn ))
Xj
Sn = √
Eg (Sn ) − √
n j=1
n j=1
!
Pn
√
X1
j=2 Xj
′
∗
√
Eg (Sn ) − n E X1 g √ +
(warum?)
n
n
| {z }
=: Zn
Norbert Henze, KIT
7.3
Zentrale Grenzwertsätze
Memo:
Ef (Sn∗ )
= Eg
′
(Sn∗ )
−
√
Pn
X1
j=2 Xj
√
nE X1 g √ + Zn , Zn =
n
n
Taylor-Entwicklung um Zn (elementweise auf Ω!) =⇒
X1
X1
X1
X1
g √ + Zn = g(Zn ) + g ′ (Zn ) √ + g ′ Zn + Θn √
− g ′ (Zn ) √ ,
n
n
n
n
|
{z
}
| {z }
∗
= Sn
=: ∆n
wobei |Θn | ≤ 1.
X1 , Zn unabhängig, (warum?) EX1 = 0 und EX12 = 1 =⇒
√
√
X1
=
n E X1 g √ + Zn
n E[X1 g(Zn )] + E[X12 g ′ (Zn )] + E[X12 ∆n ]
n
Ef (Sn∗ )
= E[g ′ (Zn )] + E[X12 ∆n ] =⇒
X1
= E g ′ √ + Zn − g ′ (Zn ) − E[X12 ∆n ]
n
|
{z
}
| {z }
→ 0 (warum?)
→0
Norbert Henze, KIT
7.4
Zentrale Grenzwertsätze
7.2 Satz (von Berry–Esséen, 1941/42)
In der Situation des Satzes von Lindeberg-Lévy gelte E|X1 |3 < ∞. Dann gibt
es eine (von PX1 unabhängige) Konstante C mit
X1 − a 3
Sn − na
C
,
√
√
sup P
≤ x − Φ(x) ≤
·E σ σ n
n
x∈R
wobei
1
0.39894 . . . = √
< C < 0.4748.
2π
√
Beachte: Die Ungleichung C ≥ 1/ 2π folgt durch die Wahl X1 ∼ Bin(1, 1/2).
P
Dann: Maximale Sprunghöhe der Vert.funktion von 2n
j=1 Xj ∼ Bin(2n, 1/2)
ist (mit Stirlingscher Formel)
2n
2
1
1
n
= √ ·√ .
∼ √
22n
πn
2π
2n
Dabei: an ∼ bn :⇐⇒
an
→ 1.
bn
Offene Frage: Kann man C weiter eingrenzen?
Norbert Henze, KIT
7.5
Zentrale Grenzwertsätze
Der ZGWS (Zentrale Grenzwertsatz) von Lindeberg-Lévy ist ein Spezialfall des
ZGWS von Lindeberg–Feller.
Im Folgenden schwächen wir die Voraussetzung der identischen Verteilung ab.
7.3 Dreiecksschemata
Wir betrachten eine Dreiecksschema genannte doppelt-indizierte Folge
Xnj : n ∈ N, j = 1, . . . , kn
von Zufallsvariablen. Dabei seien für jedes n ≥ 2 die Zufallsvariablen
Xn1 , . . . , Xnkn auf dem gleichen (u.U. von n abhängenden) W-Raum definiert
und stochastisch unabhängig. Wir machen die Annahme
2
0 < σnj
:= V(Xnj ) < ∞
(j = 1, . . . , kn )
und setzen anj := E(Xnj ) sowie
2
2
σn2 := σn1
+ . . . + σnk
n
und Sn := Xn1 + . . . + Xnkn . Damit gilt V(Sn ) = σn2 .
Beachte: Eine u.i.v.-Folge (Xn ) liefert ein Dreiecksschema mit
Xnj := Xj ,
j = 1, . . . , n, n ≥ 1.
Norbert Henze, KIT
7.6
Zentrale Grenzwertsätze
Sei
Xnj − anj
,
σn
= 0, j = 1, . . . , kn , sowie
Ynj :=
Es gelten EYnj
Sn∗ :=
Mit
2
:= V(Ynj ) =
τnj
j = 1, . . . , kn .
kn
X
Sn − ESn
p
Ynj .
=
V(Sn )
j=1
2
σnj
V(Xnj )
=
,
2
σn
σn2
j = 1, . . . , kn ,
2
2
= 1.
gilt τn1
+ . . . + τnk
n
7.4 Satz (Zentraler Grenzwertsatz von Lindeberg–Feller)
Ist in obiger Situation eines Dreiecksschemas die sog. Lindeberg-Bedingung
Ln (ε) :=
kn
X
j=1
erfüllt, so folgt
2
E Ynj
1{|Ynj | ≥ ε} → 0
D
Sn∗ −→ N(0, 1)
für jedes ε > 0
(7.3)
für n → ∞.
Norbert Henze, KIT
7.7
Zentrale Grenzwertsätze
2
2
2
Memo: Sn∗ = Yn1 + . . . + Ynkn , τn,j
=1
= V(Ynj ), τn1
+ . . . + τnk
n
Beweis: Wir verwenden Folgerung 6.22. Sei ϕn die CF von Sn∗ . Zu zeigen:
t2
lim ϕn (t) = exp −
n→∞
2
,
t ∈ R.
2
Sei ϕnj die CF von Ynj , und sei ψnj die CF der Verteilung N(0, τnj
). Es gelten
2
kn
Y
t
ψnj (t),
=
exp −
2
j=1
2 2
τnj
t
ψnj (t) = exp −
2
(Additionsgesetz für die Normalverteilung, 5.6 und 5.8). Aus 5.8 folgt
ϕn (t) =
kn
Y
ϕnj (t).
j=1
Sind allg. z1 , . . . , zm , w1 , . . . , wm ∈ C mit |zj |, |wj | ≤ 1, j = 1, . . . , m, so gilt
Y
m
m
Y
X
m
≤
z
−
w
|zj − wj |. (Induktion über m)
j
j
j=1
j=1
j=1
Norbert Henze, KIT
7.8
Zentrale Grenzwertsätze
Es folgt
2
ϕn (t) − e−t /2 =
Y
kn
kn
Y
X
kn
ϕnj (t) − ψnj (t)
ϕ
(t)
−
≤
ψ
(t)
nj
nj
j=1
=
≤
j=1
j=1
kn 2 2
2 2 X
τnj
t
ϕnj (t) − 1 − τnj t
− ψnj − 1 −
2
2
j=1
kn kn 2 2
2 2
X
X
ϕnj (t) − 1 + τnj t +
ψnj (t) − 1 + τnj t 2
2
j=1
j=1
Satz 5.7 mit k = 2 besagt: Falls EZ 2 < ∞, so (mit c = c(t) ∈ (0, ∞))
2 2
3
3
2
ϕZ (t) − 1 − i t EZ + t EZ 2 ≤ E 2t Z ∧ |t| |Z|
2
2!
3!
2
≤ c · E Z (1 ∧ |Z|) .
2 2
2
τnj
t ≤ c · E Ynj
(1 ∧ |Ynj |)
Z := Yn,j =⇒ ϕnj (t) − 1 +
2 2 2
2
τnj
t 2
≤ c · E Znj
Z := Znj ∼ N(0, τnj
) =⇒ ψnj (t) − 1 +
(1 ∧ |Znj |)
2
Norbert Henze, KIT
7.9
Zentrale Grenzwertsätze
Bislang:
2
ϕn (t) − e−t /2 ≤
kn kn 2 2
2 2
X
X
ψnj (t) − 1 + τnj t ϕnj (t) − 1 + τnj t +
2
2 j=1
j=1
|
{z
}
|
{z
}
2
2
≤ c E Ynj
(1 ∧ |Ynj |)
≤ c E Znj
(1 ∧ |Znj |)
Sei ε > 0 beliebig. Memo: Ln (ε) =
Pk n
j=1
2
E Ynj
1{|Ynj | ≥ ε} → 0 ∀ε > 0
Es gilt mit Anj := {|Ynj | < ε} und Bn,j := {|Ynj | ≥ ε}
kn kn
X
X
2
2
2
(1∧|Ynj |)1Bnj
E Ynj
(1∧|Ynj |)1Anj + E Ynj
E Ynj
(1∧|Ynj |) =
|
{z
}
j=1
j=1
≤ε
kn
kn
X
2
2 X
E Ynj
1{|Ynj | ≥ ε}
ε E Ynj
+
≤
j=1
j=1
= ε + Ln (ε).
(warum?)
Lindeberg-Bedingung =⇒ lim sup
n→∞
kn 2 2
X
ϕnj (t) − 1 + τnj t ≤ ε.
2 j=1
Norbert Henze, KIT
7.10
Zentrale Grenzwertsätze
Es bleibt zu zeigen: lim sup
n→∞
Hierbei: Znj ∼
kn
X
j=1
2
N(0, τnj
).
2
E Znj
(1 ∧ |Znj |)
kn
X
j=1
2
E Znj
(1 ∧ |Znj |) = 0.
Beachte: Znj ∼ τnj Z, Z ∼ N(0, 1). Es ist
≤
=
kn
X
j=1
E|Znj |3 =
E|Z|3
kn
X
j=1
=
E|Z|3
kn
X
j=1
E |τnj Z|3
3
τnj
≤ E|Z|3
max
j=1,...,kn
τnj
max
j=1,...,kn
τnj
X
kn
2
τnj
j=1
.
2
2
2
2
Wegen τnj
= EYnj
= E Ynj
1{|Ynj | < ε} + E Ynj
1{|Ynj | ≥ ε} folgt
2
2
2
≤ ε2 + Ln (ε), ε > 0.
τnj
≤ ε2 + E Ynj
1{|Ynj | ≥ ε} =⇒
max τnj
j=1,...,kn
Somit folgt aus der Lindeberg-Bedingung Ln (ε) → 0 ∀ ε > 0 die Bedingung
lim
max
n→∞ j=1,...,kn
2
τnj
= 0 = lim
n→∞
2
maxj=1,...,kn σnj
.
2
2
σn1 + . . . + σnkn
(7.4)
Norbert Henze, KIT
7.11
Zentrale Grenzwertsätze
7.5 Bemerkungen
a) Der ZGWS von Lindeberg–Lévy ist ein Spezialfall des ZGWS von
Lindeberg–Feller (Übungsaufgabe).
b) Für die Zufallsvariablen Xn1 , . . . , Xnkn nimmt die Lindeberg-Bedingung
folgende Gestalt an: (beachte: Ynj = (Xnj − anj )/σn )
Ln (ε) =
kn
1 X E (Xnj − anj )2 1{|Xnj − anj | ≥ σn ε} → 0 ∀ ε > 0.
2
σn j=1
c) Aus der Lindeberg-Bedingung folgt (vgl. (7.4)) die sog. Feller–Bedingung
lim
n→∞
2
maxj=1,...,kn σnj
= 0.
2
2
σn1 + . . . + σnkn
Die Lindeberg–Bedingung garantiert also, dass jeder Summand Xnj nur
einen kleinen Einfluss auf die Summe Sn besitzt.
d) Aus der Feller-Bedingung folgt mit der Markov-Ungleichung die Bedingung
der gleichmäßigen asymptotischen Vernachlässigbarkeit
Xnj − anj ≥ε
lim
max P = 0 ∀ε > 0.
n→∞ j=1,...,kn
σn
Norbert Henze, KIT
7.12
Zentrale Grenzwertsätze
Eine einfache hinreichende Bedingung für die Gültigkeit des ZGWS von
Lindeberg–Feller liefert das folgende Resultat.
7.6 Satz (Zentraler Grenzwertsatz von Ljapunov)
In der Situation des Satzes von Lindeberg-Feller existiere ein δ > 0 mit
kn
i
1 X h
lim
E |Xnj − anj |2+δ = 0
2+δ
n→∞ σn
j=1
(7.5)
(sog. Ljapunov-Bedingung).
D
Dann gilt der Zentrale Grenzwertsatz Sn∗ −→ N(0, 1).
Beweis: Es sei ε > 0 beliebig. Für x, a ∈ R und σ > 0 folgt
δ
1
|x − a|
= |x − a|2+δ
(x − a)2 1{|x − a| > εσ} ≤ (x − a)2 ·
εσ
(εσ)δ
kn
1 X E (Xnj − anj )2 1{|Xnj − anj | > εσn }
=⇒ Ln (ε) =
2
σn j=1
≤
kn
i
1 1 X h
2+δ
E
|X
−
a
|
nj
nj
εδ σn2+δ j=1
|
{z
}
→ 0 nach (7.5)
Norbert Henze, KIT
7.13
Zentrale Grenzwertsätze
7.7 Beispiel (Anzahl der Rekorde in einer rein zufälligen Permutation)
Norbert Henze, KIT
7.14
Zentrale Grenzwertsätze
Sei Ωn die Menge der Permutationen von 1, 2, . . . , n.
Sei Anj := {(a1 , . . . , an ) ∈ Ωn : aj = max(a1 , . . . , aj )}.
Sei Xnj := 1{Anj }, j = 1, . . . , n.
Sn := Xn1 + . . . + Xnn zählt die Anzahl der Rekorde.
Sei Pn die Gleichverteilung auf Ωn . Es gilt (Übungsaufg. ES Blatt 3):
1
An1 , . . . , Ann stochastisch unabhängig, Pn (Anj ) =
j
1
1
1
2
= V(Xnj ) =
Es gilt: anj = EXnj = , σnj
1−
, j = 1, . . . , n.
j
j
j
k
Prüfen der Ljapunov-Bedingung mit δ = 2: Wegen Xnj = Xnj
, k ≥ 1, folgt
1 4
6Xnj
4Xnj
1
4Xnj
(Xnj − anj )4 =
Xnj −
+
−
+ 4
= Xnj −
j
j
j2
j3
j
1
8
6Xnj
+ 4 =⇒ E (Xnj − anj )4 ≤ . (warum?)
≤ Xnj +
j2
j
j
Mit Hn := 1 + 1/2 + . . . + 1/n gilt also
n
X
E (Xnj − anj )4 ≤ 8Hn .
j=1
Norbert Henze, KIT
7.15
Zentrale Grenzwertsätze
Weiter ist
σn2 =
n
n
X
X
1
1
1
.
1−
= Hn −
2
j
j
j
j=1
j=1
Mit Integralabschätzungen folgt log(n + 1) ≤ Hn ≤ 1 + log n. (!) Wegen
n
X
1
≤ 2
2
j
j=1
(!)
folgt:
n
8Hn
8(1 + log n)
1 X E (Xnj − anj )4 ≤ 4 ≤
→ 0.
σn4 j=1
σn
(log(n + 1) − 2)2
Mit dem Satz von Ljapunov ergibt sich also
Sn − ESn
Sn − H n
D
p
−→ N(0, 1).
= q
P
2
V(Sn )
Hn − n
1/j
j=1
Mit Hn ∼ log n liefert das Lemma von Sluzki (!)
Sn − log n D
√
−→ N(0, 1).
log n
Norbert Henze, KIT
7.16
Zentrale Grenzwertsätze
Beachte:
Sn − log n
√
log n
=
q
P
2
Hn − n
j=1 1/j
Sn − H n
Hn − log n
q
√
·
+ √
Pn
log n
log n
Hn − j=1 1/j 2
|
{z
} |
{z
} |
{z
}
D
D
−→
−→ N(0, 1)
→1
→0
N(0, 1)
(Lemma von Sluzki)
Norbert Henze, KIT
7.17
Zentrale Grenzwertsätze
7.8 Beispiel (Zwei-Stichprobenproblem mit dichotomem Merkmal)
Seien
U1 , . . . , Uℓ , V1 , . . . , Vm unabhängig,
U1 , . . . , Uℓ u.i.v. ∼ Bin(1, p), V1 , . . . , Vm u.i.v. ∼ Bin(1, q),
p, q ∈ (0, 1) unbekannt.
Hypothese H0 : p = q
In Lehrbüchern zur Angewandten Statistik findet man mit
ℓ
1X
Ui ,
U ℓ :=
ℓ i=1
m
Vm
die Testgröße
Tℓ,m :=
und die Aussage:
1 X
Vj ,
:=
m j=1
b ℓ,m :=
H
1
ℓ+m
ℓ
X
Ui +
i=1
m
X
j=1
Vj
!
2
1
ℓm
·
· Uℓ − V m
b
b
ℓ
+
m
Hℓ,m (1 − Hℓ,m )
Unter H0 ist Tℓ,m bei großem ℓ und m approximativ χ21 -verteilt.“
”
P
b ℓ,m −→
Warum gilt das? Beachte: Unter H0 gilt H
p bei ℓ, m → ∞.
Norbert Henze, KIT
7.18
Zentrale Grenzwertsätze
Memo: Tℓ,m =
2
1
ℓm
· Uℓ − V m
·
b ℓ,m (1 − H
b ℓ,m ) ℓ + m
H
Betrachte Folgen ℓn , mn mit ℓn , mn → ∞ bei n → ∞. Sei kn := ℓn + mn . Sei
r
ℓn mn
1
· U ℓn − V mn .
·
Wn := p
ℓn + mn
p(1 − p)
Nach dem Lemma von Sluzki und dem Abbildungssatz ist zu zeigen:
D
Wn −→ N(0, 1)
für n → ∞.
Direkte Rechnung ergibt:
Wn =
kn
X
Xnj ,
j=1
wobei
Xnj :=
r
mn Uj − p
p
, j ≤ ℓn ,
ℓn kn p(1 − p)
Es gelten: EXnj = 0 ∀j, V(Xnj ) =
σn2 :=
kn
X
j=1
V(Xnj ) = ℓn ·
Xnj := −
mn
,
ℓ n kn
j ≤ ℓn ,
r
ℓn Vj−ℓn − p
p
, j > ℓn .
mn kn p(1 − p)
V(Xnj ) =
ℓn
,
mn kn
j > ℓn .
ℓn
ℓn + mn
mn
+ mn ·
=
= 1.
ℓ n kn
m n kn
kn
Norbert Henze, KIT
7.19
Zentrale Grenzwertsätze
Memo: Wn = p
Memo: Wn =
kn
X
1
·
p(1 − p)
r
ℓn mn
· U ℓn − V mn
ℓn + mn
Xnj ,
j=1
Memo: Xnj =
r
mn Uj − p
p
, j ≤ ℓn , Xnj = −
ℓn kn p(1 − p)
Nachprüfen der Ljapunov-Bedingung mit δ = 2:
1
σn2+δ
kn
X
j=1
E |Xnj |2+δ
=
≤
→
r
ℓn Vj−ℓn − p
p
, j > ℓn .
mn kn p(1 − p)
m2n E(U1 − p)4
ℓ2n
E(V1 − p)4
·
+
m
·
·
n
ℓ2n kn2 p2 (1 − p)2
m2n kn2 p2 (1 − p)2
1
1
1
+
·
(!)
p2 (1 − p)2
ℓn
mn
0 bei n → ∞.
ℓn ·
D
ZGWS von Ljapunov =⇒ Wn −→ N(0, 1).
Norbert Henze, KIT
7.20
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8 Übergangswahrscheinlichkeiten und bedingte Verteilungen
Zur Einstimmung (vgl. ES, Kapitel 9):
Seien Ω1 , Ω2 abzählbar, P1 ein W-Maß auf P(Ω1 ), p1 (ω1 ) := P1 ({ω1 }),
ω1 ∈ Ω1 . Sei weiter p1,2 : Ω1 × Ω2 → R≥0 mit
X
p1,2 (ω1 , ω2 ) = 1
∀ ω1 ∈ Ω1 .
ω2 ∈Ω2
Sei p(ω1 , ω2 ) := p1 (ω1 ) · p1,2 (ω1 , ω2 ),
Dann definiert
P(A) :=
X
(ω1 , ω2 ) ∈ Ω1 × Ω2
p(ω1 , ω2 ),
(ω1 ,ω2 )∈A
(1. Pfadregel).
A ⊂ Ω := Ω1 × Ω2 ,
ein W-Maß auf P(Ω). Verallgemeinerung auf allgemeine W-Räume?
Beachte: Für A = Ω1 × A2 mit A2 ⊂ Ω2 gilt
!
Z
X
X
P(Ω1 ×A2 ) =
p1,2 (ω1 , ω2 ) P1 ({ω1 }) =
ω1 ∈Ω1
ω2 ∈A2
|
{z
=: P1,2 (ω1 , A2 )
}
P1,2 (ω1 , A2 ) P1 (dω1 )
Ω1
Norbert Henze, KIT
8.1
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Zur Erinnerung (vgl. ES, Kapitel 10):
Seien A, B ⊂ Ω, P(B) > 0.
P(A|B) :=
P(A ∩ B)
P(B)
(bedingte W’ von A unter B)
Falls
P X diskrete Zufallsvariable auf Ω mit P(X = xj ) > 0, j ≥ 1, und
j≥1 P(X = xj ) = 1, so:
P(A) =
X
P(A|X = xj ) P(X = xj )
(Formel von der totalen W’)
j≥1
Man würde hier ein stetiges Analogon“ vermuten, also:
”
Z ∞
P(A) =
P(A|X = x) f (x) dx,
−∞
falls X eine stetige Zufallsvariable mit λ1 -Dichte f ist.
Aber: P(A|X = x) nicht (elementar) definiert, da P(X = x) = 0.
Norbert Henze, KIT
8.2
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Zur Erinnerung (vgl. ES, Kapitel 17):
Seien (Ω, P) ein diskreter W-Raum,
Z : Ω → Rk ,
X : Ω → Rℓ ,
Zufallsvektoren.
Sei z ∈ Rk mit P(Z = z) > 0.
Sei
X|Z=z
PX
(B) := P(X ∈ B|Z = z),
Z=z (B) := P
B ⊂ Rℓ .
Dann ist PX
Z=z (·) ein W -Maß. Es heißt bedingte Verteilung von X unter (der
Bedingung) Z = z.
Beispiel: U, V unabhängig, U ∼ Bin(m, p), V ∼ Bin(n, p) =⇒
PU
U +V =k = Hyp(k, m, n).
Z
k
Frage: Macht PX
Z=z (·) auch Sinn, falls P(Z = z) = 0? (etwa falls P ≪ λ ?)
Norbert Henze, KIT
8.3
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.1 Motivierendes Beispiel
Zweistufiges Experiment:
Erste Stufe: Realisierung z von Z ∼ U(0, 1) beobachten.
Zweite Stufe: n mal in unabh. Folge Münze mit z = W’ für Adler“ werfen.
”
Frage: Welche Verteilung besitzt die Anzahl X der geworfenen Adler?
Beachte: Es sollte gelten:
P(X = k|Z = z) =
!
n k
z (1 − z)n−k ,
k
k = 0, 1, . . . , n.
Aber: Wegen P(Z = z) = 0 ist obige Wahrscheinlichkeit im elementaren Sinn
nicht definiert.
Trotzdem sollte diese Gleichung als Definition für P(X = k|Z = z) Sinn
machen.
Norbert Henze, KIT
8.4
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.2 Definition (Übergangswahrscheinlichkeit, Markov-Kern)
Es seien (Ω1 , A1 ) und (Ω2 , A2 ) messbare Räume. Eine Abbildung
P1,2 : Ω1 × A2 → R
heißt Übergangswahrscheinlichkeit (ÜW) oder Markov-Kern von (Ω1 , A1 ) nach
(Ω2 , A2 ), falls gilt:
P1,2 (ω1 , ·) : A2 → R ist ein W-Maß auf A2 für jedes ω1 ∈ Ω1 , (8.1)
P1,2 (·, A2 ) : Ω1 → R ist (A1 , B)-messbar für jedes A2 ∈ A2 .
(8.2)
Interpretation: ω1 steht für das Ergebnis eines ersten Teilexperiments.
Bei gegebenem ω1 modelliert das W-Maß P1,2 (ω1 , ·) die Wahrscheinlichkeit des
Auftretens von Ereignissen A2 ∈ A2 beim zweiten Teilexperiment.
Die Messbarkeitsbedingung (8.2) wird benötigt, weil später bezüglich P1 (dω1 )
integriert wird. Dabei wird P1 ein W-Maß auf A1 sein.
Norbert Henze, KIT
8.5
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.3 Satz und Definition (Kopplung)
Seien (Ω1 , A1 , P1 ) ein W-Raum, (Ω2 , A2 ) ein messbarer Raum und P1,2 eine
ÜW von (Ω1 , A1 ) nach (Ω2 , A2 ). Dann wird durch
Z Z
P(A) :=
1A (ω1 , ω2 ) P1,2 (ω1 , dω2 ) P1 (dω1 )
(8.3)
Ω1
Ω2
ein W-Maß P auf der Produkt-σ-Algebra A1 ⊗ A2 definiert.
P =: P1 ⊗ P1,2 heißt Kopplung von P1 und P1,2 .
P ist das einzige W-Maß auf A1 ⊗ A2 mit
Z
P(A1 × A2 ) =
P1,2 (ω1 , A2 ) P1 (dω1 )
A1
(A1 ∈ A1 , A2 ∈ A2 ).
(8.4)
Beweis: Sei A := A1 ⊗ A2 . Ist f : Ω1 × Ω2 → R≥0 A-messbar, so ist die Abb.
ω2 7→ f (ω1 , ω2 ) ∀ ω1 ∈ Ω1 A2 -mb. =⇒ inneres Int. in (8.3) wohldefiniert! Um
R
Ω1 ∋ ω1 7→ Ω2 f (ω1 , ω2 ) P1,2 (ω1 , dω2 ) ist A1 -messbar
(8.5)
zu zeigen, sei D := {A ∈ A : (8.5) gilt für f = 1{A}}. Mit (8.2) folgt: D ist
Dynkin-System und D ⊃ M := {A1 × A2 : A1 ∈ A1 , A2 ∈ A2 } (!). Da M
∩-stabil und σ(M) = A folgt D = A. Rest mit algebraischer Induktion!
Norbert Henze, KIT
8.6
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Memo: P(A1 × A2 ) =
R
A1
P1,2 (ω1 , A2 ) P1 (dω1 ),
A1 ∈ A1 , A2 ∈ A2 .
Somit ist P wohldefiniert und offenbar nichtnegativ. Wegen (8.4) gilt
P(Ω1 × Ω2 ) = 1. Sind A1 , A2 , . . . ∈ A paarweise disjunkt, so folgt
!
#
Z "Z X
∞
∞
X
P
1
An =
An (ω1 , ω2 ) P1,2 (ω1 , dω2 ) P1 (dω1 )
Ω1
n=1
=
Z "Z
Ω1
=
"
Z
Ω1
=
=
∞
X
n=1
∞
X
#
1An (ω1 , ω2 ) P1,2 (ω1 , dω2 ) P1 (dω1 ) (1A+B = 1A + 1B )
Ω2 n=1
∞ Z
X
Ω1
Ω1
Ω2
Z
P(An )
#
1An (ω1 , ω2 ) P1,2 (ω1 , dω2 ) P1 (dω1 )
n=1
∞ Z
X
n=1
Ω2
1An (ω1 , ω2 ) P1,2 (ω1 , dω2 ) P1 (dω1 )
(MON)
(MON)
=⇒ P ist σ-additiv.
n=1
Nach dem Eindeutigkeitssatz für Maße ist P durch (8.4) eindeutig bestimmt.
Norbert Henze, KIT
8.7
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Memo: P(A) =
Z
Ω1
Z
Ω2
1A (ω1 , ω2 ) P1,2 (ω1 , dω2 ) P1 (dω1 ), A ∈ A1 ⊗ A2
8.4 Satz (von Fubini für Übergangswahrscheinlichkeiten)
Ist in der Situation von 8.3 f : Ω1 ×Ω2 → R eine A1 ⊗A2 -messbare nichtnegative
oder P1 ⊗ P1,2 -integrierbare Funktion, so gilt
Z
Z Z
f (ω1 , ω2 ) P1,2 (ω1 , dω2 ) P1 (dω1 ). (8.6)
f dP1 ⊗ P1,2 =
Ω1 ×Ω2
Ω1
Ω2
Beweis: Nach (8.3) (s. Memo) gilt (8.6) für f = 1A , A ∈ A1 ⊗ A2 , und somit
auch für nichtnegative messbare Funktionen (algebraische Induktion!). Ist f
P1 ⊗ P1,2 -integrierbar, so ist der in (8.6) in Klammern stehende Integrand für
P1 -fast alle ω1 ∈ Ω1 endlich, und somit gilt f (ω1 , ·) ∈ L1 (Ω2 , A2 , P1,2 (ω1 , ·)).
Folglich ist die Abbildung
Z
ω1 7→
f (ω1 , ω2 ) P1,2 (ω1 , dω2 )
Ω2
P1 -f.s. definiert, und die Zerlegung f = f + − f − liefert die Behauptung.
Norbert Henze, KIT
8.8
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Memo: P(A1 × A2 ) =
R
A1
P1,2 (ω1 , A2 ) P1 (dω1 ),
A1 ∈ A1 , A2 ∈ A2 .
8.5 Bemerkungen
a) Der W-Raum (Ω1 × Ω2 , A1 ⊗ A2 , P1 ⊗ P1,2 ) modelliert ein zweistufiges
gekoppeltes Experiment. Erstes Teilexperiment wird durch (Ω1 , A1 , P1 )
beschrieben. Ein vom Ausgang dieses Experiments abhängiges 2. Teilexp.
wird durch eine ÜW P1,2 von (Ω1 , A1 ) nach (Ω2 , A2 ) modelliert.
Die Koppelung n-stufiger Experimente definiert man induktiv.
b) Seien {e
ω1 } ∈ A1 , P1 ({e
ω1 }) > 0, A := {e
ω1 } × Ω2 , B := Ω1 × A2 mit
A2 ∈ A2 . Dann gilt mit (8.4) (siehe Memo) in der Situation von 8.3:
R
P(A ∩ B) = P({e
ω1 } × A2 ) = {ωe1 } P1,2 (ω1 , A2 ) P1 (dω1 )
=
P1 ({e
ω1 }) · P1,2 (e
ω1 , A2 ) = P(A) · P1,2 (e
ω1 , A2 ),
also P1,2 (e
ω1 , A2 ) = P(B|A).
In diesem Fall sind also die ÜW’en elementare bedingte Wahrsch’keiten.
c) Falls P1,2 (ω1 , ·) =: P2 (·) für jedes ω1 ∈ Ω1 mit einem W-Maß P2 auf A2 ,
so gilt P = P1 ⊗ P2 (Produktmaß). Ereignisse der Gestalt A = A1 × Ω2 ,
B = Ω1 × A2 (A1 ∈ A1 , A2 ∈ A2 ) sind dann unabhängig bezüglich P.
Norbert Henze, KIT
8.9
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.6 Übergangswahrscheinlichkeiten und Dichten
Seien (Ω1 , A1 ), (Ω2 , A2 ) Messräume, µ1 ein σ-endliches Maß auf A1 und
P1 = g1 µ1 für eine mb. Funktion g1 : Ω1 → R≥0 .
Weiter seien µ2 ein σ-endliches Maß auf A2 und g1,2 : Ω1 × Ω2 → R≥0 eine
A1 ⊗ A2 -mb. Funktion mit
Z
g1,2 (ω1 , ω2 ) µ2 (dω2 ) = 1
∀ω1 ∈ Ω1 .
Ω2
Dann wird durch
P1,2 (ω1 , A2 ) :=
Z
g1,2 (ω1 , ω2 ) µ2 (dω2 ),
A2
A2 ∈ A2 ,
eine ÜW von (Ω1 , A1 ) nach (Ω2 , A2 ) definiert.
Für A ∈ A1 ⊗ A2 gilt
Z Z
P1 ⊗ P1,2 (A) =
Ω1
1A (ω1 , ω2 ) g1,2 (ω1 , ω2 ) µ2 (dω2 ) g1 (ω1 )µ1 (dω1 ).
Ω2
|
{z
}
|
{z
}
= P1,2 (ω1 , dω2 )
= P1 (dω1 )
Norbert Henze, KIT
8.10
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.7 Beispiel (n Münzwürfe mit gleichverteilter Erfolgswahrscheinlichkeit)
Wir modellieren das in 8.1 beschriebene gekoppelte Experiment wie folgt:
(Ω1 , A1 , P1 ) := (0, 1), B ∩ (0, 1), λ1 |(0,1) ,
Ω2 := {0, 1, . . . , n}, A2 := P(Ω2 ),
!
n
z k (1 − z)n−k ,
P1,2 (z, {k}) :=
k
k = 0, 1, . . . , n,
(Ω, A, P) := Ω1 × Ω2 , A1 ⊗ A2 , P1 ⊗ P1,2 .
Weiter definieren wir auf Ω Zufallsvariablen Z und X durch Z(z, k) := z,
X(z, k) := k (Projektionsabbildungen). Dann folgt mit der Definition von
P = P1 ⊗ P1,2 (siehe (8.3)) für jedes k ∈ {0, . . . , n}:
Z 1
P(X = k) = P(Ω1 × {k}) =
P1,2 (z, {k}) λ1 |(0,1) (dz)
0
!
Z 1
n
=
z k (1 − z)n−k dz
k
0
=
1
.
n+1
(Beta-Funktion, vgl. ES 25-7)
Die Zufallsvariable X hat also eine diskrete Gleichverteilung auf {0, 1, . . . , n}.
Norbert Henze, KIT
8.11
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Memo:
Z
Ω1 ×Ω2
f dP1 ⊗ P1,2 =
Z
Ω1
Z
Ω2
f (ω1 , ω2 ) P1,2 (ω1 , dω2 ) P1 (dω1 ).
8.8 Bemerkung
Formel (8.6) (siehe Memo) kann zur iterierten Berechnung von
Erwartungswerten verwendet werden. So gilt in der Situation des vorigen
Beispiels
Z
Z Z
X(z, k) P1,2 (z, dk) P1 (dz)
E(X) =
X dP =
Ω
=
=
Z
1
0
n
.
2
"
Ω1
n
X
k=0
Ω2
#
k · P1,2 (z, {k}) dz =
Z
1
0
n · z dz
Dieses Resultat hätte natürlich leichter aus der Verteilung von X erhalten
werden können. Es zeigt aber eine mögliche Vorgehensweise in Fällen, in denen
die direkte Berechnung der linken Seite von (8.6) Kopfzerbrechen bereitet.
Beachte: P1 ⊗ P1,2 muss gar nicht explizit bestimmt werden!
Norbert Henze, KIT
8.12
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.9 Konstruktion der Verteilung eines Zufallsvektors mithilfe von
Marginalverteilungen und bedingten Verteilungen
Seien
(Ω1 , A1 ) = (Rk , Bk ), (Ω2 , A2 ) = (Rℓ , Bℓ ),
P1 ein W-Maß auf Bk ,
P1,2 : Rk × Bℓ → R eine ÜW von (Rk , Bk ) nach (Rℓ , Bℓ ).
Satz 8.3 =⇒ P := P1 ⊗ P1,2 ist ein W-Maß auf Bk ⊗ Bℓ = Bk+ℓ mit
Z
P(A × B) =
P1,2 (z, B) P1 (dz), A ∈ Bk , B ∈ Bℓ .
A
Setze (Z, X) := idRk+ℓ , also
(Z, X)(z1 , . . . , zk , x1 , . . . , xℓ ) = (z1 , . . . , zk , x1 , . . . , xℓ ) ∀ (z, x) ∈ Rk+ℓ .
Dann ist (Z, X) ein (k + ℓ)-dimension. Zufallsvektor auf (Rk+ℓ , Bk+ℓ , P).
Es gilt P1 = PZ (d.h.: P1 ist die Marginalverteilung von Z), denn:
Z
PZ (A) = P(Z,X) (A × Rℓ ) =
P1,2 (z, Rℓ ) P1 (dz) = P1 (A), A ∈ Bk .
A
Interpretation der Übergangswahrscheinlichkeit P1,2 ?
Norbert Henze, KIT
8.13
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Memo: W-Raum (Rk+ℓ , Bk+ℓ , P), P = P1 ⊗ P1,2 , (Z, X) = idRk+ℓ , P1 = PZ
8.10 Definition (Bedingte Verteilung)
In der Situation von 8.9 heißt die Übergangswahrscheinlichkeit P1,2 =: PX
Z
bedingte Verteilung von X bei gegebenem Z.
Für jedes z ∈ Rk heißt das W-Maß PX
Z (z, ·) := P1,2 (z, ·) bedingte Verteilung
von X unter der Bedingung Z = z, und man schreibt hierfür
X
PX
Z=z (·) := PZ (z, ·) (= P1,2 (z, ·)).
Es gilt also P(Z,X) = PZ ⊗ PX
Z.
Beachte: Für B ∈ Bℓ schreibt man auch
P(X ∈ B|Z = z) := PX
Z=z (B)
(obwohl im Fall P(Z = z) = 0 keine elementare bedingte Wahrsch’ vorliegt!)
Für A ∈ Bk und B ∈ Bℓ gilt:
P(Z ∈ A, X ∈ B) = P(Z,X) (A × B) =
Z
A
P(X ∈ B|Z = z) PZ (dz).
Norbert Henze, KIT
8.14
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Memo: P(Z ∈ A, X ∈ B) =
Z
Speziell: Für B ∈ Bℓ gilt:
P(X ∈ B) =
A
P(X ∈ B|Z = z) PZ (dz),
Z
Rk
A ∈ Bk , B ∈ Bℓ
P(X ∈ B|Z = z) PZ (dz)
Beachte: Integrand kann auf PZ -Nullmengen modifiziert werden!
Spezialfälle der letzten Gleichung:
a) Falls PZ = f λk , so:
Z
P(X ∈ B) =
P(X ∈ B|Z = z) f (z) dz,
Rk
Z
b) Falls P (D) = 1, D ⊂ Rk abzählbar, so:
X
P(X ∈ B) =
P(X ∈ B|Z = z) P(Z = z).
z∈D
(vgl. die Formel von der totalen Wahrscheinlichkeit)
Norbert Henze, KIT
8.15
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.11 Beispiel (Verteilungsmischungen)
Es gelte P(Z = zj ) =: pj > 0, j = 1, . . . , n, sowie
Weiter gelte
ℓ
PX
Z=zj = fj λ , also P(X ∈ B|Z = zj ) =
P(X ∈ B)
=
n Z
X
j=1
=
Z
B
Z
Pn
j=1
P(Z = zj ) = 1.
fj (x) dx,
j = 1, . . . , n =⇒
B
fj (x) dx · P(Z = zj )
| {z }
= pj
!
n
X
pj fj (x) dx.
B
j=1
|
{z
}
=: f (x)
(diskrete Mischung endlich vieler absolut stetiger Verteilungen).
In diesem Fall heißt f Mischungsdichte.
Norbert Henze, KIT
8.16
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Auftreten: Population bestehe aus Teilpopulationen. Merkmal, das durch X
modelliert wird, besitze in j-ter Teilpopulation eine Dichte fj , j = 1, . . . , n.
Tritt bei rein zufälliger Auswahl eines Elementes der Population mit der
Wahrscheinlichkeit pj ein Element der j-ten Teilpopulation auf, so hat X die
Mischungsdichte p1 f1 + . . . + pn fn .
−4 −3 −2 −1
0
1
2
3
4
x
Dichten f1 (blau) und f2 (rot) der Normalverteilungen N(−2, 1) bzw.
N(2, 1/2) und Mischungsdichte 0.7f1 + 0.3f2 (orange)
Norbert Henze, KIT
8.17
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.12 Beispiel Die Zufallsvariable Z besitze die Gammaverteilung Γ(r, β),
wobei r ∈ N. PX
Z=z , z > 0, sei die Poisson-Verteilung Po(z). Welche Verteilung
hat X? Lösung: Die λ1 -Dichte g von Z ist
g(z) =
β r r−1 −βz
z
e
,
Γ(r)
z > 0,
und g(z) = 0, sonst. Weiter ist
P(X = k|Z = z) = e−z
zk
,
k!
k ∈ N0 .
Durch Integration über die bedingten Wahrsch’keiten P(X = k|Z = z) folgt
Z ∞
P(X = k) =
P(X = k|Z = z) g(z) dz
=
=
Z
0
∞
z k β r r−1 −βz
z
e
dz
k! Γ(r)
0
!
r k
1
β
k+r−1
1+β
1+β
r−1
e−z
(!).
X hat also die negative Binomialverteilung NB(r, p) mit p = β/(1 + β).
Norbert Henze, KIT
8.18
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.13 Beispiel (Bivariate Normalverteilung)
Es seien µ, ν, σ, τ, ρ ∈ R mit σ, τ > 0 und |ρ| < 1. Es gelte:
PX = N(µ, σ 2 ),
PYX=x = N ν + ρ στ (x−µ), τ 2 (1 − ρ2 )
Beachte: (Z, X) ist hier (X, Y )!
Welche gemeinsame Verteilung besitzen X und Y ? Es gilt:
(x − µ)2
1
,
exp −
g1 (x) = √
2σ 2
σ 2π
Wegen
y − ν − ρ στ (x−µ)
1
exp −
g1,2 (x, y) = p
2τ 2 (1 − ρ2 )
τ 2π(1−ρ2 )
P(X,Y ) (B) =
hat (X, Y ) die λ2 -Dichte
ZZ
g1 (x)g1,2 (x, y) dy dx,
B
2 !
.
B ∈ B2 ,
f (x, y) = g1 (x)g1,2 (x, y) = . . .
τ 2 (x−µ)2 − 2ρστ (x−µ)(y−ν) + σ 2 (y−ν)2
1
p
exp −
=
.
2σ 2 τ 2 (1 − ρ2 )
2πστ 1−ρ2
2
σ
ρστ
µ
, vgl. ES, Kap. 26.
,
D.h.: (X, Y ) ∼ N2
ρστ
τ2
ν
Norbert Henze, KIT
8.19
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.14 Satz (Zerlegung einer gemeinsamen Verteilung)
Es seien (Ω, A, P) ein beliebiger W-Raum und Z : Ω → Rk , X : Ω → Rℓ
k
k
ℓ
ℓ
Zufallsvektoren. Dann existiert eine ÜW PX
Z von (R , B ) nach (R , B ) mit
P(Z,X) = PZ ⊗ PX
Z,
d.h.:
(8.7)
ℓ
k
PX
Z (z, ·) ist ein W-Maß auf B für jedes z ∈ R ,
k
ℓ
Rk ∋ z 7→ PX
Z (z, B) ist B -messbar für jedes B ∈ B .
X
PX
Z=z (·) := PZ (z, ·) heißt bedingte Verteilung von X unter Z = z.
Die Darstellung (8.7) ist in folgendem Sinn eindeutig: Falls
P(Z,X) = Q1 ⊗ Q1,2 ,
wobei Q1 W-Maß auf Bk und Q1,2 ÜW von (Rk , Bk ) nach (Rℓ , Bℓ ), so gelten:
Q 1 = PZ ,
k
∃ N ∈ Bk mit PZ (N ) = 0 und Q1,2 (z, ·) = PX
Z (z, ·) ∀z ∈ R \ N .
Beweis: ohne (Resultat gilt auch für Zufallsvariablen mit Werten in
allgemeineren Räumen, für einen wichtigen Spezialfall siehe Satz 8.15).
Norbert Henze, KIT
8.20
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.15 Satz (bedingte Verteilung bei gemeinsamer Dichte)
In 8.14 gelte P(Z,X)
Maßen µ und ν auf Bk bzw.
R = f µ ⊗ ν mit σ-endlichen
k
ℓ
B . Sei f1 (z) := Rℓ f (z, x) ν(dx), z ∈ R , die marginale Dichte von Z. Sei
R
g0 : Rℓ → R≥0 eine beliebige messbare Funktion mit Rℓ g0 dν = 1. Setze

 f (z, x) , falls f (z) > 0,
1
f1 (z)
f (x|z) :=

g0 (x), sonst
(sog. bedingte ν-Dichte von X unter Z = z). Dann definiert
Z
PX
(B)
:=
f (x|z) ν(dx),
z ∈ Rk , B ∈ B ℓ ,
Z=z
(8.8)
B
eine bedingte Verteilung von X unter Z = z.
Achtung: g0 wird nur benötigt, damit für jedes z ein W-Maß PX
Z=z entsteht.
Beweis: Rechte Seite von (8.8) ist bei festem z ein W-Maß auf Bℓ und bei
festem B eine mb. Funktion von z. Wir zeigen: Für belieb. A ∈ Bk , B ∈ Bℓ gilt
Z
Z
P(Z,X) (A × B) =
(q.e.d.)
PX
Z=z (B) P (dz).
A
Norbert Henze, KIT
8.21
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Memo: Zu zeigen: P(Z,X) (A × B) =
Memo: f (x|z) :=
(
f (z,x)
,
f1 (z)
Z
Z
PX
Z=z (B) P (dz)
A
falls f1 (z) > 0,
g0 (x), sonst
, f1 (z) =
Z
f (z, x) ν(dx)
Rℓ
Es ist
P(Z,X) (A × B)
=
=
=
=
=
Z
A×B
Z
f dµ ⊗ ν
f (z, x) ν(dx) µ(dz)
B
A
Z
Z
f (x|z) ν(dx) f1 (z) µ(dz)
A∩{f1 >0}
| B {z
}
Z
Z
Z
= PX
Z=z (B)
PX
Z=z (B) f1 (z) µ(dz)
A
Z
PX
Z=z (B) P (dz)
A
Norbert Henze, KIT
8.22
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.16 Spezialfall µ = ν = λ1
Der Zufallsvektor (X, Y ) habe die λ2 -Dichte fX,Y (x, y).
(Achtung: (Z, X) ist hier (X, Y )!)
Sei
fX (x) :=
Z
∞
fX,Y (x, y) dy,
−∞
x ∈ R,
die marginale Dichte von X. Dann ist
fY |X (y|x) :=
fX,Y (x, y)
,
fX (x)
falls fX (x) > 0,
eine bedingte Dichte von Y unter der Bedingung X = x.
Im Fall fX (x) = 0 kann fY |X (y|x) beliebig definiert werden.
Norbert Henze, KIT
8.23
Übergangswahrscheinlichkeiten und bedingte Verteilungen
Beachte: Sind (x, y) eine Stetigkeitsstelle von fX,Y und x eine Stetigkeitsstelle
von fX mit fX (x) > 0, so gilt:
fX,Y (x, y)
=
lim
P(x ≤ X ≤ x+ε, y ≤ Y ≤ y+ε)
,
ε2
fX (x)
=
lim
P(x ≤ X ≤ x+ε)
ε
=⇒ fY |X (y|x)
=
fX,Y (x, y)
fX (x)
=
lim
ε↓0
ε↓0
ε↓0
P(y ≤ Y ≤ y+ε|x ≤ X ≤ x+ε)
.
ε
Norbert Henze, KIT
8.24
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.17 Beispiel (Bedingte Verteilung von X unter der Bedingung |X|)
Die Zufallsvariable X habe eine stetige λ1 -Dichte f .
Welche bedingte Veteilung hat X unter der Bedingung |X| = t, t > 0?
Offenbar kann X unter der Bedingung |X| = t nur die Werte t und −t
annehmen. Es sollte also gelten:
PX
|X|=t = p(t) · δt + (1 − p(t))δ−t .
Dabei ist 0 ≤ p(t) ≤ 1, und δx ist das Dirac-Maß in x.
Seien f (t) > 0 und ε > 0 beliebig. Es ist
P t ≤ X ≤ t + εt ≤ |X| ≤ t + ε
=
=
→
P(t ≤ X ≤ t + ε)
P(t ≤ |X| ≤ t + ε)
f (t)ε + o(ε)
f (t)ε + f (−t)ε + o(ε)
f (t)
für ε ↓ 0.
f (t) + f (−t)
Also sollte p(t) = f (t)/(f (t) + f (−t)) gelten. Zeigen Sie, dass hiermit
Z
P(|X| ∈ A, X ∈ B) =
P X ∈ B |X| = t P|X| (dt), A, B ∈ B1 ,
A
gilt. (Übungsaufgabe!)
Norbert Henze, KIT
8.25
Übergangswahrscheinlichkeiten und bedingte Verteilungen
8.18 Beispiel (Bivariate Normalverteilung, Fortsetzung von 8.13)
Sei
(X, Y ) ∼ N2
2
σ
µ
,
ν
ρστ
wobei µ, ν ∈ R, σ, τ > 0 und |ρ| < 1. Es gilt
fX,Y (x, y) =
sowie
ρστ
τ2
,
τ 2 (x−µ)2 − 2ρστ (x−µ)(y−ν) + σ 2 (y−ν)2
1
p
exp −
2σ 2 τ 2 (1 − ρ2 )
2πστ 1−ρ2
fX (x) =
Hieraus folgt
fY |X (y|x) =
1
(x − µ)2
√
.
exp −
2σ 2
σ 2π
!
y − ν − ρ στ (x−µ) )2
fX,Y (x, y)
1
exp −
= p
.
fX (x)
2τ 2 (1 − ρ2 )
τ 2π(1−ρ2 )
Also ist die bedingte Verteilung von Y unter der Bedingung X = x die
Normalverteilung
τ
N ν + ρ (x−µ), τ 2 (1 − ρ2 ) .
σ
Norbert Henze, KIT
8.26
Bedingte Erwartungswerte und bedingte Erwartungen
9 Bedingte Erwartungswerte und bedingte Erwartungen
Wiederholung aus ES, Kapitel 17:
Seien (Ω, P) ein diskreter W-Raum, X : Ω → R, E|X| < ∞, A ⊂ Ω, P(A) > 0.
Z
1
E(X1A )
1 X
X dP
=
X(ω) P({ω}) =
E(X|A) :=
P(A) ω∈A
P(A)
P(A) A
heißt bedingter Erwartungswert von X unter der Bedingung A.
Sei Z : Ω → Rk mit P(Z = zj ) > 0, j ≥ 1, und
k
Gesucht: Funktion h : R → R mit:
P
j≥1
P(Z = zj ) = 1.
E (X − h(Z))2 = min!
(beste Vorhersage von X durch Funktion von Z im Sinne der mittleren
quadratischen Abweichung)
Lösung: h(z) :=
E(X|Z = zj ) ,
0,
falls z = zj für ein j ≥ 1
.
falls z ∈ Rk \ {z1 , z2 , z3 , . . .}
Norbert Henze, KIT
9.1
Bedingte Erwartungswerte und bedingte Erwartungen
Memo: E(X1A ) = E(X|A)P(A)
Memo: h(z) = E(X|Z = zj ), falls z = zj für ein j ≥ 1.
Die Zufallsvariable E(X|Z) : Ω → R, definiert durch
E(X|Z = Z(ω)) , falls Z(ω) ∈ {z1 , z2 , . . .}
E(X|Z)(ω) := h(Z(ω)) =
0,
sonst ,
heißt bedingte Erwartung von X bei gegebenem Z.
Beachte:
E(X|Z) =
P
j≥1
E(X|Z = zj )1{Z = zj }
E(X|Z) ist konstant auf den Mengen {Z = zj }, j ≥ 1, und damit als
Abbildung prinzipiell einfacher“ als X.
”
Es gilt
E [X1{Z = zj }]
=
E [E(X|Z)1{Z = zj }]
|
{z
}
= E(X|Z = zj )P(Z = zj )
X und E(X|Z) liefern gleiche Integrale über die Mengen {Z = zj }, j ≥ 1.
Norbert Henze, KIT
9.2
Bedingte Erwartungswerte und bedingte Erwartungen
Jetzt allgemeine Situation: Seien
(Ω, A, P) ein W-Raum,
X ∈ L1 (Ω, A, P), also E|X| < ∞,
G ⊂ A eine beliebige Sub-σ-Algebra von A.
Gibt es eine Zufallsvariable Y auf Ω mit folgenden Eigenschaften?
E|Y | < ∞,
Y ist G-messbar,
Z
Z
Y dP =
X dP ∀A ∈ G.
A
A
(umso stärkere Forderung, je kleiner G ist)
(identische Integrale über Mengen aus G)
9.1 Beispiele (Extremfälle)
a) G := {∅, Ω}: Da nur konstante Abbildungen G-messbar sind (!), erfüllt nur
Y ≡ EX alle drei Bedingungen.
b) G = A: Jede Zufallsvariable Y mit Y = X P-f.s. erfüllt alle Bedingungen.
Norbert Henze, KIT
9.3
Bedingte Erwartungswerte und bedingte Erwartungen
Memo: X ∈ L1 (Ω, A, P) gegeben. Wunsch: Y mit: E|Y | < ∞,
R
R
Y ist G-messbar , A Y dP = A XdP ∀A ∈ G
9.2 Beispiel (von einer Zerlegung erzeugte σ-Algebra)
P
Sei Ω = j∈S Aj eine Zerlegung von Ω in paarweise disjunkte Mengen
Aj ∈ A, j ∈ S, wobei S ⊂ N, |S| ≥ 2, und P(Aj ) > 0 für jedes j.
P
Sei G := σ ({Aj : j ∈ S}) =
j∈T Aj : T ⊂ S .
Für eine Zufallsvariable Y auf Ω gilt: (Übungsaufgabe)
Y ist G-messbar ⇐⇒ ∀j ∈ S ∃aj ∈ R mit Y (ω) = aj ∀ω ∈ Aj .
Beachte:
Z
Z
Z
Y dP =
X dP ⇐⇒ aj P(Aj ) =
X dP ⇐⇒ aj =
Aj
=⇒
Aj
Y :=
X
j∈S
Aj
1
P(Aj )
Z
XdP · 1{Aj }
1
P(Aj )
leistet das Verlangte.
Z
XdP.
Aj
(warum?)
Aj
Norbert Henze, KIT
9.4
Bedingte Erwartungswerte und bedingte Erwartungen
Y :=
X
j∈S
1
P(Aj )
Z
XdP · 1{Aj }
leistet das Verlangte.
(warum?)
Aj
Memo: G := σ ({Aj : j ∈ S}) =
P
j∈T
Aj : T ⊂ S .
Y ist G-messbar, da konstant auf jeder der Mengen Aj .
Sei o.B.d.A. X ≥ 0 (sonst: X = X + − X − .) Es gilt:
#
Z
Z
Z "X
1
XdP · 1{Aj } dP
E(Y ) =
Y dP =
Ω
Ω j∈S P(Aj ) Aj
Z
X 1 Z
=
XdP
1{Aj }dP
P(Aj ) Aj
|Ω {z
}
j∈S
= P(Aj )
Z
XZ
=
X dP =
X dP = E(X) < ∞.
j∈S
A=
X
j∈T
Aj ∈ G =⇒
Z
Y dP
Aj
=
A
=
Ω
Z
Z
1
XdP ·
1{Aj } dP
P(Aj ) Aj
Ω
j∈T
Z
XZ
X dP =
X dP.
X
j∈T
Aj
A
Norbert Henze, KIT
9.5
Bedingte Erwartungswerte und bedingte Erwartungen
9.3 Beispiel Sei Ω := (0, 1], A := B ∩ Ω, P := λ1|Ω .
Sei X := idΩ , Aj := ((j − 1)/4, j/4], j = 1, 2, 3, 4. Sei
X
Aj : T ⊂ {1, 2, 3, 4} .
G := σ(A1 , A2 , A3 , A4 ) =
j∈T
X(ω)
E[X|G](ω)
1
•
1
P(Aj )
3/4
•
Z
XdP =
Aj
E[X|G] =
1/2
•
2j − 1
8
4
X
2j − 1
1{Aj }
8
j=1
1/4
•
](
](
](
]
0 (
0 A1 14 A2 12 A3 43 A4 1
ω
Norbert Henze, KIT
9.6
Bedingte Erwartungswerte und bedingte Erwartungen
9.4 Definition (bedingte Erwartung)
Es seien
(Ω, A, P) ein W-Raum,
X ∈ L1 (Ω, A, P), also E|X| < ∞,
G eine Sub-σ-Algebra von A.
Eine Zufallsvariable Y : Ω → R heißt bedingte Erwartung von X gegeben G,
kurz
E[X|G] := Y ,
falls gilt:
a) E|Y | < ∞,
b) Y ist G-messbar,
c) E(Y 1A ) = E(X1A ) für jedes A ∈ G.
9.5 Satz (Existenz und Eindeutigkeit der bedingten Erwartung)
E[X|G] existiert und ist P-fast sicher eindeutig bestimmt.
Norbert Henze, KIT
9.7
Bedingte Erwartungswerte und bedingte Erwartungen
Memo: E|Y | < ∞,
Y ist G-messbar ,
R
A
Y dP =
R
A
XdP ∀A ∈ G
Beweis: Existenz: Seien X + := max(X, 0), X − := − min(X, 0),
Z
ν ± (A) :=
X ± dP = E X ± 1A , A ∈ G.
A
+
−
Dann sind ν und ν endliche Maße auf G. Sei P|G die Restriktion von P auf G.
Wegen ν ± ≪ P|G gibt es nach dem Satz von Radon–Nikodym Dichten Y ± mit:
Z
Z
∀ A ∈ G : ν ± (A) =
Y ± dP|G =
Y ± dP = E Y ± 1A .
A
Die Zufallsvariable Y := Y
Eigenschaften.
+
−Y
A
−
erfüllt die im Memo stehenden
P-fast sichere Eindeutigkeit:
Annahme: Y und Ye haben Eigenschaften im Memo. Dann gilt
R
R
Y dP = A Ye dP ∀A ∈ G.
A
Wegen {Y > Ye } ∈ G und {Y < Ye } ∈ G (warum?) folgt:
R
R
E|Y −Ye | = {Y >Ye } (Y −Ye ) dP+ {Y <Ye } (Ye −Y ) dP = 0 =⇒ Y = Ye P-f.s.
Norbert Henze, KIT
9.8
Bedingte Erwartungswerte und bedingte Erwartungen
9.6 Bemerkung Es ist auch üblich, die Menge
Z
Z
E [X|G] := Y ∈ L1 (Ω, G, P) :
Y dP =
X dP ∀A ∈ G
A
A
als bedingte Erwartung von X unter G zu bezeichnen. Man nennt dann jedes
Y ∈ E[X|G] eine Version der bedingten Erwartung von X unter G.
Im Folgenden: E[X|G] steht für beliebige Version im obigen Sinne.
9.7 Satz (Bedingte Erwartung als Orthogonalprojektion)
Für X ∈ L2 (Ω, A, P) ist E[X|G] eine Orthogonalprojektion von X auf den
Teilraum L2 (Ω, G, P) bezüglich des (positiv-semidefiniten) Skalarproduktes
hU, V i := E(U V )
auf L2 (Ω, A, P). Es gilt (mit kU k2 := hU, U i = E(U 2 )):
n
o
kX − E[X|G]k2 = inf kX − W k2 : W ∈ L2 (Ω, G, P)
sowie hX − E[X|G], W i = 0
∀ W ∈ L2 (Ω, G, P).
Norbert Henze, KIT
9.9
Bedingte Erwartungswerte und bedingte Erwartungen
Memo: Z.z.: E(X 2 ) < ∞ =⇒ E[X|G] ist Orthog.proj. auf L2 (Ω, G, P).
Beweis: Sei L2 (G) := L2 (Ω, G, P) sowie ∆ := inf kX − W k : W ∈ L2 (G) .
Wir zeigen zunächst: Es gibt ein Y ∈ L2 (G) mit kX − Y k = ∆.
Def. von ∆ =⇒ ∃ Folge (Yn ) aus L2 (G) mit limn→∞ kX − Yn k = ∆. Es gilt
2
1
1
kX − Ym k2 + kX − Yn k2 = 2 X − (Ym + Yn ) + kYm − Yn k2 (!)
2
2
1
≥ 2 ∆2 + kYm − Yn k2 , m, n ≥ 1.
2
Somit ist (Yn ) eine Cauchy-Folge (warum?).
L2 (G) vollständig (Analysis 3) =⇒ ∃Y ∈ L2 (G) mit kYn − Y k → 0. Wegen
kX − Y k ≤ kX − Yn k + kYn − Y k
folgt für n → ∞: kX − Y k = ∆.
Beachte: Es gilt E|Y | < ∞ (warum?), und Y ist G-messbar.
Norbert Henze, KIT
9.10
Bedingte Erwartungswerte und bedingte Erwartungen
Memo: Noch zu zeigen:
Z
Y dP =
A
Z
A
X dP ∀A ∈ G.
Memo: kX − Y k = inf{kX − W k : W ∈ L2 (G)}.
Beachte: Für jedes W ∈ L2 (G) und jedes t ∈ R gilt Y + tW ∈ L2 (G).
Es folgt kX − Y − tW k2 ≥ kX − Y k2 und somit
−2t hW, X − Y i + t2 kW k2
| {z }
≥
0
(t ∈ R, W ∈ L2 (G)).
= E[W (X − Y )]
Da diese Ungleichung für jedes t gilt, ergibt sich
E [W (X − Y )] = 0
für jedes W ∈ L2 (G).
Speziell: W = 1A , A ∈ G =⇒
Z
Z
X dP = E[1A X] = E[1A Y ] =
Y dP.
A
A
Norbert Henze, KIT
9.11
Bedingte Erwartungswerte und bedingte Erwartungen
Memo: E[X|G] ist G-messbar,
R
A
E[X|G] dP =
R
A
X dP ∀A ∈ G
9.8 Satz (Eigenschaften der bedingten Erwartung I)
Es seien (Ω, A, P) ein W-Raum, G eine Sub-σ-Algebra von A und X, Y ∈
L1 (Ω, A, P). Dann gelten (bei b)-d) jeweils P-fast sicher):
a) E (E[X|G]) = EX,
(iterierte Erwartungswertbildung)
b) Ist X G-messbar, so gilt E[X|G] = X,
c) E[aX + bY |G] = a E[X|G] + b E[Y |G],
a, b ∈ R,
d) Falls X ≤ Y P-f.s., so folgt E[X|G] ≤ E[Y |G].
(Linearität)
(Monotonie)
Beweis: a) und b) folgen direkt aus der Definition von E[X|G]. (!)
c): Die rechte Seite ist G-messbar sowie P-integrierbar, und für A ∈ G gilt
R
R
R
a E[X|G] + b E[Y |G] dP = a A E[X|G] dP + b A E[Y |G] dP
A
R
R
R
= a A X dP + b A Y dP = A (aX + bY ) dP.
d): Sei A := {E[X|G] > E[Y |G]} (∈ G). Mit X ≤ Y P-f.s. ergibt sich
0 ≤ E[1A (Y − X)] = E[1A (E[Y |G] − E[X|G])]. Hieraus folgt P(A) = 0.
Norbert Henze, KIT
9.12
Bedingte Erwartungswerte und bedingte Erwartungen
9.9 Alternativer Nachweis der Existenz von E[X|G]
In 9.4 sei o.B.d.A. X ≥ 0 (sonst: X = X + − X − ).
Sei Xn := min(X, n) ↑ X. Beachte: Xn ∈ L2 .
Nach Satz 9.7 existiert Yn := E[Xn |G], n ≥ 1. Wegen Xn ≤ Xn+1 folgt mit
Satz 9.8 d): Yn ≤ Yn+1 P-f.s., n ≥ 1.
Sei Y := limn→∞ Yn (auf einer Eins-Menge, Y := 0, sonst).
Y ist G-messbar (warum?), und es gilt für jedes A ∈ G:
Z
h
i
lim Yn 1A
Y dP = E Y 1A = E
n→∞
A
h
i
= E lim (Yn 1A ) = lim E Yn 1A
n→∞
n→∞
= lim E Xn 1A
(warum?)
n→∞
i
h
= E
lim Xn 1A
(warum?)
n→∞
Z
= E X1A =
X dP.
(warum?)
A
Norbert Henze, KIT
9.13
Bedingte Erwartungswerte und bedingte Erwartungen
9.10 Satz (Eigenschaften der bedingten Erwartung II)
In der Situation von 9.8 gelten (jeweils P-fast sicher):
a) Gilt E|XY | < ∞ und ist Y G-messbar, so folgt
E[XY |G] = Y E[X|G]. (G-messbare Faktoren wirken wie Konstanten)
b) Ist F ⊂ G eine Sub-σ-Algebra von G, so gilt
E[X|F] = E E[X|G]|F .
c) E[X|G] ≤ E |X|G .
(Turmeigenschaft)
(Dreiecksungleichung)
d) Sind X und G unabhängig, so gilt E[X|G] = E(X).
Beweis: a) Seien o.B.d.A. X ≥ 0 und Y ≥ 0 (warum?).
Die rechte Seite ist G-messbar. Zu zeigen:
R
R
Y E[X|G] dP = A XY dP
A
∀A ∈ G.
(9.1)
Wähle speziell Y = 1{B} mit B ∈ G. Dann geht (9.1) über in
R
R
=⇒ (9.1) gilt wegen A ∩ B ∈ G.
E[X|G] dP = A∩B X dP
A∩B
Weiter mit algebraischer Induktion! (Linearität und MON)
Norbert Henze, KIT
9.14
Bedingte Erwartungswerte und bedingte Erwartungen
Memo: b) Z.z.: F ⊂ G =⇒ E[X|F] = E E[X|G]|F
Sei A ∈ F (und damit auch A ∈ G). Es folgt
Z
Z
Z
Z
E E[X|G]F dP =
E[X|G] dP =
X dP =
E[X|F] dP.
A
A
A
A
Memo: c) Z.z.: E[X|G] ≤ E |X|G .
Es ist X = X + − X − und |X| = X + + X − . Linearität von E[ · |G] =⇒
E[|X||G] = E[X + |G] + E[X − |G] und E[X|G] = E[X + |G] − E[X − |G].
Wegen X + ≥ 0, X − ≥ 0 folgt aus Satz 9.8 d) E[X + |G] ≥ 0, E[X − |G] ≥ 0
und damit die Behauptung.
Memo: d) Z.z.: X, G unabhängig =⇒ E[X|G] = E(X).
Die konstante Abbildung E(X) ist G-messbar. Sei A ∈ G beliebig. Dann sind X
und 1A unabhängig. Es folgt
Z
Z
Z
E[X|G] dP =
X dP = E(X1A ) = E(X) P(A) =
E(X) dP.
A
A
A
Norbert Henze, KIT
9.15
Bedingte Erwartungswerte und bedingte Erwartungen
9.11 Satz (bedingte Versionen der Konvergenzsätze)
Es seien X, X1 , X2 , . . . integrierbare Zufallsvariablen auf (Ω, A, P) und G ⊂ A
eine Sub-σ-Algebra von A. Dann gelten:
a) Ist 0 ≤ Xn ↑ X, so folgt
E [Xn |G] → E [X|G]
P-fast sicher.
f.s.
b) Gelten Xn −→ X sowie |Xn | ≤ Y P-f.s., n ≥ 1, für eine Zufallsvariable Y
mit E|Y | < ∞, so folgt
E [Xn |G] → E [X|G]
P-fast sicher.
Beweis: Übungsaufgabe.
Hinweis für b): Für die durch
Zn := sup Xk − X k≥n
definierte Folge (Zn ) gilt Zn ↓ 0 P-f.s. Nach Satz 9.8 c) und Satz 9.10 c) gilt
weiter (!)
E[Xn |G] − E[X|G] ≤ E Zn |G .
Norbert Henze, KIT
9.16
Bedingte Erwartungswerte und bedingte Erwartungen
9.12 Satz (Jensen-Ungleichung für bedingte Erwartungen)
Seien g : R → R eine konvexe Funktion und X ∈ L1 (Ω, A, P) mit E|g(X)| < ∞.
Ist G ⊂ A eine Sub-σ-Algebra von A, so gilt
E g(X)|G ≥ g E[X|G)] .
Beweis: Für x ∈ R sei D+ g(x) die maximale Tangentensteigung von g an der
Stelle x, also der maximale Wert t mit
g(y) ≥ t(y − x) + g(x),
y ∈ R.
Die Abbildung R ∋ x 7→ D+ g(x) ist monoton wachsend, also messbar. Damit
ist D+ g(E[X|G]) eine G-messbare Zufallsvariable. Es folgt
g(X) ≥ D+ g(E[X|G]) · (X − E[X|G]) + g(E[X|G])
und somit
(9.8 d))
E[ g(X)|G ] ≥ E D+ g(E[X|G]) · (X − E[X|G]) + g(E[X|G])G
+
= E D g(E[X|G]) · (X − E[X|G]) |G + E g(E[X|G])G
(9.8 c))
= D+ g(E[X|G]) · E X − E[X|G]G + E g(E[X|G])G
(9.10 a))
= g(E[X|G]).
(9.8 b))
Norbert Henze, KIT
9.17
Bedingte Erwartungswerte und bedingte Erwartungen
9.13 Satz (eine von X und G unabhängige σ-Algebra ist irrelevant)
In der Situation von 9.8 sei H ⊂ A eine weitere Sub-σ-Algebra von A. Sind H
und σ(σ(X) ∪ G) stochastisch unabhängig, so gilt
E[X|G] = E[X|σ(G ∪ H)].
Beweis: Sei o.B.d.A. X ≥ 0 (!). Setze
R
R
µ(A) := A X dP, ν(A) := A E[X|G] dP,
A ∈ σ(G ∪ H).
Dann sind µ und ν endliche Maße auf σ(G ∪ H) mit µ|G = ν|G . (warum?)
Beachte: E[X|G] ∈ L1 (Ω, σ(G ∪ H), P) =⇒ nur µ = ν zu zeigen.
Sei M := {G ∩ H : G ∈ G, H ∈ H} =⇒ M ∩-stabil, und σ(M) = σ(G ∪ H).
(warum?) Zeige: µ(M ) = ν(M ) ∀M ∈ M (q.e.d. wg. Maß-Eindeutigkeitssatz).
Seien G ∈ G, H ∈ H. Vorauss. =⇒ 1H und X1G stoch. unabhängig. (warum?)
R
=⇒ G∩H X dP = µ(G ∩ H) = E (1H · X1G ) = (E1H )E(X1G ) = P(H) µ(G).
Da 1H und E[X|G]1G unabh. sind, folgt ebenso ν(G ∩ H) = P(H)ν(G).
Beachte: Satz 9.10 d) ergibt sich mit H := G und G := {∅, Ω} als Spezialfall.
Norbert Henze, KIT
9.18
Bedingte Erwartungswerte und bedingte Erwartungen
Memo: H, σ(σ(X) ∪ G) unabh. =⇒ E[X|G] = E[X|σ(G ∪ H)]
9.14 Beispiel
Die Zufallsvariablen X, Y und Z seien stochastisch unabhängig, und es gelte
EX 2 < ∞, EZ 2 < ∞. Dann gilt (stets P-f.s.):
E 3X 2 Z − 5Z 2 + 4X σ(Y, Z)
(σ(Y, Z) = σ(σ(Y ) ∪ σ(Z)))
=
=
=
=
(9.13 mit G = σ(Z), H = σ(Y ))
E 3X 2 Z − 5Z 2 + 4X σ(Z)
2 2
3 E X Z σ(Z) − 5 E Z σ(Z) + 4 E[X|σ(Z)]
(9.8 c))
3 Z E X 2 σ(Z) − 5 Z 2 E[1|σ(Z)] + 4 E[X|σ(Z)]
(9.10 a))
3 Z EX 2 − 5 Z 2 + 4 EX.
(9.10 d))
In diesem Beispiel ist die bedingte Erwartung gegeben σ(Z) eine (messbare)
Funktion der Zufallsvariablen Z.
Dass hier ein allgemeiner Sachverhalt vorliegt, wird durch das nachfolgende
Lemma begründet.
Norbert Henze, KIT
9.19
Bedingte Erwartungswerte und bedingte Erwartungen
9.15 Satz (Faktorisierungslemma)
Seien Ω 6= ∅, (Ω′ , A′ ) ein messbarer Raum sowie Z : Ω → Ω′ , Y : Ω → R
Abbildungen. Dann sind folgende Aussagen äquivalent:
a) Y ist (Z −1 (A′ ), B)-messbar
′
(⇐⇒ σ(Y ) ⊂ σ(Z))
b) Es gibt eine (A , B)-messbare Funktion h : Ω′ → R mit Y = h ◦ Z.
Beweis: b) =⇒ a)“: Die Verkettung messbarer Funktionen ist messbar!
”
Z
✲ (Ω′ , A′ )
(Ω, Z −1 (A′ ))
PP
PP
P
Y PPP
PP
q
h
❄
(R, B)
a) =⇒ b)“: Algebraische Induktion! Sei o.B.d.A. Y ≥ 0 (warum?). Ist
”
P
Y = kj=1 αj 1{Aj } mit αj ∈ R≥0 , Aj = Z −1 (A′j ), A′j ∈ A′
Pk
′
eine Elementarfunktion, so setze h :=
j=1 αj 1{Aj } =⇒ Y = h ◦ Z. Ist
Y ≥ 0, so gilt Yn ↑ Y mit Elementarfunktionen Yn und Yn = hn ◦ Z mit
(A′ , B)-mb. Funktionen hn : Ω′ → R. Dann ist Y = h ◦ Z mit h = supn≥1 hn .
Norbert Henze, KIT
9.20
Bedingte Erwartungswerte und bedingte Erwartungen
9.16 Definition und Folgerung
Seien (Ω, A, P) ein W-Raum, (Ω′ , A′ ) ein messbarer Raum, Z : Ω → Ω′ eine
(A, A′ )-messbare Abbildung und X ∈ L1 (Ω, A, P). Dann heißt
E[X|Z] := E[X|σ(Z)]
bedingte(r) Erwartung(swert) von X gegeben Z (oder unter der Bedingung Z).
Falls speziell (Ω′ , A′ ) = (Rk , Bk ) und Z =: (Z1 , . . . , Zk ), so schreiben wir
E [X|Z1 , . . . , Zk ] := E[X|Z].
Nach Satz 9.15 ist E[X|Z] eine messbare Funktion h von Z, also E[X|Z] = h◦Z.
Die Funktion h : Ω′ → R heißt (eine) Faktorisierung von E[X|Z].
Wegen σ(Z) = Z −1 (A′ ) gilt für jedes A′ ∈ A′ :
Z
Z
Z
Z
h dPZ =
h ◦ Z dP =
E[X|σ(Z)] dP =
A′
Z −1 (A′ )
Z −1 (A′ )
X dP.
Z −1 (A′ )
Beachte: Die Funktion h ist PZ -f.ü. eindeutig bestimmt, denn: Ist g : Ω′ → R
eine weitere Faktorisierung, so folgt mit Satz 1.23
R
R
g dPZ = A′ h dPZ , A′ ∈ A′ =⇒ g = h PZ -f.s.
A′
Norbert Henze, KIT
9.21
Bedingte Erwartungswerte und bedingte Erwartungen
Memo:
R
A′
h dPZ =
R
Z −1 (A′ )
h ◦ Z dP =
R
Z −1 (A′ )
X dP,
A′ ∈ A′ .
9.17 Bemerkung und Definition (bedingter Erwartungswert unter Z = z)
Ist in 9.16 h : Ω′ → R eine Faktorisierung von E[X|Z], so heißt
E[X|Z = z] := h(z)
(ein) bedingter Erwartungswert von X unter der Bedingung Z = z.
Die E[X|Z = z] PZ -f.s. charakterisierende Gleichung ist
Z
Z
E[X|Z = z] PZ (dz) =
X dP, A′ ∈ A′ .
A′
Z −1 (A′ )
Für A′ := Ω′ ergibt sich speziell
Z
EX =
E[X|Z = z] PZ (dz) (iterierte Erwartungswertbildung)
Ω′
9.18 Beispiel (Z ist diskret verteilt)
P
Falls P(Z = zj ) > 0 für j ≥ 1 und j≥1 P(Z = zj ) = 1, so gilt
X
E[X|Z = zj ] P(Z = zj ), vgl. Einf. in die Stochastik.
EX =
j≥1
Norbert Henze, KIT
9.22
Bedingte Erwartungswerte und bedingte Erwartungen
Memo:
R
A′
E[X|Z = z] PZ (dz) =
R
Z −1 (A′ )
X dP, A′ ∈ A′ .
9.19 Definition und Bemerkung (bedingte Wahrscheinlichkeit)
In der Situation von 9.16 heißt für jedes A ∈ A
P(A|Z) := P(A|σ(Z)) := E 1A Z
(eine) bedingte Wahrscheinlichkeit von A unter (der Bedingung) Z.
P(A|Z = z) := E 1A Z = z
heißt (eine) bedingte Wahrscheinlichkeit von A unter (der Bedingung) Z = z.
Die charakteristische Gleichung (siehe Memo) wird für X = 1A zu
Z
P(A|Z = z) PZ (dz) = P(A ∩ {Z ∈ A′ }), A′ ∈ A′ .
A′
′
′
Für A = Ω folgt speziell
P(A) =
Z
P(A|Z = z) PZ (dz),
Ω′
A ∈ A.
Norbert Henze, KIT
9.23
Bedingte Erwartungswerte und bedingte Erwartungen
Memo: P(A) =
R
Ω′
P(A|Z = z) PZ (dz),
9.20 Beispiel (Z ist diskret verteilt)
P
Falls P(Z = zj ) > 0 für j ≥ 1 und
P(A) =
X
j≥1
A ∈ A.
P(Z = zj ) = 1, so gilt
P(A|Z = zj ) P(Z = zj ), vgl. Einf. in die Stochastik.
j≥1
(Formel von der totalen Wahrscheinlichkeit)
Norbert Henze, KIT
9.24
Bedingte Erwartungswerte und bedingte Erwartungen
Memo:
R
A′
P(A|Z = z) PZ (dz) = P(A ∩ {Z ∈ A′ }),
A′ ∈ A′
(CG)
Beachte: Sind A1 , A2 , . . . ∈ A paarweise disjunkt und A′ ∈ A′ , so gilt:
!
!
!
Z
∞
∞
X
X
′
Z
Aj ∩ {Z ∈ A }
Aj Z = z P (dz) = P
(CG)
P
A′
j=1
j=1
=
∞
X
j=1
=
∞ Z
X
j=1
=
Es folgt P
∞
X
j=1
Aj Z = z
!
=
∞
X
j=1
P Aj ∩ {Z ∈ A′ }
Z
A′
∞
X
A′ j=1
(σ-Add.)
P (Aj |Z = z) PZ (dz)
(CG)
P (Aj |Z = z) PZ (dz).
(MON)
P (Aj |Z = z) für PZ -fast alle z.
Die Ausnahmemenge hängt im Allg. von der Folge A1 , A2 , . . . ab!
Frage: Gibt es PZ -Nullmenge N , so dass für jedes z ∈ Ω′ \ N die Zuordnung
A ∋ A 7→ P(A|Z = z) ein W-Maß ist? Antwort: Unter allgem. Vorauss. ja!
Norbert Henze, KIT
9.25
Bedingte Erwartungswerte und bedingte Erwartungen
Memo: Zerlegung einer gemeinsamen Verteilung, vgl. Satz 8.14
k
k
ℓ
ℓ
(Z,X)
=⇒ ∃ ÜW PX
= PZ ⊗ PX
Z von (R , B ) nach (R , B ) mit P
Z , d.h.:
ℓ
k
PX
Z (z, ·) ist ein W-Maß auf B für jedes z ∈ R ,
k
ℓ
Rk ∋ z 7→ PX
Z (z, B) ist B -messbar für jedes B ∈ B .
PX
Z heißt bedingte Verteilung von X gegeben Z.
X
PX
Z=z (·) = PZ (z, ·) heißt bedingte Verteilung von X unter der Bedingung
Z = z.
Die Darstellung P(Z,X) = PZ ⊗ PX
Z ist in folgendem Sinn eindeutig: Falls
P(Z,X) = Q1 ⊗ Q1,2
mit einem W-Maß Q1 auf Bk und einer ÜW Q1,2 von (Rk , Bk ) nach (Rℓ , Bℓ ),
so gelten:
Q 1 = PZ ,
k
∃ N ∈ Bk mit PZ (N ) = 0 und Q1,2 (z, ·) = PX
Z (z, ·) ∀z ∈ R \ N .
Norbert Henze, KIT
9.26
Bedingte Erwartungswerte und bedingte Erwartungen
9.21 Satz (bedingter E-Wert als E-Wert der bedingten Verteilung)
In der Situation von Satz 8.14 sei X reellwertig, und es gelte E|X| < ∞. Dann
ist
Z
h(z) :=
x PX
z ∈ Rk ,
Z=z (dx),
R
ein bedingter Erwartungswert von X unter Z = z.
Beweis: Zu zeigen: h erfüllt die charakteristische Gleichung
Z
Z
E[X|Z = z] PZ (dz) =
X dP,
A′ ∈ A′ ,
A′
Z −1 (A′ )
′
k
′
aus 9.17. Sei A =: B ∈ B := A . Setze T (Z, X) := X · (1B ◦ Z) =⇒
Z
Z
Z
X dP =
X · (1B ◦ Z) dP =
T (Z, X) dP
Z −1 (B)
=
=
=
Z
Z
Z
Ω
Ω
T (z, x) P(Z,X) (d(z, x))
(Trafo-Satz)
B×R
x · 1B (z) P(Z,X) (d(z, x))
Z
x PX
(dx)
PZ (dz)
Z=z
B×R
B
(Fubini für ÜW’en)
R
Norbert Henze, KIT
9.27
Bedingte Erwartungswerte und bedingte Erwartungen
9.22 Folgerung
In der Situation von Satz 8.14 sei X reellwertig mit E|X| < ∞, und es gelte
P(Z,X) = f µ ⊗ ν mit σ-endlichen Maßen µ und ν auf Bk bzw. B. Weiter sei
f (x|z) = R
R
f (z, x)
f (z, x)
=:
,
f1 (z)
f (z, y) ν(dy)
falls f1 (z) > 0,
und f (x|z) := g0 (x), sonst. Dabei ist g0 eine beliebige W-Dichte bzgl. ν über
R. Dann ist
Z ∞
E[X|Z = z] =
x f (x|z) ν(dx)
−∞
ein bedingter Erwartungswert von X unter Z = z.
Norbert Henze, KIT
9.28
Bedingte Erwartungswerte und bedingte Erwartungen
9.23 Satz (Berechnung von Ef (Z, X))
Es seien (Ω, A, P) ein W-Raum und Z : Ω → Rk , X : Ω → Rℓ Zufallsvektoren.
Weiter sei f : Rk+ℓ → R eine (Bk+ℓ , R)-messb. Funktion mit E|f (Z, X)| < ∞.
Dann gilt
Z
Ef (Z, X) =
E f (Z, X)Z = z PZ (dz),
Rk
wobei
E f (Z, X)Z = z :=
Z
f (z, x) PX
Z=z (dx).
Rℓ
Beweis: Mit P(Z,X) = PZ ⊗ PX
Z und dem Satz von Fubini für
Übergangswahrscheinlichkeiten folgt
Z
Z hZ
i
Z
Ef (Z, X) =
f (z, x) P(Z,X) (d(z, x)) =
f (z, x) PX
Z (z, dx) P (dz).
Rk+ℓ
Rk
Rℓ
| {z }
= PX
Z=z (dx)
Bemerkung: h(z) := E[f (Z, X)|Z = z] ist eine Faktorisierung von
E[f (Z, X)|σ(Z)] (Beweis analog zu Beweis von Satz 9.21).
Norbert Henze, KIT
9.29
Stoppzeiten und Martingale
10 Stoppzeiten und Martingale
Soll sie stoppen? Eine Sechs wirft sie auf 0 Punkte zurück.
Norbert Henze, KIT
10.1
Stoppzeiten und Martingale
Es seien (Ω, A, P) ein W-Raum und (Ω′ , A′ ) ein messbarer Raum.
10.1 Definition (Filtration, Stoppzeit, Adaptiertheit)
a) Eine aufsteigende Folge F := (Fn )n≥0 von Sub-σ-Algebren von A, d.h.
Fn ⊂ Fn+1 ⊂ A,
n ∈ N0 ,
heißt Filtration.
b) Eine Abbildung τ : Ω → N0 ∪ {∞} heißt Stoppzeit bezüglich der Filtration
F = (Fn )n≥0 , falls gilt:
{τ = n} ∈ Fn für jedes n ∈ N0 .
(10.1)
Gilt P(τ < ∞) = 1, so heißt τ endlich.
c) Eine Folge (Xn )n∈N0 von Zufallsvariablen Xn : Ω → Ω′ heißt (an F)
adaptiert, falls gilt: Xn ist Fn -messbar für jedes n ≥ 0.
d) In c) heißt die durch
FnX := σ(X0 , X1 , . . . , Xn )
definierte Filtration FX := (FnX )n≥0 die natürliche Filtration von
(Xn )n≥0 .
Norbert Henze, KIT
10.2
Stoppzeiten und Martingale
Memo: Filtration: Fn ⊂ Fn+1 ⊂ A
Memo:
Stoppzeit τ : Ω → N0 ∪{∞} : {τ = n} ∈ Fn ∀ n ∈ N0
10.2 Bemerkungen
a) Interpretation: Deute 0, 1, 2, . . . als Zeitpunkte. Zum Zeitpunkt n kann
Eintreten bzw. Nichteintreten der Ereignisse aus Fn beobachtet werden.
Filtration modelliert Informationsgewinn mit fortschreitender Zeit“.
”
Speziell: FnX = σ(X0 , . . . , Xn ) enthält die durch X0 , . . . , Xn
beschreibbaren Ereignisse.
Die Folge (Xn ) ist an (FnX ) adaptiert (warum?).
b) Intuitive Vorstellung des Begriffs Stoppzeit:
Man kann ein Glücksspiel (oder eine Finanztransaktion) zu einem
zufallsabhängigen Zeitpunkt beenden. Die Bedingung {τ = n} ∈ Fn
besagt, dass zum Stoppen nur die (bis) zum Zeitpunkt n vorhandene
Information einfließt.
c) Falls nur endlich viele Zufallsvariablen X0 , . . . , Xk vorliegen, so
F0 ⊂ . . . ⊂ Fk ⊂ A. Dann: Stoppzeit τ : Ω → {0, 1, . . . , k},
{τ = n} ∈ Fn für 0 ≤ n ≤ k.
Norbert Henze, KIT
10.3
Stoppzeiten und Martingale
Memo:
Stoppzeit τ : Ω → N0 ∪{∞} : {τ = n} ∈ Fn ∀ n ∈ N0
10.3 Satz (Charakterisierung einer Stoppzeit)
Eine Abbildung τ : Ω → N0 ∪ {∞} ist genau dann eine Stoppzeit, wenn gilt:
{τ ≤ n} ∈ Fn
für jedes n ∈ N0 .
Beweis: Aus (10.1) folgt {τ = k} ∈ Fk ⊂ Fn für jedes k ≤ n und somit
S
{τ ≤ n} = n
k=0 {τ = k} ∈ Fn .
Umgekehrt ergibt sich aus {τ ≤ n} ∈ Fn für jedes n ∈ N0 :
{τ = n} = {τ ≤ n} \ {τ ≤ n − 1} ∈ Fn .
10.4 Folgerung
Seien τ1 und τ2 Stoppzeiten bezüglich einer Filtration (Fn ). Dann sind auch
τ1 + τ2 ,
max(τ1 , τ2 ),
min(τ1 , τ2 )
Stoppzeiten bezüglich (Fn ).
Beweis: Übungsaufgabe!
Norbert Henze, KIT
10.4
Stoppzeiten und Martingale
10.5 Beispiele
a) Die wichtigsten Stoppzeiten sind sogenannte Ersteintrittszeiten:
Seien (Xn )n≥0 eine Folge (Ω′ , A′ )-wertiger Zufallsvariablen und A′ ∈ A′ .
Dann ist (mit der Konvention inf ∅ := ∞) die durch
τ := inf{n ≥ 0 : Xn ∈ A′ }
definierte Ersteintrittszeit in die Menge A′ eine Stoppzeit bezüglich der
natürlichen Filtration FX . Beachte: Für jedes n ∈ N0 gilt:
{τ = n} = {Xn ∈ A′ } ∩
n−1
\
j=0
{Xj ∈
/ A′ } ∈ σ(X0 , . . . , Xn ).
b) Eine triviale Stoppzeit ist die feste Stoppzeit τ (ω) := c, ω ∈ Ω, für ein
vorgegebenes c ∈ N0 , denn es gilt
(
Ω, falls n = c,
{τ = n} =
∅, falls n 6= c.
c) Keine Stoppzeit ist (im Allg.) τ := inf{n ≥ 0 : Xn = Xn+1 }.
Norbert Henze, KIT
10.5
Stoppzeiten und Martingale
10.6 Definition (σ-Algebra der τ -Vergangenheit)
Sei τ eine Stoppzeit bzgl. einer Filtration (Fn ). Dann heißt das Mengensystem
Aτ := A ∈ A : A ∩ {τ ≤ n} ∈ Fn für jedes n ∈ N0
die σ-Algebra der τ -Vergangenheit.
(Warum ist Aτ eine σ-Algebra?)
10.7 Satz
Seien τ eine endliche Stoppzeit bezüglich einer Filtration (Fn ) und (Xn )n≥0
ein Folge reeller adaptierter Zufallsvariablen. Dann ist die durch
Xτ (ω) (ω) , falls τ (ω) < ∞,
Xτ : Ω → R, ω → Xτ (ω) :=
0
, falls τ (ω) = ∞,
definierte Abbildung Aτ -messbar.
Beweis: Sei B eine beliebige Borelmenge. Für jedes n ∈ N0 gilt
S
{Xτ ∈ B} ∩ {τ ≤ n} = n
k=0 ({Xk ∈ B} ∩ {τ = k}) ∈ Fn (!)
Def. von Aτ =⇒ {Xτ ∈ B} = Xτ−1 (B) ∈ Aτ .
Norbert Henze, KIT
10.6
Stoppzeiten und Martingale
10.8 Beispiel Urne mit 5 Kugeln, davon tragen 3 die Zahl −1“ und 2 die
”
Zahl +1“. Rein zufällig ohne Zurücklegen ziehen. Man darf jederzeit stoppen.
”
Die Summe der erhaltenen Werte ist der Gewinn.
Gibt es eine Stoppregel, sodass der erwartete Gewinn positiv ist?
Modell:
5
n
o
X
Ω := ω := (a1 , . . . , a5 ) ∈ {−1, 1}5 :
1{aj = 1} = 2 ,
j=1
P sei die Gleichverteilung auf Ω. Xj (ω) := aj (Projektions-Abbildungen). Setze

1 , falls X1 (ω) = 1,



2 , falls X (ω) = −1, X (ω) = 1,
1
2
τ (ω) :=

4
,
falls
X
1 (ω) = X2 (ω) = −1, X3 (ω) = X4 (ω) = 1,



5 , falls X1 (ω) = X2 (ω) = −1, X3 (ω) · X4 (ω) = −1.
P
Beachte: Mit Sn := n
j=1 Xj ist die gestoppte Summe Sτ der Gewinn.
E (Sτ )
=
=
1 · P(Sτ = 1) + (−1) · P(Sτ = −1)
3 2 2
1
2
= .
1· − · ·
5
5 4 3
5
Norbert Henze, KIT
10.7
Stoppzeiten und Martingale
10.9 Definition (Submartingal, Supermartingal, Martingal)
Es seien (Ω, A, P) ein W-Raum, F = (Fn )n≥0 eine Filtration und (Xn )n≥0
eine adaptierte Folge reeller P-integrierbarer Zufallsvariablen. Die Folge (Xn )n≥0
heißt (bzgl. F) ein
a) Submartingal, falls für jedes n ∈ N0 gilt: E[Xn+1 |Fn ] ≥ Xn P-f.s.,
b) Supermartingal, falls für jedes n ∈ N0 gilt: E[Xn+1 |Fn ] ≤ Xn P-f.s.,
c) Martingal, falls für jedes n ∈ N0 gilt: E[Xn+1 |Fn ] = Xn P-f.s.
Beachte: Im Spezialfall FnX = σ(X0 , . . . , Xn ) (natürliche Filtration) lassen wir
den Zusatz bzgl. (Fn )“ weg und sprechen kurz von einem Submartingal (bzw.
”
Supermartingal bzw. Martingal).
Die obigen Definitionen nehmen dann folgende Gestalt an:
E[Xn+1 |X0 , . . . , Xn ]
≥
Xn P-f.s.
(Submartingal),
E[Xn+1 |X0 , . . . , Xn ]
≤
Xn P-f.s.
(Supermartingal),
E[Xn+1 |X0 , . . . , Xn ]
=
Xn P-f.s.
(Martingal).
Norbert Henze, KIT
10.8
Stoppzeiten und Martingale
Memo: Submartingal: E[Xn+1 |X0 , . . . , Xn ] ≥ Xn
Memo: Supermartingal: E[Xn+1 |X0 , . . . , Xn ] ≤ Xn
Memo: Martingal: E[Xn+1 |X0 , . . . , Xn ] = Xn
10.10 Bemerkungen
a) Interpretation im Zusammenhang mit einem zu den Zeiten 0, 1, 2, . . .
durchgeführten Glücksspiel:
Xn ist Kapital eines Spielers zum Zeitpunkt n (vor dem (n + 1)-ten Spiel).
Martingaleigenschaft besagt: Spiel ist in dem Sinne fair, dass das erwartete
Kapital nach dem nächsten Spiel gleich dem Kapital vor diesem Spiel ist.
In diesem Sinn modellieren also Submartingale bzw. Supermartingale die
Kapitalstände bei Spielen, die prinzipiell vorteilhaft bzw. unvorteilhaft sind
=⇒ Eselsbrücke“ für Richtung der Ungleichung bei Supermartingal:
”
Ein Supermartingal ist für den Spieler gar nicht super!.
b) Das Konzept des Martingals geht auf P. Lévy zurück. Die sog. Martingale
ist eine Glücksspielstrategie (nach verlorenem Spiel verdoppeln).
c) (Xn )n≥0 Submartingal ⇐⇒ (−Xn )n≥0 Supermartingal,
(Xn )n≥0 Martingal ⇐⇒ (Xn )n≥0 Supermartingal und Submartingal.
Norbert Henze, KIT
10.9
Stoppzeiten und Martingale
10.11 Bemerkung Sei (Xn )n≥0 ein Submartingal bzgl. (Fn ). Dann gilt für jede
Wahl von m und n mit m > n ≥ 0:
E[Xm |Fn ] ≥ Xn
P-f.s.
(Übungsaufgabe)
Diese Ungleichung kehrt sich für Supermartingale um. Insbesondere folgt:
(Xn ) Submartingal =⇒ E(Xn ) ≤ E(Xn+1 ), n ≥ 0,
(Xn ) Supermartingal =⇒ E(Xn ) ≥ E(Xn+1 ), n ≥ 0,
(Xn ) Martingal =⇒ E(X0 ) = E(X1 ) = E(X2 ) = . . ..
10.12 Satz (Test eines Sub- oder Supermartingals auf ein Martingal)
Es sei (Xn ) ein Submartingal oder Supermartingal. Dann gilt:
(Xn ) Martingal ⇐⇒ EXn = E(X0 ) ∀ n ≥ 1.
Beweis: Sei (Xn ) o.B.d.A. ein Submartingal. Zu zeigen ist nur:
E(Xn ) = E(X0 ), n ≥ 1 =⇒ (Xn ) Martingal. (Xn ) Submartingal =⇒
E Xn+1 |Fn − Xn ≥ 0 P-f.s.
R
Wegen Ω E Xn+1 |Fn − Xn dP = EXn+1 − EXn = 0 folgt die Beh.
Norbert Henze, KIT
10.10
Stoppzeiten und Martingale
10.13 Beispiel (Partialsummen unabhängiger Zufallsvariablen)
Seien Y0 , Y1 , . . . unabhängige Zufallsvariablen mit E|Yn | < ∞, n ≥ 0. Sei
Xn :=
n
X
j=0
Yj ,
n ≥ 0.
Dann gilt (jeweils P-fast sicher):
E[Xn+1 |X0 , . . . , Xn ]
=
=
=
Also:
(Xn ) Martingal
(Xn ) Submartingal
(Xn ) Supermartingal
⇐⇒
⇐⇒
⇐⇒
E[Yn+1 + Xn |X0 , . . . , Xn ]
E[Yn+1 |X0 , . . . , Xn ] + Xn
E Yn+1 + Xn .
EYn = 0 für jedes n,
EYn ≥ 0 für jedes n,
EYn ≤ 0 für jedes n.
Norbert Henze, KIT
10.11
Stoppzeiten und Martingale
10.14 Beispiel (Produkte unabhängiger Zufallsvariablen)
Seien Z0 , Z1 , . . . unabhängige P-integrierbare Zufallsvariablen mit EZj = 1 für
jedes j ≥ 0. Setzen wir
Xn := Z0 · . . . · Zn ,
n ≥ 0,
so gilt nach der Multiplikationsformel für Erwartungswerte (ES Satz 25.3)
E|Xn | < ∞, n ≥ 0.
Für jedes n ≥ 0 gilt (stets P-fast sicher):
E[Xn+1 |X0 , . . . , Xn ]
=
=
=
=
E[Zn+1 Xn |X0 , . . . , Xn ]
Xn · E[Zn+1 |X0 , . . . , Xn ]
Xn · EZn+1
(9.10 a))
(9.10 d))
Xn .
Produkte unabhängiger Zufallsvariablen mit gleichem Erwartungswert 1 bilden
somit ein Martingal.
Die obige Gleichungskette zeigt, dass die Voraussetzung EZj ≥ 1 für jedes
j ≥ 0 zu einem Submartingal führt.
Norbert Henze, KIT
10.12
Stoppzeiten und Martingale
10.15 Das Doobsche Martingal
Es seien (Ω, A, P) ein W-Raum, X eine reelle Zufallsvariable auf Ω mit
E|X| < ∞ und (Fn )n≥0 , Fn ⊂ A, eine Filtration. Dann ist
Xn := E[X|Fn ],
n ≥ 0,
ein Martingal (das sog. Doobsche Martingal).
Beweis: Wegen E|X| < ∞ ist auch Xn P-integrierbar.
Nach Definition von E[X|Fn ] ist Xn Fn -messbar.
Somit ist die Folge (Xn ) adaptiert.
Mit der Turmeigenschaft (Satz 9.10 b)) folgt:
E[Xn+1 |Fn ] = E E[X|Fn+1 ]|Fn = E[X|Fn ] = Xn .
Dabei gilt jedes Gleichheitszeichen P-fast sicher.
Norbert Henze, KIT
10.13
Stoppzeiten und Martingale
10.16 Definition (Prävisible (vorhersagbare) Folge)
Es seien (Ω, A, P) ein W-Raum und F := (Fn )n≥0 eine Filtration. Eine Folge (Vn )n≥0 von Zufallsvariablen Vn auf Ω heißt prävisibel oder vorhersagbar
bezüglich der Filtration F, falls gilt:
Vn ist Fn−1 -messbar für jedes n ≥ 0.
Dabei ist F−1 := {∅, Ω} gesetzt.
10.17 Beispiel
Sei in der obigen Situation τ : Ω → N0 ∪ {∞} eine Stoppzeit bzgl. F, und sei
Vn := 1{τ ≥ n}, n ≥ 0. Dann ist (Vn )n≥0 prävisibel bzgl. F, da
{τ ≥ n} = {τ ≤ n − 1}c ∈ Fn−1 ,
n ≥ 0.
10.18 Für ein vorhersagbares Martingal (Xn ) gilt Xn = X0 P-f.s., n ≥ 0.
Beweis: (Xn ) Martingal =⇒ E[Xn+1 |Fn ] = Xn P-f.s.
(Xn ) vorhersagbar =⇒ E[Xn+1 |Fn ] = Xn+1 P-f.s. (warum?)
Norbert Henze, KIT
10.14
Stoppzeiten und Martingale
10.19 Satz (Doob-Zerlegung)
Es seien (Ω, A, P) ein W-Raum, F := (Fn )n≥0 eine Filtration und (Xn )n≥0 eine
an F adaptierte Folge von P-integrierbaren Zufallsvariablen auf Ω.
Dann existiert eine eindeutig bestimmte Zerlegung der Gestalt
Xn = Mn + Vn ,
n ≥ 0.
Hierbei ist (Mn ) ein Martingal, und die Folge (Vn ) ist vorhersagbar mit V0 := 0.
(Xn ) ist genau dann ein Submartingal, wenn (Vn )n≥0 P-f.s. monoton wächst.
Beweis: Existenz: Setze
Mn := X0 +
n
X
k=1
n
X
E Xk |Fk−1 − Xk−1 .
Xk − E Xk |Fk−1 , Vn :=
k=1
Offenbar gilt Xn = Mn + Vn , und (Vn ) ist prävisibel (warum?) mit V0 = 0.
(Mn ) ist ein Martingal, weil
h
i
E Mn − Mn−1 Fn−1 = E Xn − E Xn |Fn−1 Fn−1 = 0.
Eindeutigkeit: Aus Xn = Mn + Vn = Mn′ + Vn′ folgt Mn − Mn′ = Vn′ − Vn =⇒
(Mn − Mn′ ) ist prävis. Martingal (warum?) mit Mn −Mn′ = M0 −M0′ = 0.
Norbert Henze, KIT
10.15
Stoppzeiten und Martingale
Memo: Xn = Mn + Vn , (Mn ) Martingal, Vn Fn−1 -messbar
(Xn ) Subm. ⇐⇒ ∀ n : Xn ≤ E Xn+1 Fn = E Mn+1 Fn + E Vn+1 Fn
|
{z
}
|
{z
}
= Mn
= Vn+1
⇐⇒ ∀ n : Xn ≤ Xn + Vn+1 − Vn .
10.20 Satz (L2 -Martingale haben orthogonale Zuwächse)
Es sei (Xn )n≥0 ein Martingal bzgl. der Filtration (Fn )n≥0 mit E(Xn2 ) < ∞ für
jedes n ≥ 0 (sog. L2 -Martingal). Dann gelten:
a) (Xn ) besitzt orthogonale Zuwächse, d.h. es gilt
E (Xm − Xm−1 ) (Xℓ − Xℓ−1 ) = 0
b) Es gilt
V(Xn ) = V(X0 ) +
∀ ℓ 6= m.
n
X
E (Xj − Xj−1 )2 .
j=1
Beweis: Übungsaufgabe! Hinweis: Turmeigenschaft für bedingte Erwartungen.
Norbert Henze, KIT
10.16
Stoppzeiten und Martingale
10.21 Satz (Martingale und konvexe Funktionen liefern Submartingale)
Sind (Xn )n≥0 ein Martingal bezüglich (Fn )n≥0 und g : R → R eine konvexe
Funktion mit E|g(Xn )| < ∞, n ≥ 0, so gilt:
(g(Xn ))n≥0 ist ein Submartingal bezüglich (Fn )n≥0 .
Beweis: Mit der Jensen-Ungleichung für bedingte Erwartungen folgt (jeweils
P-f.s.):
E [g(Xn+1 )|Fn ]
≥
=
g (E [Xn+1 |Fn ])
g(Xn ).
Dabei gilt das Gleichheitszeichen, weil (Xn ) ein Martingal ist.
Norbert Henze, KIT
10.17
Stoppzeiten und Martingale
10.22 Spielsysteme
Sei (Xn )n≥0 ein Martingal bzgl. der Filtration F = (Fn )n≥0 .
Interpretiert man X0 als Anfangskapital und Xn − Xn−1 als Gewinn in einem
n-ten Spiel pro eingesetztem Euro, so liefert die Martingaleigenschaft:
E Xn − Xn−1 |Fn−1 = E[Xn |Fn−1 ] − Xn−1 = 0 P-f.s..
=⇒ Spiel im Mittel fair“. Frage: Kann man durch situationsabhängigen
”
Kapitaleinsatz das Spiel vorteilhaft machen?
Mathematische Präzisierung: Sei Cn der Einsatz in der n-ten Spielrunde
(Zufallsvariable, hängt nur von X0 , . . . , Xn−1 ab).
Im Sinne von 10.16 ist die Folge (Cn ) prävisibel bzgl. der Filtration F. In
diesem Zusammenhang nennt man (Cn )n≥1 auch ein Spielsystem für (Xn )n≥0 .
In diesem Fall ist (mit der Interpretation von Ck als Einsatz beim k-ten Spiel)
Yn :=
n
X
k=1
Ck (Xk − Xk−1 )
der (Gesamt)-Spielgewinn nach dem n-ten Spiel.
Norbert Henze, KIT
10.18
Stoppzeiten und Martingale
10.23 Martingaltransformation
Es seien C := (Cn )n≥1 ein Spielsystem für X := (Xn )n≥0 wie in 10.22.
Man schreibt die Gleichungen
Pn
Yn =
n ≥ 1,
k=1 Ck (Xk − Xk−1 ),
(mit Y := (Yn )n≥1 ) gerne in der Kurzform
Y =: C • X, Yn =: (C • X)n .
Der Übergang von X zu C • X heißt Martingaltransformation von X durch C.
Norbert Henze, KIT
10.19
Stoppzeiten und Martingale
Memo: Yn =
Pn
k=1 Ck (Xk
− Xk−1 ),
n ≥ 1.
Memo: Y =: C • X, Yn =: (C • X)n .
10.24 Satz
Es seien X = (Xn )n≥0 ein Martingal bezüglich (Fn )n≥0 und C = (Cn )n≥1
prävisibel bezüglich (Fn ). Gilt
Cn (Xn − Xn−1 ) ∈ L1 (Ω, A, P),
n ≥ 1,
(10.2)
so ist C • X ein Martingal.
Gilt Cn ≥ 0 für jedes n, so bleibt die Aussage gültig, wenn man jeweils Mar”
tingal“ durch Submartingal“ bzw. jeweils durch Supermartingal“ ersetzt.
”
”
Beweis: C • X ist adaptiert (warum?), und wegen (10.2) ist (C • X)n für
jedes n integrierbar. Aufgrund der Fn−1 -Messbarkeit von Cn folgt mit 9.10 a)
E[(C • X)n − (C • X)n−1 |Fn−1 ]
=
=
E[Cn (Xn − Xn−1 )|Fn−1 ]
Cn E[Xn − Xn−1 |Fn−1 ] = 0.
Für ein Sub- bzw. Supermartingal ist das letzte =“ durch ≥“ bzw. durch
”
”
≤“ zu ersetzen.
”
Norbert Henze, KIT
10.20
Stoppzeiten und Martingale
Memo: Cn (Xn − Xn−1 ) ∈ L1 (Ω, A, P),
n ≥ 1,
10.25 Bemerkungen
a) Eine hinreichende Bedingung für (10.2) (s. Memo) ist die gleichmäßige
Beschränktheit der Folge (Cn ) (in jedem Casino gibt es Höchsteinsätze,
und auch das auf der Welt verfügbare Investitionskapital ist beschränkt!).
b) Die Martingaltransformation X 7→ C • X macht auch dann Sinn, wenn
X = (Xn )n≥0 nicht unbedingt ein Martingal darstellt, sondern nur eine
adaptierte Folge ist.
Ist C = (Cn ) prävisibel und die Bedingung (10.2) erfüllt, so nennt man
den Übergang von X zu C • X (diskretes) stochastisches Integral von C
bezüglich X.
c) Satz 10.24 besagt: Es ist unmöglich, durch geschickte Wahl des Einsatzes
aus einem fairen Spiel ein vorteilhaftes Spiel zu machen.
Die nächsten Resultate zeigen, dass diesbezüglich auch keine noch so
geschickte Stoppstrategie hilft.
Norbert Henze, KIT
10.21
Stoppzeiten und Martingale
10.26 Folgerung (gestoppte Martingale bleiben Martingale)
Seien (Xn )n≥0 ein Martingal bzgl. (Fn ) und τ eine beliebige Stoppzeit. Sei
(Xτ ∧n )n≥0 definiert durch
Xτ ∧n (ω) := Xτ (ω)∧n (ω),
ω ∈ Ω,
wobei x ∧ n := min(x, n), x ∈ R und ∞ ∧ n := n. Dann ist auch die gestoppte
Folge (Xτ ∧n )n≥0 ein Martingal.
Eine entsprechende Aussage gilt für Submartingale und Supermartingale.
Beweis: Betrachte das Spielsystem Cn := 1{τ ≥ n}, n ≥ 1.
Beachte: Es gilt {τ ≥ n} ∈ Fn−1 =⇒ Cn ist Fn−1 -messbar. Es gilt
Yn :=
n
X
k=1
Ck (Xk − Xk−1 ) = Xτ ∧n − X0 .
Nach Satz 10.24 ist (Yn )n≥0 ein Martingal und damit auch (Xτ ∧n )n≥0 , denn:
= E Yn+1 + X0 |Fn = E Yn+1 |Fn + E X0 |Fn
E Xτ ∧(n+1) |Fn
=
Yn + X0 = Xτ ∧n .
Norbert Henze, KIT
10.22
Stoppzeiten und Martingale
10.27 Satz (Optionales Stoppen (Doob); you can’t beat the system!)
Seien (Xn )n≥0 ein Martingal und τ eine Stoppzeit bezüglich der natürlichen
Filtration (FnX ), FnX = σ(X0 , . . . , Xn ), mit E τ < ∞.
Weiter gebe es ein c ∈ (0, ∞) mit
E 1{τ ≥ n} · |Xn − Xn−1 |X0 , . . . , Xn−1 ≤ c 1{τ ≥ n} P-f.s., n ≥ 1.
Dann gilt
E Xτ = E X0 .
Beweis: Es gilt punktweise auf {ω : τ (ω) < ∞}, d.h. P-f.s.:
P
Xτ = X0 + ∞
=⇒
n=1 1{τ ≥ n}(Xn − Xn−1 )
P∞
E|Xτ | ≤ E|X0 | + E
n=1 1{τ ≥ n}|Xn − Xn−1 |
P∞ = E|X0 | + n=1 E 1{τ ≥ n}|Xn − Xn−1 |
(MON)
i
P∞ h = E|X0 | + n=1 E E 1{τ ≥ n}|Xn − Xn−1 |X0 , . . . , Xn−1
|
{z
}
≤ c1{τ ≥ n}
P
≤ E|X0 | + c ∞
n=1 P(τ ≥ n) = E|X0 | + c E τ < ∞.
Norbert Henze, KIT
10.23
Stoppzeiten und Martingale
Memo: (Xn ) Martingal und τ Stoppzeit bzgl. (FnX ) mit Eτ < ∞
∃c ∈ (0, ∞) : E 1{τ ≥ n}|Xn −Xn−1 |X0 , . . . , Xn−1 ≤ c 1{τ ≥ n} P-f.s.
=⇒ E Xτ = E X0
Bereits gezeigt: E|Xτ | < ∞.
Sei k ∈ N0 und τ ∧ k := min(τ, k). Dann gilt
|E(Xτ ) − E(Xτ ∧k )| ≤ E|Xτ − Xτ ∧k |
P
= E ∞
n=k+1 1{τ ≥ n}(Xn − Xn−1 )
≤ E
=
∞
n=k+1 1{τ
P∞
n=k+1 E (1{τ
≤ c
und damit (warum?)
P
P∞
n=k+1 P(τ
≥ n} |Xn − Xn−1 |
≥ n}|Xn − Xn−1 |)
≥ n)
(!)
(MON)
(2. Zeile Memo)
E Xτ = lim E Xτ ∧k .
k→∞
Norbert Henze, KIT
10.24
Stoppzeiten und Martingale
Memo: (Xn ) Martingal und τ Stoppzeit bzgl. (FnX ) mit Eτ < ∞
∃c ∈ (0, ∞) : E 1{τ ≥ n}|Xn −Xn−1 |X0 , . . . , Xn−1 ≤ c 1{τ ≥ n} P-f.s.
=⇒ E Xτ = E X0
Bereits gezeigt: E|Xτ | < ∞,
Es gelten Xτ ∧k
E Xτ = limk→∞ E Xτ ∧k .
Pk
= X0 + n=1 1{τ ≥ n}(Xn − Xn−1 ),
{τ ≥ n} = {τ ≤ n − 1}c ∈ σ(X0 , . . . , Xn−1 )
=⇒
h
h
ii
P
E(Xτ ∧k ) = E(X0 ) + kn=1 E E 1{τ ≥ n}(Xn −Xn−1 )X0 , . . . , Xn−1
h
i
P
= E(X0 ) + kn=1 E 1{τ ≥ n}E[Xn −Xn−1 |X0 , . . . , Xn−1 ] (9.10 a))
|
{z
}
= 0, da (Xn ) Martingal
= E(X0 )
10.28 Folgerung Für Sub- bzw. Supermartingale gilt unter den Voraussetzungen
von Satz 10.27
E Xτ ≥ E X0 bzw. E Xτ ≤ E X0 .
Beweis: Für ein Submartingal sind das letzte =“ sowie das =“ unter | {z }
”
”
durch ≥ “ zu ersetzen, für ein Supermartingal durch ≤ “.
”
”
Norbert Henze, KIT
10.25
Stoppzeiten und Martingale
10.29 Das Spieler-Ruin-Problem
Seien X1 , X2 , . . . u.i.v. auf einem W-Raum (Ω, A, P) mit
P(X1 = 1) = p = 1 − q = 1 − P(X1 = −1),
0 < p < 1.
Sei S0 := 0, Sn := X1 + . . . + Xn , n ≥ 1.
Seien a, b ∈ N. Deutung: a bzw. b ist Kapital von Spieler A bzw. B.
Sei τ := inf n ≥ 1 : Sn ∈ {−a, b} .
Sn
B ist bankrott
b
•
•
•
1
•
1•
•
•
•
n
τ =8
−a
Norbert Henze, KIT
10.26
Stoppzeiten und Martingale
Memo: Xj u.i.v., P(X1 = 1) = p = 1 − P(X1 = −1), S0 := 0, Sn :=
Memo: τ = inf{n ≥ 1 : Sn ∈ {−a, b}}
Gesucht ist P(Sτ = b)
Pn
j=1
Xj
(Interpretation: Ruin von Spieler B)
Sei k := a + b. Es gilt für jedes m ≥ 1:
{τ ≥ mk + 1}
⊂
P(τ ≥ mk + 1)
≤
m
\
j=1
Sjk − S(j−1)k < k
P(Sk < k)
m
(warum?)
=⇒
= (1 − pk )m
n ∈ N beliebig =⇒ ∃ m : mk + 1 ≤ n ≤ (m + 1)k =⇒ m ≥ nk − 1. Also:
n
P(τ ≥ n) ≤ P(τ ≥ mk + 1) ≤ (1 − pk )m ≤ 1 − pk k −1
−1 h 1/k in
=
1 − pk
· 1 − pk
.
Folgerung: E(τ ) < ∞.
Norbert Henze, KIT
10.27
Stoppzeiten und Martingale
Memo: Xj u.i.v., P(X1 = 1) = p = 1 − P(X1 = −1), S0 := 0, Sn :=
Memo: τ = inf{n ≥ 1 : Sn ∈ {−a, b}}, E(τ ) < ∞.
Pn
j=1
Xj
Sei zunächst p 6= q, also p 6= 1/2. Es ist
1
−1
X1 q
q
q
=
·p+
· q = 1.
E
p
p
p
10.14 =⇒ Mn := (q/p)Sn , n ≥ 0, ist Martingal. Satz 10.27 =⇒
Sτ q
1 = EM0 = EMτ = E
p
−a
b
q
q
=
· P(Sτ = −a) +
· P(Sτ = b)
|
{z
}
p
p
= 1 − P(Sτ = b)
a
1 − pq
=⇒ P(Sτ = b) =
a+b .
1 − pq
Falls p = 1/2, so ist (Sn ) ein Martingal. Satz 10.27 =⇒
0 = ES0 = ESτ = bP(Sτ = b) − aP(Sτ = −a) =⇒ P(Sτ = b) =
a
.
a+b
Norbert Henze, KIT
10.28
Stoppzeiten und Martingale
P(Sτ = b)
1.0
a=b=3
0.8
a = b = 10
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1.0
p
P(ST = b) in Abhängigkeit der Erfolgswahrscheinlichkeit p für Spieler A für
a = b = 3 (schwarz) und a = b = 10 (blau)
Norbert Henze, KIT
10.29
Stoppzeiten und Martingale
10.30 Beispiel ( Stoppen bei erstem positiven Kontostand“)
”
Seien X1 , X2 , . . . u.i.v. auf einem W-Raum (Ω, A, P) mit
1
= P(X1 = −1).
2
P(X1 = 1) =
Sei S0 := 0, Sn := X1 + . . . + Xn , n ≥ 1.
Sn
5
4
3
2
1
0
−1
−2
−3
•
•
•
•
1•
•
τ =3
•
•
•
•
5
•
10
•
•
•
15
•
n
•
•
•
Die ersten 18 Schritte einer symmetrischen Irrfahrt auf Z als Polygonzug
Sei τ := inf{n ≥ 1 : Sn = 1}.
Es gilt P(τ < ∞) = 1. (Beweis später)
Norbert Henze, KIT
10.30
Stoppzeiten und Martingale
Es gilt E(Sτ ) = 1. Weiter ist für jedes n ≥ 1
Sτ ∧n =
n
X
k=1
1{τ ≥ k}(Sk − Sk−1 )
und damit
E[Sτ ∧n ]
=
n
X
k=1
E [1{τ ≥ k}(Sk − Sk−1 )] .
| {z }
= Xk
Da 1{τ ≥ k} eine Funktion von X1 , . . . , Xk−1 ist, folgt
E [1{τ ≥ k}Xk ] = P(τ ≥ k) · EXk = 0
und somit E[Sτ ∧n ] = 0, n ≥ 1, also:
1 = E(Sτ ) 6= 0 = lim E[Sτ ∧n ] = E(S1 ).
n→∞
Die Aussage von Satz 10.27 gilt also nicht. Woran kann das liegen?
Es gilt E(τ ) = ∞ (!!)
(Beweis folgt)
Norbert Henze, KIT
10.31
Stoppzeiten und Martingale
Memo: τ = inf{n ≥ 1 : Sn = 1} (≤ ∞)
Beachte: Es gilt:
{τ ≥ 2n + 1}
P(τ ≥ 2n + 1)
=
=
=
=
{S1 ≤ 0, S2 ≤ 0, . . . , S2n ≤ 0}
{ Weg bis zur Zeit 2n nicht positiv“}
”
P(S1 ≤ 0, S2 ≤ 0, . . . , S2n ≤ 0)
P(S1 ≥ 0, S2 ≥ 0, . . . , S2n ≥ 0)
=⇒
(warum?)
10.31 Satz (Hauptlemma für symmetrische Irrfahrten auf Z)
P(S1 ≥ 0, S2 ≥ 0, . . . , S2n ≥ 0) = P(S2n = 0) =
Es gilt:
2n
n
22n
Beweis: folgt.
Wegen
2n
n
22n
1
∼ √
πn
(mit Stirling-Formel):
√
k! ∼ kk e−k 2πk
ergibt sich:
Norbert Henze, KIT
10.32
Stoppzeiten und Martingale
Memo: P(τ ≥ 2n + 1) =
2n
n
22n
1
∼ √ .
πn
10.32 Folgerung Es gelten:
a) P(τ < ∞) = 1.
b) E(τ ) = ∞.
Beweis: a) P(τ = ∞) = limn→∞ P(τ ≥ 2n + 1) = 0.
b)
E(τ )
=
∞
X
(2j + 1) P(τ = 2j + 1) =
j=0
=
2
j=0
j
∞ X
X
P(τ = 2j + 1) −
∞
∞ X
X
P(τ = 2j + 1) − 1
j=0 n=0
=
2
n=0 j=n
=
2
∞
X
n=0
∞
X
|
∞
X
j=0
2
j
X
n=0
!
1 − 1 P(τ = 2j + 1)
P(τ = 2j + 1)
{z
=1
}
P(τ ≥ 2n + 1) − 1 = ∞.
Norbert Henze, KIT
10.33
Stoppzeiten und Martingale
Beweis des Hauptlemmas: Zu zeigen: Es gibt genauso viele nichtnegative
Wege bis zur Zeit 2n (d.h.: S1 ≥ 0, S2 ≥ 0, . . . S2n ≥ 0) wie es Brückenwege“
”
(d.h.: S2n = 0) gibt.
nichtnegativer Weg
3
2
1
0
−1
−2
−3
•
•
•
1
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
2n
•
•
Brückenweg
Formal:
M1
:=
{(a1 , . . . , a2n ) ∈ {1, −1}n : a1 + . . . + a2n = 0},
M2
:=
{(a1 , . . . , a2n ) ∈ {1, −1}n :
j
X
m=1
am ≥ 0 für j = 1, . . . , 2n}
Wir konstruieren injektive Abbildungen von M1 nach M2 und von M2 nach M1 .
Norbert Henze, KIT
10.34
Stoppzeiten und Martingale
1) Wir ordnen jedem Brückenweg W1 einen nichtnegativen Weg W2 zu.
Ist W1 nichtnegativ, setzen wir W2 := W1 . Andernfalls:
•
•
•
•
•
•
•
•
W21
•
•
•
•
•
•
•
•
•
•
•
•
•
•
2n
•
•
2n
M
An erster Minimums-Stelle von W1 Nullpunkt eines neuen Koordinatensystems!
Teilweg von (0, 0) nach M an (alter) y-Achse spiegeln!
Gespiegelten Teilweg an Ende von W1 ansetzen!
Im blauen Koordinatensystem entsteht ein nichtnegativer Weg W2 .
Verschiedene Wege W1 gehen auf verschiedene Wege W2 über! (Injektivität!)
Norbert Henze, KIT
10.35
Stoppzeiten und Martingale
2) Wir ordnen jedem nichtnegativen Weg W2 einen Brückenweg W1 zu.
Ist W2 ein Brückenweg, setzen wir W1 := W2 . Andernfalls:
•
•
•
•
W12 •
•
•
•
•
•
•
•
•
•
•
•
•
•
•
P
•
•
•
•
2n
•
•
2n
Weg erreicht letztmalig halbe Endhöhe im Punkt P
Teilweg ab P an Achse x = 2n spiegeln
Roter Abschnitt wird im Ursprung nach links angeheftet.
Im neuen Koordinatensystem entsteht ein Brückenweg W1 !
Verschiedene Wege W2 gehen auf verschiedene Wege W1 über! (Injektivität!)
Norbert Henze, KIT
10.36
Stoppzeiten und Martingale
10.33 Satz (Waldsche Gleichung)
Seien (Xn )n≥1 eine u.i.v.-Folge mit E|X1 | < ∞ und N eine Stoppzeit bzgl. der
zu X1 , X2 , . . . gehörenden natürlichen Filtration mit E(N ) < ∞. Dann gilt:
!
N
X
E
= E X1 · E N.
Xj
j=1
P
Beweis: Sei o.B.d.A. EX1 = 0 (!), Sn := n
j=1 Xj . Nach Bsp. 10.13 ist
(Sn )n≥1 ein Martingal bzgl. (σ(S1 , . . . , Sn ))n≥1 . Es gelten (!)
σ(S1 , . . . , Sn ) = (S1 , . . . , Sn )−1 (Bn ), σ(X1 , . . . , Xn ) = (X1 , . . . , Xn )−1 (Bn ).
Wegen
(X1 , X2 , . . . , Xn ) = (S1 , S2 − S1 , . . . , Sn − Sn−1 ),
(S1 , S2 , . . . , Sn )
=
(X1 , X1 + X2 , . . . , X1 + . . . + Xn )
gilt σ(X1 , . . . , Xn ) = σ(S1 , . . . , Sn ). Somit ist N auch eine Stoppzeit bzgl.
(σ(S1 , . . . , Sn )n≥1 ). Weiter ist P-f.s. (mit 9.10 a) und 9.10 d))
E 1{N ≥ n}|Sn − Sn−1 |S1 , . . . , Sn−1 = E 1{N ≥ n}|Xn |S1 , . . . , Sn−1
= 1{N ≥ n}E|X1 |.
Satz 10.27 liefert nun 0 = E(S1 ) = E(SN ) = EX1 · EN.
Norbert Henze, KIT
10.37
Herunterladen