Stochastik I

Humboldt-Universität zu Berlin
Institut für Mathematik
Sommersemester 2010
Stochastik I
Prof. Becherer
Bodo Graumann
19. Mai 2014
cb a
XETEX
Diese Dokument wurde auf http://bodograumann.de veröﬀentlicht. Es steht unter der Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0) Lizenz.
Der Code wurde mit gvim sowie vim-latex erstellt und mit xelatex kompiliert
– all das auf Gentoo Linux. Meinen Dank an die Freie Software Community und
die TEX-Kollegen auf TEX.SX für ihre Hinweise und Unterstützung.
Bitte schreibt mir eure Kommentare und Verbesserungsvorschläge zu diesem Dokument! Ihr könnt mir entweder direkt mailen oder das Kontaktformular auf meiner
Internetseite benutzen.
1
Stochastik I
Inhaltsverzeichnis
Seite 2
Inhaltsverzeichnis
Literaturempfehlungen
3
1
Wahrscheinlichkeitsräume
5
2
bedingte Wahrscheinlichkeit und Unabhängigkeit
13
3
Asymptotische Ereignisse
18
4
Erwartungswert und Varianz
4.1 Die Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . .
19
23
5
Charakteristische Funktionen
5.1 Summe von unabhängigen Zufallsvariablen . . . . . . . . . . . . . . . . . . .
5.2 Normalverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
30
33
6
Konvergenz in Verteilung / schwache Konvergenz
6.1 Beziehungen zu anderen Konvergenzarten . . . . . . . . . . . . . . . . . . . .
35
36
Prof. Becherer
Bodo Graumann
Stochastik I
Literatur
Seite 3
Literatur
[Bau08] Baum, Prof. H.: Maßtheorie Skript. http://www-irm.mathematik.hu-berlin.
de/%7Ebaum/Skript/MIT-SS08.pdf, 2008
[Els07] Elstrodt, J.: Maß- und Integrationstheorie. Springer, 2007
[Geo07] Georgii, H.-O.: Stochastik. De Gruyter Verlag, 2007
[Kle08] Klenke, A.: Wahrscheinlichkeitstheorie. Springer, 2008
[Kre05] Krengel, U.: Einführung in die Wahrscheinlichkeitstheorie & Statistik. 8. Vieweg,
2005
[Shi95] Shiryaev, Albert N.: Probability. Springer, 1995
[Sim82] Simmons, George F.: Introduction to Topology and Modern Analysis. Krieger Pub Co,
1982
[Sti03] Stirzaker, D.: Elementary Probability. 2. Cambridge University Press, 2003
[Str85] Strasser, H.: Mathematical Theory of Statistics. De Gruyter Verlag, 1985
Prof. Becherer
Bodo Graumann
Stochastik I
Literatur
Seite 4
Die Stochastik besteht im wesentlichen aus zwei Teile, die jedoch stark in einander greifen.
Zum einen die Wahrscheinlichkeitstheorie, welche sich mit Wahrscheinlichkeitsmodellen beschäftigt und zum anderen die Statistik, die Häuﬁgkeiten in der Praxis betrachtet.
Zuersteinmal wollen wir erklären, was ein Wahrscheinlichkeitsraum ist. Sei also ein Wahrscheinlichkeitsraum gegeben:
(𝛺, , ℙ)
Dabei sind die 𝛺 die möglichen Ausgänge bzw. Ergebnisse eines Experiments, ⊂ (𝛺) bezeichnet die Ereignisse die wir unterscheiden und ℙ ist ein Wahrscheinlichkeitsmaß über .
Beispiel einfaches Würfeln
Beim einfachen Würfeln haben wir 𝛺 = {1, 2, 3, 4, 5, 6} wobei 𝜔 ∈ 𝛺 bedeutet, dass der
Würfel die Augenzahl 𝜔 zeigt.
Beispiel n-maliges Würfeln
Würfeln wir nun n-mal, so ist 𝛺 = {1, ⋯ , 6}𝑛 und 𝜔 ∈ 𝛺 zählt die Einzelergebnisse der n
Würfe auf. Ein Ereignis wäre dann 𝐴 = 𝜔 ∈ 𝛺 ∀𝑖, 𝑗: 𝜔𝑗 = 𝜔𝑖 : „Alle Würfe ergeben die
selbe Zahl“. Da wir die Gleichverteilung auf 𝛺 erwarten, erhalten wir das Laplace’sche Wahrscheinlichkeitsmaß, dass jedem der endlich vielen Ausgänge 𝜔 ∈ 𝛺 die Wahrscheinlichkeit
1 zuordnet und in diesem Fall ergibt:
ℙ({𝜔}) = |𝛺|
ℙ(𝐴) =
|𝐴|
6
=
= 6−(𝑛−1)
|𝛺| 6𝑛
Beispiel Münzwurf
Der einfache Münzwurf lässt sich wiefolgt modellieren:
𝛺 = {0, 1} wobei 0 Zahl bedeutet und 1 Kopf.
Dies lässt sich auch auf n-fachen Münzwurf erweitern: 𝛺 = {0, 1}𝑛 .
Probleme entstehen aber, wenn man beliebig oft spielen will. Die Gleichverteilung auf ({0, 1}ℕ )
lässt sich nicht mehr intuitiv beschreiben.
Beispiel Aktienkurse
Wir betrachten die stetigen Funktionen 𝛺 = 𝐶([0, 𝑇 ] , ℝ) und das Ereignis
𝐴 = { 𝜔 ∈ 𝛺 | ∀0 ≤ 𝑡 ≤ 𝑇: 𝜔(𝑡) ≥ 5000 }
Ziel Wir wollen jedem Ereignis 𝐴 eine Wahrscheinlichkeit ℙ(𝐴) ∈ [0, 1] zuordnen, sodass ℙ
als Abbildung von ⊆ (𝛺) → [0, 1] gewisse vorteilhafte Eigenschaften hat.
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 5
1 Satz: Vitali
Sei 𝛺 = {0, 1}ℕ . Dann gibt es keine Abbildung ℙ: (𝛺) → [0, 1] mit den folgenden Eigenschaften:
1. ℙ(𝛺) = 1
2. 𝐴𝑘 ⊆ 𝛺, 𝑘 ∈ ℕ, 𝑖 ≠ 𝑗 ⇒ 𝐴𝑖 ∩ 𝐴𝑗 = ∅, so gilt
∞
ℙ(
∞
𝐴𝑘 ) =
ℙ(𝐴𝑘 )
𝑘=1
𝑘=1
1 − 𝜔𝑖 für 𝑖 = 𝑘
𝜔𝑖 sonst
und 𝐴 ∈ (𝛺) gilt ∀𝑘 ∈ ℕ: ℙ(𝐴) = ℙ(𝑇𝑘 (𝐴))
3. Mit 𝑇𝑘 : 𝛺 → 𝛺, 𝑇𝑘 (𝜔)𝑖 =
,𝑖∈ℕ
Beweis (1) Auf 𝛺 deﬁnieren wir eine Äquivalenzrelation:
𝜔 ∼ 𝜔 : ⇔ ∃𝑛0 ∈ ℕ: ∀𝑘 ≥ 𝑛0 : 𝜔𝑘 = 𝜔𝑘
Glaubt man an das Auswahlaxiom, kann man ein Repräsentantensystem 𝐴 ⊂ 𝛺 auswählen.
Für 𝑆 = 𝑛1 , 𝑛2 , ⋯ , 𝑛𝑘 ⊂ ℕ endlich deﬁnieren wir 𝑇𝑆 : = 𝑇𝑛1 ∘ 𝑇𝑛2 ∘ ⋯ ∘ 𝑇𝑛𝑘 dann gilt
𝛺=
𝑇𝑆 (𝐴)
𝑆= 𝑛1 ,⋯,𝑛𝑘
da 𝜔 ∼ 𝜔 ⇔ ∃𝑆: 𝜔 = 𝑇𝑆 (𝜔 ) und 𝐴 Repräsentantensystem von (𝛺, ∼) ist.
Jetzt gibt es folgende Fälle:
1. ℙ(𝐴) = 0 ⇒ ℙ(𝑇𝑆 (𝐴)) = 0 ⇒ ℙ(𝛺) = 0 ↯
2. ℙ(𝐴) > 0 ⇒ ℙ(𝑇𝑆 (𝐴)) > 0 ⇒ ℙ(𝛺) = ∞ ↯
□
1 Wahrscheinlichkeitsräume
• Axiomatische Grundlagen für (𝛺, , ℙ) und erste Eigenschaften.
2 Bemerkung: Folgenräume und reelle Zahlen
{0, 1}|ℕ| ist mit [0, 1] gleichmächtig mittels der dualen Zahlendarstellung als Bijektion:
∞
2−𝑖 𝜔𝑖
(𝜔)𝑖∈ℕ ↔
𝑖=1
wenn wir die abzählbarvielen Folgen der Form 𝑎1 , 𝑎2 , ⋯ , 0, 1, 1, ⋯ und 𝑎1 , 𝑎2 , ⋯ , 1, 0, 0, ⋯
paarweise identiﬁzieren.
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 6
3 Satz: Nichtexistenz der Gleichverteilung
Es sei 𝛺: = [0, 1) = ℝ mod 1. Dann existiert kein ℙ: (𝛺) → [0, 1] so dass
1. ℙ(𝛺) = 1
∞
2. ℙ(⨆∞
𝑘=1 𝐴𝑘 ) = ∑𝑘=1 ℙ(𝐴𝑘 )
3. ∀𝑥 ∈ ℝ, 𝐴 ⊂ 𝛺: ℙ(𝐴) = ℙ(𝐴 + 𝑥)
Beweis (3) Wir betrachten die Äquivalenzrelation
𝑥 ∼ 𝑦: ⇔ 𝑥 − 𝑦 ∈ ℚ ⊂ ℝ
Dazu sei 𝐴 ⊂ [0, 1) eine Menge von Repräsentanten. (Dabei ist |𝐴| > |ℕ|). Dann ist
(𝐴 + 𝑟) = [0, 1)
𝑟∈[0,1)∩ℚ
und somit mit den geforderten Eigenschaften:
1 = ℙ(𝛺) =
ℙ(𝐴)
↯
𝑥∈[0,1)∩ℚ
□
Folgerung Da es nicht möglich ist, die obigen „vernünftig“ erscheinenden Forderungen auf der
gesamten Potenzmenge zu erfüllen, müssen wir uns auf Teilmengen beschränken.
4 Deﬁnition: „σ-Algebra, Ereignis“
Sei 𝛺 ≠ ∅. Ein Mengensystem
⊆ (𝛺) heißt σ-Algebra, falls
1. 𝛺 ∈
2. 𝐴 ∈
⇒ 𝐴̄ ∈
3. 𝐴𝑘 ∈ , 𝑘 ∈ ℕ ⇒ ⋃∞
𝑘=1 𝐴𝑘 ∈
Das Paar (𝛺, ) heißt messbarer Raum oder Ereignisraum. Ein Element 𝐴 ∈
oder auch Ereignis.
heißt messbar
5 Deﬁnition: „Wahrscheinlichkeitsmaß (Колмогоров Axiome)“
Sei (𝛺, ) ein Ereignisraum. Eine Funktion ℙ:
→ [0, 1] heißt Wahrscheinlichkeitsmaß, falls
1. ℙ(𝛺) = 1
∞
2. 𝐴𝑘 ∈ , 𝑘 ∈ ℕ ⇒ ℙ(⨆∞
𝑘=1 𝐴𝑘 ) = ∑𝑘=1 ℙ(𝐴𝑘 )
Wir bezeichnen (𝛺, , ℙ) dann als Wahrscheinlichkeitsraum.
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 7
6 Bemerkung: Eigenschaften von σ-Algebren
Ist
eine σ-Algebra auf 𝛺, dann gilt
1. ∅ ∈
2. 𝐴, 𝐵 ∈
⇒𝐴∪𝐵∈
3. 𝐴, 𝐵 ∈
⇒𝐴∩𝐵∈
4. 𝐴𝑘 ∈ , 𝑘 ∈ ℕ ⇒ ⋂∞
𝑘=1 𝐴𝑘 ∈
7 Lemma: erzeugte σ-Algebren
Sei 𝛺 ≠ ∅ und 𝐺 ⊆
𝜎 (𝐺).
(𝛺). Dann existiert eine kleinste σ-Algebra
𝜎 (𝐺)
auf 𝛺 sodass 𝐺 ⊆
8 Deﬁnition: „Borel-σ-Algebra“
(𝛺): =
𝜎 ({
𝑀 ⊆ 𝛺, oﬀen }) nenen wir die Borel-σ-Algebra und speziell
𝑛
:=
(ℝ𝑛 ).
Bemerkung Die Borel-σ-Algebra kann von verschiedenen Erzeugersystem erzeugt werden.
Zum Beispiel von der Menge aller oﬀenen Mengen , der Menge aller abgeschlossenen Mengen
oder der Menge aller Hyperquader mit rationalen Koordinaten .
9 Lemma: Erzeugung der Borel-σ-Algebra
𝜎(
)=
𝜎(
)=
𝜎(
)
Beweis (9)
𝜎( ) =
𝜎 ( ) folgt sofort aus der Abgeschlossenheit von σ-Algebren unter Komplement.
𝜎( ) =
𝜎 ( ) gilt, da jede oﬀene Menge eine abzählbare Vereinigung von solchen Hyperquadern ist und jeder Hyperquader sich als abzählbarer Schnitt oﬀener Mengen darstellen lässt.
10 Deﬁnition: „Spur-σ-Algebra“
Sei (𝛺, ) ein messbarer Raum, 𝛺 ⊆ 𝛺, dann ist
Spur-σ-Algebra.
:=
∩𝛺 ⊆
eine σ-Algebra und heißt
11 Deﬁnition: „Produkt-σ-Algebra“
Sei 𝛺 = ⨉𝑖∈𝐼 𝐸𝑖 für eine beliebige Indexmenge 𝐼 ≠ ∅ und 𝜋𝑖 die kanonischen Projektionen,
sowie (𝐸𝑖 , 𝑖 ) messbare Räume. Dann ist die Produkt-σ-Algebra von ((𝐸𝑖 , 𝑖 ))𝑖∈𝐼 deﬁniert als
𝑖: =
𝜎
𝜋𝑖−1 (𝐴𝑖 ) 𝐴𝑖 ∈
𝑖
𝑖∈𝐼
Bei gleichen (𝐸𝑖 ,
Prof. Becherer
𝑖)
mit
=
𝑖
schreibt man auch
𝐼
bzw.
Bodo Graumann
𝑛
für endliche Fälle.
Stochastik I
Bemerkung Es gilt
1 Wahrscheinlichkeitsräume
𝑛
=
1 𝑛
Seite 8
.
12 Satz: elementare Eigenschaften von Wahrscheinlichkeitsmaßen ℙ
1. ℙ(∅) = 0
2. ℙ(𝐴 ∪ 𝐵) + ℙ(𝐴 ∩ 𝐵) = ℙ(𝐴) + ℙ(𝐵)
3. 𝐴, 𝐵 ∈ , 𝐴 ⊆ 𝐵 ⇒ ℙ(𝐴) ≤ ℙ(𝐵).
∞
4. 𝐴𝑖 ∈ , 𝑖 ∈ ℕ: ℙ ⋃∞
𝑖=1 𝐴𝑖 ≤ ∑𝑖=1 ℙ(𝐴𝑖 )
5. 𝐴𝑖 ∈ , 𝑖 ∈ ℕ, 𝐴1 ⊃ 𝐴2 ⊃ ⋯ ⇒ ℙ ⋂∞
𝑖=1 𝐴𝑖 = lim𝑖→∞ ℙ(𝐴𝑖 ).
6. 𝐴𝑖 ∈ , 𝑖 ∈ ℕ, 𝐴1 ⊂ 𝐴2 ⊂ ⋯ ⇒ ℙ ⋃∞
𝑖=1 𝐴𝑖 = lim𝑖→∞ ℙ(𝐴𝑖 ).
7. 𝐴𝑖 ∈ , 𝑖 ∈ ℕ, ∀𝜔: lim𝑖→∞ 𝟏𝐴𝑖 (𝜔) = 𝟏𝐴 (𝜔) ⇒ lim∞
𝑖=1 ℙ(𝐴𝑖 ) = ℙ(𝐴)
13 Deﬁnition: „diskrete Wahrscheinlichkeitsräume“
Ist in (𝛺, , ℙ) die Menge 𝛺 abzählbar, dann nennen wir diesen Wahrscheinlichkeitsraum diskret.
14 Satz: Zähldichte
Sei 𝛺 abzählbar und 𝜌: 𝜔 → 𝛺 eine Folge in ℝ+ mit ∑𝜔∈𝛺 𝜌(𝜔) = 1. Dann existiert genau
ein Wahrscheinlichkeitsmaß ℙ auf (𝛺, (𝛺)) mit ℙ(𝐴) = ∑𝜔∈𝐴 𝜌(𝜔) für alle 𝐴 ∈ ℙ(𝛺). Wir
nennen 𝜌 die Zähldichte und die einzelnen 𝜌(𝜔) Wahrscheinlichkeitsgewichte.
15 Deﬁnition: „diskretes Produktmaß“
Für 𝑛 diskrete Wahrscheinlichkeitsräume mit Zählmaßen 𝜌𝑖 erhalten wir ein Wahrscheinlichkeitsmaß ℙ auf ⨉𝑛𝑖=1 𝛺𝑖 , ⨂𝑛𝑖=1 𝑖 , ∏𝑛𝑖=1 𝜌𝑖 . Dieses nennen wir diskretes Produktmaß. Für das
Produkt 𝑛 gleicher Zählmaße 𝜌, schreiben wir ℙ = 𝜌⊗𝑛 .
einige Wahrscheinlichkeitsmaße
Binomialverteilung 𝛺 = {0, 1, ⋯ , 𝑛},
𝑝 ∈ [0, 1].
Geometrische Verteilung 𝛺 = ℕ,
=
(𝛺), 𝑝(𝑘) = (𝑘𝑛)𝑝𝑘 (1 − 𝑝)𝑛−𝑘 =: Bin𝑛,𝑝 (𝑘) mit
= (𝛺), 𝑝 ∈ (0, 1]. 𝑝(𝑘) = 𝑝(1 − 𝑝)𝑘 .
𝑘
Poisson Verteilung 𝛺 = ℕ, 𝜆 > 0 „Intensität“, 𝑝(𝑘) = 𝑒−𝜆 𝜆𝑘! =: Poisson𝜆 (𝑘).
16 Lemma: Zusammenhang zwischen Poisson- und Binomialverteilung
Sei 𝑝𝑛 ∈ (0, 1] mit lim𝑛→∞ 𝑛𝑝𝑛 = 𝜆 > 0, dann gilt für alle 𝑘 ∈ ℕ:
lim Bin𝑛,𝑝 (𝑘) = Poisson𝜆 (𝑘)
𝑛→∞
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 9
17 Deﬁnition: „Zufallsvariable“
Seien (𝛺, ) und (𝛺 ,
falls
∀𝐴 ∈
) messbare Räume. Eine Abbildung 𝑋: 𝛺 → 𝛺 heißt Zufallsvariable
: 𝑋 −1 (𝐴 ) ∈
Diese Forderung erwächst aus dem Bedürfnis
ℙ( 𝑋 ∈ 𝐴 ) = ℙ( 𝜔 ∈ 𝛺 𝑋(𝜔) ∈ 𝐴
) = ℙ(𝑋 −1 (𝐴 )) = ℙ ∘ 𝑋 −1 (𝐴 )
berechnen zu wollen. Hinreichend ist zum Beispiel
= (𝛺).
18 Deﬁnition: „Wahrscheinlichkeitsverteilung“
Sei 𝑋: (𝛺, , ℙ) → (𝛺 , ) eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (𝛺, , ℙ).
Dann heißt ℙ𝑋 : = ℙ∘𝑋 −1 das Bildmaß von 𝑋 bzw. die Verteilung von 𝑋 und ist ein Wahrscheinlichkeitsmaß auf dem messbaren Raum (𝛺 , ).
19 Deﬁnition: „Algebra, (Prä)maß, σ-endlich“
Sei 𝛺 ≠ ∅.
•
⊆ (𝛺) heißt Algebra falls
1. 𝛺 ∈
2. 𝐴 ∈
⇒ 𝐴̄ ∈
3. 𝐴, 𝐵 ∈
⇒𝐴∪𝐵∈
• Eine Abbildung 𝜇:
→ [0, ∞] heißt Prämaß auf einer Algebra
𝐴
∈
⇒
𝜇(𝐴)
= ∑∞
𝐴 = ⨆∞
𝑛=1 𝜇(𝐴𝑛 ).
𝑛=1 𝑛
• Eine solches 𝜇 heißt Maß falls
falls 𝐴𝑛 ∈
mit
eine σ-Algebra ist.
• Ein Maß 𝜇 heißt σ-endlich falls ∃(𝐴𝑛 )𝑛∈ℕ , 𝐴𝑛 ∈
: 𝐴𝑛 ↑ 𝛺 ∧ 𝜇(𝐴𝑛 ) < ∞.
• Ein Maß 𝜇 heißt Wahrscheinlichkeitsmaß falls 𝜇(𝛺) = 1.
Beispiel Auf 𝛺 = ℝ ist = ⨆∞
𝑘=1 𝑎𝑘 , 𝑏𝑘 ∩ ℝ 𝑛 ∈ ℕ, −∞ ≤ 𝑎1 < 𝑏1 < ⋯ < 𝑎𝑛 < 𝑏𝑛 ≤ ∞
eine Algebra. Dann deﬁnieren wir das folgende Prämaß:
𝑛
𝜆
𝑛
𝑎𝑘 , 𝑏𝑘
𝑘=1
:=
(𝑏𝑘 − 𝑎𝑘 )
𝑘=1
Dafür gilt dann sofort endliche Additivität.
20 Satz: Monotone Klassentheorem für Mengen
Sei ⊆ (𝛺) ein Mengensystem, welches abgeschlossen bezüglich endlichen Durchschnitten
ist und 𝛺 enthält. Sei weiterhin das kleinste umschließende Mengensystem, welches abgeschlossen bezüglich wachsenden Grenzwerten und Mengendiﬀerenzen (genauer: 𝐴, 𝐵 ∈ , 𝐵 ⊂
𝐴 ⇒ 𝐴 ⧵ 𝐵 ∈ ) ist, dann ist bereits = 𝜎( ).
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 10
Beweis (20) Für 𝐵 ⊆ 𝛺 sei 𝐵 : = { 𝐴 ∈ | 𝐴 ∩ 𝐵 ∈ }. Dann ist 𝐵 abgeschlossen bezüglich wachsenden Grenzwerten und Mengendiﬀerenzen. Für 𝐵 ∈ gilt für alle 𝐶 ∈ :
𝐵∩𝐶∈
⊆
⇒𝐶∈
𝐵
⇒
⊆
𝐵
⊆
⇒
𝐵
=
Für 𝐵 ∈ und 𝐶 ∈ gilt 𝐵 ∈ 𝐶 = und 𝐵 ∩ 𝐶 ∈
⇒ 𝐶 ∈ 𝐵 . Damit gilt . ist also
abgeschlossen bezüglich endlicher Durchschnitte.
Auch gilt 𝛺 ∈ ⊆
und damit ist auch abgeschlossen gegenüber Komplementbildung.
Nach der Abgeschlossenheit unter aufsteigenden Grenzwerten ist dann auch jede abzählbare Vereinigung aus Mengen in selber in . Mit ⊆ folgt dann die Behauptung.
21 Korollar:
Seien ℙ, 𝑄 Wahrscheinlichkeitsmaße auf dem messbaren Raum (𝛺, ), die auf einem unter
Durchschnitt stabilen System von = 𝜎 ( ) übereinstimmen, dann gilt ℙ = 𝑄 auf .
22 Satz: Fortsetzungssatz von Carathéodory (1917)
Für jedes σ-endliche Prämaß 𝜇 auf einer Algebra ⊆ (𝛺) existiert ein eindeutiges Maß 𝜇̃
auf der σ-Algebra = 𝜎 ( ), welche mit diesem auf übereinstimmt. Zudem ist dann 𝜇̃ selber
σ-endlich.
23 Lemma: Eindeutigkeitssatz
Seien 𝜇 und 𝜈 σ-endliche Maße auf dem Maßraum (𝛺, ) wobei =
Durchschnittbildung stabilen Erzeuger mit 𝜇 = 𝜈 auf und (𝐴𝑛 )𝑛∈ℕ ∈
𝜇(𝐴𝑛 ) = 𝜈(𝐴𝑛 ). Dann gilt auf ganz : 𝜇 = 𝜈.
𝜎(
) für einen unter
mit 𝐴𝑛 ↑ 𝛺 sowie
24 Lemma:
Sei 𝜇 ein Maß auf (ℝ, (ℝ)) und endlich auf Kompakta. Dann ist
⎧ 𝜇((0, 𝑥]) 𝑥 > 0
⎪
0 𝑥=0
𝐺(𝑥): = ⎨
⎪ −𝜇((𝑥, 0]) 𝑥 < 0
⎩
monoton wachsend und rechtsstetig.
25 Deﬁnition: „Verteilungsfunktion“
Für ein Wahrscheinlichkeitsmaß ℙ auf (ℝ, (ℝ)) ist seine (kumulative) Verteilungsfunktion 𝐹
gegeben durch
𝐹(𝑥): = ℙ((−∞, 𝑥])
26 Korollar:
Jede Verteilungsfunktion 𝐹 eines Wahrscheinlichkeitsmaßes ist rechtsstetig, monoton wachsend und es ist lim𝑥→∞ 𝐹(𝑥) = 1 sowie lim𝑥→−∞ 𝐹(𝑥) = 0.
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 11
27 Satz:
Sei 𝐹: ℝ → ℝ eine monoton wachsende, rechtsstetige Funktion. Dann existiert ein eindeutiges
σ-endliches Maß 𝜇 auf (ℝ, ) mit ∀𝑎, 𝑏 ∈ ℝ, 𝑎 < 𝑏: 𝜇((𝑎, 𝑏]) = 𝐹(𝑏) − 𝐹(𝑎).
Beispiel
1. Für 𝐹(𝑥) = 𝑥 erhalten wir damit das Lebesguemaß 𝜆 auf (ℝ, ).
2. Für 𝐹(𝑥) = min(1, max(𝑥, 1)) liefert der Satz uns die Gleichverteilung 𝑈 auf ([0, 1] , ([0, 1])).
Beweis (27)
Eindeutigkeit { (𝑎, 𝑏] | 𝑎, 𝑏 ∈ ℝ, 𝑎 < 𝑏 } ist ein unter Durchschnitt stabiler Erzeuger von , wodurch die Eindeutigkeit bereits gilt.
Existenz Wir wählen
𝐾
:=
𝑎𝑘 , 𝑏𝑘 ∩ ℝ 𝐾 ∈ ℕ, −∞ ≤ 𝑎1 < 𝑏1 < 𝑎2 < ⋯ < 𝑏𝑘 ≤ +∞
𝑘=1
ist eine Algebra. Für 𝐴: = ⨆𝐾
𝑘=1 𝑎𝑘 , 𝑏𝑘 ∈
Dieses
deﬁnieren wir
𝐾
𝜇(𝐴): =
𝐹(𝑏𝑘 ) − 𝐹(𝑎𝑘 )
𝑘=1
Damit ist 𝜇 additiv auf .
𝐾
𝑛
Seien nun 𝐴𝑛 : = ⨆𝑘=1
𝑎𝑘,𝑛 , 𝑏𝑘,𝑛 disjunkt. Mit 𝐴∞ : = ⨆∞
𝑛=1 𝐴𝑛 ∈
∞
𝐴 =
𝐾∞
⋃𝑘=1
gilt dann
𝑎𝑘,∞ , 𝑏𝑘,∞ wobei 𝐾∞ < ∞. Dann müssen wir zeigen
∞ 𝐾𝑛
𝐾∞
𝐹(𝑎𝑘,∞ ) − 𝐹(𝑏𝑘,∞ ) =
𝑘=1
𝐾∞ ∞ 𝐾𝑛
𝐹(𝑏𝑘,𝑛 ) − 𝐹(𝑎𝑘,𝑛 ) =
𝑛=1 𝑘=1
𝐹(𝑏𝑗,𝑛 )
𝑘=1 𝑛=1 𝑗=1
𝑎𝑗,𝑛 ,𝑏𝑗,𝑛 ⊆ 𝑎𝑘,∞ ,𝑏𝑘,∞
− 𝐹(𝑎𝑗,𝑛 )
Nun zeigen wir die Gleichheit summandenweise. Für jedes 𝑘 gilt also wegen Monotonie
und 𝑎∞ , 𝑏∞ ⊇ ⨆𝑁
𝑛=1 𝑎𝑛 , 𝑏𝑛 die Richtung „≥“.
Betrachten wir 𝑂𝑛 : = 𝑎𝑛 , 𝑏𝑛 + 𝛿𝑛 ⊇ 𝑎𝑛 , 𝑏𝑛 oﬀen mit 𝛿𝑛 : = 𝛿(𝜀) sodass 𝜇( 𝑎𝑛 , 𝑏𝑛 + 𝛿𝑛 ) ≤
𝜇( 𝑎𝑛 , 𝑏𝑛 )+𝜀2−𝑛 für ein beliebiges 𝜀 > 0. 𝑂𝑛 ist eine oﬀene Überdeckung von 𝑎∞ + 𝛿∞ , 𝑏∞ ⊆
𝑎∞ , 𝑏∞ mit 𝛿∞ = 𝛿∞ (𝜀) sodass 𝜇( 𝑎∞ , 𝑎∞ + 𝛿∞ ) wegen Rechtsstetigkeit. Dieses Intervall ist kompakt, also können wir eine endliche Teilüberdeckung ﬁnden:
∃𝑁 ∈ ℕ: ⋃𝑁
𝑛=1 𝑎𝑛 , 𝑏𝑛 + 𝛿𝑛 ⊇ 𝑎∞ + 𝛿∞ , 𝑏∞ ⊇ 𝑎∞ + 𝛿∞ , 𝑏∞ . Damit gilt weiter
𝜇( 𝑎∞ , 𝑏∞ ) = 𝜇( 𝑎∞ , 𝑎∞ + 𝛿∞ ) + 𝜇( 𝑎∞ + 𝛿∞ , 𝑏∞ )
∞
𝑁
𝜇( 𝑎𝑛 , 𝑏𝑛 + 𝛿𝑛 ) ≤ 2𝜀 +
≤𝜀+
𝜇( 𝑎𝑛 , 𝑏𝑛 )
𝑛=1
𝑛=1
𝜇( 𝑎𝑛 ,𝑏𝑛 )+𝜀2−𝑛
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 12
Also ist auch „≤“ da 𝜀 beliebig gewählt war.
Somit ist 𝜇 ein Prämaß auf
und nach Fortsetzungssatz ein Maß auf
=
𝜎(
).
Beispiele für Verteilungsfunktionen von Wahrscheinlichkeitsmaßen auf (ℝ, ):
1. Sei 𝐹(𝑥): = 𝟏[𝑎,∞) mit 𝑎 ∈ ℝ. Dann erhalten wir das Dirac-Punktmaß 𝛿𝑎 auf 𝑎 ∈ ℝ.
2. Führt man noch mehrere endliche Zwischenstufen ein auf 𝑎𝑖 mit den Werten 𝑝𝑖 , dann erhält
man 𝜇 = ∑𝑛𝑖=1 (𝑝𝑖 − 𝑝𝑖−1 )𝛿𝑎𝑖 .
28 Deﬁnition: „absolute Stetigkeit, Dichte“
Existiert für ein Wahrscheinlichkeitsmaß ℙ auf (ℝ, ) eine messbare Funktion 𝜌: (ℝ, ) →
(ℝ, ), ∀𝑡 ∈ ℝ: 𝜌(𝑡) ≥ 0 sodass sich die Verteilungsfunktion von ℙ darstellen lässt als 𝐹(𝑥) =
𝑥
𝜌(𝑡)d𝑡 so heißt 𝜌 die Dichte von ℙ und 𝐹 ist absolutstetig.
∫−∞
29 Lemma:
∞
Ist 𝐹 absolutstetig und es gilt ∫−∞
𝜌(𝑡)d𝑡 = 1 für die Dichte 𝜌, dann ist 𝐹 die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes ℙ auf (ℝ, ).
Beispiel
für Wahrscheinlichkeitsmaße mit Dichten
2
1. Die Normalverteilung hat die Dichte 𝜑𝜇,𝜎 (𝑥) =
(𝑥−𝜇)
1 𝑒− 2𝜎 2
√2𝜋𝜎
mit den Parametern 𝜇 und 𝜎.
2. Die Gammverteilung besitzt ebenfalls eine Dichte. Diese können wir wiefolgt herleiten:
Betrachten wir ein Modell für die Anzahl von Versicherungsschäden über einem Zeitinter𝑘
vall (0, 𝑡]. Dies können wir durch Poisson𝛼𝑡 (𝑘) = 𝑒−𝛼𝑡 (𝛼𝑡)
modellieren. (Es wurde 𝜆 = 𝛼𝑡
𝑘!
gewählt.) 𝛼 beschreibt die Proportionalität zwischen der Länge des Zeitintervalls und der
erwarteten Anzahl an Schäden. Für das Ereignis, dass mindestens 𝑟 Schäden auftreten erhalten wir:
𝑟−1
ℙ(𝐴) = 1 − Poisson𝜆 ({0, 1, ⋯ , 𝑟}) = 1 −
Poisson𝜆 (𝑘)
𝑘=0
𝑟−1
𝑒−𝛼𝑡
=1−
𝑘=0
(𝛼𝑡)𝑘
=
𝑘!
𝑡
0
𝛼𝑟
𝑥𝑟−1 𝑒−𝛼𝑥 d𝑥
(𝑟 − 1)!
Dann ist die Verteilung der Zeit bis zum 𝑟-ten Schaden die Gammaverteilung mit der Dichte
𝛾𝛼,𝑟 (𝑥) = 𝟏[0,∞) (𝑥) ⋅
𝛼 𝑟 𝑥𝑟−1
⋅ 𝑒−𝛼𝑥
(𝑟 − 1)!
Die Gammafunktion ist
∞
𝛤(𝑟): =
𝑦𝑟−1 𝑒−𝑦 d𝑦 ,
𝑟>0
0
Prof. Becherer
Bodo Graumann
Stochastik I
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
Seite 13
Allgemein kann dies nicht analytisch ausgeschrieben werden. Jedoch erhält man für 𝑟 ∈ ℕ:
𝛤(𝑟) = (𝑟 − 1)!.
3. Die Exponentialverteilung mit Parameter 𝛼 > 0 hat die Dichte 𝜌𝛼 = 𝛾𝛼,1 .
Erinnerung an die Hauptresultate zum Maßintegral
Ist (𝛺, ) ein messbarer Raum mit einem Maß 𝜇: → [0, ∞]. Dann wollen wir ein Integralbegriﬀ deﬁnieren. Wir bezeichnen dieses dann mit ∫𝛺 𝑓d𝜇 bzw. ∫𝛺 𝑓(𝜔)d𝜇(𝜔) . Dabei werden
erst die Integrale über elementare Funktionen (Treppenfunktionen) deﬁniert: 𝑓 = ∑𝑁
𝑘=1 𝛼𝑘 𝟏𝐴𝑘
𝑁
wobei 𝑎𝑘 ∈ ℝ+ ⇒ ∫ 𝑓d𝜇 : = ∑𝑘=1 𝛼𝑘 𝜇(𝐴𝑘 ). Ist 𝑓 ≥ 0 messbar, so deﬁnieren wir ∫ 𝑓d𝜇 : =
sup𝑔 elementar ∫ 𝑔d𝜇 . Für alle anderen messbaren Funktionen 𝑓 mit ∫ |𝑓 |d𝜇 endlich setzen wir
0≤𝑔≤𝑓
dann ∫ 𝑓d𝜇 : = ∫ max(0, 𝑓)d𝜇 − ∫ max 0, −𝑓 d𝜇 . Diese Funktionen heißen dann Lebesgueintegrierbar (𝑓 ∈ 𝐿1 (𝜇) bzw. 𝐿1 (𝛺, , 𝜇)).
Bemerkung
1. Für eine Folge messbarer Funktionen (𝑓𝑛 )𝑛∈ℕ gelten die folgenden Konvergenzsätze
a) „Lemma von Fatou“: für 𝑓𝑛 ≥ 0 gilt
lim inf 𝑓𝑛 d𝜇 ≤ lim inf
𝑛→∞
𝑛→∞
𝑓𝑛 d𝜇
b) „monotone Konvergenz“: für 0 ≤ 𝑓1 ≤ 𝑓2 ≤ ⋯ gilt
lim
𝑛→∞
𝑓𝑛 d𝜇 =
lim 𝑓 d𝜇
𝑛→∞ 𝑛
c) „majorisierte Konvergenz“: ∃𝑔 ∈ 𝐿1 (𝜇): 𝜇( 𝜔 ∈ 𝛺 ∃𝑛 ∈ ℕ: |𝑓𝑛 (𝜔)| > 𝑔(𝜔) ) und
𝑓𝑛 → 𝑓∞ 𝜇-fast überall gilt, dann ist lim𝑛→∞ ∫ 𝑓𝑛 d𝜇 = ∫ 𝑓∞ d𝜇 .
2. für 𝑓: ℝ → [0, ∞) Riemann integrierbar auf ℝ, gilt dass 𝑓 Lebesgue integrierbar ist und
dass die Integrale übereinstimmen, wenn für 𝜇 das Lebesguemaß gewählt wird.
30 Korollar:
Sei (𝛺, , 𝜇) mit 𝜇: → [0, ∞] ein Maßraum und 𝜌: 𝛺 → ℝ eine ( , )-messbare Funktion.
Außerdem sei 𝜌 ≥ 0 und ∫ 𝜌d𝜇 = 1. Dann ist ℙ(𝐴): = ∫ 𝟏𝐴 𝜌d𝜇 = ∫𝐴 𝜌d𝜇 für 𝐴 ∈ ein
Wahrscheinlichkeitsmaß. Man nennt 𝜌 = 𝑑ℙ
die Radon-Nikodym Dichte von ℙ bezüglich 𝜇 und
𝑑𝜇
nennt ℙ absolutstetig bezüglich 𝜇 mit Dichte 𝜌.
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
Motivation Wir betrachten eine Studie eines neuen Tests auf eine Krankheit. Es werden 1000
Versuchspatienten getestet. Daraus entsteht die Kontingenztafel:
Prof. Becherer
Bodo Graumann
Stochastik I
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
gesund
krank
negativ
970
1
97
positiv
20
9
29
Seite 14
990
10
1000
Fragen: Welche Diagnose muss bei positivem Testergebnis gestellt werden?
Der Anteil der Gesunden inter den positiv getesteten ist 20
≈ 69%. Der Anteil der Kranken un29
9
ter den positiv Getesteten ist 29 ≈ 31%. Andererseits gilt unter der Bedingung, dass ein negatives
≈ 99, 9% und der Anteil der Kranken
Testergebnis vorliegt, dass der Anteil der Gesunden 970
971
1 ≈ 0, 1% ist.
971
31 Deﬁnition: „bedingte Wahrscheinlichkeit“
Gegeben sei (𝛺, , ℙ) und 𝐴, 𝐵 ∈
ℙ(𝐴|𝐵): =
mit ℙ(𝐵) > 0. Dann heißt
ℙ(𝐴 ∩ 𝐵)
ℙ(𝐵)
die bedingte Wahrscheinlichkeit von 𝐴 unter 𝐵.
32 Satz: Eigenschaften der bedingten Wahrscheinlichkeit
Sei ein Wahrscheinlichkeitsraum (𝛺, , ℙ) gegeben mit 𝐵 ∈
und ℙ(𝐵) > 0.
1. 𝑄(𝐴): = ℙ(𝐴|𝐵) ist ein Wahrscheinlichkeitsmaß auf .
2. Formel von der totalen Wahrscheinlichkeit: Sei 𝐵 = ⨆𝑖∈𝐼 𝐵𝑖 mit ℙ(𝐵𝑖 ) > 0 und abzählbarem 𝐼, dan gilt
ℙ(𝐴 ∩ 𝐵) =
ℙ(𝐵𝑖 )ℙ(𝐴|𝐵𝑖 )
𝑖∈𝐼
3. Seien 𝐴, 𝐵𝑖 ∈
mit strikt positiven Wahrscheinlichkeiten, 𝐼 abzählbar, 𝐵𝑖 paarweise
disjunkt und 𝛺 = ⨆𝑖∈𝐼 𝐵𝑖 , dann gilt
ℙ(𝐵𝑗 |𝐴) =
ℙ(𝐵𝑗 )ℙ(𝐴|𝐵𝑗 )
∑𝑖∈𝐼 ℙ(𝐵𝑖 )ℙ(𝐴|𝐵𝑖 )
33 Lemma: Multiplikationsformel
Seien 𝐴𝑖 ∈
mit ℙ(⋂𝑛−1
𝑖=1 𝐴𝑖 ) > 0, dann ist
𝑛
ℙ(
𝑖−1
𝑛
𝐴𝑖 ) = ℙ(𝐴1 )
𝑖=1
Prof. Becherer
ℙ(𝐴𝑖 |
𝑖=2
𝐴𝑗 )
𝑗=1
Bodo Graumann
Stochastik I
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
Seite 15
34 Deﬁnition: „Unabhängigkeit“
1. Zwei Ereigniss 𝐴, 𝐵 ∈
heißen unabhängig, falls ℙ(𝐴 ∩ 𝐵) = ℙ(𝐴)ℙ(𝐵).
2. Eine beliebige Familie von Ereignissen (𝐴𝑖 ) heißt unabhängig falls für jede endliche Teilmenge (𝐴𝑗 )𝑗∈𝐽 gilt
ℙ(
𝐴𝑗 ) =
𝑗∈𝐽
ℙ(𝐴𝑗 )
𝑗∈𝐽
3. eine Familie von Mengensystemen ( 𝑖 )𝑖∈𝐼 , 𝑖 ⊆ heißt unabhängig falls jede Auswahl
(𝐴𝑖 )𝑖∈𝐼 , 𝐴𝑖 ∈ 𝑖 eine unabhängige Familie von Ereignissen liefert.
4. Eine Familie von Zufallsvariablen 𝑌𝑖 : (𝛺, ) → (𝛺𝑖 , 𝑖 ) heißt unabhängig, falls die σAlgebren 𝜎(𝑌𝑖 ): = 𝑌𝑖−1 ( 𝑖 ) unabhängig sind. (Dabei ist 𝜎(𝑌𝑖 ) die kleinste σ-Algebra auf 𝛺,
bezüglicher welcher 𝑌𝑖 messbar ist.)
Bemerkungen
1. Sind (𝐴𝑖 )𝑖∈𝐼 unabhängig, dann sind die 𝐴𝑖 paarweise unabhängig. Die umgekehrte Implikation gilt jedoch nicht.
2. (𝐴𝑖 )𝑖∈𝐼 sind genau dann unabhängig, wenn die ( ∅, 𝐴𝑖 , 𝐴𝑖̄ , 𝛺 )𝑖∈𝐼 unabhängige σ-Algebren
sind.
35 Satz: Unabhängigkeitskriterium für Zufallsvariablen
Gegeben sei eine Familie von Zufallsvariablen 𝑌𝑖 : (𝛺, ) → (𝛺𝑖 , 𝑖 ), 𝑖 ∈ 𝐼 und ein unter
Durchschnitt stabiler Erzeuger 𝑖 ( 𝑖 = 𝜎( 𝑖 )). Für endliche 𝐽 ⊂ 𝐼 und 𝐵𝑖 ∈ 𝑖 , 𝑖 ∈ 𝐽 gelte
𝑌𝑖−1 (𝐵𝑖 )) =
ℙ(
ℙ(𝑌𝑖 ∈ 𝐵𝑖 )
𝑖∈𝐽
𝑖∈𝐽
(das heißt die ( 𝑌𝑖−1 (𝐸𝑖 ) 𝐸𝑖 ∈
𝑖
)𝑖∈𝐼 sind unabhängig) Dann sind die (𝑌𝑖 )𝑖∈𝐼 unabhängig.
36 Korollar: Speziellere Unabhängigkeitskriterien
Sei (𝑌𝑖 )𝑖∈{1,⋯,𝑛} eine endliche Familie von Zufallsvariablen auf (𝛺, , ℙ), dann gilt:
1. (diskreter Fall) falls die 𝑌𝑖 die Form 𝑌𝑖 : (𝛺, ) → (𝛺𝑖 , 𝑖 ) haben mit 𝛺𝑖 abzählbar und
𝑖 = (𝛺𝑖 ), so sind die (𝑌𝑖 )𝑖=1,⋯,𝑛 genau dann unabhängig, wenn
𝑛
∀𝜔𝑖 ∈ 𝛺𝑖 : ℙ(𝑌𝑖 = 𝜔𝑖 , 𝑖 = 1, ⋯ , 𝑛) =
ℙ(𝑌𝑖 = 𝑤𝑖 )
𝑖=1
2. (reellwertiger Fall) falls die 𝑌𝑖 die Form 𝑌𝑖 : (𝛺, ) → (ℝ, ) haben, so sind die (𝑌𝑖 )𝑖=1,⋯,𝑛
unabhängig genau dann, wenn
𝑛
∀𝑐𝑖 ∈ ℝ: ℙ(𝑌𝑖 ≤ 𝑐𝑖 , 𝑖 = 1, ⋯ , 𝑛) =
ℙ(𝑌𝑖 ≤ 𝑐𝑖 )
𝑖=1
Prof. Becherer
Bodo Graumann
Stochastik I
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
Seite 16
3. (reellwertiger, absolutstetiger Fall) sind die 𝑌𝑖 wie zuvor und die ℙ𝑌𝑖 = ℙ ∘ 𝑌𝑖−1 absolutstetige Verteilungen auf (ℝ, ) mit Dichtefunktionen 𝜌𝑖 : (ℝ, ) → (ℝ+ , (ℝ+ )), so sind die
(𝑌𝑖 )𝑖=1,⋯,𝑛 ) genau dann unabhängig, wenn 𝑌: = (𝑌1 , ⋯ , 𝑌𝑛 ): (𝛺, ) → (ℝ𝑛 , 𝑛 ) eine absolutstetige Verteilung ℙ ∘ 𝑌 −1 mit der Dichte 𝜌𝑌 (𝑦): = 𝜌𝑌 (𝑦1 , ⋯ , 𝑦𝑛 ) = ∏𝑛𝑖=1 𝜌𝑖 (𝑦𝑖 ) ist (bis
auf eine Lebesgue-Nullmenge).
Beispiel
𝑌1 , 𝑌2 sind unabhängig und jeweis 𝑁(0, 1)-verteilt genau dann, wenn 𝑌 = (𝑌1 , 𝑌2 ) eine
absolutstetige Verteilung mit Dichte 𝜌𝑌 (𝑦) = 𝜌1 (𝑦)𝜌2 (𝑦) =
1 𝑒−
2𝜋
gerade die Standerdnormalverteilung mit Mittelwertparameter
meter 𝐼2 =
1 0
0 1
𝑦2 +𝑦2
1 2
2
0
0
. Diese Verteilung von 𝑌 ist
und Kovarianzmatrixpara-
⃗ 𝐼2 ).
= 𝑁(0,
Bemerkungen
1. Die gemeinsame Verteilung einer Familie von Zufallsvariablen 𝑌𝑖 : (𝛺, ) → (𝛺𝑖 , 𝑖 ) ist
die Verteilung ℙ ∘ 𝑌 −1 der Zufallsvariable 𝑌: = (𝑌𝑖 )𝑖∈𝐼 : (𝛺, ) → (⨉𝑖∈𝐼 𝛺𝑖 , ⨂𝑖∈𝐼 𝑖 ).
2. Umgekehrt induziert eine mehrdimensionale Zufallsvariable 𝐷 eine Verteilung ℙ ∘ 𝑌 −1
auf dem Produktraum (⨉𝑖∈𝐼 𝛺𝑖 , ⨂𝑖∈𝐼 𝑖 ).
3. Die gemeinsame Verteilung induziert die Randverteilungen (Einschränkungen der 𝑌𝑖 ) als
ℙ𝑌𝑖 (𝐵𝑖 ) = ℙ(𝑌𝑖 ∈ 𝐵𝑖 ) = ℙ(𝑌1 ∈ 𝛺1 , ⋯ , 𝑌𝑖 ∈ 𝐵𝑖 , ⋯ 𝑌𝑛 ∈ 𝛺𝑛 ) = ℙ ∘ 𝑌 −1 (𝛺1 × ⋯ × 𝐵𝑖 ×
⋯ × 𝛺𝑛 ).
37 Satz: Existenz des Produktmaßes
Sei (𝛺𝑖 , 𝑖 , ℙ𝑖 )𝑖∈𝐼 eine Familie von Wahrscheinlichkeitsräumen, dann existiert genau ein Wahrscheinlichkeitsmaß ℙ auf 𝛺: = ⨉𝑖∈𝐼 𝛺𝑖 , : = ⨂𝑖∈𝐼 𝑖 = 𝜎(𝜋𝑖 , 𝑖 ∈ 𝐼) (Die kleinste σ-Algebra
bezüglich welcher alle Koordinatenprojektionen messbar sind.), so dass für alle endlichen Teilmengen 𝑌 ⊆ 𝐼 gilt
∀𝐴𝑖 ∈
𝜋𝑖−1 (𝐴𝑖 )
𝑖: ℙ
𝑖∈𝐽
=
ℙ𝑖 (𝐴𝑖 )
𝑖∈𝐽
ℙ heißt das Produktmaß und wir schreiben ℙ = ⨁𝑖∈𝐼 ℙ𝑖 .
Bemerkung Insbesondere gilt für die Randverteilung der 𝑖-ten Koordinate unter ℙ, dass mit
𝐴𝑖 ∈ 𝑖 : ℙ(𝜋𝑖−1 (𝐴𝑖 )) = ℙ𝑖 (𝐴𝑖 ) ist, das heißt die ℙ𝑖 sind die Randverteilungen der Koordinatenprojektionen 𝜋𝑖 welche Zufallsvariablen auf dem Raum (𝛺, , ℙ) sind.
38 Korollar: Existenz von Projektionen
Zu gegebenen Wahrscheinlichkeitsmaßen ℙ𝑖 auf (𝛺𝑖 , 𝑖 )𝑖∈𝐼 existiert ein Wahrscheinlichkeitsraum (𝛺, , ℙ) mit unabhängigen Zufallsvariablen (𝑋𝑖 )𝑖∈𝐼 so dass ℙ ∘ 𝑋𝑖−1 = ℙ𝑖 für 𝑖 ∈ 𝐼 gilt.
Prof. Becherer
Bodo Graumann
Stochastik I
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
Seite 17
39 Bemerkung:
1. Wegen dem obigen Korrolar sind Zufallsvariablen genau dann unabhängig, wenn ihre gemeinsame Verteilung durch das Produktmaß der Einzelverteilungen gegeben ist. Das heißt
die Randverteilungen gerade die Verteilungen der einzelnen Zufallsvariablen sind.
2. Grundidee der bedingten Verteilungen:
Fall 𝛺 = 𝛺1 × 𝛺2 ,
=
1
⊗
2
a) diskreter Fall: Zähldichte 𝜌(𝑦1 , 𝑦2 ), bedingte Verteilung von 𝑌1 gegenüber 𝑌2 ist beschrieben durch die bedingte Zähldichte
𝜌(𝑦1 |𝑦2 ) =
𝜌(𝑦1 , 𝑦2 )
𝜌(𝑦1 , 𝑦2 )
=
𝜌𝑌2 (𝑦2 )
∑𝑦𝑖 ∈𝛺 𝜌(𝑦𝑖 , 𝑦2 )
b) absolutstetiger Fall: sei 𝑌 = (𝑌1 , 𝑌2 ) absolutstetig mit Dichte 𝜌(𝑦1 , 𝑦2 )
die bedingte Dichte ist
𝜌𝑌2 |𝑌1 (𝑦2 |𝑦1 ): =
𝜌(𝑦1 , 𝑦2 )
∫𝛺 𝜌(𝑦1 , 𝑦2 )d𝑦2
=
2
𝜌(𝑦1 , 𝑦2 )
,
𝜌𝑌1 (𝑦1 )
𝑦2 ∈ 𝛺2 , 𝑦1 ∈ 𝛺1 , 𝜌𝑌1 (𝑦1 ) > 0(: = 0sonst)
dann gilt z.B.
ℙ(𝑌1 , 𝑌2 ∈ 𝐴×𝐵) =
𝛺1 ×𝛺2
𝟏𝐴×𝐵 𝜌(𝑦1 , 𝑦2 )d𝑦1 d𝑦2 =
𝛺1
𝟏𝐴 𝜌𝑌1 (𝑦1 )
𝛺2
𝟏𝐵 𝜌𝑌2 |𝑌1 (𝑦2 |𝑦1 )d𝑦2
d𝑦1
c) allgemeiner Fall (Ausblick auf Stochastik 2 / Maßtheorie)
Sei 𝑌2 eine Zuﬀalsvariable die Werte in einem „polnischen Raum“ (separabler, vollständiger matrischer Raum mit Borelscher σ-Algebra) annimmt. (z.B. (ℝ𝑛 , 𝑛 )), dann
existiert ein stochastischer Kern (oder Markov-Übergangskern) 𝐾. (Das heißt 𝐾: 𝛺1 ×
2 → [0, 1] mit
i. 𝑦1 ↦ 𝐾(𝑦1 , 𝐴2 ) ist
1 -messbar
für alle 𝐴2 ∈
2
ii. 𝐴2 ↦ 𝐾(𝑦1 , 𝐴2 ) ist ein Wahrscheinlichkeitsmaß für alle 𝑦1 ∈ 𝛺1
) Für diesen Kern gilt ℙ𝑌1 ,𝑌2 = ℙ𝑌1 ⊗ 𝐾, das heißt
∀𝐴 ∈
1 ⊗ 2 : ℙ((𝑌1 , 𝑌2 )
∈ 𝐴) =
𝛺1 ×𝛺2
𝟏𝐴 ℙ𝑌1 ,𝑌2 (d𝑦1 , d𝑦2 ) =
𝛺1
𝛺2
𝟏𝐴𝑦 (𝑦2 )𝐾(𝑦1 , d𝑦2 ) ℙ𝑌1 (d𝑦1 )
1
mit der Sektion
𝐴𝑦1 : =
falls 𝐴 ∈
1
𝑦2 ∈ 𝛺2 (𝑦1 , 𝑦2 ) ∈ 𝐴
⊗
2
2.
Z.B. für 𝐴 = 𝐴1 × 𝐴2 gilt 𝐴𝑦1 =
ℙ(𝑌1 ∈ 𝐴1 , 𝑌2 ∈ 𝐴2 ) =
Prof. Becherer
∈
𝛺1
𝐴2 , 𝑦1 ∈ 𝐴1
∅, sonst
𝟏𝐴1 (𝑦1 )
Bodo Graumann
𝛺2
ist
𝟏𝐴2 (𝑦2 )𝐾(𝑦1 , d𝑦2 ) ℙ𝑌1 (d𝑦1 )
Stochastik I
3 Asymptotische Ereignisse
Seite 18
Bemerkung Analoge Aussagen gelten für die Dimensionen 𝑛 ≥ 2.
40 Satz: Unabhängigkeit nach Abbildung
Sei (𝑌𝑖 )𝑖∈𝐼 eine Familie von unabhängigen Zufallsvariablen auf (𝛺, , ℙ), 𝑌𝑖 : (𝛺, ) → (𝛺𝑖 , 𝑖 ),
𝐼 = ⨆𝑘∈𝐾 𝐼𝑘 und sind 𝜑𝑘 (⨉𝑖∈𝐼𝑘 𝛺𝑖 , ⨂𝑖∈𝐼𝑘 𝑖 ) → (𝛺̃𝑘 , ̃ 𝑘 ), 𝑘 ∈ 𝐾 messbare Abbildungen, dann
sind die Zufallsvariablen 𝑌𝑘̃ : = 𝜑𝑘 ((𝑌𝑖 )𝑖∈𝐼𝑘 ), 𝑘 ∈ 𝐾 unabhängig.
3 Asymptotische Ereignisse
Es sei (𝛺, , ℙ) ein Wahrscheinlichkeitsraum und (𝑌𝑘 )𝑘∈ℕ , 𝑌𝑘 : (𝛺, ) → (𝛺𝑘 ,
Zufallsvariablen.
𝑘 ) eine Folge von
41 Deﬁnition: „asymptotische Ereignisse“
Ein Ereignis 𝐴 ∈
heißt asymptotisch bezüglich (𝑌𝑘 )𝑘∈ℕ falls für alle 𝑛 ∈ ℕ ein 𝐵𝑛 ∈
⨂𝑘≥𝑛 𝑘 existiert mit 𝐴 = (𝑌𝑘 )𝑘≥𝑛 −1 (𝐵𝑛 ). Wir schreiben ((𝑌𝑘 )ℕ ) für das System der asymptotischen Ereignisse bezüglich (𝑌𝑘 )ℕ .
Bemerkung
((𝑌𝑘 )ℕ ) ist eine σ-Algebra.
Beispiele
1. 𝐴 = ⋂∞
𝑘=1 ⋃𝑙≥𝑘
2. 𝐴 =
𝜔 𝑌𝑙 (𝜔) ∈ 𝐴𝑙 ∈
𝑙
𝜔 lim𝑁→∞ ( 𝑁1 ∑𝑁
𝑖=1 𝑌𝑖 (𝜔)) existiert und nimmt Werte im Intervall [𝑎, 𝑏] an
42 Satz: 0-1 Gesetz von Колмогоров
Sei (𝑌𝑘 )𝑘∈ℕ eine Folge von unabhängigen Zufallsvariablen auf (𝛺, , ℙ). Dann hat jedes asymptotische Ereignis 𝐴 ∈ ((𝑌𝑘 )ℕ ) die Wahrscheinlichkeit 0 oder 1.
Beweis (42) Wir betrachten die Projektionen 𝜋𝑖 : ⨉𝑘∈ℕ 𝛺𝑘 → 𝛺𝑖 , (𝜔𝑘 )ℕ ↦ 𝜔𝑖 und
𝑛
𝜋𝑖−1 (𝐴𝑖 ) 𝐴𝑖 ∈
:=
𝑖, 𝑖
= 1, ⋯ , 𝑛, 𝑛 ∈ ℕ
𝑖=1
dabei ist stabil unter Durchschnittbildung und erzeugt ⨂𝑘∈ℕ 𝑘 = 𝜎(𝜋𝑖 |𝑖 ∈ ℕ). Dann existiert
für jedes 𝑛 ∈ ℕ ein 𝐵𝑛 ∈ ⨂𝑘≥𝑛 𝑘 , sodass 𝐴 = ((𝑌𝑘 )𝑘≥𝑛 )−1 (𝐵𝑛 ) = (𝑌𝑘 )𝑘≥𝑛 ∈ 𝐵𝑛 . A ist
unabhängig von 𝑌𝑘 −1
(𝐸), 𝐸 ∈ , also auch für jedes 𝐸 ∈ ⨂𝑘∈ℕ 𝑘 . Somit ist 𝐴 auch
𝑘∈ℕ
unabhängig von sich selbst, also ℙ(𝐴) = ℙ(𝐴 ∩ 𝐴) = ℙ(𝐴)ℙ(𝐴).
□
43 Satz: Borel-Cantelli-Lemma
Es ist (𝛺, , ℙ) gegeben und 𝐴𝑘 , 𝑘 ∈ ℕ eine Folge von Ereignissen sowie 𝐴: = lim sup𝑘 𝐴𝑘 =
⋂𝑛∈ℕ ⋃𝑘≥𝑛 𝐴𝑘 , dann gilt:
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 19
1. ∑∞
𝑘=0 ℙ(𝐴𝑘 ) < ∞ ⇒ ℙ(𝐴) = 0
2. sind die 𝐴𝑘 , 𝑘 ∈ ℕ unabhängige Ereignisse mit ∑∞
𝑘=0 ℙ(𝐴𝑘 ) = +∞ ⇒ ℙ(𝐴) = 1
Beweis (43)
𝑛→∞
1. ∀𝑛: 𝐴 ⊆ ⋃𝑘≥𝑛 𝐴𝑘 ⇒ ℙ(𝐴) ≤ ℙ(⋃𝑘≥𝑛 𝐴𝑘 ) ≤ ∑∞
𝑘=𝑛 ℙ(𝐴𝑘 ) −−−→ 0
̄
2. 𝐴̄ = ⋃∞
𝑛=0 ⋂𝑘≥𝑛 𝐴𝑘 , dann gilt
∞
∞
ℙ(𝐴)̄ =
ℙ(
𝑛=0
𝑘=𝑛
𝑚
∞
𝐴𝑘̄ ) =
lim ℙ(
𝑛=0
𝑚→∞
𝑚
∞
𝐴𝑘̄ ) =
𝑘=𝑛
lim
𝑘=0
𝑚→∞
∞
ℙ(𝐴𝑘̄ ) ≤
𝑘=𝑛=1−ℙ(𝐴 )
𝑘
≤𝑒−ℙ(𝐴𝑘 )
𝑚
lim 𝑒− ∑𝑘=𝑛 ℙ(𝐴𝑘 ) = 0
𝑛=0
𝑚→∞
Beispiel „Monkey typing typewriter“: Seien 𝑋1 , 𝑋2 , … unabhängige Laplace-Zufallsvariablen
auf {𝑎, ⋯ , 𝑧, 𝐴, ⋯ , 𝑍} ∪ 𝑃𝑢𝑛𝑘𝑡𝑎𝑡𝑖𝑜𝑛. Dann ist die Wahrscheinlichkeit, dass irgendwann ein beliebiges Wort, Ihr Name oder Goethes „Faust“ vorkommt gleich 1.
4 Erwartungswert und Varianz
44 Deﬁnition: „Erwartungswert“
Sei 𝑋 eine Zufallsvariable auf (𝛺, , ℙ) mit Werten in (ℝ, ). Ist 𝑋 ≥ 0 oder 𝑋 ∈ 𝐿1 (ℙ) (das
heißt ∫𝛺 |𝑋|1 dℙ < ∞), so heißt 𝔼(𝑋): = ∫𝛺 𝑋dℙ der Erwartungswert von 𝑋.
Bemerkung
• 𝐿𝑝 (ℙ): = 𝐿𝑝 (𝛺, , ℙ) =
𝑋: (𝛺, ) → (ℝ, ) ∫ |𝑋|𝑝 dℙ < ∞
𝑝
für 𝑝 ∈ [1, ∞) ist ein
1
𝑝
Banachraum mit der Norm ‖𝑋‖𝑝 = (∫ |𝑋| dℙ ) und für 𝑝 = 2 ein Hilbertraum mit
⟨𝑋1 , 𝑋2 ⟩ = ∫ 𝑋1 𝑋2 dℙ .
• Man sagt oft auch „Mittelwert“ von 𝑋 bezüglich ℙ zu 𝔼(𝑋).
• Wichtige Eigenschaften des Erwartungswerts folgen aus Eigenschaften des Maßintegrals;
etwa Linearität, Monotonie und die Konvergenzaussagen.
Beispiel Liegt ein diskreter Wahrscheinlichkeitsraum mit dem Zählmaß vor, so ist der Erwartungswert 𝔼(𝑋) = ∑𝜔∈𝛺 𝑋(𝜔)ℙ({𝜔}).
45 Lemma:
Sei ℙ𝑋 = ℙ ∘ 𝑋 −1 die Verteilung von 𝑋: (𝛺, ) → (𝛺 ,
1
) und 𝑓 eine messbare Funktion
!
𝑓: (𝛺 , ) → (ℝ, ) mit 𝑓 ≥ 0 oder 𝑓 ∘ 𝑋 ∈ 𝐿 (ℙ). Dann gilt 𝔼(𝑓(𝑋)) = ∫𝛺 𝑓(𝑋(𝜔))dℙ(𝜔) =
∫𝛺 𝑓(𝑥)dℙ𝑋 (𝑥)
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 20
Beweis (45) für 𝑓 = 𝟏𝐴 , 𝐴 ∈
gilt ∫𝛺 𝟏𝐴 (𝑋)dℙ = ℙ(𝑋 ∈ 𝐴) = ℙ𝑋 (𝐴) ✓
Damit gilt die Behauptung für alle elementaren Funktionon 𝑓 = ∑𝑛𝑘=1 𝛼𝑘 𝟏𝐴𝑘 , 𝐴𝑘 ∈ , 𝑎𝑘 ∈ ℝ.
Weil jede messbare Funktion 𝑓 ≥ 0 monoton durch elementare Funktionen 𝑓𝑛 approximierbar ist
mit 0 ≤ 𝑓𝑛 ≤ 𝑓 , folgt die Behauptung für 𝑓 ≥ 0 mittels messbarer Konvergenz. Für 𝑓 ∈ 𝐿1 (ℙ𝑋 )
folgt die Behauptung dann über 𝑓 = 𝑓 + − 𝑓 − .
46 Korollar:
Sei 𝑋 eine Zufallsvariable mit absolutstetiger Verteilung und Dichte 𝜌 sowie 𝑓 eine messbare
reelle Funktion für die 𝑌: = 𝑓 ∘ 𝑋 ≥ 0 oder 𝑌 ∈ 𝐿1 (ℙ) ist, so gilt 𝔼(𝑓(𝑥)) = ∫𝛺 𝑓(𝑥)𝜌(𝑥)d𝑥 .
47 Satz: wichtige Ungleichungen
1. Markovsche Ungleichung
𝔼(|𝑋|𝑝 )
𝜀𝑝
∀𝑝 ∈ [1, ∞) : ∀𝜀 > 0: ℙ(|𝑋| ≥ 𝜀) ≤
2. den Spezialfall von 1 mit 𝑝 = 2 nennt man auch Čebyšëv Ungleichung
3. exponentielle Markov Ungleichung
ℙ(𝛼𝑋 ≥ 𝜀) ≤
𝔼(𝑒𝛼𝑋 )
𝑒𝜀
4. Cauchy-Schwarz Ungleichung: für 𝑋, 𝑌 ∈ 𝐿2 (ℙ) gilt 𝑋𝑌 ∈ 𝐿1 (ℙ) und 𝔼(𝑋𝑌) ≤ √𝔼(𝑋 2 )𝔼(𝑌 2 )
5. Höldersche Ungleichung: 𝑋 ∈ 𝐿𝑝 (ℙ), 𝑌 ∈ 𝐿𝑞 (ℙ) mit 𝑝 ∈ (1, ∞), 𝑞 > 1 sodass
𝑝
1
𝑝
𝑞
1
𝑝
+
1
𝑞
= 1,
1
𝑞
dann gilt 𝔼(|𝑋𝑌 |) ≤ (𝔼(|𝑋|) ) (𝔼(|𝑌 | )) .
6. Minkowski Ungleichung: 𝑋, 𝑌 ∈ 𝐿𝑝 (ℙ), 𝑝 ∈ [1, ∞), dann ist ‖𝑋+𝑌 ‖𝐿𝑝 ≤ ‖𝑋‖𝐿𝑝 +‖𝑌 ‖𝐿𝑝
Beweis (47)
1. 𝔼(|𝑋|𝑝 ) ≥ 𝔼(𝜀𝑝 𝟏{|𝑋|≥𝜀} ) = 𝜀𝑝 ℙ(|𝑋| ≥ 𝜀)
Die anderen Beweise werden hier nicht geführt.
48 Lemma: Jensensche Ungleichung
Ist 𝑋 eine reelle Zufallsvariable und 𝑓: ℝ → ℝ eine konvexe Funktion, 𝑋, 𝑓(𝑋) ∈ 𝐿1 (ℙ), dann
gilt
𝑓(𝔼(𝑋)) ≤ 𝔼(𝑓(𝑋))
Beweis (48) Da 𝑓 konvex ist, lässt sie sich darstellen als 𝑓(𝑥) = sup𝑦 (𝛼𝑦 𝑥 + 𝛽𝑦 ), 𝑥 ∈ ℝ (supremum aﬃner Funktionen) mit passenden 𝛼𝑦 , 𝛽𝑦 ∈ ℝ darstellen, also gilt
𝔼(𝑓(𝑋)) ≥ sup(𝛼𝑦 𝔼(𝑋)𝑦 + 𝛽𝑦) = 𝑓(𝔼(𝑋))
𝑦
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 21
49 Lemma: Erwartungswert unabhängiger Zufallsvariablen
Sind 𝑋, 𝑌 ∈ 𝐿2 (ℙ) unabhängig, dann ist 𝔼(𝑋𝑌) = 𝔼(𝑋) ⋅ 𝔼(𝑌).
Bemerkung Für eine ℝ𝑛 -wertige Zufallsvariable 𝑋 ist 𝔼(𝑋) = (𝔼(𝑋𝑖 ))𝑖=1,⋯,𝑛 koordinatenweise deﬁniert.
50 Deﬁnition: „Varianz, Kovarianz“
Für 𝑋, 𝑌 ∈ 𝐿2 (ℙ) gilt:
1. Var(𝑋): = 𝔼((𝑋 − 𝔼(𝑋))2 ) = 𝔼(𝑋 2 ) − 𝔼(𝑋)2 ist die Varianz von 𝑋. √Var(𝑋) ist die
Standardabweichung (oder Streuung) von 𝑋.
2. Cov(𝑋, 𝑌): = 𝔼((𝑋 − 𝔼(𝑋))(𝑌 − 𝔼(𝑌))) = 𝔼(𝑋𝑌) − 𝔼(𝑋)𝔼(𝑌) die Kovarianz von 𝑋 und 𝑌 .
3. Falls Cov(𝑋, 𝑌) = 0 ist, heißen 𝑋 und 𝑌 unkorreliert.
51 Lemma:
Seien 𝑋, 𝑌, 𝑋1 , 𝑋2 , ⋯ ∈ 𝐿2 (ℙ), 𝑎, 𝑏, 𝑐, 𝑑 ∈ ℝ. Dann gilt
1. Cov(𝑎𝑋 + 𝑏, 𝑐𝑌 + 𝑑) = 𝑎 ⋅ 𝑐 Cov(𝑋, 𝑌), insbesondere ist Var(𝑎𝑋 + 𝑏) = 𝑎2 Var(𝑋).
2. Cov(𝑋, 𝑌) ≤ √Var(𝑋) Var(𝑌)
3. ∑𝑛𝑘=1 𝑋𝑘 ∈ 𝐿2 und Var(∑𝑛𝑘=1 𝑋𝑘 ) = ∑𝑛𝑘=1 (Var(𝑋𝑘 ) + ∑𝑗≠𝑘 Cov(𝑋𝑗 , 𝑋𝑘 ))
4. Sind 𝑋 und 𝑌 unabhängig, dann sind sie auch unkorreliert.
Bemerkung
1. Ist 𝑋 eine ℝ-wertige Zufallsvariable, 𝑋 ∈ 𝐿2 (ℙ) mit Var(𝑋) > 0, dann heißt
𝑋 − 𝔼(𝑋)
𝑋:̃ =
√Var(𝑋)
standardisiert. (𝔼(𝑋)̃ = 0, Var(𝑋)̃ = 1)
2. Für 𝑋 ℝ𝑛 -wertig, 𝑋 ∈ 𝐿2 (ℙ), das heißt ∀𝑖: 𝑋𝑖 ∈ 𝐿2 heißt (Cov(𝑋𝑖 , 𝑋𝑗 ))𝑖,𝑗=1,⋯,𝑛 die
Varianz / Covarianzmatrix von 𝑋.
Beispiele
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 22
1. für Varianzberechnung: Seien 𝑋1 , ⋯ , 𝑋𝑛 iid (independent identically distributed) Bernoulli(p) Zufallsvariablen. Dann ist
𝑛
𝑋=
𝑋𝑖 ∼ Bin𝑛,𝑝
𝑖=1
𝑛
𝔼(𝑋) =
𝔼(𝑋𝑖 ) = 𝑛𝑝
𝑖=1
𝑛
Var(𝑋) =
Var(𝑋𝑖 ) + ⏟
0 = 𝑛 Var(𝑋1 ) = 𝑛𝑝(1 − 𝑝)
𝑖=1
∑ 𝐶𝑜𝑣
2. für 𝑋 ∼ 𝑁(𝜇, 𝜎 2 ), 𝜇 ∈ ℝ, 𝜎 2 > 0 ist 𝔼(𝑋) = 𝜇
Bemerkung Im allgemeinen impliziert Unkorreliertheit von 𝑋, 𝑌 nicht deren Unabhängigkeit.
Gegenbeispiele
1. 𝑈 ∼ ((0, 2𝜋)) also gleichverteilt auf (0, 2𝜋). Dann wählen wir 𝑋: = sin 𝑈 , 𝑌: = cos 𝑈
dann ist 𝔼(𝑋) = 𝔼(𝑌) = 0 und Cov(𝑋, 𝑌) = 0 aber sicher gilt keine Unabhängigkeit wegen
𝑋 2 + 𝑌 2 = 1.
2. Sei 𝑋 ∼
𝑋) = 0.
(0, 1) und 𝑌: = 𝑋 2 − 1. Dann ist 𝔼(𝑌) = 0 also Cov(𝑋, 𝑌) = 𝔼(𝑋𝑌) = 𝔼(𝑋 3 −
Bemerkung Falls 𝑋 ℝ𝑛 -wertig, 𝑋 ∈ 𝐿2 (ℙ), 𝛴: = Cov(𝑋, 𝑋), 𝑌: = 𝐴𝑋 + 𝑏 wobei 𝐴 ∈ ℝ𝑚×𝑛 ,
𝑏 ∈ ℝ𝑚 so gilt Cov(𝑌, 𝑌) = 𝐴𝛴𝐴𝑇 , denn Cov(𝑌𝑖 , 𝑌𝑗 ) = 𝐶𝑜𝑣((𝐴𝑋)𝑖 , (𝐴𝑌)𝑖 ) (sehe Übung)
52 Deﬁnition: „Korrelationskoeﬃzient“
Seien 𝑋, 𝑌 ∈ 𝐿2 (ℙ) mit Var(𝑋), Var(𝑌) > 0, dann heißt
Cov(𝑋, 𝑌)
Corr(𝑋, 𝑌): =
√Var(𝑋) Var(𝑌)
Korrelation von 𝑋 und 𝑌 . (Dies wird oft mit 𝜌(𝑋, 𝑌) bezeichnet.)
53 Lemma:
Seien 𝑋, 𝑌 wiederum wie eben. Dann gilt
1. Corr(𝑋, 𝑌) ∈ [−1, +1]
2. Ist 𝔼(𝑋) = 0 so folgt
min 𝔼(|𝑌 − (𝑎𝑋 + 𝑏)|2 ) = 𝔼(|𝑌 − (𝑎∗ 𝑋 + 𝑏∗ )|2 )
𝑎,𝑏∈ℝ
für 𝑎∗ = Cov(𝑋, 𝑌)/ Var(𝑋) = Corr(𝑋, 𝑌)√Var(𝑌)/ Var(𝑋) und 𝑏∗ = 𝔼(𝑌) sowie
min 𝔼(|𝑌 − (𝑎𝑋 + 𝑏)|2 ) = Var(𝑌)(1 − (Corr(𝑋, 𝑌))2 )
𝑎,𝑏
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 23
4.1 Die Gesetze der großen Zahlen
Vorbemerkung klassische Formelierung der Čebyšëv-Ungleichung: 𝑌 ∈ 𝐿2 (ℙ), 𝜀 > 0 ⇒ ℙ(|𝑌−
𝔼(𝑌)| ≥ 𝜀) ≤ Var(𝑌)
.
𝜀2
54 Deﬁnition: „stochastische Konvergenz“
Gegeben ist ein Wahrscheinlichkeitsraum (𝛺, , ℙ) und ℝ-wertige Zufallsvariablen 𝑌, (𝑌𝑛 )𝑛∈ℕ .
Dann sagen wir (𝑌𝑛 )𝑛∈ℕ konvergiert stochastisch (bzw. „in Wahrscheinlichkeit“ oder „in ℙ“), falls
∀𝜀 > 0: lim ℙ(|𝑌𝑛 − 𝑌 | ≤ 𝜀) = 1
𝑛→∞
ℙ
Man schreibt auch 𝑌𝑛 −→ 𝑌 .
55 Satz: schwaches Gesetz der großen Zahl
Seien (𝑋𝑛 )𝑛∈ℕ paarweise unkorrelierte Zufallsvariablen aus 𝐿2 (ℙ) mit sup𝑛 Var(𝑋𝑛 ) ≤ 𝑐 für
ein 𝑐 ∈ ℝ. Dann gilt für 𝜀 > 0:
1
ℙ(|
𝑛
𝑛
(𝑋𝑖 − 𝔼(𝑋𝑖 ))| ≥ 𝜀) ≤
sup𝑛 Var(𝑋𝑛 )
𝑛𝜀2
𝑖=1
→0
Bemerkung
1. Dies ist eine Form der stochastischen Konvergenz mit
2. Falls ∀𝑘: 𝔼(𝑋𝑘 ) = 𝔼(𝑋1 ), so gilt
1
𝑛
1
𝑛
ℙ
∑𝑛𝑖=1 (𝑋𝑖 − 𝔼(𝑋𝑖 )) −→ 0.
ℙ
∑𝑛𝑘=1 𝑋𝑘 −→ 𝔼(𝑋1 )
Beweis (55) 𝑌𝑛 : = 1𝑛 ∑𝑛𝑖=1 (𝑋𝑖 − 𝔼(𝑋𝑖 )) ∈ 𝐿2 nach der Minkowski-Ungleichung und es gilt
𝔼(𝑌𝑛 ) = 0. Dann gilt mit der Čebyšëv-Ungleichung:
1
Var(𝑌𝑛 ) = 2
𝑛
𝑛
Var(𝑋𝑘 ) ≤
𝑖=1
1
𝑛𝑐 → 0
𝑛2
ℙ
⇒ 𝑌𝑛 −→ 0
□
56 Deﬁnition: „fast-sichere Konvergenz“
Seien 𝑌 , (𝑌𝑛 )𝑛∈ℕ reellwertige Zufallsvariablen auf dem selben (𝛺, , ℙ). Dann konvergiert 𝑌𝑛
ℙ-fast-sicher gegen 𝑌 falls sie nur auf einer Nullmenge nicht konvergiert. Das heißt
ℙ( lim 𝑌𝑛 = 𝑌) = 1
𝑛→∞
Man sagt auch 𝑌𝑛 konvergiert ℙ-fast-überall.
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 24
Beispiele
1. Monte Carlo Integration
Wir betrachten eine messbare Funktion 𝑓: [0, 1] → [0, 𝑐] mit 𝑐 ∈ ℝ+ (z.B. stetig und positiv) und suchen eine numerische Approximation von ∫[0,1]𝑑 𝑓(𝑥)d𝑥 wobei die Dimension
𝑑 groß ist. Dazu simulieren wir unabhängige Zufallsvariablen 𝑋𝑖 welche gleichverteilt auf
[0, 1]𝑑 sind. Dann gilt
𝑛
ℙ(|
1
𝑓(𝑋𝑘 )−
𝑛 𝑘=1
𝑛
𝑓d𝑥 | ≥ 𝜀) = ℙ(|
[0,1]𝑑
Var(𝑋1 ) 𝑛→∞
1
−−−→ 0
𝑓(𝑋𝑘 )−𝔼(𝑓(𝑋1 ))| ≥ 𝜀) ≤
𝑛 𝑘=1
𝑛𝜀2
Das heißt für genügend großes 𝑛 können wir ∫ 𝑓d𝑥 durch Monte Carlo Simulation approximativ berechnen.
2. Wir untersuchen gleichmäßige Approximation einer stetigen Funktion 𝑓: [0, 1] → ℝ durch
Polynome. Seien 𝑋1 , 𝑋2 , ⋯ unabhängige Bernoulli(p) verteilte Zufallsvariablen. Dann gilt
𝑛
𝑛
𝑛
𝑘
1
𝑘 𝑛 𝑘
𝔼(𝑓(
𝑋𝑘 )) =
𝑓( ) Bin𝑛,𝑝 (𝑘) =
𝑓( )
𝑝 (1 − 𝑝)𝑛−𝑘 =: 𝑓𝑛 (𝑝)
𝑛 𝑘=1
𝑛
𝑛
𝑘
𝑘=0
𝑘=0
Bernstein Polynom 𝑛-ten Grades
Dann behaupten wir
𝑛→∞
‖𝑓𝑛 − 𝑓 ‖∞ = sup |𝑓𝑛 (𝑝) − 𝑓(𝑝)| −−−→ 0
𝑝∈[0,1]
𝑓 ist stetig also gleichmäßig stetig auf dem Kompaktum [0, 1]:
∀𝜀 > 0: ∃𝛿 > 0: ∀𝑥, 𝑦: |𝑥 − 𝑦| < 𝛿 ⇒ |𝑓(𝑥) − 𝑓(𝑦) ≤ 𝜀|. Dann folgt weiter für beliebiges
𝜀 > 0.
𝑛
|𝑓𝑛 (𝑝) − 𝑓(𝑝)| = |𝔼(𝑓(
1
𝑋 ) − 𝑓(𝑝))|
𝑛 𝑘=1 𝑘
𝑛
≤ 𝔼(|𝑓(
1
𝑋 ) − 𝑓(𝑝)|(𝟏
𝑛 𝑘=1 𝑘
| 1𝑛 ∑𝑛𝑘=1 𝑋𝑘 −𝑝|<𝛿
+𝟏
| 1𝑛 ∑𝑛𝑘=1 𝑋𝑘 −𝑝|≥𝛿
))
1
𝑝(1 − 𝑝) ↘𝑛→∞ 𝜀
𝑛𝛿 2
⇒ lim ‖𝑓𝑛 − 𝑓 ‖∞ = 0
≤ 𝜀 + 2‖𝑓 ‖∞
𝑛→∞
□
Bemerkung Der Begriﬀ der ℙ-fast-überallen Konvergenz ist wohldeﬁniert, denn
𝜔 ∈ 𝛺 lim𝑛→∞ 𝑌𝑛 (𝜔) = 𝑌(𝜔) ist messbar:
𝜔∈𝛺
lim 𝑌
𝑛→∞ 𝑛
=𝑌
=
|𝑌𝑙 − 𝑌 | ≤
1
𝑛
∞
=
𝑛∈ℕ 𝑘∈ℕ 𝑙=𝑘
Prof. Becherer
𝜔 ∈ 𝛺 ∀𝑛 ∈ ℕ: ∃𝑘 ∈ ℕ: ∀𝑙 ≥ 𝑘: |𝑌𝑘 (𝜔) − 𝑌(𝜔)| ≤
∈
Bodo Graumann
1
𝑛
Stochastik I
4 Erwartungswert und Varianz
Seite 25
57 Lemma:
ℙ
Konvergieren 𝑌𝑛 , 𝑛 ∈ ℕ ℙ-fast-sicher gegen die 𝑌 , dann gilt auch 𝑌𝑛 −→ 𝑌
Beweis (57)
∞
∞
∞
1 = ℙ(𝑌𝑛 → 𝑌) = ℙ(
|𝑌𝑙 − 𝑌 | ≤
𝑛=1 𝑘=1 𝑙=𝑘
∞
∞
⇒ 1 = ℙ(
|𝑌𝑙 − 𝑌 | ≤
𝑘=1 𝑙=𝑘
1
𝑛
𝑛→∞
|𝑌𝑙 − 𝑌 | ≤
𝑘=1 𝑙=𝑘
∞
1
𝑛
= lim ℙ(
𝑘→∞
|𝑌𝑙 − 𝑌 | ≤
𝑙=𝑘
∞
⇒ ℙ( |𝑌𝑘 − 𝑌 | >
∞
∞
= lim ℙ(
1
)
𝑛
1
)
𝑛
∞
𝑘→∞
1
1
1
|𝑌𝑙 − 𝑌 | >
) ≤ ℙ(
) = 1 − ℙ(
|𝑌𝑙 − 𝑌 | ≤
) −−−→ 0
𝑛
𝑛
𝑛
𝑙=𝑘
𝑙=𝑘
ℙ
Das heißt gerade 𝑌𝑘 −→ 𝑌 .
Bemerkung Im Allgemeinen gilt die Umkehrung nicht — stochastische Konvergenz impliziert
nicht die ℙ-fast-sichere Konvergenz.
Gegenbeispiel: Wir wählen 𝛺 = [0, 1], = ([0, 1]) und ℙ als Gleichverteilung. Dann sei
𝑘 = 2𝑛 + 𝑚,
𝑌𝑘 : = 𝟏[𝑚2−𝑛 ,(𝑚+1)2−𝑛 ] ,
0 ≤ 𝑚 ≤ 2𝑛 ,
𝑛∈ℕ
Dann gilt ℙ(|𝑌𝑘 − 0| > 𝜀) ≤ 21𝑛 für 2𝑛 ≤ 𝑘 ≤ 2𝑛+1 . Also konvergiert 𝑌𝑘 ℙ-stochastisch gegen 0
jedoch nicht ℙ-fast-überall. Es gilt sogar lim sup𝑘 𝑌𝑘 (𝜔) = 1 und lim inf 𝑘 𝑌𝑘 (𝜔) = 0. Das heißt
𝑌𝑘 konvergiert nirgends.
58 Satz: starkes Gesetz der großen Zahl
Seien unkorrelierte (𝑋𝑘 )𝑘∈ℕ reellwertige Zufallsvariablen mit sup𝑛 Var(𝑋𝑛 ) < ∞, dann gilt
𝑛
1
(𝑋 − 𝔼(𝑋𝑘 )) → 0 ℙ-fast-sicher
𝑛 𝑘=1 𝑘
Beweis (58) O.B.d.A. gelte 𝔼(𝑋)𝑛 = 0 (sonst betrachte 𝑋𝑛 = 𝑋𝑛 − 𝔼(𝑋𝑛 )). Zuerst werden wir
die Konvergenzaussage für 𝑌𝑛2 zeigen. Für ein beliebiges 𝜀 > 0 gilt nach Čebyšëv:
ℙ( |𝑌𝑛2 | > 𝜀 ) ≤
𝑐
𝑛2 𝜀2
=:𝐴𝑛 (𝜀)
∞
⇒
ℙ(𝐴𝑛 (𝜀)) < ∞
𝑛=1
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 26
Wir können nun also Satz 43 (Borel-Cantelli-Lemma) anwenden und erhalten dass die Wahrscheinlichkeit, dass nur endlich viele 𝐴𝑛 (𝜀) eintreten 1 ist:
∞
∞
̄
𝐴𝑛 (𝜀))
=1
ℙ(
𝑚=1 𝑛=𝑚
⇒ ∃𝑁 ∈ , ℙ(𝑁) = 0: ∀𝜔 ∈ 𝑁:̄ ∃𝑛 ∈ ℕ: ∀𝑚 ≥ 𝑛: |𝑌𝑚2 (𝜔)| ≤ 𝜀
⇒ lim sup |𝑌𝑛2 (𝜔)| ≤ 𝜀
𝑛→∞
∞ ∞
∞
⇒ ℙ(
𝐴𝑛
𝑘=1 𝑚=1 𝑛=𝑚
̄1
𝑘
fast überall
)=1
und für jedes 𝜔 aus der letzteren Menge gilt lim𝑛→∞ 𝑌𝑛2 (𝜔) = 0. Also gilt diese Aussage ℙ-fastsicher.
Nun zeigen wir dass sogar 𝑌𝑛 → 0 ℙ-fast-sicher gilt. Für jedes 𝑚 ∈ ℕ gibt es ein 𝑛(𝑚) ∈ ℕ
sodass 𝑛2 ≤ 𝑚 < (𝑛 + 1)2 dann
𝑚
ℙ(|𝑚𝑌𝑚 − 𝑛2 𝑌𝑛2 | ≥ 𝑛2 𝜀) ≤
𝑐(𝑚 − 𝑛2 )
1
Var
𝑋
≤
≤∞
𝑘
2 𝑛4
𝜀2 𝑛4
𝜀
2
𝑘=𝑛 +1
∞
∞
ℙ(|𝑚𝑌𝑚 − 𝑛(𝑚)2 𝑌𝑛(𝑚)2 | ≥ 𝑛(𝑚)2 𝜀) ≤
⇒
𝑚=1
𝑛=1
2
=
𝑐
𝜀2
∞ (𝑛+1) −1
𝑛=1
𝑚=𝑛2
𝑚 − 𝑛2
𝑐
= 2
𝑛4
𝜀
∞
2𝑛
𝑐
𝑘
= 2
4
𝑛
𝜀
𝑛=1 𝑘=1
𝑐(𝑚 − 𝑛(𝑚)2 )
𝜀2 𝑛(𝑚)4
∞
𝑛=1
2𝑛(2𝑛 + 1) 1
⋅ 4 <∞
2
𝑛
mit Satz 43 (Borel-Cantelli-Lemma) Folgt, analog zum vorigen Schritt dass
𝑚
ℙ( lim |
𝑌 − 𝑌𝑛(𝑚)2 | = 0) = 1
𝑚→∞ 𝑛(𝑚)2 𝑚
Das heißt die Konvergenz gilt ℙ-fast-sicher. Zusammen mit der im ersten Teil des Beweises
gezeigten Konvergenzaussage von 𝑌𝑛2 folgt dann
𝑚
𝑚
lim
𝑌 = 0 ℙ-fast-sicher
∧
lim
=1
𝑚→∞ 𝑛(𝑚)2
𝑚→∞ 𝑛(𝑚)2 𝑚
und somit gilt die Behauptung.
Bemerkung Das starke Gesetz der großen Zahl gilt auch unter schwächeren Voraussetzungen
als oben angegeben. 1981 hat Etemadi die Konvergenz für 𝑋𝑖 ∈ 𝐿1 (𝑃) unkorreliert und identisch
verteilt gezeigt.
59 S
eien 𝑋1 , 𝑋2 , ⋯ iid Zufallsvariablen in 𝐿2 (𝑃), ℝ-wertig. Für jede Realisierung 𝜔 ∈ 𝛺 heißt
𝑛
𝐹𝑛 (𝑥)(𝜔): =
Prof. Becherer
1
𝟏
(𝑋 (𝜔))
𝑛 𝑘=1 (−∞,𝑥] 𝑘
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 27
die empirische Verteilungsfunktion von 𝑋1 , ⋯ , 𝑋𝑛 , 𝑛 ∈ ℕ. 𝐹𝑛 ist die Verteilungsfunktion des
empirischen Wahrscheinlichkeitsmaßes
𝑛
ℙ𝑛 : =
1
𝛿
𝑛 𝑘=1 𝑋𝑘 (𝜔)
auf (ℝ, ). Dann sind 𝑌𝑘 : = 𝟏(−∞,𝑥] (𝑋𝑘 ) iid Zufallsvariablen, 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝐹(𝑥))-verteilt, wobei 𝐹
die Verteilungsfunktion der einzelnen 𝑋𝑘 ist. Nach dem Gesetz der großen Zahlen gilt dann
𝑛
1
lim 𝐹 (𝑥) =
𝑌 = 𝐹(𝑥)
𝑛→∞ 𝑛
𝑛 𝑘=1 𝑘
Das heißt die empirischen Verteilungsfunktionen konvergieren Punktweise gegen die Verteilungsfunktion 𝐹 aus der die iid Ziehungen stammen.
60 Satz: Gliwenko-Cantelli
Seien (𝑋𝑘 )𝑘∈ℕ reellwertige Zufallsvariablen iid auf (𝛺, , ℙ) mit Verteilungsfunktion 𝐹(𝑥) und
𝐹𝑛 die empirische Verteilungsfunktion der 𝑋1 , ⋯ , 𝑋𝑛 . Dann gilt
lim sup sup |𝐹𝑛 (𝑥) − 𝐹(𝑥)| = lim sup ‖𝐹𝑛 − 𝐹 ‖∞ = 0
𝑛→∞
ℙ − fast überall
𝑛→∞
𝑥∈ℝ
Beweis (60)
𝑌𝑛 (𝑥): = 𝟏(−∞,𝑥] (𝑋𝑛 ),
𝑍𝑛 (𝑥): = 𝟏(−∞,𝑥) (𝑋𝑛 )
Dann sind (𝑌𝑛 )ℕ und (𝑍𝑛 )ℕ jeweils iid Folgen von Zufallsvariablen und sind jeweils BernoulliFolgen mit Erfolgswahrscheinlichkeit 𝐹(𝑥) bzw. 𝐹(↗ 𝑥): = lim𝑥↗𝑥
𝐹(𝑥)̃ (𝐹𝑛 (↗ 𝑥) analog)
̃
𝔼𝑌𝑛 (𝑥) = 𝐹(𝑥), 𝔼𝑍𝑛 (𝑥) = 𝐹(↗ 𝑥)
nach Satz 58 (starkes Gesetz der großen Zahl) gilt dann
𝑛
𝑛
𝑛→∞
𝑛→∞
1
1
𝐹𝑛 (𝑥) =
𝑌 (𝑥) −−−→ 𝐹(𝑥)𝐹𝑛 (↗ 𝑥) =
𝑍 (𝑥) −−−→ 𝐹(↗ 𝑥)
𝑛 𝑘=1 𝑘
𝑛 𝑘=1 𝑘
Sei 𝐹(−∞): = 0, 𝐹(+∞): = 1. Fixiere nun 𝑁 ∈ ℕ und deﬁniere
𝑥𝑗 : = inf
𝑗
𝑥 ∈ ℝ̄ 𝐹(𝑥) ≥
𝑁
𝑅𝑛 : = max
𝑗=0,⋯,𝑁
⇒ lim 𝑅𝑛 = 0
𝑛→∞
Prof. Becherer
|𝐹𝑛 (𝑥𝑗 ) − 𝐹(𝑥𝑗 )| + |𝐹𝑛 (↗ 𝑥𝑗 | − 𝐹(↗ 𝑥𝑗 )
ℙ − fast überall
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 28
Für jedes 𝑥 ∈ ℝ mit 𝑥 ∈ (𝑥𝑗−1 , 𝑥𝑗 ) gilt dass
1
𝑁
1
𝐹𝑛 (𝑥) ≥ 𝐹𝑛 (𝑥𝑗−1 ) ≥ 𝐹𝑛 (𝑥𝑗−1 ) − 𝑅𝑛 ≥ 𝐹(𝑥) − 𝑅𝑛 −
𝑁
1
1
⇒ lim sup sup |𝐹𝑛 (𝑥) − 𝐹(𝑥)| ≤
+ lim sup 𝑅𝑛 ≤
𝑁
𝑁
𝑛→∞ 𝑥∈ℝ
𝑛→∞
𝐹𝑛 (𝑥) ≤ 𝐹𝑛 (↗ 𝑥𝑗 ) ≤ 𝐹𝑛 (↗ 𝑥𝑗 ) + 𝑅𝑛 ≤ 𝐹(𝑥) + 𝑅𝑛 +
Da das 𝑁 beliebig gewählt war wurde die Behauptung bewiesen.
5 Charakteristische Funktionen
Grundidee Wir wollen Wahrscheinlichkeitsmaße auf (ℝ𝑛 , 𝑛 ) durch (komplexwertige) Funktionen eindeutig charakterisieren und damit nützliche Aussagen über Maße mit funktionentheoretischen Mitteln erhalten.
Notation
Im folgenden verwenden wir das euklidische Skalarprodukt ⟨𝑥, 𝑦⟩: = ∑𝑑𝑘=1 𝑥𝑘 𝑦𝑘 .
61 Deﬁnition: „charakteristische Funktion eines Maßes“
Sei 𝜇 ein Wahrscheinlichkeitsmaß auf (ℝ𝑛 ,
𝜇:̂ ℝ𝑑 ⇒ ℂ,
𝑛
). Dann heißt 𝜇:̂
𝑒𝑖⟨𝑢,𝑥⟩ d𝜇(𝑥)
𝑢↦
ℝ𝑑
die charakteristische Transformation (oder „Fourier Transformation“) von 𝜇.
Für eine Zufallsvariable 𝑋 mit Werten in ℝ𝑑 heißt
𝜑𝑋 (𝑢): = 𝑃𝑋̂ (𝑢) =
ℝ𝑑
𝑒𝑖⟨𝑢,𝑥⟩ d𝑃𝑋 (𝑥) = 𝔼(𝑒𝑖⟨𝑢,𝑋⟩ )
die charakteristische Funktion von 𝑋.
Bemerkung
𝑒𝑖⟨𝑢,𝑥⟩ d𝜇(𝑥) =
𝜇(𝑢)
̂ =
ℝ𝑑
cos(⟨𝑢, 𝑥⟩)d𝜇(𝑥) + 𝑖
ℝ𝑑
sin(⟨𝑢, 𝑥⟩)d𝜇(𝑥)
ℝ𝑑
𝜑𝑋 (𝑢) = 𝔼(cos(⟨𝑢, 𝑋⟩)) + 𝑖𝔼(sin(⟨𝑢, 𝑋⟩))
62 Lemma: Eigenschaften der charakteristischen Transformation
Sei 𝜇 ein Wahrscheinlichkeitsmaß auf (ℝ𝑑 ,
mit 𝜇(0)
̂ = 1.
Prof. Becherer
𝑑
). Dann ist 𝜇̂ eine beschränkte Funktion auf ℝ𝑑
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 29
Beweis (62) 𝜇(0)
̂ = 1 ist klar. 𝜇̂ ist beschränkt da
|𝑒𝑖⟨𝑢,𝑥⟩ d𝜇(𝑥) | = 1
|𝜇(𝑢)|
̂
≤
ℝ𝑑
=1
Stetigkeit gilt wegen der Beschränktheit des Integranden nach beschränkter Konvergenz (Lebesgue).
63 Deﬁnition: „Momente einer Zufallsvariablen“
Ist 𝑋 eine Zufallsvariable mit werten in ℝ𝑑 , dann heißt 𝔼(|𝑋|𝑚 ), 𝑚 ∈ ℕ das 𝑚-te Moment von
𝑋.
64 Satz: Beziehung zwischen Momenten und charakteristischer Funktion
Sei 𝑋 eine ℝ𝑑 -wertige Zufallsvariable mit einem endlichen 𝑚-ten Moment. Dann ist die charakteristische Funktion 𝜑𝑋 von 𝑋 𝑚 mal stetig partiell diﬀerenzierbar und
𝜕𝑚
𝜑 (𝑢) = 𝑖𝑚 𝔼(𝑋𝑗1 𝑋𝑗2 ⋯ 𝑋𝑗𝑚 𝑒𝑖⟨𝑢,𝑋⟩ )
𝜕𝑥𝑗1 𝜕𝑥𝑗2 ⋯ 𝜕𝑥𝑗𝑚 𝑋
Beweis (64) Sei 𝜇: = 𝑃𝑋 die Verteilung auf 𝑑 und ∫ℝ𝑑 |𝑥|𝑚 d𝜇(𝑥) < ∞, das heißt |𝑥|𝑚 ∈
𝐿1 (𝜇). Wir betrachten den Fall 𝑚 = 1.
Wir betrachten also den Diﬀerenzenquotienten der Richtungsableitung. Für lim𝑛→∞ 𝑡𝑛 = 0:
𝜇(𝑢
̂ + 𝑡𝑛 𝑒𝑗 ) − 𝜇(𝑢)
̂
1 𝑖⟨𝑢,𝑥⟩ 𝑖⟨𝑡𝑛 𝑒𝑗 ,𝑥⟩
𝑒
(𝑒
− 1)d𝜇(𝑥)
𝑡𝑛
ℝ𝑑 𝑡𝑛
cos(𝑡𝑛 𝑥𝑗 ) − 1 𝑖 sin(𝑡𝑛 𝑥𝑗 )
1
lim (𝑒𝑖⟨𝑡𝑛 𝑒𝑗 ,𝑥⟩ − 1) = lim
+
= −𝑥𝑗 sin(0) + 𝑖𝑥𝑗 cos(0) = 𝑖𝑥𝑗
𝑛→∞ 𝑡𝑛
𝑛→∞
𝑡𝑛
𝑡𝑛
1
| (𝑒𝑖⟨𝑡𝑛 𝑒𝑗 ,𝑥⟩ − 1)| ≤ 2|𝑥| ∈ 𝐿1 (𝜇)
𝑡𝑛
𝜇(𝑢
̂ + 𝑡𝑛 𝑒𝑗 ) − 𝜇(𝑢)
̂
𝜕
⇒ lim
=
𝑒𝑖⟨𝑢,𝑥⟩ (𝑖𝑥𝑗 )d𝜇(𝑥) = 𝑖𝔼(𝑋𝑗 𝑒𝑖⟨𝑢,𝑋⟩ ) =
𝜑 (𝑢)
𝑛→∞
𝑡𝑛
𝜕𝑥𝑗 𝑋
ℝ𝑑
=
nach majorisierter Konvergenz. Die Stetigkeit folgt analog zu obigem Lemma. Weiter folgt die
Behauptung für andere 𝑚 mit vollständiger Induktion über 𝑚.
Beispiel
1. 𝑋 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑝):
𝜑𝑋 (𝑢) = 𝔼(𝑒𝑖𝑢𝑋 ) = (1 − 𝑝)𝑒0 + 𝑝𝑒𝑖𝑢 = 𝑝𝑒𝑖𝑢 + 1 − 𝑝
2. 𝑋 ∼ Bin(𝑛, 𝑝):
𝑛
𝑛
𝜑𝑋 (𝑢) = 𝔼(𝑒𝑖𝑢𝑋 ) = 𝔼(𝑒𝑖𝑢 ∑𝑘=1 𝑋𝑘 ) =
𝔼(𝑒𝑖𝑢𝑋𝑘 ) = (𝑝𝑒𝑖𝑢 + 1 − 𝑝)𝑛
𝑘=1
Prof. Becherer
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 30
3. 𝑋 ∼ Poisson(𝜆):
∞
𝑒𝑖𝑢𝑘
𝜑𝑋 (𝑢) =
𝑘=0
𝑖𝑢
𝜆𝑘 −𝜆
𝑒 = 𝑒𝜆(𝑒 −1)
𝑘!
4. 𝑋 ∼
([−𝑎, 𝑎]): 𝜑𝑋 (𝑢) =
5. 𝑋 ∼
(0, 1):
1
𝑎𝑢
𝜑𝑋 (𝑢) = 𝔼(𝑒𝑖𝑢𝑋 ) =
sin(𝑎𝑢)
1
cos(𝑢𝑥)
𝑥2
𝑒− 2 d𝑥 + 𝑖
√2𝜋
ℝ
1
sin(𝑢𝑥)
𝑥2
𝑒− 2 d𝑥
√2𝜋
ℝ
=0
𝜑𝑋 (𝑢) =
⇒
𝜑𝑋 (𝑢)
𝜑𝑋 (𝑢)
∞
1
√2𝜋
− sin(𝑢𝑥)𝑥𝑒
2
− 𝑥2
d𝑥 = −
1
√2𝜋
−∞
= −𝑢 ⇒ ln(𝜑𝑋 (𝑢)) = −
∞
−∞
𝑥2
𝑢 cos(𝑢𝑥)𝑒− 2 d𝑥 = −𝑢𝜑𝑋 (𝑢)
𝑢2
𝑢2
𝑢2
+ 𝑐 ⇒ 𝜑𝑋 (𝑢) = 𝑒− 2 +𝑐 = 𝑒− 2
2
65 Lemma: charakteristische Funktion von aﬃnen Transformationen
Sei 𝑋 eine ℝ𝑑 -wertige Zufallsvariable und 𝑌: = 𝐴𝑋 + 𝑏 mit 𝐴 ∈ ℝ𝑚×𝑑 und 𝑏 ∈ ℝ𝑚 . Dann gilt
𝜑𝑌 (𝑢) = 𝑒𝑖⟨𝑢,𝑏⟩ 𝜑𝑋 (𝐴𝑇 𝑢)
Beispiel Sei 𝑋 ∼ (𝜇, 𝜎 2 ), 𝜇 ∈ ℝ, 𝜎 ≠ 0 und ist 𝑋 = 𝜇 + 𝜎𝑌 für 𝑌 ∼
2
𝜑𝑋 (𝑢) = exp(𝑖𝑢𝜇 − 𝜎 2 𝑢2 ).
Beispiel Seien 𝑋1 , ⋯ , 𝑋𝑑 iid 𝑋𝑘 ∼
2
verteilt in ℝ𝑑 und 𝜑𝑋 (𝑢) = exp(− |𝑢|2 ).
(0, 1), dann gilt
(0, 1). Dann heißt 𝑋 = (𝑋1 , ⋯ , 𝑋𝑑 ) standardnormal-
5.1 Summe von unabhängigen Zufallsvariablen
Wir werden sehen, dass wir für Summen von unabhängigen Zufallsvariablen die charakteristische
Funktion sehr einfach berechnen lassen und zudem den Begriﬀ der Faltung einführen.
66 S
eien 𝑋, 𝑌: 𝛺 → ℝ unabhängige Zufallsvariablen auf (𝛺, , ℙ) mit Verteilungen ℙ𝑋 = ℙ ∘
𝑋 , ℙ𝑌 = ℙ ∘ 𝑌 −1 auf 1 . Dann heißt die Verteilung von 𝑍: = 𝑋 + 𝑌 die Faltung (bzw.
Faltungsprodukt) von ℙ𝑋 und ℙ𝑌 und man schreibt ℙ𝑍 = ℙ𝑋 ∗ ℙ𝑌 . Sie ist gegeben durch
−1
ℙ𝑍 (𝐴) = (ℙ𝑋 ∗ ℙ𝑌 )(𝐴): =
Prof. Becherer
ℝ
ℝ
𝟏𝐴 (𝑥 + 𝑦)dℙ𝑥 (𝑥) dℙ𝑦 (𝑦)
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 31
Beweis (66) Da 𝑋 und 𝑌 unabhängig sind ist ℙ(𝑋,𝑌) = ℙ𝑋 ⊗ ℙ𝑌 damit gilt für 𝑔: ℝ2 → ℝ
integrierbar (d.h. 𝑔 ∈ 𝐿1 (ℙ𝑋 ⊗ ℙ𝑌 ) oder 𝑔 ≥ 0)
𝔼(𝑔(𝑋, 𝑌)) =
ℝ
ℝ
𝑔(𝑥, 𝑦)dℙ𝑋 (𝑥) dℙ𝑌 (𝑦)
𝑔(𝑥,𝑦)=𝟏𝐴 (𝑥+𝑦)
==========⇒ 𝔼(𝑋 + 𝑌) =
ℝ
ℝ
𝟏𝐴 (𝑥 + 𝑦)dℙ𝑋 dℙ𝑌 = ℙ(𝑋 + 𝑌 ∈ 𝐴) = ℙ(𝑍 ∈ 𝐴) = 𝑃𝑍 (𝐴)
67 Korollar:
Seien 𝑋, 𝑌 unabhängige Zufallsvariablen auf (𝛺, , ℙ) mit Werten in ℝ, 𝑍: = 𝑋 + 𝑌 . Dann
ist
𝜑𝑍 (𝑢) = 𝜑𝑋 (𝑢)𝜑𝑌 (𝑢), 𝑢 ∈ ℝ
Beweis (67) Wie im obigen Satz erhalten wir
𝔼(𝑒𝑖⟨𝑢,𝑋+𝑌⟩ ) = 𝔼(𝑒𝑖⟨𝑢,𝑋⟩ ⋅ 𝑒𝑖⟨𝑢,𝑌⟩ ) = 𝔼(𝑒𝑖⟨𝑢,𝑋⟩ )𝔼(𝑒𝑖⟨𝑢,𝑌⟩ )
68 Bemerkung: Unabhängigkeit
Es reicht aber nicht 𝜑𝑋+𝑌 (𝑢) = 𝜑𝑋 (𝑢)𝜑𝑌 (𝑢) um zu schließen, dass 𝑋 und 𝑌 unabhängig sind.
69 Satz: Existenz von Dichten
Seien 𝑋, 𝑌 unabhängige Zufallsvariablen und 𝑍: = 𝑋 + 𝑌 .
1. Hat zudem 𝑋 eine Dichte 𝑓𝑋 , so hat 𝑍 eine Dichte auf (ℝ, ) und
𝑓𝑍 (𝑧) =
ℝ
𝑓𝑋 (𝑧 − 𝑦)dℙ𝑌 (𝑦)
2. Haben sowohl 𝑋 als auch 𝑌 eine Dichte 𝑓𝑋 bzw. 𝑓𝑌 , dann hat 𝑍 die Dichte
𝑓𝑍 (𝑧) =
ℝ
𝑓𝑋 (𝑧 − 𝑦)𝑓𝑌 (𝑦)d𝜆(𝑦) =
ℝ
𝑓𝑌 (𝑧 − 𝑥)𝑓𝑋 (𝑥)d𝜆(𝑥)
Beweis (69)
1.
ℝ ℝ
𝑧=𝑥+𝑦
𝟏𝐴 (𝑥 + 𝑦)dℙ𝑋 (𝑥) dℙ𝑌 (𝑦) =
=
ℝ
ℝ
⇒ 𝑓𝑍 (𝑧) =
ℝ
ℝ
𝟏𝐴 (𝑧)𝑓𝑋 (𝑧 − 𝑦)d𝑧 dℙ𝑌 (𝑦) =
ℝ
𝟏𝐴 (𝑥 + 𝑦)𝑓𝑋 (𝑥)d𝑥 dℙ𝑌 (𝑦)
ℝ
𝟏𝐴 (𝑧)
ℝ
𝑓𝑋 (𝑧 − 𝑦)dℙ𝑌 (𝑦) d𝑧
𝑓𝑋 (𝑧 − 𝑦)dℙ𝑌 (𝑦)
Die andere Form folgt mittels Vertauschung von 𝑋 und 𝑌 nach Symmetrie.
Prof. Becherer
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 32
2.
𝑓𝑍 (𝑧) =
ℝ
𝑓𝑋 (𝑧 − 𝑦)dℙ (𝑦) =
ℝ
𝑓𝑋 (𝑧 − 𝑦)𝑓𝑌 (𝑦)d𝑦
70 Satz: Charakteristik-Eigenschaft
Ist 𝑋 eine Zufallsvariable in (ℝ𝑑 , 𝑑 ). Dann charakterisiert 𝜑𝑋 bzw. ℙ̂ 𝑋 die Verteilung ℙ𝑋
von 𝑋 auf 𝑑 das heißt sind 𝜇1 , 𝜇2 Wahrscheinlichkeitsmaße auf 𝑑 , dann gilt 𝜇1̂ = 𝜇2̂ nur wenn
𝜇1 = 𝜇 2 .
Beweis (70) (Siehe zum Beispiel Sim82, Seite 160). Dieser Beweis benutzt die lokal kompakte
Version des Stone-Weierstraß-Theorems.
Wir betrachten die Funktion
𝑓(𝜎, 𝑥): =
1
exp(−
(√2𝜋𝜎 2 )𝑑
̂ 𝑢): = exp(−
𝑓 (𝜎,
|𝑥|2
)
2𝜎 2
|𝑢|2
)
2𝜎 2
Also ist 𝑓(𝜎, ⋅) die gemeinsame Dichte von 𝑋 = (𝑋1 , ⋯ , 𝑋𝑑 ) für 𝑋1 , ⋯ , 𝑋𝑑 iid mit 𝑋𝑖 ∼
(0, 𝜎 2 ).
𝑑
𝜑𝑋 (𝑢) = 𝔼(𝑒
𝑖⟨𝑢,𝑋⟩
𝑑
)=
𝜑𝑋𝑗 (𝑢𝑗 ) =
𝑗=1
⇒ 𝑓(𝜎, 𝑢 − 𝑣) =
1
(2𝜋𝜎 2 )
𝑑
2
exp(−
𝑗=1
̂
𝑓 (𝜎,
ℝ𝑑
1
ℝ𝑑
2
̂ 𝑢)
) = 𝑓 (𝜎,
1
𝑢−𝑣
𝑖⟨ 𝑢−𝑣
,𝑋⟩
𝜎2
)
=
𝔼(𝑒
)
𝑑
𝜎2
2
(2𝜋𝜎 ) 2
Seien 𝜇1 , 𝜇2 Wahrscheinlichkeitsmaße auf (ℝ𝑑 ,
𝑓(𝜎, 𝑢 − 𝑣)d𝜇1 =
𝑢2𝑗 𝜎 2
(√2𝜋𝜎)𝑑
(
ℝ𝑑
𝑑
) mit 𝜇1̂ = 𝜇2̂ =: 𝜇.̂
𝑓(𝜎, 𝑥)𝑒𝑖⟨𝑢,𝑥⟩ d𝑥 ) d𝜇1 (𝑥) =
ℝ𝑑
𝑓(𝜎, 𝑢 − 𝑣)d𝜇1 (𝑢)
̂ 𝑢−𝑣
=𝑓 (𝜎,
2
𝜎
1
=
ℝ𝑑
(√2𝜋𝜎)𝑑
𝑓(𝜎, 𝑥)𝜇1̂ (𝑥)d𝑥
Analog ergibt sich diese Formel mit 𝜇2 , 𝜇2̂ .
⇒ ∀𝜎 > 0, 𝑣 ∈ ℝ𝑑 :
ℝ𝑑
⇒
ℝ𝑑
𝑔d𝜇1 =
ℝ𝑑
𝑓(𝜎, 𝑢 − 𝑣)d𝜇1 (𝑢) =
ℝ𝑑
𝑓(𝜎, 𝑢 − 𝑣)d𝜇2 (𝑢)
𝑔d𝜇2
gilt für alle Funktionn 𝑔 aus dem Vektorraum der durch 𝑓(𝜎, ⋅ − 𝑣) 𝜎 > 0, 𝑣 ∈ ℝ𝑑 aufgespannt wird. teilt einzelne Punkte in ℝ𝑑 . Somit zeigt Stone-Weierstraß, dass dicht bezüglich
Prof. Becherer
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 33
gleichmaßiger Konvergenz in der Banachalgebra 𝐶0 (ℝ𝑑 ) liegt, wobei 𝐶0 (ℝ𝑑 ) der Banachraum
der stetigen Funktionen ℝ𝑑 → ℝ mit Konvergenz bezüglich der Supremumsnorm ist, welche
„gegen ∞ verschwinden“. (d.h. ∀𝜀 > 0∃ Kompaktum 𝐾 ⊆ ℝ𝑑 , 𝑔 ∈ 𝐶0 (ℝ𝑑 ): |𝑔| ≤ 𝜀 auf ℝ𝑑 ⧵ 𝐾).
Jede Indikatorfunktion auf Rechtecken kann monoton approximiert werden durch Funktion
aus und dort die Maße übereinstimmen, müssen sie auch auf der gesammten Borell-σ-Algebra
übereinstimmen.
Bemerkung Will man etwas Konstruktives zur Berechnung des Maßes aus seiner charakteristischen Funktion, so braucht man Ergebnise aus der Fourieranalysis zur Fouriertransformierteninversion. Es ergibt sich zum Beispiel im Eindimensionalen für eine Zufallsvariable 𝑋: 𝛺 → ℝ:
1
1
ℙ𝑋 ((𝑎, 𝑏)) + ℙ𝑋 ({𝑎, 𝑏}) = lim
𝑇 ↗ ∞ 2𝜋
2
[−𝑇,𝑇]
𝑒−𝑖𝑢𝑎 − 𝑒−𝑖𝑢𝑏
𝜑𝑋 (𝑢)d𝑢
𝑖𝑢
für beliebige 𝑎, 𝑏 ∈ ℝ, 𝑎 < 𝑏. Die Funktion
1
1
𝐺(𝑏): = lim ℙ𝑋 ((𝑎, 𝑏)) + ℙ𝑋 ({𝑎, 𝑏}) = ℙ𝑋 ((−∞, 𝑏)) + ℙ𝑋 ({𝑏})
𝑎 ↘ −∞
2
2
bestimmt die Verteilung von 𝑋 bereits eindeutig: 𝑃(𝑋 ≤ 𝑏) = 𝐹𝑋 (𝑏) = 𝐺(𝑏)+ 12 (𝐺(𝑏)−𝐺(↗ 𝑏)).
(Siehe auch Shi95, Paragraph 12, Theorem 3)
71 Satz: Unabhängigkeit anhand charakteristischer Funktionen
Zufallsvariablen 𝑋 = (𝑋1 , ⋯ , 𝑋𝑑 ) auf (𝛺, , ℙ) und Werten in ℝ𝑑 sind genau dann unabhängig, wenn
𝑑
∀𝑢 ∈ ℝ𝑑 : 𝜑𝑋 (𝑢) =
𝜑𝑋𝑘 (𝑢𝑘 )
𝑘=1
5.2 Normalverteilungen
72 Deﬁnition: „multidimensionale Normalverteilung“
Eine ℝ𝑑 -wertige Zufallsvariable 𝑋 = (𝑋1 , ⋯ , 𝑋𝑑 ) auf (𝛺, , ℙ) heißt Gaußsche Zufallsvariable oder multidimensional normalverteilt falls für jedes 𝑎 ∈ ℝ𝑑 die Linearkombination
⟨𝑎, 𝑋⟩ = ∑𝑑𝑘=1 𝑎𝑘 𝑋𝑘 eindimensional normalverteilt sind.
Bemerkung Unter Umständen sind die Linearkombinationen degeneriert normalverteilt mit
Varianz 0, das heißt die Punktmaße auf 𝜇 in ℝ1 .
73 Satz: charakteristische Funktion der Normalverteilung
Ist 𝑋 eine ℝ𝑑 -wertige Zufallsvariable auf (𝛺, , ℙ), dann ist 𝑋 genau dann multidimensional
normalverteilt, wenn ihre charakteristische Funktion die Form
1
∀𝑢 ∈ ℝ𝑑 : 𝜑𝑋 (𝑢) = exp(𝑖⟨𝑢, 𝜇⟩ − ⟨𝑢, 𝑄𝑢⟩)
2
hat, mit 𝜇 ∈ ℝ𝑑 und 𝑄 eine symmetrische nichtnegative semi-deﬁnit 𝑑 × 𝑑-Matrix. Außerdem
ist dann 𝑄 die Koverianzmatrix und 𝜇 der Erwartungswertvektor.
Prof. Becherer
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 34
Beweis (73) Hat die charakteristische Funktion von 𝑋 die gegebene Form so betrachten wir
𝑌: = ⟨𝑎, 𝑋⟩ und erhalten für die 𝑣 ∈ ℝ1 :
𝑑
1
𝜑𝑌 (𝑣) = 𝔼(𝑒𝑖𝑣 ∑𝑘=1 𝑎𝑘 𝑋𝑘 ) = 𝜑𝑋 (𝑣𝑎) = exp(𝑖𝑣⟨𝑎, 𝜇⟩ − 𝑣2 ⟨𝑎, 𝑄𝑎⟩)
2
Wegen der Eindeutigkeit muss dann 𝑌 ∼ (⟨𝑎, 𝜇⟩, ⟨𝑎, 𝑄𝑎⟩) sein. Die Momente erhalt wir aus
Satz 64 (Beziehung zwischen Momenten und charakteristischer Funktion):
𝔼(𝑋𝑖 𝑋𝑗 ) =
1
𝜕
⋅
𝜑 (𝑢)|𝑢=0 = (−1)(−𝜇𝑖 𝜇𝑗 − 𝑄𝑖𝑗 ) = 𝜇𝑖 𝜇𝑗 + 𝑄𝑖𝑗
𝑖2 𝜕𝑥𝑖 𝜕𝑥𝑗 𝑋
⇒ Cov(𝑋𝑖 , 𝑋𝑗 ) = 𝔼(𝑋𝑖 𝑋𝑗 ) − 𝔼𝑋𝑖 𝔼𝑋𝑗 = 𝑄𝑖𝑗
Ist auf der anderen Seite 𝑋 bereits als normalverteilt gegeben, so ergibt mit 𝑌: = ⟨𝑎, 𝑋⟩ =
∑𝑑𝑘=1 𝑎𝑘 𝑋𝑘 und 𝑄: = Cov(𝑋):
𝔼(𝑌) = 𝔼(⟨𝑎, 𝑋⟩) = ⟨𝑎, 𝔼(𝑋)⟩ = ⟨𝑎, 𝜇⟩ ∧ 𝜇 = 𝔼(𝑋) ∧ Var(𝑌) = 𝑎𝑇 𝑄𝑎 = ⟨𝑎, 𝑄𝑎⟩
1
⇒ 𝑌 ∼ (⟨𝑎, 𝜇⟩, ⟨𝑎, 𝑄𝑎⟩) ⇒ 𝜑𝑌 (𝑣) = exp(𝑖𝑣⟨𝑎, 𝜇⟩ − 𝑣2 ⟨𝑎, 𝑄𝑎⟩)
2
⇒ 𝜑𝑌 (1) = 𝜑⟨𝑎,𝑋⟩ (1) = 𝔼(exp(𝑖⟨𝑎, 𝑋⟩)) = 𝜑𝑋 (𝑎)
Also hat 𝜑𝑋 die behauptete Form.
Beispiel Seien 𝑋1 , ⋯ , 𝑋𝑑 unabhängige Zufallsvariablen 𝑋𝑗 ∼
multivariat normalverteilt, denn
𝑑
𝜑𝑋 (𝑢) =
𝑑
𝜑𝑋𝑘 (𝑢𝑘 ) =
𝑘=1
(𝜇𝑗 , 𝜎𝑗2 ). Dann ist 𝑋 = (𝑋1 , ⋯ , 𝑋𝑑 )
1
1
exp(𝑖𝑢𝑘 𝜇𝑘 − 𝜎𝑘2 𝑢2𝑘 ) = exp(𝑖⟨𝑢, 𝜇⟩ − ⟨𝑢, 𝑄𝑢⟩)
2
2
𝑘=1
mit 𝜇 = (𝜇1 , ⋯ , 𝜇𝑑 ) und 𝑄 = diag(𝜎12 , ⋯ , 𝜎𝑑2 ).
74 Satz: Unabhängigkeit einer Normalverteilung
Ist 𝑋: 𝛺 → ℝ𝑑 (multidimensional normalverteilt), dann sind die Komponenten 𝑋𝑗 genau dann
unabhängig, wenn sie unkorreliert sind, das heißt wenn Cov(𝑋) eine Diagonalmatrix ist.
Beweis (74) Die Hinrichtung ist gerade das obige Beispiel. Die Rückrichtung gilt, da die charakteristischen Funktionen bereits gleich sind, wenn die Kovarianzmatrix Diagonalform hat.
75 Bemerkung: Fortsetzbarkeit der charakteristischen Funktion
Setzt man die charakteristische Funktion 𝜑𝑋 (𝑧) = 𝔼(𝑒⟨𝑧,𝑥⟩ ) auf ganz ℂ fortsetzt, so kann man
zeigen, dass sie beispielsweise in ℝ1 auf einem Streifen { 𝑧 ∈ ℂ | |Re 𝑧| < 𝑐 } holomorph ist.
(vergleiche Str85, I, Paragraph 5)
76 Lemma: Simulation von multidimensionalen Normalverteilungen
Sei 𝑋 ∼ (𝜇, 𝑄). Dann existieren unabhängige univariate 𝑌1 , ⋯ , 𝑌𝑑 , 𝑌𝑗 ∼
𝑋 = 𝑦 + 𝐴𝑌 für 𝜇 = 𝔼(𝑋) und eine orthogonale Matrix 𝐴 gilt.
Prof. Becherer
Bodo Graumann
(0, 𝜆2𝑗 ) sodass
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 35
Beweis (76) Sei 𝑄 = Cov(𝑋) symmetrisch, nichtnegativ semideﬁnit. Dann ist 𝑄 = 𝐴𝛬𝐴𝑇
mit einer orthogonalen Matrix 𝐴 und einer Diagonalmatrix 𝛬 = diag(𝜆21 , ⋯ , 𝜆2𝑑 ) sowie 𝜆𝑗 ≥ 0.
Setzen wir dann 𝑌: = 𝐴𝑇 (𝑋 − 𝜇), so erfüllt 𝑌 die Forderungen.
Hat 𝑄 nicht vollen Rang, so reicht sogar 𝛬 = diag(𝜆21 , ⋯ , 𝜆2rk 𝑄 , 0, ⋯ , 0).
Bemerkung Eine normalverteilte Zufallsvariable 𝑋 ∼ (𝜇, 𝑄) hat genau dann eine Dichte
̄ , 𝑌 ∼ (0, 𝐼𝑑 ), 𝐴̄ = 𝐴 diag(𝜆1 , ⋯ , 𝜆𝑑 ). Dann hat 𝑌
wenn det 𝑄 ≠ 0. Dies gilt mit 𝑋 = 𝑦 + 𝐴𝑌
die Dichte
1
𝑒−
𝑑
|𝑦|2
2
(2𝜋) 2
=: 𝑓𝑌 (𝑦)
̄ |𝑓𝑌 (𝐴−1
̄ (𝑥 − 𝜇)) =
⇒ 𝑓𝑋 (𝑥) = |det 𝐴−1
1
exp(− ⟨𝑥 − 𝜇, 𝑄−1 (𝑥 − 𝜇)⟩)
2
(2𝜋) √det 𝑄
1
𝑑
2
6 Konvergenz in Verteilung / schwache Konvergenz
77 Deﬁnition: „schwache Konvergenz“
Sei (𝐸, 𝑑) ein metrischer Raum mit der Borelschen σ-Algebra (𝐸).
1. Seien 𝜇, (𝜇𝑛 )𝑛∈ℕ Wahrscheinlichkeitsmaße auf (𝐸, ). Dann konvergiert 𝜇𝑛 schwach gegen
𝜇 falls für alle stetigen, beschränkten Funktionen 𝑓: 𝐸 → 𝐸 gilt:
lim
𝑛→∞
𝐸
𝑓d𝜇𝑛 =
𝑓d𝜇
𝐸
𝑤
Wir schreiben 𝜇𝑛 → 𝜇 oder 𝜇𝑛 −→ 𝜇.
2. Seien 𝑋, (𝑋𝑛 )𝑛∈ℕ Zufallsvariablen auf (𝛺, , ℙ) bzw. (𝛺𝑛 , 𝑛 , ℙ𝑛 ), dann sagt man 𝑋𝑛 konvergiert in Verteilung gegen 𝑋 falls ℙ𝑋𝑛 = ℙ𝑛 ∘ 𝑋𝑛−1 schwach gegen ℙ𝑋 konvergiert. Wir
schreiben 𝑋𝑛 −→ 𝑋.
78 Satz: schwache Konvergenz im Reellen
Seien 𝑋, (𝑋𝑛 )𝑛∈ℕ reellwertige Zufallsvariablen mit Verteilungsfunktionn 𝐹𝑋 und 𝐹𝑋𝑛 . Dann
sind die folgenden Aussagen äquivalent:
1. 𝑋𝑛 −→ 𝑋
2. 𝐹𝑋𝑛 (𝑐) → 𝐹𝑋 (𝑐) an allen Stellen 𝑐 an denen 𝐹𝑋 stetig ist.
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 36
Beweis (78)
𝑎) ⇒ 𝑏) Sei 𝑐 eine Stetigkeitsstellen von 𝐹𝑋 . Wähle dann Folgen stetiger und beschränkter Funktionen (𝑔𝑚 )𝑚∈ℕ , (ℎ𝑚 )𝑚∈ℕ sodass
𝟏(−∞,𝑐− 1 ] ≤ 𝑔𝑚 ≤ 𝟏(−∞,𝑐] ≤ ℎ𝑚 ≤ 𝟏(−∞,𝑐+ 1 ]
𝑚
𝑚
Dann gilt diese Ungleichung auch für die Erwartungswerte von 𝑋𝑛 und für die von 𝑔𝑚 und
ℎ𝑚 ist die Konvergenz wegen schwacher Konvergenz von 𝑋𝑛 bekannt:
𝐹𝑋 (𝑐 −
1
1
) ≤ 𝔼(𝑔𝑚 (𝑋)) ≤ 𝐹𝑋𝑛 (𝑐) ≤ 𝔼(ℎ𝑚 (𝑋)) ≤ 𝐹𝑋 (𝑐 + )
𝑚
𝑚
Da 𝐹𝑋 bei 𝑐 stetig ist, gilt dann 𝐹𝑋𝑛 (𝑐) → 𝐹𝑋 (𝑐).
𝑏) ⇒ 𝑎) Wir wählen 𝑓 ∈ 𝐶𝑏 (ℝ, ℝ) (stetig und beschränkt) und 𝜀 > 0 beliebig. 𝐹𝑌 hat höchstens
abzählbar viele Sprungstellen. Also können wir eine Zerlegung der reellen Achse in −∞ <
𝑐1 < 𝑐2 < ⋯ < 𝑐𝑚 < ∞ so ﬁnden, dass 𝐹𝑌 bei den 𝑐𝑖 stetig ist, 𝐹𝑌 (𝑐1 ) < 𝜀 und 𝐹(𝑐𝑚 ) >
1 − 𝜀 sowie
sup
|𝑓(𝑥) − 𝑓(𝑐𝑖 )| ≤ 𝜀
𝑥∈ 𝑐𝑖 ,𝑐𝑖+1
Dies ist möglich, da 𝑓 auf [𝑐1 , 𝑐𝑚 ] gleichmäßig stetig ist. Dann können wir abschätzen:
𝑚
𝔼(𝑓(𝑌𝑛 )) = 𝔼(𝑓(𝑌𝑛 )𝟏
𝜔∈𝜔 𝑌𝑛 (𝜔)≤𝑐𝑖 ∨𝑌𝑛 (𝜔)>𝑐𝑚
)+
𝔼(𝑓(𝑌𝑛 )𝟏
𝜔∈𝛺 𝑌𝑛 (𝜔)∈(𝑐𝑖−1 ,𝑐𝑖 ]
)
𝑖=2
𝑚
≤ ‖𝑓 ‖∞ 2𝜀 +
(𝑓(𝑐𝑖 ) + 𝜀)(𝐹𝑌𝑛 (𝑐𝑖 )) − 𝐹𝑌𝑛 (𝑐𝑖−1 )
𝑖=2
⇒ lim 𝔼(𝑓(𝑌𝑛 )) ≤ 2𝜀‖𝑓 ‖∞ + 𝔼(𝑓(𝑌)) + 2𝜀 + ‖𝑓 ‖∞ 2𝜀 = 𝔼(𝑓(𝑌)) + 2𝜀(2‖𝑓 ‖∞ + 1)
𝑛→∞
≥𝔼(∑𝑚
𝑖=2 𝑓(𝑐𝑖 )𝟏
𝑌∈(𝑐𝑖−1 ,𝑐𝑖 ]
)
⇒ lim sup 𝔼(𝑓(𝑌𝑛 )) ≤ 𝔼(𝑓(𝑌))
𝑛→∞
Analog mit −𝑓 statt 𝑓 liefert lim inf 𝑛→∞ 𝔼(𝑓(𝑌𝑛 )) ≥ 𝔼(𝑓(𝑌)) und damit die Behauptung.
6.1 Beziehungen zu anderen Konvergenzarten
79 Satz: fast-sichere Konvergenz und Konvergenz in Verteilung
Seien 𝑌𝑛 , 𝑌: 𝛺 → ℝ𝑑 Zufallsvariablen auf (𝛺, , ℙ) und 𝑌𝑛 → 𝑌 ℙ-fast-sicher. Dann gilt auch
𝑌𝑛 −→ 𝑌 .
Beweis (79) Sei 𝑓 ∈ 𝐶𝑏 (ℝ𝑑 , ℝ). Dann gilt wegen der Stetigkeit 𝑓(𝑌𝑛 ) → 𝑓(𝑌) ℙ-fast-sicher
und |𝑓(𝑌𝑛 )|‖𝑓 ‖∞ ∈ 𝐿1 (ℙ). Mit dem Satz der majorisierten Konvergenz folgt dann lim𝑛→∞ 𝔼(𝑓(𝑌𝑛 )) =
𝔼(𝑓(𝑌)).
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 37
80 Satz: Konvergenz von Unterteilfolgen
Sind 𝑌𝑛 , 𝑌: 𝛺 → ℝ𝑑 Zufallsvariablen auf (𝛺, , ℙ) so sind die folgenden Aussagen äquivalent:
ℙ
1. 𝑌𝑛 −→ 𝑌
2. Jede Teilfolge (𝑌𝑛𝑘 )𝑘∈ℕ hat eine Unterteilfolge (𝑌𝑛𝑘 )𝑙∈ℕ so, dass lim𝑙→∞ 𝑌𝑛𝑘 = 𝑌 ℙ-fast𝑙
𝑙
sicher.
Beweis (80)
ℙ
𝑏) ⇒ 𝑎) Wir nehmen an 𝑌𝑛 −→ 𝑌 gilt nicht. Dann gilt
∃𝜀 > 0, 𝛿 > 0, 𝑛𝑘 : 𝔼(|𝑌𝑛𝑘 − 𝑌 | ≥ 𝜀) ≥ 𝛿
ℙ
𝑌𝑛𝑘 konvergiert jedoch fast-sicher gegen 𝑌 und damit 𝑌𝑛𝑘 −→ 𝑌
↯
𝑎) ⇒ 𝑏) Sei (𝑌𝑛𝑘 ) eine Teilfolge von 𝑌𝑛 so gilt für alle 𝜀 > 0: lim𝑘→∞ ℙ(|𝑌𝑛𝑘 − 𝑌 | ≥ 𝜀) = 0 also
1
1
∃𝐾1 ∈ ℕ: ∀𝑘 ≥ 𝐾1 : ℙ(|𝑌𝑛𝑘 | ≥ ) ≤
2
2
1
1
∃𝐾2 ∈ ℕ: ∀𝑘 ≥ 𝐾2 : ℙ(|𝑌𝑛𝑘 | ≥ 2 ) ≤ 2
2
2
⋯
Dann deﬁnieren wir für eine Unterteilfolge 𝑍𝑗 = 𝑌𝑛𝑘 die 𝐴𝑗 : = |𝑍𝑗+1 − 𝑍𝑗 | ≥
∼∞
𝑗=1
𝑗
1
ℙ(𝐴𝑗 ) = ∑∞
𝑗=1 2𝑗 . Mit Satz 43 (Borel-Cantelli-Lemma) wissen
viele der 𝐴𝑗 eintreten, das heißt die Wahrscheinlichkeit dass 𝑍𝑗
ist
endlich
ist, ist 1 und somit gilt die Behauptung.
1
2𝑗
. Damit
wir nun, dass nur
eine Cauchyfolge
81 Satz: Majorisierte Konvergenz mit stochastischer Konvergenz
Seien 𝑌𝑛 , 𝑌: 𝛺 → ℝ𝑑 Zufallsvariablen auf (𝛺, , ℙ) mit 𝑌𝑛 → 𝑌 ℙ-fast-sicher und es gelte
𝐿1
|𝑌𝑛 | ≤ 𝑍 für ein 𝑍 ∈ 𝐿1 (ℙ). Dann gilt 𝑌𝑛 −→ 𝑌 , das heißt ‖𝑌𝑛 − 𝑌 ‖𝐿1 = 𝔼(|𝑌𝑛 − 𝑌 |) → 0 und
𝑌 ∈ 𝐿1 (ℙ). Insbesondere also 𝔼(𝑌𝑛 ) → 𝔼(𝑌).
𝐿1
Beweis (81) Angenommen 𝑌𝑛 −→ 𝑌 gilt nicht, das heißt ∃𝜀 > 0, 𝑌𝑛𝑘 : ∀𝑘: 𝔼(|𝑌𝑛𝑘 − 𝑌 |) ≥ 𝜀.
Nach Satz 80 (Konvergenz von Unterteilfolgen) können wir annehmen dass 𝑌𝑛𝑘 → 𝑌 ℙ-fast𝐿1
sicher, daher gilt nach dem klassischen Theorem der majorisierten Konvergenz dass 𝑌𝑛𝑘 −→ 𝑌 ↯.
82 Satz: Stochastische Konvergenz und Konvergenz in Verteilung
ℙ
Seien 𝑌, 𝑌𝑛 : 𝛺 → ℝ𝑑 Zufallsvariablen mit 𝑌𝑛 −→ 𝑌 so gilt 𝑌𝑛 −→ 𝑌 .
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 38
𝐿1
Beweis (82) Sei 𝑓 ∈ 𝐶𝑏 (ℝ𝑑 , ℝ), dann gilt 𝑓(𝑌𝑛 ) −→ 𝑓(𝑌). Wegen Satz 80 (Konvergenz von
Unterteilfolgen) und Satz 81 (Majorisierte Konvergenz mit stochastischer Konvergenz) folgt dann
𝐿1
‖𝑓(𝑌𝑛 )‖ ≤ ‖𝑓 ‖∞ ∈ 𝐿1 (ℙ) ⇒ 𝑓(𝑌𝑛 ) −→ 𝑓(𝑌)
also 𝔼(𝑓(𝑌𝑛 )) → 𝔼(𝑓(𝑌)).
Bemerkung Die Umkehrung gilt nicht, betrachten wir beispielsweise das folgende Gegenbeispiel:
𝑋∼
(0, 1), 𝑌𝑛 : = (−1)𝑛 𝑋. Dann ist 𝑌𝑛 −→ 𝑃𝑋 aber 𝑌𝑛 konvergiert nicht stochastisch.
83 Lemma:
Sei (𝜇𝑛 )𝑛∈ℕ eine Folge von Wahrscheinlichkeitsmaßen auf (ℝ, ) mit Verteilungsfunktionen
𝐹𝑛 (𝑥) = 𝜇𝑛 ((−∞, 𝑥]).Dann existiert eine Teilfolge 𝐺𝑘 = 𝐹𝑛𝑘 , 𝑘 ∈ ℕ und eine rechtsstetige
monoton wachsende Funktion 𝐹: ℝ → [0, 1] mit 𝐺𝑘 (𝑐) → 𝐹(𝑐) für alle 𝑐 ∈ ℝ an denen 𝐹 stetig
ist.
Bemerkung: 𝐹 induziert über 𝜇((𝑎, 𝑏]) = 𝐹(𝑏) − 𝐹(𝑎) ein Maß auf , welches im Allgemeinen
jedoch kein Wahrscheinlichkeitsmaß zu sein braucht.
Beweis (83) Wir zeigen zuerst, dass es eine Teilfolge (𝑛𝑘 )𝑘∈ℕ gibt, sodass ∀𝑞: 𝐻(𝑞): = lim𝑘→∞ 𝐹𝑛𝑘
existiert.
Dazu wählen wir eine Nummerierung der rationalen Zahlen ℚ = 𝑞𝑚 𝑚 ∈ ℕ . Da für jedes
𝑞: 𝐹𝑛 (𝑞) ∈ [0, 1] ist, können wir nach Bolzano-Weierstraß konvergente Teilfolgen wählen sodass
𝐹𝑛1 (𝑞1 ) konvergiert, 𝐹𝑛2 (𝑞1 ), 𝐹𝑛2 (𝑞2 ) konvergieren, also 𝐹𝑛𝑗 bei 𝑞1 , ⋯ , 𝑞𝑗 konvergiert. Wir wählen
𝑘
𝑘
𝑘
𝑘
dann die Diagonalfolge 𝐺𝑘 : = 𝐹𝑛𝑘 und wissen somit, dass 𝐺𝑘 auf ganz ℚ konvergiert. Dann
𝑘
deﬁnieren wir 𝐻(𝑞): = lim𝑘→∞ 𝐺𝑘 (𝑞) für 𝑞 ∈ ℚ und 𝐻 ist wachsend auf 𝑄 sowie 𝐻(𝑞) ∈ [0, 1].
Dann setzen wir 𝐻 auf ganz ℝ zu 𝐹 fort:
𝐹(𝑦): = inf 𝐻(𝑞), 𝑦 ∈ ℝ, 𝐹: ℝ → [0, 1]
𝑞≥𝑦
𝑞∈ℚ
Damit ist 𝐹 wachsend und rechtsstetig. Es bleibt zu zeigen, dass auch lim𝑘→∞ 𝐺𝑘 (𝑐) = 𝐹(𝑐) für
alle Stetigkeitsstellen 𝑐 von 𝐹 .
Sei 𝑐 also eine beliebige Stetigkeitsstelle von 𝐹 und 𝜀 > 0, dann existieren 𝑟, 𝑠 ∈ ℚ mit
𝑟 < 𝑐 < 𝑠 und
𝐹(𝑐) − 𝜀 ≤ 𝐹(𝑟) ≤ 𝐹(𝑐) ≤ 𝐹(𝑠) ≤ 𝐹(𝑐) + 𝜀
𝑠∈ℚ
⇒ lim sup 𝐺𝑘 (𝑐) ≤ lim sup 𝐺𝑘 (𝑠) = 𝐻(𝑠) ≤ 𝐹(𝑠) ≤ 𝐹(𝑐) + 𝜀
𝑘→∞
𝑘→∞
lim inf 𝐺𝑘 (𝑐) ≥ lim inf 𝐺𝑘 (𝑟) = 𝐻(𝑟) = 𝐹(𝑟) ≥ 𝐹(𝑐) − 𝜀
𝑘→∞
𝑘→∞
Da 𝜀 > 0 beliebig gewählt war, gilt somit lim𝑘→∞ 𝐺𝑘 (𝑐) = 𝐹(𝑐).
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 39
84 Deﬁnition: „gleichgradige Straﬀheit“
Eine Familie von Wahrscheinlichkeitsmaßen (𝜇𝑖 )𝑖∈𝐼 heiß gleichgradig straﬀ falls
̄
∀𝜀 > 0: ∃𝑀 > 0: ∀𝑖 ∈ 𝐼: 𝜇𝑖 (−𝑀, +𝑀]
<𝜀
Beispiel für eine nicht gleichgradig straﬀe Folge: 𝜇𝑛 : =
der Grenzwert das Nullmaß.
Beispiel
([0, 𝑛]) (Gleichverteilung). Dann ist
für gleichgradig straﬀe Mengen Familien:
1. Ist 𝐼 endlich, so ist (𝜇𝑖 )𝑖∈𝐼 gleichgradig straﬀ
2. Oft ist 𝐼 = ℕ. Dan ist die Folge (𝜇𝑛 )𝑛∈ℕ genau dann gleichgradig straﬀ, wenn für jedes
𝑁 ∈ ℕ die Folge (𝜇𝑛 )𝑛≥𝑁 gleichgradig straﬀ ist.
3. Sind (𝜇𝑖 )𝑖∈𝐼1 und (𝜇𝑖 )𝑖∈𝐼2 gleichgradig straﬀe Familien, dann ist auch (𝜇𝑖 )𝑖∈𝐼1 ∪𝐼2 gleichgradig straﬀ.
𝑤
4. Falls 𝜇𝑛 −→ 𝜇 gilt, so ist (𝜇𝑛 )𝑛∈ℕ gleichgradig straﬀ.
85 Satz: Hellysches Selektionsprinzip
Sei (𝜇𝑛 )𝑛∈ℕ eine gleichgradig stetige Folge von Wahrscheinlichkeitsmaßen auf
1
. Dann gibt
𝑤
es eine Teilfolge (𝜇𝑛𝑘 )𝑘∈ℕ und ein Wahrscheinlichkeitsmaß 𝜇 sodass 𝜇𝑛𝑘 −−−→ 𝜇.
𝑘→∞
Beweis (85) Seien
1. 𝐹𝑛 die Verteilungsfunktionen der 𝜇𝑛 ,
2. 𝐺𝑘 und 𝐹 wie aus Lemma 83
3. 𝜈𝑘 seien die durch 𝐺𝑘 über 𝜈𝑘 ((𝑎, 𝑏]): = 𝐺𝑘 (𝑏) − 𝐺𝑘 (𝑎) deﬁnierten Maße
Dann müssen wir zeigen, dass 𝐹 die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes ist.
̄
Sei 𝜀 > 0, dann existiert ein 𝑀 > 0 sodass für jedes 𝑛 gilt: 𝜇𝑛 ((−𝑀, +𝑀))
< 𝜀. Wähle nun
𝑦 > 1 so, dass 𝐹 stetig bei 𝑦 und −𝑦 ist. Dann gilt
̄
≤𝜀
(1 − 𝐹(𝑦)) + 𝐹(−𝑦) = lim (1 − 𝐺𝑘 (𝑦)) + 𝐺𝑘 (−𝑦) ≤ lim sup 𝜈𝑘 ((−𝑀, +𝑀])
𝑘→∞
𝑘→∞
̄
𝜈𝑘 ((−𝑦,𝑦])
Als 𝜇 wählen wir also das zu 𝐹 gehörige Wahrscheinlichkeitsmaß.
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 40
86 Satz: Stetigkeitssatz von Paul Lévy
Seien 𝜇, 𝜇𝑛 , 𝑛 ∈ ℕ Wahrscheinlichkeitsmaße auf (ℝ𝑑 ,
𝜑 = 𝜇,̂ 𝜑𝑛 = 𝜇𝑛̂ . Dann gilt
𝑤
1. 𝜇𝑛 −→ 𝜇
𝑑
) mit charakteristischen Funktionen
∀𝑢 ∈ ℝ𝑑 : 𝜑𝑛 (𝑢) → 𝜑(𝑢)
⇒
2. Falls ∀𝑢 ∈ ℝ𝑑 : lim𝑛→∞ 𝜑𝑛 (𝑢) = 𝜓(𝑢) für eine Funktion 𝜓: ℝ𝑑 → ℂ, die in 0 stetig ist,
dann ist 𝜑 die charakteristische Funktion eines Wahrscheinlichkeitsmaßes 𝜈 auf 𝑑 und
𝑤
𝜇𝑛 −→ 𝜈.
Bemerkung In der Tat kann man in 𝑎) sogar die stärkere Aussage zeigen, dass 𝜑𝑛 auf Kompakta
gleichmäßig gegen 𝜑 konvergiert.
Beweis (86)
1. Sei 𝑋 ∼ 𝜇, 𝑋𝑛 ∼ 𝜇𝑛 , dann ist
𝜑𝑛 (𝑢) = 𝔼(exp(𝑖𝑢𝑋𝑛 )) = 𝔼(cos(𝑢𝑋𝑛 )) + 𝑖𝔼(sin(𝑢𝑋𝑛 ))
𝑛→∞
−−−→ 𝔼(cos(𝑢𝑋)) + 𝑖𝔼(sin(𝑢𝑋)) = 𝔼(exp(𝑖𝑢𝑋)) = 𝜑(𝑢)
Beispiel
1. Seien 𝑋𝑛 ∼
Dann gilt
(𝜇𝑛 , 𝜎𝑛2 ) Zufallsvariablen für beliebige 𝜇𝑛 ∈ ℝ, 𝜎𝑛 > 0 mit 𝜇𝑛 → 𝜇 ∈ ℝ.
𝑛→∞
1
1
𝜑𝑛 (𝑢) = exp(𝑖𝑢𝜇𝑛 − 𝑢2 𝜎𝑛2 ) −−−→ exp(𝑖𝑢𝜇 − 𝜎 2 𝑢2 )
2
2
⇒ 𝑋𝑛 −→
2. Seien 𝑋𝑛 ∼
(𝜇, 𝜎 2 )
(𝜇𝑛 , 𝜎𝑛2 ) und 𝑋𝑛 −→ 𝑋, dann wisen wir:
∀𝑢 ∈ ℝ: lim 𝜑𝑋𝑛 (𝑢) = 𝜑𝑋
𝑛→∞
⇒ 𝜇 = lim 𝜇𝑛 ∧ 𝜎 = lim 𝜎𝑛 ∧ 𝑋 ∼
𝑛→∞
𝑛→∞
(𝜇, 𝜎 2 )
3. Zusammen bedeutet das: 𝑋𝑛 −→ 𝑋 genau dann wenn 𝜇 = lim→∞ 𝜇𝑛 , 𝜎 = lim𝑛→∞ 𝜎𝑛 existieren und 𝑋 ∼ (𝜇, 𝜎 2 ). Die Normalverteilungsfamilie ist also abgeschlossen bezüglich
Verteilungskonvergenz.
Übung
Zeigen Sie analoge Aussagen für Poisson- oder Exponentialverteilte Zufallsvariablen.
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 41
Beispiel für die Anwendung von Satz 86 (Stetigkeitssatz von Paul Lévy):
Betrachte die Zufallsvariablen 𝑋𝑛 ∼ Poisson(𝜆𝑛 ), 𝜆𝑛 : = 𝑛, 𝑍𝑛 : = 𝑋𝑛 −𝔼(𝑋𝑛 ) =
√𝑉(𝑋𝑛 )
𝑍𝑛 −→
𝑋𝑛 −𝑛
.
√𝑛
Dann gilt
(0, 1)
denn:
𝜑𝑍𝑛 (𝑢) = 𝔼 exp(𝑖𝑢
𝑋𝑛 − 𝑛
√𝑛
= 𝑒−𝑖𝑢√𝑛 𝜑𝑋𝑛 (
)
Taylor
= exp −𝑖𝑢√𝑛 + 𝑖𝑢√𝑛 + 𝑛 −
𝑢
√𝑛
)=𝜑
(0,1) (𝑢)
𝑢2
𝑢4
𝑢3
+
+⋯
−𝑖
2𝑛
3! 𝑛1.5 4! 𝑛2
= 𝑒−𝑖𝑢√𝑛 exp(𝑛(𝑒𝑖𝑢/√𝑛 − 1))
= exp −
𝑢2
1
+ 𝑛o
2
𝑛
𝑢2
→ 𝑒− 2
weil
∞
∞
∞
|𝑢|𝑘
(𝑖𝑢)𝑘 𝑘
1
2| ≤
|𝑛
|
≤
|
𝑛
→0
𝑘
√𝑛 𝑘=3 𝑘!
√𝑛 𝑘=3 𝑘!
𝑘=3 𝑘! 𝑛 2
(𝑖𝑢)𝑘
1
<∞
Motivation zum Zentralen Grenzwertsatz Man kann die 𝑋𝑛 ∼ Poisson(𝑛) aus obigem Beispiel auch als 𝑋𝑛 = ∑𝑛𝑖=1 𝑌𝑖 mit unabhängigen 𝑌𝑖 ∼ Poisson(1) erzeugen.
Oder betrachtet man zum Beispiel eine Folge iid Zufallsvariablen 𝑌𝑗 mit ℙ(𝑌𝑗 = 1) = 1−ℙ(𝑌𝑗 =
−1) = 21 . Dann hat 𝑍𝑛 : =
𝜑𝑛 (𝑢) =
𝜑𝑌1
∑𝑛𝑗=1 𝑌𝑗 −0
𝑢
√𝑛
die charakteristische Funktion
𝑛
=
√𝑛
𝑢
1 𝑖 √𝑛(+1)
1 𝑖 𝑢 (−1)
= cos𝑛
𝑒
+ 𝑒 √𝑛
2
2
− sin
l’Hôpital
======⇒ lim 𝜑𝑛 (𝑢) = lim exp(
𝑛→∞
für 𝑍 ∼
(0, 1).
𝑛→∞
𝑢
√𝑛
− 𝑛12 cos
( 2𝑛−𝑢1.5 )
𝑢
√𝑛
) = exp(−
𝑢
√𝑛
= exp(𝑛 ln(cos
𝑢
√𝑛
𝑢2
) = 𝜑𝑍 (𝑢)
2
(0, 1). Und somit gilt wieder nach Satz 86 (Stetigkeitssatz von Paul Lévy): 𝑍𝑛 −→
Bemerkung Der Zentrale Grenzwertsatz zeigt nun, dass eine entsprechende Aussage wie in
den vorigen Beispielen allgemeiner für beliebige zugrundeliegende Verteilungen der unabhängigen Summanden 𝑌𝑗 gilt. Etwas genauer gilt, dass Summen „vieler“ unabhängiger gleichgroßer
Zufallsgrößen approximativ Gauß-verteilt sind und nach Standardisierung standard-Gauß-verteilt.
Prof. Becherer
Bodo Graumann
))
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 42
87 Satz: Zentraler Grenzwertsatz
Seien (𝑋𝑛 )𝑛∈ℕ iid und reellwertig mit 𝜇: = 𝔼(𝑋𝑛 ) sowie 𝜎 2 : = Var(𝑋𝑛 ) ∈ (0, ∞).
𝑛
𝑆𝑛 : =
𝑆𝑛∗ : =
𝑋𝑗
𝑗=1
Dann gilt: 𝑆𝑛∗ −→
𝑆𝑛 − 𝑛𝜇
√𝑛𝜎 2
(0, 1).
88 Lemma: Hilfsaussage
Sei (𝐶𝑛 )𝑛∈ℕ , 𝑐𝑛 ∈ ℂ mit 𝑐: = lim𝑛→∞ 𝑐𝑛 ∈ (0, ∞) ⊆ ℝ, dann gilt
lim 1 −
𝑛→∞
𝑐𝑛
𝑛
𝑛
= 𝑒−𝑐
Beweis (Satz 87 (Zentraler Grenzwertsatz)) 𝑋𝑛 hat endliche erste und zweite Momente, also
ist die charakteristische Funktion 𝜑: = 𝜑𝑋𝑛 −𝜇 zweimal stetig diﬀerenzierbar. Dann ergibt die
Taylorentwicklung:
𝜑(𝑢) = 𝜑(0) + 𝜑 (0) 𝑢 + 𝜑 (0)
=0
⇒ 𝜑𝑆𝑛∗ (𝑢) =
𝜑𝑋1 −𝜇
𝑢2
+
2
𝑢→0 (𝑢
𝑛
𝑢
)
𝑢2
𝜑(0) + 𝜑 (0) 2 𝑛 +
2𝜎
=
𝜎 √𝑛
3
𝑢→0 ((
𝑢
𝜎 √𝑛
𝑛
3
) )
3
1 𝑢2 − ( 𝑢 )
⎛
⎞ 𝐿𝑒𝑚𝑚𝑎 88 (𝐻𝑖𝑙𝑓𝑠𝑎𝑢𝑠𝑠𝑎𝑔𝑒)
2
2
𝜎 3 √𝑛
⎟ −−−−−−−−−−−−−−→ 𝑒− 𝑢2
= ⎜1 −
𝑛
⎜
⎟
⎝
⎠
Beweis (Lemma 88 (Hilfsaussage))
• Wir zeigen zuerst induktiv, dass 𝑧1 , ⋯ , 𝑧𝑛 , 𝑤1 , ⋯ , 𝑤𝑛 ∈ ℂ mit |𝑧𝑗 | ≤ 1, |𝑤𝑗 | ≤ 1 gilt
𝑛
|
𝑛
𝑧𝑗 −
𝑗=1
𝑛
𝑤𝑗 | ≤
𝑗=1
|𝑧𝑗 − 𝑤𝑗 |
𝑗=1
Der Induktionsanfang für 𝑛 = 1 ist oﬀensichtlich erfüllt. Der Induktionsschritt ergibt sich
als:
𝑛+1
|
𝑛+1
𝑧𝑗 −
𝑗=1
𝑛+1
𝑤𝑗 | ≤ |
𝑗=1
𝑗=1
𝑛
= |𝑧𝑛+1 | |
≤1
𝑗=1
𝑛+1
𝑤𝑗 −
𝑗=1
𝑛
𝑤𝑗 |
𝑗=1
𝑛
𝑤𝑗 | + |
≤∑𝑛𝑗=1 |𝑧𝑗 −𝑤𝑗 |
Prof. Becherer
𝑛
𝑤𝑗 | + |𝑧𝑛+1
𝑗=1
𝑛
𝑧𝑗 −
𝑗=1
𝑛
𝑧𝑗 − 𝑧𝑛+1
𝑤𝑗 ||𝑧𝑛+1 − 𝑤𝑛+1 | ≤
𝑗=1
≤1
Bodo Graumann
|𝑧𝑗 − 𝑤𝑗 | + |𝑧𝑛+1 − 𝑤𝑛+1 |
𝑗=1
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 43
• Weiter gilt für 𝑏 ∈ ℂ mit |𝑏| ≤ 1:
∞
|𝑒−𝑏 − (1 − 𝑏)| = |
∞
∞
(−𝑏)𝑘
(−𝑏)𝑘
1
|≤
|
| ≤ |𝑏|2
≤ |𝑏|2
𝑘
𝑘!
𝑘!
2
𝑘=2
𝑘=2
𝑘=1
• Sei nun (𝑐𝑛 )𝑛∈ℕ wie vorausgesetzt, dann gilt für hinreichend große 𝑛 sodass |1 −
𝑐
|(1 − 𝑛 )𝑛 − 𝑒−𝑐𝑛 | ≤
𝑛
𝑛
|1 −
𝑗=1
𝑐𝑛
𝑛|
≤ 1:
𝑐𝑛
𝑐𝑛
𝑐
𝑐𝑛
− 𝑒− 𝑛 | = 𝑛|1 − 𝑛 − 𝑒− 𝑛 |
𝑛
𝑛
𝑐𝑛2
𝑛→∞
𝑐𝑛 2
| = | | −−−→ 0
𝑛
𝑛
𝑐𝑛 𝑛
) = 𝑒−𝑐
⇒ lim (1 −
𝑛→∞
𝑛
≤ 𝑛|
Bemerkung Seien 𝑋𝑛 iid und reellwertig. Aus dem starken Gesetz der Großen Zahlen wissen
wir
1
𝑆𝑛 : =
𝑛
𝑛
𝑛→∞
𝑋𝑗 −−−→ 𝜇: = 𝔼(𝑋1 ) ℙ-fast-sicher
𝑗=1
Frage Wie schnell konvergiert dies?
Vorüberlegung Für die Konvergenz einer Folge (𝑌𝑛 )𝑛∈ℕ in ℝ sagt man dass (𝑌𝑛 ) mit einer Rate
𝛼 > 0 gegen 0 konvergiert, falls lim sup𝑛→∞ 𝑛𝛼 |𝑌𝑛 | =: 𝑐 < ∞ ist. Ein solches 𝛼, sodass 𝑛𝛼 |𝑆𝑛 −𝜇|
ℙ-fast-sicher gegen ein 𝑐 ∈ ℝ konvergiert gibt es nicht! Allerdings zeigt Satz 87 (Zentraler
Grenzwertsatz), dass Konvergenz in Verteilung gegen eine endliche Zufallsvariable vorliegt:
√𝑛(𝑆𝑛 − 𝜇) −→
(0, 𝜎 2 )
In diesem Sinne kann man sagen die Konvergenzordnung ist √𝑛.
Bemerkung Es gibt Verallgemeinerungen von Satz 87 (Zentraler Grenzwertsatz).
• Die Annahme der identischen Verteilung kann abgeschwächt werden. Dies ist gerade für
Anwendungen wichtig.
• Sehr scharfe Bedingungen für Satz 87 (Zentraler Grenzwertsatz) sind beispielsweise die
Lindenberg-Bedingungen. (Kle08)
• Es gibt auch eine mehrdimensionale Version. (Kle08)
• Beispiel für die Anwendung von Satz 87 (Zentraler Grenzwertsatz): Bestimmung von „Vertrauensbereichen“ (Konﬁdenzbereichen) für unbekannte Verteilungsparameter die aus Daten geschätzt werden.
Prof. Becherer
Bodo Graumann

Zugehörige Unterlagen

Konvergenzbegriffe für Zufallsvariablen - Mitschrieb-Wiki

8.1. Abschätzung der Konvergenzgeschwindigkeit beim Gesetz der

Blatt 5 - Mathematik, TU Dortmund

Klausur zu Stochastik - Mathematisches Institut

Stochastik I

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können