Stochastik I

Werbung
Humboldt-Universität zu Berlin
Institut für Mathematik
Sommersemester 2010
Stochastik I
Prof. Becherer
Bodo Graumann
19. Mai 2014
cb a
XETEX
Diese Dokument wurde auf http://bodograumann.de veröffentlicht. Es steht unter der Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0) Lizenz.
Der Code wurde mit gvim sowie vim-latex erstellt und mit xelatex kompiliert
– all das auf Gentoo Linux. Meinen Dank an die Freie Software Community und
die TEX-Kollegen auf TEX.SX für ihre Hinweise und Unterstützung.
Bitte schreibt mir eure Kommentare und Verbesserungsvorschläge zu diesem Dokument! Ihr könnt mir entweder direkt mailen oder das Kontaktformular auf meiner
Internetseite benutzen.
1
Stochastik I
Inhaltsverzeichnis
Seite 2
Inhaltsverzeichnis
Literaturempfehlungen
3
1
Wahrscheinlichkeitsräume
5
2
bedingte Wahrscheinlichkeit und Unabhängigkeit
13
3
Asymptotische Ereignisse
18
4
Erwartungswert und Varianz
4.1 Die Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . .
19
23
5
Charakteristische Funktionen
5.1 Summe von unabhängigen Zufallsvariablen . . . . . . . . . . . . . . . . . . .
5.2 Normalverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
30
33
6
Konvergenz in Verteilung / schwache Konvergenz
6.1 Beziehungen zu anderen Konvergenzarten . . . . . . . . . . . . . . . . . . . .
35
36
Prof. Becherer
Bodo Graumann
Stochastik I
Literatur
Seite 3
Literatur
[Bau08] Baum, Prof. H.: Maßtheorie Skript. http://www-irm.mathematik.hu-berlin.
de/%7Ebaum/Skript/MIT-SS08.pdf, 2008
[Els07] Elstrodt, J.: Maß- und Integrationstheorie. Springer, 2007
[Geo07] Georgii, H.-O.: Stochastik. De Gruyter Verlag, 2007
[Kle08] Klenke, A.: Wahrscheinlichkeitstheorie. Springer, 2008
[Kre05] Krengel, U.: Einführung in die Wahrscheinlichkeitstheorie & Statistik. 8. Vieweg,
2005
[Shi95] Shiryaev, Albert N.: Probability. Springer, 1995
[Sim82] Simmons, George F.: Introduction to Topology and Modern Analysis. Krieger Pub Co,
1982
[Sti03] Stirzaker, D.: Elementary Probability. 2. Cambridge University Press, 2003
[Str85] Strasser, H.: Mathematical Theory of Statistics. De Gruyter Verlag, 1985
Prof. Becherer
Bodo Graumann
Stochastik I
Literatur
Seite 4
Die Stochastik besteht im wesentlichen aus zwei Teile, die jedoch stark in einander greifen.
Zum einen die Wahrscheinlichkeitstheorie, welche sich mit Wahrscheinlichkeitsmodellen beschäftigt und zum anderen die Statistik, die Häufigkeiten in der Praxis betrachtet.
Zuersteinmal wollen wir erklären, was ein Wahrscheinlichkeitsraum ist. Sei also ein Wahrscheinlichkeitsraum gegeben:
(𝛺, , β„™)
Dabei sind die 𝛺 die möglichen Ausgänge bzw. Ergebnisse eines Experiments, ⊂ (𝛺) bezeichnet die Ereignisse die wir unterscheiden und β„™ ist ein Wahrscheinlichkeitsmaß über .
Beispiel einfaches Würfeln
Beim einfachen Würfeln haben wir 𝛺 = {1, 2, 3, 4, 5, 6} wobei πœ” ∈ 𝛺 bedeutet, dass der
Würfel die Augenzahl πœ” zeigt.
Beispiel n-maliges Würfeln
Würfeln wir nun n-mal, so ist 𝛺 = {1, β‹― , 6}𝑛 und πœ” ∈ 𝛺 zählt die Einzelergebnisse der n
Würfe auf. Ein Ereignis wäre dann 𝐴 = πœ” ∈ 𝛺 ∀𝑖, 𝑗: πœ”π‘— = πœ”π‘– : „Alle Würfe ergeben die
selbe Zahl“. Da wir die Gleichverteilung auf 𝛺 erwarten, erhalten wir das Laplace’sche Wahrscheinlichkeitsmaß, dass jedem der endlich vielen Ausgänge πœ” ∈ 𝛺 die Wahrscheinlichkeit
1 zuordnet und in diesem Fall ergibt:
β„™({πœ”}) = |𝛺|
β„™(𝐴) =
|𝐴|
6
=
= 6−(𝑛−1)
|𝛺| 6𝑛
Beispiel Münzwurf
Der einfache Münzwurf lässt sich wiefolgt modellieren:
𝛺 = {0, 1} wobei 0 Zahl bedeutet und 1 Kopf.
Dies lässt sich auch auf n-fachen Münzwurf erweitern: 𝛺 = {0, 1}𝑛 .
Probleme entstehen aber, wenn man beliebig oft spielen will. Die Gleichverteilung auf ({0, 1}β„• )
lässt sich nicht mehr intuitiv beschreiben.
Beispiel Aktienkurse
Wir betrachten die stetigen Funktionen 𝛺 = 𝐢([0, 𝑇 ] , ℝ) und das Ereignis
𝐴 = { πœ” ∈ 𝛺 | ∀0 ≤ 𝑑 ≤ 𝑇: πœ”(𝑑) ≥ 5000 }
Ziel Wir wollen jedem Ereignis 𝐴 eine Wahrscheinlichkeit β„™(𝐴) ∈ [0, 1] zuordnen, sodass β„™
als Abbildung von ⊆ (𝛺) → [0, 1] gewisse vorteilhafte Eigenschaften hat.
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 5
1 Satz: Vitali
Sei 𝛺 = {0, 1}β„• . Dann gibt es keine Abbildung β„™: (𝛺) → [0, 1] mit den folgenden Eigenschaften:
1. β„™(𝛺) = 1
2. π΄π‘˜ ⊆ 𝛺, π‘˜ ∈ β„•, 𝑖 ≠ 𝑗 ⇒ 𝐴𝑖 ∩ 𝐴𝑗 = ∅, so gilt
∞
β„™(
∞
π΄π‘˜ ) =
β„™(π΄π‘˜ )
π‘˜=1
π‘˜=1
1 − πœ”π‘– für 𝑖 = π‘˜
πœ”π‘– sonst
und 𝐴 ∈ (𝛺) gilt ∀π‘˜ ∈ β„•: β„™(𝐴) = β„™(π‘‡π‘˜ (𝐴))
3. Mit π‘‡π‘˜ : 𝛺 → 𝛺, π‘‡π‘˜ (πœ”)𝑖 =
,𝑖∈β„•
Beweis (1) Auf 𝛺 definieren wir eine Äquivalenzrelation:
πœ” ∼ πœ” : ⇔ ∃𝑛0 ∈ β„•: ∀π‘˜ ≥ 𝑛0 : πœ”π‘˜ = πœ”π‘˜
Glaubt man an das Auswahlaxiom, kann man ein Repräsentantensystem 𝐴 ⊂ 𝛺 auswählen.
Für 𝑆 = 𝑛1 , 𝑛2 , β‹― , π‘›π‘˜ ⊂ β„• endlich definieren wir 𝑇𝑆 : = 𝑇𝑛1 ∘ 𝑇𝑛2 ∘ β‹― ∘ π‘‡π‘›π‘˜ dann gilt
𝛺=
𝑇𝑆 (𝐴)
𝑆= 𝑛1 ,β‹―,π‘›π‘˜
da πœ” ∼ πœ” ⇔ ∃𝑆: πœ” = 𝑇𝑆 (πœ” ) und 𝐴 Repräsentantensystem von (𝛺, ∼) ist.
Jetzt gibt es folgende Fälle:
1. β„™(𝐴) = 0 ⇒ β„™(𝑇𝑆 (𝐴)) = 0 ⇒ β„™(𝛺) = 0 β†―
2. β„™(𝐴) > 0 ⇒ β„™(𝑇𝑆 (𝐴)) > 0 ⇒ β„™(𝛺) = ∞ β†―
β–‘
1 Wahrscheinlichkeitsräume
• Axiomatische Grundlagen für (𝛺, , β„™) und erste Eigenschaften.
2 Bemerkung: Folgenräume und reelle Zahlen
{0, 1}|β„•| ist mit [0, 1] gleichmächtig mittels der dualen Zahlendarstellung als Bijektion:
∞
2−𝑖 πœ”π‘–
(πœ”)𝑖∈β„• ↔
𝑖=1
wenn wir die abzählbarvielen Folgen der Form π‘Ž1 , π‘Ž2 , β‹― , 0, 1, 1, β‹― und π‘Ž1 , π‘Ž2 , β‹― , 1, 0, 0, β‹―
paarweise identifizieren.
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 6
3 Satz: Nichtexistenz der Gleichverteilung
Es sei 𝛺: = [0, 1) = ℝ mod 1. Dann existiert kein β„™: (𝛺) → [0, 1] so dass
1. β„™(𝛺) = 1
∞
2. β„™(⨆∞
π‘˜=1 π΄π‘˜ ) = ∑π‘˜=1 β„™(π΄π‘˜ )
3. ∀π‘₯ ∈ ℝ, 𝐴 ⊂ 𝛺: β„™(𝐴) = β„™(𝐴 + π‘₯)
Beweis (3) Wir betrachten die Äquivalenzrelation
π‘₯ ∼ 𝑦: ⇔ π‘₯ − 𝑦 ∈ β„š ⊂ ℝ
Dazu sei 𝐴 ⊂ [0, 1) eine Menge von Repräsentanten. (Dabei ist |𝐴| > |β„•|). Dann ist
(𝐴 + π‘Ÿ) = [0, 1)
π‘Ÿ∈[0,1)∩β„š
und somit mit den geforderten Eigenschaften:
1 = β„™(𝛺) =
β„™(𝐴)
β†―
π‘₯∈[0,1)∩β„š
β–‘
Folgerung Da es nicht möglich ist, die obigen „vernünftig“ erscheinenden Forderungen auf der
gesamten Potenzmenge zu erfüllen, müssen wir uns auf Teilmengen beschränken.
4 Definition: „σ-Algebra, Ereignis“
Sei 𝛺 ≠ ∅. Ein Mengensystem
⊆ (𝛺) heißt σ-Algebra, falls
1. 𝛺 ∈
2. 𝐴 ∈
⇒ 𝐴̄ ∈
3. π΄π‘˜ ∈ , π‘˜ ∈ β„• ⇒ ⋃∞
π‘˜=1 π΄π‘˜ ∈
Das Paar (𝛺, ) heißt messbarer Raum oder Ereignisraum. Ein Element 𝐴 ∈
oder auch Ereignis.
heißt messbar
5 Definition: „Wahrscheinlichkeitsmaß (ΠšΠΎΠ»ΠΌΠΎΠ³ΠΎΡ€ΠΎΠ² Axiome)“
Sei (𝛺, ) ein Ereignisraum. Eine Funktion β„™:
→ [0, 1] heißt Wahrscheinlichkeitsmaß, falls
1. β„™(𝛺) = 1
∞
2. π΄π‘˜ ∈ , π‘˜ ∈ β„• ⇒ β„™(⨆∞
π‘˜=1 π΄π‘˜ ) = ∑π‘˜=1 β„™(π΄π‘˜ )
Wir bezeichnen (𝛺, , β„™) dann als Wahrscheinlichkeitsraum.
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 7
6 Bemerkung: Eigenschaften von σ-Algebren
Ist
eine σ-Algebra auf 𝛺, dann gilt
1. ∅ ∈
2. 𝐴, 𝐡 ∈
⇒𝐴∪𝐡∈
3. 𝐴, 𝐡 ∈
⇒𝐴∩𝐡∈
4. π΄π‘˜ ∈ , π‘˜ ∈ β„• ⇒ β‹‚∞
π‘˜=1 π΄π‘˜ ∈
7 Lemma: erzeugte σ-Algebren
Sei 𝛺 ≠ ∅ und 𝐺 ⊆
𝜎 (𝐺).
(𝛺). Dann existiert eine kleinste σ-Algebra
𝜎 (𝐺)
auf 𝛺 sodass 𝐺 ⊆
8 Definition: „Borel-σ-Algebra“
(𝛺): =
𝜎 ({
𝑀 ⊆ 𝛺, offen }) nenen wir die Borel-σ-Algebra und speziell
𝑛
:=
(ℝ𝑛 ).
Bemerkung Die Borel-σ-Algebra kann von verschiedenen Erzeugersystem erzeugt werden.
Zum Beispiel von der Menge aller offenen Mengen , der Menge aller abgeschlossenen Mengen
oder der Menge aller Hyperquader mit rationalen Koordinaten .
9 Lemma: Erzeugung der Borel-σ-Algebra
𝜎(
)=
𝜎(
)=
𝜎(
)
Beweis (9)
𝜎( ) =
𝜎 ( ) folgt sofort aus der Abgeschlossenheit von σ-Algebren unter Komplement.
𝜎( ) =
𝜎 ( ) gilt, da jede offene Menge eine abzählbare Vereinigung von solchen Hyperquadern ist und jeder Hyperquader sich als abzählbarer Schnitt offener Mengen darstellen lässt.
10 Definition: „Spur-σ-Algebra“
Sei (𝛺, ) ein messbarer Raum, 𝛺 ⊆ 𝛺, dann ist
Spur-σ-Algebra.
:=
∩𝛺 ⊆
eine σ-Algebra und heißt
11 Definition: „Produkt-σ-Algebra“
Sei 𝛺 = ⨉𝑖∈𝐼 𝐸𝑖 für eine beliebige Indexmenge 𝐼 ≠ ∅ und πœ‹π‘– die kanonischen Projektionen,
sowie (𝐸𝑖 , 𝑖 ) messbare Räume. Dann ist die Produkt-σ-Algebra von ((𝐸𝑖 , 𝑖 ))𝑖∈𝐼 definiert als
𝑖: =
𝜎
πœ‹π‘–−1 (𝐴𝑖 ) 𝐴𝑖 ∈
𝑖
𝑖∈𝐼
Bei gleichen (𝐸𝑖 ,
Prof. Becherer
𝑖)
mit
=
𝑖
schreibt man auch
𝐼
bzw.
Bodo Graumann
𝑛
für endliche Fälle.
Stochastik I
Bemerkung Es gilt
1 Wahrscheinlichkeitsräume
𝑛
=
1 𝑛
Seite 8
.
12 Satz: elementare Eigenschaften von Wahrscheinlichkeitsmaßen β„™
1. β„™(∅) = 0
2. β„™(𝐴 ∪ 𝐡) + β„™(𝐴 ∩ 𝐡) = β„™(𝐴) + β„™(𝐡)
3. 𝐴, 𝐡 ∈ , 𝐴 ⊆ 𝐡 ⇒ β„™(𝐴) ≤ β„™(𝐡).
∞
4. 𝐴𝑖 ∈ , 𝑖 ∈ β„•: β„™ ⋃∞
𝑖=1 𝐴𝑖 ≤ ∑𝑖=1 β„™(𝐴𝑖 )
5. 𝐴𝑖 ∈ , 𝑖 ∈ β„•, 𝐴1 ⊃ 𝐴2 ⊃ β‹― ⇒ β„™ β‹‚∞
𝑖=1 𝐴𝑖 = lim𝑖→∞ β„™(𝐴𝑖 ).
6. 𝐴𝑖 ∈ , 𝑖 ∈ β„•, 𝐴1 ⊂ 𝐴2 ⊂ β‹― ⇒ β„™ ⋃∞
𝑖=1 𝐴𝑖 = lim𝑖→∞ β„™(𝐴𝑖 ).
7. 𝐴𝑖 ∈ , 𝑖 ∈ β„•, ∀πœ”: lim𝑖→∞ πŸπ΄π‘– (πœ”) = 𝟏𝐴 (πœ”) ⇒ lim∞
𝑖=1 β„™(𝐴𝑖 ) = β„™(𝐴)
13 Definition: „diskrete Wahrscheinlichkeitsräume“
Ist in (𝛺, , β„™) die Menge 𝛺 abzählbar, dann nennen wir diesen Wahrscheinlichkeitsraum diskret.
14 Satz: Zähldichte
Sei 𝛺 abzählbar und 𝜌: πœ” → 𝛺 eine Folge in ℝ+ mit ∑πœ”∈𝛺 𝜌(πœ”) = 1. Dann existiert genau
ein Wahrscheinlichkeitsmaß β„™ auf (𝛺, (𝛺)) mit β„™(𝐴) = ∑πœ”∈𝐴 𝜌(πœ”) für alle 𝐴 ∈ β„™(𝛺). Wir
nennen 𝜌 die Zähldichte und die einzelnen 𝜌(πœ”) Wahrscheinlichkeitsgewichte.
15 Definition: „diskretes Produktmaß“
Für 𝑛 diskrete Wahrscheinlichkeitsräume mit Zählmaßen πœŒπ‘– erhalten wir ein Wahrscheinlichkeitsmaß β„™ auf ⨉𝑛𝑖=1 𝛺𝑖 , ⨂𝑛𝑖=1 𝑖 , ∏𝑛𝑖=1 πœŒπ‘– . Dieses nennen wir diskretes Produktmaß. Für das
Produkt 𝑛 gleicher Zählmaße 𝜌, schreiben wir β„™ = 𝜌⊗𝑛 .
einige Wahrscheinlichkeitsmaße
Binomialverteilung 𝛺 = {0, 1, β‹― , 𝑛},
𝑝 ∈ [0, 1].
Geometrische Verteilung 𝛺 = β„•,
=
(𝛺), 𝑝(π‘˜) = (π‘˜π‘›)π‘π‘˜ (1 − 𝑝)𝑛−π‘˜ =: Bin𝑛,𝑝 (π‘˜) mit
= (𝛺), 𝑝 ∈ (0, 1]. 𝑝(π‘˜) = 𝑝(1 − 𝑝)π‘˜ .
π‘˜
Poisson Verteilung 𝛺 = β„•, πœ† > 0 „Intensität“, 𝑝(π‘˜) = 𝑒−πœ† πœ†π‘˜! =: Poissonπœ† (π‘˜).
16 Lemma: Zusammenhang zwischen Poisson- und Binomialverteilung
Sei 𝑝𝑛 ∈ (0, 1] mit lim𝑛→∞ 𝑛𝑝𝑛 = πœ† > 0, dann gilt für alle π‘˜ ∈ β„•:
lim Bin𝑛,𝑝 (π‘˜) = Poissonπœ† (π‘˜)
𝑛→∞
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 9
17 Definition: „Zufallsvariable“
Seien (𝛺, ) und (𝛺 ,
falls
∀𝐴 ∈
) messbare Räume. Eine Abbildung 𝑋: 𝛺 → 𝛺 heißt Zufallsvariable
: 𝑋 −1 (𝐴 ) ∈
Diese Forderung erwächst aus dem Bedürfnis
β„™( 𝑋 ∈ 𝐴 ) = β„™( πœ” ∈ 𝛺 𝑋(πœ”) ∈ 𝐴
) = β„™(𝑋 −1 (𝐴 )) = β„™ ∘ 𝑋 −1 (𝐴 )
berechnen zu wollen. Hinreichend ist zum Beispiel
= (𝛺).
18 Definition: „Wahrscheinlichkeitsverteilung“
Sei 𝑋: (𝛺, , β„™) → (𝛺 , ) eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (𝛺, , β„™).
Dann heißt ℙ𝑋 : = β„™βˆ˜π‘‹ −1 das Bildmaß von 𝑋 bzw. die Verteilung von 𝑋 und ist ein Wahrscheinlichkeitsmaß auf dem messbaren Raum (𝛺 , ).
19 Definition: „Algebra, (Prä)maß, σ-endlich“
Sei 𝛺 ≠ ∅.
•
⊆ (𝛺) heißt Algebra falls
1. 𝛺 ∈
2. 𝐴 ∈
⇒ 𝐴̄ ∈
3. 𝐴, 𝐡 ∈
⇒𝐴∪𝐡∈
• Eine Abbildung πœ‡:
→ [0, ∞] heißt Prämaß auf einer Algebra
𝐴
∈
⇒
πœ‡(𝐴)
= ∑∞
𝐴 = ⨆∞
𝑛=1 πœ‡(𝐴𝑛 ).
𝑛=1 𝑛
• Eine solches πœ‡ heißt Maß falls
falls 𝐴𝑛 ∈
mit
eine σ-Algebra ist.
• Ein Maß πœ‡ heißt σ-endlich falls ∃(𝐴𝑛 )𝑛∈β„• , 𝐴𝑛 ∈
: 𝐴𝑛 ↑ 𝛺 ∧ πœ‡(𝐴𝑛 ) < ∞.
• Ein Maß πœ‡ heißt Wahrscheinlichkeitsmaß falls πœ‡(𝛺) = 1.
Beispiel Auf 𝛺 = ℝ ist = ⨆∞
π‘˜=1 π‘Žπ‘˜ , π‘π‘˜ ∩ ℝ 𝑛 ∈ β„•, −∞ ≤ π‘Ž1 < 𝑏1 < β‹― < π‘Žπ‘› < 𝑏𝑛 ≤ ∞
eine Algebra. Dann definieren wir das folgende Prämaß:
𝑛
πœ†
𝑛
π‘Žπ‘˜ , π‘π‘˜
π‘˜=1
:=
(π‘π‘˜ − π‘Žπ‘˜ )
π‘˜=1
Dafür gilt dann sofort endliche Additivität.
20 Satz: Monotone Klassentheorem für Mengen
Sei ⊆ (𝛺) ein Mengensystem, welches abgeschlossen bezüglich endlichen Durchschnitten
ist und 𝛺 enthält. Sei weiterhin das kleinste umschließende Mengensystem, welches abgeschlossen bezüglich wachsenden Grenzwerten und Mengendifferenzen (genauer: 𝐴, 𝐡 ∈ , 𝐡 ⊂
𝐴 ⇒ 𝐴 ⧡ 𝐡 ∈ ) ist, dann ist bereits = 𝜎( ).
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 10
Beweis (20) Für 𝐡 ⊆ 𝛺 sei 𝐡 : = { 𝐴 ∈ | 𝐴 ∩ 𝐡 ∈ }. Dann ist 𝐡 abgeschlossen bezüglich wachsenden Grenzwerten und Mengendifferenzen. Für 𝐡 ∈ gilt für alle 𝐢 ∈ :
𝐡∩𝐢∈
⊆
⇒𝐢∈
𝐡
⇒
⊆
𝐡
⊆
⇒
𝐡
=
Für 𝐡 ∈ und 𝐢 ∈ gilt 𝐡 ∈ 𝐢 = und 𝐡 ∩ 𝐢 ∈
⇒ 𝐢 ∈ 𝐡 . Damit gilt . ist also
abgeschlossen bezüglich endlicher Durchschnitte.
Auch gilt 𝛺 ∈ ⊆
und damit ist auch abgeschlossen gegenüber Komplementbildung.
Nach der Abgeschlossenheit unter aufsteigenden Grenzwerten ist dann auch jede abzählbare Vereinigung aus Mengen in selber in . Mit ⊆ folgt dann die Behauptung.
21 Korollar:
Seien β„™, 𝑄 Wahrscheinlichkeitsmaße auf dem messbaren Raum (𝛺, ), die auf einem unter
Durchschnitt stabilen System von = 𝜎 ( ) übereinstimmen, dann gilt β„™ = 𝑄 auf .
22 Satz: Fortsetzungssatz von Carathéodory (1917)
Für jedes σ-endliche Prämaß πœ‡ auf einer Algebra ⊆ (𝛺) existiert ein eindeutiges Maß πœ‡Μƒ
auf der σ-Algebra = 𝜎 ( ), welche mit diesem auf übereinstimmt. Zudem ist dann πœ‡Μƒ selber
σ-endlich.
23 Lemma: Eindeutigkeitssatz
Seien πœ‡ und 𝜈 σ-endliche Maße auf dem Maßraum (𝛺, ) wobei =
Durchschnittbildung stabilen Erzeuger mit πœ‡ = 𝜈 auf und (𝐴𝑛 )𝑛∈β„• ∈
πœ‡(𝐴𝑛 ) = 𝜈(𝐴𝑛 ). Dann gilt auf ganz : πœ‡ = 𝜈.
𝜎(
) für einen unter
mit 𝐴𝑛 ↑ 𝛺 sowie
24 Lemma:
Sei πœ‡ ein Maß auf (ℝ, (ℝ)) und endlich auf Kompakta. Dann ist
⎧ πœ‡((0, π‘₯]) π‘₯ > 0
βŽͺ
0 π‘₯=0
𝐺(π‘₯): = ⎨
βŽͺ −πœ‡((π‘₯, 0]) π‘₯ < 0
⎩
monoton wachsend und rechtsstetig.
25 Definition: „Verteilungsfunktion“
Für ein Wahrscheinlichkeitsmaß β„™ auf (ℝ, (ℝ)) ist seine (kumulative) Verteilungsfunktion 𝐹
gegeben durch
𝐹(π‘₯): = β„™((−∞, π‘₯])
26 Korollar:
Jede Verteilungsfunktion 𝐹 eines Wahrscheinlichkeitsmaßes ist rechtsstetig, monoton wachsend und es ist limπ‘₯→∞ 𝐹(π‘₯) = 1 sowie limπ‘₯→−∞ 𝐹(π‘₯) = 0.
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 11
27 Satz:
Sei 𝐹: ℝ → ℝ eine monoton wachsende, rechtsstetige Funktion. Dann existiert ein eindeutiges
σ-endliches Maß πœ‡ auf (ℝ, ) mit ∀π‘Ž, 𝑏 ∈ ℝ, π‘Ž < 𝑏: πœ‡((π‘Ž, 𝑏]) = 𝐹(𝑏) − 𝐹(π‘Ž).
Beispiel
1. Für 𝐹(π‘₯) = π‘₯ erhalten wir damit das Lebesguemaß πœ† auf (ℝ, ).
2. Für 𝐹(π‘₯) = min(1, max(π‘₯, 1)) liefert der Satz uns die Gleichverteilung π‘ˆ auf ([0, 1] , ([0, 1])).
Beweis (27)
Eindeutigkeit { (π‘Ž, 𝑏] | π‘Ž, 𝑏 ∈ ℝ, π‘Ž < 𝑏 } ist ein unter Durchschnitt stabiler Erzeuger von , wodurch die Eindeutigkeit bereits gilt.
Existenz Wir wählen
𝐾
:=
π‘Žπ‘˜ , π‘π‘˜ ∩ ℝ 𝐾 ∈ β„•, −∞ ≤ π‘Ž1 < 𝑏1 < π‘Ž2 < β‹― < π‘π‘˜ ≤ +∞
π‘˜=1
ist eine Algebra. Für 𝐴: = ⨆𝐾
π‘˜=1 π‘Žπ‘˜ , π‘π‘˜ ∈
Dieses
definieren wir
𝐾
πœ‡(𝐴): =
𝐹(π‘π‘˜ ) − 𝐹(π‘Žπ‘˜ )
π‘˜=1
Damit ist πœ‡ additiv auf .
𝐾
𝑛
Seien nun 𝐴𝑛 : = β¨†π‘˜=1
π‘Žπ‘˜,𝑛 , π‘π‘˜,𝑛 disjunkt. Mit 𝐴∞ : = ⨆∞
𝑛=1 𝐴𝑛 ∈
∞
𝐴 =
𝐾∞
β‹ƒπ‘˜=1
gilt dann
π‘Žπ‘˜,∞ , π‘π‘˜,∞ wobei 𝐾∞ < ∞. Dann müssen wir zeigen
∞ 𝐾𝑛
𝐾∞
𝐹(π‘Žπ‘˜,∞ ) − 𝐹(π‘π‘˜,∞ ) =
π‘˜=1
𝐾∞ ∞ 𝐾𝑛
𝐹(π‘π‘˜,𝑛 ) − 𝐹(π‘Žπ‘˜,𝑛 ) =
𝑛=1 π‘˜=1
𝐹(𝑏𝑗,𝑛 )
π‘˜=1 𝑛=1 𝑗=1
π‘Žπ‘—,𝑛 ,𝑏𝑗,𝑛 ⊆ π‘Žπ‘˜,∞ ,π‘π‘˜,∞
− 𝐹(π‘Žπ‘—,𝑛 )
Nun zeigen wir die Gleichheit summandenweise. Für jedes π‘˜ gilt also wegen Monotonie
und π‘Ž∞ , 𝑏∞ ⊇ ⨆𝑁
𝑛=1 π‘Žπ‘› , 𝑏𝑛 die Richtung „≥“.
Betrachten wir 𝑂𝑛 : = π‘Žπ‘› , 𝑏𝑛 + 𝛿𝑛 ⊇ π‘Žπ‘› , 𝑏𝑛 offen mit 𝛿𝑛 : = 𝛿(πœ€) sodass πœ‡( π‘Žπ‘› , 𝑏𝑛 + 𝛿𝑛 ) ≤
πœ‡( π‘Žπ‘› , 𝑏𝑛 )+πœ€2−𝑛 für ein beliebiges πœ€ > 0. 𝑂𝑛 ist eine offene Überdeckung von π‘Ž∞ + 𝛿∞ , 𝑏∞ ⊆
π‘Ž∞ , 𝑏∞ mit 𝛿∞ = 𝛿∞ (πœ€) sodass πœ‡( π‘Ž∞ , π‘Ž∞ + 𝛿∞ ) wegen Rechtsstetigkeit. Dieses Intervall ist kompakt, also können wir eine endliche Teilüberdeckung finden:
∃𝑁 ∈ β„•: ⋃𝑁
𝑛=1 π‘Žπ‘› , 𝑏𝑛 + 𝛿𝑛 ⊇ π‘Ž∞ + 𝛿∞ , 𝑏∞ ⊇ π‘Ž∞ + 𝛿∞ , 𝑏∞ . Damit gilt weiter
πœ‡( π‘Ž∞ , 𝑏∞ ) = πœ‡( π‘Ž∞ , π‘Ž∞ + 𝛿∞ ) + πœ‡( π‘Ž∞ + 𝛿∞ , 𝑏∞ )
∞
𝑁
πœ‡( π‘Žπ‘› , 𝑏𝑛 + 𝛿𝑛 ) ≤ 2πœ€ +
≤πœ€+
πœ‡( π‘Žπ‘› , 𝑏𝑛 )
𝑛=1
𝑛=1
πœ‡( π‘Žπ‘› ,𝑏𝑛 )+πœ€2−𝑛
Prof. Becherer
Bodo Graumann
Stochastik I
1 Wahrscheinlichkeitsräume
Seite 12
Also ist auch „≤“ da πœ€ beliebig gewählt war.
Somit ist πœ‡ ein Prämaß auf
und nach Fortsetzungssatz ein Maß auf
=
𝜎(
).
Beispiele für Verteilungsfunktionen von Wahrscheinlichkeitsmaßen auf (ℝ, ):
1. Sei 𝐹(π‘₯): = 𝟏[π‘Ž,∞) mit π‘Ž ∈ ℝ. Dann erhalten wir das Dirac-Punktmaß π›Ώπ‘Ž auf π‘Ž ∈ ℝ.
2. Führt man noch mehrere endliche Zwischenstufen ein auf π‘Žπ‘– mit den Werten 𝑝𝑖 , dann erhält
man πœ‡ = ∑𝑛𝑖=1 (𝑝𝑖 − 𝑝𝑖−1 )π›Ώπ‘Žπ‘– .
28 Definition: „absolute Stetigkeit, Dichte“
Existiert für ein Wahrscheinlichkeitsmaß β„™ auf (ℝ, ) eine messbare Funktion 𝜌: (ℝ, ) →
(ℝ, ), ∀𝑑 ∈ ℝ: 𝜌(𝑑) ≥ 0 sodass sich die Verteilungsfunktion von β„™ darstellen lässt als 𝐹(π‘₯) =
π‘₯
𝜌(𝑑)d𝑑 so heißt 𝜌 die Dichte von β„™ und 𝐹 ist absolutstetig.
∫−∞
29 Lemma:
∞
Ist 𝐹 absolutstetig und es gilt ∫−∞
𝜌(𝑑)d𝑑 = 1 für die Dichte 𝜌, dann ist 𝐹 die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes β„™ auf (ℝ, ).
Beispiel
für Wahrscheinlichkeitsmaße mit Dichten
2
1. Die Normalverteilung hat die Dichte πœ‘πœ‡,𝜎 (π‘₯) =
(π‘₯−πœ‡)
1 𝑒− 2𝜎 2
√2πœ‹πœŽ
mit den Parametern πœ‡ und 𝜎.
2. Die Gammverteilung besitzt ebenfalls eine Dichte. Diese können wir wiefolgt herleiten:
Betrachten wir ein Modell für die Anzahl von Versicherungsschäden über einem Zeitinterπ‘˜
vall (0, 𝑑]. Dies können wir durch Poisson𝛼𝑑 (π‘˜) = 𝑒−𝛼𝑑 (𝛼𝑑)
modellieren. (Es wurde πœ† = 𝛼𝑑
π‘˜!
gewählt.) 𝛼 beschreibt die Proportionalität zwischen der Länge des Zeitintervalls und der
erwarteten Anzahl an Schäden. Für das Ereignis, dass mindestens π‘Ÿ Schäden auftreten erhalten wir:
π‘Ÿ−1
β„™(𝐴) = 1 − Poissonπœ† ({0, 1, β‹― , π‘Ÿ}) = 1 −
Poissonπœ† (π‘˜)
π‘˜=0
π‘Ÿ−1
𝑒−𝛼𝑑
=1−
π‘˜=0
(𝛼𝑑)π‘˜
=
π‘˜!
𝑑
0
π›Όπ‘Ÿ
π‘₯π‘Ÿ−1 𝑒−𝛼π‘₯ dπ‘₯
(π‘Ÿ − 1)!
Dann ist die Verteilung der Zeit bis zum π‘Ÿ-ten Schaden die Gammaverteilung mit der Dichte
𝛾𝛼,π‘Ÿ (π‘₯) = 𝟏[0,∞) (π‘₯) ⋅
𝛼 π‘Ÿ π‘₯π‘Ÿ−1
⋅ 𝑒−𝛼π‘₯
(π‘Ÿ − 1)!
Die Gammafunktion ist
∞
𝛀(π‘Ÿ): =
π‘¦π‘Ÿ−1 𝑒−𝑦 d𝑦 ,
π‘Ÿ>0
0
Prof. Becherer
Bodo Graumann
Stochastik I
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
Seite 13
Allgemein kann dies nicht analytisch ausgeschrieben werden. Jedoch erhält man für π‘Ÿ ∈ β„•:
𝛀(π‘Ÿ) = (π‘Ÿ − 1)!.
3. Die Exponentialverteilung mit Parameter 𝛼 > 0 hat die Dichte πœŒπ›Ό = 𝛾𝛼,1 .
Erinnerung an die Hauptresultate zum Maßintegral
Ist (𝛺, ) ein messbarer Raum mit einem Maß πœ‡: → [0, ∞]. Dann wollen wir ein Integralbegriff definieren. Wir bezeichnen dieses dann mit ∫𝛺 𝑓dπœ‡ bzw. ∫𝛺 𝑓(πœ”)dπœ‡(πœ”) . Dabei werden
erst die Integrale über elementare Funktionen (Treppenfunktionen) definiert: 𝑓 = ∑𝑁
π‘˜=1 π›Όπ‘˜ πŸπ΄π‘˜
𝑁
wobei π‘Žπ‘˜ ∈ ℝ+ ⇒ ∫ 𝑓dπœ‡ : = ∑π‘˜=1 π›Όπ‘˜ πœ‡(π΄π‘˜ ). Ist 𝑓 ≥ 0 messbar, so definieren wir ∫ 𝑓dπœ‡ : =
sup𝑔 elementar ∫ 𝑔dπœ‡ . Für alle anderen messbaren Funktionen 𝑓 mit ∫ |𝑓 |dπœ‡ endlich setzen wir
0≤𝑔≤𝑓
dann ∫ 𝑓dπœ‡ : = ∫ max(0, 𝑓)dπœ‡ − ∫ max 0, −𝑓 dπœ‡ . Diese Funktionen heißen dann Lebesgueintegrierbar (𝑓 ∈ 𝐿1 (πœ‡) bzw. 𝐿1 (𝛺, , πœ‡)).
Bemerkung
1. Für eine Folge messbarer Funktionen (𝑓𝑛 )𝑛∈β„• gelten die folgenden Konvergenzsätze
a) „Lemma von Fatou“: für 𝑓𝑛 ≥ 0 gilt
lim inf 𝑓𝑛 dπœ‡ ≤ lim inf
𝑛→∞
𝑛→∞
𝑓𝑛 dπœ‡
b) „monotone Konvergenz“: für 0 ≤ 𝑓1 ≤ 𝑓2 ≤ β‹― gilt
lim
𝑛→∞
𝑓𝑛 dπœ‡ =
lim 𝑓 dπœ‡
𝑛→∞ 𝑛
c) „majorisierte Konvergenz“: ∃𝑔 ∈ 𝐿1 (πœ‡): πœ‡( πœ” ∈ 𝛺 ∃𝑛 ∈ β„•: |𝑓𝑛 (πœ”)| > 𝑔(πœ”) ) und
𝑓𝑛 → 𝑓∞ πœ‡-fast überall gilt, dann ist lim𝑛→∞ ∫ 𝑓𝑛 dπœ‡ = ∫ 𝑓∞ dπœ‡ .
2. für 𝑓: ℝ → [0, ∞) Riemann integrierbar auf ℝ, gilt dass 𝑓 Lebesgue integrierbar ist und
dass die Integrale übereinstimmen, wenn für πœ‡ das Lebesguemaß gewählt wird.
30 Korollar:
Sei (𝛺, , πœ‡) mit πœ‡: → [0, ∞] ein Maßraum und 𝜌: 𝛺 → ℝ eine ( , )-messbare Funktion.
Außerdem sei 𝜌 ≥ 0 und ∫ 𝜌dπœ‡ = 1. Dann ist β„™(𝐴): = ∫ 𝟏𝐴 𝜌dπœ‡ = ∫𝐴 𝜌dπœ‡ für 𝐴 ∈ ein
Wahrscheinlichkeitsmaß. Man nennt 𝜌 = 𝑑ℙ
die Radon-Nikodym Dichte von β„™ bezüglich πœ‡ und
π‘‘πœ‡
nennt β„™ absolutstetig bezüglich πœ‡ mit Dichte 𝜌.
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
Motivation Wir betrachten eine Studie eines neuen Tests auf eine Krankheit. Es werden 1000
Versuchspatienten getestet. Daraus entsteht die Kontingenztafel:
Prof. Becherer
Bodo Graumann
Stochastik I
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
gesund
krank
negativ
970
1
97
positiv
20
9
29
Seite 14
990
10
1000
Fragen: Welche Diagnose muss bei positivem Testergebnis gestellt werden?
Der Anteil der Gesunden inter den positiv getesteten ist 20
≈ 69%. Der Anteil der Kranken un29
9
ter den positiv Getesteten ist 29 ≈ 31%. Andererseits gilt unter der Bedingung, dass ein negatives
≈ 99, 9% und der Anteil der Kranken
Testergebnis vorliegt, dass der Anteil der Gesunden 970
971
1 ≈ 0, 1% ist.
971
31 Definition: „bedingte Wahrscheinlichkeit“
Gegeben sei (𝛺, , β„™) und 𝐴, 𝐡 ∈
β„™(𝐴|𝐡): =
mit β„™(𝐡) > 0. Dann heißt
β„™(𝐴 ∩ 𝐡)
β„™(𝐡)
die bedingte Wahrscheinlichkeit von 𝐴 unter 𝐡.
32 Satz: Eigenschaften der bedingten Wahrscheinlichkeit
Sei ein Wahrscheinlichkeitsraum (𝛺, , β„™) gegeben mit 𝐡 ∈
und β„™(𝐡) > 0.
1. 𝑄(𝐴): = β„™(𝐴|𝐡) ist ein Wahrscheinlichkeitsmaß auf .
2. Formel von der totalen Wahrscheinlichkeit: Sei 𝐡 = ⨆𝑖∈𝐼 𝐡𝑖 mit β„™(𝐡𝑖 ) > 0 und abzählbarem 𝐼, dan gilt
β„™(𝐴 ∩ 𝐡) =
β„™(𝐡𝑖 )β„™(𝐴|𝐡𝑖 )
𝑖∈𝐼
3. Seien 𝐴, 𝐡𝑖 ∈
mit strikt positiven Wahrscheinlichkeiten, 𝐼 abzählbar, 𝐡𝑖 paarweise
disjunkt und 𝛺 = ⨆𝑖∈𝐼 𝐡𝑖 , dann gilt
β„™(𝐡𝑗 |𝐴) =
β„™(𝐡𝑗 )β„™(𝐴|𝐡𝑗 )
∑𝑖∈𝐼 β„™(𝐡𝑖 )β„™(𝐴|𝐡𝑖 )
33 Lemma: Multiplikationsformel
Seien 𝐴𝑖 ∈
mit β„™(⋂𝑛−1
𝑖=1 𝐴𝑖 ) > 0, dann ist
𝑛
β„™(
𝑖−1
𝑛
𝐴𝑖 ) = β„™(𝐴1 )
𝑖=1
Prof. Becherer
β„™(𝐴𝑖 |
𝑖=2
𝐴𝑗 )
𝑗=1
Bodo Graumann
Stochastik I
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
Seite 15
34 Definition: „Unabhängigkeit“
1. Zwei Ereigniss 𝐴, 𝐡 ∈
heißen unabhängig, falls β„™(𝐴 ∩ 𝐡) = β„™(𝐴)β„™(𝐡).
2. Eine beliebige Familie von Ereignissen (𝐴𝑖 ) heißt unabhängig falls für jede endliche Teilmenge (𝐴𝑗 )𝑗∈𝐽 gilt
β„™(
𝐴𝑗 ) =
𝑗∈𝐽
β„™(𝐴𝑗 )
𝑗∈𝐽
3. eine Familie von Mengensystemen ( 𝑖 )𝑖∈𝐼 , 𝑖 ⊆ heißt unabhängig falls jede Auswahl
(𝐴𝑖 )𝑖∈𝐼 , 𝐴𝑖 ∈ 𝑖 eine unabhängige Familie von Ereignissen liefert.
4. Eine Familie von Zufallsvariablen π‘Œπ‘– : (𝛺, ) → (𝛺𝑖 , 𝑖 ) heißt unabhängig, falls die σAlgebren 𝜎(π‘Œπ‘– ): = π‘Œπ‘–−1 ( 𝑖 ) unabhängig sind. (Dabei ist 𝜎(π‘Œπ‘– ) die kleinste σ-Algebra auf 𝛺,
bezüglicher welcher π‘Œπ‘– messbar ist.)
Bemerkungen
1. Sind (𝐴𝑖 )𝑖∈𝐼 unabhängig, dann sind die 𝐴𝑖 paarweise unabhängig. Die umgekehrte Implikation gilt jedoch nicht.
2. (𝐴𝑖 )𝑖∈𝐼 sind genau dann unabhängig, wenn die ( ∅, 𝐴𝑖 , 𝐴𝑖̄ , 𝛺 )𝑖∈𝐼 unabhängige σ-Algebren
sind.
35 Satz: Unabhängigkeitskriterium für Zufallsvariablen
Gegeben sei eine Familie von Zufallsvariablen π‘Œπ‘– : (𝛺, ) → (𝛺𝑖 , 𝑖 ), 𝑖 ∈ 𝐼 und ein unter
Durchschnitt stabiler Erzeuger 𝑖 ( 𝑖 = 𝜎( 𝑖 )). Für endliche 𝐽 ⊂ 𝐼 und 𝐡𝑖 ∈ 𝑖 , 𝑖 ∈ 𝐽 gelte
π‘Œπ‘–−1 (𝐡𝑖 )) =
β„™(
β„™(π‘Œπ‘– ∈ 𝐡𝑖 )
𝑖∈𝐽
𝑖∈𝐽
(das heißt die ( π‘Œπ‘–−1 (𝐸𝑖 ) 𝐸𝑖 ∈
𝑖
)𝑖∈𝐼 sind unabhängig) Dann sind die (π‘Œπ‘– )𝑖∈𝐼 unabhängig.
36 Korollar: Speziellere Unabhängigkeitskriterien
Sei (π‘Œπ‘– )𝑖∈{1,β‹―,𝑛} eine endliche Familie von Zufallsvariablen auf (𝛺, , β„™), dann gilt:
1. (diskreter Fall) falls die π‘Œπ‘– die Form π‘Œπ‘– : (𝛺, ) → (𝛺𝑖 , 𝑖 ) haben mit 𝛺𝑖 abzählbar und
𝑖 = (𝛺𝑖 ), so sind die (π‘Œπ‘– )𝑖=1,β‹―,𝑛 genau dann unabhängig, wenn
𝑛
∀πœ”π‘– ∈ 𝛺𝑖 : β„™(π‘Œπ‘– = πœ”π‘– , 𝑖 = 1, β‹― , 𝑛) =
β„™(π‘Œπ‘– = 𝑀𝑖 )
𝑖=1
2. (reellwertiger Fall) falls die π‘Œπ‘– die Form π‘Œπ‘– : (𝛺, ) → (ℝ, ) haben, so sind die (π‘Œπ‘– )𝑖=1,β‹―,𝑛
unabhängig genau dann, wenn
𝑛
∀𝑐𝑖 ∈ ℝ: β„™(π‘Œπ‘– ≤ 𝑐𝑖 , 𝑖 = 1, β‹― , 𝑛) =
β„™(π‘Œπ‘– ≤ 𝑐𝑖 )
𝑖=1
Prof. Becherer
Bodo Graumann
Stochastik I
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
Seite 16
3. (reellwertiger, absolutstetiger Fall) sind die π‘Œπ‘– wie zuvor und die β„™π‘Œπ‘– = β„™ ∘ π‘Œπ‘–−1 absolutstetige Verteilungen auf (ℝ, ) mit Dichtefunktionen πœŒπ‘– : (ℝ, ) → (ℝ+ , (ℝ+ )), so sind die
(π‘Œπ‘– )𝑖=1,β‹―,𝑛 ) genau dann unabhängig, wenn π‘Œ: = (π‘Œ1 , β‹― , π‘Œπ‘› ): (𝛺, ) → (ℝ𝑛 , 𝑛 ) eine absolutstetige Verteilung β„™ ∘ π‘Œ −1 mit der Dichte πœŒπ‘Œ (𝑦): = πœŒπ‘Œ (𝑦1 , β‹― , 𝑦𝑛 ) = ∏𝑛𝑖=1 πœŒπ‘– (𝑦𝑖 ) ist (bis
auf eine Lebesgue-Nullmenge).
Beispiel
π‘Œ1 , π‘Œ2 sind unabhängig und jeweis 𝑁(0, 1)-verteilt genau dann, wenn π‘Œ = (π‘Œ1 , π‘Œ2 ) eine
absolutstetige Verteilung mit Dichte πœŒπ‘Œ (𝑦) = 𝜌1 (𝑦)𝜌2 (𝑦) =
1 𝑒−
2πœ‹
gerade die Standerdnormalverteilung mit Mittelwertparameter
meter 𝐼2 =
1 0
0 1
𝑦2 +𝑦2
1 2
2
0
0
. Diese Verteilung von π‘Œ ist
und Kovarianzmatrixpara-
βƒ— 𝐼2 ).
= 𝑁(0,
Bemerkungen
1. Die gemeinsame Verteilung einer Familie von Zufallsvariablen π‘Œπ‘– : (𝛺, ) → (𝛺𝑖 , 𝑖 ) ist
die Verteilung β„™ ∘ π‘Œ −1 der Zufallsvariable π‘Œ: = (π‘Œπ‘– )𝑖∈𝐼 : (𝛺, ) → (⨉𝑖∈𝐼 𝛺𝑖 , ⨂𝑖∈𝐼 𝑖 ).
2. Umgekehrt induziert eine mehrdimensionale Zufallsvariable 𝐷 eine Verteilung β„™ ∘ π‘Œ −1
auf dem Produktraum (⨉𝑖∈𝐼 𝛺𝑖 , ⨂𝑖∈𝐼 𝑖 ).
3. Die gemeinsame Verteilung induziert die Randverteilungen (Einschränkungen der π‘Œπ‘– ) als
β„™π‘Œπ‘– (𝐡𝑖 ) = β„™(π‘Œπ‘– ∈ 𝐡𝑖 ) = β„™(π‘Œ1 ∈ 𝛺1 , β‹― , π‘Œπ‘– ∈ 𝐡𝑖 , β‹― π‘Œπ‘› ∈ 𝛺𝑛 ) = β„™ ∘ π‘Œ −1 (𝛺1 × β‹― × π΅π‘– ×
β‹― × π›Ίπ‘› ).
37 Satz: Existenz des Produktmaßes
Sei (𝛺𝑖 , 𝑖 , ℙ𝑖 )𝑖∈𝐼 eine Familie von Wahrscheinlichkeitsräumen, dann existiert genau ein Wahrscheinlichkeitsmaß β„™ auf 𝛺: = ⨉𝑖∈𝐼 𝛺𝑖 , : = ⨂𝑖∈𝐼 𝑖 = 𝜎(πœ‹π‘– , 𝑖 ∈ 𝐼) (Die kleinste σ-Algebra
bezüglich welcher alle Koordinatenprojektionen messbar sind.), so dass für alle endlichen Teilmengen π‘Œ ⊆ 𝐼 gilt
∀𝐴𝑖 ∈
πœ‹π‘–−1 (𝐴𝑖 )
𝑖: β„™
𝑖∈𝐽
=
ℙ𝑖 (𝐴𝑖 )
𝑖∈𝐽
β„™ heißt das Produktmaß und wir schreiben β„™ = ⨁𝑖∈𝐼 ℙ𝑖 .
Bemerkung Insbesondere gilt für die Randverteilung der 𝑖-ten Koordinate unter β„™, dass mit
𝐴𝑖 ∈ 𝑖 : β„™(πœ‹π‘–−1 (𝐴𝑖 )) = ℙ𝑖 (𝐴𝑖 ) ist, das heißt die ℙ𝑖 sind die Randverteilungen der Koordinatenprojektionen πœ‹π‘– welche Zufallsvariablen auf dem Raum (𝛺, , β„™) sind.
38 Korollar: Existenz von Projektionen
Zu gegebenen Wahrscheinlichkeitsmaßen ℙ𝑖 auf (𝛺𝑖 , 𝑖 )𝑖∈𝐼 existiert ein Wahrscheinlichkeitsraum (𝛺, , β„™) mit unabhängigen Zufallsvariablen (𝑋𝑖 )𝑖∈𝐼 so dass β„™ ∘ 𝑋𝑖−1 = ℙ𝑖 für 𝑖 ∈ 𝐼 gilt.
Prof. Becherer
Bodo Graumann
Stochastik I
2 bedingte Wahrscheinlichkeit und Unabhängigkeit
Seite 17
39 Bemerkung:
1. Wegen dem obigen Korrolar sind Zufallsvariablen genau dann unabhängig, wenn ihre gemeinsame Verteilung durch das Produktmaß der Einzelverteilungen gegeben ist. Das heißt
die Randverteilungen gerade die Verteilungen der einzelnen Zufallsvariablen sind.
2. Grundidee der bedingten Verteilungen:
Fall 𝛺 = 𝛺1 × π›Ί2 ,
=
1
⊗
2
a) diskreter Fall: Zähldichte 𝜌(𝑦1 , 𝑦2 ), bedingte Verteilung von π‘Œ1 gegenüber π‘Œ2 ist beschrieben durch die bedingte Zähldichte
𝜌(𝑦1 |𝑦2 ) =
𝜌(𝑦1 , 𝑦2 )
𝜌(𝑦1 , 𝑦2 )
=
πœŒπ‘Œ2 (𝑦2 )
∑𝑦𝑖 ∈𝛺 𝜌(𝑦𝑖 , 𝑦2 )
b) absolutstetiger Fall: sei π‘Œ = (π‘Œ1 , π‘Œ2 ) absolutstetig mit Dichte 𝜌(𝑦1 , 𝑦2 )
die bedingte Dichte ist
πœŒπ‘Œ2 |π‘Œ1 (𝑦2 |𝑦1 ): =
𝜌(𝑦1 , 𝑦2 )
∫𝛺 𝜌(𝑦1 , 𝑦2 )d𝑦2
=
2
𝜌(𝑦1 , 𝑦2 )
,
πœŒπ‘Œ1 (𝑦1 )
𝑦2 ∈ 𝛺2 , 𝑦1 ∈ 𝛺1 , πœŒπ‘Œ1 (𝑦1 ) > 0(: = 0sonst)
dann gilt z.B.
β„™(π‘Œ1 , π‘Œ2 ∈ 𝐴×𝐡) =
𝛺1 ×𝛺2
𝟏𝐴×𝐡 𝜌(𝑦1 , 𝑦2 )d𝑦1 d𝑦2 =
𝛺1
𝟏𝐴 πœŒπ‘Œ1 (𝑦1 )
𝛺2
𝟏𝐡 πœŒπ‘Œ2 |π‘Œ1 (𝑦2 |𝑦1 )d𝑦2
d𝑦1
c) allgemeiner Fall (Ausblick auf Stochastik 2 / Maßtheorie)
Sei π‘Œ2 eine Zuffalsvariable die Werte in einem „polnischen Raum“ (separabler, vollständiger matrischer Raum mit Borelscher σ-Algebra) annimmt. (z.B. (ℝ𝑛 , 𝑛 )), dann
existiert ein stochastischer Kern (oder Markov-Übergangskern) 𝐾. (Das heißt 𝐾: 𝛺1 ×
2 → [0, 1] mit
i. 𝑦1 ↦ 𝐾(𝑦1 , 𝐴2 ) ist
1 -messbar
für alle 𝐴2 ∈
2
ii. 𝐴2 ↦ 𝐾(𝑦1 , 𝐴2 ) ist ein Wahrscheinlichkeitsmaß für alle 𝑦1 ∈ 𝛺1
) Für diesen Kern gilt β„™π‘Œ1 ,π‘Œ2 = β„™π‘Œ1 ⊗ 𝐾, das heißt
∀𝐴 ∈
1 ⊗ 2 : β„™((π‘Œ1 , π‘Œ2 )
∈ 𝐴) =
𝛺1 ×𝛺2
𝟏𝐴 β„™π‘Œ1 ,π‘Œ2 (d𝑦1 , d𝑦2 ) =
𝛺1
𝛺2
πŸπ΄π‘¦ (𝑦2 )𝐾(𝑦1 , d𝑦2 ) β„™π‘Œ1 (d𝑦1 )
1
mit der Sektion
𝐴𝑦1 : =
falls 𝐴 ∈
1
𝑦2 ∈ 𝛺2 (𝑦1 , 𝑦2 ) ∈ 𝐴
⊗
2
2.
Z.B. für 𝐴 = 𝐴1 × π΄2 gilt 𝐴𝑦1 =
β„™(π‘Œ1 ∈ 𝐴1 , π‘Œ2 ∈ 𝐴2 ) =
Prof. Becherer
∈
𝛺1
𝐴2 , 𝑦1 ∈ 𝐴1
∅, sonst
𝟏𝐴1 (𝑦1 )
Bodo Graumann
𝛺2
ist
𝟏𝐴2 (𝑦2 )𝐾(𝑦1 , d𝑦2 ) β„™π‘Œ1 (d𝑦1 )
Stochastik I
3 Asymptotische Ereignisse
Seite 18
Bemerkung Analoge Aussagen gelten für die Dimensionen 𝑛 ≥ 2.
40 Satz: Unabhängigkeit nach Abbildung
Sei (π‘Œπ‘– )𝑖∈𝐼 eine Familie von unabhängigen Zufallsvariablen auf (𝛺, , β„™), π‘Œπ‘– : (𝛺, ) → (𝛺𝑖 , 𝑖 ),
𝐼 = β¨†π‘˜∈𝐾 πΌπ‘˜ und sind πœ‘π‘˜ (⨉𝑖∈πΌπ‘˜ 𝛺𝑖 , ⨂𝑖∈πΌπ‘˜ 𝑖 ) → (π›ΊΜƒπ‘˜ , Μƒ π‘˜ ), π‘˜ ∈ 𝐾 messbare Abbildungen, dann
sind die Zufallsvariablen π‘Œπ‘˜Μƒ : = πœ‘π‘˜ ((π‘Œπ‘– )𝑖∈πΌπ‘˜ ), π‘˜ ∈ 𝐾 unabhängig.
3 Asymptotische Ereignisse
Es sei (𝛺, , β„™) ein Wahrscheinlichkeitsraum und (π‘Œπ‘˜ )π‘˜∈β„• , π‘Œπ‘˜ : (𝛺, ) → (π›Ίπ‘˜ ,
Zufallsvariablen.
π‘˜ ) eine Folge von
41 Definition: „asymptotische Ereignisse“
Ein Ereignis 𝐴 ∈
heißt asymptotisch bezüglich (π‘Œπ‘˜ )π‘˜∈β„• falls für alle 𝑛 ∈ β„• ein 𝐡𝑛 ∈
β¨‚π‘˜≥𝑛 π‘˜ existiert mit 𝐴 = (π‘Œπ‘˜ )π‘˜≥𝑛 −1 (𝐡𝑛 ). Wir schreiben ((π‘Œπ‘˜ )β„• ) für das System der asymptotischen Ereignisse bezüglich (π‘Œπ‘˜ )β„• .
Bemerkung
((π‘Œπ‘˜ )β„• ) ist eine σ-Algebra.
Beispiele
1. 𝐴 = β‹‚∞
π‘˜=1 ⋃𝑙≥π‘˜
2. 𝐴 =
πœ” π‘Œπ‘™ (πœ”) ∈ 𝐴𝑙 ∈
𝑙
πœ” lim𝑁→∞ ( 𝑁1 ∑𝑁
𝑖=1 π‘Œπ‘– (πœ”)) existiert und nimmt Werte im Intervall [π‘Ž, 𝑏] an
42 Satz: 0-1 Gesetz von ΠšΠΎΠ»ΠΌΠΎΠ³ΠΎΡ€ΠΎΠ²
Sei (π‘Œπ‘˜ )π‘˜∈β„• eine Folge von unabhängigen Zufallsvariablen auf (𝛺, , β„™). Dann hat jedes asymptotische Ereignis 𝐴 ∈ ((π‘Œπ‘˜ )β„• ) die Wahrscheinlichkeit 0 oder 1.
Beweis (42) Wir betrachten die Projektionen πœ‹π‘– : β¨‰π‘˜∈β„• π›Ίπ‘˜ → 𝛺𝑖 , (πœ”π‘˜ )β„• ↦ πœ”π‘– und
𝑛
πœ‹π‘–−1 (𝐴𝑖 ) 𝐴𝑖 ∈
:=
𝑖, 𝑖
= 1, β‹― , 𝑛, 𝑛 ∈ β„•
𝑖=1
dabei ist stabil unter Durchschnittbildung und erzeugt β¨‚π‘˜∈β„• π‘˜ = 𝜎(πœ‹π‘– |𝑖 ∈ β„•). Dann existiert
für jedes 𝑛 ∈ β„• ein 𝐡𝑛 ∈ β¨‚π‘˜≥𝑛 π‘˜ , sodass 𝐴 = ((π‘Œπ‘˜ )π‘˜≥𝑛 )−1 (𝐡𝑛 ) = (π‘Œπ‘˜ )π‘˜≥𝑛 ∈ 𝐡𝑛 . A ist
unabhängig von π‘Œπ‘˜ −1
(𝐸), 𝐸 ∈ , also auch für jedes 𝐸 ∈ β¨‚π‘˜∈β„• π‘˜ . Somit ist 𝐴 auch
π‘˜∈β„•
unabhängig von sich selbst, also β„™(𝐴) = β„™(𝐴 ∩ 𝐴) = β„™(𝐴)β„™(𝐴).
β–‘
43 Satz: Borel-Cantelli-Lemma
Es ist (𝛺, , β„™) gegeben und π΄π‘˜ , π‘˜ ∈ β„• eine Folge von Ereignissen sowie 𝐴: = lim supπ‘˜ π΄π‘˜ =
⋂𝑛∈β„• β‹ƒπ‘˜≥𝑛 π΄π‘˜ , dann gilt:
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 19
1. ∑∞
π‘˜=0 β„™(π΄π‘˜ ) < ∞ ⇒ β„™(𝐴) = 0
2. sind die π΄π‘˜ , π‘˜ ∈ β„• unabhängige Ereignisse mit ∑∞
π‘˜=0 β„™(π΄π‘˜ ) = +∞ ⇒ β„™(𝐴) = 1
Beweis (43)
𝑛→∞
1. ∀𝑛: 𝐴 ⊆ β‹ƒπ‘˜≥𝑛 π΄π‘˜ ⇒ β„™(𝐴) ≤ β„™(β‹ƒπ‘˜≥𝑛 π΄π‘˜ ) ≤ ∑∞
π‘˜=𝑛 β„™(π΄π‘˜ ) −−−→ 0
Μ„
2. 𝐴̄ = ⋃∞
𝑛=0 β‹‚π‘˜≥𝑛 π΄π‘˜ , dann gilt
∞
∞
β„™(𝐴)Μ„ =
β„™(
𝑛=0
π‘˜=𝑛
π‘š
∞
π΄π‘˜Μ„ ) =
lim β„™(
𝑛=0
π‘š→∞
π‘š
∞
π΄π‘˜Μ„ ) =
π‘˜=𝑛
lim
π‘˜=0
π‘š→∞
∞
β„™(π΄π‘˜Μ„ ) ≤
π‘˜=𝑛=1−β„™(𝐴 )
π‘˜
≤𝑒−β„™(π΄π‘˜ )
π‘š
lim 𝑒− ∑π‘˜=𝑛 β„™(π΄π‘˜ ) = 0
𝑛=0
π‘š→∞
Beispiel „Monkey typing typewriter“: Seien 𝑋1 , 𝑋2 , … unabhängige Laplace-Zufallsvariablen
auf {π‘Ž, β‹― , 𝑧, 𝐴, β‹― , 𝑍} ∪ π‘ƒπ‘’π‘›π‘˜π‘‘π‘Žπ‘‘π‘–π‘œπ‘›. Dann ist die Wahrscheinlichkeit, dass irgendwann ein beliebiges Wort, Ihr Name oder Goethes „Faust“ vorkommt gleich 1.
4 Erwartungswert und Varianz
44 Definition: „Erwartungswert“
Sei 𝑋 eine Zufallsvariable auf (𝛺, , β„™) mit Werten in (ℝ, ). Ist 𝑋 ≥ 0 oder 𝑋 ∈ 𝐿1 (β„™) (das
heißt ∫𝛺 |𝑋|1 dβ„™ < ∞), so heißt 𝔼(𝑋): = ∫𝛺 𝑋dβ„™ der Erwartungswert von 𝑋.
Bemerkung
• 𝐿𝑝 (β„™): = 𝐿𝑝 (𝛺, , β„™) =
𝑋: (𝛺, ) → (ℝ, ) ∫ |𝑋|𝑝 dβ„™ < ∞
𝑝
für 𝑝 ∈ [1, ∞) ist ein
1
𝑝
Banachraum mit der Norm ‖𝑋‖𝑝 = (∫ |𝑋| dβ„™ ) und für 𝑝 = 2 ein Hilbertraum mit
βŸ¨π‘‹1 , 𝑋2 ⟩ = ∫ 𝑋1 𝑋2 dβ„™ .
• Man sagt oft auch „Mittelwert“ von 𝑋 bezüglich β„™ zu 𝔼(𝑋).
• Wichtige Eigenschaften des Erwartungswerts folgen aus Eigenschaften des Maßintegrals;
etwa Linearität, Monotonie und die Konvergenzaussagen.
Beispiel Liegt ein diskreter Wahrscheinlichkeitsraum mit dem Zählmaß vor, so ist der Erwartungswert 𝔼(𝑋) = ∑πœ”∈𝛺 𝑋(πœ”)β„™({πœ”}).
45 Lemma:
Sei ℙ𝑋 = β„™ ∘ 𝑋 −1 die Verteilung von 𝑋: (𝛺, ) → (𝛺 ,
1
) und 𝑓 eine messbare Funktion
!
𝑓: (𝛺 , ) → (ℝ, ) mit 𝑓 ≥ 0 oder 𝑓 ∘ 𝑋 ∈ 𝐿 (β„™). Dann gilt 𝔼(𝑓(𝑋)) = ∫𝛺 𝑓(𝑋(πœ”))dβ„™(πœ”) =
∫𝛺 𝑓(π‘₯)dℙ𝑋 (π‘₯)
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 20
Beweis (45) für 𝑓 = 𝟏𝐴 , 𝐴 ∈
gilt ∫𝛺 𝟏𝐴 (𝑋)dβ„™ = β„™(𝑋 ∈ 𝐴) = ℙ𝑋 (𝐴) βœ“
Damit gilt die Behauptung für alle elementaren Funktionon 𝑓 = ∑π‘›π‘˜=1 π›Όπ‘˜ πŸπ΄π‘˜ , π΄π‘˜ ∈ , π‘Žπ‘˜ ∈ ℝ.
Weil jede messbare Funktion 𝑓 ≥ 0 monoton durch elementare Funktionen 𝑓𝑛 approximierbar ist
mit 0 ≤ 𝑓𝑛 ≤ 𝑓 , folgt die Behauptung für 𝑓 ≥ 0 mittels messbarer Konvergenz. Für 𝑓 ∈ 𝐿1 (ℙ𝑋 )
folgt die Behauptung dann über 𝑓 = 𝑓 + − 𝑓 − .
46 Korollar:
Sei 𝑋 eine Zufallsvariable mit absolutstetiger Verteilung und Dichte 𝜌 sowie 𝑓 eine messbare
reelle Funktion für die π‘Œ: = 𝑓 ∘ 𝑋 ≥ 0 oder π‘Œ ∈ 𝐿1 (β„™) ist, so gilt 𝔼(𝑓(π‘₯)) = ∫𝛺 𝑓(π‘₯)𝜌(π‘₯)dπ‘₯ .
47 Satz: wichtige Ungleichungen
1. Markovsche Ungleichung
𝔼(|𝑋|𝑝 )
πœ€π‘
∀𝑝 ∈ [1, ∞) : ∀πœ€ > 0: β„™(|𝑋| ≥ πœ€) ≤
2. den Spezialfall von 1 mit 𝑝 = 2 nennt man auch Čebyšëv Ungleichung
3. exponentielle Markov Ungleichung
β„™(𝛼𝑋 ≥ πœ€) ≤
𝔼(𝑒𝛼𝑋 )
π‘’πœ€
4. Cauchy-Schwarz Ungleichung: für 𝑋, π‘Œ ∈ 𝐿2 (β„™) gilt π‘‹π‘Œ ∈ 𝐿1 (β„™) und 𝔼(π‘‹π‘Œ) ≤ √𝔼(𝑋 2 )𝔼(π‘Œ 2 )
5. Höldersche Ungleichung: 𝑋 ∈ 𝐿𝑝 (β„™), π‘Œ ∈ πΏπ‘ž (β„™) mit 𝑝 ∈ (1, ∞), π‘ž > 1 sodass
𝑝
1
𝑝
π‘ž
1
𝑝
+
1
π‘ž
= 1,
1
π‘ž
dann gilt 𝔼(|π‘‹π‘Œ |) ≤ (𝔼(|𝑋|) ) (𝔼(|π‘Œ | )) .
6. Minkowski Ungleichung: 𝑋, π‘Œ ∈ 𝐿𝑝 (β„™), 𝑝 ∈ [1, ∞), dann ist ‖𝑋+π‘Œ ‖𝐿𝑝 ≤ ‖𝑋‖𝐿𝑝 +β€–π‘Œ ‖𝐿𝑝
Beweis (47)
1. 𝔼(|𝑋|𝑝 ) ≥ 𝔼(πœ€π‘ 𝟏{|𝑋|≥πœ€} ) = πœ€π‘ β„™(|𝑋| ≥ πœ€)
Die anderen Beweise werden hier nicht geführt.
48 Lemma: Jensensche Ungleichung
Ist 𝑋 eine reelle Zufallsvariable und 𝑓: ℝ → ℝ eine konvexe Funktion, 𝑋, 𝑓(𝑋) ∈ 𝐿1 (β„™), dann
gilt
𝑓(𝔼(𝑋)) ≤ 𝔼(𝑓(𝑋))
Beweis (48) Da 𝑓 konvex ist, lässt sie sich darstellen als 𝑓(π‘₯) = sup𝑦 (𝛼𝑦 π‘₯ + 𝛽𝑦 ), π‘₯ ∈ ℝ (supremum affiner Funktionen) mit passenden 𝛼𝑦 , 𝛽𝑦 ∈ ℝ darstellen, also gilt
𝔼(𝑓(𝑋)) ≥ sup(𝛼𝑦 𝔼(𝑋)𝑦 + 𝛽𝑦) = 𝑓(𝔼(𝑋))
𝑦
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 21
49 Lemma: Erwartungswert unabhängiger Zufallsvariablen
Sind 𝑋, π‘Œ ∈ 𝐿2 (β„™) unabhängig, dann ist 𝔼(π‘‹π‘Œ) = 𝔼(𝑋) ⋅ 𝔼(π‘Œ).
Bemerkung Für eine ℝ𝑛 -wertige Zufallsvariable 𝑋 ist 𝔼(𝑋) = (𝔼(𝑋𝑖 ))𝑖=1,β‹―,𝑛 koordinatenweise definiert.
50 Definition: „Varianz, Kovarianz“
Für 𝑋, π‘Œ ∈ 𝐿2 (β„™) gilt:
1. Var(𝑋): = 𝔼((𝑋 − 𝔼(𝑋))2 ) = 𝔼(𝑋 2 ) − 𝔼(𝑋)2 ist die Varianz von 𝑋. √Var(𝑋) ist die
Standardabweichung (oder Streuung) von 𝑋.
2. Cov(𝑋, π‘Œ): = 𝔼((𝑋 − 𝔼(𝑋))(π‘Œ − 𝔼(π‘Œ))) = 𝔼(π‘‹π‘Œ) − 𝔼(𝑋)𝔼(π‘Œ) die Kovarianz von 𝑋 und π‘Œ .
3. Falls Cov(𝑋, π‘Œ) = 0 ist, heißen 𝑋 und π‘Œ unkorreliert.
51 Lemma:
Seien 𝑋, π‘Œ, 𝑋1 , 𝑋2 , β‹― ∈ 𝐿2 (β„™), π‘Ž, 𝑏, 𝑐, 𝑑 ∈ ℝ. Dann gilt
1. Cov(π‘Žπ‘‹ + 𝑏, π‘π‘Œ + 𝑑) = π‘Ž ⋅ 𝑐 Cov(𝑋, π‘Œ), insbesondere ist Var(π‘Žπ‘‹ + 𝑏) = π‘Ž2 Var(𝑋).
2. Cov(𝑋, π‘Œ) ≤ √Var(𝑋) Var(π‘Œ)
3. ∑π‘›π‘˜=1 π‘‹π‘˜ ∈ 𝐿2 und Var(∑π‘›π‘˜=1 π‘‹π‘˜ ) = ∑π‘›π‘˜=1 (Var(π‘‹π‘˜ ) + ∑𝑗≠π‘˜ Cov(𝑋𝑗 , π‘‹π‘˜ ))
4. Sind 𝑋 und π‘Œ unabhängig, dann sind sie auch unkorreliert.
Bemerkung
1. Ist 𝑋 eine ℝ-wertige Zufallsvariable, 𝑋 ∈ 𝐿2 (β„™) mit Var(𝑋) > 0, dann heißt
𝑋 − 𝔼(𝑋)
𝑋:Μƒ =
√Var(𝑋)
standardisiert. (𝔼(𝑋)Μƒ = 0, Var(𝑋)Μƒ = 1)
2. Für 𝑋 ℝ𝑛 -wertig, 𝑋 ∈ 𝐿2 (β„™), das heißt ∀𝑖: 𝑋𝑖 ∈ 𝐿2 heißt (Cov(𝑋𝑖 , 𝑋𝑗 ))𝑖,𝑗=1,β‹―,𝑛 die
Varianz / Covarianzmatrix von 𝑋.
Beispiele
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 22
1. für Varianzberechnung: Seien 𝑋1 , β‹― , 𝑋𝑛 iid (independent identically distributed) Bernoulli(p) Zufallsvariablen. Dann ist
𝑛
𝑋=
𝑋𝑖 ∼ Bin𝑛,𝑝
𝑖=1
𝑛
𝔼(𝑋) =
𝔼(𝑋𝑖 ) = 𝑛𝑝
𝑖=1
𝑛
Var(𝑋) =
Var(𝑋𝑖 ) + ⏟
0 = 𝑛 Var(𝑋1 ) = 𝑛𝑝(1 − 𝑝)
𝑖=1
∑ πΆπ‘œπ‘£
2. für 𝑋 ∼ 𝑁(πœ‡, 𝜎 2 ), πœ‡ ∈ ℝ, 𝜎 2 > 0 ist 𝔼(𝑋) = πœ‡
Bemerkung Im allgemeinen impliziert Unkorreliertheit von 𝑋, π‘Œ nicht deren Unabhängigkeit.
Gegenbeispiele
1. π‘ˆ ∼ ((0, 2πœ‹)) also gleichverteilt auf (0, 2πœ‹). Dann wählen wir 𝑋: = sin π‘ˆ , π‘Œ: = cos π‘ˆ
dann ist 𝔼(𝑋) = 𝔼(π‘Œ) = 0 und Cov(𝑋, π‘Œ) = 0 aber sicher gilt keine Unabhängigkeit wegen
𝑋 2 + π‘Œ 2 = 1.
2. Sei 𝑋 ∼
𝑋) = 0.
(0, 1) und π‘Œ: = 𝑋 2 − 1. Dann ist 𝔼(π‘Œ) = 0 also Cov(𝑋, π‘Œ) = 𝔼(π‘‹π‘Œ) = 𝔼(𝑋 3 −
Bemerkung Falls 𝑋 ℝ𝑛 -wertig, 𝑋 ∈ 𝐿2 (β„™), 𝛴: = Cov(𝑋, 𝑋), π‘Œ: = 𝐴𝑋 + 𝑏 wobei 𝐴 ∈ β„π‘š×𝑛 ,
𝑏 ∈ β„π‘š so gilt Cov(π‘Œ, π‘Œ) = 𝐴𝛴𝐴𝑇 , denn Cov(π‘Œπ‘– , π‘Œπ‘— ) = πΆπ‘œπ‘£((𝐴𝑋)𝑖 , (π΄π‘Œ)𝑖 ) (sehe Übung)
52 Definition: „Korrelationskoeffizient“
Seien 𝑋, π‘Œ ∈ 𝐿2 (β„™) mit Var(𝑋), Var(π‘Œ) > 0, dann heißt
Cov(𝑋, π‘Œ)
Corr(𝑋, π‘Œ): =
√Var(𝑋) Var(π‘Œ)
Korrelation von 𝑋 und π‘Œ . (Dies wird oft mit 𝜌(𝑋, π‘Œ) bezeichnet.)
53 Lemma:
Seien 𝑋, π‘Œ wiederum wie eben. Dann gilt
1. Corr(𝑋, π‘Œ) ∈ [−1, +1]
2. Ist 𝔼(𝑋) = 0 so folgt
min 𝔼(|π‘Œ − (π‘Žπ‘‹ + 𝑏)|2 ) = 𝔼(|π‘Œ − (π‘Ž∗ 𝑋 + 𝑏∗ )|2 )
π‘Ž,𝑏∈ℝ
für π‘Ž∗ = Cov(𝑋, π‘Œ)/ Var(𝑋) = Corr(𝑋, π‘Œ)√Var(π‘Œ)/ Var(𝑋) und 𝑏∗ = 𝔼(π‘Œ) sowie
min 𝔼(|π‘Œ − (π‘Žπ‘‹ + 𝑏)|2 ) = Var(π‘Œ)(1 − (Corr(𝑋, π‘Œ))2 )
π‘Ž,𝑏
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 23
4.1 Die Gesetze der großen Zahlen
Vorbemerkung klassische Formelierung der Čebyšëv-Ungleichung: π‘Œ ∈ 𝐿2 (β„™), πœ€ > 0 ⇒ β„™(|π‘Œ−
𝔼(π‘Œ)| ≥ πœ€) ≤ Var(π‘Œ)
.
πœ€2
54 Definition: „stochastische Konvergenz“
Gegeben ist ein Wahrscheinlichkeitsraum (𝛺, , β„™) und ℝ-wertige Zufallsvariablen π‘Œ, (π‘Œπ‘› )𝑛∈β„• .
Dann sagen wir (π‘Œπ‘› )𝑛∈β„• konvergiert stochastisch (bzw. „in Wahrscheinlichkeit“ oder „in β„™“), falls
∀πœ€ > 0: lim β„™(|π‘Œπ‘› − π‘Œ | ≤ πœ€) = 1
𝑛→∞
β„™
Man schreibt auch π‘Œπ‘› −→ π‘Œ .
55 Satz: schwaches Gesetz der großen Zahl
Seien (𝑋𝑛 )𝑛∈β„• paarweise unkorrelierte Zufallsvariablen aus 𝐿2 (β„™) mit sup𝑛 Var(𝑋𝑛 ) ≤ 𝑐 für
ein 𝑐 ∈ ℝ. Dann gilt für πœ€ > 0:
1
β„™(|
𝑛
𝑛
(𝑋𝑖 − 𝔼(𝑋𝑖 ))| ≥ πœ€) ≤
sup𝑛 Var(𝑋𝑛 )
π‘›πœ€2
𝑖=1
→0
Bemerkung
1. Dies ist eine Form der stochastischen Konvergenz mit
2. Falls ∀π‘˜: 𝔼(π‘‹π‘˜ ) = 𝔼(𝑋1 ), so gilt
1
𝑛
1
𝑛
β„™
∑𝑛𝑖=1 (𝑋𝑖 − 𝔼(𝑋𝑖 )) −→ 0.
β„™
∑π‘›π‘˜=1 π‘‹π‘˜ −→ 𝔼(𝑋1 )
Beweis (55) π‘Œπ‘› : = 1𝑛 ∑𝑛𝑖=1 (𝑋𝑖 − 𝔼(𝑋𝑖 )) ∈ 𝐿2 nach der Minkowski-Ungleichung und es gilt
𝔼(π‘Œπ‘› ) = 0. Dann gilt mit der Čebyšëv-Ungleichung:
1
Var(π‘Œπ‘› ) = 2
𝑛
𝑛
Var(π‘‹π‘˜ ) ≤
𝑖=1
1
𝑛𝑐 → 0
𝑛2
β„™
⇒ π‘Œπ‘› −→ 0
β–‘
56 Definition: „fast-sichere Konvergenz“
Seien π‘Œ , (π‘Œπ‘› )𝑛∈β„• reellwertige Zufallsvariablen auf dem selben (𝛺, , β„™). Dann konvergiert π‘Œπ‘›
β„™-fast-sicher gegen π‘Œ falls sie nur auf einer Nullmenge nicht konvergiert. Das heißt
β„™( lim π‘Œπ‘› = π‘Œ) = 1
𝑛→∞
Man sagt auch π‘Œπ‘› konvergiert β„™-fast-überall.
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 24
Beispiele
1. Monte Carlo Integration
Wir betrachten eine messbare Funktion 𝑓: [0, 1] → [0, 𝑐] mit 𝑐 ∈ ℝ+ (z.B. stetig und positiv) und suchen eine numerische Approximation von ∫[0,1]𝑑 𝑓(π‘₯)dπ‘₯ wobei die Dimension
𝑑 groß ist. Dazu simulieren wir unabhängige Zufallsvariablen 𝑋𝑖 welche gleichverteilt auf
[0, 1]𝑑 sind. Dann gilt
𝑛
β„™(|
1
𝑓(π‘‹π‘˜ )−
𝑛 π‘˜=1
𝑛
𝑓dπ‘₯ | ≥ πœ€) = β„™(|
[0,1]𝑑
Var(𝑋1 ) 𝑛→∞
1
−−−→ 0
𝑓(π‘‹π‘˜ )−𝔼(𝑓(𝑋1 ))| ≥ πœ€) ≤
𝑛 π‘˜=1
π‘›πœ€2
Das heißt für genügend großes 𝑛 können wir ∫ 𝑓dπ‘₯ durch Monte Carlo Simulation approximativ berechnen.
2. Wir untersuchen gleichmäßige Approximation einer stetigen Funktion 𝑓: [0, 1] → ℝ durch
Polynome. Seien 𝑋1 , 𝑋2 , β‹― unabhängige Bernoulli(p) verteilte Zufallsvariablen. Dann gilt
𝑛
𝑛
𝑛
π‘˜
1
π‘˜ 𝑛 π‘˜
𝔼(𝑓(
π‘‹π‘˜ )) =
𝑓( ) Bin𝑛,𝑝 (π‘˜) =
𝑓( )
𝑝 (1 − 𝑝)𝑛−π‘˜ =: 𝑓𝑛 (𝑝)
𝑛 π‘˜=1
𝑛
𝑛
π‘˜
π‘˜=0
π‘˜=0
Bernstein Polynom 𝑛-ten Grades
Dann behaupten wir
𝑛→∞
‖𝑓𝑛 − 𝑓 β€–∞ = sup |𝑓𝑛 (𝑝) − 𝑓(𝑝)| −−−→ 0
𝑝∈[0,1]
𝑓 ist stetig also gleichmäßig stetig auf dem Kompaktum [0, 1]:
∀πœ€ > 0: ∃𝛿 > 0: ∀π‘₯, 𝑦: |π‘₯ − 𝑦| < 𝛿 ⇒ |𝑓(π‘₯) − 𝑓(𝑦) ≤ πœ€|. Dann folgt weiter für beliebiges
πœ€ > 0.
𝑛
|𝑓𝑛 (𝑝) − 𝑓(𝑝)| = |𝔼(𝑓(
1
𝑋 ) − 𝑓(𝑝))|
𝑛 π‘˜=1 π‘˜
𝑛
≤ 𝔼(|𝑓(
1
𝑋 ) − 𝑓(𝑝)|(𝟏
𝑛 π‘˜=1 π‘˜
| 1𝑛 ∑π‘›π‘˜=1 π‘‹π‘˜ −𝑝|<𝛿
+𝟏
| 1𝑛 ∑π‘›π‘˜=1 π‘‹π‘˜ −𝑝|≥𝛿
))
1
𝑝(1 − 𝑝) β†˜π‘›→∞ πœ€
𝑛𝛿 2
⇒ lim ‖𝑓𝑛 − 𝑓 β€–∞ = 0
≤ πœ€ + 2‖𝑓 β€–∞
𝑛→∞
β–‘
Bemerkung Der Begriff der β„™-fast-überallen Konvergenz ist wohldefiniert, denn
πœ” ∈ 𝛺 lim𝑛→∞ π‘Œπ‘› (πœ”) = π‘Œ(πœ”) ist messbar:
πœ”∈𝛺
lim π‘Œ
𝑛→∞ 𝑛
=π‘Œ
=
|π‘Œπ‘™ − π‘Œ | ≤
1
𝑛
∞
=
𝑛∈β„• π‘˜∈β„• 𝑙=π‘˜
Prof. Becherer
πœ” ∈ 𝛺 ∀𝑛 ∈ β„•: ∃π‘˜ ∈ β„•: ∀𝑙 ≥ π‘˜: |π‘Œπ‘˜ (πœ”) − π‘Œ(πœ”)| ≤
∈
Bodo Graumann
1
𝑛
Stochastik I
4 Erwartungswert und Varianz
Seite 25
57 Lemma:
β„™
Konvergieren π‘Œπ‘› , 𝑛 ∈ β„• β„™-fast-sicher gegen die π‘Œ , dann gilt auch π‘Œπ‘› −→ π‘Œ
Beweis (57)
∞
∞
∞
1 = β„™(π‘Œπ‘› → π‘Œ) = β„™(
|π‘Œπ‘™ − π‘Œ | ≤
𝑛=1 π‘˜=1 𝑙=π‘˜
∞
∞
⇒ 1 = β„™(
|π‘Œπ‘™ − π‘Œ | ≤
π‘˜=1 𝑙=π‘˜
1
𝑛
𝑛→∞
|π‘Œπ‘™ − π‘Œ | ≤
π‘˜=1 𝑙=π‘˜
∞
1
𝑛
= lim β„™(
π‘˜→∞
|π‘Œπ‘™ − π‘Œ | ≤
𝑙=π‘˜
∞
⇒ β„™( |π‘Œπ‘˜ − π‘Œ | >
∞
∞
= lim β„™(
1
)
𝑛
1
)
𝑛
∞
π‘˜→∞
1
1
1
|π‘Œπ‘™ − π‘Œ | >
) ≤ β„™(
) = 1 − β„™(
|π‘Œπ‘™ − π‘Œ | ≤
) −−−→ 0
𝑛
𝑛
𝑛
𝑙=π‘˜
𝑙=π‘˜
β„™
Das heißt gerade π‘Œπ‘˜ −→ π‘Œ .
Bemerkung Im Allgemeinen gilt die Umkehrung nicht — stochastische Konvergenz impliziert
nicht die β„™-fast-sichere Konvergenz.
Gegenbeispiel: Wir wählen 𝛺 = [0, 1], = ([0, 1]) und β„™ als Gleichverteilung. Dann sei
π‘˜ = 2𝑛 + π‘š,
π‘Œπ‘˜ : = 𝟏[π‘š2−𝑛 ,(π‘š+1)2−𝑛 ] ,
0 ≤ π‘š ≤ 2𝑛 ,
𝑛∈β„•
Dann gilt β„™(|π‘Œπ‘˜ − 0| > πœ€) ≤ 21𝑛 für 2𝑛 ≤ π‘˜ ≤ 2𝑛+1 . Also konvergiert π‘Œπ‘˜ β„™-stochastisch gegen 0
jedoch nicht β„™-fast-überall. Es gilt sogar lim supπ‘˜ π‘Œπ‘˜ (πœ”) = 1 und lim inf π‘˜ π‘Œπ‘˜ (πœ”) = 0. Das heißt
π‘Œπ‘˜ konvergiert nirgends.
58 Satz: starkes Gesetz der großen Zahl
Seien unkorrelierte (π‘‹π‘˜ )π‘˜∈β„• reellwertige Zufallsvariablen mit sup𝑛 Var(𝑋𝑛 ) < ∞, dann gilt
𝑛
1
(𝑋 − 𝔼(π‘‹π‘˜ )) → 0 β„™-fast-sicher
𝑛 π‘˜=1 π‘˜
Beweis (58) O.B.d.A. gelte 𝔼(𝑋)𝑛 = 0 (sonst betrachte 𝑋𝑛 = 𝑋𝑛 − 𝔼(𝑋𝑛 )). Zuerst werden wir
die Konvergenzaussage für π‘Œπ‘›2 zeigen. Für ein beliebiges πœ€ > 0 gilt nach Čebyšëv:
β„™( |π‘Œπ‘›2 | > πœ€ ) ≤
𝑐
𝑛2 πœ€2
=:𝐴𝑛 (πœ€)
∞
⇒
β„™(𝐴𝑛 (πœ€)) < ∞
𝑛=1
Prof. Becherer
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 26
Wir können nun also Satz 43 (Borel-Cantelli-Lemma) anwenden und erhalten dass die Wahrscheinlichkeit, dass nur endlich viele 𝐴𝑛 (πœ€) eintreten 1 ist:
∞
∞
Μ„
𝐴𝑛 (πœ€))
=1
β„™(
π‘š=1 𝑛=π‘š
⇒ ∃𝑁 ∈ , β„™(𝑁) = 0: ∀πœ” ∈ 𝑁:Μ„ ∃𝑛 ∈ β„•: ∀π‘š ≥ 𝑛: |π‘Œπ‘š2 (πœ”)| ≤ πœ€
⇒ lim sup |π‘Œπ‘›2 (πœ”)| ≤ πœ€
𝑛→∞
∞ ∞
∞
⇒ β„™(
𝐴𝑛
π‘˜=1 π‘š=1 𝑛=π‘š
Μ„1
π‘˜
fast überall
)=1
und für jedes πœ” aus der letzteren Menge gilt lim𝑛→∞ π‘Œπ‘›2 (πœ”) = 0. Also gilt diese Aussage β„™-fastsicher.
Nun zeigen wir dass sogar π‘Œπ‘› → 0 β„™-fast-sicher gilt. Für jedes π‘š ∈ β„• gibt es ein 𝑛(π‘š) ∈ β„•
sodass 𝑛2 ≤ π‘š < (𝑛 + 1)2 dann
π‘š
β„™(|π‘šπ‘Œπ‘š − 𝑛2 π‘Œπ‘›2 | ≥ 𝑛2 πœ€) ≤
𝑐(π‘š − 𝑛2 )
1
Var
𝑋
≤
≤∞
π‘˜
2 𝑛4
πœ€2 𝑛4
πœ€
2
π‘˜=𝑛 +1
∞
∞
β„™(|π‘šπ‘Œπ‘š − 𝑛(π‘š)2 π‘Œπ‘›(π‘š)2 | ≥ 𝑛(π‘š)2 πœ€) ≤
⇒
π‘š=1
𝑛=1
2
=
𝑐
πœ€2
∞ (𝑛+1) −1
𝑛=1
π‘š=𝑛2
π‘š − 𝑛2
𝑐
= 2
𝑛4
πœ€
∞
2𝑛
𝑐
π‘˜
= 2
4
𝑛
πœ€
𝑛=1 π‘˜=1
𝑐(π‘š − 𝑛(π‘š)2 )
πœ€2 𝑛(π‘š)4
∞
𝑛=1
2𝑛(2𝑛 + 1) 1
⋅ 4 <∞
2
𝑛
mit Satz 43 (Borel-Cantelli-Lemma) Folgt, analog zum vorigen Schritt dass
π‘š
β„™( lim |
π‘Œ − π‘Œπ‘›(π‘š)2 | = 0) = 1
π‘š→∞ 𝑛(π‘š)2 π‘š
Das heißt die Konvergenz gilt β„™-fast-sicher. Zusammen mit der im ersten Teil des Beweises
gezeigten Konvergenzaussage von π‘Œπ‘›2 folgt dann
π‘š
π‘š
lim
π‘Œ = 0 β„™-fast-sicher
∧
lim
=1
π‘š→∞ 𝑛(π‘š)2
π‘š→∞ 𝑛(π‘š)2 π‘š
und somit gilt die Behauptung.
Bemerkung Das starke Gesetz der großen Zahl gilt auch unter schwächeren Voraussetzungen
als oben angegeben. 1981 hat Etemadi die Konvergenz für 𝑋𝑖 ∈ 𝐿1 (𝑃) unkorreliert und identisch
verteilt gezeigt.
59 S
eien 𝑋1 , 𝑋2 , β‹― iid Zufallsvariablen in 𝐿2 (𝑃), ℝ-wertig. Für jede Realisierung πœ” ∈ 𝛺 heißt
𝑛
𝐹𝑛 (π‘₯)(πœ”): =
Prof. Becherer
1
𝟏
(𝑋 (πœ”))
𝑛 π‘˜=1 (−∞,π‘₯] π‘˜
Bodo Graumann
Stochastik I
4 Erwartungswert und Varianz
Seite 27
die empirische Verteilungsfunktion von 𝑋1 , β‹― , 𝑋𝑛 , 𝑛 ∈ β„•. 𝐹𝑛 ist die Verteilungsfunktion des
empirischen Wahrscheinlichkeitsmaßes
𝑛
ℙ𝑛 : =
1
𝛿
𝑛 π‘˜=1 π‘‹π‘˜ (πœ”)
auf (ℝ, ). Dann sind π‘Œπ‘˜ : = 𝟏(−∞,π‘₯] (π‘‹π‘˜ ) iid Zufallsvariablen, π΅π‘’π‘Ÿπ‘›π‘œπ‘’π‘™π‘™π‘–(𝐹(π‘₯))-verteilt, wobei 𝐹
die Verteilungsfunktion der einzelnen π‘‹π‘˜ ist. Nach dem Gesetz der großen Zahlen gilt dann
𝑛
1
lim 𝐹 (π‘₯) =
π‘Œ = 𝐹(π‘₯)
𝑛→∞ 𝑛
𝑛 π‘˜=1 π‘˜
Das heißt die empirischen Verteilungsfunktionen konvergieren Punktweise gegen die Verteilungsfunktion 𝐹 aus der die iid Ziehungen stammen.
60 Satz: Gliwenko-Cantelli
Seien (π‘‹π‘˜ )π‘˜∈β„• reellwertige Zufallsvariablen iid auf (𝛺, , β„™) mit Verteilungsfunktion 𝐹(π‘₯) und
𝐹𝑛 die empirische Verteilungsfunktion der 𝑋1 , β‹― , 𝑋𝑛 . Dann gilt
lim sup sup |𝐹𝑛 (π‘₯) − 𝐹(π‘₯)| = lim sup ‖𝐹𝑛 − 𝐹 β€–∞ = 0
𝑛→∞
β„™ − fast überall
𝑛→∞
π‘₯∈ℝ
Beweis (60)
π‘Œπ‘› (π‘₯): = 𝟏(−∞,π‘₯] (𝑋𝑛 ),
𝑍𝑛 (π‘₯): = 𝟏(−∞,π‘₯) (𝑋𝑛 )
Dann sind (π‘Œπ‘› )β„• und (𝑍𝑛 )β„• jeweils iid Folgen von Zufallsvariablen und sind jeweils BernoulliFolgen mit Erfolgswahrscheinlichkeit 𝐹(π‘₯) bzw. 𝐹(β†— π‘₯): = limπ‘₯β†—π‘₯
𝐹(π‘₯)Μƒ (𝐹𝑛 (β†— π‘₯) analog)
Μƒ
π”Όπ‘Œπ‘› (π‘₯) = 𝐹(π‘₯), 𝔼𝑍𝑛 (π‘₯) = 𝐹(β†— π‘₯)
nach Satz 58 (starkes Gesetz der großen Zahl) gilt dann
𝑛
𝑛
𝑛→∞
𝑛→∞
1
1
𝐹𝑛 (π‘₯) =
π‘Œ (π‘₯) −−−→ 𝐹(π‘₯)𝐹𝑛 (β†— π‘₯) =
𝑍 (π‘₯) −−−→ 𝐹(β†— π‘₯)
𝑛 π‘˜=1 π‘˜
𝑛 π‘˜=1 π‘˜
Sei 𝐹(−∞): = 0, 𝐹(+∞): = 1. Fixiere nun 𝑁 ∈ β„• und definiere
π‘₯𝑗 : = inf
𝑗
π‘₯ ∈ ℝ̄ 𝐹(π‘₯) ≥
𝑁
𝑅𝑛 : = max
𝑗=0,β‹―,𝑁
⇒ lim 𝑅𝑛 = 0
𝑛→∞
Prof. Becherer
|𝐹𝑛 (π‘₯𝑗 ) − 𝐹(π‘₯𝑗 )| + |𝐹𝑛 (β†— π‘₯𝑗 | − 𝐹(β†— π‘₯𝑗 )
β„™ − fast überall
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 28
Für jedes π‘₯ ∈ ℝ mit π‘₯ ∈ (π‘₯𝑗−1 , π‘₯𝑗 ) gilt dass
1
𝑁
1
𝐹𝑛 (π‘₯) ≥ 𝐹𝑛 (π‘₯𝑗−1 ) ≥ 𝐹𝑛 (π‘₯𝑗−1 ) − 𝑅𝑛 ≥ 𝐹(π‘₯) − 𝑅𝑛 −
𝑁
1
1
⇒ lim sup sup |𝐹𝑛 (π‘₯) − 𝐹(π‘₯)| ≤
+ lim sup 𝑅𝑛 ≤
𝑁
𝑁
𝑛→∞ π‘₯∈ℝ
𝑛→∞
𝐹𝑛 (π‘₯) ≤ 𝐹𝑛 (β†— π‘₯𝑗 ) ≤ 𝐹𝑛 (β†— π‘₯𝑗 ) + 𝑅𝑛 ≤ 𝐹(π‘₯) + 𝑅𝑛 +
Da das 𝑁 beliebig gewählt war wurde die Behauptung bewiesen.
5 Charakteristische Funktionen
Grundidee Wir wollen Wahrscheinlichkeitsmaße auf (ℝ𝑛 , 𝑛 ) durch (komplexwertige) Funktionen eindeutig charakterisieren und damit nützliche Aussagen über Maße mit funktionentheoretischen Mitteln erhalten.
Notation
Im folgenden verwenden wir das euklidische Skalarprodukt ⟨π‘₯, π‘¦βŸ©: = ∑π‘‘π‘˜=1 π‘₯π‘˜ π‘¦π‘˜ .
61 Definition: „charakteristische Funktion eines Maßes“
Sei πœ‡ ein Wahrscheinlichkeitsmaß auf (ℝ𝑛 ,
πœ‡:Μ‚ ℝ𝑑 ⇒ β„‚,
𝑛
). Dann heißt πœ‡:Μ‚
π‘’π‘–βŸ¨π‘’,π‘₯⟩ dπœ‡(π‘₯)
𝑒↦
ℝ𝑑
die charakteristische Transformation (oder „Fourier Transformation“) von πœ‡.
Für eine Zufallsvariable 𝑋 mit Werten in ℝ𝑑 heißt
πœ‘π‘‹ (𝑒): = 𝑃𝑋̂ (𝑒) =
ℝ𝑑
π‘’π‘–βŸ¨π‘’,π‘₯⟩ d𝑃𝑋 (π‘₯) = 𝔼(π‘’π‘–βŸ¨π‘’,π‘‹βŸ© )
die charakteristische Funktion von 𝑋.
Bemerkung
π‘’π‘–βŸ¨π‘’,π‘₯⟩ dπœ‡(π‘₯) =
πœ‡(𝑒)
Μ‚ =
ℝ𝑑
cos(βŸ¨π‘’, π‘₯⟩)dπœ‡(π‘₯) + 𝑖
ℝ𝑑
sin(βŸ¨π‘’, π‘₯⟩)dπœ‡(π‘₯)
ℝ𝑑
πœ‘π‘‹ (𝑒) = 𝔼(cos(βŸ¨π‘’, π‘‹βŸ©)) + 𝑖𝔼(sin(βŸ¨π‘’, π‘‹βŸ©))
62 Lemma: Eigenschaften der charakteristischen Transformation
Sei πœ‡ ein Wahrscheinlichkeitsmaß auf (ℝ𝑑 ,
mit πœ‡(0)
Μ‚ = 1.
Prof. Becherer
𝑑
). Dann ist πœ‡Μ‚ eine beschränkte Funktion auf ℝ𝑑
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 29
Beweis (62) πœ‡(0)
Μ‚ = 1 ist klar. πœ‡Μ‚ ist beschränkt da
|π‘’π‘–βŸ¨π‘’,π‘₯⟩ dπœ‡(π‘₯) | = 1
|πœ‡(𝑒)|
Μ‚
≤
ℝ𝑑
=1
Stetigkeit gilt wegen der Beschränktheit des Integranden nach beschränkter Konvergenz (Lebesgue).
63 Definition: „Momente einer Zufallsvariablen“
Ist 𝑋 eine Zufallsvariable mit werten in ℝ𝑑 , dann heißt 𝔼(|𝑋|π‘š ), π‘š ∈ β„• das π‘š-te Moment von
𝑋.
64 Satz: Beziehung zwischen Momenten und charakteristischer Funktion
Sei 𝑋 eine ℝ𝑑 -wertige Zufallsvariable mit einem endlichen π‘š-ten Moment. Dann ist die charakteristische Funktion πœ‘π‘‹ von 𝑋 π‘š mal stetig partiell differenzierbar und
πœ•π‘š
πœ‘ (𝑒) = π‘–π‘š 𝔼(𝑋𝑗1 𝑋𝑗2 β‹― π‘‹π‘—π‘š π‘’π‘–βŸ¨π‘’,π‘‹βŸ© )
πœ•π‘₯𝑗1 πœ•π‘₯𝑗2 β‹― πœ•π‘₯π‘—π‘š 𝑋
Beweis (64) Sei πœ‡: = 𝑃𝑋 die Verteilung auf 𝑑 und ∫ℝ𝑑 |π‘₯|π‘š dπœ‡(π‘₯) < ∞, das heißt |π‘₯|π‘š ∈
𝐿1 (πœ‡). Wir betrachten den Fall π‘š = 1.
Wir betrachten also den Differenzenquotienten der Richtungsableitung. Für lim𝑛→∞ 𝑑𝑛 = 0:
πœ‡(𝑒
Μ‚ + 𝑑𝑛 𝑒𝑗 ) − πœ‡(𝑒)
Μ‚
1 π‘–βŸ¨π‘’,π‘₯⟩ π‘–βŸ¨π‘‘π‘› 𝑒𝑗 ,π‘₯⟩
𝑒
(𝑒
− 1)dπœ‡(π‘₯)
𝑑𝑛
ℝ𝑑 𝑑𝑛
cos(𝑑𝑛 π‘₯𝑗 ) − 1 𝑖 sin(𝑑𝑛 π‘₯𝑗 )
1
lim (π‘’π‘–βŸ¨π‘‘π‘› 𝑒𝑗 ,π‘₯⟩ − 1) = lim
+
= −π‘₯𝑗 sin(0) + 𝑖π‘₯𝑗 cos(0) = 𝑖π‘₯𝑗
𝑛→∞ 𝑑𝑛
𝑛→∞
𝑑𝑛
𝑑𝑛
1
| (π‘’π‘–βŸ¨π‘‘π‘› 𝑒𝑗 ,π‘₯⟩ − 1)| ≤ 2|π‘₯| ∈ 𝐿1 (πœ‡)
𝑑𝑛
πœ‡(𝑒
Μ‚ + 𝑑𝑛 𝑒𝑗 ) − πœ‡(𝑒)
Μ‚
πœ•
⇒ lim
=
π‘’π‘–βŸ¨π‘’,π‘₯⟩ (𝑖π‘₯𝑗 )dπœ‡(π‘₯) = 𝑖𝔼(𝑋𝑗 π‘’π‘–βŸ¨π‘’,π‘‹βŸ© ) =
πœ‘ (𝑒)
𝑛→∞
𝑑𝑛
πœ•π‘₯𝑗 𝑋
ℝ𝑑
=
nach majorisierter Konvergenz. Die Stetigkeit folgt analog zu obigem Lemma. Weiter folgt die
Behauptung für andere π‘š mit vollständiger Induktion über π‘š.
Beispiel
1. 𝑋 ∼ π΅π‘’π‘Ÿπ‘›π‘œπ‘’π‘™π‘™π‘–(𝑝):
πœ‘π‘‹ (𝑒) = 𝔼(𝑒𝑖𝑒𝑋 ) = (1 − 𝑝)𝑒0 + 𝑝𝑒𝑖𝑒 = 𝑝𝑒𝑖𝑒 + 1 − 𝑝
2. 𝑋 ∼ Bin(𝑛, 𝑝):
𝑛
𝑛
πœ‘π‘‹ (𝑒) = 𝔼(𝑒𝑖𝑒𝑋 ) = 𝔼(𝑒𝑖𝑒 ∑π‘˜=1 π‘‹π‘˜ ) =
𝔼(π‘’π‘–π‘’π‘‹π‘˜ ) = (𝑝𝑒𝑖𝑒 + 1 − 𝑝)𝑛
π‘˜=1
Prof. Becherer
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 30
3. 𝑋 ∼ Poisson(πœ†):
∞
π‘’π‘–π‘’π‘˜
πœ‘π‘‹ (𝑒) =
π‘˜=0
𝑖𝑒
πœ†π‘˜ −πœ†
𝑒 = π‘’πœ†(𝑒 −1)
π‘˜!
4. 𝑋 ∼
([−π‘Ž, π‘Ž]): πœ‘π‘‹ (𝑒) =
5. 𝑋 ∼
(0, 1):
1
π‘Žπ‘’
πœ‘π‘‹ (𝑒) = 𝔼(𝑒𝑖𝑒𝑋 ) =
sin(π‘Žπ‘’)
1
cos(𝑒π‘₯)
π‘₯2
𝑒− 2 dπ‘₯ + 𝑖
√2πœ‹
ℝ
1
sin(𝑒π‘₯)
π‘₯2
𝑒− 2 dπ‘₯
√2πœ‹
ℝ
=0
πœ‘π‘‹ (𝑒) =
⇒
πœ‘π‘‹ (𝑒)
πœ‘π‘‹ (𝑒)
∞
1
√2πœ‹
− sin(𝑒π‘₯)π‘₯𝑒
2
− π‘₯2
dπ‘₯ = −
1
√2πœ‹
−∞
= −𝑒 ⇒ ln(πœ‘π‘‹ (𝑒)) = −
∞
−∞
π‘₯2
𝑒 cos(𝑒π‘₯)𝑒− 2 dπ‘₯ = −π‘’πœ‘π‘‹ (𝑒)
𝑒2
𝑒2
𝑒2
+ 𝑐 ⇒ πœ‘π‘‹ (𝑒) = 𝑒− 2 +𝑐 = 𝑒− 2
2
65 Lemma: charakteristische Funktion von affinen Transformationen
Sei 𝑋 eine ℝ𝑑 -wertige Zufallsvariable und π‘Œ: = 𝐴𝑋 + 𝑏 mit 𝐴 ∈ β„π‘š×𝑑 und 𝑏 ∈ β„π‘š . Dann gilt
πœ‘π‘Œ (𝑒) = π‘’π‘–βŸ¨π‘’,π‘βŸ© πœ‘π‘‹ (𝐴𝑇 𝑒)
Beispiel Sei 𝑋 ∼ (πœ‡, 𝜎 2 ), πœ‡ ∈ ℝ, 𝜎 ≠ 0 und ist 𝑋 = πœ‡ + πœŽπ‘Œ für π‘Œ ∼
2
πœ‘π‘‹ (𝑒) = exp(π‘–π‘’πœ‡ − 𝜎 2 𝑒2 ).
Beispiel Seien 𝑋1 , β‹― , 𝑋𝑑 iid π‘‹π‘˜ ∼
2
verteilt in ℝ𝑑 und πœ‘π‘‹ (𝑒) = exp(− |𝑒|2 ).
(0, 1), dann gilt
(0, 1). Dann heißt 𝑋 = (𝑋1 , β‹― , 𝑋𝑑 ) standardnormal-
5.1 Summe von unabhängigen Zufallsvariablen
Wir werden sehen, dass wir für Summen von unabhängigen Zufallsvariablen die charakteristische
Funktion sehr einfach berechnen lassen und zudem den Begriff der Faltung einführen.
66 S
eien 𝑋, π‘Œ: 𝛺 → ℝ unabhängige Zufallsvariablen auf (𝛺, , β„™) mit Verteilungen ℙ𝑋 = β„™ ∘
𝑋 , β„™π‘Œ = β„™ ∘ π‘Œ −1 auf 1 . Dann heißt die Verteilung von 𝑍: = 𝑋 + π‘Œ die Faltung (bzw.
Faltungsprodukt) von ℙ𝑋 und β„™π‘Œ und man schreibt ℙ𝑍 = ℙ𝑋 ∗ β„™π‘Œ . Sie ist gegeben durch
−1
ℙ𝑍 (𝐴) = (ℙ𝑋 ∗ β„™π‘Œ )(𝐴): =
Prof. Becherer
ℝ
ℝ
𝟏𝐴 (π‘₯ + 𝑦)dβ„™π‘₯ (π‘₯) dℙ𝑦 (𝑦)
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 31
Beweis (66) Da 𝑋 und π‘Œ unabhängig sind ist β„™(𝑋,π‘Œ) = ℙ𝑋 ⊗ β„™π‘Œ damit gilt für 𝑔: ℝ2 → ℝ
integrierbar (d.h. 𝑔 ∈ 𝐿1 (ℙ𝑋 ⊗ β„™π‘Œ ) oder 𝑔 ≥ 0)
𝔼(𝑔(𝑋, π‘Œ)) =
ℝ
ℝ
𝑔(π‘₯, 𝑦)dℙ𝑋 (π‘₯) dβ„™π‘Œ (𝑦)
𝑔(π‘₯,𝑦)=𝟏𝐴 (π‘₯+𝑦)
==========⇒ 𝔼(𝑋 + π‘Œ) =
ℝ
ℝ
𝟏𝐴 (π‘₯ + 𝑦)dℙ𝑋 dβ„™π‘Œ = β„™(𝑋 + π‘Œ ∈ 𝐴) = β„™(𝑍 ∈ 𝐴) = 𝑃𝑍 (𝐴)
67 Korollar:
Seien 𝑋, π‘Œ unabhängige Zufallsvariablen auf (𝛺, , β„™) mit Werten in ℝ, 𝑍: = 𝑋 + π‘Œ . Dann
ist
πœ‘π‘ (𝑒) = πœ‘π‘‹ (𝑒)πœ‘π‘Œ (𝑒), 𝑒 ∈ ℝ
Beweis (67) Wie im obigen Satz erhalten wir
𝔼(π‘’π‘–βŸ¨π‘’,𝑋+π‘ŒβŸ© ) = 𝔼(π‘’π‘–βŸ¨π‘’,π‘‹βŸ© ⋅ π‘’π‘–βŸ¨π‘’,π‘ŒβŸ© ) = 𝔼(π‘’π‘–βŸ¨π‘’,π‘‹βŸ© )𝔼(π‘’π‘–βŸ¨π‘’,π‘ŒβŸ© )
68 Bemerkung: Unabhängigkeit
Es reicht aber nicht πœ‘π‘‹+π‘Œ (𝑒) = πœ‘π‘‹ (𝑒)πœ‘π‘Œ (𝑒) um zu schließen, dass 𝑋 und π‘Œ unabhängig sind.
69 Satz: Existenz von Dichten
Seien 𝑋, π‘Œ unabhängige Zufallsvariablen und 𝑍: = 𝑋 + π‘Œ .
1. Hat zudem 𝑋 eine Dichte 𝑓𝑋 , so hat 𝑍 eine Dichte auf (ℝ, ) und
𝑓𝑍 (𝑧) =
ℝ
𝑓𝑋 (𝑧 − 𝑦)dβ„™π‘Œ (𝑦)
2. Haben sowohl 𝑋 als auch π‘Œ eine Dichte 𝑓𝑋 bzw. π‘“π‘Œ , dann hat 𝑍 die Dichte
𝑓𝑍 (𝑧) =
ℝ
𝑓𝑋 (𝑧 − 𝑦)π‘“π‘Œ (𝑦)dπœ†(𝑦) =
ℝ
π‘“π‘Œ (𝑧 − π‘₯)𝑓𝑋 (π‘₯)dπœ†(π‘₯)
Beweis (69)
1.
ℝ ℝ
𝑧=π‘₯+𝑦
𝟏𝐴 (π‘₯ + 𝑦)dℙ𝑋 (π‘₯) dβ„™π‘Œ (𝑦) =
=
ℝ
ℝ
⇒ 𝑓𝑍 (𝑧) =
ℝ
ℝ
𝟏𝐴 (𝑧)𝑓𝑋 (𝑧 − 𝑦)d𝑧 dβ„™π‘Œ (𝑦) =
ℝ
𝟏𝐴 (π‘₯ + 𝑦)𝑓𝑋 (π‘₯)dπ‘₯ dβ„™π‘Œ (𝑦)
ℝ
𝟏𝐴 (𝑧)
ℝ
𝑓𝑋 (𝑧 − 𝑦)dβ„™π‘Œ (𝑦) d𝑧
𝑓𝑋 (𝑧 − 𝑦)dβ„™π‘Œ (𝑦)
Die andere Form folgt mittels Vertauschung von 𝑋 und π‘Œ nach Symmetrie.
Prof. Becherer
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 32
2.
𝑓𝑍 (𝑧) =
ℝ
𝑓𝑋 (𝑧 − 𝑦)dβ„™ (𝑦) =
ℝ
𝑓𝑋 (𝑧 − 𝑦)π‘“π‘Œ (𝑦)d𝑦
70 Satz: Charakteristik-Eigenschaft
Ist 𝑋 eine Zufallsvariable in (ℝ𝑑 , 𝑑 ). Dann charakterisiert πœ‘π‘‹ bzw. β„™Μ‚ 𝑋 die Verteilung ℙ𝑋
von 𝑋 auf 𝑑 das heißt sind πœ‡1 , πœ‡2 Wahrscheinlichkeitsmaße auf 𝑑 , dann gilt πœ‡1Μ‚ = πœ‡2Μ‚ nur wenn
πœ‡1 = πœ‡ 2 .
Beweis (70) (Siehe zum Beispiel Sim82, Seite 160). Dieser Beweis benutzt die lokal kompakte
Version des Stone-Weierstraß-Theorems.
Wir betrachten die Funktion
𝑓(𝜎, π‘₯): =
1
exp(−
(√2πœ‹πœŽ 2 )𝑑
Μ‚ 𝑒): = exp(−
𝑓 (𝜎,
|π‘₯|2
)
2𝜎 2
|𝑒|2
)
2𝜎 2
Also ist 𝑓(𝜎, ⋅) die gemeinsame Dichte von 𝑋 = (𝑋1 , β‹― , 𝑋𝑑 ) für 𝑋1 , β‹― , 𝑋𝑑 iid mit 𝑋𝑖 ∼
(0, 𝜎 2 ).
𝑑
πœ‘π‘‹ (𝑒) = 𝔼(𝑒
π‘–βŸ¨π‘’,π‘‹βŸ©
𝑑
)=
πœ‘π‘‹π‘— (𝑒𝑗 ) =
𝑗=1
⇒ 𝑓(𝜎, 𝑒 − 𝑣) =
1
(2πœ‹πœŽ 2 )
𝑑
2
exp(−
𝑗=1
Μ‚
𝑓 (𝜎,
ℝ𝑑
1
ℝ𝑑
2
Μ‚ 𝑒)
) = 𝑓 (𝜎,
1
𝑒−𝑣
π‘–βŸ¨ 𝑒−𝑣
,π‘‹βŸ©
𝜎2
)
=
𝔼(𝑒
)
𝑑
𝜎2
2
(2πœ‹πœŽ ) 2
Seien πœ‡1 , πœ‡2 Wahrscheinlichkeitsmaße auf (ℝ𝑑 ,
𝑓(𝜎, 𝑒 − 𝑣)dπœ‡1 =
𝑒2𝑗 𝜎 2
(√2πœ‹πœŽ)𝑑
(
ℝ𝑑
𝑑
) mit πœ‡1Μ‚ = πœ‡2Μ‚ =: πœ‡.Μ‚
𝑓(𝜎, π‘₯)π‘’π‘–βŸ¨π‘’,π‘₯⟩ dπ‘₯ ) dπœ‡1 (π‘₯) =
ℝ𝑑
𝑓(𝜎, 𝑒 − 𝑣)dπœ‡1 (𝑒)
Μ‚ 𝑒−𝑣
=𝑓 (𝜎,
2
𝜎
1
=
ℝ𝑑
(√2πœ‹πœŽ)𝑑
𝑓(𝜎, π‘₯)πœ‡1Μ‚ (π‘₯)dπ‘₯
Analog ergibt sich diese Formel mit πœ‡2 , πœ‡2Μ‚ .
⇒ ∀𝜎 > 0, 𝑣 ∈ ℝ𝑑 :
ℝ𝑑
⇒
ℝ𝑑
𝑔dπœ‡1 =
ℝ𝑑
𝑓(𝜎, 𝑒 − 𝑣)dπœ‡1 (𝑒) =
ℝ𝑑
𝑓(𝜎, 𝑒 − 𝑣)dπœ‡2 (𝑒)
𝑔dπœ‡2
gilt für alle Funktionn 𝑔 aus dem Vektorraum der durch 𝑓(𝜎, ⋅ − 𝑣) 𝜎 > 0, 𝑣 ∈ ℝ𝑑 aufgespannt wird. teilt einzelne Punkte in ℝ𝑑 . Somit zeigt Stone-Weierstraß, dass dicht bezüglich
Prof. Becherer
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 33
gleichmaßiger Konvergenz in der Banachalgebra 𝐢0 (ℝ𝑑 ) liegt, wobei 𝐢0 (ℝ𝑑 ) der Banachraum
der stetigen Funktionen ℝ𝑑 → ℝ mit Konvergenz bezüglich der Supremumsnorm ist, welche
„gegen ∞ verschwinden“. (d.h. ∀πœ€ > 0∃ Kompaktum 𝐾 ⊆ ℝ𝑑 , 𝑔 ∈ 𝐢0 (ℝ𝑑 ): |𝑔| ≤ πœ€ auf ℝ𝑑 ⧡ 𝐾).
Jede Indikatorfunktion auf Rechtecken kann monoton approximiert werden durch Funktion
aus und dort die Maße übereinstimmen, müssen sie auch auf der gesammten Borell-σ-Algebra
übereinstimmen.
Bemerkung Will man etwas Konstruktives zur Berechnung des Maßes aus seiner charakteristischen Funktion, so braucht man Ergebnise aus der Fourieranalysis zur Fouriertransformierteninversion. Es ergibt sich zum Beispiel im Eindimensionalen für eine Zufallsvariable 𝑋: 𝛺 → ℝ:
1
1
ℙ𝑋 ((π‘Ž, 𝑏)) + ℙ𝑋 ({π‘Ž, 𝑏}) = lim
𝑇 β†— ∞ 2πœ‹
2
[−𝑇,𝑇]
𝑒−π‘–π‘’π‘Ž − 𝑒−𝑖𝑒𝑏
πœ‘π‘‹ (𝑒)d𝑒
𝑖𝑒
für beliebige π‘Ž, 𝑏 ∈ ℝ, π‘Ž < 𝑏. Die Funktion
1
1
𝐺(𝑏): = lim ℙ𝑋 ((π‘Ž, 𝑏)) + ℙ𝑋 ({π‘Ž, 𝑏}) = ℙ𝑋 ((−∞, 𝑏)) + ℙ𝑋 ({𝑏})
π‘Ž β†˜ −∞
2
2
bestimmt die Verteilung von 𝑋 bereits eindeutig: 𝑃(𝑋 ≤ 𝑏) = 𝐹𝑋 (𝑏) = 𝐺(𝑏)+ 12 (𝐺(𝑏)−𝐺(β†— 𝑏)).
(Siehe auch Shi95, Paragraph 12, Theorem 3)
71 Satz: Unabhängigkeit anhand charakteristischer Funktionen
Zufallsvariablen 𝑋 = (𝑋1 , β‹― , 𝑋𝑑 ) auf (𝛺, , β„™) und Werten in ℝ𝑑 sind genau dann unabhängig, wenn
𝑑
∀𝑒 ∈ ℝ𝑑 : πœ‘π‘‹ (𝑒) =
πœ‘π‘‹π‘˜ (π‘’π‘˜ )
π‘˜=1
5.2 Normalverteilungen
72 Definition: „multidimensionale Normalverteilung“
Eine ℝ𝑑 -wertige Zufallsvariable 𝑋 = (𝑋1 , β‹― , 𝑋𝑑 ) auf (𝛺, , β„™) heißt Gaußsche Zufallsvariable oder multidimensional normalverteilt falls für jedes π‘Ž ∈ ℝ𝑑 die Linearkombination
βŸ¨π‘Ž, π‘‹βŸ© = ∑π‘‘π‘˜=1 π‘Žπ‘˜ π‘‹π‘˜ eindimensional normalverteilt sind.
Bemerkung Unter Umständen sind die Linearkombinationen degeneriert normalverteilt mit
Varianz 0, das heißt die Punktmaße auf πœ‡ in ℝ1 .
73 Satz: charakteristische Funktion der Normalverteilung
Ist 𝑋 eine ℝ𝑑 -wertige Zufallsvariable auf (𝛺, , β„™), dann ist 𝑋 genau dann multidimensional
normalverteilt, wenn ihre charakteristische Funktion die Form
1
∀𝑒 ∈ ℝ𝑑 : πœ‘π‘‹ (𝑒) = exp(π‘–βŸ¨π‘’, πœ‡βŸ© − βŸ¨π‘’, π‘„π‘’βŸ©)
2
hat, mit πœ‡ ∈ ℝ𝑑 und 𝑄 eine symmetrische nichtnegative semi-definit 𝑑 × π‘‘-Matrix. Außerdem
ist dann 𝑄 die Koverianzmatrix und πœ‡ der Erwartungswertvektor.
Prof. Becherer
Bodo Graumann
Stochastik I
5 Charakteristische Funktionen
Seite 34
Beweis (73) Hat die charakteristische Funktion von 𝑋 die gegebene Form so betrachten wir
π‘Œ: = βŸ¨π‘Ž, π‘‹βŸ© und erhalten für die 𝑣 ∈ ℝ1 :
𝑑
1
πœ‘π‘Œ (𝑣) = 𝔼(𝑒𝑖𝑣 ∑π‘˜=1 π‘Žπ‘˜ π‘‹π‘˜ ) = πœ‘π‘‹ (π‘£π‘Ž) = exp(π‘–π‘£βŸ¨π‘Ž, πœ‡βŸ© − 𝑣2 βŸ¨π‘Ž, π‘„π‘ŽβŸ©)
2
Wegen der Eindeutigkeit muss dann π‘Œ ∼ (βŸ¨π‘Ž, πœ‡βŸ©, βŸ¨π‘Ž, π‘„π‘ŽβŸ©) sein. Die Momente erhalt wir aus
Satz 64 (Beziehung zwischen Momenten und charakteristischer Funktion):
𝔼(𝑋𝑖 𝑋𝑗 ) =
1
πœ•
⋅
πœ‘ (𝑒)|𝑒=0 = (−1)(−πœ‡π‘– πœ‡π‘— − 𝑄𝑖𝑗 ) = πœ‡π‘– πœ‡π‘— + 𝑄𝑖𝑗
𝑖2 πœ•π‘₯𝑖 πœ•π‘₯𝑗 𝑋
⇒ Cov(𝑋𝑖 , 𝑋𝑗 ) = 𝔼(𝑋𝑖 𝑋𝑗 ) − 𝔼𝑋𝑖 𝔼𝑋𝑗 = 𝑄𝑖𝑗
Ist auf der anderen Seite 𝑋 bereits als normalverteilt gegeben, so ergibt mit π‘Œ: = βŸ¨π‘Ž, π‘‹βŸ© =
∑π‘‘π‘˜=1 π‘Žπ‘˜ π‘‹π‘˜ und 𝑄: = Cov(𝑋):
𝔼(π‘Œ) = 𝔼(βŸ¨π‘Ž, π‘‹βŸ©) = βŸ¨π‘Ž, 𝔼(𝑋)⟩ = βŸ¨π‘Ž, πœ‡βŸ© ∧ πœ‡ = 𝔼(𝑋) ∧ Var(π‘Œ) = π‘Žπ‘‡ π‘„π‘Ž = βŸ¨π‘Ž, π‘„π‘ŽβŸ©
1
⇒ π‘Œ ∼ (βŸ¨π‘Ž, πœ‡βŸ©, βŸ¨π‘Ž, π‘„π‘ŽβŸ©) ⇒ πœ‘π‘Œ (𝑣) = exp(π‘–π‘£βŸ¨π‘Ž, πœ‡βŸ© − 𝑣2 βŸ¨π‘Ž, π‘„π‘ŽβŸ©)
2
⇒ πœ‘π‘Œ (1) = πœ‘βŸ¨π‘Ž,π‘‹βŸ© (1) = 𝔼(exp(π‘–βŸ¨π‘Ž, π‘‹βŸ©)) = πœ‘π‘‹ (π‘Ž)
Also hat πœ‘π‘‹ die behauptete Form.
Beispiel Seien 𝑋1 , β‹― , 𝑋𝑑 unabhängige Zufallsvariablen 𝑋𝑗 ∼
multivariat normalverteilt, denn
𝑑
πœ‘π‘‹ (𝑒) =
𝑑
πœ‘π‘‹π‘˜ (π‘’π‘˜ ) =
π‘˜=1
(πœ‡π‘— , πœŽπ‘—2 ). Dann ist 𝑋 = (𝑋1 , β‹― , 𝑋𝑑 )
1
1
exp(π‘–π‘’π‘˜ πœ‡π‘˜ − πœŽπ‘˜2 𝑒2π‘˜ ) = exp(π‘–βŸ¨π‘’, πœ‡βŸ© − βŸ¨π‘’, π‘„π‘’βŸ©)
2
2
π‘˜=1
mit πœ‡ = (πœ‡1 , β‹― , πœ‡π‘‘ ) und 𝑄 = diag(𝜎12 , β‹― , πœŽπ‘‘2 ).
74 Satz: Unabhängigkeit einer Normalverteilung
Ist 𝑋: 𝛺 → ℝ𝑑 (multidimensional normalverteilt), dann sind die Komponenten 𝑋𝑗 genau dann
unabhängig, wenn sie unkorreliert sind, das heißt wenn Cov(𝑋) eine Diagonalmatrix ist.
Beweis (74) Die Hinrichtung ist gerade das obige Beispiel. Die Rückrichtung gilt, da die charakteristischen Funktionen bereits gleich sind, wenn die Kovarianzmatrix Diagonalform hat.
75 Bemerkung: Fortsetzbarkeit der charakteristischen Funktion
Setzt man die charakteristische Funktion πœ‘π‘‹ (𝑧) = 𝔼(π‘’βŸ¨π‘§,π‘₯⟩ ) auf ganz β„‚ fortsetzt, so kann man
zeigen, dass sie beispielsweise in ℝ1 auf einem Streifen { 𝑧 ∈ β„‚ | |Re 𝑧| < 𝑐 } holomorph ist.
(vergleiche Str85, I, Paragraph 5)
76 Lemma: Simulation von multidimensionalen Normalverteilungen
Sei 𝑋 ∼ (πœ‡, 𝑄). Dann existieren unabhängige univariate π‘Œ1 , β‹― , π‘Œπ‘‘ , π‘Œπ‘— ∼
𝑋 = 𝑦 + π΄π‘Œ für πœ‡ = 𝔼(𝑋) und eine orthogonale Matrix 𝐴 gilt.
Prof. Becherer
Bodo Graumann
(0, πœ†2𝑗 ) sodass
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 35
Beweis (76) Sei 𝑄 = Cov(𝑋) symmetrisch, nichtnegativ semidefinit. Dann ist 𝑄 = 𝐴𝛬𝐴𝑇
mit einer orthogonalen Matrix 𝐴 und einer Diagonalmatrix 𝛬 = diag(πœ†21 , β‹― , πœ†2𝑑 ) sowie πœ†π‘— ≥ 0.
Setzen wir dann π‘Œ: = 𝐴𝑇 (𝑋 − πœ‡), so erfüllt π‘Œ die Forderungen.
Hat 𝑄 nicht vollen Rang, so reicht sogar 𝛬 = diag(πœ†21 , β‹― , πœ†2rk 𝑄 , 0, β‹― , 0).
Bemerkung Eine normalverteilte Zufallsvariable 𝑋 ∼ (πœ‡, 𝑄) hat genau dann eine Dichte
Μ„ , π‘Œ ∼ (0, 𝐼𝑑 ), 𝐴̄ = 𝐴 diag(πœ†1 , β‹― , πœ†π‘‘ ). Dann hat π‘Œ
wenn det 𝑄 ≠ 0. Dies gilt mit 𝑋 = 𝑦 + π΄π‘Œ
die Dichte
1
𝑒−
𝑑
|𝑦|2
2
(2πœ‹) 2
=: π‘“π‘Œ (𝑦)
Μ„ |π‘“π‘Œ (𝐴−1
Μ„ (π‘₯ − πœ‡)) =
⇒ 𝑓𝑋 (π‘₯) = |det 𝐴−1
1
exp(− ⟨π‘₯ − πœ‡, 𝑄−1 (π‘₯ − πœ‡)⟩)
2
(2πœ‹) √det 𝑄
1
𝑑
2
6 Konvergenz in Verteilung / schwache Konvergenz
77 Definition: „schwache Konvergenz“
Sei (𝐸, 𝑑) ein metrischer Raum mit der Borelschen σ-Algebra (𝐸).
1. Seien πœ‡, (πœ‡π‘› )𝑛∈β„• Wahrscheinlichkeitsmaße auf (𝐸, ). Dann konvergiert πœ‡π‘› schwach gegen
πœ‡ falls für alle stetigen, beschränkten Funktionen 𝑓: 𝐸 → 𝐸 gilt:
lim
𝑛→∞
𝐸
𝑓dπœ‡π‘› =
𝑓dπœ‡
𝐸
𝑀
Wir schreiben πœ‡π‘› → πœ‡ oder πœ‡π‘› −→ πœ‡.
2. Seien 𝑋, (𝑋𝑛 )𝑛∈β„• Zufallsvariablen auf (𝛺, , β„™) bzw. (𝛺𝑛 , 𝑛 , ℙ𝑛 ), dann sagt man 𝑋𝑛 konvergiert in Verteilung gegen 𝑋 falls ℙ𝑋𝑛 = ℙ𝑛 ∘ 𝑋𝑛−1 schwach gegen ℙ𝑋 konvergiert. Wir
schreiben 𝑋𝑛 −→ 𝑋.
78 Satz: schwache Konvergenz im Reellen
Seien 𝑋, (𝑋𝑛 )𝑛∈β„• reellwertige Zufallsvariablen mit Verteilungsfunktionn 𝐹𝑋 und 𝐹𝑋𝑛 . Dann
sind die folgenden Aussagen äquivalent:
1. 𝑋𝑛 −→ 𝑋
2. 𝐹𝑋𝑛 (𝑐) → 𝐹𝑋 (𝑐) an allen Stellen 𝑐 an denen 𝐹𝑋 stetig ist.
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 36
Beweis (78)
π‘Ž) ⇒ 𝑏) Sei 𝑐 eine Stetigkeitsstellen von 𝐹𝑋 . Wähle dann Folgen stetiger und beschränkter Funktionen (π‘”π‘š )π‘š∈β„• , (β„Žπ‘š )π‘š∈β„• sodass
𝟏(−∞,𝑐− 1 ] ≤ π‘”π‘š ≤ 𝟏(−∞,𝑐] ≤ β„Žπ‘š ≤ 𝟏(−∞,𝑐+ 1 ]
π‘š
π‘š
Dann gilt diese Ungleichung auch für die Erwartungswerte von 𝑋𝑛 und für die von π‘”π‘š und
β„Žπ‘š ist die Konvergenz wegen schwacher Konvergenz von 𝑋𝑛 bekannt:
𝐹𝑋 (𝑐 −
1
1
) ≤ 𝔼(π‘”π‘š (𝑋)) ≤ 𝐹𝑋𝑛 (𝑐) ≤ 𝔼(β„Žπ‘š (𝑋)) ≤ 𝐹𝑋 (𝑐 + )
π‘š
π‘š
Da 𝐹𝑋 bei 𝑐 stetig ist, gilt dann 𝐹𝑋𝑛 (𝑐) → 𝐹𝑋 (𝑐).
𝑏) ⇒ π‘Ž) Wir wählen 𝑓 ∈ 𝐢𝑏 (ℝ, ℝ) (stetig und beschränkt) und πœ€ > 0 beliebig. πΉπ‘Œ hat höchstens
abzählbar viele Sprungstellen. Also können wir eine Zerlegung der reellen Achse in −∞ <
𝑐1 < 𝑐2 < β‹― < π‘π‘š < ∞ so finden, dass πΉπ‘Œ bei den 𝑐𝑖 stetig ist, πΉπ‘Œ (𝑐1 ) < πœ€ und 𝐹(π‘π‘š ) >
1 − πœ€ sowie
sup
|𝑓(π‘₯) − 𝑓(𝑐𝑖 )| ≤ πœ€
π‘₯∈ 𝑐𝑖 ,𝑐𝑖+1
Dies ist möglich, da 𝑓 auf [𝑐1 , π‘π‘š ] gleichmäßig stetig ist. Dann können wir abschätzen:
π‘š
𝔼(𝑓(π‘Œπ‘› )) = 𝔼(𝑓(π‘Œπ‘› )𝟏
πœ”∈πœ” π‘Œπ‘› (πœ”)≤𝑐𝑖 ∨π‘Œπ‘› (πœ”)>π‘π‘š
)+
𝔼(𝑓(π‘Œπ‘› )𝟏
πœ”∈𝛺 π‘Œπ‘› (πœ”)∈(𝑐𝑖−1 ,𝑐𝑖 ]
)
𝑖=2
π‘š
≤ ‖𝑓 β€–∞ 2πœ€ +
(𝑓(𝑐𝑖 ) + πœ€)(πΉπ‘Œπ‘› (𝑐𝑖 )) − πΉπ‘Œπ‘› (𝑐𝑖−1 )
𝑖=2
⇒ lim 𝔼(𝑓(π‘Œπ‘› )) ≤ 2πœ€β€–π‘“ β€–∞ + 𝔼(𝑓(π‘Œ)) + 2πœ€ + ‖𝑓 β€–∞ 2πœ€ = 𝔼(𝑓(π‘Œ)) + 2πœ€(2‖𝑓 β€–∞ + 1)
𝑛→∞
≥𝔼(∑π‘š
𝑖=2 𝑓(𝑐𝑖 )𝟏
π‘Œ∈(𝑐𝑖−1 ,𝑐𝑖 ]
)
⇒ lim sup 𝔼(𝑓(π‘Œπ‘› )) ≤ 𝔼(𝑓(π‘Œ))
𝑛→∞
Analog mit −𝑓 statt 𝑓 liefert lim inf 𝑛→∞ 𝔼(𝑓(π‘Œπ‘› )) ≥ 𝔼(𝑓(π‘Œ)) und damit die Behauptung.
6.1 Beziehungen zu anderen Konvergenzarten
79 Satz: fast-sichere Konvergenz und Konvergenz in Verteilung
Seien π‘Œπ‘› , π‘Œ: 𝛺 → ℝ𝑑 Zufallsvariablen auf (𝛺, , β„™) und π‘Œπ‘› → π‘Œ β„™-fast-sicher. Dann gilt auch
π‘Œπ‘› −→ π‘Œ .
Beweis (79) Sei 𝑓 ∈ 𝐢𝑏 (ℝ𝑑 , ℝ). Dann gilt wegen der Stetigkeit 𝑓(π‘Œπ‘› ) → 𝑓(π‘Œ) β„™-fast-sicher
und |𝑓(π‘Œπ‘› )|‖𝑓 β€–∞ ∈ 𝐿1 (β„™). Mit dem Satz der majorisierten Konvergenz folgt dann lim𝑛→∞ 𝔼(𝑓(π‘Œπ‘› )) =
𝔼(𝑓(π‘Œ)).
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 37
80 Satz: Konvergenz von Unterteilfolgen
Sind π‘Œπ‘› , π‘Œ: 𝛺 → ℝ𝑑 Zufallsvariablen auf (𝛺, , β„™) so sind die folgenden Aussagen äquivalent:
β„™
1. π‘Œπ‘› −→ π‘Œ
2. Jede Teilfolge (π‘Œπ‘›π‘˜ )π‘˜∈β„• hat eine Unterteilfolge (π‘Œπ‘›π‘˜ )𝑙∈β„• so, dass lim𝑙→∞ π‘Œπ‘›π‘˜ = π‘Œ β„™-fast𝑙
𝑙
sicher.
Beweis (80)
β„™
𝑏) ⇒ π‘Ž) Wir nehmen an π‘Œπ‘› −→ π‘Œ gilt nicht. Dann gilt
∃πœ€ > 0, 𝛿 > 0, π‘›π‘˜ : 𝔼(|π‘Œπ‘›π‘˜ − π‘Œ | ≥ πœ€) ≥ 𝛿
β„™
π‘Œπ‘›π‘˜ konvergiert jedoch fast-sicher gegen π‘Œ und damit π‘Œπ‘›π‘˜ −→ π‘Œ
β†―
π‘Ž) ⇒ 𝑏) Sei (π‘Œπ‘›π‘˜ ) eine Teilfolge von π‘Œπ‘› so gilt für alle πœ€ > 0: limπ‘˜→∞ β„™(|π‘Œπ‘›π‘˜ − π‘Œ | ≥ πœ€) = 0 also
1
1
∃𝐾1 ∈ β„•: ∀π‘˜ ≥ 𝐾1 : β„™(|π‘Œπ‘›π‘˜ | ≥ ) ≤
2
2
1
1
∃𝐾2 ∈ β„•: ∀π‘˜ ≥ 𝐾2 : β„™(|π‘Œπ‘›π‘˜ | ≥ 2 ) ≤ 2
2
2
β‹―
Dann definieren wir für eine Unterteilfolge 𝑍𝑗 = π‘Œπ‘›π‘˜ die 𝐴𝑗 : = |𝑍𝑗+1 − 𝑍𝑗 | ≥
∼∞
𝑗=1
𝑗
1
β„™(𝐴𝑗 ) = ∑∞
𝑗=1 2𝑗 . Mit Satz 43 (Borel-Cantelli-Lemma) wissen
viele der 𝐴𝑗 eintreten, das heißt die Wahrscheinlichkeit dass 𝑍𝑗
ist
endlich
ist, ist 1 und somit gilt die Behauptung.
1
2𝑗
. Damit
wir nun, dass nur
eine Cauchyfolge
81 Satz: Majorisierte Konvergenz mit stochastischer Konvergenz
Seien π‘Œπ‘› , π‘Œ: 𝛺 → ℝ𝑑 Zufallsvariablen auf (𝛺, , β„™) mit π‘Œπ‘› → π‘Œ β„™-fast-sicher und es gelte
𝐿1
|π‘Œπ‘› | ≤ 𝑍 für ein 𝑍 ∈ 𝐿1 (β„™). Dann gilt π‘Œπ‘› −→ π‘Œ , das heißt β€–π‘Œπ‘› − π‘Œ ‖𝐿1 = 𝔼(|π‘Œπ‘› − π‘Œ |) → 0 und
π‘Œ ∈ 𝐿1 (β„™). Insbesondere also 𝔼(π‘Œπ‘› ) → 𝔼(π‘Œ).
𝐿1
Beweis (81) Angenommen π‘Œπ‘› −→ π‘Œ gilt nicht, das heißt ∃πœ€ > 0, π‘Œπ‘›π‘˜ : ∀π‘˜: 𝔼(|π‘Œπ‘›π‘˜ − π‘Œ |) ≥ πœ€.
Nach Satz 80 (Konvergenz von Unterteilfolgen) können wir annehmen dass π‘Œπ‘›π‘˜ → π‘Œ β„™-fast𝐿1
sicher, daher gilt nach dem klassischen Theorem der majorisierten Konvergenz dass π‘Œπ‘›π‘˜ −→ π‘Œ β†―.
82 Satz: Stochastische Konvergenz und Konvergenz in Verteilung
β„™
Seien π‘Œ, π‘Œπ‘› : 𝛺 → ℝ𝑑 Zufallsvariablen mit π‘Œπ‘› −→ π‘Œ so gilt π‘Œπ‘› −→ π‘Œ .
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 38
𝐿1
Beweis (82) Sei 𝑓 ∈ 𝐢𝑏 (ℝ𝑑 , ℝ), dann gilt 𝑓(π‘Œπ‘› ) −→ 𝑓(π‘Œ). Wegen Satz 80 (Konvergenz von
Unterteilfolgen) und Satz 81 (Majorisierte Konvergenz mit stochastischer Konvergenz) folgt dann
𝐿1
‖𝑓(π‘Œπ‘› )β€– ≤ ‖𝑓 β€–∞ ∈ 𝐿1 (β„™) ⇒ 𝑓(π‘Œπ‘› ) −→ 𝑓(π‘Œ)
also 𝔼(𝑓(π‘Œπ‘› )) → 𝔼(𝑓(π‘Œ)).
Bemerkung Die Umkehrung gilt nicht, betrachten wir beispielsweise das folgende Gegenbeispiel:
𝑋∼
(0, 1), π‘Œπ‘› : = (−1)𝑛 𝑋. Dann ist π‘Œπ‘› −→ 𝑃𝑋 aber π‘Œπ‘› konvergiert nicht stochastisch.
83 Lemma:
Sei (πœ‡π‘› )𝑛∈β„• eine Folge von Wahrscheinlichkeitsmaßen auf (ℝ, ) mit Verteilungsfunktionen
𝐹𝑛 (π‘₯) = πœ‡π‘› ((−∞, π‘₯]).Dann existiert eine Teilfolge πΊπ‘˜ = πΉπ‘›π‘˜ , π‘˜ ∈ β„• und eine rechtsstetige
monoton wachsende Funktion 𝐹: ℝ → [0, 1] mit πΊπ‘˜ (𝑐) → 𝐹(𝑐) für alle 𝑐 ∈ ℝ an denen 𝐹 stetig
ist.
Bemerkung: 𝐹 induziert über πœ‡((π‘Ž, 𝑏]) = 𝐹(𝑏) − 𝐹(π‘Ž) ein Maß auf , welches im Allgemeinen
jedoch kein Wahrscheinlichkeitsmaß zu sein braucht.
Beweis (83) Wir zeigen zuerst, dass es eine Teilfolge (π‘›π‘˜ )π‘˜∈β„• gibt, sodass ∀π‘ž: 𝐻(π‘ž): = limπ‘˜→∞ πΉπ‘›π‘˜
existiert.
Dazu wählen wir eine Nummerierung der rationalen Zahlen β„š = π‘žπ‘š π‘š ∈ β„• . Da für jedes
π‘ž: 𝐹𝑛 (π‘ž) ∈ [0, 1] ist, können wir nach Bolzano-Weierstraß konvergente Teilfolgen wählen sodass
𝐹𝑛1 (π‘ž1 ) konvergiert, 𝐹𝑛2 (π‘ž1 ), 𝐹𝑛2 (π‘ž2 ) konvergieren, also 𝐹𝑛𝑗 bei π‘ž1 , β‹― , π‘žπ‘— konvergiert. Wir wählen
π‘˜
π‘˜
π‘˜
π‘˜
dann die Diagonalfolge πΊπ‘˜ : = πΉπ‘›π‘˜ und wissen somit, dass πΊπ‘˜ auf ganz β„š konvergiert. Dann
π‘˜
definieren wir 𝐻(π‘ž): = limπ‘˜→∞ πΊπ‘˜ (π‘ž) für π‘ž ∈ β„š und 𝐻 ist wachsend auf 𝑄 sowie 𝐻(π‘ž) ∈ [0, 1].
Dann setzen wir 𝐻 auf ganz ℝ zu 𝐹 fort:
𝐹(𝑦): = inf 𝐻(π‘ž), 𝑦 ∈ ℝ, 𝐹: ℝ → [0, 1]
π‘ž≥𝑦
π‘ž∈β„š
Damit ist 𝐹 wachsend und rechtsstetig. Es bleibt zu zeigen, dass auch limπ‘˜→∞ πΊπ‘˜ (𝑐) = 𝐹(𝑐) für
alle Stetigkeitsstellen 𝑐 von 𝐹 .
Sei 𝑐 also eine beliebige Stetigkeitsstelle von 𝐹 und πœ€ > 0, dann existieren π‘Ÿ, 𝑠 ∈ β„š mit
π‘Ÿ < 𝑐 < 𝑠 und
𝐹(𝑐) − πœ€ ≤ 𝐹(π‘Ÿ) ≤ 𝐹(𝑐) ≤ 𝐹(𝑠) ≤ 𝐹(𝑐) + πœ€
𝑠∈β„š
⇒ lim sup πΊπ‘˜ (𝑐) ≤ lim sup πΊπ‘˜ (𝑠) = 𝐻(𝑠) ≤ 𝐹(𝑠) ≤ 𝐹(𝑐) + πœ€
π‘˜→∞
π‘˜→∞
lim inf πΊπ‘˜ (𝑐) ≥ lim inf πΊπ‘˜ (π‘Ÿ) = 𝐻(π‘Ÿ) = 𝐹(π‘Ÿ) ≥ 𝐹(𝑐) − πœ€
π‘˜→∞
π‘˜→∞
Da πœ€ > 0 beliebig gewählt war, gilt somit limπ‘˜→∞ πΊπ‘˜ (𝑐) = 𝐹(𝑐).
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 39
84 Definition: „gleichgradige Straffheit“
Eine Familie von Wahrscheinlichkeitsmaßen (πœ‡π‘– )𝑖∈𝐼 heiß gleichgradig straff falls
Μ„
∀πœ€ > 0: ∃𝑀 > 0: ∀𝑖 ∈ 𝐼: πœ‡π‘– (−𝑀, +𝑀]
<πœ€
Beispiel für eine nicht gleichgradig straffe Folge: πœ‡π‘› : =
der Grenzwert das Nullmaß.
Beispiel
([0, 𝑛]) (Gleichverteilung). Dann ist
für gleichgradig straffe Mengen Familien:
1. Ist 𝐼 endlich, so ist (πœ‡π‘– )𝑖∈𝐼 gleichgradig straff
2. Oft ist 𝐼 = β„•. Dan ist die Folge (πœ‡π‘› )𝑛∈β„• genau dann gleichgradig straff, wenn für jedes
𝑁 ∈ β„• die Folge (πœ‡π‘› )𝑛≥𝑁 gleichgradig straff ist.
3. Sind (πœ‡π‘– )𝑖∈𝐼1 und (πœ‡π‘– )𝑖∈𝐼2 gleichgradig straffe Familien, dann ist auch (πœ‡π‘– )𝑖∈𝐼1 ∪𝐼2 gleichgradig straff.
𝑀
4. Falls πœ‡π‘› −→ πœ‡ gilt, so ist (πœ‡π‘› )𝑛∈β„• gleichgradig straff.
85 Satz: Hellysches Selektionsprinzip
Sei (πœ‡π‘› )𝑛∈β„• eine gleichgradig stetige Folge von Wahrscheinlichkeitsmaßen auf
1
. Dann gibt
𝑀
es eine Teilfolge (πœ‡π‘›π‘˜ )π‘˜∈β„• und ein Wahrscheinlichkeitsmaß πœ‡ sodass πœ‡π‘›π‘˜ −−−→ πœ‡.
π‘˜→∞
Beweis (85) Seien
1. 𝐹𝑛 die Verteilungsfunktionen der πœ‡π‘› ,
2. πΊπ‘˜ und 𝐹 wie aus Lemma 83
3. πœˆπ‘˜ seien die durch πΊπ‘˜ über πœˆπ‘˜ ((π‘Ž, 𝑏]): = πΊπ‘˜ (𝑏) − πΊπ‘˜ (π‘Ž) definierten Maße
Dann müssen wir zeigen, dass 𝐹 die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes ist.
Μ„
Sei πœ€ > 0, dann existiert ein 𝑀 > 0 sodass für jedes 𝑛 gilt: πœ‡π‘› ((−𝑀, +𝑀))
< πœ€. Wähle nun
𝑦 > 1 so, dass 𝐹 stetig bei 𝑦 und −𝑦 ist. Dann gilt
Μ„
≤πœ€
(1 − 𝐹(𝑦)) + 𝐹(−𝑦) = lim (1 − πΊπ‘˜ (𝑦)) + πΊπ‘˜ (−𝑦) ≤ lim sup πœˆπ‘˜ ((−𝑀, +𝑀])
π‘˜→∞
π‘˜→∞
Μ„
πœˆπ‘˜ ((−𝑦,𝑦])
Als πœ‡ wählen wir also das zu 𝐹 gehörige Wahrscheinlichkeitsmaß.
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 40
86 Satz: Stetigkeitssatz von Paul Lévy
Seien πœ‡, πœ‡π‘› , 𝑛 ∈ β„• Wahrscheinlichkeitsmaße auf (ℝ𝑑 ,
πœ‘ = πœ‡,Μ‚ πœ‘π‘› = πœ‡π‘›Μ‚ . Dann gilt
𝑀
1. πœ‡π‘› −→ πœ‡
𝑑
) mit charakteristischen Funktionen
∀𝑒 ∈ ℝ𝑑 : πœ‘π‘› (𝑒) → πœ‘(𝑒)
⇒
2. Falls ∀𝑒 ∈ ℝ𝑑 : lim𝑛→∞ πœ‘π‘› (𝑒) = πœ“(𝑒) für eine Funktion πœ“: ℝ𝑑 → β„‚, die in 0 stetig ist,
dann ist πœ‘ die charakteristische Funktion eines Wahrscheinlichkeitsmaßes 𝜈 auf 𝑑 und
𝑀
πœ‡π‘› −→ 𝜈.
Bemerkung In der Tat kann man in π‘Ž) sogar die stärkere Aussage zeigen, dass πœ‘π‘› auf Kompakta
gleichmäßig gegen πœ‘ konvergiert.
Beweis (86)
1. Sei 𝑋 ∼ πœ‡, 𝑋𝑛 ∼ πœ‡π‘› , dann ist
πœ‘π‘› (𝑒) = 𝔼(exp(𝑖𝑒𝑋𝑛 )) = 𝔼(cos(𝑒𝑋𝑛 )) + 𝑖𝔼(sin(𝑒𝑋𝑛 ))
𝑛→∞
−−−→ 𝔼(cos(𝑒𝑋)) + 𝑖𝔼(sin(𝑒𝑋)) = 𝔼(exp(𝑖𝑒𝑋)) = πœ‘(𝑒)
Beispiel
1. Seien 𝑋𝑛 ∼
Dann gilt
(πœ‡π‘› , πœŽπ‘›2 ) Zufallsvariablen für beliebige πœ‡π‘› ∈ ℝ, πœŽπ‘› > 0 mit πœ‡π‘› → πœ‡ ∈ ℝ.
𝑛→∞
1
1
πœ‘π‘› (𝑒) = exp(π‘–π‘’πœ‡π‘› − 𝑒2 πœŽπ‘›2 ) −−−→ exp(π‘–π‘’πœ‡ − 𝜎 2 𝑒2 )
2
2
⇒ 𝑋𝑛 −→
2. Seien 𝑋𝑛 ∼
(πœ‡, 𝜎 2 )
(πœ‡π‘› , πœŽπ‘›2 ) und 𝑋𝑛 −→ 𝑋, dann wisen wir:
∀𝑒 ∈ ℝ: lim πœ‘π‘‹π‘› (𝑒) = πœ‘π‘‹
𝑛→∞
⇒ πœ‡ = lim πœ‡π‘› ∧ 𝜎 = lim πœŽπ‘› ∧ 𝑋 ∼
𝑛→∞
𝑛→∞
(πœ‡, 𝜎 2 )
3. Zusammen bedeutet das: 𝑋𝑛 −→ 𝑋 genau dann wenn πœ‡ = lim→∞ πœ‡π‘› , 𝜎 = lim𝑛→∞ πœŽπ‘› existieren und 𝑋 ∼ (πœ‡, 𝜎 2 ). Die Normalverteilungsfamilie ist also abgeschlossen bezüglich
Verteilungskonvergenz.
Übung
Zeigen Sie analoge Aussagen für Poisson- oder Exponentialverteilte Zufallsvariablen.
Prof. Becherer
Bodo Graumann
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 41
Beispiel für die Anwendung von Satz 86 (Stetigkeitssatz von Paul Lévy):
Betrachte die Zufallsvariablen 𝑋𝑛 ∼ Poisson(πœ†π‘› ), πœ†π‘› : = 𝑛, 𝑍𝑛 : = 𝑋𝑛 −𝔼(𝑋𝑛 ) =
√𝑉(𝑋𝑛 )
𝑍𝑛 −→
𝑋𝑛 −𝑛
.
√𝑛
Dann gilt
(0, 1)
denn:
πœ‘π‘π‘› (𝑒) = 𝔼 exp(𝑖𝑒
𝑋𝑛 − 𝑛
√𝑛
= 𝑒−𝑖𝑒√𝑛 πœ‘π‘‹π‘› (
)
Taylor
= exp −𝑖𝑒√𝑛 + 𝑖𝑒√𝑛 + 𝑛 −
𝑒
√𝑛
)=πœ‘
(0,1) (𝑒)
𝑒2
𝑒4
𝑒3
+
+β‹―
−𝑖
2𝑛
3! 𝑛1.5 4! 𝑛2
= 𝑒−𝑖𝑒√𝑛 exp(𝑛(𝑒𝑖𝑒/√𝑛 − 1))
= exp −
𝑒2
1
+ 𝑛o
2
𝑛
𝑒2
→ 𝑒− 2
weil
∞
∞
∞
|𝑒|π‘˜
(𝑖𝑒)π‘˜ π‘˜
1
2| ≤
|𝑛
|
≤
|
𝑛
→0
π‘˜
√𝑛 π‘˜=3 π‘˜!
√𝑛 π‘˜=3 π‘˜!
π‘˜=3 π‘˜! 𝑛 2
(𝑖𝑒)π‘˜
1
<∞
Motivation zum Zentralen Grenzwertsatz Man kann die 𝑋𝑛 ∼ Poisson(𝑛) aus obigem Beispiel auch als 𝑋𝑛 = ∑𝑛𝑖=1 π‘Œπ‘– mit unabhängigen π‘Œπ‘– ∼ Poisson(1) erzeugen.
Oder betrachtet man zum Beispiel eine Folge iid Zufallsvariablen π‘Œπ‘— mit β„™(π‘Œπ‘— = 1) = 1−β„™(π‘Œπ‘— =
−1) = 21 . Dann hat 𝑍𝑛 : =
πœ‘π‘› (𝑒) =
πœ‘π‘Œ1
∑𝑛𝑗=1 π‘Œπ‘— −0
𝑒
√𝑛
die charakteristische Funktion
𝑛
=
√𝑛
𝑒
1 𝑖 √𝑛(+1)
1 𝑖 𝑒 (−1)
= cos𝑛
𝑒
+ 𝑒 √𝑛
2
2
− sin
l’Hôpital
======⇒ lim πœ‘π‘› (𝑒) = lim exp(
𝑛→∞
für 𝑍 ∼
(0, 1).
𝑛→∞
𝑒
√𝑛
− 𝑛12 cos
( 2𝑛−𝑒1.5 )
𝑒
√𝑛
) = exp(−
𝑒
√𝑛
= exp(𝑛 ln(cos
𝑒
√𝑛
𝑒2
) = πœ‘π‘ (𝑒)
2
(0, 1). Und somit gilt wieder nach Satz 86 (Stetigkeitssatz von Paul Lévy): 𝑍𝑛 −→
Bemerkung Der Zentrale Grenzwertsatz zeigt nun, dass eine entsprechende Aussage wie in
den vorigen Beispielen allgemeiner für beliebige zugrundeliegende Verteilungen der unabhängigen Summanden π‘Œπ‘— gilt. Etwas genauer gilt, dass Summen „vieler“ unabhängiger gleichgroßer
Zufallsgrößen approximativ Gauß-verteilt sind und nach Standardisierung standard-Gauß-verteilt.
Prof. Becherer
Bodo Graumann
))
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 42
87 Satz: Zentraler Grenzwertsatz
Seien (𝑋𝑛 )𝑛∈β„• iid und reellwertig mit πœ‡: = 𝔼(𝑋𝑛 ) sowie 𝜎 2 : = Var(𝑋𝑛 ) ∈ (0, ∞).
𝑛
𝑆𝑛 : =
𝑆𝑛∗ : =
𝑋𝑗
𝑗=1
Dann gilt: 𝑆𝑛∗ −→
𝑆𝑛 − π‘›πœ‡
√π‘›πœŽ 2
(0, 1).
88 Lemma: Hilfsaussage
Sei (𝐢𝑛 )𝑛∈β„• , 𝑐𝑛 ∈ β„‚ mit 𝑐: = lim𝑛→∞ 𝑐𝑛 ∈ (0, ∞) ⊆ ℝ, dann gilt
lim 1 −
𝑛→∞
𝑐𝑛
𝑛
𝑛
= 𝑒−𝑐
Beweis (Satz 87 (Zentraler Grenzwertsatz)) 𝑋𝑛 hat endliche erste und zweite Momente, also
ist die charakteristische Funktion πœ‘: = πœ‘π‘‹π‘› −πœ‡ zweimal stetig differenzierbar. Dann ergibt die
Taylorentwicklung:
πœ‘(𝑒) = πœ‘(0) + πœ‘ (0) 𝑒 + πœ‘ (0)
=0
⇒ πœ‘π‘†π‘›∗ (𝑒) =
πœ‘π‘‹1 −πœ‡
𝑒2
+
2
𝑒→0 (𝑒
𝑛
𝑒
)
𝑒2
πœ‘(0) + πœ‘ (0) 2 𝑛 +
2𝜎
=
𝜎 √𝑛
3
𝑒→0 ((
𝑒
𝜎 √𝑛
𝑛
3
) )
3
1 𝑒2 − ( 𝑒 )
βŽ›
⎞ πΏπ‘’π‘šπ‘šπ‘Ž 88 (π»π‘–π‘™π‘“π‘ π‘Žπ‘’π‘ π‘ π‘Žπ‘”π‘’)
2
2
𝜎 3 √𝑛
⎟ −−−−−−−−−−−−−−→ 𝑒− 𝑒2
= ⎜1 −
𝑛
⎜
⎟
⎝
⎠
Beweis (Lemma 88 (Hilfsaussage))
• Wir zeigen zuerst induktiv, dass 𝑧1 , β‹― , 𝑧𝑛 , 𝑀1 , β‹― , 𝑀𝑛 ∈ β„‚ mit |𝑧𝑗 | ≤ 1, |𝑀𝑗 | ≤ 1 gilt
𝑛
|
𝑛
𝑧𝑗 −
𝑗=1
𝑛
𝑀𝑗 | ≤
𝑗=1
|𝑧𝑗 − 𝑀𝑗 |
𝑗=1
Der Induktionsanfang für 𝑛 = 1 ist offensichtlich erfüllt. Der Induktionsschritt ergibt sich
als:
𝑛+1
|
𝑛+1
𝑧𝑗 −
𝑗=1
𝑛+1
𝑀𝑗 | ≤ |
𝑗=1
𝑗=1
𝑛
= |𝑧𝑛+1 | |
≤1
𝑗=1
𝑛+1
𝑀𝑗 −
𝑗=1
𝑛
𝑀𝑗 |
𝑗=1
𝑛
𝑀𝑗 | + |
≤∑𝑛𝑗=1 |𝑧𝑗 −𝑀𝑗 |
Prof. Becherer
𝑛
𝑀𝑗 | + |𝑧𝑛+1
𝑗=1
𝑛
𝑧𝑗 −
𝑗=1
𝑛
𝑧𝑗 − 𝑧𝑛+1
𝑀𝑗 ||𝑧𝑛+1 − 𝑀𝑛+1 | ≤
𝑗=1
≤1
Bodo Graumann
|𝑧𝑗 − 𝑀𝑗 | + |𝑧𝑛+1 − 𝑀𝑛+1 |
𝑗=1
Stochastik I
6 Konvergenz in Verteilung / schwache Konvergenz
Seite 43
• Weiter gilt für 𝑏 ∈ β„‚ mit |𝑏| ≤ 1:
∞
|𝑒−𝑏 − (1 − 𝑏)| = |
∞
∞
(−𝑏)π‘˜
(−𝑏)π‘˜
1
|≤
|
| ≤ |𝑏|2
≤ |𝑏|2
π‘˜
π‘˜!
π‘˜!
2
π‘˜=2
π‘˜=2
π‘˜=1
• Sei nun (𝑐𝑛 )𝑛∈β„• wie vorausgesetzt, dann gilt für hinreichend große 𝑛 sodass |1 −
𝑐
|(1 − 𝑛 )𝑛 − 𝑒−𝑐𝑛 | ≤
𝑛
𝑛
|1 −
𝑗=1
𝑐𝑛
𝑛|
≤ 1:
𝑐𝑛
𝑐𝑛
𝑐
𝑐𝑛
− 𝑒− 𝑛 | = 𝑛|1 − 𝑛 − 𝑒− 𝑛 |
𝑛
𝑛
𝑐𝑛2
𝑛→∞
𝑐𝑛 2
| = | | −−−→ 0
𝑛
𝑛
𝑐𝑛 𝑛
) = 𝑒−𝑐
⇒ lim (1 −
𝑛→∞
𝑛
≤ 𝑛|
Bemerkung Seien 𝑋𝑛 iid und reellwertig. Aus dem starken Gesetz der Großen Zahlen wissen
wir
1
𝑆𝑛 : =
𝑛
𝑛
𝑛→∞
𝑋𝑗 −−−→ πœ‡: = 𝔼(𝑋1 ) β„™-fast-sicher
𝑗=1
Frage Wie schnell konvergiert dies?
Vorüberlegung Für die Konvergenz einer Folge (π‘Œπ‘› )𝑛∈β„• in ℝ sagt man dass (π‘Œπ‘› ) mit einer Rate
𝛼 > 0 gegen 0 konvergiert, falls lim sup𝑛→∞ 𝑛𝛼 |π‘Œπ‘› | =: 𝑐 < ∞ ist. Ein solches 𝛼, sodass 𝑛𝛼 |𝑆𝑛 −πœ‡|
β„™-fast-sicher gegen ein 𝑐 ∈ ℝ konvergiert gibt es nicht! Allerdings zeigt Satz 87 (Zentraler
Grenzwertsatz), dass Konvergenz in Verteilung gegen eine endliche Zufallsvariable vorliegt:
√𝑛(𝑆𝑛 − πœ‡) −→
(0, 𝜎 2 )
In diesem Sinne kann man sagen die Konvergenzordnung ist √𝑛.
Bemerkung Es gibt Verallgemeinerungen von Satz 87 (Zentraler Grenzwertsatz).
• Die Annahme der identischen Verteilung kann abgeschwächt werden. Dies ist gerade für
Anwendungen wichtig.
• Sehr scharfe Bedingungen für Satz 87 (Zentraler Grenzwertsatz) sind beispielsweise die
Lindenberg-Bedingungen. (Kle08)
• Es gibt auch eine mehrdimensionale Version. (Kle08)
• Beispiel für die Anwendung von Satz 87 (Zentraler Grenzwertsatz): Bestimmung von „Vertrauensbereichen“ (Konfidenzbereichen) für unbekannte Verteilungsparameter die aus Daten geschätzt werden.
Prof. Becherer
Bodo Graumann
Herunterladen