Wahrscheinlichkeitstheorie - Skripte/Vorlesungsmitschriebe von

Werbung
Wahrscheinlichkeitstheorie
Skript vom WS 10/11
Ingo Bürk
27. Mai 2011
Inhaltsverzeichnis
Inhaltsverzeichnis
1
Vorwort
3
Literatur
4
I.
Maÿ- und Integrationstheorie
5
I.1.
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
I.2.
σ -Algebren,
7
I.3.
Elementare Beispiele von Wahrscheinlichkeitsräumen I
I.4.
σ -Stetigkeit
I.5.
Fortsetzung von Maÿen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
I.6.
Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
I.7.
Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . .
26
I.8.
Elementare Beispiele von Wahrscheinlichkeitsräumen II . . . . . . . . . .
29
I.9.
Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
I.10. Bildmaÿe und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . .
39
Inhalte und Maÿe . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . .
12
von Maÿen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
I.11. Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
I.12. Dichten und der Satz von Radon-Nikodym . . . . . . . . . . . . . . . . .
55
II. Wahrscheinlichkeitstheorie
59
II.1. Momente von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . .
59
II.2. Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
II.3. Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
II.4. Charakteristische Funktionen
76
II.5. Faltung
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.6. Null-Eins-Gesetz
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
83
87
Inhaltsverzeichnis
II.7. Konvergenzarten
Seite 2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
II.8. Gesetze der groÿen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . .
97
II.9. Konvergenz in Verteilung revisited . . . . . . . . . . . . . . . . . . . . . . 108
II.10.Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . 118
III. Eine kurze Einführung in die Statistik
III.1. Deskriptive Statistik
III.2. Statistische Tests
124
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Stichwortverzeichnis
140
Sätzeverzeichnis
144
-
2
/
145
-
Ingo Bürk
Seite 3
Vorwort
Dieses Skript entstand im Rahmen der Wahrscheinlichkeitstheorie - Vorlesung bei Hr.
Prof. Dr. Ingo Steinwart als Vorlesungsmitschrieb.
Es kann nicht garantiert werden, dass dieses Dokument fehlerfrei ist und der Autor
übernimmt für möglicherweise entstandene Schäden jeglicher Art keine Haftung. Dieser Mitschrieb ist kein ozielles Dokument der Universität Stuttgart, Mitarbeiter eben
dieser tragen daher ebenfalls keine Verantwortung.
Bei Fragen oder dem Aunden von Fehlern können Sie mir gerne eine Nachricht zukommen lassen. Schreiben Sie mir dafür einfach eine eMail an die folgende Adresse:
[email protected]
Creative Commons Attribution-NonCommercial-ShareAlike 3.0
Germany -Lizenzvertrag lizenziert. Um die Lizenz anzusehen, gehen Sie bitte zu
Dieses Werk ist unter einem http://creativecommons.org/licenses/by-nc-sa/3.0/de/
oder schicken Sie einen Brief an
Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA.
Ein besonderer Dank geht an die folgenden Personen:
•
Heike Teichmann
für sorgfältiges Korrekturlesen und dem Anmerken unzähliger Tipp-, Rechtschreib- und
inhaltlicher Fehler,
•
Jim Magiera
ATEX-Codefragmente, die das Aussehen dieses Dokuments maÿgeblich befür diverse L
stimmen,
•
Nico Stein
für das Anmerken diverser Fehler.
Mit freundlichen Grüÿen,
Ingo Bürk.
-
3
/
145
-
Ingo Bürk
Seite 4
Literatur
Für die Vorlesung wird die folgende Literatur empfohlen:
•
•
Georgii H.-O.: Stochastik: Einführung in die Wahrscheinlichkeitstheorie und Statistik,
4. Auage, Gruyter 2009.
Henze N.: Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des
Zufalls,
7. Auage, Vieweg+Teubner 2008.
Vieweg 2003.
• Jacod J.: Protter P., Probability Essentials, Springer 2000.
• Kallenberg O.: Foundations of Modern Probability, 2nd edition, Springer 2002.
• Krengel U.: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg 2000.
• Shiryayev A. N.: Probability, Springer 1996.
• Wengenroth J.: Wahrscheinlichkeitstheorie, De Gruyter 2008.
•
Hesse C.: Angewandte Wahrscheinlichkeitstheorie,
Es wird darauf hingewiesen, dass im Zuge dieses Skriptes einige Beweise nicht geführt
werden. Diese lassen sich in den oben genannten Werken nachlesen und es wird in der
Regel darauf verwiesen, wo genau sich der Beweis nden lässt.
Die Bücher von A. Klenke sowie von D. Meintrup und S. Schäer sind der Vorlesung
am nächsten und daher am ehesten vorlesungsbegleitend zu empfehlen.
-
4
/
145
-
Ingo Bürk
Kapitel I.1
Motivation
Seite 5
I. Maÿ- und Integrationstheorie
I.1. Motivation
Würfelexperiment (intuitiv):
•
Ereignisraum
•
Jedes Einzelereignis hat die Wahrscheinlichkeit
i)
ii)
= {1, 2, 3, 4, 5, 6}
1
6
Wkeit(Ereignis) ∈ [0, 1]
Wkeit({1, . . . , 6}) = 1
iii) Die Wahrscheinlichkeiten zusammengesetzter Ereignisse addieren sich,
d.h. für A1 , . . . , An ⊂ {1, . . . , 6} paarweise disjunkt
P
=⇒ Wkeit(A1 ∪ · · · ∪ An ) = ni=1 Wkeit(Ai )
folgt
Regen (intuitiv): Gegeben sei ein Quadrat
Q, in welches es hineinregnet. In diesem
Quadrat sei eine Teilmenge A ⊂ Q gegeben. Für A wollen wir nun die Wahrscheinlichkeit
bestimmen, dass der nächste (als punktförmig angenommene) Regentropfen in A landet.
Betrachtet werden natürlich nur die Tropfen, die in Q landen.
i)
ii)
Wkeit(A) ∈ [0, 1]
Wkeit(Q) = 1
A1 ,S
A2 , . . . ⊂ QPpaarweise disjunkt sollte gelten:
∞
Wkeit ( ∞
i=1 Wkeit(Ai ). Dass solch eine Forderung zumindest für endi=1 Ai ) =
lich viele Mengen A1 , . . . , An sinnvoll ist, ist intuitiv klar. Man sollte beachten,
iii) Für
dass wir es aber nur für abzählbar unendlich viele Mengen fordern, für überabzählbar unendlich viele Mengen gerät man i.A. in Schwierigkeiten. Betrachte z.B.
Q = [0, 1]2 und At := {t}.
iv) Wir können die Wahrscheinlichkeit intuitiv wie folgt berechnen:
Flaeche(A)
Wkeit(A) = Flaeche(Q)
Klar ist, dass die Wahrscheinlichkeit nicht von der Position der Fläche abhängen kann
und darf. Um die Idee, dass eine Verschiebung oder Rotation der Fläche nichts ändert,
zu formalisieren, benötigen wir den Begri der kongruenten Menge:
Definition I.1.1
Seien
i)
n
A, B ⊂ R
3∃
für
Kongruente Mengen
n ≥ 1.
Dann heiÿen
A
und
B
kongruent
:⇔
U ∈ Rn×n und ∃v ∈ Rn ,
B = {U x + v | x ∈ A} = U A + v .
orthogonale Matrix
so dass
-
5
/
145
-
Ingo Bürk
Kapitel I.1
Motivation
Seite 6
Anschaulich sind zwei Mengen kongruent, wenn sie sich durch Verschieben und Rotieren
ineinander überführen lassen.
Das Inhalts- und Maÿproblem:
Frage (Inhaltsproblem) : Gibt es eine Inhaltsfunktion auf der Potenzmenge vom
I : P(Rn ) → [0, ∞],
mit den folgenden Eigenschaften:
i) Bewegungsinvarianz:
ii) Normiertheit:
iii) Additivität:
Rn , also
I(A) = I(B)
falls
A, B ⊂ Rn
kongruent.
I([0, 1]n ) = 1.
I(A ∪ B) = I(A) + I(B),
falls
A
Frage (Maÿproblem) : Gibt es eine Maÿfunktion
und
B
disjunkt sind.
µ : P(Rn ) → [0, ∞]
mit den ersten
beiden Eigenschaften einer Inhaltsfunktion, sowie zusätzlich der verschärften Eigenschaft
iii)
S
P∞
σ -Additivität: µ ( ∞
i=1 Ai ) =
i=1 µ(Ai ),
falls
A1 , A2 , . . . ⊂ Rn
paarweise disjunkt
sind.
Antwort auf das Inhaltsproblem:
Die Antwort auf die Frage nach dem Inhaltsproblem
n = 1 und n = 2 mit einem Ja zu beantworten, es gibt sogar mehrere
solcher Funktionen. Für n ≥ 3 gibt es dagegen keine solche Funktion mehr. Der Beweis
wird hier nicht geführt. Mit dem Maÿproblem gerät man allerdings bereits für n = 1 in
ist wenigstens für
Schwierigkeiten:
Satz I.1.2
Für alle
n≥1
gibt es keine Maÿfunktion.
Antwort auf das Maÿproblem:
Beweis
n > 1 analog)
Betrachte die Äquivalenzrelation x ∼ y :⇔ x − y ∈ Q auf R. Ferner sei R /Q die Menge
: (Beweis für
n = 1,
für
der zugehörigen Äquivalenzklassen. Wähle für jede Äquivalenzklasse einen Repräsentan-
r ∈ [0, 1] und schreibe [r]∼ für die Äquivalenzklasse von r, d.h. [r]∼ = {y | r−y ∈ Q}.
R für die Menge der ReS
präsentanten. Es gilt
r∈R [r]∼ = R. Ferner ist [r]∼ = r + Q.
ten
Dies ist unter Annahme des Auswahlaxioms möglich. Schreibe
⇒ R=
[
r∈R
(r + Q) =
[[
(r + q) =
r∈R q∈Q
[
(q + R)
q∈Q
q + R disjunkt sind. Falls ein q1 6= q2 ∈ Q mit
(q1 + R) ∩ (q2 + R) 6= ∅ existiert, so folgt, dass r1 , r2 ∈ R mit [r1 ]∼ 3 q1 + r1 = q2 + r2 ∈
[r2 ]∼ ⇒ [r1 ]∼ ∩ [r2 ]∼ 6= ∅ existieren. Daraus folgt [r1 ]∼ = [r2 ]∼ , also r1 = r2 , da wir
Wir wollen nun zeigen, dass diese Mengen
-
6
/
145
-
Ingo Bürk
σ -Algebren,
Kapitel I.2
Inhalte und Maÿe
Seite 7
für jede Äquivalenzklasse einen eindeutigen Repräsentanten gewählt haben. Ebenso ist
aber
0 6= q1 − q2 = r2 − r1
und damit
r1 6= r2 .
Damit ist die Disjunktheit bewiesen.
1. Fall: Angenommen, es ist
⇒ µ(R) = µ
µ(R) = 0.
!
[
X
X
(q + R) =
µ(q + R) =
µ(R) = 0
q∈Q
q∈Q
q∈Q
A ⊂ B auch B = B \ A ∪˙ A eine disjunkte Vereinigung und daher
µ(B) = µ(B \ A) + µ(A) und damit µ(A) ≤ µ(B). Ist nun B = R und A = [0, 1], so folgt
1 ≤ µ([0, 1]) ≤ µ(R) = 0, d.h. wir haben einen Widerspruch gefunden.
Allerdings ist für
2. Fall: Angenommmen, es ist
µ(R) > 0.
Dann ist
µ(q + R) > 0
und damit folgt mit
der Normiertheit und Bewegungsinvarianz
⊂[0,2]
X
⇒ ∞=
}|
{
z
µ(q + R) = µ Q ∩ [0, 1] + R
q∈Q∩[0,1]
≤ µ([0, 2]) = µ([0, 1]) + µ((1, 2))
≤ µ([0, 1]) + µ([1, 2])
≤2
Da beide Annahmen zum Widerspruch führen kann keine solches Maÿ existieren und
der Satz ist bewiesen.
I.2.
σ -Algebren,
Inhalte und Maÿe
Motivation: Da Maÿfunktionen im Allgemeinen nicht auf der ganzen Potenzmenge deniert werden können wollen wir nun Maÿfunktionen auf gewissen Teilmengen
A
der
Potenzmenge denieren. Diese brauchen aber eine gewisse Struktur, weswegen wir zunächst die Eigenschaften von
Definition I.2.1
A
untersuchen werden.
(σ -)Algebra
Ω 6= ∅ beliebig und P(Ω) ihre
P(Ω) Algebra genau dann, wenn
Sei
i)
A⊂
∅∈A
ii)
Ω\A∈A
iii)
A∪B ∈A
Ferner heiÿt
iii')
Potenzmenge. Dann heiÿt eine Teilmenge
S∞
i=1
für alle
für alle
A∈A
A, B ∈ A
A σ -Algebra,
Ai ∈ A
für alle
wenn statt der dritten Bedingung die folgende gilt:
A1 , A2 , . . . ∈ A.
-
7
/
145
-
Ingo Bürk
σ -Algebren,
Kapitel I.2
Definition I.2.2
Inhalte und Maÿe
Seite 8
Messbare Mengen, Messraum
A eine σ -Algebra, so heiÿen die in ihr enthaltenen Mengen
eine σ -Algebra ist, so heiÿt das Tupel (Ω, A) Messraum.
Ist
messbar. Falls
A
Bemerkung: Die folgenden Aussagen ergeben sich direkt aus der Denition:
• A σ -Algebra ⇒ A
• A
Algebra.
⇒ Ω ∈ A,
Algebra
•
Die kleinste
•
Die gröÿte
σ -Algebra
σ -Algebra
denn
ist
ist
Ω = Ω \ ∅.
A = {∅, Ω}.
A = P(Ω).
Lemma I.2.3
Sei
i)
A eine Algebra. Dann gilt
Tm
Sm
i=1 Ai ∈ A
i=1 Ai ∈ A und
A\B ∈A
ii)
Falls
A
sogar
für alle
für alle
A1 , . . . , Am ∈ A.
A, B ∈ A.
σ -Algebra ist, so gilt die erste Eigenschaft
A1 , A2 , . . . von Mengen aus A.
auch für eine abzählbar
unendliche Folge
Beweis
S
m
i=1
aus
: Die erste und letzte Eigenschaft folgen mittels vollständiger Induktion sofort
Sm−1
i=1 Ai ∪ Am . Für die zweite Eigenschaft betrachte A\B = A∩(Ω\B) ∈
Ai =
A.
Definition I.2.4
Inhalt, Maÿ
Ω 6= ∅, C ⊂ P(Ω) mit ∅ ∈ C .
Eine Funktion µ : C → [0, ∞] heiÿt
Sei
i) Nulltreue:
Inhalt, falls gilt:
µ(∅) = 0
ii) Additivität: Für alle paarweise disjunkten
µ
m
[
!
Ai
i=1
µ
heiÿt Maÿ auf
=
m
X
A1 , . . . , A m ∈ C
mit
Sm
i=1
Ai ∈ C
gilt
µ(Ai )
i=1
C,
falls gilt:
-
8
/
145
-
Ingo Bürk
σ -Algebren,
Kapitel I.2
σ -Additivität:
µ
Seite 9
µ(∅) = 0
i) Nulltreue:
ii)
Inhalte und Maÿe
∞
[
Für alle paarweise disjunkten
!
Ai
=
i=1
∞
X
A1 , A2 , . . . ∈ C
mit
S∞
i=1
Ai ∈ C
gilt
µ(Ai )
i=1
Anmerkung: Die hier denierten Begrie Inhalt und Maÿ erfüllen andere Anforderungen als diejenigen, die wir beim Maÿproblem gefordert hatten. Für das Maÿproblem
ging es um ein spezielleres Maÿ, der nun denierte Maÿbegri ist etwas allgemeiner, da
er i.A. keine Normiertheit fordert (vgl. I.1.2).
Begrisdenitionen:
•
•
Ist
µ
ein Maÿ auf einer
Ist
µ
ein Maÿ mit
σ -Algebra A,
so heiÿt
(Ω, A, µ)
Maÿraum.
µ(Ω) < ∞,
so heiÿt
µ
endliches Maÿ und
(Ω, A, µ)
endlicher
µ(Ω) = 1,
so heiÿt
µ
Wahrscheinlichkeitsmaÿ und
(Ω, A, µ)
Maÿraum.
•
Ist
µ
ein Maÿ mit
Wahrscheinlichkeitsraum (WR).
Lemma I.2.5
Sei
(Ω, A, µ)
ein Maÿraum. Dann gilt:
i) Monotonie:
µ(A) ≤ µ(B)
ii) Subadditivität: Für alle
µ
n
[
!
≤
Ai
i=1
iii) Komplemente:
n
X
für alle
A, B ∈ A
A1 , . . . , A n ∈ A
mit
A⊂B
gilt
µ(Ai )
i=1
µ(B \ A) = µ(B) − µ(A ∩ B)
für alle
A, B ∈ A
Für die letzte Eigenschaft muss allerdings vorausgesetzt werden, dass ein endlicher
Maÿraum vorliegt.
Beweis
i)
:
B = (B \ A) ∪ (B ∩ A) mit B ∩ A = A ist disjunkte
µ(B) = µ(B \ A) + µ(A) ≥ µ(A), da µ(B \ A) ≥ 0.
-
9
/
145
-
Vereinigung, d.h. es folgt
Ingo Bürk
σ -Algebren,
Kapitel I.2
ii) Für
n=2
ist
A1 ∪ A2 = A1 ∪ (A2 \ A1 )
i)
Inhalte und Maÿe
Seite 10
disjunkte Vereinigung, es folgt also
µ(A1 ∪ A2 ) = µ(A1 ) + µ(A2 \ A1 ) ≤ µ(A1 ) + µ(A2 ).
Der Rest geschieht mit
vollständiger Induktion.
iii)
B = (B \ A) ∪ (B ∩ A),
dann ist
µ(B) = µ(B \ A) + µ(B ∩ A).
Damit ist das Lemma bewiesen.
Lemma I.2.6
J 6= ∅ eine beliebige Indexmenge
i ∈ J . Dann folgt
\
⇒ A :=
Ai ist σ -Algebra.
Sei
und
Ai ⊂ P(Ω)
seien
σ -Algebren
für alle
i∈J
Beweis
i) Sei
:
Ai σ -Algebra.
A ∈ A.
Ω \ A ∈ A.
ii) Sei
Für alle
Daraus folgt
i∈J
gilt
∅ ∈ Ai
A ∈ Ai ∀i∈J .
(An )n∈N eine Folge von
und alle i ∈ J . Damit folgt
iii) Sei
und damit
∅ ∈ A.
Damit folgt dann
Mengen An ∈
S∞
dann
n=1 An
Ω \ A ∈ Ai
und damit
A. Daraus folgt An ∈ S
Ai für alle n ≥ 1
∈ Ai ∀i∈J und damit ∞
n=1 An ∈ A.
Damit ist das Lemma bewiesen.
Korollar I.2.7
Ist
C ⊂ P(Ω),
so folgt, dass
σ(C) :=
\
A
A⊃C
A σ -Algebra
C ⊂ A auch σ(C) ⊂ A.
σ(C) ist die kleinste σ -Algebra, die C enthält. Wir sagen: σ(C) wird von C erzeugt..
Falls A eine σ -Algebra ist und C ⊂ A mit σ(C) = A, so heiÿt C Erzeugendensystem.
eine
σ -Algebra
ist. Auÿerdem ist für jede
-
10
/
σ -Algebra A
145
-
mit
Ingo Bürk
σ -Algebren,
Kapitel I.2
Inhalte und Maÿe
Seite 11
Lemma I.2.8
Es gilt
i)
ii)
σ(σ(C)) = σ(C)
σ(A) = A
iii) Für
iv) Ist
Beweis
i)
genau dann, wenn
C⊂D
A
eine
gilt
A
eine
σ -Algebra
ist
σ(C) ⊂ σ(D)
σ -Algebra
C⊂A
und
A ⊂ σ(C),
mit
so folgt
A = σ(C)
:
σ(C)
ii)
σ -Algebra ⇒ σ(σ(C)) = σ(C).
ist
ii) Die Richtung ⇒ ist trivial. Für ⇐ ist klar, dass
σ(A) ⊃ A
gilt. Die andere
Inklusion folgt aus der Monotonie.
iii) Trivial.
iv)
iii)
ii)
C ⊂ A ⇒ σ(C) ⊂ σ(A) = A.
Damit ist das Lemma bewiesen.
Ziel: Wir wollen
σ -Algebren
auf metrischen Räumen denieren.
Im Folgenden sei
• (Ω, d)
ein metrischer Raum,
• Bd (ω, ε) := {ω 0 ∈ Ω : d(ω, ω 0 ) < ε},
• O⊂Ω
heiÿt oen
• τd := {O ⊂ Ω : O
Definition I.2.9
Sei
(Ω, d)
⇔ ∀ω ∈ O ∃ε > 0 : Bd (ω, ε) ⊂ O,
oen}.
Borelsche
σ -Algebra
σ(τd )
ein metrischer Raum, dann heiÿt
die Borel-σ -Algebra auf
(Ω, d).
Bemerkung:
• {ω} ∈ σ(τd ),
T∞
Bd (ω, n−1 ) ∈ σ(τd ).
S
⇒ A ∈ σ(τd ), da A = a∈A {a} ∈ σ(τd ).
da
• A
abzählbar
• A
abgeschlossen
{ω} =
n=1
⇒ A ∈ σ(τd ),
da
-
A
11
/
abgeschlossen
145
-
⇔ Ω\A
oen.
Ingo Bürk
Kapitel I.3
Elementare Beispiele von Wahrscheinlichkeitsräumen I
Beispiel I.2.10:
Auf dem
Rn
ist die euklidische Metrik deniert durch
Wir wollen die zugehörige Borelsche
σ -Algebra
d(x, x0 ) = (
Seite 12
1
Pn
0 2 2
i=1 (xi − xi ) ) .
betrachten:
i) Abzählbare Mengen, Abgeschlossene Mengen und kompakte Mengen sind in
σ(τd ) (auf Rn ) enthalten.
B n :=
ii) Rechtecke (mit und ohne Rand) sind enthalten (wegen i)).
iii)
B n 6= P(Rn ).
I n := {(a, b] : a, b ∈ Rn }, (a, b] := {(x1 , . . . , xn ) : ai < xi ≤ bi ∀i = 1, . . . , n}
n
n
gilt: σ(I ) = B . Das Gleiche gilt für andere Systeme von Intervallen wie z.B.
n
dem System der abgeschlossenen Intervalle. Beweis: Für a, b ∈ R ist (a, b) =
S
−1
n
R∈N (a, b − R ) ∈ σ(I ), da die einzelnen Intervalle enthalten sind. Das heiÿt,
n
n
dass (a, b) ∈ σ(I ) liegt. Ferner gilt, dass jede oene Menge des R eine abzählbare
iv) Für
Vereinigung von oenen Intervallen mit rationalem Durchmesser und Mittelpunkt
S
n
(R) (R)
ist. Für O ⊂ R oen folgt also O =
, b ), daraus folgt O ∈ σ(I n ). Für
R∈N (a
n
n
τ = {O ⊂ Rn : O
Richtung
T oen} gilt B−1 = σ(τ ) ⊂ σ(σ(τ )) = σ(I ). Die andere
n
folgt mit (a, b] =
(a,
b
+
R
}
,
denn
dann
ist
(a,
b]
∈
σ(τ
)
=
B
.
Mit
I n ⊂ Bn
R∈N
n
n
n
folgt schlieÿlich σ(I ) ⊂ σ(B ) = B .
I.3. Elementare Beispiele von Wahrscheinlichkeitsräumen I
Im Folgenden bezeichnet
Definition I.3.1
in der Regel ein Wahrscheinlichkeitsmaÿ.
Gleichverteilung, Laplace-Wahrscheinlichkeitsraum
A := P(Ω). Dann heiÿt das durch P (A) :=
Wahrscheinlichkeitsmaÿ auf Ω die Gleichverteilung auf Ω.
Das Tripel (Ω, A, P ) heiÿt Laplacescher Wahrscheinlichkeitsraum.
Sei
Ω 6= ∅
P
endlich und
Beispiel I.3.2:
|A|
denierte
|Ω|
Fairer Würfel
•
Experiment: Einmaliges Würfeln eines fairen Würfels.
•
Modell:
Ω = {1, . . . , 6}, A = P(Ω), P ({ω}) = 16 für ω ∈ Ω.
⇒ P (A) = |A|
= |A|
für A ∈ A, d.h. P ist die Gleichverteilung
|Ω|
6
auf
•
Frage: Wie ist die Wahrscheinlichkeit, eine gerade Zahl zu werfen?
•
Antwort:
A = {2, 4, 6},
also
P (A) =
-
12
3
6
=
/
145
Ω.
1
.
2
-
Ingo Bürk
Kapitel I.3
Elementare Beispiele von Wahrscheinlichkeitsräumen I
Beispiel I.3.3:
•
Seite 13
Wiederholter Münzenwurf
Experiment: Wir werfen eine faire Münze
n-Mal, wobei einzelne Würfe unabhängig
sind. Wir sind an der Folge der Beobachtungen interessiert.
•
Modell: Kodiere Kopf als
0
und Zahl als
1.
Sei
Ω = {0, 1}n
und
A = P(Ω).
P aus? Mit einem simplen Wahrscheinlichkeitsbaum kommt
P ({w}) = 2−n für w ∈ Ω. Dies ist die Gleichverteilung auf Ω.
Wie sieht nun unser
man leicht zu
•
Frage: Wie ist die Wahrscheinlichkeit von mindestens einmal Zahl nach 3 Würfen?
A := {ω = (ω1 , ω2 , ω3 ) | ∃i ∈ {1, 2, 3} : ωi = 1}
Ω := {0, 1}3
Ω \ A = {ω = (ω1 , ω2 , ω3 ) | ωi = 0 ∀i ∈ {1, 2, 3}} = {(0, 0, 0)}
⇒ P (A) = P (Ω) − P (Ω \ A) = 1 − 2−3 = 87 .
Beispiel I.3.4:
Unfaire Münze
•
Experiment: Werfe eine unfaire Münze ein Mal.
•
Modell:
P
P
mit
Ω = {0, 1}, A = P(Ω)
P ({1}) := p ∈ [0, 1] und P ({0}) = 1 − p
heiÿt Bernoulli-Verteilung
Beispiel I.3.5:
Mehrfaches Werfen einer unfairen Münze
•
Experiment: Werfe unfaire Münze
•
Ωn = {0, 1}n , A = P(Ω)
P ({ω}) = pk (1 − p)n−k , k ist die Anzahl der
1
Für p 6=
ist P nicht die Gleichverteilung!
2
•
n-mal,
ansonsten wie oben.
Modell:
Frage: Wahrscheinlichkeit nach
n
Einsen in
Würfen genau
k -mal
ω ∈ Ω,
d.h.
k=
|Ak |
k
k
Es gibt
•
Wäre jeder Ausgang unterscheidbar, so hat man
•
Wäre jeder Ausgang Zahl unterscheidbar, so hat man
•
Wäre jeder Ausgang Kopf unterscheidbar, so hat man
⇒ |Ak | =
Möglichkeiten,
n!
k!(n−k)!
=
n
k
ωi .
− p)n−k .
− p)n−k .
zu bestimmen überlegen wir uns:
•
n!
i=1
eine Zahl geworfen?
Der Ansatz für dieses Problem ist wie folgt:
Pn
({ω}) = pk (1
Wähle Ak := {ω ∈ Ωn |
P i=1 ωi = k}. Für
P ω ∈ kAk gilt P
n−k
Daraus folgt P (Ak ) =
= |Ak |pk (1
ω∈A P ({ω}) =
ω∈A p (1 − p)
Um den Wert von
Pn
n
unterscheidbare Objekte anzuordnen.
und damit
P (Ak ) =
-
13
/
145
n
k
-
n!
Möglichkeiten.
k!
Möglichkeiten.
(n − k)!
Möglichkeiten.
pk (1 − p)n−k .
Ingo Bürk
Kapitel I.3
Elementare Beispiele von Wahrscheinlichkeitsräumen I
Definition I.3.6
Seite 14
Binomialverteilung
N0 = {0} ∪ N, A = P(N) durch
( n k
p (1 − p)n−k k ∈ {0, 1, . . . , n}
k
P̃ ({k}) :=
0
sonst
Das auf
denierte Wahrscheinlichkeitsmaÿ heiÿt Binomialverteilung mit Parametern
p.
P̃
Schreibe
B(n, p, k) = b(n, p, k) := P̃ ({k})
bzw.
n und
B(n, p) = b(n, p) := P̃ .
ist wirklich ein Wahrscheinlichkeitsmaÿ, denn
P̃ (N0 ) =
n
X
n
[
P (Ak ) = P
k=0
!
Ak
= P (Ω) = 1.
k=0
Beispiel: Ankreuztest
Ein Fragebogen hat
5 Fragen,
es gibt zwei Fragebögen insgesamt. Jede Frage hat
m≥2
mögliche Antworten und nur eine Antwort ist richtig. Es müssen 50% richtig beantwortet
werden. Wie groÿ is die Wahrscheinlichkeit durch bloÿes Raten zu bestehen?
Ansatz: Jede Frage ist ein Bernoulli-Experiment mit
p = m−1 ,
wobei
p
die Wahrschein-
lichkeit angibt, richtig zu raten. Das Raten ist bei jeder Frage unabhängig. Wähle nun
Ω = {0, 1}10 , A = P(Ω) und P sei das Wahrscheinlichkeitsmaÿ aus Beispiel I.3.5. Gesucht ist
P
10
[
k=5
!
Ak
10
X
10
X
k 10−k
10 X
1
10
1
.
1−
=
P (Ak ) =
B(n, m , k) =
m
m
k
k=5
k=5
k=5
−1
Es ergibt sich folgende Tabelle:
m
Wahrscheinlichkeit
Definition I.3.7
Sei
2
3
4
5
0.62 0.21 0.08 0.03
Zählmaÿ, Dirac-Maÿ
Ω 6= ∅, A = P(Ω). Dann heiÿt
(
|A| A ⊂ Ω endlich
#(A) :=
∞
sonst
das durch
-
14
/
145
-
Ingo Bürk
Kapitel I.3
Elementare Beispiele von Wahrscheinlichkeitsräumen I
denierte Maÿ das Zählmaÿ. Ferner heiÿt das für ein festes
ω∈Ω
Seite 15
durch
(
1 ω∈A
δ{ω} (A) :=
0 sonst
denierte Maÿ das Dirac-Maÿ.
Bemerkungen:
• #
•
und
δ{ω}
kann man immer denieren.
µ
und
ν
Sind
• #
auf
Rn
zwei Maÿe, so sind
ist bewegungsinvariant, aber
Definition I.3.8
ii)
(pk )k∈N
αµ
α ≥ 0)
(für
auch Maÿe.
#([0, 1]n ) = ∞.
heiÿt Zähldichte genau dann, wenn
pk ≥ 0 für alle k ∈ N
P∞
k=0 pk = 1
Lemma I.3.9
Sei
und
Zähldichte
Eine reelle Zahlenfolge
i)
µ+ν
(pk )k∈N
P (A) :=
eine Zähldichte. Dann wird auf
X
pk
,
(R, B)
durch
A∈B
k∈A
ein Wahrscheinlichkeitsmaÿ deniert. Auÿerdem gilt
Beweis
•
P (N0 ) = 1.
: Überprüfen der Eigenschaften:
Nulltreue:
P (∅) = 0.
• σ -Additivität:
Sei
An ⊂ R, n ≥ 1.
O.B.d.A. seien
An ⊂ N0
paarweise disjunkt.
Dann ist
P
∞
[
n=1
!
An
X
=
k∈
pk =
S∞
∞ X
X
n=1 k∈An
n=1 An
-
15
/
145
-
pk =
∞
X
P (An ).
n=1
Ingo Bürk
σ -Stetigkeit
Kapitel I.4
• P (N0 ) = 1,
da
P (N0 ) =
P
k∈N0
von Maÿen
Seite 16
pk = 1.
Damit ist das Lemma bewiesen.
Beispiel I.3.10:
Sei
λ ≥ 0.
Dann deniert
pk (λ) := e−λ
λk
k!
für
k ∈ N0
eine Zähldichte, denn es gilt
∞
X
pk (λ) =
k=0
∞
X
−λ λ
e
k
k!
k=0
= e−λ eλ = 1.
Das zugehörige Wahrscheinlichkeitsmaÿ heiÿt Poissonverteilung mit Parameter
Wir schreiben dafür
Pois(λ, k) := pk (λ)
und nennen
Pois(λ, ·)
λ.
die Poissonvertei-
lung. Es gilt
∞
X
|B(n, p, k) − Pois(np, k)| ≤ 2np2 .
k=0
Beispiel (Zellenbelegung):
Wir haben
m
Zellen und
n
Teilchen, die zufällig auf die Zellen verteilt werden. Mehrn
, die anfachbelegungen seien erlaubt. Wir denieren die Belegungsintensität λ :=
m
schaulich etwa die durchschnittliche Zellenbelegung darstellt. Die genauere Bedeutung
dieser Konstante wollen wir hier nicht näher untersuchen. Betrachte nun Zelle
1 und die
Wahrscheinlichkeit, dass genau k Teilchen in Zelle 1 sind. Diese Wahrscheinlichkeit lässt
−1
sich durch B(n, m , k) ausdrücken. Wir wissen, dass
n 1
1
B n, , k − Pois
, k ≤ 2n 2
m
m
m
Für
A ⊂ N0 gilt sogar
n X 1 n 1
B n, , A − Pois
, A = B n, , k − Pois
,k m
m
m
m
k∈A
∞ n X
1
≤
B n, m , k − Pois m , k k=0
≤
I.4.
ist.
σ -Stetigkeit
2n
.
m2
von Maÿen
Wir wissen, dass monotone Folgen in
R
konvergieren (ggf. gegen
±∞).
Was gilt für
Wahrscheinlichkeiten?
-
16
/
145
-
Ingo Bürk
σ -Stetigkeit
Kapitel I.4
Definition I.4.1
Seien
•
•
A1 , A2 , . . . ⊂ Ω
Ist
Ist
Seite 17
Mengen.
A1 ⊂ A2 ⊂ · · · ,
A1 ⊃ A2 ⊃ · · · ,
Beachte: Es ist
von Maÿen
so schreiben wir
so schreiben wir
Ai % A ⇒ µ(Ai ) ↑
Ai % A :=
S∞
An .
Ai & A :=
T∞
An .
n=1
Ai & A ⇒ µ(Ai ) ↓.
und
Die Frage, die wir uns nun stellen, ist, ob
n=1
lim µ(An ) = µ(A) gilt. Dies wollen im folgenden
Satz beantworten:
Satz I.4.2
A
Ω und µ : A → [0, ∞] ein Inhalt. Dann sind äquivalent:
S
P∞
µ ist σ -additiv, d.h. µ ( ∞
k=1 Ak ) =
k=1 µ(Ak ) für paarweise disjunkte Ak ∈ A mit
S
∞
k=1 Ak ∈ A.
Sei
i)
ii)
µ
ist
eine Algebra auf
σ -stetig
µ(Ω) < ∞,
Ist
von unten, d.h.
µ
ist
σ -stetig
von oben, d.h.
iv)
µ
ist
σ -stetig
in
∅,
Ferner gilt immer ii)
Ai & A
Beweis
:
i)
mit
Ai , A ∈ A ⇒ µ(Ai ) % µ(A).
so sind die folgenden Aussagen ebenfalls äquivalent zur ersten:
iii)
iii')
Ai % A
mit
d.h.
mit
Ai , A ∈ A ⇒ µ(Ai ) & µ(A).
Ai & ∅, Ai ∈ A ⇒ µ(Ai ) & 0.
⇒ iii')
Ai , A ∈ A
⇒ ii):
Ai & A
mit
und
Deniere
µ(Ai ) < ∞ ⇒ µ(Ai ) & µ(A).
A0 := ∅
wachsen, folgt, dass die Bn paarweise
Sn
i=1 Bn ∈ A. Dann gilt
Bn := An \ An−1 , n ≥ 1. S
Da die An monoton
∞
disjunkt sind. Zudem ist A =
n=1 Bn ∈ A, sowie
und
An =
i)
µ(A) =
∞
X
µ(Bn ) = lim
n=1
n→∞
n
X
µ(Bi ) = lim µ
n→∞
i=1
n
[
!
Bi
i=1
= lim µ(An ).
n→∞
ii)
⇒
Ai & A mit Ai , A ∈ A. Daraus
µ(A1 \ Ai ) % µ(A1 \ A). Nun ist
iii): Sei
mit iii), dass
folgt
A1 \ Ai % A1 \ A
und daraus folgt
µ(A1 ) − µ(Ai ) = µ(A1 \ Ai ) % µ(A1 \ A) = µ(A1 ) − µ(A)
⇒ µ(Ai ) & µ(A).
-
17
/
145
-
Ingo Bürk
σ -Stetigkeit
Kapitel I.4
von Maÿen
Seite 18
Die anderen Implikationen werden analog bewiesen.
Korollar I.4.3
Sei
(Ω, A, µ)
∞
[
µ
ein Maÿraum, dann ist
!
∞
X
≤
Ak
k=1
Beweis
µ(Ak )
für
µ σ -subadditiv,
d.h.
Ak ∈ A.
k=1
: Es ist klar, dass
Sn
i=1
Ai %
S∞
i=1
Ai
gilt. Wegen der Implikation i)
⇒
ii) des
vorherigen Satzes folgt damit
µ
∞
[
!
Ai
n
[
= lim µ
n→∞
i=1
≤ lim
≤
∞
X
Ai
i=1
n
X
n→∞
!
µ(Ai )
i=1
µ(Ai ).
i=1
Für die erste Abschätzung wurde dabei die Subadditivität von
Lemma bewiesen.
Definition I.4.4
Sei
(Ω, A, P )
und
lim inf
für Mengen
ein Wahrscheinlichkeitsraum und
lim sup An :=
n→∞
lim sup
∞ [
∞
\
µ benutzt. Damit ist das
A1 , A2 , . . . ∈ A.
Wir schreiben
Ak
n=1 k=n
= {ω ∈ Ω : ∀n≥1 ∃k≥n : ω ∈ Ak }
= {ω ∈ Ω : ∃ unendlich viele k mit ω ∈ Ak }.
∞ \
∞
[
lim inf An :=
Ak
n→∞
n=1 k=n
= {ω ∈ Ω : ∃n≥1 ∀k≥n : ω ∈ Ak }
= {ω ∈ Ω : ω ∈ Ak für alle k bis auf
-
18
/
145
-
endlich viele}.
Ingo Bürk
Kapitel I.5
Fortsetzung von Maÿen
Lemma I.4.5
(Ω, A, P )
Sei
∞
X
Borel-Cantelli 1. Teil
ein Wahrscheinlichkeitsraum und
P (An ) < ∞ =⇒ P
A1 , A2 , . . . ∈ A,
dann gilt
lim sup An
= 0.
n→∞
n=1
Interpretation: Falls die
nur endlich vielen
Beweis
Seite 19
An
Bn :=
: Deniere
An
hinreichend disjunkt sind gilt, dass fast alle
ω ∈ Ω
in
sind.
B⊂Bn
P (B) ≤ P (Bn )
S
k≥n
σ -subadd.
≤
Ak &
∞
X
T∞ S
n=1
k≥n
Ak =: B .
Dann gilt für
n ≥ 1:
P (Ak )
|k=n {z
}
n→∞
−→ 0
Damit folgt dann
P (B) = 0.
I.5. Fortsetzung von Maÿen
Ziel: Wenn wir ein Maÿ auf einem elementaren Mengensystem
dann auf
σ(C)
i)
ii)
haben, können wir es
fortsetzen?
Definition I.5.1
Ein
C
H ⊂ P(Ω)
Halbring
heiÿt Halbring über
Ω
genau dann, wenn
∅∈H
A∩B ∈H
für alle
A, B ∈ H
A, B ∈ H mit A ⊂ B
C1 , . . . , Ck ∈ H, so dass
iii) Für alle
B\A=
n
[
gibt es ein
k ≥ 1
und paarweise disjunkte
Ck
k=1
-
19
/
145
-
Ingo Bürk
Kapitel I.5
Fortsetzung von Maÿen
Motivation: Seien
A, B ∈ H.
˙
A ∪ B = B \ (A ∩ B)∪A
disjunkt
!
n
[
A∩B⊂B
=
ck
∪ |{z}
A
paarweise
|{z}
A∩B∈H
k=1 ∈H
Idee: Falls
µ
ein Maÿ auf
µ(A ∪ B) :=
Seite 20
n
X
H
disjunkt
∈H
ist kann man
µ(ck ) + µ(A)
k=1
denieren. Die Frage ist allerdings, ob dies wohldeniert ist?
Satz I.5.2
µ : H → [0,
ein Maÿ, welches σ -endlich ist,
S∞]
∞
d.h. es existieren abzählbar viele Ai ∈ H mit
i=1 Ai = Ω, so dass µ(Ai ) < ∞ für
∗
∗
alle i ≥ 1 ist. Dann existiert genau ein Maÿ µ : σ(H) → [0, ∞] mit µ (A) = µ(A)
für alle A ∈ H.
Ferner gilt für beliebige A ∈ σ(H):
(∞
)
∞
X
[
µ∗ (A) = inf
µ(Bn ) : Bn ∈ H, A ⊂
Bn
Sei
H
ein Halbring über
Ω 6= ∅
und
n=1
Beweis
n=1
: Der Satz wird hier nicht bewiesen. Der Beweis ndet sich z.B. als Kombination
von Lemma I.3.1 und Satz I.53 im Buch von Klenke.
Kurzfassung zum Satz: Jedes
einem Maÿ auf
σ(H)
σ -endliche
Maÿ auf einem Halbring
H
lässt sich zu
eindeutig fortsetzen.
Korollar I.5.3
A = σ(H) und µ, ν : A → [0, ∞] zwei σ -endliche Maÿe mit
der Eigenschaft µ(A) = ν(A) für alle A ∈ H. Dann folgt µ = ν .
Der Satz gilt sogar, falls H kein Halbring ist, sofern er die folgenden beiden EigenSei
H
ein Halbring,
schaften erfüllt:
i)
A∩B ∈H
ii)
σ(H) = A
für alle
A, B ∈ H
-
20
/
145
-
Ingo Bürk
Kapitel I.5
Fortsetzung von Maÿen
Kurzfassung des Korollars:
Seite 21
σ -endliche Maÿe sind durch ihr Verhalten auf ∩-stabilen
Erzeugendensystemen eindeutig bestimmt.
Beweis
: Die erste Aussage folgt unmittelbar aus dem vorherigen Satz. Der zweite Teil
lässt sich z.B. als Lemma I.42 im Buch von Klenke.
Beispiel I.5.4:
Sei
Ω 6= ∅ höchstens abzählbar und H = {A ⊂ Ω | card(A) ≤ 1}. Dann hat
µ : H → [0, ∞], welches durch µ(A) := card(A) für alle A ∈ H deniert
∗
∗
eine eindeutige Fortsetzung µ : σ(H) → [0, ∞] und es gilt µ = #, d.h. die
das Maÿ
ist,
Fortsetzung ist gleich dem Zählmaÿ.
• H
ist ein Halbring, denn dass
∅∈H
gilt und dass
H
stabil bezüglich des Durch-
X
schnitts und des Komplements ist sieht man direkt ein.
• µ
•
X
ist trivialerweise ein Maÿ.
Die
σ -Endlichkeit
• σ(H) = P(Ω)
X
folgt ebenfalls sofort.
X
Es bleibt zu zeigen, dass wirklich
µ∗ = #
gilt.
!
[
µ∗ (A) = µ∗
{ω}
=
ω∈A
(
|A|
=
∞
X
µ∗ ({ω}) =
ω∈A
falls
X
µ({ω})
ω∈A
|A| < ∞
sonst
= #(A)
Beispiel I.5.5:
n
QR
n
Auf dem
(a, b] 7→
• In
• λ
• λ
•
n
n
Lebesgue-Maÿ
betrachte
i=1 (bi
− ai ) .
I n := {(a, b]
ist
a, b ∈ Rn }
und
n
λ : I n → [0, ∞]
mit
Dann gilt:
ist ein Halbring und
ist ein Maÿ auf
:
σ(I n ) = B n .
I n.
σ -endlich.
n
n
n
Es existiert genau ein Maÿ λ : B → [0, ∞] mit λ (A)
n
Dieses Maÿ λ heiÿt das n-dimensionale Lebesgue-Maÿ.
Für den Fall
n=1
n
= λ (A)
für alle
A ∈ I n.
lässt sich der Beweis wie folgt skizzieren (für den höherdimen-
sionalen Fall geht es analog):
• In
ist Halbring:
∅ = (a, a − 1] ∈ I n .
(a, b] ∩ (c, d] = (max{a, c}, min{b, d}] ∈ I n .
-
21
/
145
-
Ingo Bürk
Kapitel I.5
Fortsetzung von Maÿen
Sei
(a, b] = B und (c, d] = A,
B \ A = C1 ∪ C2 .
Dass
n
σ(I n ) = B n
C1 := (a, c]
und
C2 := (d, b]:
gilt wurde bereits gezeigt.
•
Dass
•
Die
•
Dies folgt aus Satz I.5.2.
λ
dann ist mit
Seite 22
ein Maÿ ist wird hier nicht gezeigt, da der Beweis umfangreicher ist.
σ -Endlichkeit
ist trivial.
Lemma I.5.6
Es gelten folgende Eigenschaften:
i) Das Lebesgue-Maÿ ist bewegungsinvariant.
ii) Für alle
x ∈ Rn
gilt
λn ({x}) = 0.
n
iii) Regularität von innen: Für alle A ∈ B mit
λn (A) = sup{λn (K) : K ⊂ A kompakt}.
iv) Regularität von auÿen: Für alle
v) Ist
Beweis
O ⊂ Rn
oen mit
O 6= ∅,
λn (A) < ∞
gilt
A ∈ B n gilt λn (A) = inf{λn (O) : A ⊂ O, O
so folgt
oen}.
λn (O) > 0.
: Die erste Eigenschaft werden wir nicht beweisen.
ii) Es ist
{x} =
T∞
k=1 (x
− k −1 , x]
λn ({x}) = lim λn
k→∞ |
(x − k −1 , x] & {x}.
(x − k −1 , x] = 0.
{z
}
und
Aus Satz I.4.2 folgt dann
=k−n
iii) Diese Eigenschaft wird hier nicht bewiesen.
iv) Diese Eigenschaft wird hier nicht bewiesen.
v) Sei
O 6= ∅
∈ O und ein r > 0, so dass Bd (x, 2r) ⊂ O
λ (Bd (x, 2r)) > 0 ist. Deniere
oen, dann existiert ein x
n
Es reicht daher, zu zeigen, dass
Q :=
r
r
x − √ ,x + √
n
n
ist.
.
Q ⊂ Bd (x, 2r) ist: Für x0 ∈ Q gilt
! 21
2 ! 12
n n
X
X
1
r
r
√
d(x, x0 ) =
(xi − x0i )2
≤
= √ · n 2 = r.
n
n
i=1
i=1
n
n
2r
n
√
Dann ist λ (Q) = λ (Q) =
> 0, wegen der Monotonie ist
n
n
λ (Bd (x, 2r)) > 0.
Wir zeigen, dass
-
22
/
145
-
also auch
Ingo Bürk
Kapitel I.5
Fortsetzung von Maÿen
Seite 23
Damit ist das Lemma vollständig bewiesen.
Definition I.5.7
µ-Nullmenge, µ-fast alle Gültigkeit
N ∈ A µ-Nullmenge :⇔ µ(N ) = 0.
Eine Eigenschaft gilt für µ-fast alle ω ∈ Ω :⇔ ∃µ-Nullmenge N ∈ A, so dass
Eigenschaft für alle ω ∈ Ω \ N gilt.
Sei
(Ω, A, µ)
ein Maÿraum, dann heiÿt
die
Erinnerung:
•
Borel-Cantelli:
• {x}
•
sind
P∞
n=1
P (An ) < ∞ ⇒ lim sup An
ist
P -Nullmenge.
λn -Nullmengen.
Abzählbare Vereinigungen von
Achtung: Es gibt nicht abzählbare
N ∈A
µ(A) = 0
µ-Nullmengen
sind
µ-Nullmengen.
λn -Nullmengen!
A ⊂ N.
Beobachtung: Sei
mit
dass dann auch
ist. Tatsächlich ist im Allgemeinen aber
Ausdruck
µ(A)
µ(N ) = 0
und
Intuitiv würde man vermuten,
A 6∈ A
und der
damit nicht erklärt!
Definition I.5.8
Vollständiger Maÿraum
(Ω, A, µ)
µ(N ) = 0 ⇒ A ∈ A.
Ein Maÿraum
heiÿt vollständig
:⇔
Für alle
N ∈ A
und
A ⊂ N
gilt
Satz I.5.9
(Ω, A, µ) ein Maÿraum. Dann gibt es genau eine kleinste σ -Algebra A∗ ⊃ A und
∗
∗
∗
∗
genau eine Fortsetzung µ : A → [0, ∞] von µ, so dass der Maÿraum (Ω, A , µ )
Sei
vollständig ist. Ferner gelten
• A∗ = {A ∪ B : A ∈ A
• µ∗ (A ∪ B) = µ(A)
und
∃N ∈ A
mit
µ(N ) = 0, B ⊂ N },
für die Bezeichnungen wie eben.
-
23
/
145
-
Ingo Bürk
Kapitel I.5
Beweis
Fortsetzung von Maÿen
: Der Beweis erfolgt durch simples Überprüfen aller Eigenschaften.
card(B) = card(R). Dann ist card(B ∗ ) = card(P(R)), die
∗
diese Vergröÿerung B → B also bedeutend gröÿer geworden.
Beachte:
durch
Seite 24
Definition I.5.10
n
Ω∈B
Dann ist A
Sei
Kardinalität ist
Gleichverteilung
∞ > λn (Ω) > 0. Betrachte A := B n ∩ Ω = {A ∩ Ω : A ∈ B n }.
eine σ -Algebra und µ : A → [0, 1] mit
mit
λn (B)
µ(B) := n
λ (Ω)
B∈A
für
ist ein Wahrscheinlichkeitsmaÿ.
Beachte: Wenn
λn (Ω) > 0
µ
heiÿt die Gleichverteilung auf
ist, so folgt daraus, dass
|Ω| = ∞.
Ω.
Die eben denierte
Gleichverteilung ist damit wirklich etwas anderes als die zuvor denierte Gleichverteilung
auf endlichen Mengen.
Definition I.5.11
Sei
(Ω, A)
ein Messraum und
Spur-σ -Algebra von
Definition I.5.12
Sei
Spur-σ -Algebra
(Ω, A, µ)
A
auf
B.
B ∈ A.
Dann heiÿt
B ∩ A := {B ∩ A : A ∈ A}
σ -Algebra auf B .
die
Dies ist tatsächlich eine
Einschränkung eines Maÿes
ein Maÿraum und
B ∈ A.
Dann heiÿt das Maÿ
µB : B ∩ A → [0, ∞],
C 7→ µ(C)
die Einschränkung von
Beispiel: Betrachte z.B.
µ
auf
B ∩ A.
λn |[a,b] .
-
24
/
145
-
Ingo Bürk
Kapitel I.6
Verteilungsfunktion
Seite 25
I.6. Verteilungsfunktion
P ein Wahrscheinlichkeitsmaÿ auf B := B 1 , dann ist F : R → [0, ∞]
x 7→ P ((−∞, x]) monoton wachsend und hat weitere Eigenschaften, auf die wir im
Motivation: Ist
mit
Folgenden eingehen werden.
Definition I.6.1
Verteilungsfunktion
F : R → [0, ∞]
Eine Funktion
heiÿt Verteilungsfunktion genau dann, wenn
x ≤ y ⇒ F (x) ≤ F (y).
i)
F
ist wachsend, d.h.
ii)
F
ist rechtsseitig stetig, d.h.
iii)
lim F (x) = 0
x→−∞
und
xn & x ⇒ F (xn ) → F (x).
lim F (x) = 1.
x→∞
Satz I.6.2
Für alle Wahrscheinlichkeitsmaÿe
F : R → [0, ∞)
P
auf
B
existiert genau eine Verteilungsfunktion
mit
F (b) − F (a) = P ((a, b])
für
a, b ∈ R
mit
a < b.
Umgekehrt existiert zu jeder Verteilungsfunktion
maÿ
P
Beweis
auf
B,
F
genau ein Wahrscheinlichkeits-
so dass diese Gleichung gilt.
: Wir zeigen zunächst die Existenz der Verteilungsfunktion. Deniere hierfür
F (x) := P ((−∞, x]), x ∈ R.
Wir zeigen, dass die Gleichung aus dem Satz erfüllt ist:
F (b) − F (a) = P ((−∞, b]) − P ((−∞, a]) = P ((−∞, b] \ (−∞, a])
= P ((a, b])
Zu zeigen ist noch, dass
F
wirklich eine Verteilungsfunktion ist. Dass
F
monoton wächst
P monoton wächst. Auÿerdem ist F rechtsseitig stetig. Wähle hierfür eine
Folge xn & x, dann ist (−∞, xn ] & (−∞, x]. Damit folgt dann F (xn ) = P ((−∞, xn ]) &
P ((−∞, x]) = F (x), wobei die σ -Stetigkeit von oben verwendet wurde. Nun bleiben noch
die Grenzwerte für x → ±∞ zu überprüfen:
Sei xn → −∞, dann ist lim sup xn = −∞, also auch yn := supk≥n xk → −∞. Aufgrund
der Konstruktion wissen wir sogar, dass yn & −∞ ist. Dann folgt aber (−∞, yn ] & ∅
und es gilt yn ≥ xn . Daraus folgt dann F (xn ) ≤ F (yn ) (wegen der bereits gezeigten
ist klar, da
Monotonie). Dann ist
0 ≤ lim F (xn ) ≤ lim F (yn ) = lim P ((−∞, yn ]) = P (∅) = 0.
n→∞
n→∞
n→∞
-
25
/
145
-
Ingo Bürk
Kapitel I.7
Bedingte Wahrscheinlichkeiten
Seite 26
Den anderen Grenzwert kann man analog herleiten. Es bleibt nun noch zu zeigen, dass
∗
diese Verteilungsfunktion auch eindeutig ist. Dazu nehmen wir an, F und F seien zwei
Verteilungsfunktionen, die der Gleichung aus dem Satz genügen. Daraus folgt dann, dass
F (b) − F (0) = P ((0, b]) = F ∗ (b) − F ∗ (0) für b ≥ 0 ist. Analog gilt F (0) − F (b) = F ∗ (0) −
F ∗ (b) für b ≤ 0. Es lässt sich also zusammenfassen, dass F ∗ (b) − F ∗ (0) = F (b) − F (0) für
∗
∗
alle b ∈ R gilt. Daher gilt nun für alle b ∈ R, dass F (b) = F (b) + F (0) − F (0) ist. Wir
∗
∗
bezeichnen c := F (0) − F (0), d.h. es ist F = F + c. Wir wollen zeigen, dass c = 0 ist.
∗
Auch für n ∈ N gilt F (n) = F (n) + c, für n → ∞ muss nach dem vorher Bewiesenen
∗
∗
also F (n) → 1 und F (n) → 1 sein, also ist 1 = 1 + c ⇒ c = 0 ⇒ F = F .
Die Umkehrung erfolgt über den Fortsetzungssatz für Maÿe und wird hier nicht bewiesen.
Der Beweis ndet sich z.B. als Theorem 1.40 aus Meintrup+Schäer oder Satz 1.60
aus Klenke.
Bemerkung: Woher kommen die Unstetigkeiten? Betrachte das Dirac-Maÿ δ{0} :
(
0 x<0
F (x) = δ{0} ((−∞, x]) =
1 x≥0
F
ist oenbar nicht stetig, aber durchaus rechtsseitig stetig.
I.7. Bedingte Wahrscheinlichkeiten
Angenommen, es wird eine Umfrage unter Studenten durchgeführt. In dieser wird nach
dem Geschlecht gefragt und ob die betreende Person Sport treibt oder nicht. Wir haben
also eine Tabelle
Sei
Ω = {1, . . . , 66}.
m
w
Sport
12
18
kein Sport
16
20
Die Personen 1 - 12 sollen sporttreibende Männer sein, die Perso-
nen 13-30 sollen sporttreibende Frauen sein, die Personen 31-46 sollen Männer sein, die
keinen Sport machen und zu guter letzt sollen die Personen 47 - 66 die Frauen sein, die
keinen Sport machen.
Es sei
A := P(Ω) und P
die Gleichverteilung. Bezeichne
die Menge der Männer und
ben. Von allen
66
B := {1, . . . , 30}
A := {1, . . . , 12} ∪ {31, . . . , 46}
die Menge der Personen, die Sport trei-
Personen wird nun zufällig eine Person gewählt und das Geschlecht
bestimmt (z.B. durch Erfragen des Namens). Die ausgesuchte Person sei zum Beispiel
männlich. Wir stellen uns nun die
Frage: Wie groÿ ist die Wahrscheinlichkeit, dass diese
Person Sport treibt?
Antwort: Es gibt
ist also
12
28
=
28 Möglichkeiten und 12 davon treiben Sport. Die Wahrscheinlichkeit
3
.
7
-
26
/
145
-
Ingo Bürk
Kapitel I.7
Bedingte Wahrscheinlichkeiten
Beobachtung: Es ist
12 = |A ∩ B|
|A∩B|
|Ω|
|A|
|Ω|
12
|A ∩ B|
=
=
28
|A|
Definition I.7.1
Sei
(Ω, A, P )
und
28 = |A|.
Seite 27
Was wir gemacht hatten war also
P (A ∩ B)
.
P (A)
=
Bedingte Wahrscheinlichkeit
ein Wahrscheinlichkeitsraum und
A, B ∈ A
mit
P (B) > 0.
Dann
heiÿt
P (A|B) :=
P (A ∩ B)
P (B)
die bedingte Wahrscheinlichkeit von
Satz I.7.2
Sei
i)
(Ω, A, P )
iii) Für
A∈A
mit
m
\
B∈A
mit
ist ein Wahrscheinlichkeitsmaÿ mit
P (A|B) = P (B|A) ·
Tm−1 P
n=1 An > 0 gilt
P (A) > 0
A1 , . . . , Am ∈ A
P
unter der Bedingung
ein Wahrscheinlichkeitsraum und
P ( · |B) : A → [0, 1]
ii) Für
A
mit
gilt
B.
P (B) > 0.
P (B|B) = 1.
P (A)
.
P (B)
!
Ai
= P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · . . . · P
m−1
\
Am An
!
.
n=1
i=1
Beweis
Dann gilt
:
i) Dies ist eine leichte Übung.
ii) Betrachte:
P (A|B) =
P (A ∩ B)
P (A) P (A ∩ B)
P (A)
=
·
=
· P (B|A)
P (B)
P (B)
P (A)
P (B)
iii) Wir beweisen dies für
n = 2,
der Rest folgt dann induktiv. Es ist
P (A1 ∩ A2 ) =
P (A1 ) · P (A2 |A1 ).
Damit ist der Satz bewiesen.
-
27
/
145
-
Ingo Bürk
Kapitel I.7
Bedingte Wahrscheinlichkeiten
Satz I.7.3
Sei
(Ω, A, P )
(Bi )i∈I eine höchstens abzählbare
Bi sind paarweise disjunkt. Ferner
ein Wahrscheinlichkeitsraum und
S
Ω, d.h. i∈I Bi = Ω und
P (Bi ) > 0 für alle i ∈ I . Dann gilt
Zerlegung von
gelte
Seite 28
alle
i) Formel von der totalen Wahrscheinlichkeit:
P (A) =
X
P (Bi ) · P (A|Bi )
für
A∈A
i∈I
ii) Für
A∈A
P (A) > 0
mit
gilt die Formel von Bayes:
P (Bn ) · P (A|Bn )
P (Bn |A) = P
i∈I P (Bi ) · P (A|Bi )
Beweis
für alle
n∈I
:
i) Es ist
A=A∩Ω=A∩
P (A) = P
[
S
i∈I
S
Bi =
!
(A ∩ Bi )
=
X
i∈I
=
X
i∈I
(A ∩ Bi )
paarweise disjunkt.
P (A ∩ Bi )
i∈I
P (Bi ) · P (A|Bi )
i∈I
ii) Mit dem zweiten Teil von Satz I.7.2 folgt
I.7.2
P (Bn |A) = P (A|Bn ) ·
P (Bn ) 1.) P (Bn ) · P (A|Bn )
= P
.
P (A)
i∈I P (Bi ) · P (A|Bi )
Damit ist der Satz vollständig bewiesen.
Beispiel (Ursache und Wirkung): Betrachte die Ereignisse
• a=1=
b
Person hat Krebs.
• a=0=
b
Person hat kein Krebs.
• b=1=
b
Person hat geraucht.
• b=2=
b
Person hat giftige Gase eingeatment.
• b=3=
b
Person hat irgendeine andere Krankheit.
Sei nun
Ω := {0, 1} × {1, 2, 3} = {(a, b) : a ∈ A, b ∈ B}, A := P(Ω)
Ω.
und
P
sei ein
Wahrscheinlichkeitsmaÿ auf
-
28
/
145
-
Ingo Bürk
Kapitel I.7
Bedingte Wahrscheinlichkeiten
Schreibweise:
Seite 29
P ({a = 0}|{b = 1}) = P (a = 0|b = 1) := P ({0} × B|A × {1}).
Diese
Schreibweise soll analog für Wahrscheinlichkeiten allgemein (nicht nur für bedingte)
gelten.
Betrachte: Der Wert von
b
wird zufällig ermittelt, danach wird der Wert von
A
zufällig
ermittelt. Es ist (z.B.):
P (a = 0|b = 1) =
P (a = 0 und b = 1)
P ({(0, 1)})
=
P (b = 1)
P (b = 1)
Der Satz der totalen Wahrscheinlichkeit sagt zum Beispiel
P (a = 1) =
3
X
P (a = 1 | b = i) · P (b = i),
i=1
Bi := {b = i}, dann
ist P (b = i) = P (Bi ). Man nennt dies die a-priori-Wahrscheinlichkeit von Bi . Es ist
P (b = i | a = j) = P (Bi | Aj ) die so genannte a-posteriori-Wahrscheinlichkeit von Bi .
was im Grunde der Summe der möglichen Wege entspricht. Sei nun
Beispiel: Alarmanlage Es gelten folgende Dinge:
•
bei Einbruch erfolgt der Alarm mit Wahrscheinlichkeit
•
bei Nicht-Einbruch erfolgt der Alarm mit Wahrscheinlichkeit
•
die Einbruchswahrscheinlichkeit beträgt
0.99.
0.005.
0.001.
Gesucht seien nun ...
i) ... die Wahrscheinlichkeit, das bei einem Alarm auch ein Einbruch vorliegt.
ii) ... die Wahrscheinlichkeit, dass ein Alarm ausgelöst wird.
Ω = {E, E c } × {A, Ac } (E = Einbruch, A = Alarm) und A = P(Ω). P sei
c
ein Wahrscheinlichkeitsmaÿ auf A mit den Eigenschaften P (A | E) = 0.99, P (A | E ) =
0.005 und P (E) = 0.001. Wir suchen nun die Wahrscheinlichkeit (1) mit P (E | A). Mit
Sei nun also
der Formel von Bayes I.7.3 folgt
Bayes
P (E | A) =
22
P (A | E) · P (E)
=
≈ 0.165.
c
c
P (A | E) · P (E) + P (A | E ) · P (E )
133
Dies bedeutet, in etwa
5
von
6
Fällen liegt kein Einbruch vor, selbst wenn ein Alarm
ausgelöst wurde.
Nun suchen wir die Wahrscheinlichkeit (2)
P (A)
und mit dem Satz von der totalen
Wahrscheinlichkeit I.7.3 gilt
P (A)
totale Wk.
=
P (A | E) · P (E) + P (A | E c ) · P (E c ) ≈ 0.006.
Die Alarmanlage wird also nur sehr selten ausgelöst, was im Gegensatz zur Wahrscheinlichkeit (1) erwartungsgemäÿ ist.
-
29
/
145
-
Ingo Bürk
Kapitel I.8
Elementare Beispiele von Wahrscheinlichkeitsräumen II
Seite 30
I.8. Elementare Beispiele von Wahrscheinlichkeitsräumen II
Urnenmodell:
•
In einer Urne seien
•
Es werden
•
Wir sind an den gezogenen Kugeln interessiert (Stichprobe).
n
N
Kugeln, die mit
1, . . . , N
nummeriert sind.
Kugeln zufällig gezogen.
Alternativen:
•
Mit oder ohne Zurücklegen der gerade gezogenen Kugel.
•
Die Reihenfolge der gezogenen Kugeln kann wichtig sein, muss aber nicht.
⇒ Es gibt insgesamt
B := {1, . . . , n}.
Beispiel I.8.1:
also vier Möglichkeiten. Von nun an sei
Ω1 := {ω = (ω1 , . . . , ωn ) : ωi ∈ A für
P die Gleichverteilung auf Ω1 . Dann ist
1
|Ω1 |
Beispiel I.8.2:
und
Stichprobe mit Reihenfolge mit Zurücklegen
Sei
P ({ω}) =
A := {1, . . . , N }
und
i ∈ B} = An
alle
und
A := P(Ω1 ), sowie
|Ω1 | = N n .
Stichprobe mit Reihenfolge ohne Zurücklegen
Ω2 = {(ω1 , . . . , ωn ) | ωi ∈ A und ωi 6= ωj für alle i 6= j}. Klar ist, dass n ≤ N
A = P(Ω2 ) und P die Gleichverteilung auf Ω2 . Für n = 1 ist |Ω2 | = N ,
!
n = 2 ist |Ω2 | = N · (N − 1). Insgesamt ist für beliebiges n also |Ω2 | = (NN−n)!
.
Es ist
gilt. Sei
für
Beispiel I.8.3:
Für
ω, ω 0 ∈ Ω2
Stichprobe ohne Reihenfolge ohne Zurücklegen
schreiben wir
ω ∼ ω 0 :⇔ ∃π : B→B
mit
0
ωi = ωπ(i)
für alle
i ∈ B,
d.h.
wenn eine Permutation existiert. Diese Relation ∼ ist eine Äquivalenzrelation. Für
0
0
die Äquivalenzklasse schreiben wir [ω]∼ = {ω ∈ Ω2 : ω ∼ ω }. Ein guter Re-
ω1 < · · · < ωn . Dieser existiert
präsentant einer Äquivalenzklasse ist geordnet, d.h.
oensichtlich für jede Äquivalenzklasse.
Ω3 := {[ω]∼ : ω ∈ Ω2 }, A = P(Ω3 )
Gesucht ist |Ω3 |.
Nun sei
•
Es gibt
•
Für eine Permutation
n!
Permutationen auf
Daraus folgt
und
P
Ω3 .
B.
π 6= idB existiert ein i ∈ B
|[ω]∼ | = n! für alle ω ∈ Ω2 .
Wir erhalten insgesamt dann
die Gleichverteilung auf
|Ω3 | =
-
|Ω2 |
n!
30
=
/
N!
(N −n)!n!
145
-
mit
=
ωi 6= ωπ(i) .
N
.
n
Ingo Bürk
Kapitel I.8
Elementare Beispiele von Wahrscheinlichkeitsräumen II
Beispiel I.8.4:
Für
0
ω, ω ∈ Ω1
Seite 31
Stichprobe ohne Reihenfolge mit Zurücklegen
schreiben wir
eine Äquivalenzrelation und
Ω4 := {[ω]∼ : ω ∈ Ω1 }.
0
für alle i ∈ B. ∼ ist
ω ∼ ω 0 :⇔ ∃π : B→B mit ωi = ωπ(i)
[ω]∼ bezeichne die Äquivalenzklasse von ω . Schreibe
Auch hier suchen wir die Mächtigkeit dieser Menge, in
diesem Fall ist dies aber nicht so einfach. Der Trick aus I.8.3 funktioniert nicht,
ω1 = ω2 ist und π : B → B mit π(1) = 2, π(2) = 1
π 6= id, aber ωi = ωπ(i) für alle i ∈ B. Daher haben
denn es könnte sein, dass z.B.
und
π(i) = i
sonst. Dann ist
die Äquivalenzklassen im Allgemeinen nicht die selbe Kardinalität.
0
0
0
0
Für [ω]∼ ∈ Ω4 wählen wir den Repräsentanten ω mit ω1 ≤ ω2 ≤ · · · ≤ ωn . Damit
0
0
0
ist Ω4 gleichmächtig mit der Menge der Repräsentanten Ω4 := {(ω1 , . . . , ωn ) ∈
An | ω10 ≤ · · · ≤ ωn0 }, d.h. |Ω4 | = |Ω04 |. Für ω 0 ∈ Ω04 betrachten wir ω 00 ∈ {1, . . . , N +
n − 1}n mit ωi00 := ωi0 + i − 1. Daraus folgt ω100 < · · · < ωn00 , d.h. ω 00 ∈ Ω3 für N + n − 1
0
00
Kugeln. Zudem ist ω 7→ ω eine Bijektion.
Insgesamt erhalten wir damit
|Ω4 | =
N +n−1
.
n
Damit haben wir nun also alle vier Möglichkeiten für das Urnenmodell beispielhaft abgearbeitet. Wir möchten uns nun noch ein konkretes Beispiel anschauen:
Beispiel I.8.5:
Geburtstagszwillinge
Frage: Wie groÿ ist die Wahrscheinlichkeit, dass in einer Klasse von
mindestens
2
P (A)
für
Ω1
für
N = 365
und
n = 25
mit der Gleichverteilung
A = {(ω1 , . . . , ω25 ) : ωi ∈ {1, . . . , 365}, ∃i6=j
mit
A = Ω1 \ Ω2 .
Dann ist
P.
ωi = ωj }.
|A|
2|
= 1 − |Ω
≈ 0.568.
P (A) = |Ω
|Ω1 |
1|
scheinlichkeit, dass in einer Klasse von 25 mindestens zwei Schüler am
Geburstag haben beträgt erstaunlicherweise also etwa 56.8%.
Nun ist also
Schülern
Schüler am selben Tag Geburtstag haben?
Ansatz: Betrachte
Gesucht:
25
Die Wahrselben Tag
Am letzten Beispiel sieht man auch, dass für konkrete Beispiele oft sehr rechenaufwändige
365
Terme wie
berechnet werden müssen. Um diesen Rechenaufwand zu verkleinern
25
werden wir hier nun die Stirlingsche Formel zur Approximation (ohne Beweis) angeben.
Satz I.8.6
Für
n≥1
√
2πn ·
Stirlingsche Formel zur Berechnung von Fakultäten
gilt
n n
e
1
· e 12n+1 ≤ n! ≤
√
2πn ·
-
31
n n
e
/
145
1
· e 12n .
-
Ingo Bürk
Kapitel I.9
Beweis
Zufallsvariablen
Seite 32
: Diese Formel wird hier nicht bewiesen. Die Idee eines Beweises ndet sich zum
Beispiel in An Introduction to Probability Theory and it's Applications von Feller.
I.9. Zufallsvariablen
Definition I.9.1
Seien
Ω
und
0
Ω
Urbild, Menge aller Urbilder
nicht-leere Mengen und
X : Ω → Ω0
eine Abbildung. Für
A0 ⊂ Ω0
heiÿt
X −1 (A0 ) := {X ∈ A0 } := {ω ∈ Ω : X(ω) ∈ A0 }
das Urbild von
A0
unter
X.
Für
C 0 ⊂ P(Ω0 )
schreiben wir
X −1 (C 0 ) := {X −1 (A0 ) : A0 ∈ C 0 }
für die Menge aller Urbilder.
Lemma I.9.2
Seien
i)
X
Ω
−1
und
Ω0
nicht-leere Mengen und
X : Ω → Ω0
eine Abbildung. Dann gilt
ist verträglich mit ∪, ∩, \, d.h.
!
X
[
−1
Ai
=
i∈I
[
X −1 (Ai )
i∈I
!
\
X −1
X
ii)
−1
=
Ai
i∈I
0
\
i∈I
−1
0
(B \ A ) = X
X −1 (∅) = ∅
und
X −1 (Ai )
(B 0 ) \ X −1 (A0 )
X −1 (Ω0 ) = Ω.
iii)
A0 ⊂ B 0 ⊂ Ω0 ⇒ X −1 (A0 ) ⊂ X −1 (B 0 ).
iv)
X(X −1 (A)) ⊂ A.
v) Ist
A0
vi) Für
eine
σ -Algebra
C 0 ⊂ P(Ω0 )
gilt
auf
Ω0 ,
so ist
X −1 (A0 )
eine
σ -Algebra
auf
Ω.
X −1 (σ(C 0 )) = σ(X −1 (C 0 )).
-
32
/
145
-
Ingo Bürk
Kapitel I.9
Beweis
i)
Zufallsvariablen
Seite 33
: Wir beweisen die Eigenschaften der Reihe nach:
S
−1
ω
S ∈ X−1 ( i∈I Ai ) ⇔ ∃i ∈ I : X(ω) ∈ Ai .
(Ai ). Die Fälle ∩ und \ gehen analog.
i∈I X
Dies ist äquivalent zu
ω ∈
ii) trivial.
iii) trivial.
ω 0 ∈ X(X −1 (A0 )). Daraus folgt, dass ein ω ∈ X −1 (A0 )
−1
und ω ∈ X
(A0 ) bedeutet ω 0 = X(ω) ∈ A0 .
iv) Sei
existiert mit
X(ω) = ω 0
v) Folgt aus i) und ii).
X −1 (C 0 ) ⊂ X −1 (σ(C 0 )), daraus folgt σ(X −1 (C 0 )) ⊂ σ(X −1 (σ(C 0 )))
= X (σ(C 0 )). Für ⊂ betrachte A00 := {A0 ∈ σ(C 0 ) : X −1 (A0 ) ∈ σ(X −1 (C 0 ))}.
0
0
0
0
Dann ist A0 eine σ -Algebra, denn z.B. für A1 , A2 , . . . ∈ A0 gilt
!
∞
∞
[
[
−1
0
X
Ai =
X −1 (A0i ) ∈ σ(X −1 (C 0 )).
vi) ⊃:
−1
i=1
i=1
0
Damit ist σ(C ) ⊂
σ(C 0 ) gilt X −1 (A0 )
σ(A00 ) = A00 ⊂ σ(C 0 ). Also ist A00 = σ(C 0 ), d.h. für jedes A0 ∈
∈ σ(X −1 (C 0 )). Daraus folgt dann X −1 (σ(C 0 )) ⊂ σ(X −1 (C 0 )).
Damit ist das Lemma bewiesen.
Definition I.9.3
Messbare Funktion
(Ω, A) und (Ω0 , A0 ) Messräume, dann
(A, A0 )-messbar (oder kurz: messbar) genau
Seien
0
heiÿt eine Abbildung X : Ω → Ω
−1
dann, wenn X
(A0 ) ⊂ A ist, d.h.
wenn jedes Urbild einer messbaren Menge wieder messbar ist.
Bemerkungen: Man kann sehen, dass gilt:
• X
stetig
⇔
Urbilder oener Mengen sind oen.
• X −1 (A0 ) ist die kleinste σ -Algebra
−1
ben σ(X) := X
(A0 ).
•
Schreibweise: Ist
auf
X (A, A0 )-messbar,
Ω
bezüglich der
so schreiben wir
X
messbar ist. Wir schrei-
X : (Ω, A) → (Ω0 , A0 ).
Satz I.9.4
(Ω, A) und (Ω0 , A0 ) Messräume und C 0 ⊂ A0 ein Erzeugendensystem, d.h.
σ(C ) = A0 . Dann sind für eine Abbildung X : Ω → Ω0 folgende Aussagen äquivaSeien
0
lent:
-
33
/
145
-
Ingo Bürk
Kapitel I.9
X
i)
Zufallsvariablen
ist
(A, A0 )-messbar.
X −1 (C 0 ) ⊂ A,
ii)
Seite 34
d.h.
X −1 (A0 ) ∈ A
für alle
A0 ∈ C 0 .
Bemerkung: Es genügt also, Messbarkeit für ein Erzeugendensystem zu zeigen.
Beweis
dass
: Die Implikation i) → ii) ist trivial. Für die andere
X −1 (A0 ) = X −1 (σ(C 0 )) = σ(X −1 (C 0 )) ⊂ σ(A) = A ist.
Richtung folgt mit I.9.2,
Korollar I.9.5
Jede stetige Abbildung zwischen zwei metrischen Räumen ist Borel-messbar.
Beweis
(Ω0 , d0 ) seien metrische Räume und τd , τd0 0 seien die Systeme der
0
0
oenen Mengen in Ω bzw. Ω . Weiterhin sei X : Ω → Ω eine stetige Abbildung. Aus I.9.3
0
−1 0
folgt dann X
(τd0 ) ⊂ τd ⊂ σ(τd ). Da τd0 ein Erzeugendensystem von σ(τd0 0 ) ist folgt die
Behauptung mit Satz I.9.4.
:
(Ω, d)
und
Korollar I.9.6
Sei
i)
ii)
(Ω, A) ein Messraum und X : Ω → R. Dann sind folgende Aussagen äquivalent:
X
ist
(A, B)-messbar.
{X ≤ α} := X −1 ((−∞, α]) = {ω ∈ Ω : X(ω) ≤ α}
iii)
{X < α} ∈ A
für alle
α ∈ R.
iv)
{X ≥ α} ∈ A
für alle
α ∈ R.
v)
{X > α} ∈ A
für alle
α ∈ R.
Falls
X (A, B)-messbar
ist, so gilt auch
{X = α} ∈ A
liegt in
für alle
Bedingung ist nicht hinreichend für die Messbarkeit von
Beweis
A
für alle
α ∈ R,
α ∈ R.
aber diese
X.
I := {(−∞, a] : a ∈ R}
B ist. Dazu erinnern wir uns daran, dass wir in I.2.8 bereits
gezeigt haben, dass I := {(a, b] : a, b ∈ R} ein Erzeugendensystem von B ist. Nun ist
(a, b] = (−∞, b] \ (−∞, a] ∈ σ(I), da σ(I) eine σ -Algebra ist. Das heiÿt also B = σ(I) ⊂
σ(I). Umgekehrt ist R \ (−∞, a] = (a, ∞) oen und messbar. Dann liegt aber auch das
: Um i)
⇔
ii) zu zeigen werden wir beweisen, dass
ein Erzeugendensystem von
-
34
/
145
-
Ingo Bürk
Kapitel I.9
Zufallsvariablen
Seite 35
(−∞, a] ∈ B , d.h. es gilt I ⊂ B . Daraus folgt σ(I) ⊂ σ(B) = B , womit
insgesamt σ(I) = B folgt. Nun folgt die Äquivalenz mit I.9.4. Alle anderen Implikationen
funktionieren völlig analog.
Komplement
R := R ∪ {−∞, ∞} und B := {B ∪ U : B ∈ B und U ⊂ {−∞, ∞}}
σ -Algebra auf R und für X : Ω → R gilt die Charakterisierung aus I.9.6 für
Bemerkung: Für
ist B eine
(A, B)-Messbarkeit.
Korollar I.9.7
X, Y : (Ω, A) → (R, B), dann gilt {X < Y } := {ω ∈ Ω : X(ω) < Y (ω)} ∈
A. Das Gleiche gilt für {X ≤ Y }, {X = Y }, . . . und auch für X, Y : (Ω, A) →
(R, B).
Seien
Beweis
: Es ist
{X < Y } =
S
α∈Q {X
< α} ∩ {α < Y }.
Dies ist nach I.9.6 messbar.
Korollar I.9.8
(Ω, A) ein Messraum und A ⊂ Ω.
1A : Ω → R mit
(
0 ω∈
/A
1A (ω) :=
.
1 ω∈A
Sei
Betrachte die so genannte Indikatorfunktion
Dann sind die folgenden Aussagen äquivalent:
i)
ii)
1A
ist
(A, B)-messbar.
A ∈ A.
Beweis
α ∈ R gilt


α<0
∅
{1A ≤ α} = Ω \ A α ∈ [0, 1) .


Ω
α≥1
: Für
Damit ist die Richtung i)
Beispiel:
Die Indikatorfunktion
1Q
⇒ ii)
trivial, die Rückrichtung folgt aus I.9.6.
ist Borel-messbar, aber nirgends stetig.
-
35
/
145
-
Ingo Bürk
Kapitel I.9
Zufallsvariablen
Satz I.9.9
Seite 36
(Ω, A), (Ω0 , A0 ) und (Ω00 , A00 ) Messräume und X : (Ω, A) → (Ω0 , A0 ),
Y : (Ω0 , A0 ) → (Ω00 , A00 ). Dann ist Y ◦ X : (Ω, A) → (Ω00 , A00 ) messbar.
Seien
Beweis
sowie
: Betrachte
X −1 (Y −1 (A)) = {ω ∈ Ω : X(ω) ∈ Y −1 (A)}
= {ω ∈ Ω : X(ω) ∈ {ω 0 ∈ Ω0 : Y (ω 0 ) ∈ A}}
|
{z
}
d.h. Y (X(ω))∈A
−1
= (Y ◦ X) (A)
Damit ist
für alle
A ∈ A00 .
(Y ◦ X)−1 (A00 ) = X −1 (Y −1 (A00 )) ⊂ A.
Korollar I.9.10
X : (Ω, A) → (Rn , B n ) und g : Rn → Rm
(A, B m )-messbare Funktion.
Sei
Beweis
g
stetig. Dann ist
: Die Aussage folgt unmittelbar aus I.9.5 und I.9.9.
Satz I.9.11
Seien
mit
Xi : (Ω, A) → (R, B)
für alle
1 ≤ i ≤ n.
g◦X
eine
Dann ist
Y : Ω → Rn
ω 7→ (X1 (ω), . . . , Xn (ω))
eine
(A, B n )-messbare
Beweis
Funktion.
I = {(a, b] : a, b ∈ Rn } ein Erzeugendensystem von B n . Nach I.9.4 reicht
−1
zeigen, dass Y
(I) ⊂ A ist. Dazu betrachte
: Sei
es daher zu
Y −1 ((a, b]) = {ω ∈ Ωi : X1 (ω) ∈ (a1 , b1 ], . . . , Xn (ω) ∈ (an , bn ]}
n
\
=
Xi−1 ((ai , bi ]) ∈ A.
{z
}
|
i=1
∈A
-
36
/
145
-
Ingo Bürk
Kapitel I.9
Zufallsvariablen
Seite 37
Damit ist der Satz bewiesen.
Korollar I.9.12
Sind
X1 , X2 : (Ω, A) → (Rn , B n )
und
Y : (Ω, A) → (R, B),
so sind auch die folgen-
den Abbildungen messbar:
i)
ii)
iii)
αX1 + βX2
für alle
α, β ∈ R.
Y · X1 .
X1
t
mit der Konvention
Y
0
Beweis
: Die Addition
:= 0
für
t∈R
+ : Rn × Rn → Rn
(insbesondere auch für
t = 0).
und die Skalarmultiplikation sind jeweils
stetig. Daraus und nach I.9.10 und I.9.11 folgen 1.) und 2.). Wir zeigen nun 3.). Be1
(nach obiger Konvention ist damit H(0) = 0).
trachte hierfür H : R → R mit H(t) :=
t
X1
Dann gilt
=
(H
◦
Y
)
·
X
.
Damit
bleibt
nur noch zu zeigen, dass H messbar ist. Für
1
Y
B ∈ B ist auch B \ {0} ∈ B. Daraus folgt dann
H −1 (B) = H −1 (B \ {0} ∪ {0}) = H −1 (B \ {0}) ∪ H −1 ({0}) .
|
{z
} | {z }
∈B
Damit ist
H
messbar und damit auch
={0}∈B
X1
.
Y
Satz I.9.13
Xn : (Ω, A) → (R, B) für n ∈ N. Dann sind auch inf Xn , lim inf Xn , sup Xn ,
lim sup Xn und, falls existent, lim Xn jeweils (A, B)-messbar.
Seien
Beweis
inf Xn (ω) < α ⇔ ∃n ∈ N mit Xn (ω) < α.
[
{inf Xn < α} =
{Xn < α} ∈ A.
:
Daraus folgt
n∈N
Damit ist der Satz bewiesen.
-
37
/
145
-
Ingo Bürk
Kapitel I.9
Zufallsvariablen
Definition I.9.14
Xi : Ω → Ω i
Seien
Erzeugte
Abbildungen
σ -Algebra
für i ∈ I , wobei (Ωi , Ai )
Seite 38
Messräume sind. Dann
heiÿt
!
[
σ((Xi )i∈I ) := σ
Xi−1 (Ai )
i∈I
(Xi )i∈I erzeugte σ -Algebra auf Ω. Dies ist die kleinste σ -Algebra bezüglich
alle Xi messbar sind.
die durch
welcher
Ω := ×i∈I Ωi = {(ωi )i∈I : ωi ∈ Ωi } und πi : Ω → Ωi
πi ((ωj )j∈I ) := ωi .
Im Folgenden sei
das heiÿt
Definition I.9.15
(Ωi , Ai )
Seien
Produkt-σ -Algebra
Messräume für
i ∈ I,
Ω :=
so heiÿt die auf
die i-te Projektion,
×i∈I Ωi
denierte
σ-
Algebra
O
Ai := σ((πi )i∈I )
i∈I
die Produkt-σ -Algebra der
Ai .
Dies ist die kleinste
σ -Algebra
auf
Ω,
für die alle
Projektionen messbar sind.
Bemerkungen:
•
Im Folgenden heiÿt
πi−1 (Ai )
i ∈ I , Ai ∈ Ai
für
eine Zylindermenge. Es gilt für
I = {1, . . . , n}
πi−1 (Ai ) = Ωi × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωn
•
nT
−1
j∈J πj (Aj )
:J ⊂I
endlich,
Aj ∈ Aj
für
j∈J
o
Schnitte von Zylindermengen. Diese Mengen sind
von
•
Nn
N
i=1
i∈I
ist eine Menge endlicher
∩-stabile
Erzeugendensysteme
Ai .
Bi = B n .
Dies gilt auch für abzählbare Produkte.
-
38
/
145
-
Ingo Bürk
Kapitel I.10
Bildmaÿe und Verteilungen
Lemma I.9.16
Seien
(Ω, A)
X: Ω →
und
(Ωi , Ai ) (i ∈ I )
Messräume und
Xi : Ω → Ωi .
Seite 39
Dann sind für
×Ω
i
i∈I
ω 7→ (Xi (ω))i∈I
die folgenden Aussagen äquivalent:
i)
ii)
X
ist
(A,
N
Xi : Ω → Ω i
Beweis
N
:
1.)
⇒
i∈I
Ai )-messbar.
ist
(A, Ai )-messbar
2.):
Xi = π i ◦ X ,
für alle
i ∈ I.
dann gilt:
X
ist
(A,
N
i∈I
Ai )-messbar
Ai , Ai )-messbar (vgl. I.9.9).
S
N
−1
2.) ⇒ 1.): Da i∈I πi (Ai ) ein Erzeugendensystem von
i∈I Ai
(
und
πi
ist
i∈I
ist, reicht es nach I.9.4
zu zeigen, dass
!
X −1
[
πi−1 (Ai )
∈A
ist.
i∈I
Sei also
A ∈ Ai .
Dann gilt nach I.9.9:
X −1 (πi−1 (A)) = (πi ◦ X)−1 (A)
πi ◦X=Xi
=
n.V.
Xi−1 (A) ∈ A.
Damit ist das Lemma bewiesen.
I.10. Bildmaÿe und Verteilungen
Motivation: Bis jetzt hatten wir
untersuchen, was passiert, wenn
Definition I.10.1
P
X : (Ω, A) → (Ω0 , A0 )
betrachtet. Jetzt wollen wir
ein Wahrscheinlichkeitsmaÿ auf
(Ω, A)
ist.
Zufallsvariable, Zufallsvektor, Realisierung
(Ω, A, P ) ein Wahrscheinlichkeitsraum
X : (Ω, A) → (Ω0 , A0 ):
Ist
und
(Ω0 , A0 )
ein Messraum, so heiÿt
i) Zufallsvariable (ZV),
ii) reelle Zufallsvariable, falls
Ω0 = R
und
iii) erweiterte reelle Zufallsvariable, falls
-
39
A0 = B
ist,
Ω0 = R = R ∪ {±∞}
/
145
-
und
A0 = B
ist und
Ingo Bürk
Kapitel I.10
Bildmaÿe und Verteilungen
iv) Zufallsvektor, falls
Ferner heiÿt
X(ω)
für
Ω0 = Rn
ω∈Ω
und
A0 = B n
ist.
Realisierung von
X.
Satz I.10.2
(Ω, A, P ) ein Wahrscheinlichkeitsraum, (Ω0 , A0 )
X : (Ω, A) → (Ω0 , A0 ) eine Zufallsvariable. Dann ist
Seien
PX : A0 → [0, 1]
A0 7→ P (X −1 (A0 ))
für
oder auch Verteilung von
Beweis
ein Messraum und
A0 ∈ A0
(Ω0 , A0 ).
ein Wahrscheinlichkeitsmaÿ auf
Seite 40
Dieses heiÿt das Bildmaÿ von
X
auf
Ω0
X.
:
• PX (A) ∈ [0, 1]
ist klar, da
P
ein Wahrscheinlichkeitsmaÿ ist.
• PX (∅) = P (X −1 (∅)) = P (∅) = 0.
• σ -Additivität:
Seien
A01 , A02 , . . . ∈ A0
paarweise disjunkt. Dann ist
i6=j
X −1 (A0i ) ∩ X −1 (A0j ) = X −1 (A0i ∩ A0j ) = X −1 (∅) = ∅.
Die
X −1 (Ai )
PX
für
∞
[
A0i
i∈N
!
sind also paarweise disjunkt. Damit ist
Def.
= P
X −1
i=1
∞
[
!!
A0i
1.9.2
= P
i=1
=
∞
X
∞
[
!
X −1 (A0i )
i=1
∞
Def. X
−1
0
P (X (Ai )) =
PX (Ai ).
i=1
i=1
Damit ist der Satz bewiesen.
Bemerkung: Wenn
Ω0 = Ω
und
X = idΩ
ist, dann ist
PX = P .
Das heiÿt, jedes
Wahrscheinlichkeitsmaÿ ist ein Bildmaÿ und eine Verteilung bezüglich einer geeigneten
Zufallsvariablen.
-
40
/
145
-
Ingo Bürk
Kapitel I.10
Bildmaÿe und Verteilungen
Definition I.10.3
Seien
(Ω, A, P )
Seite 41
gleichverteilte Zufallsvariablen
und
(Ω0 , A0 , P 0 )
Wahrscheinlichkeitsräume und
(Ω00 , A00 )
ein Mess-
raum. Dann heiÿen
X : (Ω, A) → (Ω00 , A00 )
X 0 : (Ω0 , A0 ) → (Ω00 , A00 )
gleichverteilt (oder auch identisch verteilt) genau dann, wenn PX
−1
heiÿt wenn P (X
(A00 )) = P 0 ((X 0 )−1 (A00 )) für alle A00 ∈ A00 gilt.
= PX0
ist, das
Bemerkungen:
•
X : (Ω, A) → (R, B) eine reelle
B nach I.6.2 eine eindeutige Vertei0
lungsfunktion FX . Diese ist für t ∈ R durch FX (t) = PX ((−∞, t]) gegeben. Ist X
0
eine weitere reelle ZV, so sind X und X gleichverteilt genau dann, wenn FX = FX 0
Ist
(Ω, A, P )
ein Wahrscheinlichkeitsraum und
Zufallsvariable, so besitzt das Bildmaÿ
PX
auf
ist.
•
X und X 0 gleichverteilt sind, reicht es zu zeigen, dass
(A)) = P ((X ) (A)) für alle A aus einem ∩-stabilen Erzeugendensystem
Um zu zeigen, dass zwei ZV
−1
0 −1
P (X
gilt. Dies folgt aus I.5.3.
Beispiel I.10.4:
Betrachte nochmal das mehrfache Werfen einer unfairen Münze (vgl. I.3.5) für
p ∈ [0, 1]. Dann ist Ω = {0, 1}n (n Würfe) und A = P(Ω).PEin Wahrscheinlichn
k
n−k
keitsmaÿ ist gegeben durch P ({ω}) = p (1 − p)
mit k =
i=1 ωi .
Pn
Deniere nun X : Ω → R mit ω = (ω1 , . . . , ωn ) 7→
i=1 ωi , das heiÿt X(ω) entspricht der Anzahl der Einsen in ω . Dann ist X messbar, da A = P(Ω) und jede
Abbildung, die auf
für
(Ω, A)
startet, dann messbar ist. Das Bildmaÿ von
X
erfüllt
k = 0, . . . , n:
(
PX ({k}) = P (X
−1
ω∈Ω:
({k})) = P
n
X
)!
ωi = k
i=1
n k
=
p (1 − p)n−k = B(n, p, k).
k
1.3.5
-
41
/
145
-
Ingo Bürk
Kapitel I.10
Bildmaÿe und Verteilungen
Pn
PX ({k}) = 1. Damit folgt für eine beliebige
X
PX (A) =
PX ({k}) + PX (A \ {0, . . . , n})
|
{z
}
Es gilt
k=0
k∈{0,...,n}∩A
Menge
Seite 42
A ∈ B:
=0
= B(n, p, {0, . . . , n} ∩ A)
X
n k
=
p (1 − p)n−k .
k
k∈{0,...,n}∩A
Lemma I.10.5
Sei
(Ω, A, P ) ein Wahrscheinlichkeitsraum und (Ω0 , A0 ), (Ω00 , A00 ) Messräume, sowie
zwei Zufallsvariablen
X : (Ω, A) → (Ω0 , A0 )
Y : (Ω0 , A0 ) → (Ω00 , A00 ).
Dann gilt
PY ◦X = (PX )Y .
Beweis
: Für
A00 ∈ A00
gilt
PY ◦X (A00 ) = P ((Y ◦ X)−1 (A00 )) = P (X −1 (Y −1 (A00 )))
= PX (Y −1 (A00 )) = (PX )Y (A00 ).
Damit ist das Lemma bewiesen.
Satz I.10.6
Seien (Ωi , Ai , µi ) Maÿräume mit σ -endlichen Maÿen µi für endlich viele Indizes
N
N
i = 1, . . . , n. Dann existiert genau ein Maÿ ni=1 µi auf ni=1 Ai mit der Eigenschaft
!
n
n
n
O
Y
µi
Ai =
µi (Ai )
für alle Ai ∈ Ai , i = 1, . . . , n.
×
i=1
i=1
Insbesondere ist
i=1
Nn
i=1
λ1 = λn .
-
42
/
145
-
Ingo Bürk
Kapitel I.10
Beweis
Bildmaÿe und Verteilungen
Seite 43
: Der Beweis ndet sich u.a. in Klenke als Satz 14.14.
Satz I.10.7
Wahrscheinlichkeitsräume für i ∈ N. Dann existiert genau ein
N∞
Wahrscheinlichkeitsmaÿ
i=1 Pi mit der Eigenschaft
Seien
(Ωi , Ai , Pi )
∞
O
Pi (A1 × A2 × . . . × An × Ωn+1 × Ωn+2 × . . .) =
i=1
Pi (Ai )
i=1
für alle
Beweis
n
Y
n≥1
und
Ai ∈ Ai (i = 1, . . . , n).
: Der Beweis ndet sich u.a. in Klenke als Satz 14.33.
Definition I.10.8
gemeinsame Verteilung, Randverteilung
(Ω, A, P ) ein Wahrscheinlichkeitsraum, (Ωi , Ai )
und Xi : (Ω, A) → (Ωi , Ai ) Abbildungen. Betrachte
!
n
n
O
X : (Ω, A) →
Ωi ,
Ai
Sei
Messräume für
i = 1, . . . , n
×
i=1
i=1
ω 7→ (Xi (ω))ni=1
Dann heiÿt
i)
PX
die gemeinsame Verteilung der
Xi .
Beachte
n
−1
PX (A) = P ((X1 , . . . , Xn ) (A))
!
n
\
=P
Xi−1 (A) .
und falls
A=
×A
i
i=1
i=1
ii)
PXi
die Randverteilung bezüglich
Xi
von
PX .
Beachte
PXi (Ai ) = P (Xi−1 (Ai )) = PX (Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωn ).
Bemerkungen:
-
43
/
145
-
Ingo Bürk
Kapitel I.11
Integration
Seite 44
• PXi = Pπi ◦X .
•
Die Randverteilungen
•
Ist (Ω, A) = ×
PXi = Pπi =: PΩi .
n
i=1
PX1 , . . . , PXn legen PX nicht fest.
N
Ωi , ni=1 Ai und Xi = πi , so ist X = idΩ , PX = P
und
I.11. Integration
Motivation: Der Erwartungswert einer Zufallsvariable sollte der mittlere Wert der
Zufallsvariablen sein. Zum Beispiel:
• Ω = {ω1 , . . . , ωn }
mit
P
der Gleichverteilung auf
n
Ω
und
X : Ω → R.
Dort wäre
n
X
1X
X(ωi ) =
X(ωi )P ({ωi }).
EX =
n i=1
i=1
• Ω = N0
und
EX =
P
hat die Zähldichte
∞
X
X(i)pi =
i=0
∞
X
(pi )i≥0
und
X : Ω → R.
Dann wäre
Xi P ({i}).
i=0
• Ω = [0, 1], X(ω) = ω und P = λ1 .
Z 1
1
X(ω) dω = .
EX =
2
0
Dann wäre
Ziel: Das Denieren eines Integrals für Zufallsvariablen. Zum Beispiel für
(A
∈ A).
Z
X = 1A
Dann wäre
1A dµ = 1 · µ(A) + 0 · µ(Ω \ A) = µ(A).
Dies sollte ein Integral auf jeden Fall erfüllen. Auÿerdem sollte es linear und monoton
sein.
Definition I.11.1
Sei
(Ω, A)
Elementar-/Treppenfunktion
ein Messraum, so heiÿt eine messbare Funktion
f: Ω → R
Elementar-
oder Treppenfunktion genau dann, wenn
∃A1 ,...,An ∈A ∃c1 ,...,cn ∈R : f =
n
X
ci · 1Ai .
i=1
Wir schreiben
E(A)
für die Menge Treppenfunktionen auf
-
44
/
145
-
(Ω, A).
Ingo Bürk
Kapitel I.11
Integration
A ∈ E(A) wäre
Z
n
n Z
X
X
f dµ :=
ci µ(Ai ) =
ci · 1Ai dµ.
Der Ansatz für Treppenfunktionen
i=1
Seite 45
dann:
i=1
1
Pn
i=1 ci · Ai unabhängig, das heiÿt
ist dieser Integralbegri wohldeniert? Wir werden zeigen, dass dies wirklich der Fall
Frage: Ist diese Denition von der Darstellung
f=
ist.
Definition I.11.2
f ∈ E(A)
Normaldarstellung
Pn
1
ci · Ai Normaldarstellung genau
i=1S
n
dann, wenn die Ai paarweise disjunkt sind und
i=1 Ai = Ω gilt.
Für
Lemma I.11.3
Für
f ∈ E(A)
heiÿt eine Darstellung
f =
gilt:
i) Es gibt eine Normaldarstellung von
ii) Sind
Pn
i=1 ci
f=
n
X
· 1Ai
ci µ(Ai ) =
i=1
Beweis
i)
f
und
m
X
f=
f.
Pm
j=1
dj · 1Bj
Normaldarstellungen von
f,
so gilt
dj µ(Bj ).
j=1
:
kann nur endlich viele Werte annehmen, das heiÿt
f=
X
|f (Ω)| < ∞.
Dann ist
y · 1f −1 ({y})
y∈f (Ω)
eine Normaldarstellung.
S
Ai S
= m
j=1 (Ai ∩ Bj ) eine Vereinigung paarweise
n
Bj = i=1 (Ai ∩ Bj ). Damit können wir schreiben
ii) Es ist
für
n
X
ci µ(Ai ) =
X
dj µ(Bj ) =
X
i=1
m
X
j=1
disjunkter Mengen. Ebenso
ci µ(Ai ∩ Bj )
i,j
dj µ(Ai ∩ Bj ).
i,j
-
45
/
145
-
Ingo Bürk
Kapitel I.11
Integration
Seite 46
µ(Ai ∩ Bj ) > 0 existiert ein x ∈ Ai ∩ Bj . Dann ist nach der ersten
Darstellung von f aber ci = f (x), aus der anderen Darstellung folgt dj = f (x).
Also ist ci = dj , wenn das Maÿ des Schnitts nicht 0 ist.
Für
i
und
j
mit
Damit ist das Lemma bewiesen.
Damit haben wir wirklich die Unabhängigkeit von der Darstellung, welche die folgende
Denition ermöglicht:
Definition I.11.4
Für
f ∈ E(A)
µ
Z
f dµ :=
f dµ :=
Ω
Lemma I.11.5
Für
auf
f, g ∈ E(A)
R
i) Linearität:
und
A
i=1 ci
· 1Ai
ist das Integral
deniert durch
n
X
ci µ(Ai ).
i=1
α∈R
gilt:
(f + g) dµ =
R
f dµ +
ii) Monotonie: Wenn punktweise
Beweis
Pn
f =
mit einer Normaldarstellung
bezüglich dem Maÿ
Z
Integral von Elementarfunktionen
R
f ≤g
g dµ
und
gilt, so ist
R
R
(αf ) dµ = α f dµ.
R
R
auch
f dµ ≤ g dµ.
: Der Beweis ist einfach und rein technischer Natur, indem man einfach auf
Treppenfunktionen zurückgeht. Wir werden ihn an dieser Stelle daher auslassen.
Ziel: Wir wollen ein Integral für nicht-negative reelle Funktionen denieren. Die Idee
hierbei ist, diese Funktionen durch Elementarfunktionen zu approximieren und dann auf
den bereits eingeführten Integralbegri zurückzugreifen.
Lemma I.11.6
(Ω, A, µ) ein Maÿraum, f : Ω → [0, ∞] und f messbar.
Folge (fn ) ⊂ E(A) mit fn ≥ 0 und fn % f punktweise.
Sei
-
46
/
145
-
Dann existiert eine
Ingo Bürk
Kapitel I.11
Beweis
Integration
: Für
n∈N
Seite 47
denieren wir
fn := 2 · 1{f >2n } +
n
2n −1
2X
i=0
i
·1 i
i+1
2n { 2n ≤f < 2n }
Es gilt:
• 0 ≤ f1 ≤ f2 ≤ . . . .
• 0 ≤ f (x) − fn (x) ≤ 2−n ,
• fn (x) = 2n
falls
falls
f (x) < 2n .
f (x) ≥ 2n .
Damit haben wir alle Eigenschaften oensichtlich erfüllt.
Lemma I.11.7
(Ω, A, µ) ein Maÿraum, fn ∈ E(A) für n ≥ 1 und g ∈ E(A)
0 ≤ fn % f : Ω → [0, ∞] und 0 ≤ g ≤ f . Dann folgt
Z
Z
g dµ ≤ sup fn dµ.
Sei
mit
n≥1
Beweis
P
g= m
i=1 ci · 1Ai eine Normaldarstellung von g . Für α ∈ (0, 1) sei Bn :=
{f
≥
αg}
∈
A
und
es
ist fn ≥ αg · 1Bn ∈ E(A), da 1A · 1B = 1A∩B . Daraus folgt dann
R n
R
fn dµ ≥ α g · 1Bn dµ (∗). Auÿerdem gilt Bn % Ω und daraus folgt Bn ∩ Ai % Ai für
alle i = 1, . . . , n. Mit Hilfe der σ -Stetigkeit von unten von µ folgt dann
: Sei
Z
g dµ =
m
X
ci µ(Ai ) = lim
n→∞
i=1
m
X
Z
ci µ(Ai ∩ Bn ) = lim
n→∞
i=1
g · 1Bn dµ.
Daraus folgt dann aber
(∗)
Z
sup
Z
g · 1Bn dµ
Z
g · 1Bn dµ,
fn dµ ≥ sup α
n≥1
n≥1
≥ lim α
n→∞
woraus für
α→1
schlieÿlich die Behauptung folgt.
-
47
/
145
-
Ingo Bürk
Kapitel I.11
Integration
Korollar I.11.8
Seien
fn , gn ∈ E(A)
und
f : Ω → [0, ∞]
messbar mit
fn % f
und
Seite 48
gn % f .
Dann
folgt
Z
Z
sup
fn dµ = sup
n≥1
n≥1
Beweis
R
supi≥1
: Für ≥ betrachten wir I.11.7 für
fi dµ.
g := gn .
Damit ist dann
supn≥1
Die andere Ungleichung folgt aus Symmetriegründen.
Definition I.11.9
Sei
gn dµ.
f
gn dµ ≤
Integral nicht-negativer Funktionen
(Ω, A, µ) ein Maÿraum und f : Ω → [0, ∞] messbar, so
Z
Z
g dµ : g ∈ E(A) und 0 ≤ g ≤ f
f dµ := sup
das Integral von
R
bezüglich
ist
µ.
Bemerkungen:
•
Ist
0 ≤ fn % f : Ω → [0, ∞] und fn ∈ E(A),
Z
Z
f dµ = lim
fn dµ.
so ist
n→∞
•
R
(f + g) dµ =
•
R
f dµ ≥ 0.
R
f dµ +
R
g dµ
und
R
(αf ) dµ = α
R
f dµ
für
α ≥ 0.
Definition I.11.10
µ-Integrierbarkeit, Integral
Eine messbare Abbildung f : Ω → [−∞, ∞] heiÿt µ-integrierbar genau dann, wenn
Z
|f | dµ < ∞.
-
48
/
145
-
Ingo Bürk
Kapitel I.11
Integration
Seite 49
Dies ist genau dann der Fall, wenn
f + dµ < ∞ und f − dµ < ∞, wobei
f + = max{0, f } und f − = − min{0, f } ist. In diesem Fall denieren wir wegen
f = f + − f −:
R
Z
Z
f dµ :=
f
+
Z
dµ −
R
f − dµ.
Lemma I.11.11
Sei
(Ω, A, µ) ein Maÿraum und f, g : Ω → [−∞, ∞] zwei µ-integrierbare
α ∈ R. Dann gelten die folgenden Eigenschaften:
Funktio-
nen, sowie
i)
ii)
iii)
iv)
µ({|f | = ∞}) = 0.
R
R
R
(f + g) dµ = f dµ + g dµ mit der Konvention −∞ + ∞ := 0.
R
R
(αf ) dµ = α f dµ.
R
R
f ≤ g punktweise impliziert f dµ ≤ g dµ.
h : Ω → [−∞, ∞] messbar mit |h| ≤ f , so ist h
R
Für f ≥ 0 gilt
f dµ = 0 ⇔ µ({f 6= 0}) = 0.
R
R
f dµ ≤ |f | dµ.
v) Ist
vi)
vii)
Beweis
auch
µ-integrierbar.
:
A := {|f | = ∞}
µ(A) > 0 ist, betrachte die Folge (fn ) aus
n
Beweis von I.11.6. Diese erfüllt fn (ω) = 2 für ω ∈ A. Zudem wissen wir,
0 ≤ 1A · fn ≤ fn und 1A · fn ∈ E(A). Dann ist
Z
Z
|f | dµ = lim
fn dµ
n→∞
Z
≥ lim
1A · fn dµ = lim 2n · µ(A) = ∞.
i) Falls für
gilt, dass
n→∞
dem
dass
n→∞
Dies ist aber ein Widerspruch dazu, dass
f µ-integrierbar
ist.
ii) Einfach.
iii) Einfach.
f ≤ Rg folgt g − f ≥ 0.
R
g dµ ≥ f dµ.
R
|h| dµ ist erklärt und aus iv)
iv) Für
v)
Daraus folgt aber
folgt dann
-
49
/
145
R
-
R
(g − f ) dµ ≥ 0
|h| dµ ≤
R
und damit
f dµ < ∞.
Ingo Bürk
Kapitel I.11
Integration
Seite 50
An := {f ≥ n−1 } % {f > 0} =: A. Falls µ(A) > 0 wäre, so
σ -Stetigkeit von unten, dass es ein n ∈ N gibt mit µ(An ) > 0. Dann
vi) ⇒: Betrachte
aus der
folgt
folgt
aber
1
0<
n
Z
1An dµ ≤
Z
f dµ,
wobei für die letzte Abschätzung
n−1 1An ≤ f
benutzt wurde. Dies ist aber ein
Widerspruch.
⇐: Sei
R
0 ≤ g ≤ f mit g ∈ E(A). Dann ist auch µ({g 6= 0}) = 0.
g dµ = 0, dann ist aber auch
Z
Z
f dµ = sup
g dµ : 0 ≤ g ≤ f , g ∈ E(A) = 0.
vii) Aus
f ≤ |f |
folgt nach iv), dass
R
f dµ ≤
R
|f | dµ
ist. Analog für
Daraus folgt
−f ≤ |f |.
Damit ist das Lemma vollständig bewiesen.
Bemerkungen:
•
Es gibt
spiel
•
λ-integrierbare
1Q .
Funktionen, die nicht Riemann-integrierbar sind, zum Bei-
f : [a, b] → R Riemann-integrierbar, dann folgt, dass f auch λ-integrierbar ist
R
Rb
und es gilt
f dλ = a f (t) dt. Dies gilt aber wirklich nur für Funktionen, die
Ist
auf einem kompakten Intervall Riemann-integrierbar sind, nicht jedoch für nur
uneigentlich Riemann-integrierbare Funktionen.
•
Unterschied zwischen Riemann- und Lebesgue-Integral:
Die Arbeit für das
Definition I.11.12
Sei
(Ω, A, P )
λ-Integral
liegt in der Konstruktion von
λ.
Erwartungswert
ein Wahrscheinlichkeitsraum und
X : Ω → R eine P -integrierbare
X deniert als
Zufallsvariable. Dann ist der Erwartungswert von
Z
EP X = EX :=
Beachte:
X dP .
EP 1A = P (A).
Auÿerdem erfüllt
-
50
/
EP
145
die Eigenschaften aus I.11.11.
-
Ingo Bürk
Kapitel I.11
Integration
Satz I.11.13
Seite 51
Satz von Beppo Levi I und II
Satz von Beppo Levi I / Satz zur monotonen Konvergenz:
Seien
f
fn : Ω → [0, ∞]
messbar für
n≥1
und
fn % f
punktweise. Dann folgt, dass
messbar und nicht-negativ ist. Auÿerdem gilt dann
Z
Z
f dµ = lim
Z
fn dµ = sup
n→∞
fn dµ.
n≥1
Satz von Beppo Levi II:
(fn ) ⊂ L1 (µ) (d.h. |fn | ist Lebesgue-integrierbar) und fn % f : Ω → R µ-fast
sicher, das heiÿt µ({lim fn 6= f }) = 0. Dann gilt
Z
Z
Z
Z
+
lim
fn dµ = f dµ = f dµ − f − dµ.
Seien
n→∞
Beweis
: (Satz
Konstruiere
von Beppo Levi I)
(gn ) ∈ E(A)
existiert eine Folge
Wir denieren nun
mit
0 ≤ gn % f
gn ≤ fn .
und
(n)
(n)
Dazu überlegen wir uns: Zu
fn
i→∞
(gi )i≥1 ⊂ E(A) mit 0 ≤ gi % fn . Dies folgt aus I.11.6.
(j)
gn := max1≤j≤n gn . Dann gelten die folgenden Eigenschaften:
• gn ∈ E(A).
(j)
(j)
(j)
• gn+1 = max1≤j≤n+1 gn+1 ≥ max1≤j≤n gn+1 ≥ max1≤j≤n gn = gn ,
die Folge ist also
monoton wachsend.
(n)
• gn ≥ gn % f .
(j)
• gn ≤ fj ≤ fn
Damit folgt insbesondere
für
j≤n
gn % f .
und damit aus der Denition der
gn
auch
gn ≤ fn .
Damit ist dann auch
Z
R
-Def.
Z
Z
f dµ = sup
gn dµ ≤ sup
n≥1
n≥1
fn dµ.
Für die andere Ungleichungsrichtung folgt aus
Z
Z
fn dµ ≤
Z
f dµ ⇒ sup
fn ≤ f :
Z
fn dµ ≤
f dµ.
n≥1
Damit ist der Beweis abgeschlossen.
-
51
/
145
-
Ingo Bürk
Kapitel I.11
Beweis
:
Integration
Seite 52
(Satz von Beppo Levi II)
Sei N ⊂ Ω eine µ-Nullmenge, so dass fn (ω) % f (ω) für alle ω ∈
fn0 := (fn − f1 ) · Ω\N ≥ 0 und f 0 := (f − f1 ) · Ω\N ≥ 0. Es ist
Damit können wir nach I.11.13 wie folgt vorgehen:
1
1
Z
Z
(fn − f1 ) dµ =
|
Ω \ N . Deniere nun
fn0 % f 0 punktweise.
Z
(fn − f1 ) · 1Ω\N dµ + (fn − f1 ) · 1N dµ ,
{z
} |
{z
}
→I.11.13
=0 nach I.11.11
und im Grenzübergang dann:
Z
Z
(f − f1 ) dµ =
(f − f1 ) · 1Ω\N dµ +
Z
(f − f1 ) · 1N dµ
|
{z
}
=0
Damit ist der Satz bewiesen.
Lemma I.11.14
Seien
Lemma von Fatou
fn : Ω → [0, ∞]
messbar für
Z
n ≥ 1.
Dann folgt
Z
lim inf fn dµ ≤ lim inf
n→∞
Beachte:
Beweis
n→∞
fn ≥ 0
ist wirklich notwendig.
: Deniere
gn := inf m≥n fm
fn dµ.
mit
f := lim inf n→∞ fn , das heiÿt f : Ω → [0, ∞]. Auÿerdem deniere
gn : Ω → [0, ∞]. Es ist 0 ≤ gn % f und aus dem Satz von Beppo
Levi folgt damit
Z
Z
f dµ =
lim gn dµ
Beppo Levi
n→∞
=
Z
lim
gn ≤ fm für alle m ≥ n und damit
Z
Z
gn dµ ≤ fm dµ ≤ inf
fm dµ.
Ferner gilt
Z
gn dµ.
n→∞
folgt dann
m≥n
Setzt man dies zusammen, so folgt die Behauptung.
-
52
/
145
-
Ingo Bürk
Kapitel I.11
Integration
Korollar I.11.15
(An ) ⊂ A und ein Wahrscheinlichkeitsmaÿ P
P lim inf An ≤ lim inf P (An )
n→∞
n→∞
lim sup P (An ) ≤ P lim sup An .
Für
n→∞
Beweis
Seite 53
gilt:
n→∞
: Wende das Lemma von Fatou auf
fn := 1An ≥ 0 und lim inf 1An = 1lim inf An
an, daraus folgt die erste Behauptung. Die zweite Behauptung folgt dann aus der Bildung
von Komplementen.
Satz I.11.16
Satz von der majorisierten Konvergenz (Lebesgue)
fn : Ω → [−∞, ∞] messbar (n ≥ 1), f, g : Ω → [−∞, ∞] messbar, sowie
fn → f und |fn | ≤ g für n ≥ 1. Ist g µ-integrierbar, so folgt, dass auch f µSeien
integrierbar ist und es gilt
Z
Z
lim fn dµ =
Beweis
: Aus
Z
f dµ = lim
|fn | ≤ g
folgt, dass
fn dµ
|f | ≤ g
ist und damit die
µ-Integrierbarkeit
von
f.
−f ≤ g und daraus folgt 0 ≤ f + g . Damit ist dann
Z
Z
f dµ = (f + g) dµ =
lim (fn + g) dµ
n→∞
Z
= lim inf (fn + g) dµ
n→∞
Z
Z
Z
Fatou
≤ lim inf (fn + g) dµ = lim inf fn dµ + g dµ
Auÿerdem ist dann auch
Z
Z
g dµ +
n→∞
Subtrahiert man das Integral über
Z
n→∞
g
auf beiden Seiten, so folgt dann
Z
f dµ ≤ lim inf
n→∞
fn dµ.
-
53
/
145
-
Ingo Bürk
Kapitel I.11
Integration
Analog für die andere Richtung folgt aus
Es ist
|fn | ≤ g ,
lim inf −fn = − lim sup fn . Damit ist dann
Z
Z
− f dµ ≤ − lim sup fn dµ
Z
Z
⇒ lim sup fn dµ ≤ f dµ.
dass
f ≤g
0 ≤ g − f.
wie eben schon
Die Behauptung folgt dann durch Zusammensetzen und
Satz I.11.17
ist und damit
Seite 54
lim inf ≤ lim sup.
Satz von Tonelli
(Ωi , Ai , µi ) für i = 1, 2 σ -endliche Maÿräume und f : Ω1 × Ω2 → [0, ∞]
(A1 ⊗ A2 , B([0, ∞]))-messbar. Dann sind die Funktionen
Z
ω1 7→
f (ω1 , ω2 ) dµ2 (ω2 )
Ω2
Z
ω2 7→
f (ω1 , ω2 ) dµ1 (ω1 )
Seien
sei
Ω1
messbar und es gilt
Z
Z
Z
f d (µ1 ⊗ µ2 ) =
f (ω1 , ω2 ) dµ2 (ω2 ) dµ1 (ω1 )
Ω1
Z
Ω2
Z
=
f (ω1 , ω2 ) dµ1 (ω1 ) dµ2 (ω2 ).
Ω2
Beweis
Ω1
: Der Beweis ndet sich in Meintrup+Schäer als Satz 2.24 oder in Klenke
als Satz 14.16.
Satz I.11.18
Satz von Fubini
(Ωi , Ai , µi ) für i = 1, 2 σ -endliche Maÿräume
(µ1 ⊗ µ2 )-integrierbar. Dann sind die Funktionen
Z
ω1 7→
f (ω1 , ω2 ) dµ2 (ω2 )
Ω2
Z
ω2 7→
f (ω1 , ω2 ) dµ1 (ω1 )
Seien
und
f : Ω1 × Ω2 → R
sei
Ω1
-
54
/
145
-
Ingo Bürk
Kapitel I.11
Integration
Seite 55
ebenfalls integrierbar und es gilt
Z
Z
Z
f d (µ1 ⊗ µ2 ) =
f (ω1 , ω2 ) dµ2 (ω2 ) dµ1 (ω1 )
Ω1
Z
Ω2
Z
=
f (ω1 , ω2 ) dµ1 (ω1 ) dµ2 (ω2 ).
Ω2
Beweis
Ω1
: Die Beweise nden sich wie beim Satz I.11.17 in Meintrup+Schäer als
Satz 2.24 und in Klenke als Satz 14.16, da die beiden Sätze dort jeweils zusammen
bewiesen werden.
Satz I.11.19
Sei
(Ω, A, µ) ein σ -endlicher Maÿraum
Z
Z
f dµ =
µ ({f > t}) dt
[0,∞)
Z
=
µ ({f ≥ t}) dt.
und
f : Ω → [0, ∞)
messbar. Dann gilt
[0,∞)
Insbesondere: Für ein Wahrscheinlichkeitsmaÿ
f
P = µ und eine Zufallsvariable X =
gilt
Z
(1 − FX (t)) dt.
EP X =
[0,∞)
Beweis
F : Ω × [0, ∞) → R2
(ω, t) 7→ (f (ω), t). Nach I.9.16 ist diese
2
Funktion messbar. Auÿerdem ist die Menge H := {(x, y) ∈ R : x > y} messbar, da
h : (x, y) 7→ x − y die Gleichung h−1 ({(0, ∞)}) = H erfüllt. Sei nun E := {(ω, t) ∈
Ω × [0, ∞) : f (ω) > t}. Es ist E = F −1 (H) und damit messbar. Nun ist
Z Z
Z
Z
Tonelli
1E (ω, t) dt dµ(ω) =
1E (ω, t) dµ(ω) dt
Ω [0,∞)
[0,∞) Ω
Z
Z
=
µ({f > t}) dt +
1E (ω, t) dµ(ω) = µ({f > t}),
: Betrachte
mit
[0,∞)
da
Ω
1E (ω, t) = 1 ⇔ f (ω) > t. Ferner ist
Z
1[0,f (ω)) (t) dt.
f (ω) = f (ω) − 0 = λ([0, f (ω))) =
[0,∞)
-
55
/
145
-
Ingo Bürk
Kapitel I.11
Integration
Seite 56
Damit folgt dann
Z
Z
Z Z
f (ω) dµ(ω) =
1[0,f (ω)) (t) dt dµ(ω)
Ω [0,∞)
Z Z
1E (ω, t) dt dµ(ω),
=
f dµ =
Ω
Ω
Ω
[0,∞)
wobei die letzte Gleichung wegen
analog durch, indem man
Satz I.11.20
1[0,f (ω)) (t) = 1E (ω, t)
f (ω) ≥ t
betrachtet und
gilt. Den Fall ≥
f (ω) = λ([0, f (ω)])
t
führt man
benutzt.
Transformationsformel
(Ω, A, P ) ein Wahrscheinlichkeitsraum, (Ω0 , A0 ) ein Messraum, X : Ω → Ω0 eine
0
Zufallsvariable und f : Ω → [−∞, ∞] messbar. Dann sind die folgenden Aussagen
Sei
äquivalent:
i)
ii)
f
ist
PX -integrierbar.
f ◦X
ist
P -integrierbar.
Ist eine der Bedingungen (und damit beide) erfüllt, so gilt
Z
Z
f ◦ X dP =
f dPX
.
Ω0
Ω
Beweis
: Zunächst betrachten wir die Indikatorfunktion
f = 1A .
Die Äquivalenz der
Aussagen ist damit klar. Dann ist
Z
Z
f ◦ X dP =
Ω
ZΩ
=
Ω0
1X −1 (A) dP = P (X −1 (A)) = PX (A)
1A dPX =
Z
f dPX .
Ω0
Als zweiten Schritt betrachten wir Treppenfunktionen
f =
Pm
1
i=1 ci Ai . Hier folgt alles
aus dem eben Bewiesenen und der Linearität von Integralen.
0
Im dritten Schritt sei f : Ω → [0, ∞) messbar. Wähle nun eine Folge 0 ≤ fn % f und
fn ∈ E(A0 ). Daraus folgt sofort 0 ≤ fn ◦ X % f ◦ X und es gilt wieder fn ◦ X ∈ E(A).
Es folgt
Z
f ◦ X dP
Beppo Levi
Z
lim fn ◦ X dP
Z
2. Schritt
= lim fn dPX
Z
Beppo Levi
=
f dPX .
=
-
56
/
145
-
Ingo Bürk
Kapitel I.12
Dichten und der Satz von Radon-Nikodym
Im vierten Schritt schlieÿlich sei
f PX -integrierbar,
dann zerlege
Seite 57
f = f + − f −.
Die
Behauptungen folgen dann aus dem dritten Schritt und der Linearität.
I.12. Dichten und der Satz von Radon-Nikodym
Motivation: Die Konstruktion neuer Maÿe.
Satz I.12.1
Sei
(Ω, A, µ)
f : Ω → [0, ∞] messbar. Dann ist ν : A → [0, ∞],
1A · f dµ (A ∈ A), ein Maÿ auf A. Für N ∈ A gilt
ein Maÿraum und
R
ν(A) :=
µ(N ) = 0 ⇒ ν(N ) = 0 (∗).
Die Funktion f heiÿt die Dichte von ν bezüglich µ. Ist ν σ -endlich, so ist f µ-fast
R
0
sicher eindeutig, das heiÿt für f : Ω → [0, ∞] mit ν(A) =
1A · f 0 dµ (A ∈ A)
dν
0
für die Dichte und sagen: Ein Maÿ ν
folgt µ({f 6= f }) = 0. Wir schreiben f =:
dµ
R
hat die Dichte f bezüglich µ genau dann, wenn ν(A) =
1A · f dµ gilt. Auÿerdem
sagen wir, dass ein Maÿ ν absolut stetig bezüglich µ ist genau dann, wenn (∗) gilt.
Wir schreiben dann ν µ.
gegeben durch
Beweis
Setze
:
fn :=
ist klar. Für die σ -Additivität seien An ∈ A paarweise disjunkt.
S∞
Ai f und A :=
i=1 Ai . Dann folgt 0 ≤ fn % A f . Ferner ist
ν(∅)
Pn = 0
i=1
ν(A) =
1
1
Z X
∞
1Ai f dµ
i=1
Beppo Levi
=
= lim
Z
lim
n Z
X
n→∞
n→∞
| P
{zi=1} |
=
=
∞
X
∞
i=1
fn dµ
1Ai f dµ
{z
=ν(Ai )
}
ν(Ai ).
i=1
Um (∗) zu zeigen gehen wir wie folgt vor: Es gilt
0}) = 0.
1N f ≥ 0. Aus µ(N ) = 0 folgt µ({1N f 6=
Aus I.11.11 folgt dann
Z
0=
1N f dµ = ν(N ).
Zu beweisen ist noch die Eindeutigkeit. Darauf werden wir hier verzichten.
-
57
/
145
-
Ingo Bürk
Kapitel I.12
Dichten und der Satz von Radon-Nikodym
Frage: Wann hat ein Maÿ
ν
eine Dichte bezüglich
Seite 58
µ?
1. Antwort: Nicht immer, zum Beispiel hat das Dirac-Maÿ
(
1 0∈A
δ{0} (A) =
0 0∈
/A
keine Dichte bezüglich dem Lebesgue-Maÿ, denn falls es eine Dichte gäbe, so würde aus
λ({0}) = 0
folgen, dass auch
Satz I.12.2
Seien
µ
δ{0} (A) = 0
ist, dies ist aber nicht der Fall.
Satz von Radon-Nikodym
und
ν σ -endliche
Maÿe auf einem Messraum
(Ω, A).
Dann sind die folgen-
den Aussagen äquivalent:
i)
ii)
ν µ.
ν
hat eine Dichte bezüglich
Beweis
µ.
: Der Beweis ndet sich in Klenke als Satz 7.34 und in Meintrup+Schäer
als Satz 2.38.
Korollar I.12.3
(Ω, A)
Sei
ein Messraum und
µ
ein
σ -endliches
und
ν
ein endliches Maÿ auf
A.
Dann sind die folgenden Aussagen äquivalent:
i)
ii)
ν µ.
∀ε > 0 ∃δ > 0 ∀A ∈ A : µ(A) ≤ δ ⇒ ν(A) ≤ ε.
Beweis
Satz I.12.4
(Ω, A)
Sei
f=
i)
ii)
h
: Der Beweis ndet sich in Meintrup+Schäer als Korollar 2.40.
ein Messraum und µ, ν zwei σ -endliche Maÿe mit ν dν
. Dann sind für h : Ω → R die folgenden Aussagen äquivalent:
dµ
ist
h·f
µ.
Sei ferner
ν -integrierbar.
ist
µ-integrierbar.
-
58
/
145
-
Ingo Bürk
Kapitel I.12
Dichten und der Satz von Radon-Nikodym
Seite 59
In diesem Fall gilt
Z
Z
h dν =
Beweis
h · f dµ.
: Der Beweis erfolgt wieder dadurch, dass man den Satz schrittweise für Indi-
katorfunktionen, Treppenfunktionen, nicht-negative Funktionen und schlieÿlich für beliebige Funktionen beweist. Dabei werden Linearität, der Satz von Beppo Levi u.ä.
benutzt.
-
59
/
145
-
Ingo Bürk
Kapitel II.1
Momente von Zufallsvariablen
Seite 60
II. Wahrscheinlichkeitstheorie
II.1. Momente von Zufallsvariablen
Definition II.1.1
p-fache µ-Integrierbarkeit
Sei (Ω, A, µ) ein Maÿraum und p > 0. Dann heiÿt ein messbares f : Ω → R p-fach
µ-integrierbar genau dann, wenn |f |p µ-integrierbar ist.
Wir schreiben Lp (µ) := {f : Ω → R : f ist p-fach µ-integrierbar} und denieren
1
R
p p
.
eine Norm kf kL (µ) = kf kp :=
|f
|
p
Bemerkungen:
•
Minkowski-Ungleichung ( 4 -Ungleichung): Für
kf + gkp ≤ kf kp + kgkp
p≥1
gilt
f, g ∈ Lp (µ).
Der Beweis wird hier nicht geführt.
•
Bis auf kf kp
für
•
= 0 ⇒ f = 0
erfüllt
k·kp
alle Eigenschaften einer Norm auf
Lp (µ)
p ≥ 1.
r, p, q > 0 mit r−1 = p−1 + q −1 .
f · g ∈ Lr (µ) ist und
Hölder-Ungleichung: Seien
Lp (µ)
und
g ∈ Lq (µ),
dass
Dann gilt für
f ∈
kf · gkr ≤ kf kp · kgkq .
Der Beweis wird hier nicht geführt.
Lemma II.1.2
Ist
(Ω, A, µ)
ein endlicher Maÿraum und
0 < p < q < ∞,
so gilt
Lq (µ) ⊂ Lp (µ)
und
kf kp ≤ (µ(Ω))
Ist
µ
q−p
pq
· kf kq
für
f ∈ Lq (µ).
ein Wahrscheinlichkeitsmaÿ, so ist insbesondere
-
60
/
145
-
kf kp ≤ kf kq .
Ingo Bürk
Kapitel II.1
Momente von Zufallsvariablen
Beweis
q −1 +
1
: Es sei g := Ω . Da p
−1
s = p−1 ist, nämlich s =
Seite 61
−1
ist gilt q
< p−1 . Es existiert ein s > 0, so dass
pq
. Wir wenden nun die Hölder-Ungleichung an:
q−p
<q
kf kp = kf gkp ≤ kgks · kf kq
Z
1s
s
≤
1Ω dµ · kf kq
1
≤ (µ(Ω)) s · kf kq
≤ (µ(Ω))
q−p
pq
· kf kq .
Damit ist das Lemma bewiesen.
Definition II.1.3
(zentriertes)
k -tes
Moment, Varianz, Streuung
(Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable, die
P -integrierbar ist, dann heiÿen für k ∈ N
Sei
i)
ii)
EP X k
das
k -te
EP (X − EP X)
falls für ungerade
k
Moment,
das
k -te
zentrierte Moment,
k die Erwartungswerte existieren. Letzteres ist erfüllt, falls |X|k ∈
L1 (P ).
2
Für k = 2 und X ∈ L1 (P ) heiÿt VarP (X) := EP (X − EP X)
p
und σX :=
VarP (X) die Streuung von X .
Beachte:
i)
ii)
X
VarP (X) < ∞ ⇔ (X − EX) ∈ L2 (P ) ⇔ X ∈ L2 (P ).
Lemma II.1.4
Sei
die Varianz von
X ∈ L1 (P ).
Dann gilt
VarP (X) = EP X 2 − (EP X)2 .
VarP (aX + b) = a2 VarP (X) für a, b ∈ R, wobei a 6= 0 für VarP (X) = ∞ sein muss.
Beweis
1. Fall:
:
X ∈ L2 (P ).
-
61
/
145
-
Ingo Bürk
Kapitel II.1
Momente von Zufallsvariablen
Seite 62
i) Es ist
VarP (X) = EP (X − EP X)2 = EP (X 2 − 2XEP X + (EP X)2 )
= EP X 2 − 2EP (XEP X) + EP (EP X)2
= EP X 2 − 2(EP X)(EP X) + (EP X)2
= EP X 2 − (EP X)2 .
ii) Hier gilt
VarP (aX + b) = EP (aX + b − EP (aX + b))2
EP b=b
= EP (aX − EP (aX))2
= a2 EP (X − EP X)2
= a2 VarP (X).
VarP (X) = ∞.
2. Fall:
i) Auf beiden Seiten steht dann
X ∈
/ L2 (P )
ii) Aus
folgt
Seiten steht dann
∞.
aX ∈
/ L2 (P )
und damit auch
aX + b ∈
/ L2 (P ).
Auf beiden
∞.
Damit ist der Beweis vollständig.
Lemma II.1.5
Es sei
x2
1
ϕ(x) := √ e− 2
2π
Dann gilt für
i)
ii)
iii)
R
RR
RR
R
ϕ
k ∈ N0 :
ϕ(x) · x2k+1 dλ(x) = 0
(es ist
ϕ(x) · x2k+2 dx = (2k + 1)
R
R
dλ(x) = dx).
ϕ(x) · x2k dx.
ϕ(x) dx = 1.
Beweis
i)
x ∈ R.
:
ist achsensymmetrisch um
0.
Durch die Multiplikation mit
x2k+1
wird der Inte-
grand zur ungeraden Funktion.
-
62
/
145
-
Ingo Bürk
Kapitel II.1
Momente von Zufallsvariablen
Seite 63
ii) Es ist
Z
ϕ(x) · x
2k
R
2
dx = √
2π
Z
∞
x2
e− 2 x2k dx
0
∞
Z ∞
2k+1
2k+1
x2 x
x2 x
2
2
− 2
= √
dx
e
(−x)e− 2
−√
2k + 1 2k + 1
2π
2π
0
0
|
{z
}
=0−0
Z ∞
2k+2
x2 x
2
=√
dx
e− 2
2k + 1
2π 0
Z
2k+2
x2 x
1
=√
dx.
e− 2
2k + 1
2π R
part.Int.
Daraus folgt die Behauptung.
iii) Der Beweis wird hier nicht geführt, da dieser etwas umfangreicher ist.
Damit ist das Lemma bewiesen.
Beispiel II.1.6:
µ∈R
Für
und
ϕµ,σ (x) = √
Normalverteilung
σ>0
1
2πσ 2
sei
e−
(x−µ)2
2σ 2
x∈R
Dann gilt mit Substitution und II.1.5
Z
ϕµ,σ dλ = 1.
R
Das Wahrscheinlichkeitsmaÿ mit der Dichte
ϕµ,σ
bezüglich
λ
heiÿt Normalvertei-
lung mit Parametern µ und σ . Wir schreiben für dieses Wahrscheinlichkeitsmaÿ
N (µ, σ 2 ). N (0, 1) heiÿt Standardnormalverteilung.
Sei
(Ω, A, P )
i)
E P X = µ.
ein Wahrscheinlichkeitsraum und X : Ω
2
Zufallsvariable, das heiÿt PX = N (µ, σ ). Dann gilt
ii)
→R
eine
N (µ, σ 2 )-verteilte
VarP (X) = σ 2 .
Beweis
: Wir leiten beide Eigenschaften getrennt her:
-
63
/
145
-
Ingo Bürk
Kapitel II.1
Momente von Zufallsvariablen
Seite 64
i) Es ist
Z
Z
X dP = idR ◦X dP
Z
I.11.20
=
idR dPX
Z
(x−µ)2
1
=√
xe− 2σ2 dx
2πσ 2 Z
x2
1
=√
(x + µ)e− 2σ2 dx
2πσ 2 Z
Z
2
2
1
− x2
− x2
=√
xe 2σ dx + µ e 2σ ddx
2πσ 2
!
Z
Z
x2
x2
1
=√
e− 2 dx
xe− 2 dx +µ
2π |
|√ {z }
{z
}
EP X =
=0 nach II.1.5
= 2π nach II.1.5
= µ.
R
f (t) = (t − µ)2 . Dann ist
Z
(x−µ)2
1
2 I.11.20
(x − µ)2 e− 2σ2 dx
EP (X − EP X) = √
2πµ
2 Z
x2
Subst. σ
= √
x2 e− 2 dx
2π
2 Z
x2
II.1.3 σ
= √
e− 2 dx
2π
ii) Betrachte
f ◦ X dP
für
II.1.3
= σ2.
Es gilt zudem noch:
Beweis
: Es sei
Y := σ1 (X − µ)
f (t) :=
ist
N (0, 1)-verteilt.
t−µ
. Es ist
σ
I.10.5
PY (A) = Pf ◦X (A) = (PX )f (A)
1
Z
= N (µ, σ )(f (A)) = √
1f −1 (A) (x)e−
2
2πσ 2
Z
1
x − µ − (x−µ)
=√
1A
e 2σ2 dx
σ
2πσ 2 Z
x2
Subst. 1
1A (x)e− 2 dx
= √
2π
= N (0, 1)(A).
2
−1
-
64
/
145
-
(x−µ)2
2σ 2
dx
Ingo Bürk
Kapitel II.1
Momente von Zufallsvariablen
Satz II.1.7
Seite 65
Markov'sche Ungleichung
(Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable,
dass X ∈ Lq (P ) für q > 0. Dann gilt für alle t > 0 die folgende Ungleichung:
Sei
P ({|X| ≥ t}) ≤
EP |X|q
.
tq
Die Ungleichung schätzt die Konvergenz von
q=2
so
P ({|X| ≥ t}) → 0 für t → ∞ ab. Für
ergibt sich der Spezialfall der so genannten Tschebyscheff-Ungleichung.
Beweis
1
1 ≤ |X|q .
q
q
: Sei At := {ω ∈ Ω : |X(ω)| ≥ t} (t > 0). Dann folgt t At ≤ |X| At
q
q
q
Damit folgt t P (At ) = EP t At ≤ EP |X| . Damit folgt die Behauptung.
1
Satz II.1.8
Umkehrung
(Ω, A, P ) ein
dass es ein c > 0
Sei
X ∈ Lq−ε (P )
Beweis
Z
X : Ω → R eine Zufallsvariable,
P ({|X| ≥ t}) ≤ ct−q . Dann gilt
Wahrscheinlichkeitsraum und
und ein
q>0
für alle
ε>0
gibt mit
mit
so
q − ε > 0.
: Es ist
q−ε
|X|
dP
I.11.19
Z
P ({|X|q−ε ≥ t}) dt
=
Z [0,∞)
1
P ({|X| ≥ t q−ε }) dt
=
Z[0,∞)
Z
q
1 dt +
ct− q−ε dt
≤
[0,1]
[1,∞)
| {z } |
{z
}
=1
<∞
< ∞.
Damit ist der Satz bewiesen.
-
65
/
145
-
Ingo Bürk
Kapitel II.2
Unabhängigkeit
Seite 66
Lemma II.1.9
(Ω, A, P ) und (Ω0 , A0 , P 0 ) Wahrscheinlichkeitsräume und X : Ω → R, X 0 :
Ω → R Zufallsvariablen, die identisch verteilt sind, das heiÿt PX = PX0 0 . Dann
Seien
0
sind die folgenden Aussagen äquivalent:
X ∈ Lq (P ).
i)
X 0 ∈ Lq (P 0 ).
ii)
In diesem Fall gilt
Beweis
EP X q = EP 0 (X 0 )q .
: Es ist
q
Z
EP |X| =
q
Trafo
Z
| idR ◦X| dP =
Z
q
| idR | dPX =
| idR |q dPX0 0 = . . . = EP 0 |X 0 |q .
Damit ist das Lemma bewiesen.
II.2. Unabhängigkeit
Ω = {1, . . . , 6}2
und P sei die Gleichverteilung. Betrachte nun die Wahrscheinlichkeiten P (1. Wurf =
1
. Hier gilt also
6) = 16 , P (2. Wurf = 6) = 16 und P (1. und 2. Wurf = 6) = 36
Beispiel: Wir führen ein 2-maliges Werfen eines Würfels durch. Es ist
P (1.
und 2. Wurf
= 6) =
1
1 1
= · = P (1.
36
6 6
Wurf
= 6) · P (2.
Wurf
= 6).
Diese Eigenschaft bezüglich und und dem Produkt ist etwa das, was wir von der
Unabhängigkeit erwarten.
Beispiel: Sei
A
von
B
(Ω, A, P )
ein Wahrscheinlichkeitsraum und
A, B ∈ A
mit
P (B) > 0.
Falls
unabhängig wäre, so sollte gelten
P (A|B) = P (A)
P (A ∩ B)
,
=
P (B)
also
P (A ∩ B) = P (A) · P (B).
Definition II.2.1
Sei
(Stochastische) Unabhängigkeit
(Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine Familie (Ai )i∈I (I 6= ∅) mit Ai ∈ A
-
66
/
145
-
Ingo Bürk
Kapitel II.2
Unabhängigkeit
heiÿt stochastisch unabhängig genau dann, wenn für alle
J 6= ∅
J ⊂I
mit
J
Seite 67
endlich und
gilt:
!
P
\
Aj
=
j∈J
Y
P (Aj ).
j∈J
Anstatt stochastisch unabhängig werden wir oft einfach nur unabhängig schreiben.
Bemerkungen:
•
Die Denition verallgemeinert den intuitiven Unabhängigkeits-Begri von zwei
auf beliebig viele Ereignisse.
•
Physikalische Unabhängigkeit ist nicht das Gleiche wie stochastische Unabhängigkeit.
• (Ai )i∈I
unabhängig ist äquivalent dazu, dass jede endliche Teilfamilie
(Aj )j∈J
un-
abhängig ist.
•
Paarweise Unabhängigkeit bedeutet nicht Unabhängigkeit. Betrachte zum Beispiel
das 2-malige Würfeln wie oben. Es sei
Ai := (ω1 , ω2 ) : ωi ∈ {1, 3, 5}
i = 1, 2,
B := (ω1 , ω2 ) : ω1 + ω2 ungerade .
Dann sind
A1 , A2
und
B
paarweise unabhängig, nicht jedoch insgesamt unabhän-
gig. Es ist
P (Ai ) =
P (B) =
P (A1 ∩ A2 ) =
P (A1 ∩ B) =
P (A2 ∩ B) =
Aber insgesamt gilt
1
i = 1, 2
2
1
2
1
= P (A1 ) · P (A2 )
4
1
= P (A1 ) · P (B)
4
1
= P (A2 ) · P (B).
4
P (A1 ∩ A2 ∩ B) = P (∅) = 0 6=
-
67
/
145
-
1
8
= P (A1 ) · P (A2 ) · P (B).
Ingo Bürk
Kapitel II.2
Unabhängigkeit
Definition II.2.2
Seite 68
(Stochastische) Unabhängigkeit
(Ω, A, P ) ein Wahrscheinlichkeitsraum und (Ci )i∈I eine Familie von Mengensystemen Ci ⊂ A. Dann heiÿt (Ci )i∈I stochastisch unabhängig genau dann, wenn
alle Familien (Ai )i∈I mit Ai ∈ Ci für alle i ∈ I stochastisch unabhängig sind (vgl.
Sei
II.2.1).
Definition II.2.3
Unabhängige Zufallsvariablen
(Ω, A, P ) ein Wahrscheinlichkeitsraum und seien (Ωi , Ai ) für i ∈ I Messräume,
Xi : Ω → Ωi für i ∈ I Zufallsvariablen. Dann heiÿt (Xi )i∈I unabhängig genau
dann, wenn die Familie (σ(Xi ))i∈I unabhängig ist, das heiÿt also, dass für alle
endlichen ∅ =
6 J ⊂ I und alle Aj ∈ Aj mit j ∈ J gilt:
!
Y
\
P
P Xj−1 (Aj )
(∗).
Xj−1 (Aj ) =
Sei
sowie
j∈J
j∈J
Bemerkungen:
• (Xi )i∈I
ist unabhängig genau dann, wenn jede Kombination von messbaren Aus-
gängen der Zufallsvariablen unabhängig ist.
•
Sei
∅=
6 J ⊂I
endlich. Dann folgt für
X := (Xj )j∈J ,
dass
X
wieder eine Zufallsva-
riable ist. Auÿerdem gilt
PX
×A
!
j
!
I.10
= P
j∈J
\
Xj−1 (Aj )
(∗)
=
Y
P Xj−1 (Aj )
j∈J
j∈J
O
Def. Y
PXj
PXj (Aj ) =
=
j∈J
×A
!
j
.
j∈J
j∈J
Satz II.2.4
(Ωi , Ai ) Messräume, (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xi : Ω → Ωi
Zufallsvariablen für i ∈ N =: I . Ferner sei X := (Xi )i∈N . Dann sind die folgenden
Seien
Aussagen äquivalent:
i)
(Xi )i∈N
sind unabhängig.
-
68
/
145
-
Ingo Bürk
Kapitel II.2
ii)
PX =
Unabhängigkeit
N∞
i=1
Seite 69
PXi .
Beweis
: Wir benutzen die Rechnung aus der obigen Bemerkung, sowie die Tatsache,
N∞
dass diese Rechnung auf einem ∩-stabilen Erzeugendensystem von
i=1 Ai gilt.
Auÿerdem benötigen wir noch die Aussage von I.5.3.
Satz II.2.5
Kanonisches Modell
(Ωi , Ai , Pi ) Wahrscheinlichkeitsräume
N∞
N∞ für i ∈ N. Wir denieren
∞
Ω := ×i=1 Ωi , A := i=1 Ai , P := i=1 Pi und die i-te Projektion πi : Ω → Ωi
mit (ωi )i∈N 7→ ωi . Dann gilt:
Seien
i)
ii)
iii)
πi
sind
Ωi -unabhängige
P π i = Pi
(πi )i≥1
für alle
Zufallsvariablen für alle
i ∈ N.
i ∈ N.
ist unabhängig.
Kurzfassung des Satzes: Zu vorgegebenen Verteilungen
Folge unabhängiger Zufallsvariablen
Beweis
Xi
mit der Eigenschaft
Pi nden
PXi = Pi .
wir immer eine
:
i) Klar.
ii) Siehe Bemerkung nach I.10.8.
iii) Es ist mit II.2.4:
P(πi )i∈N = PidΩ = P =
∞
O
Pi =
i=1
∞
O
P πi .
i=1
Damit ist der Satz bewiesen.
Definition II.2.6
Unabhängig und identisch verteilt
(Xi )i∈I von Zufallsvariablen heiÿt unabhängig und identisch verteilt
= independent, identically distributed) genau dann, wenn (Xi )i∈I
und PXi = PXj für i, j ∈ I gilt. Es ist also wirklich nur die Zusam-
Eine Familie
(kurz: i.i.d.
unabhängig
menfassung beider bereits bekannten Begrie.
-
69
/
145
-
Ingo Bürk
Kapitel II.2
Unabhängigkeit
Seite 70
Satz II.2.7
(Ω, A, P ) ein Wahrscheinlichkeitsraum und seien (Ωi , Ai ) und (Ω0i , A0i ) Messräu0
me für i ∈ I . Ferner seien Xi : Ω → Ωi Zufallsvariablen und gi : Ωi → Ωi messbare
Abbildungen. Ist (Xi )i∈I unabhängig, so folgt, dass auch (gi ◦ Xi )i∈I unabhängig
Sei
ist.
Beweis
: Sei
J ⊂I
endlich und
A0j ∈ A0j .
Dann ist
!
!
P
\
{gj ◦ Xj ∈ A0j }
=P
j∈J
\
{Xj ∈ gj−1 (A0j )}
{z
}
|
j∈J
∈σ(Xj )
=
Y
Y
P {Xj ∈ gj−1 (A0j )} =
P {gj ◦ Xj ∈ A0j } .
j∈J
j∈J
Damit ist der Satz bewiesen.
Satz II.2.8
Sei
(Ω, A, P )
ein Wahrscheinlichkeitsraum,
Ci ⊂ Ai ein ∩-stabiles
σ(Ci ) = Ai für alle i ∈ I , und gilt ferner
Aj ∈ Cj die Gleichung
!
\
Y
P
Xj−1 (Aj ) =
P Xj−1 (Aj ) ,
Zufallsvariablen. Ist
j∈J
(Ωi , Ai )
Messräume und
Erzeugendensystem von
für alle endlichen
J ⊂ I
Xi : Ω → Ω i
Ai , das heiÿt
und für alle
j∈J
so folgt, dass
(Xi )i∈I
unabhängig ist.
Kurzfassung des Satzes: Es reicht, Unabhängigkeit auf
∩-stabilen
Erzeugendensys-
temen zu überprüfen.
Beweis
: Der Beweis ndet sich in Klenke als Satz 2.16 bzw. 2.13 und in Mein-
trup+Schäer als Satz 5.9. Die Grundidee des Beweises ist die, dass man die Eindeutigkeit von Maÿen auf
∩-stabilen
Bemerkung: Satz II.2.8 gilt auch für
densysteme
Ci ⊂ A i ,
so dass
Erzeugendensystemen verwendet.
(Ci )i∈I
σ -Algebren,
das heiÿt für
∩-stabile
Erzeugen-
unabhängig ist, gilt, dass dann bereits
(Ai )i∈I
unabhängig ist. Der Beweis funktioniert völlig analog.
-
70
/
145
-
Ingo Bürk
Kapitel II.2
Unabhängigkeit
Satz II.2.9
(Ω, A, P )
Sei
ein Wahrscheinlichkeitsraum und
Xi : Ω → Ω i
Seite 71
eine Folge von mess-
S
i ∈ I = k∈K Ik paarweise disjunkt mit K beliebig. Es
Yk := (Xi )i∈Ik : Ω → ×i∈Ik Ωi . Ist die Familie (Xi )i∈I unabhängig, so folgt, dass
auch (Yk )k∈K unabhängig ist.
baren Zufallsvariablen für
sei
Beweis
: Für
k∈K
deniere
(
)
\
Ck :=
Ai : Ai ∈ Ai
und
#{i ∈ Ik : Ai 6= Ωi }
endlich
.
i∈Ik
Ck
Die
∩-stabil und es gilt σ(Ck ) = σ(Yk ). Mit II.2.8 für σ -Algebren reicht es die
Ck nachzuweisen.
Dazu sei o.B.d.A. |K| < ∞. Sei Bk ∈ Ck für k ∈ K
T
S
Jk ⊂ Ik endlich mit Bk = j∈Jk Aj für geeignete Aj ∈ σ(Xj ). Es ist J = k∈K Jk
sind
Unabhängigkeit der
und
endlich, damit folgt
!
P
\
Bk
!
=P
\
Aj
=
Y Y
P (Aj ) =
P (Aj )
k∈K j∈Jk
j∈J
j∈J
k∈K
Y
!
=
Y
P
k∈K
\
=
Aj
j∈Jk
Y
P (Bk ).
k∈K
Damit ist der Satz bewiesen.
Satz II.2.10
(Ω, A, P )
Sei
variablen mit
Xi : Ω → R unabhängige
ZufallsQn
i ∈ {1, . . . , n}. Dann gilt i=1 Xi ∈ L1 (P )
ein Wahrscheinlichkeitsraum und
Xi ∈ L1 (P )
für alle
und
EP (X1 · . . . · Xn ) = EP (X1 ) · . . . · EP (Xn ).
Bemerkung:
•
Für unabhängige Zufallsvariablen ist
•
Der Satz ist gewissermaÿen eine Verschärfung der Hölder-Ungleichung.
-
71
E
/
also verträglich mit der Produktbildung.
145
-
Ingo Bürk
Kapitel II.2
Beweis
Unabhängigkeit
: Wir führen hier wieder die Schritte
1. bis 4. wie in der Integralkonstruktion
durch.
1. Sei
Xi = 1Ai . Dann folgt, dass (Ai )ni=1
Seite 72
unabhängig ist und
1Tj∈J Aj =
Q
j∈J
1Aj . Dann
ist
!
EP
Y
\
Xj = P
j∈J
Aj
Y
=
j∈J
P (Aj ) =
j∈J
Y
EP (Xj ).
j∈J
2. Wir verwenden, dass die linke und rechte Seite jeweils linear in jeder Komponente
sind (Tensorprodukteigenschaft).
3. Dies folgt mittels Monotonie.
4. Dies führt man durch f
= f + − f −
auf
3. zurück.
Damit ist der Satz bewiesen.
Satz II.2.11
Satz von Bienaymé
(Ω, A, P ) ein Wahrscheinlichkeitsraum und Xi : Ω → R Zufallsvariablen mit
Xi ∈ L1 (P ) für alle i ∈ {1, . . . , n}, die paarweise unkorreliert sind, das heiÿt es gilt
EP (Xi · Xj ) = EP (Xi ) · EP (Xj ) für alle i 6= j . Dann folgt
!
n
n
X
X
VarP
Xi =
VarP (Xi ).
Sei
i=1
i=1
Bemerkung: Sind die
Xi paarweise unabhängig, so folgt, dass sie paarweise unkorreliert
sind. Die Umkehrung gilt im Allgemeinen jedoch nicht.
Beweis
Yi := Xi − EP Xi . Damit ist Var Xi = Var Yi , da EP Xi konstant
2
2
auÿerdem VarP (X) = EP (X ) − (EP X) für eine Zufallsvariable X .
: Deniere
ist. Nach II.2.4 ist
Analog gilt dann
VarP
n
X
!
Xi
n
X
= VarP
i=1
VarP
Yi
i=1
EP Yi = 0.
!
und ferner ist dann
n
X
!
Yi
II.2.4
= EP
i=1
Damit folgt dann
n
X
!2
Yi
n X
n
X
= EP
i=1
= EP
n
X
= EP
Yi Yj
j=1 i=1
!
Yi Yi
!
+ EP
i=1
n
X
!
X
Yi Yj
i6=j
!
Yi2
!
X
+ EP
i=1
Yi Yj
.
i6=j
-
72
/
145
-
Ingo Bürk
Kapitel II.2
Unabhängigkeit
Seite 73
Auÿerdem gilt aber
EP (Yi Yj ) = EP (Xi − EP Xi )EP (Xj − EP Xj )
= EP Xi Xj −2EP Xi EP Xj + EP Xi Xj
| {z }
| {z }
=EP Xi EP Xj
=EP Xi EP Xj
= 0.
Damit folgt dann schlieÿlich
n
X
VarP
!
Yi
=
n
X
i=1
EP Yi2
=
i=1
n
X
VarP (Yi ).
i=1
Damit ist der Satz bewiesen.
Beispiel II.2.12:
Binomialverteilung revisited
Erinnerung: In Beispiel I.3.5 haben wir das
n-malige
Werfen einer unfairen Münze
untersucht. Wir kodieren Kopf mit 0 und Zahl mit 1. Es sei Wkeit(Zahl ) = p ∈
[0, 1] fest. Wir wählen Ω = {0,P1}n und A = P(Ω). Dann ist P ({ω}) = pk (1 − p)n−k
n
für ω ∈ Ω. Dabei ist k :=
i=1 ωi die Anzahl, wie oft Zahl vorkommt. Dies
hatten wir in I.3.5 heuristisch hergeleitet.
Als kleinen Einschub erinnern wir uns daran, dass II.2.5 sagt, dass man zu einer
Pi
vorgegebenen Verteilung
so dass
Pπ i = Pi
immer eine Folge von Zufallsvariablen
πi
nden kann,
gilt.
Jetzt:
•
Ein Einzelexperiment
•
Beim
Ωi = {0, 1}
Pi ({1}) = p
mit
und
Pi ({0}) = 1 − p.
×
n
n
unabhängigen Wiederholen ist Ω =
i=1 {0, 1} = {0, 1} mit
Nn
dem Produktmaÿ P =
i=1 Pi , um die Unabhängigkeit der Einzelexperimente πi
n-maligen,
P
(Projektionen) zu sichern. Für dieses
P ({ω}) =
n
O
Pi ({ωi }) =
i=1
k
k
,
Xi =
B(n, p)-verteilt
EX = E
n
X
i=1
=
n
X
B(n, p) =
Nn
Beispiel
i=1 B(1, p). In P
n
πi (i-te Projektion) gesehen, dass für X =
i=1 Xi
wie oben deniert ist. Kurz: Es ist
I.10.4 haben wir für
dieses
Pi ({ωi })
i=1
n−k
= p (1 − p)
wobei
n
Y
gilt
ist. Ferner gilt
!
Xi
=
n
X
EXi
i=1
(0 · (1 − p) + 1 · p) = np
i=1
-
73
/
145
-
Ingo Bürk
Kapitel II.3
Erzeugende Funktionen
Seite 74
EXi2 = 02 (1 − p) + 12 p = p:
!
n
n
n
X
X
II.1.4 X
Var X = Var
Xi =
Var(Xi ) =
EXi2 − (EXi )2
und mit
i=1
=
n
X
i=1
i=1
(p − p2 ) = np(1 − p).
i=1
Da Zufallsvariablen, welche die selbe Verteilung haben, auch die gleichen Momente haben, folgt, dass für
B(n, p)-verteilte
Zufallsvariablen
X
gilt:
EX = np
und
Var X = np(1 − p).
•
B(ni , p)-verteilte Zufallsvariablen Xi (mit i ∈ {1, 2}) und
(X1 , X2 ) unabhängig zeigen, dass X1 + X2 nun B(n1 + n2 , p)-verteilt ist. Auch dies
n1
n2
funktioniert über das kanonische Modell II.2.5 mit X1 = (πi )i=1 und X2 = (πi )i=1 .
Pn1 +n2
Dann ist X1 + X2 =
πi , und dies ist B(n1 + n2 , p)-verteilt.
i=1
Analog kann man für
II.3. Erzeugende Funktionen
Motivation: Identiziere bestimmte Maÿe mit Funktionen, da diese (hoentlich) einfach
zu verstehen sind.
Definition II.3.1
Sei
P
Erzeugende Funktion
ein Wahrscheinlichkeitsmaÿ auf
Zähldichte von
gegeben durch
(R, B)
mit
P (N0 ) = 1
und
(pk )k≥0 sei eine
g : [0, 1] → [0, 1]
P (pk =PP ({k}), k ≥ 0). Dann heiÿt die Funktion
k
g(s) := ∞
k=0 pk s (für s ∈ [0, 1]) eine erzeugende Funktion.
Bemerkung:
•
Die Potenzreihe in der Denition konvergiert absolut und gleichmäÿig,
m ≥ n gilt:
m
X
pk sk da für
k=n+1
Daraus folgt, dass
∞
m
m
m
X
X
X
k
k
= sup pk s ≤ sup
pk |s| ≤
p k · 1 ≤ ε.
s∈[0,1]
s∈[0,1] k=n+1
Pn
k=0
pk s
k
k=n+1
k=n+1
eine Cauchyfolge bezüglich
n≥1
k·k∞
Pn
und punktwei-
k
k=0 pk s existiert
und mittels Wiederholung der obigen Rechnung folgt dann die gleichmäÿige und
se absolut konvergent ist. Dann sehen wir noch, dass
limn→∞
absolute Konvergenz.
•
Es gibt eine analoge Denition für
•
Es gibt eine analoge Denition für reelle Zufallsvariablen
-
s ∈ {z ∈ C : |z| < 1}.
74
/
145
-
X
mit
PX (N0 ) = 1.
Ingo Bürk
Kapitel II.3
Erzeugende Funktionen
Beispiel II.3.2:
Und nocheinmal
Die Binomialverteilung
B(n, p)
g(s) = (ps + 1 − p)n
Beweis
Seite 75
B(n, p)
hat die Erzeugendenfunktion
s ∈ [0, 1].
: Es ist
n n X
X
n k
n
n−k k
g(s) =
p (1 − p) s =
(ps)k (1 − p)n−k
k
k
k=0
k=0
= (ps + 1 − p)n
mit dem binomischen Lehrsatz.
Es ist also wirklich die Erzeugendenfunktion.
Beispiel II.3.3:
Für
λ ∈ (0, ∞)
Poissonverteilung
hat die Poissonverteilung
g(s) = e−λ(1−s)
Beweis
Pois(λ)
die Erzeugendenfunktion
s ∈ [0, 1].
: Es ist
g(s) =
∞
X
−λ λ
k
k
e
s =e
k!
k=0 | {z }
−λ
∞
X
(λs)k
k=0
k!
= e−λ eλs .
pk
Dies ist gerade die behauptete Funktion.
Satz II.3.4
Seien
P
und
P0
zwei Wahrscheinlichkeitsmaÿe auf
R
Stimmen die Erzeugendenfunktionen überein, das heiÿt
s ∈ [0, 1], so gilt auch P = P 0 .
Beweis
g = g0
P = P 0.
: Für
folgt auch
ist aus Eindeutigkeitsgründen auch
P (N0 ) = P 0 (N0 ) = 1.
0
gilt g(s) = g (s) für alle
mit
pk = p0k
für alle
k ≥ 0.
Damit
Bemerkung: Wir haben damit eine Bijektion zwischen auf
(d.h.
N0 konzentrierten Maÿen
P (N0 ) = 1) und Erzeugendenfunktionen, da jede auf [0, 1] konvergente Taylorreihe
eine solche Verteilung erzeugt.
-
75
/
145
-
Ingo Bürk
Kapitel II.3
Erzeugende Funktionen
Lemma II.3.5
Sei
(Ω, A, P )
Seite 76
X : Ω → R eine Zufallsvariable,
heiÿt PX (N0 ) = 1). Dann gilt für die
ein Wahrscheinlichkeitsraum und
deren Verteilung auf
N0 konzentriert
g von X :
ist (das
Erzeugendenfunktion
g(s) = EP sX
Beweis
(Ω, A, P )
gendenfunktion
g
X : Ω → R eine Zufallsvariable,
heiÿt PX (N0 ) = 1). Für die Erzeu-
ein Wahrscheinlichkeitsraum und
deren Verteilung auf
i)
: Der Beweis wird hier nicht geführt.
Satz II.3.6
Sei
s ∈ [0, 1].
g
N0
X
von
konzentriert ist (das
gilt:
ist unendlich oft dierenzierbar mit
g (j) (1− ) = lim g (j) (s) = EP (X · (X − 1) · . . . · (X − j + 1)) .
s%1
Insbesondere gilt
ii) Falls
Beweis
EP X < ∞
EP X = lims%1 g 0 (s) = g 0 (1− ).
gilt, so folgt
VarP (X) = g 00 (1− ) + g 0 (1− ) − (g 0 (1− ))2 .
: Betrachte die beiden zu beweisenden Eigenschaften:
i) Dass die Funktion unendlich oft dierenzierbar ist weiÿ man aus der Analysis. Dort
wird insbesondere gezeigt, dass man gliedweise dierenzieren darf. Damit ist dann
(j)
g (s) =
∞
X
bk · k · (k − 1) · . . . · (k − j + 1)sk−j
s ∈ [0, 1].
k=j
sn % 1, k ≥ 0 fest und fn (k) := bk · k · (k − 1) · . . . · (k − j + 1) · sk−j
n
Grenzwert fn (k) % bk · k · (k − 1) · . . . · (k − j + 1) = f (k). Ferner ist
Damit gilt für
der
∞
X
Z
fn (k) =
fn d#,
k=j
-
76
/
145
-
Ingo Bürk
Kapitel II.3
Erzeugende Funktionen
# das Zählmaÿ auf {j, j + 1, . . .} ist. Mit dem Satz von Beppo
wobei
Seite 77
Levi I.11.13
folgt dann
lim g (j) (sn ) =
n→∞
∞
X
bk · k · (k − 1) · . . . · (k − j + 1)
k=j
= EP (X · (X − 1) · . . . · (X − j + 1)) .
ii) Für die Varianz gilt nach II.1.4 die Formel
VarP (X) = EP X 2 − (EP X)2 . Damit ist
dann
VarP (X) = EP X 2 − (EP X)2
= EP (X(X − 1)) + EP X − (EP X)2
1.
= g 00 (1− ) + g 0 (1− ) − (g 0 (1− ))2 .
Damit ist der Beweis vollständig.
Satz II.3.7
Seien
X1 , . . . , X n
unabhängige Zufallsvariablen, deren Verteilungen auf
triert sind. Es seien
N0
g1 , . . . , gn die zugehörigen Erzeugendenfunktionen.
g von X := X1 + . . . + Xn gegeben durch
konzen-
Dann ist
die Erzeugendenfunktion
g=
n
Y
gi .
i=1
Beweis
: Es ist
II.3.5
X
g(s) = EP s = EP s
X1 +...+Xn
= EP
n
Y
sXi .
i=1
Nun sind die Zufallsvariablen
EP
n
Y
s
Xi II.2.10
=
i=1
II.3.5
=
n
Y
sX1 , . . . , sXn
unabhängig wegen II.2.7. Daher ist
EP sXi
i=1
n
Y
gi (s)
i=1
und der Beweis ist damit vollständig.
-
77
/
145
-
Ingo Bürk
Kapitel II.4
Charakteristische Funktionen
Seite 78
II.4. Charakteristische Funktionen
Motivation: Erzeugendenfunktionen identizieren Wahrscheinlichkeitsmaÿe mit
P (N0 ) = 1
mit Funktionen. Jetzt wollen wir allgemeinere Maÿe auf
Notation: Ist
Im f
f: R → C
der Imaginärteil von
heiÿt
Definition II.4.1
µ
betrachten.
Re f
der Real- bzw.
f . Zu beachten ist, dass dies reellwertige Funktionen sind, das
Re f, Im f : C → R. Entsprechend sind Integrale
Z
Z
Z
f dµ := Re f dµ + i · Im f dµ.
Ferner sei wie üblich für
Sei
eine komplexwertige Funktion, dann sei
R
z = x + iy ∈ C
folgendermaÿen zu verstehen:
das komplexe Konjugat
z = x − iy .
Charakteristische Funktion
ein Wahrscheinlichkeitsmaÿ auf
R,
dann heiÿt die Funktion
ϕ: R → C
gege-
ben durch
Z
ϕ(t) =
eitx dµ(x)
t∈R
R
die charakteristische Funktion.
Analog: Sei
X: Ω → R
Z
ϕ(t) =
itx
e
eine Zufallsvariable mit dem Bildmaÿ
Z
dPX (x) =
PX = µ .
Dann ist
eitX dP = EP eitX .
R
Lemma II.4.2
Sei
µ ein Wahrscheinlichkeitsmaÿ
ϕ von µ:
auf
R.
Dann gilt für die charakteristische Funk-
tion
i)
ii)
ϕ(t)
ist für alle
|ϕ(t)| ≤ 1
t∈R
für alle
iii)
ϕ
iv)
ϕ(−t) = ϕ(t)
deniert.
t ∈ R.
ist gleichmäÿig stetig.
für alle
t ∈ R.
-
78
/
145
-
Ingo Bürk
Kapitel II.4
Beweis
Charakteristische Funktionen
: Betrachte die einzelnen Aussagen:
t, x ∈ R gilt |eitx | ≤ 1. Damit folgt (x 7→ eitx ) ∈ L1 (µ)
dass ϕ(t) deniert ist, da das Integral deniert ist.
i) Für
ii) Dies folgt ebenfalls aus
iii) Für
Seite 79
t, h ∈ R
und daraus wiederum,
|eitx | ≤ 1.
gilt
Z
Z
i(t+h)x
itx
|ϕ(t + h) − ϕ(t)| = e
dµ(x) − e dµ(x)
Z
itx
ihx
= e − 1 |{z}
e
dµ(x)
|·|≤1
Z
≤
eihx → 1
Dann gilt
δ > 0,
ihx
e − 1 · 1 dµ(x).
h → 0. Damit folgt
ihx dann
also für alle ε > 0 existiert ein
h ∈ (−δ, δ) gilt: e − 1 < ε. Für solche h ∈ (−δ, δ) folgt
für
so dass für alle
mit obiger Rechnung
Z
|ϕ(t + h) − ϕ(t)| ≤
Also ist
ϕ
ihx
e − 1 dµ(x) ≤
Z
ε dµ(x) = ε.
gleichmäÿig stetig.
ez = ez :
Z
Z
−itx
e
dµ(x) = eitx dµ(x)
ϕ(−t) =
R
Z
Z
itx
= Re e dµ(x) − i · Im eitx dµ(x)
Z
= eitx dµ(x) = ϕ(t).
iv) Es gilt wegen
Damit ist das Lemma bewiesen.
Satz II.4.3
Für
a ∈ R
und
σ > 0
ist die charakteristische Funktion von
N (a, σ 2 )
gegeben
durch
ϕ(t) = eiat · e−
σ 2 t2
2
t ∈ R.
Insbesondere gilt für die Standardnormalverteilung
t2
ϕ(t) = e− 2
N (0, 1)
die Formel
t ∈ R.
-
79
/
145
-
Ingo Bürk
Kapitel II.4
Beweis
Charakteristische Funktionen
Seite 80
: Der Beweis wird hier nicht geführt, da er Methoden der Funktionentheorie
oder fortgeschrittenes Wissen über charakteristische Funktionen benötigt.
Beispiel II.4.4:
Exponentialverteilung
λ ∈ (0, ∞) fest betrachte
(
0
x<0
f (x) :=
.
−λx
λe
x≥0
Für
Es gilt
R
f (x) dx = 1.
Das Maÿ bezüglich der Lebesguedichte
alverteilung mit Parameter
Ist
(Ω, A, P )
λ.
exp(λ).
X: Ω → R
f
heiÿt Exponenti-
Wir schreiben dafür
ein Wahrscheinlichkeitsraum und
eine
exp(λ)-verteilte
Zufallsvariable, dann gilt
i) Gedächtnislosigkeit:
P ({X > t + s} | {X > s}) = P ({X > t}).
ii)
EP X =
1
und
λ
VarP X =
1
.
λ2
iii) Die charakteristische Funktion ist
ϕ(t) =
Beweis
λ
λ − it
t ∈ R.
:
i) Der Beweis wird hier nicht geführt.
ii) Der Beweis wird hier nicht geführt.
iii) Es ist
Z
∞
ϕ(t) =
itx
−λx
e λe
Z
∞
e−(λ−it)x dx
dx = λ
0
0
λ
.
=
λ − it
Damit ist der Beweis vollständig.
Bemerkung: Ist
eine reelle gedächtnislose Zufallsvariable, so folgt, dass
ein geeignetes
auch
X
λ>0
Frage: Ist die Abbildung
exp(λ)-verteilt
X
für
ist.
µ 7→ ϕµ , die einem Maÿ die zugehörige charakteristische Funk-
tion zuordnet, injektiv? Die Antwort auf diese Frage lautet Ja, wie wir im folgenden
Satz sehen werden:
-
80
/
145
-
Ingo Bürk
Kapitel II.4
Charakteristische Funktionen
Satz II.4.5
Sind
µ
Seite 81
Eindeutigkeitssatz
ν
und
zwei Wahrscheinlichkeitsmaÿe auf
R, so dass für die zugehörigen
charakteristischen Funktionen ϕµ und ϕν gilt, dass ϕµ = ϕν ist, so folgt, dass auch
µ = ν ist.
Ist ferner F die Verteilungsfunktion von µ und sind a < b Stetigkeitsstellen von F ,
so gilt
1
µ((a, b]) = F (b) − F (a) = lim
s→∞ 2π
Beweis
: Es genügt die Gleichung
Z
s
−s
e−ita − e−itb
ϕ(t) dt
it
(∗).
(∗) zu beweisen. Dazu benutzen wir die so genannte
Dirichlet-Formel:
1
lim
A→−∞ π
B
Z
A
B→∞
sin v
dv = 1
v
(∗∗).
Diese Formel wird hier nicht bewiesen, da der Beweis Elemente der Funktionentheorie
benötigt. Ferner benötigen wir die Gleichung
e
−ita
−e
−itb
Z b
x=a
= it
e−itx dx
−itx =e
x=b
(∗ ∗ ∗ ).
a
Dann folgt:
s
e−ita − e−itb
ϕ(t) dt
it
−s
Z s Z ∞ −ita
1
e
− e−itb itx
Def. v. ϕ
= lim
e dµ(x) dt
s→∞ 2π −s
it
−∞
Z s Z ∞ Z b
1
(∗ ∗ ∗)
= lim
e|−ity+itx
dy dµ(x) dt
{z }
s→∞ 2π −s
−∞
a
messbar u. beschränkt
Z ∞ Z b Z s
1
I.11.18
eit(x−y) dt dy dµ(x)
= lim
s→∞ 2π −∞
a
−s
Z ∞ Z b is(x−y)
1
e
− e−is(x−y)
= lim
dy dµ(x)
s→∞ 2π −∞
i(x − y)
a
1
lim
s→∞ 2π
Z
-
81
/
145
-
Ingo Bürk
Kapitel II.4
Charakteristische Funktionen
eiz = cos(z) + i sin(z)
− sin(−z) folgt
Mit
∞
und den Eigenschaften
cos(z) = cos(−z)
und
Seite 82
sin(z) =
b
2 sin(s(x − y))
dy dµ(x)
x−y
−∞
a
Z s(x−b)
Z
sin u
1 ∞
u=s(x−y)
−
du dµ(x)
=
lim
s→∞ π −∞
u
s(x−a)
Z ∞
Z
1 s(x−b) sin u
= lim
−
du dµ(x)
s→∞ −∞
π s(x−a) u
|
{z
}
1
= lim
s→∞ 2π
Z
Z
=:G(s,x)
Z
∞
= lim
s→∞
Ferner ist
s
und
x
G
G(s, x) dµ(x)
−∞
beschränkt, das heiÿt es existiert ein
B > 0,
so dass
|G(s, x)| ≤ B
für alle
gilt. Dies sieht man durch Anwendung des Reihenvergleichskriteriums und der
alternierenden harmonischen Reihe. Mit dem Satz der majorisierten Konvergenz I.11.16
folgt dann
∞
Z
=
lim G(s, x) dµ(x).
−∞ s→∞
Ferner gilt
1
G(s, x) = −
π
damit folgt für
(∗∗)
Z
s(x−b)
s(x−a)
s→∞
1
sin u
du =
u
π
Z
s(b−x)
s(a−x)
sin u
du,
u
und
a < x < b ⇒ lims→∞ G(s, x) = 1
x < a < b ⇒ lims→∞ G(s, x) = 0.
Insgesamt lässt sich dies als
Z
∞
=
−∞
Da
lims→∞ G(s, x) = 1(a,b) (x)
schreiben. Damit folgt
1(a,b) (x) dµ(x) = µ((a, b)).
µ({b}) = limn→∞ µ([b, b + n−1 )) = 0
ist gilt auch
= µ((a, b]) = F (b) − F (a).
Damit ist der Satz bewiesen.
-
82
/
145
-
Ingo Bürk
Kapitel II.4
Charakteristische Funktionen
Satz II.4.6
Seite 83
Umkehrformel
µ ein Wahrscheinlichkeitsmaÿ auf (R, B) mit stetiger Verteilungsfunktion F und
λ-integrierbarer charakteristischer Funktion ϕ. Dann hat µ eine Lebesgue-Dichte
f und es gilt
Sei
i)
F
ist stetig dierenzierbar und es gilt
ii)
f
ist beschränkt.
F0 = f.
iii) Umkehrformel:
1
f (x) =
2π
Beweis
Z
e−itx ϕ(t) dt
x ∈ R.
: Wir betrachten den Dierenzenquotienten
F (x + h) − F (x) II.4.5
1
= lim
s→∞ 2π
h
Mit dem Mittelwertsatz für
ein
für alle
R
ξ ∈ [x, x + h]
Z
s
−
−s
e−it(x+h) − e−itx
ϕ(t) dt.
ith
h > 0 und g : [x, x + h] → R stetig dierenzierbar folgt, dass
existiert, so dass
g(x + h) − g(x)
= g 0 (ξ)
h
gilt. Wir haben allerdings keine reellwertige Funktion vorliegen. Setze daher
e−ix
cos(−x) + i sin(−x)
= Re
i
i
= − sin x.
g(x) = Re
Dies ergibt mit der Anwendung des Mittelwertsatzes dann
e−it(x+h) − e−itx − sin(tx + th) + sin(tx) MWS
Re
=
= | − cos(ξ)| ≤ 1.
ith
th
Analog kann man
e−it(x+h) − e−itx Im
≤1
ith
herleiten und alle diese Dinge funktionieren analog auch für
Für Folgen
sn → ∞
gn (t) := −
und
hn → 0
h < 0.
denieren wir die Funktionenfolge
e−it(x+hn ) − e−itx
ϕ(t)1[−sn ,sn ] (t).
ithn
-
83
/
145
-
Ingo Bürk
Kapitel II.4
Charakteristische Funktionen
|gn | ≤ 2|ϕ| ∈ L1 (λ).
Damit gilt dann
Auÿerdem gilt
gn (t) → e−itx ϕ(t).
Seite 84
Damit ist dann
Z sn
1
e−it(x+hn ) − e−itx
F (x + hn ) − F (x)
= lim
−
ϕ(t) dt
lim
n→∞ 2π −s
n→∞
hn
ithn
n
Z
1
= lim
gn (t) dt
n→∞ 2π R
Z
I.11.16 1
=
lim gn (t) dt
2π R n→∞
Z
1
e−itx ϕ(t) dt =: f (x).
=
2π R
R
Falls ϕ ≥ 0 und
ϕ dλ = 1 ist folgt, dass ν := ϕdλ ein Wahrscheinlichkeitsmaÿ ist.
Daraus folgt dann, dass 2πf die charakteristische Funktion von ν ist. Mit II.4.2 folgt
dann, dass 2πf gleichmäÿig stetig und beschränkt ist.
R +
+
−
Für den allgemeinen Fall zerlege ϕ = ϕ −ϕ und normiere mit
ϕ dλ beziehungsweise
R −
ϕ dλ. Damit müssenR wir nur noch zeigen, dass f wirklich die Dichte bezüglich µ ist.
Dazu zeigen wir, dass
1A f dλ = µ(A) für alle A ∈ B gilt. Da {(a, b] : a < b} ein ∩stabiles Erzeugendensystem ist genügt es nur Mengen der Form A = (a, b] zu betrachten.
Betrachte
Z
1(a,b] f dλ =
Z
b
f dλ,
a
mit
F0 = f
und dem Hauptsatz der Dierentialrechnung folgt dann
= F (b) − F (a) = µ((a, b]).
Damit ist der Satz bewiesen.
Satz II.4.7
Momentenberechnung
(Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable mit
PX auf R. Falls für ein j ∈ N gilt, dass EP |X|j < ∞ ist, das heiÿt, dass
X ∈ Lj (P ) ist, so folgt, dass die charakteristische Funktion ϕ von X j -mal stetig
Sei
Bildmaÿ
dierenzierbar ist und es gilt
(j)
j
Z
ϕ (t) = i
xj eitx dPX (x).
R
Insbesondere ist
ϕ(j) (0) = ij EP X j .
-
84
/
145
-
Ingo Bürk
Kapitel II.5
Beweis
Faltung
: Der Beweis funktioniert mittels einer Induktion über
Seite 85
j . Der Induktionsanfang
und -schritt sind dabei ähnlich zum Beweis von II.4.6. Der Beweis wird hier jedoch nicht
geführt.
Satz II.4.8
(Ω, A, P )
Sei
X1 , . . . , Xn : Ω → R unabhängige
Funktionen ϕ1 , . . . , ϕn . Dann hat die Zu-
ein Wahrscheinlichkeitsraum und
Zufallsvariablen mit charakteristischen
fallsvariable
X := X1 + . . . + Xn
die charakteristische Funktion
ϕ=
n
Y
ϕj .
j=1
Beweis
: Es ist
ϕ(t) = EP e
it(X1 +...+Xn )
= EP
n
Y
itXj II.2.10
e
=
j=1
n
Y
itXj
EP e
j=1
=
n
Y
ϕj .
j=1
Damit ist der Satz vollständig bewiesen.
II.5. Faltung
Ziel: Untersuchung der Verteilung von Summen unabhängiger Zufallsvariablen.
Definition II.5.1
Es sei
S: R×R → R
Faltung
S(X, Y ) := X + Y denierte Summenbildung. Für
P und Q auf (R, B) heiÿt das Wahrscheinlichkeitsmaÿ
die durch
Wahrscheinlichkeitsmaÿe
P ∗ Q := (P ⊗ Q)S
auf
(R, B)
die Faltung von
P
und
Q.
Notation: Im Folgenden wird der Ausdruck B
und
x
− x
auftauchen, wobei
B
eine Menge
eine Zahl ist. Dieser ist mengentheoretisch zu verstehen:
B − x := {b − x | b ∈ B}.
-
85
/
145
-
Ingo Bürk
Kapitel II.5
Faltung
Lemma II.5.2
Seien
P
i) Ist
und
Q
(Ω, A, µ)
Wahrscheinlichkeitsmaÿe auf
ii)
Dann gilt:
X, Y : Ω → R messbar und
folgt, dass P ∗ Q = µX+Y (das
ein Wahrscheinlichkeitsraum und sind
µX = P
µX ∗ µY = µX+Y ) ist.
unabhängig, so dass
heiÿt
(R, B).
Seite 86
und
µY = Q
gilt, so
P ∗ Q = Q ∗ P.
R ein weiteres Wahrscheinlichkeitsmaÿ
(P ∗ Q) ∗ R = P ∗ (Q ∗ R).
iii) Ist
iv) Für das Dirac-Maÿ
v) Für
vi) Für
δ{0}
gilt
so gilt
f : R → [0, ∞] messbar gilt
Z
ZZ
f d(P ∗ Q) =
f (x + y) dP (x) dQ(y)
ZZ
=
f (x + y) dQ(y) dP (x).
B∈B
gilt
(P ∗ Q)(B) =
vii) Haben
P
und
Q
Z
P (B − y) dQ(y) =
die Lebesguedichten
f
(f ∗ g)(x) :=
Q(B − x) dP (x).
g,
und
Z
i) Für
(R, B),
P ∗ δ{0} = δ{0} ∗ P = P .
Z
Beweis
auf
so hat
P ∗Q
die Lebesguedichte
Z
f (x − y)g(y) dy =
g(x − y)f (y) dy = (g ∗ f )(x).
:
Z := (X, Y ) : Ω → R2
zeigt II.2.4, dass
µZ = µX ⊗ µY
ist. Daraus folgt
I.10.5
µX+Y = µS◦Z = (µZ )S = (µX ⊗ µY )S = (P ⊗ Q)S
= P ∗ Q.
ii) Folgt aus
1. mit
µX+Y = µY +X ,
was sich für
B∈B
aus
µX+Y (B) = µ({x + y ∈ B}) = µ({y + x ∈ B}) = µY +X (B).
ergibt.
iii) Folgt aus
µ(X+Y )+Z = µX+(Y +Z)
und
-
86
1..
/
145
-
Ingo Bürk
Kapitel II.5
Faltung
Seite 87
iv) Wir greifen zum Beweis dieser Eigenschaft auf die Eigenschaften zurück, die wir
im Folgenden beweisen werden. Es gilt
R
f dδ{a} = f (a)
für alle
a ∈ R.
Dies kann
mit den Schritten 1-4, die wir im Aufbau der Integrationstheorie betrachtet haben,
gezeigt werden. Damit ist
6.
Z
P ∗ δ{0} =
Damit ist
δ{0}
P (B − y) dδ{0} = P (B − 0) = P (B).
rechtsneutrales Element. Die Linksneutralität folgt wegen
2. aus der
Kommutativität.
v) Es ist
Z
Z
I.11.20
f d(P ∗ Q) =
Z
f d(P ⊗ Q)S =
f ◦ S d(P ⊗ Q)
ZZ
I.11.17
=
f (x + y) dP (x) dQ(y)
ZZ
I.11.17
=
f (x + y) dQ(y) dP (x).
vi) Setze
Mit
f := 1B , dann ist x + y ∈ B ⇔ x ∈ B − y . Es folgt
Z
Z
1B (x + y) dP (x) = 1B−y (x) dP (x) = P (B − y).
5. folgt dann schlieÿlich
Z
(P ∗ Q)(B) =
P (B − y) dQ(y).
vii) Es ist
Z
5.
1B d(P ∗ Q) =
ZZ
I.12.4
1B (x + y) dP (x) dQ(y)
ZZ
=
1B (x + y)f (x) dx g(y) dy
ZZ
=
1B (x)f (x − y) dx g(y) dy
ZZ
I.11.17
=
1B (x)f (x − y)g(y) dy dx
Z
Z
= 1B (x)
f (x − y)g(y) dy dx
= 1B (x)(f ∗ g)(x) dx.
Daraus folgt die Behauptung.
Damit ist das Lemma bewiesen.
-
87
/
145
-
Ingo Bürk
Kapitel II.5
Faltung
Seite 88
Bemerkungen:
i) Diese Konstruktion geht für allgemeine Gruppen. Die Faltung wird dann kommutativ, falls die Gruppe kommutativ (d.h. abelsch) ist.
ii) Die Faltung von Dichten ist erklärbar, falls das zugrundeliegende Maÿ translationsinvariant ist. Zum Beispiel sei
ν
Z. Hat man Dichten bezüglich
ν , so gilt 7. aus dem Lemma. Im Speziellen: P habe die Zähldichte (pk )k≥0 und Q
habe die Zähldichte (qk )k≥0 . Dann hat P ∗ Q die Zähldichte (rk )k≥0 mit
rk =
k
X
pk−i qi =
i=0
k
X
das Zählmaÿ auf
qk−i pi .
i=0
Beispiel II.5.3:
i)
B(n1 , p) ∗ B(n2 , p) = B(n1 + n2 , p).
ii)
Pois(λ1 ) ∗ Pois(λ2 ) = Pois(λ1 + λ2 ).
iii)
N (a1 , σ12 ) ∗ N (a2 , σ22 ) = N (a1 + a2 , σ12 + σ22 ).
iv)
δ{a} ∗ δ{b} = δ{a+b} .
Beweis
:
i) II.2.12 und II.5.2 zeigen: Falls
B(n1 , p), und X2 ∼ B(n2 , p)
X1 + X2 ∼ B(n1 + n2 , p).
X1 ∼ B(n1 , p), das heiÿt X1 hat die Verteilung
X1 und X2 unabhängig sind, so folgt
und falls ferner
Pois(λ) die Erzeugendenfunktion g(s) = e−λ(1−s) (für s ∈ [0, 1])
hat. Seien nun X1 ∼ Pois(λ1 ) und X2 ∼ Pois(λ2 ) unabhängig. Mit II.3.7 folgt
dann, dass X := X1 + X2 die Erzeugendenfunktion g(s) = g1 (s) · g2 (s) hat, wobei
g1 , g2 die Erzeugendenfunktionen von X1 , X2 sind. Damit ist
ii) II.3.3 zeigte, dass
g(s) = e−λ1 (1−s) e−λ2 (1−s) = e−(λ1 +λ2 )(1−s) .
Da II.3.4 zeigte, dass die Abbildung
Wahrscheinlichkeitsmaÿ
7→ Erzeugendenfunktion
(mit einem auf N0 konzentrierten Wahrscheinlichkeitsmaÿ) bijektiv ist, folgt, dass
X ∼ Pois(λ1 +λ2 ) ist. Mit der ersten Aussage von II.5.2 folgt dann die Behauptung.
iii) II.4.3 zeigte:
N (a, σ 2 )
hat die charakteristische Funktion
ϕ(t) = eiat e−
σ 2 t2
2
. Mit
II.4.7 (Summen unabhängiger Zufallsvariablen induzieren Produkte von charakteristischen Funktionen) und II.4.5 (Eindeutigkeitssatz für charakteristische Funktionen) reicht es dann zu zeigen
eia1 t e−
2 t2
σ1
2
· eia2 t e−
2 t2
σ2
2
Der Rest verläuft analog zu
= ei(a1 +a2 )t e−
2 +σ 2 )t2
(σ1
2
2
.
2..
-
88
/
145
-
Ingo Bürk
Kapitel II.6
Null-Eins-Gesetz
iv) Die Idee ist:
X ∼ δ{a} ⇔ X = a P -fast
Seite 89
sicher. Dann verwendet man die erste
Aussage von II.5.2.
Damit sind alle Eigenschaften bewiesen.
II.6. Null-Eins-Gesetz
Ziel: Der erste Teil von Borel-Cantelli I.4.5 sagte: Ist
P∞
n=1 P (An ) < ∞, so folgt P (lim sup An ) =
zu nden und diese auch zu verallgemeinern.
Lemma II.6.1
0.
(An )n≥1 ⊂ A
mit
Unser Ziel ist es nun, eine Umkehrung
Borel-Cantelli 2. Teil
(Ω, A, P ) ein Wahrscheinlichkeitsraum und (An )n≥1 ⊂ A sei unabhängig. Dann
Sei
gilt
∞
X
P (An ) = ∞ =⇒ P
lim sup An
= 1.
n→∞
n=1
Insbesondere gilt für unabhängige Folgen
und
P (lim inf An ) ∈ {0, 1}
(An )n≥1 ⊂ A, dass P (lim sup An ) ∈ {0, 1}
gilt.
Bemerkung: Die Unabhängigkeit ist hierbei wirklich wichtig. Betrachte zum Beispiel
A∈A
mit
P (A) =
Beweis
Setze
B
1
. Setze nun
2
An := A
für alle
n ≥ 1.
Dann ist
P (lim sup An ) =
1
.
2
: Anmerkung: Wir werden hier auf das nachfolgende Lemma II.6.2 vorgreifen.
T
S
:= lim sup An = ∞
n=1
k≥n Ak . Dann folgt
Ω\B =
∞ \
[
(Ω \ Ak ) = lim inf(Ω \ Ak ).
n=1 k≥n
Es reicht
P (Ω \ B) = 0
zu zeigen, die Aussage folgt dann aus der
P
m
\
!
(Ω \ Ak )
(Ω
\
A
)
=0
k
k≥n
σ -Additivität. Für m ≥ n gilt
zu zeigen. Dazu reicht es
unabh.
=
k=n
II.6.2
≤
m
Y
P
T
für alle
n≥1
(1 − P (Ak ))
k=n
m
Y
e−P (Ak ) = e−
Pm
k=n
P (Ak )
.
k=n
-
89
/
145
-
Ingo Bürk
Kapitel II.6
Null-Eins-Gesetz
Seite 90
σ -Stetigkeit von unten folgt:
!
!
m
\
\
(Ω \ Ak ) = lim P
(Ω \ Ak )
Wegen der
P
m→∞
k≥n
≤ lim e
−
k=n
Pm
k=n
P (Ak ) n.V.
= 0.
m→∞
Damit ist das Lemma bewiesen.
Lemma II.6.2
Es gilt
1 − x ≤ e−x
für alle
x ∈ R.
Beweis
: Es sei f (x) := 1 und g(x)
0
−x
und g (x) = −e
+ 1. Daraus folgt
• f 0 (x) ≤ g 0 (x)
für
x ≥ 0.
• f 0 (x) ≥ g 0 (x)
für
x ≤ 0.
:= e−x + x,
jeweils für
x ∈ R.
Dann ist
f 0 (x) = 0
• f (0) = g(0).
Dann gilt mit dem Hauptsatz für
x ≥ 0:
x
Z
f 0 (t) dt
f (x) − f (0) =
Z0 x
≤
g 0 (t) dt = g(x) − g(0).
0
f (x) ≤ g(x) für alle x ≥ 0. Für den
Z 0
f (0) − f (x) =
f 0 (t) dt
Zx 0
≥
g 0 (t) dt = g(0) − g(x).
Daraus folgt
anderen Fall
x≤0
ist
x
Also folgt auch hier
f (x) ≤ g(x).
Dies ist gerade die Behauptung.
Definition II.6.3
σ -Algebra der terminalen Ereignisse
Sei (Ω, A) ein Messraum und An ⊂ A eine σ -Algebra für alle n ≥ 1.
!
∞
[
Tn := σ
Ak
Setze
k=n
-
90
/
145
-
Ingo Bürk
Kapitel II.6
Null-Eins-Gesetz
für die von
T∞ :=
An , An+1 , . . .
∞
\
erzeugte
σ -Algebra.
Seite 91
Dann heiÿt
Tn
n=1
die
σ -Algebra
der terminalen Ereignisse von
(An )n≥1 .
Interpretation: In T∞ sind alle Ereignisse, die durch alle
Ai bis auf endlich viele erzeugt
sind.
Bemerkungen:
• T∞
•
ist eine
σ -Algebra.
0
0
Das wichtigste Beispiel ist für Xn : (Ω, A) → (Ω , A ) (für alle n
An := σ(Xn ) = Xn−1 (A0 ). In diesem Fall schreibe T∞ ((Xn )n≥1 ).
Lemma II.6.4
Sei
(Ω, A) ein Messraum und Xn : Ω → R Zufallsvariablen
n
o
ω ∈ Ω : ∃ lim Xn (ω) ∈ T∞ ((Xn )n≥1 ).
(für
≥ 1). Setze dann
n ≥ 1).
Dann folgt
n→∞
Analog kann man Ergebnisse für
Beweis
{lim sup Xn ≤ α}, . . .
: Aus der Vollständigkeit von
R
formulieren und zeigen.
folgt
{ω ∈ Ω : ∃ lim Xn (ω)} = {ω ∈ Ω : (Xn )(ω)
CF}
und damit
1
|Xn (ω) − Xl (ω)| ≤
k
ω ∈ Ω : ∀k≥1 ∃N ≥1 ∀n,l≥N
1
o.E. N ≥k
=
ω ∈ Ω : ∀k≥1 ∃N ≥k ∀n,l≥N |Xn (ω) − Xl (ω)| ≤
k
\ [ \ 1
ω ∈ Ω : |Xn (ω) − Xl (ω)| ≤
=
k
k≥1 N ≥k n,l≥N |
{z
}
=
∈σ(Xn ,Xl )
|
=
\
{z
}
=:Ak ∈σ(Xl ,Xl+1 ,...)=Tl
Ak .
k≥1
-
91
/
145
-
Ingo Bürk
Kapitel II.6
Es ist
Null-Eins-Gesetz
Ak &
\
T
Ak =
k≥1
Ak .
k≥1
\
Ak
Ferner gilt
Ak ∈Tk
Damit gilt für
m ≥ 1:
Tm .
k≥m
Aus der Denition von
Satz II.6.5
Sei
∈
Tn & T∞ .
Seite 92
T∞
folgt dann
0-1-Gesetz
(Ω, A, P )
T
k≥1
Ak ∈ T∞ .
Dies war zu zeigen.
von Kolmogorov
An ⊂ A seien unabhängige σ terminale σ -Algebra. Dann gilt für alle
ein Wahrscheinlichkeitsraum und
Algebren. Ferner sei
T∞
die zugehörige
A ∈ T∞ :
P (A) ∈ {0, 1}.
Beweis
P (A) = P (A) · P (A) für alle A ∈ T∞ gilt, denn daraus folgt sofort
P (A) ∈ {0, 1}. Ferner ist P (A) = P (A ∩ A). Zu zeigen ist also, dass in der terminalen
S
σ -Algebra jede Menge A von sich selber unabhängig ist. Deniere Dn := σ k≤n Ak .
Die σ -Algebren Dn und Tn+1 sind voneinander unabhängig, denn für
(n
)
\
Cn :=
Ai : Ai ∈ Ai und
: Zeige, dass
C n+1 :=
(i=1
\
)
Aj : J ⊂ {n + 1, . . .}
endlich, Aj
∈ Aj
j∈J
folgt, dass
Cn
ein
zeugendensystem
∩-stabiles Erzeugendensystem von Dn und C n+1 ein ∩-stabiles Ern+1
von Tn+1 ist. Wir zeigen nun, dass Cn und C
unabhängig sind. Es
ist
P
n
\
!
Ai ∩
\
A0j
unabh.
=
i=1
P (Ai ) ·
i=1
| {z } j∈J
| {z }
∈Cn
n
Y
Y
P (A0j )
j∈J
∈C n+1
unabh.
= P
n
\
!
!
·P
Ai
i=1
A0j
.
j∈J
Die Bemerkung nach II.2.8 zeigt dann, dass
D
Tn
\
Dn und Tn+1 unabhängig sind. Da T∞ ⊂ Tn+1
T∞ unabhängig sind.
Betrachte nun C :=
D
:
I
⊂
N
endlich
,
D
∈
D
. Dann folgt, dass C ein ∩-stabiles
i
i
i
i∈I S
∞
Erzeugendensystem von σ ( i=1 Di ) = σ(A1 ∪A2 ∪. . .) = T1 ist. Analoge Rechnung unter
gilt folgt auch, dass
und
-
92
/
145
-
Ingo Bürk
Kapitel II.7
Konvergenzarten
Berücksichtigung der Tatsache, dass
dann, dass
T1
und
T∞
Dn
und
T∞
für alle
n≥1
Seite 93
unabhängig sind, zeigt
T∞ ⊂ T1 folgt dann, dass T∞ von T∞
A, B ∈ T∞ gilt: P (A ∩ B) = P (A)P (B).
P (A ∩ A) = P (A) = P (A)P (A). Dies wollten wir zeigen.
unabhängig sind. Wegen
unabhängig ist. Daraus folgt also, dass für alle
Für
A=B
folgt nun
Korollar II.6.6
Sei
(Ω, A, P )
ein Wahrscheinlichkeitsraum und
Xn : Ω → R
unabhängige Zufalls-
variablen. Dann haben die folgenden Ereignisse die Wahrscheinlichkeit
P = 0 oder
P = 1:
i)
ii)
iii)
{ω ∈ Ω : ∃ lim Xn (ω)}.
{ω ∈ Ω : lim sup Xn (ω) ≤ α}.
...
II.7. Konvergenzarten
Ziel: Verschiedene Möglichkeiten, den Ausdruck Xn
→ X
zu beschreiben.
Notation: Es sei
C b (R) := {f : R → R | f
Definition II.7.1
Sei
(Ω, A, P )
ist stetig und beschränkt} .
Konvergenzarten
ein Wahrscheinlichkeitsraum und
Xn , X : Ω → R
seien Zufallsvaria-
blen. Dann sagen wir:
i)
Xn
konvergiert
P -fast
sicher gegen
X
(kurz:
P -f.s.
Xn −→ X )
genau dann, wenn
n
o
P
ω ∈ Ω : lim Xn (ω) = X(ω)
= 1.
n→∞
ii)
Xn konvergiert im (Wahrscheinlichkeits-)Maÿ P
Xn → X stoch.) genau dann, wenn
bzw. stochastisch gegen
X
(kurz:
n→∞
∀ε>0 P ({ω ∈ Ω : |Xn (ω) − X(ω)| > ε}) −→ 0.
iii)
Xn
p-ten Mittel gegen X für ein p > 0
genau dann, wenn Xn , X ∈ Lp (P ) und
Z
p1
n→∞
p
−→ 0.
kXn − XkLp (P ) =
|Xn − X| dP
konvergiert im
-
93
/
145
-
(kurz:
Xn → X
in
Lp (P ))
Ingo Bürk
Kapitel II.7
iv)
Xn
Konvergenzarten
Z
∀f ∈ C (R) :
Lemma II.7.2
Sei
(Ω, A, P )
f dPXn
(d)
Xn −→ X ) genau dann, wenn
Z
Z
Z
n→∞
= f ◦ Xn dP −→
f ◦ X dP = f dPX .
konvergiert in Verteilung gegen
b
Seite 94
X
(kurz:
ein Wahrscheinlichkeitsraum und
Xn , X : Ω → R
seien Zufallsvaria-
blen. Dann gilt:
P -f.s.
P -f.s.
Xn −→ X und Xn −→ Y für eine Zufallsvariable Y : Ω → R,
sicher auch X = Y , also P ({X =
6 Y }) = 0.
i) Ist
ii)
P -f.s.
Xn −→ X
∀ε>0 lim P
n→∞
Xn
P -fast
genau dann, wenn
iii)
so gilt
ω ∈ Ω : sup |Xm (ω) − X(ω)| > ε
= 0.
m≥n
P -fast sicher genau dann, wenn
lim P
ω ∈ Ω : sup |Xm (ω) − Xn (ω)| > ε
= 0.
konvergiert
n→∞
m≥n
Dies ist ein Cauchykriterium.
iv) Ist
(εn )n≥1 ⊂ (0, ∞)
P -f.s.
mit
εn → 0
und
P∞
n=1
P ({|Xn − X| ≥ εn }) < ∞,
so folgt
Xn −→ X .
Beweis
:
N := {ω ∈ Ω : lim Xn (ω) 6= X(ω)} ∪ {ω ∈ Ω : lim Xn (ω) 6= Y (ω)}. Es ist
P (N ) = 0. Ferner gilt für ω ∈ Ω \ N , dass X(ω) = lim Xn (ω) = Y (ω) und
damit ω ∈ {X = Y } ist. Daraus folgt Ω \ N ⊂ {X = Y } und daraus schlieÿlich
P ({X = Y }) = 1. Dies ist äquivalent zur Behauptung.
i) Deniere
ii) Es ist
{ω ∈ Ω : lim Xn (ω) = X(ω)} =
∞ \ \[
k≥1 n=1 m≥n
-
94
/
145
-
1
ω ∈ Ω : |Xm (ω) − X(ω)| ≤
k
Ingo Bürk
.
Kapitel II.7
Konvergenzarten
P -f.s.
Xn −→ X
Damit ist
aber äquivalent zu
∞ [ [\
P
Seite 95
k≥1 n=1 m≥n
1
|Xm (ω) − X(ω)| >
k
Wegen Monotonie und
σ -Additivität
!
= 0.
ist dies wiederum äquivalent zu Folgendem
und es ist
!
1
0=P
|Xm (ω) − X(ω)| >
∀k≥1
k
n≥1 m≥n
!
[ 1
= P lim
|Xm (ω) − X(ω)| >
n→∞
k
m≥n
!
[ 1
= lim P
|Xm (ω) − X(ω)| >
n→∞
k
m≥n
1
.
= lim P
ω ∈ Ω : sup |Xm (ω) − X(ω)| >
n→∞
k
m≥n
\ [ iii) Der Beweis wird zur Übung überlassen.
iv) Zu
ε>0
existiert ein
n0 ,
so dass für alle
n ≥ n0
gilt:
0 < εn < ε.
Für
n ≥ n0
folgt
dann
P
!
sup |Xm − X| > ε
=P
[
m≥n
{|Xm − X| > ε}
m≥n
≤
X
P ({|Xm − X| > ε})
m≥n
≤
X
n→∞
P ({Xm − X| > εm }) −→ 0.
m≥n
Nun kann man
2. anwenden und erhält die Behauptung.
Damit ist das Lemma bewiesen.
Lemma II.7.3
Sei
(Ω, A, P )
ein Wahrscheinlichkeitsraum und
Xn , X : Ω → R
seien Zufallsvaria-
blen. Dann gilt:
i)
P -f.s.
Xn −→ X ⇒ Xn −→ X
stochastisch.
Xn −→ X stochastisch genau dann, wenn für alle Teilfolgen
P -f.s.
(Xnkl ) mit Xnkl −→ X existiert.
ii) Teilfolgenkriterium :
(Xnk )
eine Teilfolge
-
95
/
145
-
Ingo Bürk
Kapitel II.7
Konvergenzarten
Xn −→ X
X =Y.
iii) Ist
iv)
stochastisch und
Xn −→ Y
Xn −→ X stochastisch genau dann,
Z
min{|Xn − X|, 1} dP → 0.
Beachte:
d(X, Y ) :=
R
Seite 96
stochastisch, so folgt
P -fast
sicher
ist eine Metrik, wenn
P -fast
sicher
wenn
min{|X − Y |, 1} dP
gleiche Zufallsvariablen identiziert werden.
Beweis
:
ε>0
i) Für
ist
P (|Xn − X| > ε) ≤ P
II.7.2
sup |Xm − X| > ε
−→ 0.
m≥n
ii) ⇒: Sei
ein
nkl ,
(Xnk ) eine Teilfolge von (Xn ). Für l ≥ 1 existiert dann nach Voraussetzung
so dass
P
1
|Xn − X| > = ε
l
1
2l
<
für
nkl ↑
Ohne Einschränkung kann man
n ≥ nkl .
annehmen, denn andernfalls könnte man
nkl+1 := max{nkl + 1, nkl+1 } wählen. Dann
∞
1 X
< ∞.
P
Xnkl − X >
l
l=1 |
{z
}
folgt
<2−l
Nun kann man II.7.2 anwenden um zu zeigen, dass
⇐: Sei
reicht es
dass
ankl
P -f.s.
Xnkl −→ X
ist.
an := P ({|Xn − X| > ε}). Zu zeigen ist an → 0. Dazu
zu zeigen, dass für alle Teilfolgen (ank ) eine Teilfolge (ank ) existiert, so
l
→ 0. Sei also (ank ) eine Teilfolge. Zur Teilfolge (Xnk ) existiert dann nach
ε>0
und setze
Voraussetzung eine Teilfolge
(Xnkl )
mit
P -f.s.
Xnkl −→ X .
Mit
1. folgt dann
Xnkl → X
stochastisch. Daraus folgt dann
ankl = P
n
o
X
−
X
>
ε
→ 0.
nkl
Xn → X stochastisch folgt die Existenz einer Teilfolge
(Xnk ), so dass Xnk −→ X . Aus Xn → Y stochastisch folgt die Existenz einer
P -f.s.
Teilfolge (Xnk ) so dass Xnk −→ Y . Mit II.7.2 folgt dann P -fast sicher X = Y .
l
l
iii) Dies folgt aus
2., denn aus
P -f.s.
-
96
/
145
-
Ingo Bürk
Kapitel II.7
Konvergenzarten
iv) Wir setzen
Yn := min{|Xn − X|, 1}.
ε ∈ (0, 1]
Für
Seite 97
gilt dann
{|Xn − X| > ε} = {min{|Xn − X|, 1} > ε} = {|Yn | > ε}.
Xn → X stochastisch genau dann, wenn Yn → 0 stochastisch.
R
R
⇒: Mit
f dP = 1A f dP ist
A
Z
Z
min{|Xn − X|, 1} dP = |Yn | dP
Z
Z
=
|Yn | dP +
|Yn | dP
Damit ist
{|Yn |≤ε}
{|Yn |>ε}
|Yn |≤1
≤ ε + P (|Yn | > ε)
{z
}
|
→0
≤ 2ε
n.
für hinreichend groÿe
⇐: Es ist
Z
ε · P (|Yn | > ε) ≤
|R
{z
}
{|Yn |>ε}
Damit ist
Z
|Yn | dP ≤
|Yn | dP → 0.
{|Yn |>ε}
Ω
ε dP
Yn → 0
stochastisch.
Damit ist das Lemma bewiesen.
Lemma II.7.4
(Ω, A, P ) ein Wahrscheinlichkeitsraum, p > 0
blen mit Xn , X ∈ Lp (P ). Dann gilt:
Sei
i) Ist
Xn → X
in
ii) Ist
Xn → X
und
iii)
(Xn )
Lp (P ),
so folgt
Xn → Y
konvergiert in
Xn → X
jeweils in
Lp (P )
und
Xn , X : Ω → R
Zufallsvaria-
stochastisch.
Lp (P ),
so folgt
P -fast
sicher
X =Y.
genau dann, wenn
∀ε>0 ∃n0 ∀n,m≥n0 : kXn − Xm kLp (P ) ≤ ε.
Dies ist die Vollständigkeit von
iv) Ist
0<q<p
und
Xn → X
v) Lemma von Scheffé: Ist
R
|Xn | dP →
R
|X| dP ,
in
Lp (P )
Lp (P ),
und bekannt als Satz von Riesz-Fischer.
so folgt, dass auch
Xn ≥ 0, Xn → X stochastisch
Xn → X in L1 (P ).
Xn → X
und
in
Lq (P )
gilt.
Xn , X ∈ L1 (P )
mit
so folgt
-
97
/
145
-
Ingo Bürk
Kapitel II.7
Beweis
Konvergenzarten
Seite 98
:
i) Es ist
II.1.7
P ({|Xn − X| > ε}) =
ii) Dies folgt aus
E|Xn − X|p
→ 0.
εp
1. und II.7.3.
iii) Der Beweis wird hier nicht geführt, ndet sich aber zum Beispiel in Bauer Maÿund Integrationstheorie als Satz 15.7.
iv) Dies folgt aus
q<p
kXn − XkLq (P ) ≤ kXn − XkLp (P ) .
v) Der Beweis wird hier nicht geführt, ndet sich aber zum Beispiel in Bauer als
Lemma 26.6.
Damit ist das Lemma bewiesen.
Lemma II.7.5
Sei
(Ω, A, P )
ein Wahrscheinlichkeitsraum und
Xn , X : Ω → R
Zufallsvariablen.
Dann gilt
i) Ist
Xn → X
stochastisch, so folgt auch
Xn → X
X ∼Y.
ii) Ist
und
Xn → Y
Xn → X
in Verteilung.
jeweils in Verteilung, so folgt
PX = PY ,
das heiÿt
iii) Die folgenden Aussagen sind äquivalent:
a)
Xn → X
b)
lim FXn (x) = FX (x)
in Verteilung.
Verteilungsfunktion von
Beweis
x ∈ R, an denen Fx
Xi und FX die von X .
für alle
stetig ist. Dabei ist
FXi
die
:
R
R
R
f ∈ C b (R). Zu zeigen
ist, dass
f
◦X
dP
→
f
◦X
dP
gilt. Sei ( f ◦Xnk dP )
n
R
eine Teilfolge von ( f ◦ Xn dP ). Nach II.7.3 folgt dann die Existenz einer Teilfolge
i) Sei
P -f.s.
(Xnkl ), so dass Xnkl −→ X . Wir setzen supx∈R |f (x)| =: c < ∞.
für alle l ≥ 1, ω ∈ Ω, und
f ◦ Xnkl (ω) ≤ c
f ◦ Xnkl (ω) → f ◦ X(ω)
für
-
98
/
P -fast
145
-
alle
Damit ist
ω ∈ Ω.
Ingo Bürk
Kapitel II.8
Gesetze der groÿen Zahlen
Seite 99
Mit dem Satz von der majorisierten Konvergenz I.11.16 folgt dann
Z
Z
f ◦ Xnkl dP −→
f ◦ X dP .
R
R
(
f
◦X
dP
)
von
(
f ◦X
Teilfolge,
n
k
R
R n dP ) eine konvergente
R
f ◦ X dP konvergiert. Damit folgt f ◦ Xn dP → f ◦ X dP . Dies
Damit hat jede Teilfolge
die gegen
ist was wir zeigen wollten.
ii) Der Beweis wird hier nicht ausgeführt. Im Wesentlich verwendet man, dass für
R
R
zwei Wahrscheinlichkeitsmaÿe µ, ν auf R mit
f dµ = f dν für alle f ∈ C b (R)
auch
µ=ν
folgt.
iii) Der Beweis ndet sich in Meintrup+Schäer als Satz 7.5.
Damit ist das Lemma bewiesen.
Insgesamt lässt sich der Zusammenhang zwischen den vier Konvergenzarten also wie
folgt charakterisieren:
II.8. Gesetze der groÿen Zahlen
Motivation: Die Intuition sagt uns, dass Wahrscheinlichkeiten
≈
relative Häugkeiten
sind. Dies soll nun bestätigt werden.
Definition II.8.1
Sei
(Ω, A, P )
variablen mit
Schwaches / Starkes Gesetz der groÿen Zahlen
ein Wahrscheinlichkeitsraum und
Xn ∈ L1 (P )
für alle
n ≥ 1.
(Xn )n≥1
eine Folge von Zufalls-
Dann genügt
(Xn )
dem schwachen
beziehungsweise dem starken Gesetz der groÿen Zahlen genau dann, wenn
n
1X
(Xi − EP Xi ) −→ 0
n i=1
stochastisch beziehungsweise
P -fast
-
sicher gilt.
99
/
145
-
Ingo Bürk
Kapitel II.8
Gesetze der groÿen Zahlen
Seite 100
Satz II.8.2
(Ω, A, P ) ein Wahrscheinlichkeitsraum und (Xn ) ⊂ L2 (P ) mit EP Xi Xj =
EP Xi · EPP
Xj für alle i 6= j (die Folge (Xn ) ist also paarweise unkorreliert). Falls
n
1
ferner 2
i=1 VarP (Xi ) → 0 gilt, so folgt, dass (Xn ) dem schwachen Gesetz der
n
Sei
groÿen Zahlen genügt.
Beweis
: Für
Z :=
P (|Z| ≥ ε) ≤
1
n
Pn
i=1 (Xi
− E P Xi )
gilt mit Markov II.1.7:
EP |Z|2
.
ε2
Wir zeigen nun, dass die rechte Seite gegen
i)
ii)
0
konvergiert. Für
Yi := Xi − EP Xi
gilt
EP Yi = 0.
EP Yi Yj = EP (Xi − EP Xi )(Xj − EP Xj )
= EP Xi Xj − 2EP Xi EP Xj + EP Xi EP Xj = 0.
Yi = EP Yi2 − (EP Yi )2 = EP Yi2 = VarP Xi
2
EP Xi )) . Damit und mit II.2.11 folgt
!
n
n
n
X
X
X
Yi =
VarP (Yi ) =
VarP (Xi ),
Damit ist VarP
P
EP ( ni=1 (Xi −
VarP
i=1
i=1
und analog
VarP (
Pn
i=1
Yi ) =
i=1
daraus wiederum folgt dann
n
X
1
EP |Z|2 = 2 EP
n
!2
(Xi − EP Xi )
i=1
1
= 2 VarP
n
n
X
i=1
!
Yi
n
1 X
= 2
VarP (Xi )
n i=1
−→ 0.
Damit ist der Satz bewiesen.
Beispiel II.8.3:
Wahrscheinlichkeiten sind relative Häugkeiten
0
0
ein Wahrscheinlichkeitsraum und (Ω , A ) ein Messraum.
0
Ferner seien Xi : Ω → Ω für i ≥ 1 unabhängige und identisch verteilte Zufallsva0
0
riablen. Dann gilt für A ∈ A :
Sei
(Ω, A, P )
n
1X
1{Xi ∈A0 }
n i=1
|
{z
}
−→ P ({X1 ∈ A0 }).
rel. Häugkeiten für Xi (ω)∈A0
-
100
/
145
-
Ingo Bürk
Kapitel II.8
Beweis
i)
ii)
iii)
Gesetze der groÿen Zahlen
: Es sei
Yi := 1A0 ◦ Xi .
(Yi )i≥1 ist i.i.d.
⇒ (Yi )i≥1 sind
Seite 101
Für diese Zufallsvariablen gilt:
paarweise unkorrelliert II.2.11.
Yi ∈ L2 (P ), da |Yi | ≤ 1.
Pn
Pn
1
1
i=1 Var(Yi ) = n2
i=1 Var Y1 =
n2
Var Y1
n
→ 0.
Aus II.8.2 folgt dann:
n
1X
(1A0 ◦ Xi − E1A0 ◦ Xi ) −→ 0
n i=1
1
n
da
Pn
i=1
1A0 ◦ Xi =
1
n
1{Xi ∈A0 }
Pn
i=1
stochastisch,
und
E1A0 ◦ Xi = P ({Xi ∈ A0 }) = P ({X1 ∈ A0 }).
Bemerkungen:
i) Die im Beweis von II.8.2 mitbewiesene Ungleichung
P
)!
( n
1 X
≤
(Xi − EP Xi ) > ε
n
i=1
1
n
Pn
Var(Xi )
i=1
ε2 n
kann verbessert werden, falls höhere Momente der
Xi
kontrolliert werden können.
Als Beispiel dafür dient die Hoedings-Ungleichung (1963):
(Ω, A, P )
Sei
ein Wahrscheinlichkeitsraum und
Xi : Ω → [a, b]
unabhängige Zu-
fallsvariablen. Dann gilt
P
( n
)!
1 X
2
− 2ε n
(Xi − EP Xi ) ≥ ε
≤ 2e (b−a)2 .
n
i=1
Die rechte Seite konvergiert für
n→∞
deutlich schneller gegen
0
als die rechte
Seite der oben genannten Ungleichung aus II.8.2.
ii) Die Eigenschaft paarweise unkorreliert kann abgeschwächt werden
coecients, die beschreiben, wie stark die
Xi
Für
EP X1
X1 (ω), X2 (ω), X3 (ω), . . .
mixing
unkorreliert sind.
iii) Falls(Xi ) i.i.d. Zufallsvariablen sind, so zeigt II.8.2, dass
Wahrscheinlichkeit bei
⇒
1
n
Pn
i=1
Xi
mit hoher
liegt.
wissen wir aber bis jetzt
nicht, dass
n
1X
P -f.s.
Xi (ω) −→ EP X1 .
n i=1
(Da stochastische Konvergenz i.A. nicht
Die
P -f.s.
P -f.s.
Konvergenz impliziert.)
Konvergenz soll jetzt untersucht werden.
-
101
/
145
-
Ingo Bürk
Kapitel II.8
Gesetze der groÿen Zahlen
Seite 102
Satz II.8.4
(Ω, A, P ) ein Wahrscheinlichkeitsraum und (Xn ) ⊂ L2 (P ) eine Folge paarweise
unabhängiger Zufallsvariablen, das heiÿt, dass Xi und Xj für i 6= j unabhängig
und identisch verteilt sind. Dann folgt, dass (Xn ) dem starken Gesetz der groÿen
Sei
Zahlen genügt, das heiÿt es gilt
n
1X
P -f.s.
Xi −→ EP X1 .
n i=1
Beweis
Xn+ := max{Xn , 0}. Diese (Xn+ ) sind identisch verteilt und paar−
weise unabhängig. Analog gilt dies für Xn := min{Xn , 0}. Damit genügt es, den Beweis
für nicht-negative Zufallsvariablen zu führen. Setze sn := X1 + . . . + Xn , xiere ein ε > 0
n
und setze kn := b(1 + ε) c, wobei bxc := maxk∈Z,k≤x k die Gauÿklammer darstellt. Dann
1
n
folgt kn ≥ (1 + ε) für alle n ≥ 1. Auÿerdem folgt
2
∞
∞
X
skn
II.8.2 X
n
−n
4
(1 + ε) 2 · kn−1 Var X1
P − EX1 ≥ (1 + ε)
≤
kn
n=1
n=1
: Betrachte
∞
X
≤ 2 Var X1 ·
n
(1 + ε)− 2
n=1
< ∞.
Für
o
n
− EX1 ≥ (1 + ε)− 4
n
s
An := kknn
dem Lemma von Borel-Cantelli I.4.5 folgt damit
P
∞ \
∞
[
P∞
P (An ) < ∞ gezeigt. Aus
P (lim sup An ) = 0. Dies bedeutet
haben wir somit
n=1
!
(Ω \ Ak )
= P (lim inf(Ω \ An )) = 1.
n=1 k=n
P -fast alle ω ∈ Ω ein n0 (ω) ≥ 1 existiert,
skn (ω)
−n
4
für alle n ≥ n0 (ω) gilt.
kn − EX1 < (1 + ε)
Damit folgt, dass für
so dass
Daraus wiederum folgt dann
sk n
lim − EX1 = 0 P -f.s.
n→∞ kn
Das bedeutet
P -f.s.
(∗)
Konvergenz für die Teilfolge
besteht nun darin, von
P -f.s.
skn
kn
von
Konvergenz der Teilfolge auf
sn
. Der letzte Schritt
n
P -f.s.
Konvergenz der Ge-
samtfolge zu schlieÿen. Dies geschieht durch ein Einschachtelungsargument.
-
102
/
145
-
Ingo Bürk
Kapitel II.8
Gesetze der groÿen Zahlen
Für hinreichend groÿe
n
gilt
kn+1 ≤ (1 + 2ε)kn .
Für
N3l≥1
gibt es ein
Seite 103
n≥1
mit
l ∈ {kn , . . . , kn+1 }. Damit folgt
sk
sk
sl
− EX1 ≤ n+1 − EX1 ≤ (1 + 2ε) n+1 − EX1 .
l
kn
kn+1
Für
l→∞
→ ∞ und damit
s
skn+1
l
− EX1 ≤ lim sup (1 + 2ε)
− EX1
lim sup
l
kn+1
n→∞
l→∞
folgt n
(∗)
≤ (1 + 2ε)EX1 − EX1 = 2εEX1 .
Ferner gilt
sl
sk n
1
sk
− EX1 ≥
− EX1 ≥
· n − EX1 .
l
kn+1
1 + 2ε kn
Damit ist dann
lim inf
l→∞
s
l
l
− EX1 ≥ lim inf
n→∞
1
sk
· n − EX1
1 + 2ε kn
(∗)
1
EX1 − EX1
1 + 2ε
1
=
− 1 EX1
1 + 2ε
≥ −2εEX1 .
=
Dann gilt
s
ns
o
sl
l
l
lim sup − EX1 = lim sup max
− EX1 , − + EX1
l
l
l
l→∞
l→∞
s
s
l
l
= max lim sup
− EX1 , − lim inf
− EX1
l→∞
l
l
l→∞
≤ 2εEX1 .
s
Damit haben wir gezeigt, dass lim sup l − EX1 ≤ 0 ist. Aus der Nicht-Negativität des
l s
Betrags folgt aber auch lim inf l − EX1 ≥ 0. Damit sind diese beiden gleich und es
l
liegt P -f.s. Konvergenz vor.
Lemma II.8.5
Sei
(Ω, A, P )
Abgeschnittene Zufallsvariablen
ein Wahrscheinlichkeitsraum und
identisch verteilt sind. Ferner gelte
Yi := Xi · 1{|Xi |≤i}
(
Xi
=
0
falls
E|X1 | < ∞.
|Xi | ≤ i
sonst
-
103
/
Xi : Ω → R Zufallsvariablen,
i ≥ 1:
die
Setze für
.
145
-
Ingo Bürk
Kapitel II.8
Falls
1
n
Gesetze der groÿen Zahlen
P -f.s.
Pn
Yi −→ EX1 ,
i=1
Seite 104
so folgt
n
1X
P -f.s.
Xi −→ EX1 .
n i=1
Es genügt also, das starke Gesetz der groÿe Zahlen für abgeschnittene Zufallsvariablen zu beweisen.
Beweis
: Nach einem vorherigen Satz ist
Z
I.11.19
∞ > E|X1 | =
P (|X1 | > t) dt
[0,∞)
≥
∞
X
n=1
∞
X
=
P (|X1 | > n)
P (|Xn | > n).
n=1
Für
An := {Xn 6= Yn } = {|Xn | > n}
folgt mit dem ersten Teil des Lemmas von Borel-
Cantelli I.4.5
0=P
lim sup An
= P ({ω ∈ Ω : Xn (ω) 6= Yn (ω)
für unendlich viele
n ≥ 1}) .
n→∞
Daraus folgt, dass für
für alle
n ≥ n0 (ω).
P -fast
ω ∈ Ω ein n0 (ω) ≥ 1
für alle n ≥ n0 (ω):
alle
Dann folgt
existiert, so dass
Xn (ω) = Yn (ω)
n0 (ω)
n
n
1X
1 X
1X
Yi (ω) −
Xi (ω) =
(Yi (ω) − Xi (ω))
n i=1
n i=1
n i=1
{z
}
{z
}
|
|
→0 für n→∞
n.V. →EX1
Daraus folgt dann also
n
1X
Xi (ω) −→ EX1 .
n i=1
Damit ist das Lemma bewiesen.
-
104
/
145
-
Ingo Bürk
Kapitel II.8
Gesetze der groÿen Zahlen
Seite 105
Lemma II.8.6
x ≥ 0 gilt
X
2x
n−2 ≤ 4.
Für alle
n>x
Beweis
∞
X
N3m≥1
: Für
n
−2
−2
≤m
Z
t−2 dt ≤ m−2 + m−1 ≤ 2m−1 .
m
m−1≤x≤m
2x
∞
+
n=m
Für
gilt
X
folgt dann
n−2 ≤ 2m
n>x
X
n−2 = 2m
n>m−1
∞
X
n−2 ≤ 4.
n=m
Damit ist das Lemma bewiesen.
Lemma II.8.7
Sei
(Ω, A, P )
Yi := Xi · 1{|Xi |≤i}
∞
X
EY 2
n
n=1
Xi : Ω → R für i ≥ 1 identisch
E|X1 | < ∞. Für die abgeschnittenen Zufallsvariablen
ein Wahrscheinlichkeitsraum und
verteilte Zufallsvariablen mit
gilt
≤ 4E|X1 |.
n2
Kurz: Kontrolle der zweiten Momente der abgeschnittenen Zufallsvariablen.
Beweis
: Es ist
I.11.19
EYn2 =
Z
∞
Z
∞
P (Yn2 > t) dt
0
P (|Yn | >
=
0
√
s= t
Z
√
t) dt
∞
2sP (|Yn | > s) ds
=
0
-
105
/
145
-
Ingo Bürk
Kapitel II.8
Da
Gesetze der groÿen Zahlen
{|Yn | > s} = {s < |Xn | ≤ n} ⊂ {s < |Xn |}
und für
n<s
zudem
Seite 106
{|Yn | > s} = ∅
gilt
folgt
n
Z
2sP (|Xn | > s) ds
≤
(∗)
0
n
Z
2sP (|X1 | > s) ds.
=
0
Setze nun
fm (s) :=
f (s) :=
m
X
n=1
∞
X
n−2 1(s,∞) (n)2sP (|X1 | > s)
n−2 1(s,∞) (n)2sP (|X1 | > s).
n=1
Es gilt
fm (s) % f (s)
f (s) =
∞
X
für alle
s ≥ 0.
Mit II.8.6 folgt
n−2 1(s,∞) (n)2sP (|X1 | > s)
n=1
=
X
n−2 2sP (|X1 | > s)
n>s
II.8.6
≤ 4P (|X1 | > s)
(∗∗).
Damit folgt
∞
X
EY 2
n=1
n
n2
(∗)
≤ lim
m→∞
= lim
m→∞
= lim
m→∞
m
X
−2
2sP (|X1 | > s) ds
n
0
n=1
m
X
n
Z
n
−2
Z
∞
1[0,n) (s)2sP (|X1 | > s) ds
0
n=1
Z ∞X
m
−2
n 1(s,∞) (n)2sP (|X1 | > s) ds
0
n=1
|
Z
{z
}
=fm (s)
∞
≤ lim
fm (s) ds
m→∞ 0
Z ∞
I.11.13
=
f (s) ds
0
Z ∞
(∗∗)
≤
4P (|X1 | > s) ds
0
I.11.19
= 4E|X1 |.
Damit ist das Lemma bewiesen.
-
106
/
145
-
Ingo Bürk
Kapitel II.8
Gesetze der groÿen Zahlen
Satz II.8.8
Starkes Gesetz der groÿen Zahlen von Etemadi (1981)
Xi : Ω → R für i ≥ 1 identisch verteilte Zufallsvariablen mit E|X1 | < ∞. Sind die (Xi ) zudem paarweise unabhängig,
Sei
(Ω, A, P )
Seite 107
ein Wahrscheinlichkeitsraum und
so folgt
n
1X
P -f.s.
Xi −→ EX1 .
n i=1
Anmerkung: Dieser Satz ist eine Verallgemeinerung von II.8.4 von
(Xi ) ⊂ L2 (P )
zu
(Xi ) ⊂ L1 (P ).
Beweis
: Der Beweis ähnelt der Struktur des Beweises von II.8.4. Wie im Beweis von
II.8.4 können wir ohne Einschränkung Xi ≥ 0 annehmen. Für ε >
αn
n
für n ≥ 1 setze kn := bα c. Es gilt dann kn ≥
für alle n ≥
2
log m
n0 := d log α e = dlogα me folgt
X
kn−2
n:kn ≥m
≤4
∞
X
0 setze α := 1 + ε,
1. Für m ≥ 1 und
α−2n = 4 · α−2n0 · (1 − α−2 )−1
n=n0
≤ 4m−2 (1 − α−2 )−1 .
Deniere die abgeschnittenen Zufallsvariablen
Yi := Xi · 1{|Xi |≤i}
und
Tn := Y1 + . . . + Yn .
Deniere nun
an,m
(
kn−2 Var Ym
:=
0
falls
m ≤ kn
sonst
,
da wir diese Doppelfolge später benötigen. Für
δ>0
gilt nun mit der Ungleichung, die
im Beweis von II.8.2 mitbewiesen wurde:
∞
X
n=1
II.8.2
P (|Tkn − ETkn | > δkn ) ≤
∞
X
Var Tk
n=1
-
107
n
δ 2 kn2
/
145
-
Ingo Bürk
Kapitel II.8
Gesetze der groÿen Zahlen
Seite 108
Yi
Die
sind paarweise unabhängig und daher nach der Bemerkung nach II.2.11 paarweise
Pkn
unkorreliert. Mit diesem Satz folgt dann zudem Var Tkn =
m=1 Var Ym . Dann ist
=δ
2
∞
X
kn−2
kn
X
Var Ym
m=1
n=1
∞
∞
XX
an,m
= δ −2
|{z}
n=1 m=1
≥0
∞
∞
I.11.17 −2 X X
an,m
= δ
m=1 n=1
= δ −2
∞
X
Var Ym
m=1
≤ 4δ −2 (1 −
Da
Var Ym ≤ EYm2
X
kn−2
n:kn ≥m
∞
X
Var Ym
−2 −1
α )
m2
m=1
gilt folgt zudem
II.8.7
≤ 16δ −2 (1 − α−2 )−1 E|X1 |
< ∞.
n
o
P∞
Tkn
Tkn Setze nun An :=
kn − E kn > δ . Da n=1 P (An ) < ∞ ist folgt
Teil von Borel-Cantelli I.4.5 dann P (lim sup An ) = 0 und damit
!
∞ \
∞
[
P
(Ω \ Ak ) = 1.
mit dem ersten
n=1 k=n
Für
Da
P -fast alle ω ∈ Ω existiert
Tkn (ω)
T
k
n
≤δ
−
E
kn
kn δ
dann ein
für alle
n0 (ω) ≥ 1
mit
n ≥ n0 (ω).
beliebig gewählt werden kann folgt
Tkn (ω)
T
k
n
= 0.
lim −E
n→∞
kn
kn X1 · 1{|X1 |≤n} % X1 . Damit ist aufgrund der identischen Verteilung und nach
Levi I.11.13: EYn = EXn 1{|X1 |≤n} = EX1 1{|X1 |≤n} % EX1 . Damit ist dann
Ferner gilt
Beppo
kn
ETkn
1 X
=
EYi −→ EX1 ,
kn
kn i=1
-
108
/
145
-
Ingo Bürk
Kapitel II.8
Gesetze der groÿen Zahlen
wobei ein Ergebnis der Analysis verwendet wurde: Gilt
a.
an % a, so ist auch
Seite 109
1
n
Pn
i=1
ai →
Weiter folgt nun
Tkn (ω)
lim − EX1 = 0.
n→∞
kn
Wir übernehmen jetzt wortwörtlich das Einschachtelungsargument aus dem Beweis von
II.8.4 und erhalten damit
Tn (ω)
lim − EX1 = 0.
n→∞
n
Mit der Anwendung von II.8.5 erhalten wir dann die zu beweisende Aussage und der
Beweis ist vollständig.
Korollar II.8.9
(Kolmogorov)
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xi : Ω → R für i ≥ 1 i.i.d.
E|X1 | < ∞. Dann folgt, dass das starke Gesetz der groÿen Zahlen gilt, also
mit
n
1X
P -f.s.
Xi −→ EX1 .
n i=1
Beweis
: Die
(Xi )
sind unabhängig und damit paarweise unabhängig. Aus II.8.8 folgt
dann die Behauptung.
Satz II.8.10
Sei
(Ω, A, P )
Satz von Menchov-Rademacher
(Xi ) ⊂ L2 (P ) paarweise unkorreEXi = 0. Ferner sei (an ) ⊂ (0, ∞) mit an % ∞
ein Wahrscheinlichkeitsraum und
liert und zentriert, das heiÿt
und
∞
X
(log n)2 a−2
n Var Xn < ∞.
n=1
Dann folgt
n
1 X
lim sup Xi = 0
an
n→∞
P -fast
sicher.
i=1
Im Speziellen gilt für identisch verteilte
Xi
und
an := n
damit das starke Gesetz
der groÿen Zahlen. Weitere Literatur hierzu ndet sich in Klenke auf Seite 124.
-
109
/
145
-
Ingo Bürk
Kapitel II.8
Gesetze der groÿen Zahlen
Beispiel II.8.11:
d
f : [0, 1] → R
Sei
Seite 110
Monte-Carlo-Integration
Lebesgue-integrierbar. Unser Ziel ist es, das Integral
zu berechnen. Es gibt numerische Ansätze über sogenannte
R
[0,1]d
f dλ
Quadraturformeln, wel-
che im Wesentlichen die folgende Approximation liefern:
Z
f dλ ≈
[0,1]d
n
X
βi f (xi ),
i=1
βi ∈ R Koezienten für die Stützstellen xi ∈ [0, 1]d sind. All diese Parameter
werden je nach Verfahren geeignet gewählt. Dies kann benutzt werden, um ≈
genauer zu quantizieren. Ist d klein und f glatt (also z.B. hinreichend oft
wobei
stetig dierenzierbar mit beschränkten Ableitungen etc.), so werden vergleichsweise
wenige Stützstellen benötigt. Ist jedoch
d
groÿ und
f
nicht glatt genug, so
werden im Allgemeinen sehr viele Stützstellen benötigt.
Wir wollen uns daher nun die Monte-Carlo-Integration anschauen, welche in diesem
d
Fall deutlich bessere Ergebnisse liefert. Seien Xi : Ω → [0, 1] i.i.d. Zufallsvariablen
mit
PXi = λ[0,1]d . Dann sind auch f ◦ Xi
i.i.d. und
E(f ◦ X1 ) < ∞. Mit dem Gesetz
der groÿen Zahlen II.8.8 folgt dann
n
1X
P -f.s.
f ◦ Xi −→ EP (f ◦ X1 ) =
n i=1
Z
f dλ.
[0,1]d
Zur Abschätzung des Approximationsfehlers kennen wir bereits:
i) Die Ungleichung aus dem Beweis von II.8.2 für
ii) Die Hoeffdings-Ungleichung für
Beide Ungleichungen sind von
Satz II.8.12
d
f
f ∈ L2 .
beschränkt.
und von der Glattheit von
f
unabhängig.
Glivenko-Cantelli
(Ω, A, P ) ein Wahrscheinlichkeitsraum und Xi : Ω → R i.i.d. Zufallsvariablen.
Ferner sei F die Verteilungsfunktion von X1 (und damit X2 , X3 usw.), sowie
Sei
Fn : R → [0, 1]
n
1X
x 7→
1(−∞,x] (Xi )
n i=1
die empirische Verteilungsfunktion der
lim sup sup |Fn (x) − F (x)| = 0
n→∞
Xi .
Dann gilt
P -f.s.
x∈R
Kurz: Die empirische Verteilungsfunktion konvergiert
-
110
/
145
-
P -f.s.
gleichmäÿig gegen
F.
Ingo Bürk
Kapitel II.9
Konvergenz in Verteilung revisited
Beachte: Eigentlich ist
Fn
in der Literatur jedoch oft
ω∈Ω
Seite 111
R × Ω → [0, 1], diese Abhängigkeit von Ω wird
vernachlässigt. Fn ist daher eine zufällige Funktion, da für
eine Funktion
gilt:
n
Fn (x, ω) =
Beweis
1X
1(−∞,x] (Xi (ω)).
n i=1
: Der Beweis wird hier nicht geführt, ndet sich jedoch zum Beispiel in Klenke
auf Seite 117.
II.9. Konvergenz in Verteilung revisited
Bis jetzt haben wir für reelle Zufallsvariablen
X
Z
Xn → X
in Verteilung
:⇔
für alle stetigen und beschränkten
und
Xn (n ≥ 1)
deniert:
Z
f dPXn →
f dPX
f : R → R.
Dies ist eigentlich ein Konvergenzbegri für Wahrscheinlichkeitsmaÿe auf
ten wir in II.7.5 gezeigt, dass aus
Xn → X
stochastisch folgt, dass
R. Ferner hatXn → X in Verteilung.
Lemma II.9.1
X reelle Zufallsvariablen mit den Verteilungsfunktionen (Fn ) und
F . Konvergiert Xn → X in Verteilung, so folgt, dass Fn (x) → F (x) für alle x ∈
{x0 : F stetig in x0 }.
Seien
(Xn )
Beweis
und
x ∈ R und ε > 0 denieren wir fε , gε : R → R durch




1
y
≤
x

1
y−x
fε (y) := 1 − ε
x < y < x + ε und gε (y) := 1 − y−x+ε
ε




0
y ≥x+ε
0
das heiÿt
: Für
fε
und
gε
approximieren
y ≤x−ε
x−ε<y <x,
y>x
1(−∞,x] . Es gilt
Z
Fn (x) = PXn ((−∞, x]) = 1(−∞,x] dPXn
Z
Z
Z
n.V.
≤ fε dPXn −→ fε dPX ≤ 1(−∞,x+ε] dPX = F (x + ε)
Damit folgt
lim sup Fn (x) ≤ F (x + ε)
F in x stetig
=⇒
lim sup Fn (x) ≤ F (x).
n→∞
Analog zeigt man
n→∞
lim inf Fn (x) ≥ F (x)
-
über
gε .
111
145
/
Damit folgt die Behauptung.
-
Ingo Bürk
Kapitel II.9
Konvergenz in Verteilung revisited
Satz II.9.2
Seite 112
Skorokhod-Darstellung
(Ωn , An , Pn ) und (Ω, A, P ) Wahrscheinlichkeitsräume mit n ≥ 1: Ferner seien
Xn : Ωn → R und X : Ω → R Zufallsvariablen mit den Verteilungsfunktionen Fn
und F . Gilt
Seien
lim Fn (x) = F (x)
für alle
n→∞
x ∈ {x0 : F
stetig in
x0 },
∗
∗
∗
so folgt, dass es einen Wahrscheinlichkeitsraum (Ω , A , P ) mit den Zufallsvaria∗
∗
∗
∗
blen Xn : Ω → R und X : Ω → R gibt, so dass die folgenden Eigenschaften
erfüllt sind:
i)
ii)
iii)
Xn∗ ∼ Xn .
X∗ ∼ X.
Xn∗ → X ∗ P ∗ -fast
Auÿerdem: Es kann
Beweis
Ω
∗
: Setze
sicher.
Ω∗ = (0, 1), P ∗ = λ|(0,1)
Ω∗ = (0, 1), A∗ = B|(0,1)
und
und
A∗ = B|(0,1)
P ∗ = λ|(0,1) .
gewählt werden.
Ferner setze für
t ∈ (0, 1) =
:
Xn∗ (t) := inf{x ∈ R : t ≤ Fn (x)}
X ∗ (t) := inf{x ∈ R : t ≤ F (x)}.
1. Schritt: Wir zeigen
Xn∗ ∼ Xn
und
X∗ ∼ X.
Es genügt,
X∗ ∼ X
zu zeigen, da
∗
es für die Xn aufgrund der Konstruktion völlig analog funktioniert. Dazu betrachte
{x ∈ R : t ≤ F (x)}. Diese Menge ist ein Intervall, da F monoton wachsend ist. Ferner
ist sie nach unten beschränkt, wobei sie links sogar abgeschlossen ist, da
F
rechtsseitig
stetig ist. Daraus folgt
{x ∈ R : t ≤ F (x)} = [X ∗ (t), ∞)
Dies bedeutet, dass
t ≤ F (x)
(∗)
genau dann, wenn
X ∗ (t) ≤ x.
Damit ist
(∗)
P ∗ ({t ∈ (0, 1) : X ∗ (t) ≤ x}) = P ∗ ({t ∈ (0, 1) : t ≤ F (x)})
= λ|(0,1) ((0, F (x)]) = F (x).
∗
Daraus folgt also, dass X die Verteilungsfunktion F hat. Mit I.6.2 folgt dann, dass
∗
∗
und X die selbe Verteilung besitzen, also X ∼ X .
2. Schritt: Wir müssen nun noch die
weis ist, dass
X
P ∗ -f.s. Konvergenz zeigen. Die Idee für diesen Be-
Xn∗ , X ∗
im Wesentlichen die Umkehrfunktionen der Verteilungsfunktionen
∗
∗
sind. Daraus folgt dann die Konvergenz von Xn gegen X auf den Stetigkeitspunkten.
Diese haben das Maÿ
1.
Dies führen wir nun formal aus.
-
112
/
145
-
Ingo Bürk
Kapitel II.9
Konvergenz in Verteilung revisited
Seite 113
t ∈ (0, 1) und ε > 0. Da F monoton wachsend und beschränkt ist folgt, dass {x0 :
F unstetig in x0 } höchstens abzählbar ist. Daraus folgt, dass es ein x ∈ (X ∗ (t) −
ε, X ∗ (t)) gibt, so dass F stetig in x ist. Aus (∗) folgt dann F (x) < t und nach
Voraussetzung damit Fn (x) < t für alle n ≥ n0 mit einem geeigneten n0 . Wiederum
∗
∗
∗
∗
aus (∗) folgt dann x ∈ (X (t) − ε, Xn (t)) für alle n ≥ n0 . Dann ist Xn (t) > X (t) − ε
∗
∗
und damit schlieÿlich lim inf Xn (t) ≥ X (t) für alle t ∈ (0, 1).
i) Sei
t̃ ∈ (0, 1) mit t̃ > t, t ∈ (0, 1), ε > 0. Dann gibt es ein x ∈ (X ∗ (t̃), X ∗ (t̃) + ε), so
∗
∗
dass F stetig in x ist. Wende nun (∗) auf x = X (t̃) an, so folgt, dass F (X (t̃)) ≥ t̃.
∗
Die Monotonie von F ergibt dann t < F (X (t̃)) ≤ F (x). Nach Voraussetzung
ist damit Fn (x) ≥ t für alle n ≥ n1 mit einem geeigneten n1 . Aus (∗) folgt dann
x ∈ (Xn∗ (t̃), X ∗ (t̃)+ε). Dann ist Xn∗ (t) < X ∗ (t̃)+ε und damit lim sup Xn∗ (t) ≤ X ∗ (t̃)
für alle t̃ > t.
ii) Sei
X ∗ stetig in t ist, so folgt aus i) und ii), dass lim Xn∗ (t) = X ∗ (t) gilt. Da X ∗ monoton
∗
ist folgt, dass es nur abzählbar viele Unstetigkeitsstellen von X gibt. Diese haben das
λ|(0,1) -Maÿ 0. Damit ist der Beweis vollständig.
Falls
Korollar II.9.3
Seien
(Xn ), X
n≥1
für
Zufallsvariablen mit den Verteilungsfunktionen
F.
Dann sind die folgenden Aussagen äquivalent:
i)
Xn → X
ii)
und
in Verteilung.
Fn (x) → F (x)
Beweis
(Fn )
für alle
x∈R
an denen
F
stetig ist.
:
1.)
⇒
2.): Dies haben wir bereits in II.9.1 bewiesen.
2.)
⇒
1.): Wir wählen
Xn∗
und
X∗
wie in II.9.2. Dort haben wir auch gesehen,
∗
∗
∗
∗
∗
dass dann Xn → X P -fast sicher. Mit II.7.5 folgt dann Xn → X in Verteilung.
∗
∗
Da Xn ∼ Xn und X ∼ X gilt folgt auch Xn → X in Verteilung.
Damit ist der Beweis vollständig.
Korollar II.9.4
Seien
Y
(Xn ), X
und
Y
reelle Zufallsvariablen mit
in Verteilung. Dann folgt
Xn → X
in Verteilung und
Xn →
X ∼Y.
-
113
/
145
-
Ingo Bürk
Kapitel II.9
Beweis
Konvergenz in Verteilung revisited
Seite 114
Fn , FX und FY jeweils die Verteilungsfunktionen von Xn , X und Y .
Mit II.9.3 folgt dann Fn (x) → FX (x) und Fn (x) → FY (x) für alle x an denen FX und
FY stetig sind. Für diese x ∈ R folgt damit FX (x) = FY (x). Da Verteilungsfunktionen
: Seien
rechtsseitig stetig sind und die Menge der Unstetigkeitsstellen aus Monotoniegründen
höchstens abzählbar ist folgt damit sogar
Bildmaÿe gleich und es folgt
FX (x) = FY (x)
(Ω, A, P )
X P -fast
P ({X = c}) = 1.
Xn , X : Ω → R Zufallsvariaheiÿt es gibt ein c ∈ R, so dass
sicher konstant, das
Dann sind die folgenden Aussagen äquivalent:
i)
Xn → X
in Verteilung.
ii)
Xn → X
stochastisch.
1.)
Damit sind die
ein Wahrscheinlichkeitsraum und seien
blen. Ferner sei
Beweis
x ∈ R.
X ∼Y.
Korollar II.9.5
Sei
für alle
:
⇒
2.): Sei
F
die Verteilungsfunktion von
X.
F ist. Sei nun Fn die Verteilungsfunktion
Fn (x) → F (x) für alle x 6= c. Sei nun ε > 0,
Unstetigkeitsstelle von
Mit II.9.3 folgt dann
c die einzige
von Xn (n ≥ 1).
Dann folgt, dass
dann gilt:
P ({|Xn − X| ≤ ε}) = P ({c − ε ≤ Xn ≤ c + ε})
≥ P ({c − ε < Xn ≤ c + ε})
= Fn (c + ε) − Fn (c − ε)
| {z } | {z }
→F (c+ε)
→F (c−ε)
−→ 1 − 0 = 1.
2.)
⇒
1.): Dies wurde in II.7.5 und II.7.3 bewiesen.
Damit ist der Beweis vollständig.
Korollar II.9.6
(Ω, A, P ) ein Wahrscheinlichkeitsraum und Xn , X : Ω → R Zufallsvariablen.
Ferner sei h : R → R messbar und für A := {x ∈ R : h ist nicht stetig in x}
gelte PX (A) = 0. Weiter gelte Xn → X in Verteilung. Dann folgt, dass auch
h ◦ Xn → h ◦ X in Verteilung.
Sei
-
114
/
145
-
Ingo Bürk
Kapitel II.9
Konvergenz in Verteilung revisited
Seite 115
Beweis
: Wir verzichten auf den Beweis, dass tatsächlich A ∈ B ist und überlassen
∗
∗
∗
dies als Übung. Sei nun (Ω , A , P ) wie in II.9.2 gegeben. Es gilt dann
X ∗ ∼X
P ∗ ({ω ∗ ∈ Ω∗ : X ∗ (ω ∗ ) ∈ A}) = PX∗ ∗ (A) = PX (A) = 0.
∗
∗
Also gilt P -fast sicher X ∈
/ A. Da Xn∗ → X ∗ P ∗ -fast sicher gilt folgt damit auch
h ◦ Xn∗ → h ◦ X ∗ P ∗ -fast sicher. Dann folgt h ◦ Xn∗ → h ◦ X ∗ in Verteilung. Es reicht nun
∗
∗
zu zeigen, dass h ◦ Xn ∼ h ◦ Xn und h ◦ X ∼ h ◦ X gilt. Es ist
∗
∗
Ph◦X
∗ = (PX ∗ )h = (PX )h = Ph◦X
und analog für
Xn
und
Xn∗
statt
X
und
X ∗.
Damit ist der Beweis vollständig.
Lemma II.9.7
Sei
f : R → R stetig und beschränkt. Dann existiert eine Folge (gn ) mit gn : R → R
gn (x) % f (x) für alle x ∈ R.
Lipschitz-stetig und beschränkt, so dass
Beweis
hn : R → [− kf k∞ , ∞) Lipschitz-stetig und
supn≥1 hn (x) = f (x). Dann ist gn := max{h1 , . . . , hn } das gesuchte n-te Folgenglied.
Ferner können wir ohne Einschränkung annehmen, dass f ≥ 0 gilt, andernfalls nehme
f + kf k∞ . Für A ⊂ R deniere d(x, A) := inf y∈A |x − y| als den Abstand von x zu A.
Für Q 3 r ≥ 0 und m ≥ 1 deniere h̃m,r (x) := m · d(x, {f ≤ r}) (x ∈ R). Dann gilt:
: Wir beschränken uns auf
|h̃m,r (x) − h̃m,r (y)| = m · |d(x, {f ≤ r}) − d(y, {f ≤ r})|
Sei
z ∈ {f ≤ r}
r}).
mit
d(y, z) ≤ d(y, {f ≤ r}) + ε
und o.E. sei
d(x, {f ≤ r}) ≥ d(y, {f ≤
Dann schätzen wir ab
≤ m · (d(x, z) − d(y, z) + ε)
≤ m · (d(x, y) + ε).
ε → 0 folgt damit, dass h̃m,r Lipschitz-stetig mit der Konstante m ist. Deniere
hm,r := min{r, h̃m,r }, diese Funktion ist dann Lipschitz-stetig und beschränkt und
es gilt hm,r ≥ 0. Sei nun x ∈ R und ε > 0, dann gilt für alle 0 ≤ r ∈ Q mit f (x) − ε <
r < f (x), dass es eine Umgebung U von x gibt, so dass f (y) > r für alle y ∈ U .
Daraus folgt d(x, {f ≤ r}) > 0. Dann gibt es ein m0 ≥ 1 mit hm0 ,r (x) = r . Nun folgt
f (x) − ε < hm0 ,r (x) und ferner gilt hm,r (x) ≤ r < f (x) für alle m ≥ 1 und alle Q 3 r ≥ 0
mit r < f (x). Auÿerdem gilt für r ≥ f (x) oensichtlich d(x, {f ≤ r}) = 0 und damit
hm,r (x) = 0 ≤ f (x). Insgesamt gilt also hm,r (x) ≤ f (x) für alle m,r,x. Dann folgt
Für
nun
sup
hm,r (x) = f (x).
m≥1,0≤r∈Q
Damit ist der Beweis vollständig.
-
115
/
145
-
Ingo Bürk
Kapitel II.9
Konvergenz in Verteilung revisited
Satz II.9.8
Seien
i)
ii)
(Xn ), X
Xn → X
reelle Zufallsvariablen. Dann sind die folgenden Aussagen äquivalent:
in Verteilung.
E(g ◦ Xn ) → E(g ◦ X)
Beweis
Seite 116
für alle Lipschitz-stetige und beschränkte
g : R → R.
:
1.)
⇒
2.): Diese Aussage ist trivial.
2.)
⇒
1.): Sei
eine Folge
(gn )
f: R → R
stetig und beschränkt. Aus II.9.7 folgt dann, dass es
mit Lipschitz-stetigen und beschränkten
(∗) gilt. Ferner können wir
gn (x) ∈ [− kf k∞ , kf k∞ ]
lim inf E(f ◦ Xn ) ≥ lim inf E(gi ◦ Xn )
n→∞
gn
gibt, so dass
gn % f
annehmen. Dann ist
∀i∈N
n→∞
n.V
= E(gi ◦ X).
gi + kf k∞ ≥ 0.
Ferner gilt
Mit (∗) und I.11.13 folgt dann
E(gi ◦ X) % E(f ◦ X).
Dann gilt
lim inf E(f ◦ Xn ) ≥ E(f ◦ X).
n→∞
Analog gilt
lim sup E(f ◦ Xn ) ≤ E(f ◦ X).
n→∞
Führt man diese Aussagen zusammen, so folgt die Behauptung.
Korollar II.9.9
Sei
(Ω, A, P )
Satz von Slutsky
ein Wahrscheinlichkeitsraum und seien
fallsvariablen für
n ≥ 1.
stochastisch. Dann folgt
Kurz: Um
Ferner gelte
Yn → X
Xn → X
Xn , Yn , X : Ω → R reelle Zu|Xn − Yn | → 0
in Verteilung und
in Verteilung.
Yn → X in Verteilung zu zeigen genügt
|Xn − Yn | → 0 stochastisch ist.
es,
Xn
zu nden, so dass
Xn → X
in Verteilung und
-
116
/
145
-
Ingo Bürk
Kapitel II.9
Beweis
Konvergenz in Verteilung revisited
: Sei
g: R → R
Seite 117
Lipschitz-stetig und beschränkt. Dann gilt
|E(g ◦ Xn − g ◦ Yn )| ≤
Z
Z
|g ◦ Xn − g ◦ Yn | dP +
|g ◦ Xn − g ◦ Yn | dP
{|Xn −Yn |>δ}
{|Xn −Yn |≤δ}
|
{z
} |
{z
}
≤2kgk∞ P ({|Xn −Yn |>δ})
≤|g|1 δ
≤ 2 kgk∞ P ({|Xn − Yn | > δ}) + |g|1 δ .
Für
n→∞
und
δ→0
folgt dann
E(g ◦ Xn − g ◦ Yn ) → 0.
Damit ist
E(g ◦ Yn ) − E(g ◦ X) = E(g ◦ Yn − g ◦ Xn ) + E(g ◦ Xn − g ◦ X)
|
{z
} |
{z
}
→0 n.V.
→0
−→ 0.
Mit II.9.8 folgt dann die Behauptung.
Korollar II.9.10
(Ω, A, P ) ein Wahrscheinlichkeitsraum und Xn , Yn , X : Ω → R Zufallsvariablen.
Auÿerdem sei c ∈ R und es gelte Xn → X in Verteilung und Yn → c stochastisch.
Dann folgt Xn + Yn → X + c in Verteilung.
Sei
Beweis
Zn := Xn + (Yn − c). Dann ist |Xn − Zn | = |Yn − c| → 0 stochastisch.
Mit II.9.9 folgt dann Zn = Xn + Yn − c → X in Verteilung. Wenden wir II.9.6 auf
h(x) := x + c an, so folgt Xn + Yn → X + c in Verteilung.
: Deniere
Satz II.9.11
Seien
fn dλ
Xn , X reelle Zufallsvariablen mit Lebesguedichten fn bzw. f , das heiÿt PXn =
und PX = f dλ. Gilt fn → f λ-fast sicher, so folgt Xn → X in Verteilung.
-
117
/
145
-
Ingo Bürk
Kapitel II.9
Beweis
Konvergenz in Verteilung revisited
Seite 118
g ∈ Cb (R), dann gibt es ein c > 0Rmit |g(x)| ≤ c für
R alle x ∈ R. Daraus
folgt dann g(x) + c ≥ 0 für alle x ∈ R. Ferner gilt
g dPX = −c + R (g + c)f dλ. Weiter
R
ist fn ≥ 0 und f ≥ 0. Damit folgt
Z
Z
g dPX = −c + (g + c) lim inf fn dλ
R
R|
{zn→∞ }
≥0
Z
I.11.14
≤ −c + lim inf (g + c) fn dλ
| {z }
n→∞
R
: Sei
dPXn
Z
g dPXn .
= lim inf
n→∞
R
Setzt man oben nun überall
Z
−g
statt
g
ein, so erhält man analog
Z
g dPX ≥ lim sup
g dPXn .
n→∞
R
Damit ist der Beweis vollständig.
Satz II.9.12
Seien
(Xn )
Satz von Lévy-Gramér
und
X
reelle Zufallsvariablen und
(ϕn ), ϕ
die zugehörigen charakteris-
tischen Funktionen, das heiÿt
ϕn : R → C
Z
t 7→
eitx dPXn (x) = EeitXn ,
R
sowie analog für
i)
ii)
Xn → X
ϕ.
Dann sind die folgenden Aussagen äquivalent:
in Verteilung.
ϕn (t) → ϕ(t)
für alle
t ∈ R.
Anmerkung: Dieser Satz erlaubt es uns also, die Konvergenz in Verteilung zu überprüfen, indem man nur eine spezielle Klasse von Funktionen betrachtet, anstatt die sehr
groÿe Klasse beliebiger stetiger Funktionen betrachten zu müssen.
Beweis
i)
1.)
:
⇒
2.): Es gilt
Z
ϕn (t) =
−→
itx
e
Z
Z
Z
dPXn (x) =
cos(tx) dPXn (x) + i sin(tx) dPXn (x)
Z
cos(tx) dPX (x) + i sin(tx) dPX (x) = ϕ(t).
-
118
/
145
-
Ingo Bürk
Kapitel II.9
ii)
Konvergenz in Verteilung revisited
⇒
und Y
2.)
1.): Die Idee ist es, die erste Aussage zunächst für
Seite 119
Xn + αY
(mit
α>0
eine gutartige Störung) zu beweisen. Dann wenden wir ein Grenzwertar-
gument für
α→0
an.
Da Konvergenz in Verteilung und charakteristische Funktionen nur von den Bild-
X̃n
maÿen abhängen und wir stets Zufallsvariablen
X̃ ∼ X
und
X̃
mit
X̃n ∼ Xn
und
(X̃n ) und X̃ unabhängig sind, können wir ohne Einschränkung annehmen, dass Xn und X unabhängig sind. Ferner sei Y eine Zufallsvariable,
die von Xn und X unabhängig ist und zudem gelte Y ∼ N (0, 1). Wir beweisen
nden, so dass
zunächst zwei Teilaussagen:
a)
PXn +αY
hat eine stetige Verteilungsfunktion:
Aus II.5.2 folgt, dass
PXn +αY = PXn ∗ PαY
ist. Für
ci ∈ R
mit
ci → c
gilt
dann
FXn +αY (ci ) = PXn +αY ((−∞, ci ]) = (PXn ∗ PαY )((−∞, ci ])
Z
II.5.2
=
PXn ((−∞, ci − Y ]) dPαY (x)
{z
}
R|
∈[0,1]
I.11.16
Z
PXn ((−∞, c − Y ]) dPαY (x) = . . . = FXn +αY (c).
−→
R
b) Die charakteristische Funktion von
Setze
PXn +αY
ist
X -integrierbar:
x ∈ R. Dann ist PαY = Ph◦Y = (PY )h .
Z
1(−∞,c] dPαY
PαY ((−∞, c]) =
R
Z
=
1(−∞,c] d(PY )h
RZ
I.11.20
1(−∞,c] ◦ h dPY
=
R
Z
y2
1
Y ∼N (0,1)
√
=
1(−∞,c] (αy)e− 2 dy
Z2π R
2
1
− y2
2α
=√
1
(y)e
dy
(−∞,c]
2πα2 R
= N (0, α2 )((−∞, c]).
h(x) := αx
für
Daraus folgt dann also
rakteristische Funktion
ϕαY (t) = e−
αY ∼ N (0, α2 ). Aus II.4.3
von αY wie folgt aussieht:
α2 t2
2
für alle
Ferner gilt nach II.4.7, da
ϕXn · ϕαY .
dann auch
Xn
ϕXn
ϕXn +αY ∈ L1 (λ).
Nach II.4.2 ist
-
und
/
145
gilt
t ∈ R.
αY
-
c∈R
wissen wir, dass die cha-
unabhängig sind, auch
beschränkt und es ist
119
Für
ϕαY ∈ L1 (λ).
ϕXn +αY =
Damit gilt
Ingo Bürk
Kapitel II.9
Konvergenz in Verteilung revisited
Die Umkehrformel II.4.6 sagt uns, dass
PXn +αY λ-absolut
Seite 120
stetig ist und folgende
Lebesguedichte besitzt:
Z
1
gα,n (x) =
e−itx ϕXn +αY (t) dt
2π R
Z
α2 t2
1
e−itx ϕXn (t)e− 2 dt.
=
2π R
Analog erhält man, dass
1
gα (x) =
2π
Z
PX+αY
die Lebesguedichte
e−itx ϕX (t)e−
α2 t2
2
dt
R
besitzt. Nun gilt nach Voraussetzung
ϕXn (t) = ϕn (t) → ϕ(t) = ϕX (t)
t ∈ R. Ferner gilt
II.4.2 α2 t2
−itx − α22t2
e
e
ϕ
(t)
≤ e− 2
Xn
Mit I.11.16 folgt dann
X + αY
für alle
für alle
t ∈ R.
gα,n (x) → gα (x) für alle x ∈ R. Mit II.9.11 folgt Xn + αY →
in Verteilung. Damit ist der erste Teil des Beweises vollständig. Wir
wenden uns dem Fall α
= 0
g: R → R
zu. Dazu sei
beschränkt und Lipschitz-
stetig. Ferner sei die Lipschitz-Konstante ohne Einschränkung ≤ 1 und es sei ε > 0.
ε
. Ferner existiert ein n0 ≥ 1, so
Dann gibt es ein α > 0 mit P ({|αY | > ε}) ≤
kgk∞
dass:
Z
g(Xn + αY ) − g(X + αY ) dP ≤ ε
da wir eben bewiesen hatten, dass
für alle
Xn + αY → X + αY
n ≥ n0 ,
in Verteilung. Für
n ≥ n0
gilt dann
Z
Z
g(Xn ) − g(X) dP ≤
|g(Xn ) − g(Xn + αY )| dP
Ω
|
{z
}
=:(1)
Z
+
Z
|g(Xn ) + αY ) − g(X + αY )| dP + |g(X + αY ) − g(X)| dP
|
{z
} |Ω
{z
}
Ω
=:(2)
≤ε
Wir schätzen nun noch die anderen beiden Integrale ab. Für
(1) gilt:
Z
|g(Xn ) − g(Xn + αY )| dP =
ZΩ
|αY |≤ε
Z
|g(Xn ) − g(Xn + αY )| dP +
|
{z
}
|αY |>ε
≤|αY |≤ε
-
120
/
145
|g(Xn ) − g(Xn + αY )| dP
|
{z
}
≤2kgk∞
-
Ingo Bürk
Kapitel II.10
Damit ist dann also
man
≤ 3ε.
(2)
(1)
Der zentrale Grenzwertsatz
Seite 121
≤ ε + 2 kgk∞ P (|αY | > ε) ≤ ε + 2ε ≤ 3ε.
Analog zeigt
Damit gilt
Z
g(Xn ) − g(X) dP ≤ 7ε
für alle
n ≥ n0 .
Aus II.9.8 folgt dann der Rest der Aussage.
Damit ist der Beweis vollständig.
II.10. Der zentrale Grenzwertsatz
Satz II.10.1
Sei
Zentraler Grenzwertsatz
(Xn ) ⊂ L2 (P )
√
1
n
X
nσ 2
k=1
Beachte: Die
i.i.d.,
X ∼ N (0, 1), a := EX1
(Xk − a) −→ X
Xk
und
σ 2 := Var X1 > 0.
Dann gilt
in Verteilung.
sind im Allgemeinen
nicht normalverteilt.
Beweis
2
: Wir nehmen ohne Einschränkung a = 0 und σ = 1 an, andernfalls kann
Xk −a
man
betrachten. Sei nun ϕ die charakteristische Funktion von X1 , so folgt mit
σ2
Pn
n
√1
II.4.8, dass Y :=
k=1 Xk die charakteristische Funktion ϕ besitzt. Dann hat n Y die
charakteristische Funktion
Z
it √1n y
n
dP (y) = ϕ
e
R
Ferner hat
ϕ
n
X
t
√
n
.
die charakteristische Funktion
t
√
n
t2
−→ e− 2
t2
e− 2
nach II.4.3. Mit II.9.12 reicht es daher
t∈R
für alle
EX12 < ∞
ϕ zweimal stetig dierenzierbar
−2
ist. Mit dem Satz von Taylor folgt, dass es ein η : R → R gibt, so dass limt→∞ t η(t) =
0 ist. Nun ist
zu zeigen. Nach II.4.7 und wegen
ϕ(t) = ϕ(0) + tϕ0 (0) +
folgt, dass
t2 00
ϕ (0) + η(t)
2
t2
= 1 + it EX1 − EX12 +η(t).
|{z} 2 |{z}
II.4.7
=0
=1
-
121
/
145
-
Ingo Bürk
Kapitel II.10
Der zentrale Grenzwertsatz
Damit ist also
ϕn
t
√
n
ϕ(t) = 1 −
t2
2
+ η(t)
für alle
t ∈ R.
Seite 122
Dann ist

n
2
t
t
= 1−
+η √
= 1 −
2n
n
t2
2
− nη
n
√t
n
n

t2
−→ e− 2 ,
da
1−
x n
n
→ e−x
und
nη
√t
n
→0
gilt. Damit ist der Beweis vollständig.
Anmerkung: Wir müssen nun noch betrachten, was für den Fall
σ 2 = Var X1 = 0
passiert. Die Aussage des oben formulierten Satzes ist äquivalent zu
n
1 X
√
Xk −→ N (a, σ 2 ).
n k=1
Wir denieren uns für diesen Fall N (a, 0) :=
2
valente Aussage auch für σ = 0, denn es ist
X1 = a P -fast
sicher. Dann ist aber gerade
δ{a} . Dann gilt die eben formulierte, äqui2
0 = σ 2 = E(X1 − EXP
1 ) und daraus folgt
X1 ∼ δ{a} . Dann ist √1n nk=1 Xk ∼ δ{a} und
der Beweis ist vollständig.
Korollar II.10.2
(Xn ) ⊂ L2 (P ) i.i.d., a := EX1 und σ 2 := Var X1 > 0.
α, β ∈ R mit α < β :
(
)!
Z β
n
t2
1 X
1
P
α< √
(Xk − a) ≤ β
−→ √
e− 2 dt.
2π α
nσ 2 k=1
Sei
Dann gilt für alle
Die Zeichen < und ≤ können dabei auch durch ≤ und < ersetzt werden.
Beweis
: II.10.1 zeigte, dass
√1
nσ 2
Yn :=
Pn
k=1 (Xk
− a) → N (0, 1)
in Verteilung.
N (0, 1) stetig. Mit II.9.1 folgt, dass die VerFn von Yn punktweise gegen die Verteilungsfunktion F von N (0, 1)
Fn (α) → F (α) für alle α ∈ R. Es ist Fn (α) = P (Yn ≤ α) und
Ferner ist die Verteilungsfunktion von
teilungsfunktionen
konvergieren, also
Rα
t2
F (α) = √12π −∞ e− 2 dt. Dies kann man ebenso für β durchführen und dann die Differenz bilden. Dies ist die erste Aussage des Satzes. Der Rest ist einfach und wird hier
nicht ausgeführt.
-
122
/
145
-
Ingo Bürk
Kapitel II.10
Der zentrale Grenzwertsatz
Beispiel II.10.3:
Es sei
Seite 123
Der Grenzwertsatz von Moivre-Laplace
Xi ∼ B(1, p), wobei die Xi unabhängig sein sollen. Zudem sei p ∈ (0, 1).
EX1 = p und Var X1 = p(1 − p). Dann folgt mit II.10.2 für alle α,β :
(
)!
Z β
n
X
t2
1
1
α< p
(Xk − p) ≤ β
−→ √
e− 2 dt.
2π α
np(1 − p) k=1
Dann ist
P
Beispiel:
•
Dominierte Volksabstimmung
Habe eine Volksabstimmung zu den Vorschlägen
• 3.000
Wähler sind zu
• 1.000.000
100%
A
von
A
und
B.
überzeugt.
Wählern ist das absolut egal. Diese wählen zufällig.
Wir stellen uns nun die Frage, wie groÿ die Wahrscheinlichkeit ist, dass
A tatsäch-
lich angenommen wird. Wir stellen folgenden Ansatz auf: Es seien
(
1
Xk (ω) =
0
Dies gilt für
Ferner seien
Votum für
Votum für
A
B
.
k = 1, . . . , 1.000.000 =: n. Unsere Modellannahme ist Xi ∼ B 1, 12 .
die Xi unabhängig. Für r := 3.000 gilt dann A wird angenommen
genau dann, wenn
n
X
+r > n −
Xk
|k=1{z }
Stimmen für A
|
⇔
n
X
n
X
k=1
Xk >
Xk
|k=1{z }
Stimmen für A
{z
}
Stimmen für B
n−r
= 498.500.
2
Nun ist
P
( n
X
)!
Xk > 498.500
( Pn
k=1
=P
q
n·
k=1
1
und Var X1
2
dann approximieren zu
Es ist
EX1 =
=
Xk −
1
4
1
2
>
498.500 − 500.000
500
|
{z
}
)!
.
=−3
1
. Nach II.10.3 können wir die Wahrscheinlichkeit
4
Z ∞
t2
1
≈√
e− 2 dt
2π −3
≈ 0.9986.
Die Wahrscheinlichkeit, dass
A
angenommen wird, liegt also bei etwa
-
123
/
145
-
99.9%.
Ingo Bürk
Kapitel II.10
Der zentrale Grenzwertsatz
Satz II.10.4
Seite 124
Berry-Esseen
(Xi ) ⊂ L3 (P ) i.i.d. und
Z x
t2
1
e− 2 dt
Φ(x) := √
2π −∞
Seien
die Verteilungsfunktion der
N (0, 1)-Verteilung.
Dann gilt für
a := EX1
und
σ 2 :=
Var X1 > 0:
(
)!
n
X
1
E|X1 |3
√
sup P
(Xk − a) ≤ x
− Φ(x) ≤ 0.8 · 3 √ .
σ n
x∈R nσ 2 k=1
Kurz: Die Verteilungsfunktion von N (0, 1) wird im zentralen Grenzwertsatz gleichmäÿig
1
approximiert. Die Konvergenzrate ist √ .
n
Beweis
: Der Beweis wird hier nicht geführt, ndet sich aber zum Beispiel in Klenke
als Satz 15.51.
Beispiel:
Normal- oder Poissonapproximation von
B(n, p)?
−λ λk
Die Poissonverteilung mit Parameter λ hat die Zähldichte pk := e
, k ∈ N0 . Im
k!
Beispiel I.3.10 hatten wir
|B(n, p)(A) − Pois(np)(A)| ≤ 2np2
für alle
A ⊂ N0 , n ≥ 1, p ∈ (0, 1).
Pois(np) approximiert also B(n, p) für kleine np2 . Ferner hatten wir oben gesehen,
dass
1
n
X
p
np(1 − p)
k=1
(Xk − p) ≈ N (0, 1)
n
1 X
⇔ √
Xk ≈ N (p, p(1 − p)).
n k=1
Welche Approximation sollte man benutzen? Dafür gibt es die folgende Faustregel:
np(1 − p) > 0.9, so sollte man die N (0, 1)-Approximation
p ≤ 0.05 und n > 50 sollte man die Pois(np)-Approximation
kleine n schlieÿen sich die Bedingungen aus.
Ist
-
124
/
145
-
verwenden. Für
verwenden. Für
Ingo Bürk
Kapitel II.10
Satz II.10.5
Der zentrale Grenzwertsatz
Seite 125
2. Grenzwertsatz von Lindeberg für Dreiecksschemata
(mn ) ⊂ N mit mn →P∞ und für n ≥ 1 seien Xn,1 , . . . , Xn,mn ⊂ L2 (P ) unabhänmn
2
gig mit EXn,i = 0 und
i=1 EXn,i = 1. Weiter gelte die Lindeberg-Bedingung:
Sei
mn
X
2
1|Xn,i |≥ε −→ 0
E Xn,i
für alle
ε > 0.
i=1
Dann gilt:
mn
X
Xn,i −→ N (0, 1)
in Verteilung.
i=1
Beweis
: Der Beweis wird hier nicht geführt, ndet sich aber zum Beispiel in Mein-
trup+Schäer als Satz 7.38.
Korollar II.10.6
2
Sei (Xn ) ⊂ L2 (P ) unabhängig und EX1
Pn
2
2
sn := k=1 EXk > 0 und sn > 0. Gilt
n
1 X
E Xi2 1|Xi |≥εsn −→ 0
2
sn i=1
> 0, EXn = 0
für alle
für alle
n ≥ 1.
Setze
ε > 0,
so folgt
n
1 X
Xk −→ N (0, 1)
sn k=1
Beweis
: Setze
Weiter ist
mn
X
i=1
EXn,i
in Verteilung.
mn := n und Xn,i := s1n Xi . Dann sind die Xn,1 , . . . , Xn,mn unabhängig.
P
P
2
= s1n EXi = 0. Es ist auÿerdem ni=1 EXn,i
= s12 ni=1 EXi2 = 1 und
1
2
E Xn,i
1|Xn,i |≥ε = 2
sn
n
mn
X
E Xi2 1|Xi |≥εsn → 0.
i=1
Mit II.10.5 folgt
n
n
X
1 X
Xi =
Xn,i −→ N (0, 1).
sn i=1
i=1
-
125
/
145
-
Ingo Bürk
Kapitel II.10
Der zentrale Grenzwertsatz
Seite 126
Damit ist der Beweis vollständig.
Bemerkung: Mehrdimensionale Varianten
X : Ω → Rd ein Zufallsvektor mit E kXk2 < ∞ ( L2 -Bedingung). Dann sei EX :=
(EX1 , . . . , EXd ), wobei X = (X1 , . . . , Xd ) ist. Ferner sei die Covarianz gegeben durch
Cov(X) := ((Cov(Xi , Xj ))di,j mit Cov(Xi , Xj ) := E((Xi − EXi )(Xj − EXj )). Für i = j
ist also Cov(Xi , Xj ) = Var Xi . X heiÿt multivarial normalverteilt genau dann, wenn
hv, XiRd : Ω → R für alle v ∈ Rd normalverteilt ist. Man kann zeigen, dass es in diesem
d
Fall genau eine quadratische, symmetrische Matrix Σ und ein a ∈ R gibt, welche die
Verteilung von X bestimmen. Wir schreiben hierfür dann N (a, Σ).
2
Seien Xn,1 , . . . , Xn,mn d-dimensionale Zufallsvektoren mit EXn,i < ∞, EXn,i = 0 und es
P
m
n
d×d
existiere eine Matrix A ∈ R
mit i=1 Cov(Xn,i ) = A,
Pmn
2
sowie
i=1 E kXn,i k 1kXn,i k>ε → 0 für alle ε > 0. Dann folgt
Sei
mn
X
Xn,i −→ N (0, A)
in Verteilung.
i=1
-
126
/
145
-
Ingo Bürk
Kapitel III.1
Deskriptive Statistik
Seite 127
III. Eine kurze Einführung in die Statistik
Bisher haben wir Zufallsexperimente mit Wahrscheinlichkeitsräumen modelliert, um
dann mittels der erarbeiteten Theorie eine Vorhersage über die Beobachtungen zu machen. Mit die wichtigsten Ergebnisse waren so zum Beispiel:
•
•
Das starke Gesetz der groÿen Zahlen (SLLN, engl. strong
Pn
1
sagte aus, dass für (Xi ) ⊂ L1 (P ) i.i.d. gilt, dass
i=1 Xi
n
law of large numbers )
→ EX1 P -fast
sicher.
Der zentrale Grenzwertsatz (CLT, engl. central limit theorem ) sagte aus, dass für
Pn
1
i.i.d. gilt, dass √
i=1 Xi → N (EX1 , Var X1 ) in Verteilung.
n
(Xi ) ⊂ L2 (P )
•
Das
0-1-Gesetz
sagte für unabhängige
(Xi )
aus, dass
P (∃ lim Xi ) ∈ {0, 1}.
Dieses Vorgehen ist typisch für die Wahrscheinlichkeitstheorie. In der Statistik wird im
weitesten Sinne das inverse Problem betrachtet: Es wird versucht, aus Beobachtungen
auf Eigenschaften des zugrundeliegenden Wahrscheinlichkeitsraumes zu schlieÿen. Wir
d
werden uns dabei an dieser Stelle auf R -wertige Funktionen beschränken.
III.1. Deskriptive Statistik
Ziel: Daten von Beobachtungen sollen geordnet und übersichtlich dargestellt werden,
um sich einen
ersten Überblick zu verschaen, eventuelle Fehler in den Daten zu erken-
nen und möglicherweise erste
geschieht
Hypothesen über die Gesetzmäÿigkeiten aufzustellen. Dies
ohne wahrscheinlichkeitstheoretische Hilfsmittel.
Beispiel:
Altersverteilung der männlichen Bevölkerung in den alten
Bundesländern
Wir haben circa
30 Millionen Männer mit dem zugehörigen Alter (z.B. vom statisti-
schen Bundesamt). Die Anzahl der Datensätze hat zur Folge, dass es nicht möglich
ist, sich jeden dieser Datensätze einzeln anzuschauen. Die Frage ist also: Wie können wir uns einen ersten Überblick verschaen? Wir wollen einige Möglichkeiten
vorstellen:
i) Wir nehmen eine Stichprobe.
ii) Wir erstellen uns eine Tabelle, indem wir Daten zusammenfassen:
-
127
/
145
-
Ingo Bürk
Kapitel III.1
Deskriptive Statistik
Seite 128
Tabelle 1
Alter
Anzahl
Alter
Anzahl
in Jahren
in Tausend
in Jahren
in Tausend
[0, 5)
[5, 10)
[10, 15)
[15, 20)
[20, 25)
[25, 30)
[30, 35)
[35, 40)
[40, 45)
[45, 50)
1679
1787
1913
1788
1830
1930
2660
2971
2645
2253
[50, 55)
[55, 60)
[60, 65)
[65, 70)
[70, 75)
[75, 80)
[80, 85)
[85, 90)
[90, 95)
2070
1762
2214
1618
1262
808
411
202
73
Dies ist eine mögliche Zusammenfassung der Daten. Es sind aber je nach Zweck
durchaus andere Vorgehensweisen denkbar:
Tabelle 2
Alter in Jahren
Anzahl in Tausend
[0, 6)
[6, 15)
[15, 65)
[65, 95)
2033
3347
22127
4377
Beschreibung
Kleinkinder
Schüler
Arbeitnehmer, Studenten, usw.
Rentner
iii) Grasche Darstellungen - Man kann Informationen einer Tabelle zusammenfassen
und dann zum Beispiel als Säulendiagramm darstellen, wie in Abbildung 1 gezeigt.
Abbildung 1: Darstellung von Tabelle 1
-
128
/
145
-
Ingo Bürk
Kapitel III.1
Deskriptive Statistik
Seite 129
Abbildung 2: Darstellung von Tabelle 2 - Man beachte, dass die Fläche für die Rentner
viel gröÿer wirkt, obwohl die Höhe im Wesentlichen ähnlich ist. Dieses
Problem taucht bei Histogrammen nicht auf.
iv) Histogramme - Diese stellen einen Alternativansatz dar. Hier werden die Säulen so
gewählt, dass nicht ihre Höhe, sondern die Fläche proportional zu den Einträgen
der Tabelle ist, wodurch das in Abbildung 2 zu erkennende Problem der mensch-
I1 , . . . , Im disjunkte
X = [0, 95]). Mit λ(Ii ) bezeichnen wir die Länge der Intervalle (also die Breite der Säulen). Ferner sei hi die
Höhe der i-ten Säule und ni die relative Häugkeit im Intervall, das heiÿt, sind
x1 , . . . , xn unsere Beobachtungen, so ist ni := n1 |{j : xj ∈ Ii }|. Dann ist hi λ(Ii ) die
Fläche der i-ten Säule, diese soll gleich ni sein. Damit erhält man
lichen Wahrnehmung gelöst wird. Angenommen, wir haben
Intervalle vom Beobachtungsraum
hi =
X
(in diesem Fall
ni
.
λ(Ii )
v) Andere Diagramme wie zum Beispiel Kreisdiagramme, Balkendiagramme usw.
vi) Streudiagramme - Angenommen, wir haben 2-dimensionale Beobachtungen
(1)
(2)
(1)
(2)
(x1 , x1 ), . . . , (xn , xn ) ∈ R2 . Dazu trägt man jeden Punkt im Koordinatensystem ein und erhält dann ein Diagramm wie in Abbildung 3. Mögliche Anwendungen
sind zum Beispiel das Finden von Hypothesen über funktionale Zusammenhänge
der beiden Komponenten oder das Aunden von Häufungen der Daten (sog.
Clus-
tering ). Man kann diese Diagramme wie folgt erweitern:
•
Beobachtungen haben die Form
(1)
(2)
(3)
(xi , xi , xi ),
wobei
(3)
xi ∈ A
mit
|A| < ∞
und klein ist. Man stellt Unterschiede in dieser dritten Komponente dann
durch eine unterschiedliche Farbwahl der Datensätze dar.
-
129
/
145
-
Ingo Bürk
Kapitel III.1
Deskriptive Statistik
Seite 130
Abbildung 3: Streudiagramm. Die grünen Daten lassen einen Zusammenhang vermuten,
die roten Daten zeigen das
•
Beobachtungen liegen im
Clustering.
Rd . Man stellt dann eine Streudiagramm-Matrix auf,
die wie in Abbildung 4 aussieht. Dies kann man auch mit einer variierenden
Farbgebung kombinieren. Dies kann hilfreich sein, muss es aber nicht, falls
die Daten zum Beispiel auf höherdimensionalen Gebilden liegen. Daher gibt
es weiterführende Werkzeuge wie
Ggobi, welches zur graschen Darstellung
genutzt werden kann.
Definition III.1.1
Lagemaÿe
n
D = (x1 , . . . , xn ) ∈ R
seien
n
Beobachtungen. Dann gibt es folgende Lagemaÿe,
welche die Lage der Daten beschreiben:
i) Mittelwert:
x :=
1
n
ii) Median oder auch
Pn
i=1
xi .
1
-Quantil:
2
|{i : xi ≤ x̃}|
1
≥
n
2
x̃
ist ein Median von
D
genau dann, wenn
|{i : xi ≥ x̃}|
1
≥ .
n
2
∧
Der Algorithmus hierfür sieht wie folgt aus:
•
Sortiere, so dass
•
Falls
n
x1 ≤ x2 ≤ . . . ≤ xn
ungerade ist, so ist
ist.
x̃ := x n+1 .
2
Ist
n
gerade, so ist
x̃ ∈ x n2 , x n2 +1 .
Die
genaue Denition des Medians (Mittelpunkt des Intervalls, gröÿter Wert, das
gesamte Intervall etc.) variiert in der Literatur.
-
130
/
145
-
Ingo Bürk
Kapitel III.1
Deskriptive Statistik
Seite 131
Abbildung 4: Streudiagramm-Matrix
iii)
τ -Quantile (τ ∈ (0, 1)): x̃
ist ein
|{i : xi ≤ x̃}|
≥τ
n
τ -Quantil
genau dann, wenn
|{i : xi ≥ x̃}|
≥ 1 − τ.
n
∧
x̃ liegen also circa τ ·100% der Daten und entsprechend circa (1−τ )·100%
Daten rechts von x̃.
Links von
der
iv) Modus oder auch Modalwert: Dies ist der am häugsten beobachtete Wert.
Beachte: Die ersten drei dieser Lagemaÿe lassen sich auch für Wahrscheinlichkeitsmaÿe
auf
R
i)
ii)
Sei
denieren: Sei
EP idR =
R
R
P
ein Wahrscheinlichkeitsmaÿ auf
x dP (x),
falls
R.
Dann kann man denieren:
EP | idR | < ∞.
τ -Quantil := {t ∈ R : P ((−∞, t]) ≥ τ ∧ P ([t, ∞)) ≤ 1 − τ }.
D = (x1 , . . . , xn ) ∈ Rn .
Dann denieren wir das empirische Maÿ:
n
1X
δ{xi } ,
D :=
n i=1
1
· |{i : xi ∈ A}|. Man erhält dann die in III.1.1 denierten Lagemaÿe
n
aus diesen Verallgemeinerungen.
das heiÿt
D(A) =
-
131
/
145
-
Ingo Bürk
Kapitel III.1
Deskriptive Statistik
Definition III.1.2
Seien
n
Seite 132
Statistische Streumaÿe
Beobachtungen
D = (x1 , . . . , xn ) ∈ Rn
gegeben. Dann gibt es folgende
Streumaÿe:
i) Varianz / Standardabweichung:
n
Var D :=
1X
(xi − x)2
n i=1
Korrigierte Varianz:
n
s2n
1 X
:=
(xi − x)2
n − 1 i=1
In der Literatur wird
s2n
oft als die Varianz bezeichnet, nicht als korrigierte Vari-
anz. Die Standardabweichung erhält man dann jeweils durch Wurzelziehen dieser
Varianzen.
ii) Spannweite:
max xi − min xi
i=1,...,n
iii)
i=1,...,n
p-Quantilsabstand (p ∈ 0, 21 ): Sei qp das p-Quantil und q1−p das (1 − p)Quantil. Dann ist der p-Quantilsabstand deniert als q1−p − qp , das heiÿt im
Intervall [qp , q1−p ] liegen mehr als (1 − 2p) · 100% Prozent der Daten (bis auf
Rundungen), denn in [qp , ∞) liegen mehr als (1 − p) · 100% der Daten und in
(−∞, ∞) \ (−∞, q1−p ] = (q1−p , ∞) liegen weniger als p · 100% der Daten.
1
nennen wir dies den Quartilsabstand.
Für p =
4
iv) Mittlere absolute Abweichung:
n
1X
|xi − x|
n i=1
n
1X
|xi − x̃|
n i=1
Weitere Maÿe sind zum Beispiel die Schiefe oder der Excess.
1
Anmerkung: Wir wollen erklären, wieso man in der korrigierten Varianz n−1 statt
1
verwendet. Es seien X1 , . . . , Xn i.i.d. und Xi
n
Daten sind Realisierungen der Xi , das heiÿt xi
-
132
/
145
∈ L2 (P ) mit EX1 =: µ.
= Xi (ω) (i = 1, . . . , n).
-
Die Idee ist:
2
Setze Sn :=
Ingo Bürk
Kapitel III.1
1
n
Pn i=1
Deskriptive Statistik
Xi −
1
n
Pn
j=1 Xj
2
, das heiÿt
sieht nun der Erwartungswert
EP Sn2
Sn2 (ω) = Var D
mit
1
n
Pn
aus? Für
X :=
Seite 133
D = (X1 (ω), . . . Xn (ω)).
j=1
Xj
Wie
gilt:
E(Xi − X)2 = E((Xi − µ)2 − 2(Xi − µ)(X − µ) + (X − µ)2 ).
Damit folgt dann
n
ESn2
n
n
2X
1X
1X
=
E(Xi − µ)2 −
E(Xi − µ)(X − µ) +
E(X − µ)2
n i=1 | {z } n i=1
n i=1
=Var X1
= Var X1 − 2E(X − µ)(X − µ) + E(X − µ)2
= Var X1 − E(X − µ)2
= Var X1 − Var X
n
1 X
= Var X1 − 2
Var X1
n i=1
= Var X1 −
=
1
Var X1
n
n−1
Var X1
n
Da man gerne
Beispiel:
E(empirische
Varianz)
= Var X1
hat sollte man mit
n−1
statt
n
teilen.
Box-Whisker-Plots
Hier geht es um die graphische Darstellung von Lage- und Streumaÿen. Der Begri
Whisker kommt von den Schnurrbarthaaren einer Katze. Dieses Schaubild wird
in Abbildung 5 gezeigt.
Abbildung 5: Beispiel eines Box-Whisker-Plots
Mögliche Denitionen der Whisker:
• min xi
i=1,...,n
und
• 2.5%-Quantil
max xi ,
i=1,...,n
und
also die Darstellung der Spannweite.
97.5%-Quantil.
-
133
/
145
-
Ingo Bürk
Kapitel III.2
Statistische Tests
• min xi
max xi ,
und
die Länge der Whisker ist aber maximal gleich
Seite 134
1.5
Mal dem
Quartilsabstand.
In den letzten beiden Fällen werden Daten auÿerhalb der Whisker häug als Punkte eingezeichnet. Werden Box-Whisker-Plots für mehrere Datensätze gleichzeitig
betrachtet, so werden die Plots in der Regel senkrecht gezeichnet.
III.2. Statistische Tests
Einführende Beispiele:
i) Qualitätsprüfung: Betrachte das Abfüllen von Mineralwasser in Flaschen. Der Sollwert ist
0.7
Liter. Es werden
n
die gemessenen Füllmengen. Sei zum Beispiel
s2n = 0.003.
x1 , . . . , x n
x = 0.71 und
Flaschen überprüft und es bezeichnen
n = 100
und es sei
Wird der Sollwert nun eingehalten?
n = 10 4-Zimmer-Wohnungen mit Kaltmiete-m2 -Preis
2
und m = 5 5/6-Zimmer-Wohnungen mit Kaltmiete-m -Preis y1 , . . . , y5 .
ii) Mietspiegel: Wir betrachten
x1 , . . . , x10
Gibt es einen Preisunterschied zwischen den beiden Wohnungstypen?
Stochastische Modellierung:
•
Sei
(Ω, A, P )
ein Wahrscheinlichkeitsraum, wobei wir hier von
Ω ⊂ R
ausgehen
wollen (dies muss i.A. aber nicht so sein). Ferner sei
Xi := πi :
n
n
O
i=1
i=1
× Ω,
A,
n
O
!
→Ω
P
i=1
(ω1 , . . . , ωn ) 7→ ωi ,
die
Xi
sind dann i.i.d. und es ist
Xi ∼ P .
Dann ist die Grundannahme, dass die
Beobachtungen x1 , . . . , xn gerade Realisierungen der
ω ∈ Ωn mit xi = Xi (ω) (i = 1, . . . , n).
Xi
sind, das heiÿt es gibt ein
Als Erweiterung für das obige Mitspiegel-Beispiel betrachte einen weiteren Wahr0
0
scheinlichkeitsraum (Ω , A , Q) und dann für i = 1, . . . , n:
n
Xi := πi :
×Ω × ×Ω ,
0
i=1
und für
m
n
O
A⊗
m
O
A0 ,
n
O
P⊗
m
O
j=1
i=1
j=1
i=1
j=1
m
n
O
m
O
n
O
m
O
!
Q
→Ω
j = 1, . . . , m:
n
Yj := πj+n :
×Ω × ×Ω ,
0
i=1
j=1
A⊗
i=1
Die Annahme ist dann, dass es ein
ω
A0 ,
j=1
gibt, so dass
i=1
P⊗
!
Q
→ Ω0 .
j=1
xi = Xi (ω), yj = Yj (ω)
für alle
i, j .
-
134
/
145
-
Ingo Bürk
Kapitel III.2
Statistische Tests
Problem ist, dass wir
Seite 135
Ansatz ist: Es sei
P (und
Q) eine Menge von Wahrscheinlichkeitsmaÿen auf (Ω, A). Wir wissen, dass P ∈ P
ist. Dieses P dient dazu unser Vorwissen über das unbekannte P zu beschreiben.
Das
P
und
Q
nicht kennen. Unser
Typische Szenarien:
•
P = {Pϑ : ϑ ∈ Θ} und Θ ⊂ Rd , also
P wird mit P ∗ bezeichnet und wir nehmen
Es sei
Θ = [0, 1]. Das richtige
∗
∗
genau ein ϑ mit Pϑ∗ = P
zum Beispiel
an, dass es
gibt. Dies ist eine so genannte parametrische Annahme. Dies ist das Szenario, mit
welchem wir arbeiten werden.
•
Zum Vergleich sei hier angemerkt, dass es Szenarien gibt, in welchen
P
keine
solche Form hat, zum Beispiel kann P die Menge aller Wahrscheinlichkeitsmaÿe
∗
auf Ω sein. Dann ist P ∈ P zwar auf jeden Fall erfüllt, wir haben ansonsten aber
keinerlei Wissen über diese Wahrscheinlichkeitsmaÿe. Dies nennt man eine nichtparametrische Annahme, die zur nicht-parametrischen Statistik bzw. statistischen
Lerntheorie gehört.
Θ in Θ0 und Θ1 haben, es ist alΘ = Θ0 ∪ Θ1 eine disjunkte Vereinigung, wobei Θ0 , Θ1 6= ∅ sein sollen. Dann ist die
∗
Nullhypothese H0 : Der wahre Parameter ϑ liegt in Θ0 . Analog denieren wir die Alter∗
nativhypothese H1 : "‘ϑ ∈ Θ1 . Die Aufgabe ist es nun den Datensatz D = (x1 , . . . , xn )
zu verwenden um zwischen H0 und H1 zu entscheiden.
Wir nehmen nun an, dass wir eine Aufteilung von
so
Beispiel:
Qualitätssicherung
2
2
2
Zum Beispiel kann P = {N (µ, σ ), µ ∈ R und σ fest} oder P = {N (µ, σ ), µ ∈
2
R, σ ≥ 0} sein. Beachte, dass dies nur einen approximativen Charakter hat und
nicht
100%-ig
richtig sein kann, da negative Füllmengen keinen Sinn ergeben.
P und setzen Θ0 := (−∞, 0.7)
Θ1 := [0.7, ∞). Man spricht hier von einem einseitigen Testproblem. Man
könnte aber auch Θ0 := {0.7} und Θ1 := R \ {0.7} betrachten, dies würde man ein
Wir betrachten nun den erstgenannten Fall für
und
zweiseitiges Testproblem nennen.
Beispiel:
Mietspiegel
2
2
Hier könnte man zum Beispiel P ⊗ Q ∈ {N (µX , σX ) ⊗ N (µY , σY ), µX , µY ∈ R} mit
2
2
festen σX und σY betrachten. Mögliche Hypothesen wären hier Θ0 := {(µX , µY ) :
µX 6= µY }
und
Θ1 := {(µX , µY ) : µX = µY }.
Definition III.2.1
Statistischer Test
Ein statistischer Test ist eine messbare Funktion
Interpretation: Es sei
ϕ
ein statistischer Test und
-
135
/
145
-
ϕ : Ωn → [0, 1].
D ∈ Ωn .
Dann bedeutet:
Ingo Bürk
Kapitel III.2
Statistische Tests
• ϕ(D) = 1
- Entscheidung für
H1 .
• ϕ(D) = 0
- Entscheidung für
H0 .
• ϕ(D) ∈ (0, 1)
- Entscheidung für
H1
mit Wahrscheinlichkeit
Seite 136
p = ϕ(D).
Dies ist
später nützlich, wenn wir optimale Tests konstruieren wollen.
Beachte: Für alle
für
H1
angibt. Die
D ∈ Ωn gilt, dass ϕ(D) die Wahrscheinlichkeit
Fälle ϕ(D) ∈ {0, 1} sind lediglich Spezialfälle.
Bemerkung: In der Literatur wird oft
Beispiel:
und
x=D
geschrieben.
Beispieltest für Qualitätssicherung
(
1
ϕ(D) :=
0
Hierbei ist
X = Ωn
für die Entscheidung
c
falls
1
n
Pn
i=1
xi > c
sonst
eine noch näher zu bestimmende Konstante, die von
ϑ0 , n
und
σn2
abhängt.
Beim Benutzen eines Tests können folgende Fehler auftreten:
Entscheidung für
H0
H1
H0
Entscheidung für
H1
ist richtig
X
Fehler erster Art
ist richtig
Fehler zweiter Art
X
Ein Fehler dritter Art ist ein Modellierungsfehler, diese lassen sich mathematisch aber
kaum beschreiben.
Das Problem ist nun, dass es im Allgemeinen keinen Test gibt, der die Fehler erster
und zweiter Art gleichzeitig eliminiert. Dies wollen wir illustrieren: Betrachte die Tests
ϕ0 und ϕ1 , die durch ϕ0 (D) = 0 und ϕ1 (D) = 1 für alle D ∈ Ωn deniert sind. ϕ0
entscheidet sich niemals für
ϕ1
H1
und macht daher keinen Fehler erster Art. Analog macht
nie einen Fehler zweiter Art. Ein simultan bester Test müsste so gut wie
Fehler erster Art und so gut wie
ϕ1
ϕ0
bezüglich
bezüglich Fehler zweiter Art sein, das heiÿt er dürfte
keine Fehler machen. Dies ist im Allgemeinen aber nicht möglich. Folgende Auswege
sind für dieses Problem möglich:
•
Gewichte die Summe der Fehlerwahrscheinlichkeiten.
•
Asymmetrische Betrachtung: Kontrolliere Fehler einer Art und versuche Fehler der
anderen Art bezüglich der Kontrolle zu minimieren.
-
136
/
145
-
Ingo Bürk
Kapitel III.2
Statistische Tests
Definition III.2.2
Seite 137
Gütefunktion
(Ω, A) ein Messraum, P = (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaÿen
n
auf (Ω, A) und ϕ : Ω → [0, 1] ein statistischer Test. Die Abbildung
Sei
βϕ : Θ → [0, 1]
Z
ϑ 7→ EPϑn ϕ =
Ωn
ϕ(D) dPϑn (D)
heiÿt Gütefunktion.
Interpretation: Wir erinnern uns daran, dass
ϕ(D) die Wahrscheinlichkeit für die Entβϕ (ϑ) die mittlere Wahrscheinn
lichkeit für die Entscheidung H1 , falls die Daten von Pϑ erzeugt werden. Anders interpretiert gibt βϕ (ϑ) die Wahrscheinlichkeit für Fehler erster Art an, falls ϑ ∈ Θ0 ist.
Analog gibt 1 − βϕ (ϑ) die Wahrscheinlichkeit für Fehler zweiter Art an, falls ϑ ∈ Θ1 ist.
scheidung
H1
angibt, wenn man
D
beobachtet. Dann ist
Definition III.2.3
(Gleichmäÿig bester) Test zum Niveau α
(Ω, A) ein Messraum, P = (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaÿen
n
auf (Ω, A) und α ∈ [0, 1]. Ein statistischer Test ϕ : Ω → [0, 1] heiÿt dann
Sei
i) Test zum Niveau
α
genau dann, wenn
tation hierfür ist, dass
α
βϕ (ϑ) ≤ α
für alle
ϑ ∈ Θ0
ist. Die Interpre-
die Wahrscheinlichkeit für Fehler erster Art kontrolliert.
ii) gleichmäÿig bester Test zum Niveau α genau dann, wenn
α ist und zusätzlich für alle Tests ϕ0 zum Niveau α gilt:
1 − βϕ (ϑ) ≤ 1 − βϕ0 (ϑ)
für alle
ϕ
ein Test zum Niveau
ϑ ∈ Θ1 .
Solche Tests minimieren also die Wahrscheinlichkeit für Fehler zweiter Art, während die Wahrscheinlichkeit für Fehler erster Art durch
Beispiel:
Es sei
α
kontrolliert werden.
Qualitätssicherung (einseitig)
2
σ := s2n = 0.003.
Beachte, dass dies eine zusätzliche Annahme ist (und
Pµ := N (µ, σ 2 ),
damit prinzipiell ein Fehler dritter Art sein kann). Ferner sei
P = (Pµ )µ∈Ω .
Die Hypothesen lauten
• H0 : µ ≤ 0.7
(Sollwert wird nicht überschritten),
• H1 : µ > 0.7
(Sollwert wird überschritten).
-
137
/
145
-
Ingo Bürk
Kapitel III.2
Statistische Tests
Seite 138
Betrachte nun
(
1
ϕ(D) :=
0
1
n
falls
Pn
i=1
xi > c
sonst
c
Unser Ziel ist es, das
.
nun so zu bestimmen, dass ein vorgegebenes Niveau
α
erreicht wird. Der erste Schritt ist es, die Gütefunktion zu berechnen:
(
βϕ (µ) = EPµn ϕ = Pµn
(
=
Pµn
D:
n
X
)!
n
1X
D:
xi > c
n i=1
)!
xi > nc
i=1
eiµt e−
σ 2 t2
2
Xi ∼ N (µ, σ 2 ) unabhängig ist, so folgt mit II.4.7, dass die charakteristische Funktion von X1 + . . . +Xn
n
2 2
nσ 2 t2
iµt − σ 2t
= einµt e− 2 ist. Dies ist gerade die charakteristische Funkgerade e e
Die charakteristische Funktion von
tion von
N (nµ, nσ 2 ).
Pµ
ist
. Wenn
Damit können wir umformen zu
= N (nµ, nσ 2 )((nc, ∞))
Z ∞
(x−nµ)2
1
e− 2nσ2 dx
=√
2
2πnσ
Z ∞ nc
2
1
− x2
=√
e
dx
2π √n c−µ
σ
Ist
Φ
die Verteilungsfunktion von
N (0, 1),
so ist
√ c−µ
=1−Φ
n
.
σ
Nun wollen wir erreichen, dass
ϕ
ein Test zum Niveau
α
ist, das heiÿt
βϕ (µ) ≤ α
µ ≤ 0.7. Durch Einsetzen erhalten wir
√ c−µ
n
≤α
∀µ ≤ 0.7
1−Φ
σ
√ c−µ
n
≥1−α
∀µ ≤ 0.7
⇔ Φ
σ
für alle
Da
Φ monoton wachsend ist
√ c − µ0
Φ
n
≥1−α
σ
gilt
für
µ0 := 0.7.
c.
1 − βϕ (µ)
Beachte: Dies gibt uns eine untere Schranke für
Ferner gilt, dass die Wahr-
scheinlichkeit für Fehler zweiter Art gleich
für
-
138
/
145
-
µ > µ0
ist. Dies ist aber
Ingo Bürk
Kapitel III.2
Statistische Tests
gerade gleich
√
Φ
n c−µ
σ
heuristischen Ansatz: Wähle
√ c − µ0
Φ
n
σ
qα ∈ R
√α .
c := µ0 + σq
n
ist. Sei
c
. Dies ist klein, falls
c
Seite 139
klein ist. Daher wählen wir den
so, dass
=1−α
so, dass
Φ(qα ) = 1 − α.
Dann setze
qα =:
√
0
n c−µ
σ
und wir erhalten
α := 0.05. Dann ist qα = 1.64 und damit
c ≈ 0.7089. Am Anfang wurde ein empirischer Mittelwert von 0.71 angegeben. Das
bedeutet nun also, dass der Test sich für H1 entscheidet.
Sei in unserem Beispiel nun beispielsweise
Definition III.2.4
Sei
qα
das
Einseitiger Gauÿtest
(1 − α)-Quantil
von
N (0, 1),
das heiÿt
Φ(qα ) = 1 − α
für
α ∈ (0, 1).
Dann heiÿt der Test, der durch
ϕ(D) :=
(
1
0
falls
1
n
Pn
i=1
xi > µ0 +
σq
√α
n
sonst
deniert ist, der einseitige Gauÿtest zum Niveau
• H0 := {N (µ, σ 2 ), µ ≤ µ0 }
α
für die Hypothesen
und
• H1 := {N (µ, σ 2 ), µ > µ0 },
wobei
µ0 ∈ R
ist.
Beachte: Es ist
n
n
1 X
1X
σqα
xi > µ0 + √ ⇔ √
(xi − µ0 ) > qα .
n i=1
n
nσ 2 i=1
Frage: Ist der einseitige Gauÿtest ein gleichmäÿig bester Test?
Definition III.2.5
Monotoner Dichtequotient
P = (Pϑ )ϑ∈Θ (mit Θ ⊂ R) eine Familie von Wahrscheinlichkeitsmaÿen auf
(R, B) und T : Rn → R messbar. Dann heiÿt P Familie mit monotonem Dichtequotienten in T genau dann, wenn die folgenden Bedingungen erfüllt sind:
Sei
i)
Pϑ 6= Pϑ0
für alle
ϑ, ϑ0 ∈ Θ
mit
ϑ 6= ϑ0 .
-
139
/
145
-
Ingo Bürk
Kapitel III.2
Statistische Tests
σ -endliches
heiÿt Pϑ µ
ii) Es existiert ein
µ
haben, das
Maÿ
µ
für alle
auf
R, so
ϑ ∈ Θ.
ϑ0 , ϑ1 ∈ Θ mit ϑ0 < ϑ1
gϑ0 ,ϑ1 : R → R mit
Nn
f (D)
Nn1 ϑ1
= gϑ0 ,ϑ1 (T (D))
1 fϑ0 (D)
iii) Für alle
für
Pϑn0 -
und
Pϑn1 -fast
alle
D ∈ Rn .
dass alle
Pϑ
eine Dichte
Seite 140
fϑ
bezüglich
existiert eine streng wachsende Funktion
Dabei ist
Nn
1
f (D) = f (x1 ) · . . . · f (xn ).
Satz III.2.6
P = (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaÿen mit monotonem Dichn
tequotienten in T : R
→ R. Sei ferner α ∈ (0, 1) und ϑ0 ∈ Θ ⊂ R, so dass
Θ0 := {ϑ ≤ ϑ0 } und Θ1 := {ϑ > ϑ0 }. Dann ist der Test ϕ∗ , der durch


1 falls T (D) > c
∗
ϕ (D) := γ ∗ falls T (D) = c


0 falls T (D) < c
Sei
gegeben ist, ein gleichmäÿig bester Test zum Niveau
α,
falls gilt:
Pϑn0 ({D : T (D) > c}) + γ ∗ Pϑn0 ({D : T (D) = c}) = α.
Pϑn ({D : T (D) = c}) = 0 ist, so ist γ ∗
(1 − α)-Quantil vom Bildmaÿ von Pϑn0 unter T .
Beachte: Falls
beliebig wählbar und
Kurz: Für einseitige Testprobleme reicht es, ein geeignetes
T
c gleich dem
zu nden, denn dann
ist die Konstruktion eines gleichmäÿig besten Tests zum Niveau
α
durch Satz III.2.6
beschrieben.
Beispiel III.2.7:
Einseitiger Gauÿtest
σ 2 > 0, Pµ := N (µ, σ 2 ) (mit µ ∈ R), Θ := R und µ0 ∈ R fest mit Θ0 :=
(−∞, µ0 ] und Θ1 := (µ0 , ∞). Dann ist der einseitige Gauÿtest zum Niveau α ∈
(0, 1) gleichmäÿig bester Test zum Niveau α.
Sei
-
140
/
145
-
Ingo Bürk
Kapitel III.2
Beweis
Statistische Tests
Seite 141
: Es sei
fµ (x) := √
1
2πσ 2
e−
Dies ist die Dichte von
n
O
(x−µ)2
2σ 2
,
x ∈ R.
N (µ, σ 2 ) = Pµ .
Dann folgt
n
Y
(xi −µ)2
1
√
e− 2σ2
2πσ 2
i=1
n Pn
2
1
i=1 (xi −µ)
2σ 2
= √
e−
2πσ 2
fµ (D) =
1
und damit
Nn
f (D)
N1n µ1
1 fµ0 (D)
Pn
1
= e 2σ2 (
−n
i=1
((xi −µ0 )2 −(xi −µ1 )2 ))
2
µ2
1 −µ0
2σ 2
2(µ1 −µ0 )
2σ 2
=e
·e
= gµ0 ,µ1 (T (D))
Pn
i=1
xi
für
−n
und
2
µ2
1 −µ0
2σ 2
gµ0 ,µ1 (y) := e
P
T (D) = ni=1 xi .
·e
µ1 −µ0
y
σ2
Ferner ist
gµ0 ,µ1
streng monoton wachsend in
y,
falls
µ0 < µ 1
ist.
Nun kann man Satz III.2.6 anwenden und die Tatsache verwenden, dass der einseitige
∗
Gauÿtest genau die Form ϕ im Satz angenommen hat.
Bemerkungen zum einseitigen Gauÿtest:
a) Vertauschen der Hypothesen: Möchte man
Θ0 := [µ0 , ∞) und Θ1 := (−∞, µ0 ) testen,
so betrachtet man die Modikation
ϕ(D) :=
qα
wobei
das
(
0
1
1
falls √ 2
nσ
Pn
i=1 (xi
− µ0 ) ≥ qα
sonst
α-Quantil
von
N (0, 1)
,
ist.
b) Wenn relativ viele Daten vorhanden sind, dann gilt
1
√
nσ 2
n
X
(xi − µ∗ ) ≈ N (0, 1)
i=1
nach dem zentralen Grenzwertsatz. Bei der Konstruktion des einseitigen Gauÿtests
wurde
n
1 X
√
(xi − µ∗ ) ∼ N (0, 1)
2
nσ i=1
verwendet. Damit ist der Gauÿtest auch für nicht
ungefähr ein Test zum Niveau
N (µ∗ , σ 2 )-verteilte Beobachtungen
α.
-
141
/
145
-
Ingo Bürk
Kapitel III.2
Statistische Tests
Θ0 := {µ0 } gegen Θ1 := R \ {µ0 } testen,
(
1 P
1 falls √nσ
(x
−
µ
)
0 > q 1−α
2
i=1 i
2
ϕ(D) :=
0 sonst
c) Möchte man
Seite 142
so kann
betrachtet werden. Dies ist ein zweiseitiger Gauÿtest.
2
d) Ist die Varianz unbekannt, so müssen wir diese schätzen. Unser Ansatz ist, sn :=
Pn
Pn
1
1
2
√ 2 i=1 (xi − µ0 ) zu verwenden. Als Test wählt
i=1 (xi − x) und T (D) :=
n−1
ns
n
man
(
1
ϕ(D) :=
0
mit
c
falls
T (D) > c
sonst
(1 − α)-Quantil der tn−1 -Verteilung,
− n2
Γ n2
x2
1
1+
·
f (x) := p
n−1
(n − 1)π Γ n−1
2
gleich dem
gegeben ist. Hierbei ist
Z
Γ(x) :=
Γ
welche durch die Dichte
die Gammafunktion, welche durch
∞
tx−1 e−t dt
0
gegeben ist. Dieser Test heiÿt Student-t-Test.
Ausblick: Was gibt es sonst noch?
•
Punktschätzung - zum Beispiel Schätzung von
•
Bereichsschätzung - Finden eines Intervalls
EX ∈ I
•
EX , Var X , . . ..
I , so dass mit hoher Wahrscheinlichkeit
gilt.
Robuste Statistik - Entwerfen von Verfahren für obige Probleme, die robust bzw.
stabil gegenüber Fehlern in der Modellannahme oder Ausreiÿern sind.
•
Nicht-parametrische Statistik - Verzichten auf parametrische Modellannahmen.
Hierbei wird in zwei Richtungen unterschieden:
Klassische Richtung - einfache Verfahren zur Dichteschätzung und daraus
ableitbare Probleme wie zum Beispiel Klassikation oder Regression.
Moderne Richtung - computerintensive Verfahren für zum Beispiel hochdimensionale oder ungewöhnliche Daten wie Texten oder für ungewöhnliche
Fragestellungen.
-
142
/
145
-
Ingo Bürk
STICHWORTVERZEICHNIS
Seite 143
Stichwortverzeichnis
τ -Quantil, 128
p-Quantilsabstand,
Dichte, 56
129
Lebesguedichte, 78
0-1-Gesetz von Kolmogorov, 90
Dichtequotient
Monotoner Dichtequotient, 136
Additivität
σ -Additivität, 6
σ -Subadditivität,
Dirac-Maÿ, 14
Dirichlet
18
Dirichletformel, 79
Additivität, 6
Algebra
Eindeutigkeitssatz, 79
σ -Algebra, 7
σ -Algebra der terminalen Ereignisse,
Einschachtelungsargument, 100
Elementarfunktion, 44
88
Empirisches Maÿ, 128
Algebra, 7
Borelsche
Ereignisraum, 5
σ -Algebra,
11
Erwartungswert, 43, 49
Erzeugendensystem, 10
erzeugte
σ -Algebra,
Erzeugendensystem, 10
Esseen
37
Produkt-σ -Algebra, 38
Satz von Berry-Esseen, 121
Spur-σ -Algebra, 24
Etemadi
Alternativhypothese, 132
Starkes Gesetz der groÿen
Zahlen, 104
Bayes
Exponentialverteilung, 78
Formel von Bayes, 28
Beppo Levi
Faltung, 83
Satz von Beppo Levi I, 50
fast alle
µ-fast
Satz von Beppo Levi II, 50
Bernoulli-Verteilung, 13
alle, 23
Fatou
Berry
Lemma von Fatou, 51
Satz von Berry-Esseen, 121
Fehler
Bewegungsinvarianz, 6
Fehler erster Art, 133
Bienaymé
Fehler zweiter Art, 133
Satz von Bienaymé, 71
Fubini
Binomialverteilung, 14, 73
Satz von Fubini, 53
Borel
Funktion
Lemma von Borel-Cantelli I, 19
Charakteristische Funktion, 76
Lemma von Borel-Cantelli II, 87
Erzeugende Funktion, 73
Box-Whisker-Plot, 130
Indikator-, 35
messbare, 33
Cantelli
Projektion, 38
Lemma von Borel-Cantelli I, 19
Lemma von Borel-Cantelli II, 87
Gütefunktion, 134
Satz von Glivenko-Cantelli, 108
Gauÿklammer, 100
Covarianz, 123
Gauÿtest
-
143
/
145
-
Ingo Bürk
STICHWORTVERZEICHNIS
einseitiger Gauÿtest, 136
Seite 144
Lévy
Gedächtnislosigkeit, 78
Satz von Lévy-Gramér, 115
Gleichverteilung, 12, 24
Lagemaÿ, 127
τ -Quantil,
Glivenko
Satz von Glivenko-Cantelli, 108
128
Empirisches Maÿ, 128
Gramér
Median, 127
Satz von Lévy-Gramér, 115
Mittelwert, 127
Modalwert, 128
Hölder
Modus, 128
Hölder-Ungleichung, 59
Laplace
Halbring, 19
Satz von Moivre-Laplace, 120
Histogramm, 126
Lebesgue
Hoedings
Lebesgue-Maÿ, 21
Hoedings-Ungleichung, 99
Lebesguedichte, 78
Satz von Lebesgue, 52
i.i.d., 68
Lindeberg
Inhalt
Zweiter Grenzwertsatz für Dreiecks-
Inhaltsfunktion, 8, 17
schemata, 122
Inhaltsproblem, 6
Antwort, 6
Münzenwurf
Integral
unfaire, 13
Integral, 48
mehrfach, 13
nicht-negativer Funktionen, 47
wiederholter, 13
Satz zur majorisierten Konvergenz,
Maÿ
52
σ -endlich,
Satz zur monotonen Konvergenz, 50
von Elementarfunktionen, 45
Dirac-, 14
Integrierbarkeit
µ-Integrierbarkeit, 48
p-fache µ-Integrierbarkeit,
20
Bild-, 39
Einschränkung, 24
endlich, 9
59
Fortsetzung, 20
Lebesgue-, 21
Kanonisches Modell, 67
Maÿfunktion, 8
Kolmogorov
Maÿproblem, 6
0-1-Gesetz, 90
Antwort, 6
Korollar von Kolmogorov, 106
Maÿraum, 9
Konvergenz
endlicher, 9
P -fast sicher, 91
im p-ten Mittel, 91
Wahrscheinlichkeitsmaÿ, 9
Zähl-, 14
im (Wahrscheinlichkeits-)Maÿ, 91
Maÿraum
in Verteilung, 91
vollständiger, 23
stochastische, 91
Markov
Teilfolgenkriterium, 93
Markov'sche Ungleichung, 64
Korrelation
Median, 127
unkorreliert, 71
Menchov
-
144
/
145
-
Ingo Bürk
STICHWORTVERZEICHNIS
Satz von Menchov-Rademacher, 107
Satz von Radon-Nikodym, 57
Menchov-Rademacher
Randverteilung, 42
Satz von Menchov-Rademacher, 107
Realisierung, 39
Menge
Riesz-Fischer
lim inf , 18
lim sup, 18
Satz von Riesz-Fischer, 95
Scheé
kongruente, 5
Lemma von Scheé, 95
messbar, 8
Schwaches Gesetz der groÿen Zahlen, 97
oen, 11
Skorokhod
orthogonale, 5
Skorokhod-Darstellung, 109
Zylinder-, 38
Slutsky
Messbarkeit
Satz von Slutsky, 114
messbare Funktion, 33
Spannweite, 129
Messraum, 8
Standardabweichung, 129
Minkowski
Starkes Gesetz der groÿen
Minkowski-Ungleichung, 59
Zahlen, 97, 104
Mittelwert, 127
Statistischer Test, 132
Modalwert, 128
Gleichmäÿig bester Test zum Niveau
Modus, 128
α,
Moivre
134
Test zum Niveau
Satz von Moivre-Laplace, 120
α,
134
Statistisches Streumaÿ, 129
Moment, 60
k -tes
Seite 145
Stetigkeit
Moment, 60
σ -Stetigkeit,
Momentenberechnung, 82
17
von oben, 17
zentriertes Moment, 60
von unten, 17
Monte-Carlo-Integration, 107
absolut stetig, 56
Normaldarstellung, 44
Stichprobe, 29
Normalverteilung, 62
mit Reihenfolge, 30
multivarial normalverteilt, 123
mit Zurücklegen, 30
Standardnormalverteilung, 62
ohne Reihenfolge, 30
Normiertheit, 6
ohne Zurücklegen, 30
Null-Eins-Gesetz von Kolmogorov, 90
Stirling
Nullhypothese, 132
Formel von Stirling, 31
Nullmenge
µ-Nullmenge,
Stochastische Unabhängigkeit, 65, 66
Streudiagramm, 126
23
Streudiagramm-Matrix, 127
Poissonverteilung, 16, 74
Streumaÿ, 129
Projektion, 38
p-Quantilsabstand,
129
Korrigierte Varianz, 129
Quartilsabstand, 129
Mittlere absolute Abweichung, 129
Quartilsabstand, 129
Rademacher
Spannweite, 129
Satz von Menchov-Rademacher, 107
Standardabweichung, 129
Radon-Nikodym
-
145
/
145
-
Ingo Bürk
STICHWORTVERZEICHNIS
Varianz, 129
Seite 146
a-priori-, 29
Streuung, 60
bedingte, 27
totale, 28
Test
Wahrscheinlichkeitsraum, 9
Gleichmäÿig bester Test zum Niveau
α,
Laplace-Raum, 12
134
statistischer Test, 132
Test zum Niveau
α,
Zähldichte, 15
134
Zählmaÿ, 14
Tonelli
Zentraler Grenzwertsatz, 118
Satz von Tonelli, 53
Zufallsvariable, 39
Transformationsformel, 55
abgeschnittene, 101
Treppenfunktion, 44
Erwartungswert, 49
Tschebysche
erweiterte reelle, 39
Tschebysche-Ungleichung, 64
gedächtnislose, 78
gleichverteilte, 40
Umkehrformel, 81
i.i.d., 68
Unabhängigkeit
identisch verteilte, 40
stochastische, 65, 66
Konvergenz, 91
unabhängige Zufallsvariablen, 66
reelle, 39
Urbild, 31
unabhängige, 66
Menge aller Urbilder, 31
unkorrelierte, 71
Urnenmodell, 29
zentrierte, 107
Zufallsvektor, 39
Varianz, 60, 129
Korrigierte Varianz, 129
Verteilung, 39
Bernoulli, 13
Binomial-, 14, 73
Exponentialverteilung, 78
gemeinsame, 42
Gleich-, 12, 24
i.i.d., 68
multivarial normalverteilt, 123
Normal-, 62
Poisson-, 16, 74
Rand-, 42
Standardnormal-, 62
Verteilungsfunktion, 25
Verteilungsfunktion, 25
empirische, 108
Würfelexperiment, 5
fairer Würfel, 12
Wahrscheinlichkeit
a-posteriori-, 29
-
146
/
145
-
Ingo Bürk
SÄTZEVERZEICHNIS
Seite 147
Sätzeverzeichnis
0-1-Gesetz von Komogorov, 90
Hoedings-Ungleichung, 99
Kolmogorov
Bayes
0-1-Gesetz, 90
Formel von Bayes, 28
Korollar von Kolmogorov, 106
Beppo Levi
Konvergenz
Satz von Beppo Levi I, 50
Satz von der majorisierten Konver-
Satz von Beppo Levi II, 50
genz, 52
Berry
Satz zur monotonen Konvergenz, 50
Satz von Berry-Esseen, 121
Bienaymé
Lévy
Satz von Bienaymé, 71
Satz von Lévy-Gramér, 115
Borel
Laplace
Lemma von Borel-Cantelli I, 19
Satz von Moivre-Laplace, 120
Lemma von Borel-Cantelli II, 87
Lebesgue
Satz von Lebesgue, 52
Cantelli
Lindeberg
Lemma von Borel-Cantelli I, 19
Zweiter Grenzwertsatz für Dreiecks-
Lemma von Borel-Cantelli II, 87
schemata, 122
Satz von Glivenko-Cantelli, 108
Markov
Dirichlet
Markov'sche Ungleichung, 64
Dirichletformel, 79
Umkehrung, 64
Eindeutigkeitssatz, 79
Menchov
Esseen
Satz von Menchov-Rademacher, 107
Satz von Berry-Esseen, 121
Menchov-Rademacher
Etemadi
Satz von Menchov-Rademacher, 107
Starkes Gesetz dergroÿen
Minkowski
Zahlen, 104
Minkowski-Ungleichung, 59
Moivre
Fatou
Satz von Moivre-Laplace, 120
Lemma von Fatou, 51
Fubini
Null-Eins-Gesetz von Kolmogorov, 90
Satz von Fubini, 53
Rademacher
Glivenko
Satz von Menchov-Rademacher, 107
Satz von Glivenko-Cantelli, 108
Radon-Nikodym
Gramér
Satz von Radon-Nikodym, 57
Satz von Lévy-Gramér, 115
Riesz-Fischer
Satz von Riesz-Fischer, 95
Hölder
Hölder-Ungleichung, 59
Scheé
Hoedings
Lemma von Scheé, 95
-
147
/
145
-
Ingo Bürk
SÄTZEVERZEICHNIS
Seite 148
Slutsky
Satz von Slutsky, 114
Starkes Gesetz der groÿen Zahlen, 104
Stirling
Formel von Stirling, 31
Tonelli
Satz von Tonelli, 53
Transformationsformel, 55
Tschebysche
Tschebysche-Ungleichung, 64
Umkehrformel, 81
Wahrscheinlichkeit
Formel von der totalen Wahrscheinlichkeit, 28
Zentraler Grenzwertsatz, 118
-
148
/
145
-
Ingo Bürk
Herunterladen