Vorlesungsmitschrieb - Institut für Stochastik und Anwendungen

Werbung
Wahrscheinlichkeitstheorie - Mitschrieb
bei PD Dr. J. Dippon
Jan-Cornelius Molnar, Version: 21. Februar 2010 15:09
Inhaltsverzeichnis
0 Gegenstand der Vorlesung
6
1 Wahrscheinlichkeitsräume
8
1-A Algebren, Inhalte und Maße . . . . . . . . . . . . . . . . . . . . . . . .
8
1-B Wahrscheinlichkeiträume und -maße . . . . . . . . . . . . . . . . . .
15
Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . .
17
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . .
19
Weitere Eigenschaften von Wahrscheinlichkeitsmaßen . . .
21
Fortsetzung von Wahrscheinlichkeitsmaßen . . . . . . . . . .
24
1-C Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
1-D Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . .
33
2 Kombinatorische Wahrscheinlichkeitsrechnung
38
3 Zufallsvariablen und Verteilungen
42
3-A Meßbare Abbildungen und Zufallsvariablen . . . . . . . . . . . . . .
42
3-B Bildmaße und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . .
50
Produktmessräume . . . . . . . . . . . . . . . . . . . . . . . . .
53
4 Erwartungswerte und Dichten
4-A Erwartungswert, Varianz und Lebesgue Integral . . . . . . . . . . .
58
58
Erwartungswert mittels Riemann-Stieltjes-Integral . . . . . .
59
Erwartungswert mittels Maß-Integral . . . . . . . . . . . . . .
60
Eigenschaften des Erwartungswerts . . . . . . . . . . . . . . .
64
4-B Dichtefunktion und Zähldichte . . . . . . . . . . . . . . . . . . . . . .
68
Der Transformationssatz . . . . . . . . . . . . . . . . . . . . .
73
4-C Momente von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . .
77
Inhaltsverzeichnis
5 Unabhängigkeit
5-A Unabhängige Ereignisse und Zufallsvariablen . . . . . . . . . . . . .
82
83
Unabhängige Zufallsvariablen . . . . . . . . . . . . . . . . . . .
85
Faltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
5-B Null-Eins-Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
6 Erzeugende und charakteristische Funktionen, Faltungen
6-A Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
98
Konvergenzsätze der Maßtheorie . . . . . . . . . . . . . . . . 104
6-B Charakteristische Funktionen . . . . . . . . . . . . . . . . . . . . . . . 106
Eindeutigkeitssatz und Umkehrformeln . . . . . . . . . . . .
112
6-C Faltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
7 Spezielle Verteilungen
122
7-A Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7-B Totalstetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 126
8 Gesetze der großen Zahlen
132
8-A Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
8-B Schwache und starke Gesetze der großen Zahlen . . . . . . . . . . . 135
9 Zentrale Grenzwertsätze
144
9-A Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R . . . . 144
9-B Zentrale Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . 159
Multivariate zentrale Grenzwertsätze . . . . . . . . . . . . . . 170
10 Bedingte Erwartungen
174
10-AGrundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
11 Martingale
188
A Begriffe und Sätze der Maß- und Integrationstheorie
204
Literaturverzeichnis
206
21. Februar 2010 15:09
5
-1-
0
Gegenstand der Vorlesung
0 Gegenstand der Vorlesung
Realität
Erfahrung
Daten
Beobachtung
Modellierung
Mathematisches Model
Abstraktion
Axiomatische Theorie
Analyse
Anwendung
Aussagen über
die Realität
0.1
Deduktion
Interpretation
Mathematische Eigenschaften
Theoreme
Schema Mathematische Modellierung.
Gegenstand der Vorlesung ist es nicht, Aussagen darüber zu treffen, was “Zufall” oder “Wahrscheinlichkeit” konkret bedeutet. Wir haben die Absicht zu klären, welche Axiome für eine Wahrscheinlichkeit gelten und welche Eigenschaften sie erfüllen muss - sofern sie existiert.
6
21. Februar 2010 15:09
1
Wahrscheinlichkeitsräume
1 Wahrscheinlichkeitsräume
1-A Algebren, Inhalte und Maße
Ziel dieses Abschnittes ist es, Abbildungen µ zu definieren, die einer Teilmenge
eines Raumes Ω ein “Maß” zuordnen,
µ : P(Ω) → R.
Gehen wir von Ω = R aus und betrachten zunächst nur Intervalle als Teilmengen, so ist es nur natürlich diesen auch ihre Länge als “Maß” zuzuordnen,
µ((a, b]) = b − a.
G. Vitali1 hat jedoch bereits 1905 gezeigt, dass es nicht möglich ist, ein solches “Maß” dann für alle Teilmengen von R, d.h. auf der Potenzmenge P(R)
zu definieren, es ist also notwendig sich lediglich auf eine Teilmenge von P(R)
zurückzuziehen, d.h. man kann auch nur bestimmen Teilmengen von R mit
einem solchen Maß “vermessen”.
1
Giuseppe Vitali (* 26. August 1875 in Ravenna;
† 29. Februar 1932 in Bologna) war ein italieni-
scher Mathematiker.
8
21. Februar 2010 15:09
Algebren, Inhalte und Maße
In der Wahrscheinlichkeitstheorie werden üblicherweise als Definitionsbereich von Maßen sogenannte σ -Algebren betrachtet.
1.1 Definition Sei Ω eine nichtleere Menge. Ein System A von Teilmengen von Ω
heißt Algebra, wenn
1.) ∅ ∈ A,
2.) A ∈ A ⇒ Ω \ A ∈ A,
3.) A, B ∈ A ⇒ A ∪ B ∈ A
oder äquivalent
A1 , . . . , Am ∈ A ⇒
Sm
i=1
Ai ∈ A.
das System A heißt σ -Algebra, falls zusätzlich gilt,
3.*) An ∈ A für n ∈ N ⇒
S∞
n=1
An ∈ A.
Ï
Diese Definition einer Algebra ist nicht mit der aus der Vorlesung “Algebra”
zu verwechseln. Dennoch existieren Parallelen. Vereinigung und Schnittbildung
könnte man als Addition und Multiplikation betrachten, das Komplement als
Inverses und die leere Menge als Identität.
1.1 Bemerkung. Ist A σ -Algebra, so ist A auch auch eine Algebra.
Ç
Wie wir noch sehen werden, besitzen Algebren zahlreiche angenehme Eigenschaften. Durch die Forderung dass Komplemente und Vereinigungen enthalten sind, ergibt sich beispielsweise automatisch, dass auch Schnitte und Differenzen enthalten sind.
1.1 Lemma
a) Sei A eine Algebra, so gilt
A1 , . . . , Am ∈ A ⇒
m
\
n=1
An ∈ A.
A, B ∈ A ⇒ A \ B ∈ A.
b) Sei A eine σ -Algebra, so gilt außerdem
An ∈ A für n ∈ N ⇒
21. Februar 2010 15:09
∞
\
n=1
An ∈ A.
Ï
9
1-A
1
Wahrscheinlichkeitsräume
Eine Algebra (bzw. σ -Algebra) enthält somit stets ∅ und Ω und ist abgeschlossen gegenüber endlich (bzw. abzählbar) vielen üblichen Mengenoperationen.
»
a) Definition 1.1 besagt, A1 , . . . , Am ∈ A ⇒ Ac1 , . . . , Acm ∈ A. Mit den Regeln
von De-Morgan folgt,


d.h.
Tm
m
\
n=1
n=1
c
An  =
m
[
n=1
Acn ∈ A,
An ∈ A.
b) Seien A, B ∈ A. Man sieht leicht, dass A \ B = A ∩ B c und daher ist auch
A \ B ∈ A als Schnitt von A und B c .
«
1.2 Definition Sei Ω eine nichtleere Menge und A eine σ -Algebra in Ω. Das Paar
(Ω, A) heißt Messraum (mesurable space); die Elemente ∈ A heißen A-messbare
Mengen.
Entsprechendes gilt für σ -Algebra.
Ï
Man startet bei der Definition von Abbildungen auf Messräumen oft nur auf
Teilmengen - wie z.B. den Intervallen in R - und dehnt anschließend den Definitionsbereich aus. Für diese Vorgehensweise sind folgende Ergebnisse zentral.
1.2 Lemma
ist
T
a) Seien Aα Algebren in Ω, α ∈ I und I beliebige Indexmenge, so
α∈I
Aα eine Algebra in Ω.
b) Sei C ⊆ P(Ω) ein Mengensystem in Ω, so es existiert eine kleinste C enthaltende Algebra. Ï
»
a) Wir führen den Beweis für σ -Algebren; der für Algebren wird analog geführt.
Aα sei für jedes α ∈ I eine σ -Algebra in Ω. Also ist auch ∅ ∈
∅ ∈ Aα für alle α ∈ I. Weiterhin gilt
A∈
10
\
α∈I
T
α∈I
Aα , da
Aα a ∀ α ∈ I : A ∈ Aα ⇒ ∀ α ∈ I : Ac ∈ Aα
a Ac ∈
\
α∈I
Aα ,
21. Februar 2010 15:09
Algebren, Inhalte und Maße
sowie
A1 , A2 , . . . ∈
\
α∈I
Aα a ∀ α ∈ I : A1 , A2 , . . . ∈ Aα
⇒ ∀α∈I :
∞
[
n=1
An ∈ Aα a
∞
[
n=1
An ∈
\
α∈I
Aα .
b) Betrachte alle Obermengen von C, die Algebren sind, und bilde den Schnitt,
\
Aα Algebra
C⊆Aα
Aα
Aus a) folgt, dass der Schnitt eine Algebra ist. Der Schnitt ist dann auch per
definitionem die kleinste σ -Algebra, die C enthält.
«
1.3 Definition Sei C ein Mengensystem in Ω. Die kleinste der C enthaltenden Alge-
bren heißt die von C erzeugte Algebra; C heißt ein Erzeugersystem dieser Algebra.
Entsprechendes gilt für σ -Algebren.
Wir bezeichnen die von C erzeugte Algebra mit F (C).
Ï
Das Konzept des Erzeugersystem ermöglicht es uns, Eigenschaften nur auf
dem Erzeugersystem nachzuweisen, was oft einfacher ist, und diese Eigenschaften auf die erzeugte Algebra zu übertragen.
Im Rn bilden die offenen Teilmengen ein wichtiges Mengensystem, die sie
die Topologie erzeugen und somit Metrik, Norm, Konvergenz, Differenziation,
etc. charakterisieren. Folgende Definition ist daher für alles Weitere zentral.
1.4 Definition Sei On das System der offenen Mengen des Euklidischen Raumes Rn .
Setze Bn := F (On ). Bn wird als σ -Algebra der Borelschen Mengen in Rn bezeichnet. B := B1 .
Ï
Bn enthält alle abgeschlossenen, alle kompakten und alle höchstens abzähl-
baren Mengen in Rn . Es gilt dennoch tatsächlich Bn ⊊ P(Rn ), der Beweis benö-
tigt jedoch die Annahme des Auswahlaxioms.
Die Borelschen Mengen bilden die grundlegenden Mengen, mit denen wir
uns beschäftigen. Wenn wir auf dem Rn arbeiten, enthält also Bn alle “für uns
interessanten” Mengen.
21. Februar 2010 15:09
11
1-A
1
Wahrscheinlichkeitsräume
Um das Konzept des Erzeugersystem ausnutzen können, verwenden wir das
System Jn der halboffenen Intervalle (bzw. Rechtecke)
(a, b] := {(x1 , . . . , xn ) ∈ Rn : ai < xi ≤ bi , i = 1, . . . , n}
in Rn , wobei a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈ Rn mit ai < bi , oder auch
das System der offenen Intervalle, der abgeschlossenen Intervalle, der Intervalle
(−∞, a] oder der Intervalle (−∞, a).
1.1 Satz Das System Jn ist ein Erzeugersystem von Bn .
Ï
» per definitionem gilt (a, b] := {(x1 , . . . , xn ) ∈ Rn : ai < xi ≤ bi , i = 1, . . . , n}.
Nun lässt sich jedes offene Intervall als abzählbare Vereinigung halboffener Intervalle darstellen,
(a, b) =
=
[ k∈N
a, b −
1
k
[ 1
(x1 , . . . , xn ) ∈ Rn : ai < xi ≤ bi −
∈ Bn .
k
k∈N
Ferner lässt sich jede offene Menge in Rn als abzählbare Vereinigung von offenen Intervallen mit rationalen Randpunkten darstellen.
«
Wir haben nun die notwendigen Vorbereitungen getroffen um ein Maß zu
definieren.
1.5 Definition Sei C ein Mengensystem in Ω mit ∅ ∈ C. Eine Mengenfunktion
µ : C → R := R ∪ {+∞, −∞}
heißt (mit den Konventionen a + ∞ = ∞ (a ∈ R), ∞ + ∞ = ∞ usw.)
1.) ein Inhalt (content) auf C, wenn
(a) µ ist nulltreu, d.h. µ(∅) = 0,
(b) µ ist positiv, d.h. ∀ A ∈ C : µ(A) ≥ 0,
12
21. Februar 2010 15:09
Algebren, Inhalte und Maße
(c) µ ist additiv, d.h. für paarweise disjunkte An ∈ C mit n = 1, 2, . . . , m
Pm
und n=1 An ∈ C gilt2

µ
m
X
n=1

An  =
m
X
µ(An ).
n=1
2.) ein Maß (measure) auf C, wenn
(a) µ ist nulltreu, d.h. µ(∅) = 0,
(b) µ ist positiv, d.h. ∀ A ∈ C : µ(A) ≥ 0,
(c) µ ist σ -additiv, d.h. für paarweise disjunkte An ∈ C mit n ∈ N und
P∞
n=1 An ∈ C gilt

µ
∞
X
n=1

An  =
∞
X
µ(An ).
n=1
Ist A eine σ -Algebra in Ω, µ ein Maß auf A, so heißt (Ω, A, µ) ein Maßraum
(measure space). Ï
Offensichtlich ist jedes Maß ein Inhalt.
“Natürliche” Definitionsbereiche für Inhalt und Maß sind Algebren bzw. σ Pm
Algebren. In diesem Fall können wir auch auf die Voraussetzung n=1 An ∈ C
P∞
bzw. n=1 An ∈ C) verzichten. Häufig werden wir nur diese Definitionsbereiche
verwenden.
In der Wahrscheinlichkeitstheorie arbeiten wir häufig auf abzählbaren Messräumen wie z.B. N dann lassen sich alle Teilmengen messen, indem wir ihnen
als Maß die Anzahl ihrer Elemente zuordnen.
1.6 Definition Sei (Ω, A) ein Messraum und Z = {z1 , z2 , . . .} eine höchstens abzähl-
bare Teilmenge von Ω, so heißt
µ : A → R, mit µ(A) := Anzahl der Elemente in A ∩ Z,
A ∈ A,
ein abzählendes Maß (counting measure). Ï
2
A + B bzw.
Pm
n=1
An steht für die disjunkte Vereinigung von A und B bzw. der An . Wir fordern
P
implizit, dass A und B bzw. die An disjunkt sind.
bei der Verwendung von + und
21. Februar 2010 15:09
13
1-A
1
Wahrscheinlichkeitsräume
1.2 Bemerkung. Sei A Algebra in Ω, µ endlicher Inhalt auf A, ferner A, B ∈ A und
A ⊂ B, so gilt
µ(B \ A) = µ(B) − µ(A).
Diese Eigenschaft nennt sich Subtraktivität. Ç
» Da B = A + B \ A, gilt µ(B) = µ(A) + µ(B \ A).
14
«
21. Februar 2010 15:09
Wahrscheinlichkeiträume und -maße
1-B Wahrscheinlichkeiträume und -maße
1.7 Definition Sei A eine σ -Algebra in Ω. Eine Abbildung P : A → R heißt ein
Wahrscheinlichkeitsmaß (W-Maß) auf A, wenn
(a) P nulltreu, d.h. P (∅) = 0,
(b) P positiv, d.h. P (A) ≥ 0,
(c) P σ -additiv, d.h. für alle paarweise disjunkte An ∈ A (n = 1, 2, . . .) gilt

P
∞
X
n=1

An  =
∞
X
P (An ),
n=1
(d) P normiert, d.h. P (Ω) = 1.
(Ω, A, P ) heißt dann ein Wahrscheinlichkeitsraum (W-Raum) (probability space).
Ist (Ω, A, P ) ein W-Raum, so bezeichnet man die Grundmenge Ω auch als
Merkmalraum, Stichprobenraum (sample space), die Mengen A ∈ A als Ereignisse, P (A) als Wahrscheinlichkeit von A und die Elemente ω ∈ Ω bzw. die 1-
Punkt-Mengen {ω} ⊂ Ω (nicht notwendig ∈ A) als Elementarereignisse (auch
Realisierungen).
Ein W-Raum ist ein normierter Maßraum. Ï
Ein Wahrscheinlichkeitsmaß, ist also ein normiertes Maß auf (Ω, A) mit Wer-
tebereich R anstatt R.
Bei der Definition eines Wahrscheinlichkeitsmaßes, ergeben sich Nulltreue,
Positivität und Normiertheit ganz intuitiv. In der Vergangenheit wurde lange
darüber diskutiert, ob es notwendig ist, die σ -Additivität für Ereignisse zu fordern. Es hat sich jedoch herausgestellt, dass dies durchaus sinnvoll und notwendig ist.
Damit haben wir die Axiome der Wahrscheinlichkeitstheorie formuliert und
alles Folgende wird auf diesen Axiomen aufbauen. Nun stellt sich natürlich
die Frage, ob diese Definition einer “Wahrscheinlichkeit” mit unserer Alltagserfahrung übereinstimmt. Im Laufe der Vorlesung werden wir feststellen, dass
dieses “Modell” in vielen Fällen eine sehr gute Approximation der Wirklichkeit
darstellt.
21. Februar 2010 15:09
15
1-B
1
Wahrscheinlichkeitsräume
Zur Motivation des Wahrscheinlichkeitsraumes. Wir suchen nach einem alternativen Weg, eine Wahrscheinlichkeit einzuführen. Sei dazu hn (A) die absolute
Häufigkeit des Eintretens eines Ereignisses A (z.B. Würfeln einer “6” bei n Würfen) und Hn (A) =
hn (A)
n
die relative Häufigkeit des Auftretens von Ereignis A.
Offensichtlich gilt für jedes A und jedes n:
0 ≤ Hn (A) ≤ 1,
Hn (Ω) = 1,
Hn (∅) = 0.
Für zwei disjunkte Ereignisse A1 , A2 gilt weiterhin
Hn (A1 + A2 ) = Hn (A1 ) + Hn (A2 ).
Hn verfügt also über alle Eigenschafen eines Wahrscheinlichkeistmaßes.
Führt man das (Würfel)-Experiment hinreichend oft durch, kann man das
“Empirische Gesetz der großen Zahlen” vermuten:
lim Hn (A) existiert.
n→∞
Im Fall der Existenz kann man dem Ereignis A den obigen Grenzwert als Wahrscheinlichkeit zuordnen (R.v. Mises 19193 ),
P (A) = lim Hn (A).
n→∞
Dieser Grenzwert muss aber nicht für alle möglichen Folgen von Versuchsergebnissen existieren - es lässt sich nicht ausschließen, dass man in einer Versuchsfolge ausschließlich 6er würfelt.
Die endgültige, axiomatische Formulierung der Wahrschienlichkeitstheorie,
wie wir sie eben eingeführt haben, hat 1933 mit dem Werk “Grundbegriffe der
Wahrscheinlichkeitsrechnung” von Kolmogorov4 seinen Abschluss gefunden.
Der axiomatische Ansatz hat sich bisher als der erfolgreichste erwiesen. Wir
zahlen aber einen Preis, denn dieser Ansatz erklärt nicht, was Wahrscheinlichkeit eigentlich bedeutet.
3
Richard Edler von Mises (* 19. April 1883 in Lemberg, Österreich-Ungarn, heute Lwiw, Ukraine;
4
Andrei Nikolajewitsch Kolmogorow (* 25. April 1903 in Tambow;
† 14. Juli 1953 in Boston, Massachusetts) war ein österreichischer Mathematiker.
† 20. Oktober 1987 in Moskau) war einer der bedeutendsten Mathematiker des 20. Jahrhunderts. Kolmogorow leistete
wesentliche Beiträge auf den Gebieten der Wahrscheinlichkeitstheorie und der Topologie, er
gilt als der Gründer der Algorithmischen Komplexitätstheorie. Seine bekannteste mathematische Leistung war die Axiomatisierung der Wahrscheinlichkeitstheorie.
16
21. Februar 2010 15:09
Wahrscheinlichkeiträume und -maße
Binomialverteilung
Oft sind nur endlich viele Elementarereignisse möglich und alle diese treten
mit der gleichen Wahrscheinlichkeit ein. Wir sprechen in diesem Fall von einem
Laplace-Experiment.
Definition Ein W-Raum (Ω, A, P ) mit Ω endlich, A = P(Ω) und
P ({ω}) =
1
,
|Ω|
ω ∈ Ω,
|Ω| = Anzahl der Elemente in Ω,
heißt Laplacescher W-Raum:
Für A ∈ A gilt P (A) =
|A|
Anzahl der “günstigen” Fälle
=
.
|Ω|
Anzahl der “möglichen” Fälle
Ï
Bsp 1 Seien n ∈ N, p ∈ [0, 1] fest. Betrachte n gleichartige Experimente ohne
gegenseitige Beeinflussung mit den möglichen Ausgängen
0 (“Misserfolg”, “Kopf”) und 1 (“Erfolg”, “Zahl”)
mit jeweiliger Erfolgswahrscheinlichkeit p. Dies bezeichnet man auch als nTupel von Bernoulli-Versuchen.5
Wie groß ist die Wahrscheinlichkeit in n Bernoulli-Versuchen genau k, wobei
k ∈ {0, 1, . . . , n}. Erfolge zu erhalten?
Dieses Experiment entspricht der Platzierung von k Kugeln auf n Plätzen
ohne Mehrfachbelegung eines Platzes.
Experiment
Wahrscheinlichkeit
. . 0}
1
. . 1} 0
| .{z
| .{z
p · · · p · (1 − p) · · · (1 − p) = p k (1 − p)n−k
k
n−k
0 1 1...1 0...0
(1 − p)p · · · p(1 − p) · · · (1 − p) = p k (1 − p)n−k .
Die Reihenfolge der Erfolge und Miserfolge ist unerheblich für die Wahrscheinlichkeit. Das Experiment besitzt genau
!
n!
n
=
k!(n − k)!
k
5
Jakob I. Bernoulli (* 6. Januar 1655 in Basel;
†
16. August 1705 ebenda) war ein Schweizer
Mathematiker und Physiker.
21. Februar 2010 15:09
17
1-B
1
Wahrscheinlichkeitsräume
mögliche Ausgänge. Aufsummation liefert die Gesamtwahrscheinlichkeit,
!
n k
W =
p (1 − p)n−k =: b(n, p; k),
k
n
wobei k = 0, falls k ∉ {0, 1, . . . , n}.
Definition Durch P ({k}) := b(n, p; k) für k ∈ N0 ist ein W-Maß auf B definiert,
wobei für A ⊆ N0 ,
P (A) =
X
b(n, p; k) :=
k∈N0 ∩A
X
k∈N0 ∩A
!
n k
p (1 − p)n−k .
k
P ist ein W-Maß und heißt Binomialverteilung b(n, p) mit Parameteren n ∈ N
und p ∈ [0, 1].
Ï
Bsp 2 500g Teig und 36 Rosinen seien rein zufällig verteilt. Daraus werden 10
Brötchen mit je 50g Teil geformt. Greife ein Brötchen heraus.
Wie groß ist die Wahrscheinlichkeit, dass dieses Brötchen 2 oder mehr Rosinen
enthält?
1
10
Rosine Nr. 1-36 ist unabhängig von den anderen mit Wahrscheinlichkeit p =
im betrachteten Brötchen. Es handelt sich also um 36 Bernoulli Versuche mit
jeweiliger Erfolgswahrscheinlichkeit p =
1
10 .
!
36 1
1 36−k
1
−
k 10k
10
k=2
k=2
1
1
= 1 − b 36,
; 0 − b 36,
; 1 ≈ 0.89. 10
10
P (A) =
36
X
b(n, p; k) =
36
X
Wir wollen das Beispiel der Binomialverteilung nun dahingehend verallgemeinern, dass wir die Menge Ω auf die ganze reelle Achse erweitern.
Definition Sei Ω = R, A = B und (pk )k∈N0 eine reelle Zahlenfolge mit
X
0 ≤ pk ≤ 1 für k ∈ N0 ,
pk = 1.
k∈N0
(pk ) bezeichnet man als Zähldichte. Durch P ({k}) = pk , ∀ k ∈ N0 also
X
P (A) =
pk ,
A ∈ B.
k∈A∩N0
wird ein W-Maß auf B definiert. P ist auf N0 konzentriert, d.h. P (N0 ) = 1 und
besitzt die Zähldichte (pk )k∈N0 .
18
Ï
21. Februar 2010 15:09
Wahrscheinlichkeiträume und -maße
1-B
» Nulltreue, Positivität und Normiertheit sind klar. Wir weisen nun die σ -Additivität
nach: Seien An für n ∈ N paarweise disjunkt. Ohne Einschränkung können wir
davon ausgehen, dass An ⊆ N, es gilt also,

P
∞
X
n=1

An  =
k∈
X
P
n
pk .
An
Da die Reihe absolut konvergent ist, dürfen wir den großen Umordnungssatz
aus der Analysis anwenden, und die Reihenglieder umgruppieren,
... =
∞
X
X
n=1 k∈An
|
pk =
{z
}
∞
X
P (An ).
«
n=1
:=P (An )
Für Beispiel 1 gilt (b(n, p; k))k∈N0 = (pk )k∈N0 .
Poissonverteilung
Seien nun pn ∈ (0, 1) mit n · pn → λ ∈ (0, 1) für n → ∞, so ist
b(n, pn ; k) =
!
n k
pn (1 − pn )n−k
k
n(n − 1) · · · (n − k + 1) k
pn (1 − pn )n−k
k!
h
inpn
n(n − 1) · · · (n − k + 1) k
=
pn · (1 − pn )−k (1 − pn )1/pn
k!
=
Für den Grenzübergang n → ∞ gilt,
n(n − 1) · · · (n − k + 1) k
λk
pn →
,
k!
k!
(1 − pn )−k → 1,
(1 − pn )1/pn → e−1 .
Wir erhalten also insgesamt,
n→∞
b(n, pn ; k) →
21. Februar 2010 15:09
λk −λ
e =: π (λ; k).
k!
19
1
Wahrscheinlichkeitsräume
π (λ; k) definiert eine Zähldichte, denn
X
k∈N0
π (λ; k) = e−λ
∞
X
λk
= 1.
k!
k=0
| {z }
:=eλ
1.8 Definition Das zu π (λ; k) gehörige W-Maß π (λ) auf B ist gegeben durch,
π (λ)({k}) := π (λ; k)
und heißt Poisson-Verteilung6 mit Parameter λ. Ï
Die Poission-Verteilung hat sehr viele angenehme Eigenschaften, insbesondere ist sie numerisch gut handhabbar. Daher approximiert man oft eine Binomialverteilung durch eine Poissonverteilung. Die Approximation ist gut für p
“klein” und n “groß”.
Bsp 3 Eine Anwendung zu Beispiel 2. Gegeben seien m gleichgroße mehrfach
besetzbare Zellen.
vorgegebene Zelle Z
Zur Anwendung von 2.
1.1
n Teilchen seien rein zufällig auf die Zellen verteilt. Die Wahrscheinlichkeit,
1
m . Also ist die Wahrscheinlichkeit, dass
1
n
Teilchen in Z landen b(n, m ; k). Die “Belegungsintensität” ist m
.
n
Für n → ∞ und m → ∞ gelte m → λ ∈ (0, ∞). In der Grenze ist die Wahr-
dass Teilchen Nr. 1 in Zelle Z landet, ist
k
scheinlichkeit, dass genau k ∈ N0 Teilchen in der Zelle Z landen gegeben durch
π (λ; k). Damit können wir das Beispiel 2 wieder aufgreifen.
Betrachte eine große Anzahl von Rosinen in einer großen Teigmenge. Teile
den Teig in m gleichgroße Brötchen auf, mit λ :=
6
n
m.
Nehmen wir nun ein
Siméon-Denis Poisson (* 21. Juni 1781 in Pithiviers (Département Loiret);
†
25. April 1840 in
Paris) war ein französischer Physiker und Mathematiker.
20
21. Februar 2010 15:09
Wahrscheinlichkeiträume und -maße
Brötchen heraus, so ist die Wahrscheinlichkeit, dass es genau k Rosinen enthält
≈ e−λ
λk
.
k!
Im Zahlenbeispiel n = 36, m = 10, λ = 3.6 gilt
36
X
e−λ
k=2
λk
≈ 1 − e−λ − λe−λ ≈ 0.874,
k!
statt 0.89.
Weitere Eigenschaften von Wahrscheinlichkeitsmaßen
Die reellen Zahlen R sind geordnet und für “monoton fallende” bzw. “monoton
steigende” Folgen wissen wir, dass ein eigentlicher oder uneigentlicher Grenzwert existiert. Ein Mengensystem lässt sich durch “⊆” oder “⊇” halbordnen,
somit lässt sich der Monotoniebegriff in gewisser Weise übertragen.
Definition Die Konvergenz von unten bzw. von oben ist für die Mengen A und
An (n = 1, 2, . . .) folgendermaßen definiert:
An ↑ A : A1 ⊂ A2 ⊂ A3 ⊂ . . . ,
An ↓ A : A1 ⊃ A2 ⊃ A3 ⊃ . . . ,
∞
[
n=1
∞
\
n=1
An = A,
An = A.
Ï
Da wir nun über eine Art Konvergenzbegriff für Mengen verfügen, lässt sich
nach der Stetigkeit von Abbildungen von Mengensystemen in die reellen Zahlen
fragen. Natürlich handelt es sich hierbei nicht um Konvergenz und Stetigkeit im
Sinne der Analysis, denn wir haben auf A keine Norm zur Verfügung.
1.2 Satz Sei A eine Algebra in Ω, µ ein endlicher (d.h. µ(Ω) < ∞) Inhalt auf A.
Dann sind die folgenden Aussagen äquivalent:
a) µ ist σ -additiv
b) µ ist stetig von unten,
d.h. [An ∈ A, An ↑ A ∈ A ⇒ µ(An ) → µ(A)]
c) µ ist stetig von oben,
d.h. [An ∈ A, An ↓ A ∈ A ⇒ µ(An ) → µ(A)]
21. Februar 2010 15:09
21
1-B
1
Wahrscheinlichkeitsräume
d) µ ist ∅-stetig,
d.h. [An ∈ A, An ↓ ∅ ⇒ µ(An ) → 0] .
Auch ohne die Voraussetzung der Endlichkeit von µ gilt a) ⇐⇒ b).
» a)⇒b): Sei An = A1 + A2 \ A1 + . . . + An \ An−1 und A = A1 +
verwenden die Additivität von µ und erhalten somit,
∞
P
k=2
Ï
Ak \ Ak−1 . Wir
µ (An ) = µ(A1 ) + µ(A2 \ A1 ) + . . . + µ(An \ An−1 )
= µ(A1 ) +
n
X
k=2
n→∞
µ(Ak \ Ak−1 ) → µ(A1 ) +
Die übrigen Implikationen folgen analog.
∞
X
k=2
µ(Ak \ Ak−1 ) = µ(A).
«
Da Wahrscheinlichkeitsräume per definitionem endlich sind, ist Satz 1.2 dort
stets anwendbar. Insbesondere ist jedes W-Maß stetig.
1.3 Lemma Sei A eine Algebra in Ω, µ ein Inhalt auf A.
a) µ ist monoton,
d.h. [A, B ∈ A, A ⊂ B ⇒ µ(A) ≤ µ(B)] .
b) µ ist subadditiv,
d.h. [A1 , . . . , Am ∈ A ⇒ µ(
Sm
n=1
An ) ≤
m
P
n=1
µ(An )] .
c) Ist µ ein Maß, dann ist µ sogar σ -subadditiv,
∞
S∞
S∞
P
d.h. [An ∈ A für n ∈ N, n=1 An ∈ A ⇒ µ( n=1 An ) ≤
µ(An )] .
n=1
Ï
» a): Seien A, B ∈ A und A ⊆ B. Nun gilt B = A + B \ A, also
µ(B) = µ(A) + µ(B \ A),
| {z }
⇒µ(A) ≤ µ(B).
≥0
b): Wir untersuchen den Spezialfall n = 2. Seien A1 , A2 ∈ A, so ist
µ(A1 ∪ A2 ) = µ(A1 + A2 \ A1 ) = µ(A1 ) + µ(A2 \ A1 )
{z
}
|
≤µ(A2 )
≤ µ(A1 ) + µ(A2 ).
22
21. Februar 2010 15:09
1-B
Wahrscheinlichkeiträume und -maße
Der allgemeine Fall folgt durch Induktion.
c): Für N ∈ N gilt,
µ(A1 ∪ . . . ∪ AN ) ≤
N
X
n=1
µ(An ) ≤
∞
X
µ(An ).
n=1
Beim Grenzübergang für N → ∞ erhalten wir so,

µ(A1 ∪ . . . ∪ AN ) → µ 
∞
[
n=1
und die Behauptung folgt.

An  ,
«
W-Maße sind also σ -additiv, σ -subadditiv, monoton und stetig. Diese Eigenschaften sind zwar unscheinbar, es lassen sich damit aber sehr starke Aussagen
beweisen, wie wir gleich sehen werden.
Erinnern wir uns aber zunächst an den limes superior einer reellen Zahlenfolge (an ),
lim sup an := inf sup ak .
n→∞
n∈N k≥n
Wir können nun diese Definitionen auf Mengen übertragen.
Definition Sei (Ω, A, P ) ein W-Raum, An ∈ A für n ∈ N
lim sup An =
n→∞
∞ [
∞
\
n=1 k=n
Ak := {ω ∈ Ω : es ex. unendlich viele n mit ω ∈ An }
= “Ereignis, dass unendlich viele An eintreten”.
Ï
1.3 1. Lemma von Borel und Cantelli Sei (Ω, A, P ) ein W-Raum und An ∈ A für
n ∈ N, dann gilt
∞
X
n=1
P (An ) < ∞
=⇒ P (lim sup An ) = 0,
d.h. P -f.s. gilt: An tritt nur endlich oft auf. Ï
21. Februar 2010 15:09
23
1
Wahrscheinlichkeitsräume
Bsp 4 Lernen durch Erfahrung, d.h. je öfter man eine Tätigkeit durchführt, je
kleiner ist die Wahrscheinlichkeit, dass ein Fehler auftritt.
Betrachte eine Folge von Aufgaben. Ein Misserfolg in der n-ten Aufgabe tritt
mit der Wahrscheinlichkeit
P (An ) =
1
n2
auf. Es gilt dann
∞
X
n=1
P (An ) =
∞
X
1
< ∞.
2
n
n=1
1.3
⇒ Mit Wahrscheinlichkeit 1 wird von einem zufälligen Index n an jede Aufgabe
immer richtig gelöst.
» Beweis des 1. Lemma von Borel und Cantelli. Sei B := lim supn An , d.h.
B=
∞ [
\
Ak .
n=1 k≥n
Offensichtlich gilt

P (B) ≤ P 
S
k≥n
[
k≥n
Ak ↓ B. Aufgrund der Monotonie von P gilt somit,

Ak  ≤
∞
X
k=n
P (Ak ) → 0,
da die Reihe nach Voraussetzung konvergent ist. Also ist P (B) = 0.
«
Fortsetzung von Wahrscheinlichkeitsmaßen
Bisher haben wir ausschließlich mit Maßen gearbeitet, die auf N0 konzentiert
sind, d.h. P (N0 ) = 1. Unser Ziel ist es jedoch ein Maß auf Bn zu definieren, das
jedem Intervall (Rechteck) seinen elementargeometrischen Inhalt zuordnet.
Betrachten wir wieder das Erzeugersystem Jn der halboffenen Intervalle, so
bildet dieses einen Halbring.
Definition h ⊆ P(Ω) heißt Halbring über Ω, falls
1.) ∅ ∈ h,
24
21. Februar 2010 15:09
Wahrscheinlichkeiträume und -maße
2.) A, B ∈ h ⇒ A ∩ B ∈ h,
3.) A, B ∈ h, A ⊆ B ⇒ ∃ k ∈ N : C1 , . . . , Ck ∈ h : B \ A =
Pk
i=1
Ci .
Ï
Auf dem Halbring Jn können wir das gesuchte Maß definieren durch,
µ : Jn → R,
(ai , bi ] , µ((ai , bi ]) =
n
Y
(bi − ai ).
i=1
Mit Hilfe des folgenden Satzes können wir µ eindeutig auf Bn fortsetzen.
1.4 Fortsetzungs- und Eindeutigkeitssatz Sei µ ein Maß auf einem Halbring h über
Ω, so besitzt µ eine Fortsezung µ ∗ zu einem Maß auf F (h).
S∞
Gilt außerdem Ω = i=1 Ai mit µ(Ai ) < ∞, so ist µ ∗ eindeutig. Ï
» Siehe Elstrodt, Kap. III, §§ 4.5.
«
Insbesondere lassen sich auf Halbringen bzw. Algebren über W-Räumen definierte Maße immer eindeutig fortsetzen, da hier bereits µ(Ω) < ∞.
1.3 Bemerkung. µ ∗ in Satz 1.4 ist für A ∈ F (A) gegeben durch
∗
µ (A) = inf

∞
X

n=1
µ(Bn ) : Bn ∈ A (n = 1, 2, . . .) mit A ⊂
[
n


Bn .

Ç
1.4 Bemerkung. Es ist im Allgemeinen nicht möglich, µ von A auf P(Ω) fortzu-
setzen. H. Lebesque7 hat sogar bewiesen, dass es unter Annahme des Auswahl-
axioms nicht möglich ist, ein Maß auf P([0, 1]) fortzusetzen. Ist Ω jedoch abzählbar, so kann P stets auf die Potenzmenge fortgesetzt werden. Ç
1.5 Korollar Es gibt genau ein Maß λ auf Bn , das jedem beschränkten (nach rechts
halboffenen) Intervall in Rn seinen elementargeometrischen Inhalt zuordnet. Ï
1.9 Definition Das Maß λ in Korollar 1.5 heißt Lebesgue–Borel–Maß (L-B-Maß) in Rn .
Ï
7
Henri Léon Lebesgue (* 28. Juni 1875 in Beauvais; † 26. Juli 1941 in Paris) war ein französischer
Mathematiker.
21. Februar 2010 15:09
25
1-B
1
Wahrscheinlichkeitsräume
Bsp 5 Rein zufälliges Herausgreifen eines Punktes aus dem Intervall [0, 1].
Sei Ω = [0, 1], A := [0, 1] ∩ B := {B ∩ [0, 1] : B ∈ B}. Das W-Maß P auf A
soll jedem Intervall in [0, 1] seine elementare Länge zuordnen. Also ist
P = λ[0,1]∩B
eine Restriktion von λ auf [0, 1] ∩ B.
Das λ-Maß hat die Eigenschaft, dass nicht nur die leere Menge sondern auch
jede höchstens abzählbare Menge das Maß Null hat. Eine Menge N ⊆ Ω mit
µ(N) = 0 nennt man Nullmenge.
Oft kann man Eigenschaften nicht auf ganz Ω nachweisen aber auf Ω bis auf
eine Nullmenge. Solche Eigenschaften treten vor allem in der Maßtheorie auf
und sind daher auch in der Wahrscheinlichkeitstheorie von großer Bedeutung.
Definition Sei Maßraum (Ω, A, µ), W-Raum (Ω, A, P ). Eine Aussage gilt
1.) µ-fast überall (µ-f.ü.) in Ω bzw. P -fast sicher (P -f.s.) in Ω, falls sie überall
bis auf einer Menge ∈ A vom µ-Maß bzw. P -Maß Null [oder eine Teilmen-
ge hiervon] gilt.
2.) L-fast überall (L-f.ü.) in Rn . . . , wenn sie überall bis auf einer Menge ∈ Bn
vom L-B-Maß Null [oder eine Teilmenge hiervon] gilt.
26
Ï
21. Februar 2010 15:09
Verteilungsfunktionen
1-C Verteilungsfunktionen
W-Maße sind Abbildungen der Art
P : σ ⊆ P(Ω) → R.
Ihr Definitionsbereich ist somit ein Mengensystem. Wir konnten einige elementare Eigenschaften wie Stetigkeit und Monotonie aus der reellen Analysis auf
diese Abbildungen übertragen, dennoch lassen sie sich nicht immer so leicht
handhaben wie Funktionen.
Betrachten wir nun ein W-Maß auf B, so ist durch folgende Vorschrift eine
Funktion gegeben
F : R → R,
F (x) := P ((−∞, x]),
x ∈ R.
F wird als die zu P gehörende Verteilungsfunktion (Verteilungsfunktion) bezeichnet. Verteilungsfunktionen auf R lassen sich in der Regel viel leichter
handhaben als Maße auf B.
In diesem Abschnitt werden wir zeigen, dass eine Bijektion zwischen Maßen
und Verteilungsfunktionen auf einem W-Raum existiert, wir also jedem Maß
eine Verteilungsfunktion zuordnen können und umgekehrt. Durch die Verteilungsfunktionen werden die Maße “greifbar”.
21. Februar 2010 15:09
27
1-C
1
Wahrscheinlichkeitsräume
Bsp 6 a.) Würfeln mit Wahrscheinlichkeiten p1 , . . . , p6 für die Augenzahlen
1, . . . , 6 wobei p1 + . . . + p6 = 1.
|{z}
|{z}
≥0
≥0
Als zugehörigen Wahrscheinlichkeitsraum wählen wir Ω = R mit A = B.
Das W-Maß auf B erfüllt P ({1}) = p1 , . . . , P ({6}) = p6 .
Zur Verteilungsfunktion betrachte die Skizze.
b.) Betrachte erneut Beispiel 5: Sei (Ω, A, P ) = ([0, 1], [0, 1] ∩ B, λ[0,1]∩B ) abgewandelt zu (Ω, A, P ) = (R, B, P ). Das Lebesgue-Maß ist nur dann ein
Wahrscheinlichkeitsmaß, wenn man den zugrundeliegenden Raum auf ein
Intervall der Länge Eins einschränkt.
Wir setzten daher P (B) := λ([0, 1]∩B). Die zugehörige Verteilungsfunktion
ist dann gegeben durch,



0,



F (x) = x,




1,
x ≤ 0,
x ∈ (0, 1),
x ≥ 1.
F (x)
1
1
p1 + ... + p5
p1 + p2
p1
1 2 3 4 5 6
x
1
Verteilungsfunktionen zum Würfelexperiment und zu Beispiel 5
1.2
1.10 Definition Eine Funktion F : R → R, die monoton wachsend (im Sinne von nicht
fallend) und rechtsseitig stetig ist mit
lim F (x) = 0,
x→−∞
lim F (x) = 1,
x→+∞
heißt (eindimensionale) Verteilungsfunktion (Verteilungsfunktion).
28
Ï
21. Februar 2010 15:09
Verteilungsfunktionen
Der folgende Satz stellt nun eine eindeutige Beziehung zwischen einem Maß
auf B und einer eindimensionalen Verteilungsfunktion her.
1.6 Satz Zu jedem W-Maß P auf B gibt es genau eine Verteilungsfunktion F : R → R,
so dass gilt
F (b) − F (a) = P ((a, b]), a ≤ b, a, b ∈ R
gilt, und umgekehrt. Es existiert also eine Bijektion P ←→ F .
(*)
Ï
» Wir wählen für die Verteilungsfunktion den Ansatz,
F (x) := P ((−∞, x]),
x ∈ R.
1.) Die (*)-Bedingung ist erfüllt, denn es gilt für a, b ∈ R mit a < b,
P ((a, b]) = P ((−∞, b] \ (−∞, a]) = P ((−∞, b]) − P ((−∞, a]).
2.) F ist monoton steigend, denn P ist monoton.
3.) F ist rechtsstetig, denn für xn ↓ x folgt (−∞, xn ] ↓ (−∞, x]. Somit gilt nach
Satz 1.2,
F (xn ) = P ((−∞, xn ]) ↓ P ((−∞, x]) = F (x).
4.) F (x) → 0 für x → −∞, denn
xn ↓ −∞ ⇒ (−∞, xn ] ↓ ∅.
Mit Satz 1.2 folgt daraus,
F (xn ) = P ((−∞, xn ]) ↓ P (∅) = 0.
5.) F (x) → 1 für x → ∞, denn
xn → ∞ ⇒ (−∞, xn ) ↑ R.
Ebenfalls mit Satz 1.2 folgt
F (xn ) = P ((−∞, xn ]) → P (R) = 1.
21. Februar 2010 15:09
29
1-C
1
Wahrscheinlichkeitsräume
6.) Eindeutigkeit. Seien F , F ∗ zwei Verteilungsfunktion gemäß der (*)-Bedingung
in Satz 1.6. Dann unterscheiden sich F und F ∗ lediglich um eine Konstante,
d.h.
F ∗ = F + c.
Nun gilt aber F ∗ (x), F (x) → 1 für x → +∞, also c = 0, d.h. F = F ∗ .
«
Wir betrachten nun zwei sehr wichtige Verteilungsfunktionen als Beispiele.
Bsp 7 Die Funktion Φ : R → [0, 1] mit
1
Φ(x) := √
2π
Zx
t2
− 2
e
| {z } dt, x ∈ R,
−∞ ϕ(t)
ist eine Verteilungsfunktion, denn Φ ist streng monoton, da ϕ > 0, die Rechtsstetigkeit folgt aus der Stetigkeit des Integrals. F (x) → 0 für x → −∞ ist offen-
sichtlich, einzig F (x) → 1 für x → ∞ muss man explizit nachrechnen (Funktionentheorie).
Der Integrand ϕ(t) heißt übrigens Gaußsche Glockenkurve und das zu Φ
gehörige W-Maß auf B, standardisierte Normverteilung N(0, 1).
ϕ(t)
Φ(t)
Φ
ϕ
t
1.3
t
Gaußsche Glockenkurve und standardisierte Normalverteilung
Eine Verallgemeinerung davon ist die Normalverteilung (Gauß-Verteilung)
N(a, σ 2 ), mit a ∈ R und σ > 0. N(a, σ 2 ) ist ein W-Maß auf B mit Verteilungsfunktion
1
F (x) := √
2π
30
Zx
−∞
e
− (t−a)
2
2σ
2
dt ,
x ∈ R.
21. Februar 2010 15:09
Verteilungsfunktionen
Diese Funktion ergibt sich mittels Substitution aus der Verteilungsfunktion von
N(0, 1), alle Eigenschaften übertragen sich daher entsprechen.
Bsp 8 Wähle λ > 0 fest, so ist eine Verteilungsfunktion gegeben durch,
F : R → R,


0,
x≤0
F (x) =

−λx
1 − e
, x > 0.
F (x)
1
x
1.4
Verteilungsfunktion der Exponentialverteilung.
Das zugehörige W-Maß heißt Exponentialverteilung mit Parameter λ (kurz
exp(λ)). 1.5 Bemerkung. Definition 1.10 und Satz 1.6 lassen sich auf Bn und Rn als Defi-
nitionsbereiche von P bzw. F anstatt B bzw. R verallgemeinern. Dabei ist die
Verteilungsfunktion F zu einem W-Maß P auf Bn gegeben durch
F (x1 , . . . , xn ) = P ({(u1 , . . . , un ) ∈ Rn | u1 ≤ x1 , . . . , un ≤ xn })
für (x1 , . . . , xn ) ∈ Rn . Ç
21. Februar 2010 15:09
31
1-C
1
Wahrscheinlichkeitsräume
R2
x2
x = (x1 , x2 )
x1
(u1, u2) ∈ R2 : u1 ≤ x1 , u2 ≤ x2
1.5
Zur Verallgemeinerung der Verteilungsfunktion.
32
21. Februar 2010 15:09
Bedingte Wahrscheinlichkeiten
1-D Bedingte Wahrscheinlichkeiten
Wenn wir beim Durchführen eines Zufallsexperiments wissen, dass bereits Ereignis A eingetreten ist, so ändert sich die Wahrscheinlichkeit dafür, dass auch
noch B eintritt. Für diese Wahrscheinlichkeit schreiben wir
P (B | A).
P (B | A) ist die bedingte Wahrscheinlichkeit, dass unter der Voraussetzung,
dass A eingetreten ist, nun B eintritt.
Bedingte Wahrscheinlichkeiten spielen in vielen aktuellen Fragestellungen
der Wahrscheinlichkeitstheorie eine zentrale Rolle. Beispielsweise in der Finanzmathematik, denn es ist offensichtlich, dass der nächste Aktienkurs von
allen vorherigen abhängt.
Bsp 9 Unter Studenten einer Vorlesung wird eine Umfrage gemacht.
1.6
m
w
Sport
12
18
Kein Sport
16
20
Ergebnis der Umfrage.
Wir nummerieren die Personen so, dass Nr. 1-12 die Sport-treibenden Frauen,
13-30 die Sport-treibenden Männer, 31-46 die nicht Sport-treibenden Frauen und
47-66 die nicht Sport-treibenden Männer sind.
Nun modelieren wir einen W-Raum für die rein zufällige Auswahl einer Person,
Ω = {1, . . . , 66} ,
A = P(Ω),
P ({ω}) =
1
.
66
Ereignis A := {1, . . . , 12, 31, . . . , 46}, die ausgewählte Persion ist weiblich,
Ereignis B := {1, . . . , 30}, die ausgewählte Person treibt Sport.
Es sei bekannt, dass die ausgewählte Person Sport treibt. Wie groß ist die
Wahrscheinlichkeit, dass die ausgewählte Person eine Frau ist? Abzählen der
Elemente in Ω ergibt,
2
12
= .
30
5
21. Februar 2010 15:09
33
1-D
1
Wahrscheinlichkeitsräume
Andererseits erhalten wir durch
12
66
30
66
P (A ∩ B)
=
P (B)
=
2
5
dasselbe Ergebnis. Wir verwenden dies nun zur Definition der bedingten Wahrscheinlichkeit. 1.11 Definition Es sei (Ω, A, P ) ein W-Raum, A ∈ A, B ∈ A mit P (B) > 0. Dann
heißt
P (A | B) :=
P (A ∩ B)
P (B)
die bedingte Wahrscheinlichkeit (conditional probability) von A unter der Bedingung B.
Ï
Es folgen einige elemenatre Eigenschaften der bedingten Wahrscheinlichkeit.
1.7 Satz Sei (Ω, A, P ) ein W-Raum.
a) Bei festem B ∈ A mit P (B) > 0 ist P (· | B) ein W-Maß auf A, das auf B
konzentriert ist [d.h. P (B | B) = 1].
b) Für A, B ∈ A mit P (A) > 0, P (B) > 0 gilt
P (A | B) = P (B | A) ·
P (A)
.
P (B)
Tm−1
c) Für An ∈ A (n = 1, . . . , m) mit P ( n=1 An ) > 0 gilt

P
m
\
n=1

An  =P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 )·

. . . · P Am |
»
34
m−1
\
n=1

An  .
Ï
a) Der Beweis ist eine leichte Übungsaufgabe.
21. Februar 2010 15:09
Bedingte Wahrscheinlichkeiten
b) Betrachte die rechte Seite,
P (B | A) ·
P (A ∩ B) P (A)
P (A ∩ B)
P (A)
=
=
=: P (A|B).
P (B)
P (A) P (B)
P (B)
c) Vollständige Induktion. Für n = 2
P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ).
Der Induktionsschulss ist eine leichte Übung.
«
1.8 Satz Sei (Ω, A, P ) ein W-Raum, {Bn : n ∈ I} eine höchstens abzählbare Familie
paarweise disjunkter Ereignisse Bn ∈ A mit P (Bn ) > 0 (n ∈ I) und
Dann gilt für A ∈ A
P
n∈I
Bn = Ω.
a) die Formel von der totalen Wahrscheinlichkeit
P (A) =
X
n∈I
P (Bn )P (A | Bn ).
b) falls P (A) > 0 die Formel von Bayes
P (Bk ) · P (A | Bk )
P (Bk | A) = P
,
P (Bn )P (A | Bn )
n∈I
k ∈ I.
Ï
Mit der Formel von der totalen Wahrscheinlichkeit kann man somit mit bedingten Wahrscheinlichkeiten auf die Wahrscheinlichkeit für ein bestimmtes Ereignis rückschließen. Die Formel von Bayes hingegen erlaubt es die Bedingung der
Bedingten Wahrscheinlichkeit umzukehren.
»
a) A = A ∩ Ω =
P (A) =
P
n∈I
X
n∈I
(A ∩ Bn ). Weiterhin gilt aufgrund der σ -Additivität,
P (A ∩ Bn ) =
X
n∈I
P (Bn )P (A | Bn ).
P (B )
k
. Die Behauptung folgt nun unter Verb) Satz 1.7 besagt, P (Bk ) = P (A|Bk ) P (A)
wendung des Teils a).
21. Februar 2010 15:09
«
35
1-D
1
Wahrscheinlichkeitsräume
P (B1 )
b
b1
b
a
0b
P (B2 )
P (B3 )
1.7
b
b2
b
a
b
b3
Wegediagramm.
Bsp 10 Zur Veranschaulichung des Satzes 1.8. Betrachte einen Weg von 0 über
b1 oder b2 oder b3 oder . . . nach a oder a. [a könnte z.B. für das Auftreten
von Krebs, a für das Nichtauftreten von Krebs, b1 für Rauchen, b2 für das
Ausgesetzsein von giftigen Dämpfen, b3 . . . stehen].
An jeder Verzweigung b1 , b2 , b3 , . . . wird ein Zufallsexperiment durchgeführt. Das Ereignis Bk sei definiert durch, dass der Weg über bk führt.
Die Formel von der totale Wahrscheinlichkeit ergibt,
P (A) =
X
n
P (A|Bn )P (Bn ).
Deutung. Betrachte B1 , B2 , . . . als “Ursachen” und A als “Wirkung”.
P (Bk ) bezeichnet man als sog. “a priori Wahrsch.” von Bk .
Nun stehe A durch Erfahrung zur Verfügung.
P (Bk |A) bezeichnet man als sog. “a posteriori Wahrsch.” von Bk .
P (Bk |A) ist die Wahrscheinlichkeit, dass der Weg über bk verlaufen ist, wobei
bereits bekannt sei, dass die Ankunft in a (= Ereignis A) stattgefunden hat.
Die Formel von Bayes erlaubt also den Rückschluss von einer Wirkung auf
ihre Ursache - zumindest in einem Wahrscheinlichkeitstheoretischen Sinne.
Anwendung. Ein Arzt beobachtet das Symptom a, welches ausschließlich die
Ursachen b1 , b2 , . . . haben kann. Gesucht ist P (Bk |A), die Wahrscheinlichkeit
für die jeweilige Ursache unter Berücksichtigung des Eintretens von a.
36
21. Februar 2010 15:09
Bedingte Wahrscheinlichkeiten
Bsp 11 Betrieb mit einer Alarmanalge. Bekannt seien folgende Daten:
- Bei Einbruch erfolgt Alarm mit Wahrscheinlichkeit 0.99,
- bei Nichteinbruch mit Wahrscheinlichkeit 0.005.
- Die Einbruchswahrscheinlichkeit ist 0.001.
Gesucht ist nun die Wahrscheinlichkeit, dass bei einem Alarm auch tatsächlich ein Einbruch stattfindet. Übertragen wir dies auf unser Modell, so erhalten
wir folgendes Schema:
Ereignis
Beschreibung
E
Einbruch
Ec
kein Einbruch
A
Alarm
c
A
kein Alarm
Die Wahrscheinlichkeiten der einzelnen Ereignisse sind,
P (A|E) = 0.99,
P (A|E c ) = 0.005,
P (E) = 0.001.
Gesucht ist P (E|A). Mit dem Satz von Bayes erhalten wir,
P (A|E)P (E)
0.99 · 0.001
=
P (A|E)P (E) + P (A|E c )P (E c )
0.99 · 0.001 + 0.005 · 0.999
22
≈ 0.165.
=
133
P (E|A) =
D.h. die Wahrscheinlichkeit, dass bei Auslösung eines Alarms, auch tatsächlich
ein Einbruch stattfindet, beträgt lediglich 16.5%.
Die Wahrscheinlichkeit für einen Alarm ist nach der Formel von der totalen
Wahrscheinlichkeit
P (A) = P (A|E)P (E) + P (A|E c )P (E c ) = 0.006.
21. Februar 2010 15:09
37
1-D
2
Kombinatorische Wahrscheinlichkeitsrechnung
2 Kombinatorische
Wahrscheinlichkeitsrechnung
In der kombinatorischen Wahrscheinlichkeitsrechnung legen wir Laplacesche
W-Räume zugrunde. Die Abzählung der “günstigen” und der “möglichen” Fälle
erfolgt systematisch mit Hilfe der Kombinatorik.
2.1 Definition Gegeben seien n — nicht notwendiger Weise verschiedene — Elemen-
te a1 , . . . , an . Das n-Tupel (ai1 , . . . , ain ) mit ij ∈ {1, . . . , n}, ij ≠ ik für j ≠ k
(j, k = 1, . . . , n) heißt eine Permutation der gegebenen Elemente.
Ï
In der Kombinatorik spielt die mögliche Anzahl an Permutationen eine sehr
große Rolle.
2.1 Satz Die Anzahl der Permutationen von n verschiedenen Elementen ist n!.
Eine Verallgemeinerung für nicht notwendiger weise verschiedene Elemente
liefert der folgende
2.2 Satz Gegeben seien n Elemente; die verschiedenen Elemente darunter seien mit
a1 , . . . , ap bezeichnet (mit p ≤ n). Tritt ai ni -fach auf (i = 1, . . . , p), wobei
Pp
i=1 ni = n, dann können die n Elemente auf
n!
n1 ! . . . np !
verschiedene Arten permutiert werden. Ï
2.2 Definition Sei A eine n-elementige Menge, k ∈ N.
1.) [2.)] Jedes k-Tupel (a1 , . . . , ak ) mit nicht notwendig verschiedenen [lauter
verschiedenen] ai ∈ A heißt eine Kombination k-ter Ordnung aus A mit
[ohne] Wiederholung und mit Berücksichtigung der Anordnung.
38
21. Februar 2010 15:09
3.) [4.)] Werden in a) [2.)] Kombinationen, welche dieselben Elemente in verschiedener Anordnung enthalten, als äquivalent aufgefasst, so heißen die
einzelnen Äquivalenzklassen Kombinationen k-ter Ordnung aus A mit
[ohne] Wiederholung und ohne Berücksichtigung der Anordnung. Ï
Interpretation (mit A = {1, . . . , n}): Aufteilung von k Kugeln auf n Zellen,
wobei in 1.) [2.)] die Zellen mehrfach [nicht mehrfach] besetzt werden dürfen
und die Kugeln unterscheidbar sind (ai . . . Nummer der Zelle, in der die i-te
Kugel liegt), in 3.) [4.)] die Zellen mehrfach [nicht mehrfach] besetzt werden
dürfen und die Kugeln nicht unterscheidbar sind (ein Repräsentant der Äquivalenzklasse ist gegeben durch ein k-tupel von Zahlen aus {1, . . . , n}, in dem die
Zellennummern so oft auftreten, wie die zugehörige Zelle besetzt ist).
2.3 Satz Die Anzahl der Kombinationen k-ter Ordnung aus der n-elementigen Men-
ge A – mit [ohne] Wiederholung und mit [ohne] Berücksichtigung der Anordnung
– ist gegeben durch
o. Wiederholung (1 ≤ k ≤ n)
m. Wiederholung
m. Ber. der Anordnung
o. Ber. der Anordnung
k
n
n(n − 1) . . . (n − k + 1)
n+k−1
k
n
k
Bestimmung von Fakultäten durch Tabellen für log n! und – bei großem n –
durch die Stirlingsche Formel
n p
n
n! ›
2π n (n → ∞)
e
und ihre Verschärfung
exp
1
n!
1
< n n√
< exp
,
12n + 1
12n
( e ) 2π n
n ∈ N.
Ï
» Wir beweisen exemplarisch die Formel für die Anzahl der Kombinationen ohne Berücksichtigung der Anordnung und mit Wiederholungen. Betrachte dazu
k Kugeln, die auf n Zellen verteilt werden sollen.
b
2.1
b
b
b
b
Zur Platzierung von k Kugeln in n Zellen
21. Februar 2010 15:09
39
2-
2
Kombinatorische Wahrscheinlichkeitsrechnung
Ohne die äußeren Trennwende gibt es also k Kugeln und n − 1 Trennwände,
d.h. es gibt insgesamt (n − 1 + k)! Permutationen. Berücksichtigen wir nun noch
die Ununterscheidbarkeit der Kugeln, so erhalten wir
!
n+k−1
.
k
«
Bsp Anwendung in der Physik. Man beschreibt das makroskopische Verhalten
von k Teilchen in der Weise, dass man den (der Darstellung des Momentanzustandes dienenden) Phasenraum in n kongruente würfelförmige Zellen zerlegt
und die Wahrscheinlichkeit p(k1 , . . . , kn ) bestimmt, dass sich genau ki der Teilchen in der i-ten Zelle befinden (i ∈ {1, . . . , n}). Sei Ω0 die Menge aller n-Tupel
n
P
(k1 , . . . , kn ) ∈ Nn
ki = k. W-Maße auf P(Ω0 ) (cha0 von Besetzungszahlen mit
i=1
rakterisiert durch p):
a.) Maxwell-Boltzmann-Statistik (Unterscheidbarkeit der Teilchen, Mehrfachbesetzbarkeit von Zellen)
p(k1 , . . . , kn ) =
k!
1
.
k1 ! . . . kn ! nk
b.) Bose-Einstein-Statistik zur Beschreibung des Verhaltens von Photonen (keine Unterscheidbarkeit der Teilchen, jedoch Mehrfachbesetzbarkeit von Zellen)
p(k1 , . . . , kn ) =
n+k−1
k
!−1
.
c.) Fermi-Dirac-Statistik zur Beschreibung des Verhaltens von Elektronen, Protonen und Neutronen (keine Unterscheidbarkeit der Teilchen, keine Mehrfachbesetzbarkeit von Zellen )
p(k1 , . . . , kn ) =
40
 −1

 n
,
k

0,
ki ∈ {0, 1}
sonst. 21. Februar 2010 15:09
Bsp Die Binomialverteilung b(n, p) mit Parametern n ∈ N, p ∈ (0, 1) ist ein
W-Maß auf B mit der Zähldichte
 
 n p k (1 − p)n−k , k = 0, 1, . . . , n
k
k→

0,
k = n + 1, n + 2, . . . ;
durch diese wird für n “unabhängige” Versuche mit jeweiliger Erfolgswahrscheinlichkeit p die Wahrscheinlichkeit von k Erfolgen angegeben. 21. Februar 2010 15:09
41
2-
3
Zufallsvariablen und Verteilungen
3 Zufallsvariablen und
Verteilungen
3-A Meßbare Abbildungen und Zufallsvariablen
Wir betrachten folgende Zufallsexperimente:
1.) Zufällige Anzahl der Erfolge bei n Bernoulli-Versuchen.
2.) Zufällige Anzahl der an einem Schalter in einem bestimmten Zeitintervall
[0, T ] eintreffenden Kunden.
3.) Zufällige Wartezeit (von 0 an gemessen) bis zum Eintreffen des nächsten
Kunden.
4.) Zufälliger Abstand eines aus dem Intervall [−1/2, 1/2] herausgegriffenen Punktes von 0.
5.) Zufällige Lage eines Partikels im R3 zu einem bestimmten Zeitpunkt.
Die zufälligen Größen können durch sogenannte “Zufallsvariablen” modelliert werden.
Bsp 1 Zu 4.): Betrachte den W-Raum (Ω, A, P ) mit Ω = [−1/2, 1/2], A = B ∩ Ω
und P = λA (Restriktion des LB-Maßes auf Mengen aus A). Ein Punkt ω ∈ Ω
hat Abstand Y (ω) := |ω| von Null. Y nennen wir Zufallsvariable.
Die Wahrscheinlichkeit, dass Y ≤ x mit x ∈ [0, 1/2] fest, ist gegeben durch
P [Y ≤ x] := P ({ω ∈ Ω : Y (ω) ≤ x}) = [−x, x] ∈ A.
Allgemeiner ist die Wahrscheinlichkeit, dass Y ∈ B für B ∈ B, gegeben durch
P [Y ∈ B] := P ({ω ∈ Ω : Y (ω) ∈ B}) .
42
21. Februar 2010 15:09
Meßbare Abbildungen und Zufallsvariablen
Damit P [Y ∈ B] überhaupt definiert ist, muss [Y ∈ B] eine messbare Menge
sein, d.h. im Definitionsbereich von P liegen. Im Folgenden erarbeiten wir die
notwendigen Vorraussetzungen, dass dem so ist. 3.1 Definition Seien Ω, Ω0 zwei nichtleere Mengen, A0 ⊂ Ω0 und X : Ω → Ω0 eine
Abbildung. Die Menge
ω ∈ Ω : X(ω) ∈ A0 =: X −1 (A0 ) =: [X ∈ A0 ]
(in Ω) heißt das Urbild von A0 bezüglich der Abbildung X; die somit definierte
Abbildung X −1 : P(Ω0 ) → P(Ω) heißt Urbildfunktion (zu unterscheiden von einer
inversen Funktion!).
Ï
In vielen Fällen untersuchen wir nicht nur einzelne Mengen sondern ganze
Mengensysteme und verwenden daher folgende Bezeichnung als Abkürzung.
Bezeichnung. Sei X : Ω → Ω0 und C 0 Mengensystem in Ω0 . So ist
n
o
X −1 (C 0 ) := X −1 (A0 ) : A0 ∈ C 0 ,
wobei X −1 (C0 ) ist ein Mengensystem in Ω ist.
Ç
Um zu klären, unter welchen Voraussetzungen [X ∈ B] messbar ist, wenn
B messbar ist, müssen wir untersuchen, wie sich die Urbildfunktion X −1 auf
σ -Algebren im Bildraum auswirkt.
3.1 Satz Sei X : Ω → Ω0 .
P
a) X −1 und Mengenoperationen
∪, , ∩, c , \ sind vertauschbar.
!
S 0
S −1 0
X (Aα )
für A0α ⊂ Ω0 , α ∈ Indexbereich I.
z.B. ist X −1
Aα =
α∈I
b) X −1 (œ) = œ;
0
0
0
α∈I
X −1 (Ω0 ) = Ω.
A ⊂ B ⊂ Ω =⇒ X −1 (A0 ) ⊂ X −1 (B 0 ).
c) Ist A0 σ -Algebra in Ω0 , so ist X −1 (A0 ) σ -Algebra in Ω.
d) C0 ⊂ P(Ω0 ) =⇒ X −1 (FΩ0 (C0 )) = FΩ (X −1 (C0 )).
21. Februar 2010 15:09
Ï
43
3-A
3
Zufallsvariablen und Verteilungen
» a)-d): Der Beweis sei als Übungsaufgabe überlassen.
«
Sei X : (Ω, A) → (Ω0 , A0 ), so ist X −1 (A0 ) stets eine σ -Algebra. Damit die
Urbilder messbarer Mengen auch tatsächlich messbar sind, müssen wir also
fordern, dass X −1 (A0 ) ⊆ A.
3.2 Definition Seien (Ω, A), (Ω0 , A0 ) Messräume. Die Abbildung X : Ω → Ω0 heißt
A-A0 -messbar [kurz: messbar; measurable], wenn gilt:
∀ A0 ∈ A0 : X −1 (A0 ) ∈ A,
d.h. X −1 (A0 ) ⊆ A,
d.h. Urbilder von messbaren Mengen in Ω0 sind messbare Mengen in Ω.
In diesem Falle verwenden wir die Schreibweise X: (Ω, A) → (Ω0 , A0 ).
Ï
Wie wir noch sehen werden, ist die Messbarkeit einer Abbildung eine wesentlich schwächere Voraussetzung als beispielsweise Stetigkeit oder gar Differenzierbarkeit. Es erfordert sogar einiges an Aufwand, eine nicht messbare
Abbildung zu konstruieren.
3.1 Bemerkung. In Satz 3.1 c) ist X −1 (A0 ) die kleinste der σ -Algebren A in Ω mit
A-A0 -Messbarkeit von X.
Ç
Wir fassen nun alle nötigen Vorraussetzungen in der folgenden Definition
zusammen.
3.3 Definition Sei (Ω, A, P ) ein W-Raum, (Ω0 , A0 ) ein Messraum. Die Abbildung
X : (Ω, A) → (Ω0 , A0 )
heißt Zufallsvariable (ZV ) auf (Ω, A, P ) [mit Zustandsraum Ω0 ] (ausführlich:
(Ω0 , A0 )-Zufallsvariable auf (Ω, A, P ); random variable).
1.) X : (Ω, A) → (R, B) heißt reelle Zufallsvariable (oft auch nur ZV).
2.) X : (Ω, A) → (R, B) heißt erweitert-reelle Zufallsvariable.
3.) X : (Ω, A) → (Rn , Bn ) heißt n-dimensionaler Zufallsvektor.
4.) X(ω) für ein ω ∈ Ω heißt eine Realisierung der Zufallsvariable X.
44
21. Februar 2010 15:09
Meßbare Abbildungen und Zufallsvariablen
Bezeichnung. B := {B, B ∪ {+∞}, B ∪ {−∞}, B ∪ {−∞, +∞} : B ∈ B}.
Ï
Zufallsvariablen ermöglichen es uns für ein Experiment lediglich einmal einen
W-Raum (Ω, A, P ) zu modellieren und dann für jeden Aspekt, der uns interessiert, eine Zufallsvariable zu konstruieren. X(ω) kann man als Messung interpretieren, X(ω) ist der von ω abhängige Messwert.
Außerdem lassen sich Zufallsvariablen verknüpfen, wir können sie addieren,
multiplizieren, hintereinanderausführen, . . .
Messbarkeit für alle Elemente der Bild-σ -Algebra nachzuweisen, kann sich
als äußert delikat herausstellen. Der folgende Satz besagt jedoch, dass es genügt sich auf ein Erzeugersystem der Bild-σ -Algebra zurückzuziehen.
3.2 Satz Seien (Ω, A), (Ω0 , A0 ) Messräume, X : Ω → Ω0 und E 0 Erzeugersystem von
A0 . Dann ist X genau dann messbar, wenn
∀ M ∈ E 0 : X −1 (M) ∈ A,
d.h. X −1 (E 0 ) ⊆ A.
Ï
» ⇒: Gilt per definitionem.
⇐: Sei X −1 (E 0 ) ⊆ A, zu zeigen ist nun, dass X −1 (A0 ) ⊆ A. Es gilt
X −1 (A0 ) = X −1 (FΩ0 (E 0 )) = FΩ (X −1 (E 0 )) ⊆ A,
denn X −1 (E 0 ) ⊆ A und FΩ (X −1 (E 0 )) ist die kleinste σ -Algebra, die X −1 (E 0 )
enthält und A ist σ -Algebra.
«
Ein einfaches aber äußerst nützliches Korollar ergibt sich, wenn wir uns auf
reellwertige messbare Abbildungen beschränken.
3.3 Korollar Sei (Ω, A) ein Messraum und X : Ω → R Abbildung. Dann sind folgen-
de Aussagen äquivalent:
(i) X A-B-messbar.
(ii) ∀ α ∈ R : [X ≤ α] ∈ A.
(iii) ∀ α ∈ R : [X < α] ∈ A.
(iv) ∀ α ∈ R : [X ≥ α] ∈ A.
21. Februar 2010 15:09
Ï
45
3-A
3
Zufallsvariablen und Verteilungen
» Wird geführt mit Satz 3.2 und der Tatsache, dass {(−∞, α] : α ∈ R} ein Er-
zeugersystem von B ist.
«
Insbesondere sind somit die Mengen [X ≤ α], [X < α], . . . für jede reelle
Zufallsvariable X messbar.
3.1 Korollar Für zwei Abbildungen X, Y : (Ω, A) → (R, B) gilt
[X < Y ],
[X ≤ Y ],
[X = Y ],
[X ≠ Y ] ∈ A,
wobei [X < Y ] := {ω ∈ Ω : X(ω) < Y (ω)}.
Ï
» Nach dem Prinzip von Archimedes gilt [X < Y ] =
dem ist
[
α∈R
[X < α < Y ] =
[
α∈Q
[X < α < Y ] =
[
α∈Q
S
α∈R [X
< α < Y ]. Außer-
[X < α] ∩ [Y ≤ α]c .
Für jedes α ∈ Q ist [X < α]∩[Y ≤ α]c messbar und die abzählbare Vereinigung
messbarer Mengen ist messbar.
Die übrigen Fälle folgen sofort, denn
[X ≤ Y ] = [X > Y ]c ∈ A,
[X = Y ] = [X ≤ Y ] ∩ [X ≥ Y ] ∈ A
[X ≠ Y ] = [X = Y ]c ∈ A.
«
3.4 Satz Sei ∅ ≠ A ⊂ Rm und A ∩ Bm := {A ∩ B : B ∈ Bm }. Jede stetige Abbildung
g : A → Rn ist A ∩ Bm -Bn -messbar.
Ï
» On , das System der offenen Mengen auf Rn , ist ein Erzeugersystem von Bn .
Nach 3.2 genügt es zu zeigen, dass
g −1 (On ) ⊆ A ∩ Bm .
g ist stetig, daher sind die Urbilder offener Mengen offene Mengen ∩ A.
«
Für Abbildungen Rm > Rn ist somit Messbarkeit eine wesentlich schwächere
Voraussetzung als Stetigkeit.
46
21. Februar 2010 15:09
Meßbare Abbildungen und Zufallsvariablen
Bsp 2 Die Dirichletfunktion f : R → R gegeben durch,
f (x) =


1,

0,
x ∈ Q,
x ∈ R \ Q,
ist messbar aber sicher nicht stetig.
3.5 Satz Seien X : (Ω1 , A1 ) → (Ω2 , A2 ), Y : (Ω2 , A2 ) → (Ω3 , A3 ). Die zusammen-
gesetzte Abbildung Y ◦ X : Ω1 → Ω3 ist dann A1 -A3 -messbar. Ï
» Offensichtlich gilt (Y ◦ X)−1 (A3 ) = X −1 ◦ Y −1 (A3 ) ⊆ A1 .
«
3.2 Korollar Für X : (Ω, A) → (Rm , Bm ) und eine stetige Abbildung g : Rm → Rn
ist g ◦ X : Ω → Rn A-Bn -messbar. Ï
Insbesondere ist die Komposition von Zufallsvariablen bzw. von Zufallsvariablen mit stetigen Funktionen wieder eine Zufallsvariable. Für eine reelle Zup
fallsvariable X sind somit auch |X|, X 2 , |X|, . . . Zufallsvariablen.
3.6 Satz Sei (Ω, A) Messraum.
a) Seien Xn : (Ω, A) → (R, B) für n = 1, . . . , m. Dann ist
Y : Ω → Rm , ω , Y (ω) := (X1 (ω)), . . . , Xm (ω)),
ω ∈ Ω,
A-Bm -messbar. Für g : (Rm , Bm ) → (R, B) ist
g◦Y :Ω →R
A-B-messbar.
b) Seien X1,2 : (Ω, A) → (R, B). Dann sind auch die Abbildungen
(a) αX1 + βX2
(α, β ∈ R)0 ,
(b) X1 X2 ,
(c)
X1
(falls existent)
X2
A-B-messbar. Ï
21. Februar 2010 15:09
47
3-A
3
Zufallsvariablen und Verteilungen
R2
α2
(α1 , α2 )
α1
Erzeuger der Bn .
3.1
»
a) Ein Erzeugersystem C von Bm ist gegeben durch
(−∞, α1 ] × . . . × (−∞, αm ],
wobei (α1 , . . . , αm ) ∈ Rm . Es genügt zu zeigen, dass Y −1 (C) ⊆ A. Nun gilt
Y −1 ((−∞, α1 ] × . . . × (−∞, αm ])
= {ω ∈ Ω : x1 (ω) ≤ α1 , . . . , Xm (ω) ≤ αm }
= [X1 ≤ α1 ] ∩ . . . ∩ [Xm ≤ αm ] ∈ A. «
b) Die Messbarkeit folgt mit Korollar 3.2 und der Stetigkeit von Summen- und
Produktabbildung (x, y) , x + y, (x, y) , x · y.
«
Eine Abbildung X : Ω → Rn ist also genau dann messbar, wenn jede Kompo-
nente Xn : Ω → R messbar ist. Insbesondere sind Produkte und Summen von
Zufallsvariablen stets messbar.
3.7 Satz Sei (Ω, A) Messraum, Xn : (Ω, A) → (R, B) für n = 1, 2, . . .. Dann sind
(a) inf Xn ,
n
(b) sup Xn ,
n
(c) lim sup Xn ,
n
48
21. Februar 2010 15:09
Meßbare Abbildungen und Zufallsvariablen
(d) lim inf Xn ,
n
(e) lim Xn (falls existent)
n
A-B-messbar.
» (1)
Ï
∀ α ∈ R : [inf Xn < α] =
messbar.
S
n∈N [Xn
< α] ∈ A, d.h. inf Xn ist A-B-
(2) sup = − inf(−Xn ) ist A-B-messbar.
(3) lim sup Xn = infn supk≥n Xk ist A-B-messbar.
(4) lim inf Xn = supn infk≥n Xk ist A-B-messbar.
(5) lim Xn = lim sup Xn , falls limn Xn existiert.
«
Da Messbarkeit eine so schwache Voraussetzung ist, ist sie auch ein sehr
stabiler Begriff, da sie auch unter Grenzwertbildung und Komposition erhalten
bleibt. Probleme treten erst bei überabzählbar vielen Operationen auf.
21. Februar 2010 15:09
49
3-A
3
Zufallsvariablen und Verteilungen
3-B Bildmaße und Verteilungen
In diesem Abschnitt werden wir eine Beziehung zwischen Zufallsvariablen und
Maßen herstellen. Jeder Zufallsvariablen
X : (Ω, A, P ) → (Ω0 , A0 )
lässt sich eindeutig ein Maß
PX : A0 → R,
A0 , PX (A) := P (X −1 (A))
das sogenannte Bildmaß zuordnen. Die Verteilungsfunktion des Bildmaßes
F (t) = PX ((−∞, t])
nennen wir auch Verteilungsfunktion von X. F lässt sich oft leichter handhaben
als X, und aus den Eigenschaften von F lassen sich Rückschlüsse auf X machen.
Analog lässt sich zu jedem Maß
µ : A0 → R
über Ω0 eine Zufallsvariable
Y : (Ω, A, Q) → (Ω0 , A0 )
finden, so dass PY = µ.
50
21. Februar 2010 15:09
Bildmaße und Verteilungen
Zunächst ist natürlich zu klären, ob das Bildmaß überhaupt ein Maß ist.
3.8 Satz Seien (Ω, A) und (Ω0 , A0 ) Messräume und X : (Ω, A) → (Ω0 , A0 ) eine
Abbildung. Sei µ ein Maß auf A. Durch
µX (A0 ) := µ(X −1 (A0 ))
= µ ω ∈ Ω : X(ω) ∈ A0 =: µ[X ∈ A0 ];
A0 ∈ A0
wird ein Maß (das sogenannte Bildmaß) µX auf A0 definiert.
Ist µ ein W-Maß auf A, dann ist µX ebenfalls ein W-Maß auf A0 .
»
Ï
(i) µX ≥ 0 ist klar.
(ii) µX (∅) = µ(X −1 (∅)) = µ(∅) = 0.
(iii) Seien A01 , A02 , . . . ∈ A0 paarweise disjunkt, so gilt

µX 
X
i≥1

A0i 


= µ X −1 
=
X
i≥1
X
i≥1

A0i 
µ X −1 (A0i ) .

= µ
X
i≥1
X
−1


(A0i )
(iv) Sei µ ein Wahrscheinlichkeitsmaß so ist
µX (Ω0 ) = µ(X −1 (Ω0 )) = µ(Ω) = 1.
«
Es genügt also, dass X messbar ist, damit PX tatsächlich ein Maß ist. Insbesondere ist für jede Zufallsvariable PX ein Maß.
3.4 Definition Sei X eine (Ω0 , A0 )-Zufallsvariable auf dem W-Raum (Ω, A, P ). Das
W-Maß PX im Bild-W-Raum (Ω0 , A0 , PX ) heißt Verteilung der Zufallsvariable X.
Sprechweise:
- Die Zufallsvariable X liegt in A0 ∈ A0 .
- X nimmt Werte in A0 ∈ A0 an mit Wahrscheinlichkeit PX (A0 ) = P [X ∈
A0 ].
- Wenn P [X ∈ A0 ] = 1, sagt man X liegt P -fast sicher (P -f.s.) in A0 .
21. Februar 2010 15:09
Ï
51
3-B
3
Zufallsvariablen und Verteilungen
Betrachten wir die Verteilung PX einer reellen Zufallsvariablen X, so besitzt
diese eine Verteilungsfunktion
F (t) = PX ((−∞, t]) = P (X −1 (−∞, t]).
Da es sich bei der Verteilungsfunktion um eine reelle Funktion handelt, kann
man oft viel leichter mit ihr Rechnen, als mit der Zufallsvariablen selbst.
Die Eigenschaften der Verteilungsfunktion charakterisieren die Zufallsvariable, man klassifiziert Zufallsvariablen daher nach Verteilung (binomial-, poisson, exponentialverteilt, . . . ).
Definition Besitzen zwei Zufallsvariaben dieselbe Verteilung (also dieselbe Verteilungsfunktion) heißen sie gleichverteilt. Ï
Bsp 3 Wir betrachten n Bernoulli-Versuche mit jeweiliger Erfolgswahrschein-
lichkeit p. Ω besteht aus der Menge der Elementarereignisse ω (= n-Tupel aus
Nullen und Einsen), A = P(Ω).
Das Wahrscheinlichkeitsmaß P auf A ist gegeben durch
P ({ω}) = p k (1 − p)n−k ,
falls ω aus k Einsen und n − k Nullen besteht.
Wir definieren uns eine Zufallsvariable X durch:
X : Ω → R,
X(ω) = Anzahl der Einsen in ω.
X ist A − B-messbar, denn X −1 (B) ⊆ P(Ω) = A.
X : (Ω, A, P ) → (R, B) gibt also die zufällige Anzahl der Erfolge in n Bernoulli-
Versuchen an.
Das Bildmaß zu X ist gegeben durch
!
n k
PX ({k}) = P [X = k] =
p (1 − p)n−k =: b(n, p; k).
k
Um das Bildmaß auf allgemeine Mengen in B fortzusetzen, setzen wir zu B ∈ B
PX (B) =
X
b(n, p; k).
k∈N0 ∩B
PX ist die sogenannte Binominalverteilung b(n, p). X ist b(n, p)-verteilt. 52
21. Februar 2010 15:09
Bildmaße und Verteilungen
3.2 Bemerkung. Seien (Ω, A, P ) ein W-Raum und (Ω0 , A0 ), (Ω00 , A00 ) Messräume.
Seien X : (Ω, A) → (Ω0 , A0 ) und Y : (Ω0 , A0 ) → (Ω00 , A00 ), dann gilt
PY ◦X = (PX )Y .
Ç
» Y ◦ X ist wieder messbar. Für A00 ∈ A00 gilt somit,
PY ◦X (A00 ) = P ((Y ◦ X)−1 (A00 )) = P (X −1 (Y −1 (A00 )))
= PX (Y −1 (A00 ) = (PX )Y (A00 ).
«
Produktmessräume
Betrachten wir die Vektorräume Rn und Rm , so können wir diese durch das
karthesische Produkt verknüpfen zu V = Rn × Rm . V ist dann wieder ein Vektorraum und jedes Element v ∈ V lässt sich darstellen als v = (x, y), wobei
x ∈ Rn und y ∈ Rm .
Eine solche Verknüpfung lässt sich auch für Messräume definieren.
3.5 Definition Seien (Ωi , Ai ) Messräume für i = 1, . . . , n. Die Produkt-σ -Algebra
Nn
i=1
Ai wird definiert als die von dem Mengensystem


n
Y

Ai : Ai ∈ Ai , i = 1, . . . , n


i=1
erzeugte σ -Algebra.
!
n
Nn
Q
Nn
(Ω
,
A
)
:=
Ω
,
A
i
i
i
i heißt Produkt-Messraum.
i=1
i=1
i=1
Ï
Man bildet also das karthesische Produkt der Ωi und die Produkt-σ -Algebra
Nn
i=1 (Ωi , Ai ).
der Ai und erhält so wieder einen Messraum
N
Bsp 4 (Rn × Rm , Bn
Bm ) = (Rn+m , Bn+m ).
3.3 Bemerkung. Sei Xi : (Ω, A) → (Ωi , Ai ) messbar für i = 1, . . . , n. Die Abbildung
X:Ω→
n
Y
Ωi
i=1
mit
X(ω) := (X1 (ω), . . . , Xn (ω)),
Nn
ist dann A- i=1 Ai -messbar. Ç
21. Februar 2010 15:09
ω∈Ω
53
3-B
3
Zufallsvariablen und Verteilungen
» Betrachte ein Erzeugendensystem von


n
Y

C=
Ai : Ai ∈ Ai .


Nn
i=1
Ai , z.B. die Quader
i=1
Der Beweis wird dann wie im eindimensionalen Fall geführt.
«
Insbesondere ist eine Abbildung
X : Ω → Rn ,
ω , (x1 , . . . , xn )
genau dann messbar, wenn es jede Komponete Xi : Ω → R ist.
3.4 Bemerkung. Seien (Ωi , Ai ) Messräume für i = 1, . . . , n. Ein W-Maß auf
ist eindeutig festgelegt durch seine Werte auf dem Mengensystem


n
Y

Ai : Ai ∈ Ai , i = 1, . . . , n . Ç


Nn
i=1
Ai
i=1
» Fortsetzungs- und Eindeutigkeitssatz 1.4 mit der σ -Algebra gegeben durch
die endliche Summe von Quadern der Form
n
Y
Ai ,
Ai ∈ Ai .
i=1
«
3.6 Definition Seien Xi : (Ω, A, P ) → (Ωi , Ai ) Zufallsvariablen für i = 1, . . . , n und
X := (X1 , . . . , Xn ) Zufallsvariable auf (Ω, A, P ).
1.) Die Verteilung PX der Zufallsvariablen X - erklärt durch
PX (A) := P [(X1 , . . . , Xn ) ∈ A]
für A ∈
Nn
i=1
Ai oder auch nur für A =
n
Q
i=1
Ai (Ai ∈ Ai , i = 1, . . . , n) -
heißt die gemeinsame Verteilung der Zufallsvariablen Xi .
2.) Die Verteilungen PXi - erklärt durch
PXi (Ai ) := P [Xi ∈ Ai ]
= P [X ∈ Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωn ]
für Ai ∈ Ai - heißen Randverteilungen von PX
54
(i = 1, . . . , n).
Ï
21. Februar 2010 15:09
Bildmaße und Verteilungen
Wichtiger Spezialfall. (Ωi , Ai ) = (R, B) für i = 1, . . . , n. Dann sind die Xi reelle
Zufallsvariablen und X ein Zufallsvektor.
Ç
3.5 Bemerkungen. Seien die Bezeichnungen wie in Definition 3.6.
a. Die Verteilung PX ist ohne Zusatzvoraussetzung durch ihre Randverteilungen nicht eindeutig festgelegt.
b. Die Projektionsabbildung
πi :
n
Y
k=1
Ωk → Ωi ,
(ω1 , . . . , ωn ) → ωi
ist messbar und somit gilt
PXi = (PX )πi ,
i = 1, . . . , n.
Ç
Aufgrund der Messbarkeit der Projektionen sind die Randverteilungen einer
gemeinsamen Verteilung eindeutig bestimmt. Die Umkehrung, dass die Randverteilungen auch die gemeinsame Verteilung eindeutig bestimmen ist im Allgemeinen falsch. Wir werden uns in Kapitel 5 ausführlicher damit beschäftigen.
3.6 Bemerkungen.
a. Sei Q ein W-Maß auf (Rn , Bn ). Dann existieren reelle Zu-
fallsvariablen X1 , . . . , Xn auf einem geeigneten W-Raum (Ω, A, P ) so, dass
ihre gemeinsame Verteilung mit Q übereinstimmt:
Auf dem W-Raum (Ω, A, P ) := (Rn , Bn , Q), wird Xi : Ω → R definiert als die
Projektionsabbildung
(x1 , . . . , xn ) → xi
(i = 1, . . . , n);
hierbei ist also X := (X1 , . . . , Xn ) die auf Rn definierte identische Abbildung.
b. Wir können die Aussage aus
! a) unmittelbar auf einen beliebigen Produktn
Q
Nn
n
Meßraum
Ωi ,
i=1 Ai statt (R , Bn ) verallgemeinern.
i=1
c. Sonderfall zu b): Ist (Ω, A, Q) ein W-Raum, X : Ω → Ω die identische Abbildung, so gilt PX = Q. Jedes W-Maß lässt sich somit als eine Verteilung
auffassen (und - definitionsgemäß - umgekehrt). Ç
21. Februar 2010 15:09
55
3-B
3
Zufallsvariablen und Verteilungen
Dieser Zusammenhang zwischen W-Maß und Verteilung hat eine große Bedeutung, wie wir mit der Einführung des Maßintegrals im folgenden Kapitel
sehen werden.
56
21. Februar 2010 15:09
4
Erwartungswerte und Dichten
4 Erwartungswerte und Dichten
4-A Erwartungswert, Varianz und Lebesgue Integral
Gegeben seien ein W-Raum (Ω, A, P ) und eine reelle Zufallsvariable X auf (Ω, A, P )
mit Verteilung PX (auf B) und Verteilungsfunktion F : R → R.
Der Erwartungswert EX der Zufallsvariable X gibt einen “mittleren Wert” von
X bezüglich P an.
Bsp 1 Wir betrachten einen fairen Würfel. X gebe die zufällige Augenzahl an.
Den Erwartungswert von X erhalten wir, indem wir die möglichen Werte von X
mit ihrer Wahrscheinlichkeit multiplizieren und aufsummieren,
EX = 1 ·
1
1
1
+ 2 · + . . . + 6 · = 3.5.
6
6
6
Für diskrete Zufallsvariablen, das sind Zufallsvariablen deren Verteilung auf N0
konzentriert ist, erhalten wir somit,
EX =
∞
X
k=1
kpk ,
mit pk = P [X = k]. Diese Definition lässt sich allerdings nicht auf den Fall einer Zufallsvariablen mit einer auf einem Kontinuum konzentrierten Verteilung übertragen. Um
diesen Fall einzuschließen, gehen wir von der diskreten Summe zum kontinuierlichen Integral über, wir wählen also Integralansatz, um den Erwartungswert
einzuführen.
58
21. Februar 2010 15:09
Erwartungswert, Varianz und Lebesgue Integral
Erwartungswert mittels Riemann-Stieltjes-Integral
Bezeichnungen.


X(ω), falls X(ω) > 0,
+
X (ω) :=
0,

sonst
X − (ω) :=


−X(ω),

0,
falls X(ω) < 0,
sonst.
Wir wählen zunächst den naiven Ansatz, den Erwartungswert von X als Integral über den Wertebereich von X zu definieren.
1. Schritt: Sei zunächst X positiv (X ≥ 0), d.h. PX (R+ ) = 1 und F (x) = 0 für
x < 0. Wir ersetzen nun die Summe aus dem Beispiel durch ein Integral,
Z
Z
Z
EX :=
x PX ( dx) :=
x dF (x) := lim
x dF (x),
R+
a→∞
R+
[0,a]
wobei es sich hier um ein Riemann-Stieltjes-Integral von x bezüglich F handelt.
Da der Integrand x auf R+ positiv, gilt 0 ≤ EX ≤ ∞.
Für F (x) = x entspricht das Riemann-Stieltjes-Integral dem gewöhnlichen
Riemann-Integral,
Z
Z∞
x dx.
x dF (x) =
0
R+
Allgemeiner entspricht das Riemann-Stieltjes-Integral für stetig differenzierbares F dem Riemann-Integral,
Z
Z∞
x dF (x) =
x F 0 (x) dx.
0
R+
2. Schritt: Sei X beliebig und EX + , EX − nicht beide ∞, so ist der Erwartungs-
wert von X definiert als
Z
EX :=
x PX ( dx) := EX + − EX − .
R
Ï
4.1 Erster Versuch des Erwartungswertes EX von X als ein Integral auf dem Wer-
tebereich von X:
Z
EX :=
x PX ( dx).
R
21. Februar 2010 15:09
Ï
59
4-A
4
Erwartungswerte und Dichten
Für den Erwartungswert ist diese Definition ausreichend und historisch ist
man auch genau so vorgegangen. Wir integrieren hier jedoch lediglich die stetige Funktion x , x. In der Wahrscheinlichkeitstheorie arbeitet man aber meist
mit unstetigen Funktionen und für diese ist das Riemann-Stieltjes-Integral nicht
ausreichend.
Erwartungswert mittels Maß-Integral
Wir benötigen einen allgemeineren Integrationsbegriff, der es uns erlaubt, lediglich messbare (also insbesondere auch unstetige) Funktionen zu integrieren.
Dazu machen wir einen neuen Integralansatz, wobei wir diesmal über den
Definitionsbereich von X also Ω integrieren.
Sei also X : (Ω, A) → (R, B) messbar.
0. Schritt: Sei X positiv und nehme nur endlich viele Werte an. Dann existiert
eine Darstellung
X=
N
X
αi 1Ai ,
i=1
αi ∈ R+ ,
mit Ai paarweise disjunkt und
Ai ∈ A
PN
i=1
Ai = Ω.
1A bezeichnet die sogenannte Indikatorfunktion einer Menge A,


1, x ∈ A,
1A (x) :=
0, x ∉ A.

Somit können wir den Erwartungswert definieren als
EX :=
Z
Ω
X dP :=
N
X
αi P (Ai ).
i=1
Diese Definition schließt z.B. den Fall des Würfels ein, jedoch sind wir beispielsweise noch nicht in der Lage, den Erwartungswert eines zufälligen Temperaturwertes anzugeben.
1. Schritt: Sei nun X lediglich positiv. In der Maßtheorie wird gezeigt, dass
dann eine Folge von Zufallsvariablen Xn ≥ 0 existiert, wobei Xn jeweils nur
endlich viele Werte annimmt und die Folge (Xn ) monoton gegen X konvergiert,
Xn (ω) ↑ X(ω) für n → ∞ und ω ∈ Ω.
60
21. Februar 2010 15:09
Erwartungswert, Varianz und Lebesgue Integral
Somit können wir den Erwartungswert von X definieren als
Z
EX :=
X dP := lim EXn ,
n→∞
Ω
wobei der (uneigentliche) Grenzwert existiert, da die EXn monoton wachsen.
2. Schritt: Seien EX + , EX − nicht beide ∞.
Z
EX :=
X dP := EX + − EX − .
Ω
Somit erhalten wir die endgültige Definition des Erwartungswerts.
4.2 Definition des Erwartungswertes EX von X als ein Integral auf dem Definitions-
bereich von X:
Z
Z
EX :=
X(ω)P ( dω ) =:
X dP .
Ω
Ω
4.1 Bemerkungen zu Definition 4.2
Ï
a. Die einzelnen Schritte - insbesondere bei
der 2. Definition über das Maß-Interal - sind sinnvoll. Für Interessierte werden die Details in der Maßtheorie, einem Teilgebiet der Analysis, behandelt.
b. Die beiden Definitionen sind äquivalent.
c. Existiert das Integral
Z
x PX ( dx)
R
in 1. Definition, so ändert es seinen Wert nicht, wenn man es gemäß 2.
Definition erklärt. Insbesondere gilt dann,
Z
Z
Z
X dP =
x PX ( dx) =
x dF (x).
Ω
R
d. Der Begriff
R
Ω
R
X dP in Definition 4.2 lässt sich unmittelbar verallgemeinern
auf den Fall eines Maßraumes (Ω, A, µ) (anstatt eines W-Raumes) und lie-
fert
Z
Ω
X(ω) µ( dω ) =:
Z
Ω
X dµ.
Wichtige Spezialfälle:
21. Februar 2010 15:09
61
4-A
4
Erwartungswerte und Dichten
1.) Sei (Ω, A) = (Rn , Bn )oder etwas allgemeiner Ω = B mit B ∈ Bn ,
A = B ∩ Bn und µ = λ Restriktion des L-B-Maß(es) auf A.
A
Z
Rn
X dλ
bzw.
Z
B
X dµ
wird als Lebesgue–Integral bezeichnet. Im Falle n = 1 schreiben wir
auch
Z
R
X(x) dx
Z
bzw.
B
X(x) dx.
2.) Sei (Ω, A) = (R, B) und H : R → R eine maßdefinierende Funktion
mit zugehörigem Maß µ, d.h.
H(b) − H(a) = µ((a, b]),
−∞ < a < b < ∞,
so schreiben wir
Z
Z
Z
X(x) dH(x) :=
X(x) H( dx) :=
X dµ
R
R
R
Die Verallgemeinerung auf Ω = B ∈ B folgt analog.
3.) Sei (Ω, A) = (N0 , P(N0 )) und µ das Zählmaß, d.h.
µ(A) = Anzahl der Elemente in A,
so gilt für eine Funktion f : N0 → R,
Z
N0
f dµ =
∞
X
f (k).
k=0
Reihen sind also lediglich ein Spezialfall des Maß-Integrals.
e. Sei X eine erweitert-reelle Zufallsvariable auf einem W-Raum (Ω, A, P ) mit
P [|X| = ∞] = 0 und


X(ω),
Y (ω) :=

0
falls |X(ω)| < ∞, ω ∈ Ω,
sonst,
so definiert man EX := EY , falls EX existiert.
62
Ç
21. Februar 2010 15:09
Erwartungswert, Varianz und Lebesgue Integral
Für das Maß- bzw. spezieller das Lebesgue-Integral existieren zahlreiche sehr
allgemeine Sätze und elegante Beweisstrategien, die uns für das Riemann-StieltjesIntegral nicht zur Verfügung stehen, weshalb wir im Folgenden fast ausschließlich von dieser Definition ausgehen werden.
Wir haben bisher nicht geklärt, wie man ein Maß- bzw. ein Lebesgue-Integral
konkret berechnet, wenn X nicht nur endlich viele Werte annimmt. Ist die Verteilungsfunktion stetig differenzierbar, so gilt
Z
Ω
X dP =
Z
R
x F 0 (x) dx,
wobei wir letzteres Integral durchaus als Lebesgue-Integral mit all seinen angenehmen Eigenschaften auffassen können, wir können damit aber auch rechnen
wie mit dem Riemann-Integral (Substitution, partielle Integration, . . . ). Für allgemeineres F müssen wir uns darauf beschränken, abstrakt mit dem Integral
arbeiten zu können.
4.2 Bemerkung. Sei (Ω, A, P ) ein W-Raum. Für A ∈ A gilt P (A) = E 1A .
Ç
4.3 Definition Existiert für die reelle Zufallsvariable X auf dem W-Raum (Ω, A, P )
ein endlicher Erwartungswert EX, so heißt X integrierbar (bezüglich P ). Analog
R
für Ω X dµ in Bemerkung 4.1 d.. Ï
Ist X eine positive Zufallsvariable, so können wir den Erwartungswert direkt
mit Hilfe der Verteilungsfunktion berechnen.
4.1 Lemma Für eine reelle Zufallsvariable X ≥ 0 mit Verteilungsfunktion F gilt
EX =
Z∞
0
(1 − F (x)) dx.
Ï
» Wir verwenden Definition 4.1 mithilfe des R-S-Integrals,
EX =
Z
R+
x dF (x) = lim
a→∞
Z
[0,a]
x dF (x)
Za
Za
a
(∗)
lim x F (x)
−
1F (x) dx = lim a −
F (x) dx
x=0
a→∞
a→∞
0
0
Z a
Z∞
= lim
(1 − F (x)) dx =
(1 − F (x)) dx.
part.int.
=
a→∞
21. Februar 2010 15:09
0
0
63
4-A
4
Erwartungswerte und Dichten
1.) Zu (*). Sei EX < ∞
Z
Z
∞ > EX =
x dF (x) ≥
≥a
2.) Außerdem:
Z
[a,∞]
da
R
[0,a]
Z
R+
(a,∞)
[a,∞]
x dF (x) ≥
Z
a dF (x)
[a,∞]
dF (x) = a(1 − F (a)) ≥ 0.
a→∞
x dF (x) → 0,
x dF (x) →
R
R+
x dF (x), also
a→∞
a(1 − F (a)) → 0.
Der Fall EX = ∞ wird gesonderd behandelt.
«
Eigenschaften des Erwartungswerts
Der Erwartungswert einer reellen Zufallsvariablen X,
EX =
Z
Ω
X dP =
Z
R
x dPX ,
ist ein spezielles Maß-Integral. Daher übertragen sich alle Eigenschaften dieses
Integrals auf den Erwartungswert.
4.1 Satz Sei X eine reelle Zufallsvariable auf einem W-Raum (Ω, A, P ).
a) X integrierbar a X + und X − integrierbar a |X| integrierbar.
b) Existiert eine reelle integrierbare Zufallsvariable Y ≥ 0 mit
|X| ≤ Y P-f.s., so ist X integrierbar.
c) Ist X integrierbar und existiert eine reelle Zufallsvariable Y mit Y = X
P-f.s., dann existiert EY = EX.
64
Ï
21. Februar 2010 15:09
Erwartungswert, Varianz und Lebesgue Integral
» Der Beweis wird in der Maßtheorie geführt.
«
Im Gegensatz zum klassischen uneigentlichen Riemann-Integral ist es beim
Maß-Integral nicht möglich, dass sich positive und negative Anteile gegenseitig
eliminieren und so eine Funktion deren Positiv- oder Negativanteil alleine nicht
integrierbar sind, als ganzes integrierbar wird. Es gibt also durchaus Funktionen die (uneigentlich) Riemann- aber nicht Lebesgue-integrierbar sind. Für “viel
mehr Funktionen” gilt jedoch das Gegenteil.
Beim Riemann-Integral ändert eine Abänderung einer Funktion an endlich
vielen Punkten den Integralwert nicht, beim Lebesgue-Integral hingegen ändert
eine Abänderung einer Zufallsvariabeln auf einer Menge vom Maß Null ihren
Erwartungswert nicht.
Bsp 2 Die Dirichletfunktion f : R → R mit
f (x) =


1,

0,
x ∈ Q,
x ∈ R \ Q.
ist nicht Riemann- aber Lebesgue-integirerbar. Das Lebesgue-Integral lässt sich
auch sehr leicht berechnen, denn f ≥ 0, also gilt nach Definition
Z
R
f (x) dx = 1 · λ(Q) + 0 · λ(R \ Q) = 1 · λ(Q),
| {z }
denn Q ist abzählbare Teilmenge von R.
=0
Ferner ist der Erwartungswert linear, monoton und erfüllt die Dreiecksungleichung.
4.2 Satz Seien X, Y reelle integrierbare Zufallsvariablen auf einem W-Raum (Ω, A, P ).
a) Es existiert E(X + Y ) = EX + EY .
b) Es existiert E(αX) = αEX für α ∈ R.
c) X ≥ Y ⇒ EX ≥ EY .
d) |EX| ≤ E|X|.
21. Februar 2010 15:09
65
4-A
4
Erwartungswerte und Dichten
e) X ≥ 0, EX = 0 ⇒ X = 0 P-f.s.
Ï
» Beweisidee. Wir beweisen lediglich die erste Behauptung, der Rest folgt analog. Dazu bedienen wir uns dem Standardtrick für Beweise in der Maßtheorie.
1. Schritt. Reduktion auf X ≥ 0 und Y ≥ 0, dann Reduktion auf einfache
Funktionen
X=
mit
n
P
i=1
n
X
αi 1Ai ,
Y =
i=1
Ai = Ω =
X=
X
m
P
j=1
⇒X + Y =
X
i,j
βj 1Bj
j=1
Bj . Sei Cij = Ai ∩ Bj ∈ A, so gilt
γij 1Cij ,
i,j
m
X
Y =
X
δij 1Cij ,
i,j
(γij + δij )1Cij .
2. Schritt. Nun seien X ≥ 0 und Y ≥ 0 beliebig und Xn , Yn Folgen von einfa-
chen Funktionen mit Xn ↑ X, Yn ↑ Y und Xn + Yn = Zn ↑ Z = X + Y .
Für jedes n ∈ N sind Xn und Yn einfach und damit E linear. Es gilt also
E(Xn + Yn ) = EXn + EYn ≤ EX + EY
sowie
EXn + EYn = E(Xn + Yn ) = EZn ≤ EZ = E(X + Y ).
Nach dem Grenzübergang für n → ∞ erhalten wir somit
EX + EY = E(X + Y ).
3. Schritt. Für X und Y integrierbar betrachten wir
X = X+ − X− ,
Y = Y+ − Y− .
Nach dem eben gezeigten, können wir die Linearität von E für Positiv und Negativteil verwenden.
EX + EY = (EX+ EY+ ) − (EX− + EY− ) = E(X+ + Y+ ) − E(X− + Y− )
= E(X + Y ). «
66
21. Februar 2010 15:09
Erwartungswert, Varianz und Lebesgue Integral
Bsp 3 Wir betrachten n Bernoulli-Versuche mit jeweiliger Erfolgswahrschein-
lichkeit p. Die Zufallsvariable Xi nehme Werte 0 bzw. 1 an, falls im i-ten Versuch ein Misserfolg bzw. Erfolg aufgetreten ist (i = 1, . . . , n).
X = X1 + . . . + Xn gibt die Anzahl der Erfolge an.
!
EX = EX1 + . . . EXn = nEX1 = np,
da alle Xi dieselbe Verteilungsfunktion besitzen.
Der Erwartungswert einer b(n, p)-verteilten Zufallsvariablen ist also np. Ein
alternativer (evtl. ungeschickterer) Rechenweg ist
!
n k
EX =
kP [X = k] =
k
p (1 − p)n−k = . . . = np.
k
k=0
k=0
n
X
n
X
Für das Riemann-Integral ist für die Vertauschbarkeit von Integration und
Grenzwertbildung
lim
n→∞
Z
[a,b]
fn (x) dx =
Z
lim fn (x) dx
[a,b] n→∞
im Allgemeinen die gleichmäßige Konvergenz der fn erforderlich. Ein entscheidender Vorteil des Lebesgue-Integrals ist die Existenz von Konvergenzsätzen,
die wesentlich schwächere Voraussetzungen für die Vertauschbarkeit haben.
4.3 Satz von der monotonen Konvergenz (B. Levi) Für reelle Zufallsvariablen Xn
auf (Ω, A, P ) mit Xn ≥ 0 (n ∈ N), Xn ↑ X (n → ∞) existiert
EX = lim EXn .
n
Hierbei EX := ∞, falls P [X = ∞] > 0. Entsprechend für Reihen von nichtnegatiR
ven Zufallsvariablen. – Analog für Ω Xn dµ gemäß Bemerkung 4.1d. Ï
» Die Messbarkeit von X folgt aus Satz 3.7. Die Xn sind monoton wachsend
R
und positiv, also ist ( Ω Xn dP )n monotone Folge, somit existiert ihr Grenzwert.
Setze
c := lim
n→∞
21. Februar 2010 15:09
Z
Ω
Xn dP ≤
Z
Ω
X dP .
67
4-A
4
Erwartungswerte und Dichten
Es genügt nun für jede einfache Funktion Y mit Y ≤ X zu zeigen, dass
Z
c≥
Y dP .
Ω
Sei dazu
Y =
m
X
i=1
αi 1[Y =αi ] ,
αi ≥ 0.
Sei δ < 1 beliebig aber fest und
An := [Xn ≥ δY ].
Wegen Xn ↑ X folgt An ↑ Ω also auch An ∩ [Y = αj ] ↑ [Y = αj ] für j = 1, . . . , m.
δ
Z
Ω
Y dP = δ
m
X
j=1
= lim
n→∞
≤ lim
n→∞
αj P [Y = αj ] = δ
m
X
j=1
Z
Ω
m
X
j=1
αj lim P (An ∩ [Y = αj ])
n→∞
δαj P (An ∩ [Y = αj ]) = lim
n→∞
Xn dP = c.
Z
Ω
δY 1An dP
| {z }
≤Xn
Da die Ungleichung für jedes δ < 1 gilt, folgt
Z
Y dP ≤ c. «
Ω
4-B Dichtefunktion und Zähldichte
4.4 Definition Sei X ein n-dimensionaler Zufallsvektor mit Verteilung PX auf Bn
und Verteilungsfunktion F : Rn → R.
1.) Nimmt X (eventuell nach Vernachlässigung einer P -Nullmenge in Ω) höchstens abzählbar viele Werte an, so ist PX eine sogenannte diskrete W-Verteilung.
Ist X eine reelle Zufallsvariable und PX auf N0 konzentriert, so heißt die
Folge (pk )k mit
pk := PX ({k}) = P [X = k],
(wobei
68
P∞
k=0
k ∈ N0 ,
pk = 1) Zähldichte von X bzw. PX .
21. Februar 2010 15:09
Dichtefunktion und Zähldichte
2.) Gibt es eine Funktion
f : (Rn , Bn ) → (R+ , B+ )
für die das Lebesgue-Integral
Z
Qn
i=1 (−∞,xi ]
f dλ
existiert und mit

PX 
n
Y

(−∞, xi ] = F (x1 , . . . , xn ),
i=1
(x1 , . . . , xn ) ∈ Rn
übereinstimmt, so heißt f Dichte(funktion) von X bzw. PX bzw. F .
PX und F heißen totalstetig, falls sie eine Dichtefunktion besitzen. Ï
4.3 Bemerkungen.
a. Eine totalstetige Verteilungsfunktion ist stetig.
b. Besitzt die n-dimensionale Verteilungsfunktion
F : Rn → R
eine Dichtefunktion
f : Rn → R+ ,
so existiert L-f.ü.
∂nF
,
∂x1 . . . ∂xn
und L-f.ü., d.h. insbesondere an den Stetigkeitsstellen von f , gilt
∂nF
= f.
∂x1 . . . ∂xn
c. Ein uneigentliches Riemann-Integral einer nichtnegativen Bn -B-messbaren
Funktion lässt sich als Lebesgue-Integral deuten. Ç
21. Februar 2010 15:09
69
4-B
4
Erwartungswerte und Dichten
Sind Dichtefunktion bzw. Zähldichte bekannt, so können wir den abstrakten
Ausdruck PX durch ein Integral über eine konkrete Funktion bzw. durch eine
Reihe ersetzen,
Z
PX (A) =
A
X
f dλ bzw.
pk .
k∈N0 ∩A
Zufallsvariablen mit Dichtefunktion bzw. Zähldichte, sind für uns somit sehr
“zugänglich”. Es lassen sich jedoch nicht für alle Zufallsvariablen Dichten finden, denn dazu müsste jede Verteilungsfunktion L-f.ü. differenzierbar und
Differentiation mit der Integration über Rn vertauschbar sein.
4.4 Satz Sei X eine reelle Zufallsvariable mit Verteilung PX .
a) Ist PX auf N0 konzentriert mit Zähldichte (pk ), dann gilt
EX =
∞
X
k pk .
k=1
b) Besitzt X eine Dichtefunktion f : R → R+ , so existiert das LebesgueIntegral
Z
R
xf (x) dx =:
Z
R
xf (x) λ( dx)
genau dann, wenn EX existiert, und es gilt hierbei
EX =
Z
R
xf (x) dx.
Ï
» Beweisidee zu Satz 4.4a) Für den Erwartungswert gilt nach 4.2,
EX =
Z
Ω
X dP .
X nimmt höchstens abzählbar viele verschiedene Werte in N0 an, wir können
das Integral also schreiben als,
Z
70
Ω
X dP = lim
n→∞
n
X
k=0
k · P [X = k] =
∞
X
k pk .
k=0
21. Februar 2010 15:09
Dichtefunktion und Zähldichte
Spezialfall zu 4.4b). Sei X ≥ 0 und F stetig differenzierbar auf (0, ∞). Wir verwenden die Definition des Erwartungswerts als Riemann-Stieltjes-Integral
Z
Z
Z
!
EX = lim
t dF (t) = lim
tF 0 (t) dt =
xf (x) dx.
x→∞
x→∞
[0,x]
[0,x]
[0,∞]
(!) gilt, da F stetig differenzierbar. Da f nur auf der positiven rellen Achse Werte
≠ 0 annimmt, gilt somit
Z
EX =
xf (x) dx.
R
Mit Hilfe des Transformationssatzes werden wir später einen vollständigen Beweis geben können.
«
Für eine Zufallsvariable X auf (Ω, A, P ) mit Dichtefunktion bzw. Zähldich-
te haben wir mit Satz 4.4 eine konkrete Möglichkeit den Erwartungswert zu
berechnen. Wir betrachten dazu nun einige Beispiele.
Bsp 4 Sei X b(n, p)-verteilt, d.h. X hat die Zähldichte
pk = P [X = k] =
!
n k
p (1 − p)n−k ,
k
(k = 0, 1, . . . , n)
mit n ∈ N und p ∈ [0, 1]. Für den Erwartungswert gilt EX = np.
Bsp 5 Sei X π (λ)-verteilt, d.h.
pk = P [X = k] = e−λ
λk
,
k!
k ∈ N0 ,
mit λ > 0, so gilt EX = λ.
» Zu berechnen ist der Wert folgender Reihe,
EX =
∞
X
ke−λ
k=0
λk
.
k!
Wir verwenden dazu folgende Hilfsunktion,
g(s) :=
∞
X
k=0
21. Februar 2010 15:09
e−λ
λk k
s = e−λ eλs ,
k!
s ∈ [0, 1].
71
4-B
4
Erwartungswerte und Dichten
g bezeichnet man auch als erzeugende Funktion der Poisson-Verteilung. Wir
werden in Kapitel 6 genauer darauf eingehen. Die Reihe konvergiert auf [0, 1]
gleichmäßig, wir können also gliedweise differenzieren und erhalten somit,
X
g 0 (s) =
ke−λ
k=1
λk k−1
s
= λe−λ eλs .
k!
Setzen wir s = 1, so erhalten wir
EX =
X
ke−λ
k=1
λk
= g 0 (1) = λ.
k!
« Bsp 6 Sei X N(a, σ 2 )-verteilt, d.h. X besitzt die Dichtefunktion f : R → R+ mit
f (x) := √
2
1
− (x−a)
e 2σ 2 ,
2π σ
a ∈ R,
σ > 0.
Es gilt EX = a.
» Wir wenden Satz 4.4b) an und erhalten,
Z
Z
Z
EX =
xf (x) dx = (x − a)f (x) dx +
af (x) dx.
R
R
R
f (x) ist symmetrisch bezüglich x = a, d.h. der linke Integrand ist asymmetrisch bezüglich x = a und damit verschwindet das Integral.
Z
⇒ EX = a
f (x) dx = a,
R
da f Dichte.
«
Bsp 7 Sei X exp(λ) verteilt mit λ > 0, so besitzt X die Dichtefunktion f mit,


0,
f (x) =
λe−λx ,

Es gilt EX =
x < 0,
x ≥ 0.
1
λ.
» Eine Anwendung von Satz 4.4b) ergibt,
Z
Z∞
EX =
xf (x) dx =
xλe−λx dx
R
∞
1
1
= − e−λx = .
0
λ
λ
72
0
«
part.int.
=
∞ Z ∞
−xe−λx +
e−λx dx
0
0
21. Februar 2010 15:09
Dichtefunktion und Zähldichte
Bsp 8 X sei auf [a, b] gleichverteilt, d.h. mit Dichtefunktion f : R → R+ ,
f (x) =
Dann ist EX =


0,


x ∉ [a, b],
1
b−a ,
x ∈ [a, b].
a+b
2 .
» f ist eine Rechteckfunktion, ihr Erwartungswert ist die Intervallmitte.
« Der Transformationssatz
4.5 Transformationssatz Sei X : (Ω, A, P ) → R eine reelle Zufallsvariable mit Ver-
teilung PX und Verteilungsfunktion F , sowie
g : (R, B) → (R, B).
E(g ◦ X) existiert genau dann, wenn
R
R
g dPX existiert, und es gilt hierbei nach
dem Transformationssatz für Integrale
Z
Z
Z
E(g ◦ X) =
g dPX =:
g dF =:
g(x) dF (x).
R
R
R
Spezialfälle sind:

P

 k≥0 g(k)pk ,
E(g ◦ X) = R

 R g(x)f (x) dλ(x),
unter der Voraussetzung von Satz 4.4a,
unter der Voraussetzung von Satz 4.4b.
Insbesondere gilt (mit g = 1A , wobei A ∈ B)
P [X ∈ A] = PX (A)

P

 k∈A∩N pk
0
= R
R

 R 1A (x)f (x) dλ(x) =: A f (x) dx
u. V. von Satz 4.4a
u. V. von Satz 4.4b.
Ï
» Wir führen den Beweis nach der Standardprozedur.
0. Schritt: Beweis der Behauptung für g = 1A und A ∈ B.
Z
Z
Z
1A (X) dP .
1A (x) dPX = PX (A) = P (X −1 (A)) =
X −1 (A) dP =
Ω
R
Ω
1. Schritt: g ≥ 0, wobei g Linearkombination einfacher Funktionen.
2. Schritt: g ≥ 0. Verwende den Satz von der monotonen Konvergenz.
3. Schritt: g = g + − g − .
21. Februar 2010 15:09
«
73
4-B
4
Erwartungswerte und Dichten
Wir können somit einen vollständigen Beweis von 4.4 b) geben.
» Sei X reelle Zufallsvariable und g = id, d.h. g(x) = x, so gilt
Z
Z
EX = E(g ◦ X) =
g dPX =
id dPX .
R
R
Die Verteilungsfunktion F erzeugt das Maß PX , somit gilt
Z
Z
id dPX =
x dF (x).
R
R
Besitzt X die Dichte f , d.h. F 0 = f L-f.ü., so gilt
Z
Z
x dF (x) =
xf (x) dλ(x). «
R
R
Wir betrachten einige Beispiele zu Satz 4.5
Bsp 9 Ein Schütze trifft einen Punkt des Intervalls [−1, 1] gemäß einer Gleich-
verteilung und erhält den Gewinn √1 , wenn er den Punkt x trifft, wobei wir
1
0
|x|
:= ∞ gewichten.
Gesucht ist der mittlere Gewinn des Schützen. Dazu konstruieren wir eine
Zufallsvariable X, die den zufällig getroffenen Punkt angibt. X ist nach Voraussetzung gleichverteilt, d.h. die zugehörige Dichte gegeben durch,


 1 , x ∈ [−1, 1],
2
f (x) =

0, sonst.
f (x)
f
x
Dichtefunktion zu X.
4.1
Den mittleren Gewinn erhalten wir durch den Erwartungswert,
Z
Z
1
1
1
1
p
p
E(Gewinn) = E √ =
f (x) dx =
dx
2 [−1,1] |x|
X
R |x|
Z1
√ 1
1
√ dx = 2 x =
= 2. x
0
74
0
21. Februar 2010 15:09
Dichtefunktion und Zähldichte
Bsp 10 Ein Punkt wird rein zufällig aus der Einheitskreisscheibe K von 0 ausge-
wählt. Wie groß ist der zufällige Abstand dieses Punktes von 0?
Um diese Fragestellung zu modellieren, konstruieren wir einen zweidimensionalen Zufallsvektor X = (X1 , X2 ), der auf K gleichverteilt ist. Die Dichtefunk-
tion f : R2 → R+ ist dann gegeben durch,
f (x1 , x2 ) =


1,
π

0,
(x1 , x2 ) ∈ K,
sonst.
q
Gesucht ist nun E X12 + X22 . Man arbeitet überlicherweise nicht auf Ω.
1. Weg (üblich). Anwendung des Transformationssatzes,
Z
q
4.5
E X12 + X22 =
R2
q
x12 + x22 f (x1 , x2 ) dλ(x1 , x2 )
pol.koord.
=
1
π
Z1
2π
Z
ϕ=0 r =0
r · r dλ(r , ϕ) =
2. Weg. Betrachte die Zufallsvariable Y =
Verteilungsfunktion
F (y) := P [Y ≤ y] =



0,



1
πy2

π


1,
q
2
=y ,
2
.
3
X12 + X22 mit der zugehörigen
falls y ≤ 0,
falls y ∈ (0, 1),
falls y ≥ 1.
F ist bis auf den Punkt y = 1 stetig differenzierbar, es gilt also
EY =
Z1
0
yF 0 (y) dy = 2
Z1
0
y 2 dy =
2
.
3
Welcher Weg (schneller) zum Ziel führt, hängt vom Problem ab. Zusatz Sei X ein n-dimensionaler Zufallsvektor auf (Ω, A, P ) und
g : (Rn , Bn ) → (R, B),
21. Februar 2010 15:09
75
4-B
4
Erwartungswerte und Dichten
f
F
x
Dichtefunktion zu X.
4.2
so existiert E(g ◦ X) genau dann, wenn
E(g ◦ X) =
Z
Ω
g ◦ X dP =
Z
Rn
R
Rn
g dPX existiert. In diesem Fall gilt
g dPX .
Besitzt X außerdem eine Dichtefunktion f : Rn → R+ , so gilt
E(g ◦ X) =
Z
Rn
g(x)f (x) dλ(x).
Insbesondere gilt für A ∈ Bn ,
P [X ∈ A] = PX (A) =
Z
Rn
1A (x)f (x) dx =:
Z
A
f (x) dx.
[Falls das entsprechende Riemann-Integral existiert, so stimmen Riemann- und
Lebesgue-Integral überein.]
Ï
» Der Beweis erfolgt wie im eindimensionalen Fall. Die letzte Behauptung folgt
sofort für g = 1A .
«
4.4 Bemerkung. Das Integral
R
A
f (x) dx im Zusatz zu Satz 4.4 ist entspricht dem
λ-Maß der Ordinatenmenge
n
o
(x, y) ∈ Rn+1 : x ∈ A, 0 ≤ y ≤ f (x)
von f |A in Rn+1 .
76
Ç
21. Februar 2010 15:09
Momente von Zufallsvariablen
4-C Momente von Zufallsvariablen
4.5 Definition Sei X eine reelle Zufallsvariable und k ∈ N. Im Falle der Existenz
heißt EX k das k-te Moment von X und E(X − EX)k das k-te zentrale Moment von
X.
Ist X integrierbar, dann heißt
V(X) := E(X − EX)2
die Varianz von X und
q
σ (X) :=+ V(X)
die Streuung von X.
Ï
Das erste Moment einer Zufallsvariablen haben wir bereits als Erwartungswert kennengelernt. Die Varianz V(X), gibt die “Schwankung” der Zufallsvariablen X als “mittleren Wert” ihrer quadratischen Abweichung von EX an.
Für die Existenz der Varianz ist es nicht notwendig, die quadratische Integrierbarkeit von X explizit zu fordern, da durch die Integrierbarkeit von X gesichert ist, dass (X − EX)2 eine nicht-negative reelle Zufallsvariable und damit
E(X − EX)2 definiert ist (wenn auch möglicherweise ∞).
4.2 Lemma Sei X eine reelle Zufallsvariable und 0 ≤ α < β < ∞. Dann gilt
E|X|β < ∞ ⇒ E|X|α < ∞.
Ï
n
o
» E |X|α ≤ E max 1, |X|β
≤ 1 + E |X|β < ∞.
«
Da EX k genau dann existiert, wenn E |X|k existiert, impliziert die Existenz
des k-ten Moments somit die Existenz aller niedrigeren Momente EX l mit l ≤ k.
4.6 Satz Sei X eine reelle integrierbare Zufallsvariable. Dann gilt
a) V(X) = EX 2 − (EX)2 .
b) V(aX + b) = a2 V(X),
21. Februar 2010 15:09
a, b ∈ R.
Ï
77
4-C
4
Erwartungswerte und Dichten
Im Gegensatz zum Erwartungswert ist die Varianz ist also insbesondere keine lineare Operation.
» Den Fall EX 2 = ∞ behandeln wir durch Stutzung von X in Höhe c und gehen
dann zum Grenzwert für c → ∞ über.
Betrachten wir also den Fall EX 2 < ∞.
a) V(X) = E(X − E(X))2 = E(X 2 − 2(EX)X + (EX)2 ). Nach Voraussetzung ist
EX < ∞ und somit,
V(X) = EX 2 − 2(EX)(EX) + (EX)2 = EX 2 − (EX)2 .
b) Unter Verwendung der Linearität von E erhalten wir sofort,
V(aX + b) = E(aX + b − E(aX + b))2 = E(aX + b − aEX − b)2
= a2 E(X − EX)2 = a2 V(X).
«
Bsp 11 X sei b(n, p)-verteilt mit n ∈ N, p ∈ [0, 1]. V(x) = np(1 − p). Wir
werden dafür später einen einfachen Beweis gegeben können. Bsp 12 X sei π (λ)-verteilt mit λ > 0. Die Berechnung der Varianz erfolgt mittels
der Erzeugendenfunktion,
g(s) =
n
X
e−λ
k=0
n
X
g 00 (s) =
k=2
λk k
s = e−λ eλs ,
k!
k(k − 1)e−λ
λk k−2
s
= λ2 e−λ eλs ,
k!
s ∈ [0, 1].
Auswerten ergibt
g 00 (1) =
n
X
k=2
|
k(k − 1)e−λ
{z
4.5=E(X(X−1))
Somit erhalten wir,
λk
= λ2 .
k!
}
EX 2 = E(X(X − 1)) + EX = λ2 + λ,
VX = EX 2 − (EX)2 = λ2 + λ − λ2 = λ. 78
21. Februar 2010 15:09
Momente von Zufallsvariablen
Bsp 13 X sei N(a, σ 2 )-verteilt mit a ∈ R, σ > 0, dann ist Y =
1
σ
(X − a) N(0, 1)
verteilt. Wir können uns also auf den Fall a = 0, σ = 1 zurückziehen, wobei
man leicht zeigen kann, dass E |X|n < ∞, ∀ n ∈ N.
Weiterhin gilt
EX 2k+1 = 0,
k ∈ N0 ,
da der Integrand eine ungerade Funktion ist und daher das Integral verschwindet. Insbesondere ist EX = 0.
Für geraden Exponenten erhalten wir
4.5
EX 2k = √
1
2π
part. int.
=
= √
Z
R
x 2k e−
k2
2
dx
Z∞
2 ∞
x2
1
2
1
2
2k+1 − x2 √
√
x
e
−
x 2k+1 (−x)e− 2 dx
2π 2k + 1
2π 2k + 1
0
{z
}
|
0
2
1
2π 2k + 1
Z∞
=0
x 2k+2 e−
0
x2
2
dx =
1
EX 2k+2 .
2k + 1
Somit gilt für jedes k ∈ N0 , EX 2k+2 = (2k + 1)EX 2k . Insbesondere erhalten wir
EX 0 = E1 = 1
⇒ EX 2 = 1
⇒ V(X) = 1.
Für allgemeines N(a, σ 2 ) verteiltes X erhalten wir somit,
1
(X − a) = 0 ⇒ EX = a,
σ
1
(X − a) = 1 ⇒ VX = σ 2 . V
σ
E
Die folgenden Ungleichungen haben zahlreiche Anwendungen und gehören
zu den wichtigsten Hilfsmitteln der Stochastik.
4.7 Satz Sei X eine reelle Zufallsvariable auf einem W-Raum (Ω, A, P ). Dann gilt
für jedes ε > 0, r > 0:
P [|X| ≥ ε] ≤ ε−r E|X|r ,
21. Februar 2010 15:09
Markoffsche Ungleichung.
79
4-C
4
Erwartungswerte und Dichten
Für r = 2 erhält man die sog. Tschebyschevsche Ungleichung, die bei inte-
grierbarem X auch in der Variante
P [|X − EX| ≥ ε] ≤ ε−2 V(X)
angegeben wird.
Ï
» Zum Beweis verwenden wir eine Zufallsvariable Y , die X “stutzt”,


1,
Y :=

0,
falls |X| ≥ ε,
sonst.
Offensichtlich ist Y ≤
|X|r
εr
, d.h. EY ≤ ε−r E |X|r , wobei EY = P [|X| ≥ ε].
«
Als Anwendung beweisen wir das Bernoullische schwache Gesetz der großen
Zahlen.
Bsp 14 Sei Yn eine Zufallsvariable, die die Anzahl der Erfolge in n Bernoulli-
Versuchen mit jeweiliger Erfolgswahrscheinlichkeit p ∈ [0, 1] (fest) angibt. Yn
ist also b(n, p)-verteilt und es gilt
EYn = np,
VYn = np(1 − p).
Die relative Häufigkeit der Anzahl der Erfolge ist gegeben durch
Sei nun ε > 0 beliebig aber fest, so gilt
Yn
.
n
V Yn
Yn
1
p(1 − p)
n
P = 2 2 V(Yn ) =
→ 0,
n − p ≥ ε ≤
ε2
ε n
ε2 n
n → ∞.
Zusammenfassend erhalten wir das Bernoullische schwache Gesetz der großen
Zahlen,
Yn
∀ε>0:P − p
≥ ε → 0,
n
n → ∞.
Eines der Ziele dieser Vorlesung ist die Verallgemeinerung dieses Gesetzes
auf das starke Kolmogorovsche Gesetz der großen Zahlen in Kapitel 9. 80
21. Februar 2010 15:09
5
Unabhängigkeit
5 Unabhängigkeit
Es ist eine zentrale Fragestellung der Wahrscheinlichkeitstheorie, inwiefern sich
zufällige Experimente gegenseitig beeinflussen. In 1-D haben wir bereits die
Bedingte Wahrscheinlichkeit definiert und festgestellt, dass sich Zufallsexperimente tatsächlich beeinflussen können und damit die Wahrscheinlichkeit für
das Eintreten eines Ereignises vom Eintreten eines vorangegangen Ereignisses
abhängen kann.
In diesem Kapitel wollen wir die Eigenschaften von unabhängigen Ereignissen und insbesondere unabhängigen Zufallsvariablen studieren. Solche Zufallsvariablen haben viele angenehme Eigenschaften und lassen sich besonders “leicht”
handhaben — Die wirklich interessanten Experimente sind jedoch gerade nicht
unabhängig.
82
21. Februar 2010 15:09
Unabhängige Ereignisse und Zufallsvariablen
5-A Unabhängige Ereignisse und Zufallsvariablen
Wir betrachten einige Beispiele zum Einstieg.
Bsp 1 Zwei Ausspielungen eines Würfels “ohne gegenseitige Beeinflussung”.
Betrachte dazu einen laplaceschen W-Raum (Ω, A, P ) mit Ω = {1, . . . , 6}2
und A = P(Ω).
Sei A das Ereignis, dass im ersten Wurf eine 1 erzielt wird, B das Ereignis,
dass im zweiten Wurf eine gerade Zahl erscheint. Einfaches Abzählen ergibt,
1
6
= ,
36
6
18
1
P (B) =
= .
36
2
P (A) =
Die Wahrscheinlichkeit, dass beide Ereignisse gleichzeitig eintreten ist,
P (A ∩ B) =
3
1
1 1
=
= · = P (A) · P (B).
36
12
6 2
Eine solche Situation (P (A ∩ B) = P (A) · P (B)) ist typisch bei Ereignissen, bei
denen es physikalisch keine gegenseite Beeinflussung gibt.
Wir werden den Fall, dass die Wahrscheinlichkeit des gemeinsamen Eintretens mit dem Produkt der einzelnen Wahrscheinlichkeiten übereinstimmt als
Grundlage für die Definition der stochastischen Unabhängigkeit verwenden. Es
ist wichtig, zwischen “stochastisch unabhängig” und “physikalisch unabhängig” zu unterscheiden, denn im Allgemeinen lassen sich aus der stochastischen
Unabhänigkeit keine Rückschlüsse auf die physikalische machen.
Sei (Ω, A, P ) ein W-Raum, A und B ∈ A mit P (B) > 0, dann gilt
P (A ∩ B) = P (A | B)P (B).
Falls A von B “unabhängig” ist, muss gelten P (A | B) = P (A) und damit
P (A ∩ B) = P (A)P (B).
5.1 Definition Sei (Ω, A, P ) ein W-Raum. Eine Familie {Ai : i ∈ I} von Ereignissen
Ai ∈ A heißt unabhängig (ausführlich: stochastisch unabhängig bzgl. P ), falls
für jede nichtleere endliche Menge K ⊂ I gilt


Y
\
P (Ak ). Ï
P
Ak  =
k∈K
21. Februar 2010 15:09
k∈K
83
5-A
5
Unabhängigkeit
In dieser Definition werden keine Anforderungen an die Indexmenge I gemacht, unendliche (z.B. überabzählbare) Indexmengen sind also durchaus zugelassen.
Im Folgenden sei mit “unabhängig” stets stochastisch unabhängig gemeint.
Auf logische oder physikalische Unabhängigkeit lassen sich aus der stochastischen Unabhängigkeit im Allgemeinen keine Rückschlüsse machen.
5.2 Definition Sei (Ω, A, P ) ein W-Raum. Eine Familie {Xi : i ∈ I} von (Ωi , Ai ) -
Zufallsvariablen auf (Ω, A, P ) heißt unabhängig, wenn gilt: Für jede nichtleere
endliche Indexmenge {i1 , . . . , in } ⊂ I und jede Wahl von Mengen Aiν ∈ Aiν
(ν = 1, . . . , n) ist
n
Y
P Xi1 ∈ Ai1 , . . . , Xin ∈ Ain =
P Xiν ∈ Aiν .
ν=1
Sprechweise: Unabhängigkeit der Zufallsvariablen statt Unabhängigkeit der Familie der Zufallsvariablen. Ï
Für die Unabhängigkeit von Zufallsvariablen ist es somit nicht notwendig
explizit zu fordern, dass alle Zufallsvariablen den selben Wertebereich teilen.
Die Voraussetzung, dass alle auf dem selben W-Raum (Ω, A, P ) definiert sind,
lässt sich jedoch nicht abschwächen.
5.1 Lemma Eine Familie von Ereignissen ist genau dann unabhängig, wenn jede
endliche Teilfamilie unabhängig ist. Entsprechendes gilt für Zufallsvariablen. Ï
» Die Aussage folgt direkt aus den Definitionen 5.1 und 5.2.
«
5.1 Bemerkung zu Definition 5.1 bzw. Definition 5.2. Die paarweise Unabhängigkeit
impliziert im Allgemeinen nicht die Unabhängigkeit.
Ç
» Beweis durch Gegenbeispiel. Betrachte zwei Ausspielungen eines echten Würfels ohne gegenseitige Beeinflussung. Dieses Experiment können wir durch einen
Laplaceschen W-Raum (Ω, A, P ) mit |Ω| = 36 modellieren.
Sei Ai das Ereignis, dass im i-ten Wurf eine ungerade Zahl auftritt P (Ai ) =
und B das Ereignis, dass die Summe der Augenzahlen ungerade ist P (B) =
P (A1 ∩ A2 ) =
84
9
1
= ,
36
4
P (A1 ∩ B) =
9
1
= ,
36
4
P (A2 ∩ B) =
1
2.
1
2
9
1
= ,
36
4
21. Februar 2010 15:09
Unabhängige Ereignisse und Zufallsvariablen
somit sind die Ereignisse paarweise unabhängig aber
P (A1 ∩ A2 ∩ B) = P (∅) = 0 ≠
1
111
= .
222
8
«
5.2 Bemerkung. Sei (Ω, A, P ) ein W-Raum und Ai ∈ A, i ∈ I Ereignisse, mit (reel-
len) Zufallsvariablen und Indikatorfunktionen 1Ai auf (Ω, A, P ).
{Ai : i ∈ I} unabhängig a 1Ai : i ∈ I unabhängig .
Ç
Unabhängige Zufallsvariablen
5.1 Satz Gegeben seien (Ωi , Ai ) - Zufallsvariablen Xi auf einem W-Raum (Ω, A, P )
und gi : (Ωi , Ai ) → (Ωi0 , A0i ), i ∈ I Abbildungen. Dann gilt:
{Xi : i ∈ I} unabhängig ⇒ gi ◦ Xi : i ∈ I unabhängig
Ï
» Aufgrund von Lemma 5.1 genügt es den Beweis auf einer endlichen Indexmenge I = {1, . . . , n} zu führen.
h
i
P g1 ◦ X1 ∈ A01 , . . . , gn ◦ Xn ∈ A0n = P ∀ i ∈ {1, . . . , n} : Xi ∈ gi−1 (A0i )
h
i
h
i
Y
Y
=
P Xi ∈ gi−1 (A0i ) =
P gi ◦ Xi ∈ A0i ,
i=1,...,n
i=1,...,n
da die Xi nach Voraussetzung unabhängig sind.
«
also die Zufallsvariablen {Xi } unabhängig, so sind es insbesondere auch
n Sind
o p
2
Xi ,
Xi , . . .
Bsp 2 Betrachte erneut zwei Ausspielungen eines echten Würfels ohne gegen-
seitige Beeinflussung mit W-Raum (Ω, A, P ).
n Sei X1o, X2 die Augenzahl im 1. bzw. 2. Wurf. Da {X1 , X2 } unabhängig, ist auch
X12 , X23 unabhängig. 5.2 Satz Sei eine unabhängige Familie {Xi : i ∈ I} reeller Zufallsvariablen auf ei-
P
nem W-Raum (Ω,
n A, P ) und
o eine Zerlegung I = j∈J Ij mit |Ij | < ∞ gegeben.
Das |Ij |-Tupel Xk : k ∈ Ij sei mit Yj bezeichnet für j ∈ J.
n
o
a) Die Familie Yj : j ∈ J ist unabhängig.
21. Februar 2010 15:09
85
5-A
5
Unabhängigkeit
b) Sind Abbildungen gj : (R|Ij | , B|Ij | ) → (R, B), j ∈ J, gegeben, so ist die
n
o
Familie gj ◦ Yj : j ∈ J unabhängig. Ï
»
a) Beweisidee. Betrachte den Spezialfall Y1 = X1 , Y2 = (X2 , X3 ). Nach An-
nahme gilt, dass die Xi unabhängige reelle Zufallsvariablen sind. Zu zeigen
ist nun für B1 ∈ B, B2 ∈ B2
P [Y1 ∈ B1 , Y2 ∈ B2 ] = P [Y1 ∈ B1 ] · P [Y2 ∈ B2 ].
Dabei genügt es nach Satz 1.4, die Aussage auf Intervallen I1 ∈ B1 bzw.
Rechtecken I2 × I3 ∈ B2 nachzuweisen. Also
P [X1 ∈ I1 , (X2 , X3 ) ∈ I2 × I3 ] = P [X1 ∈ I1 , X2 ∈ I2 , X3 ∈ I3 ]
= P [X1 ∈ I1 ] P [X2 ∈ I2 , X3 ∈ I3 ]
= P [X1 ∈ I1 ] P [(X2 , X3 ) ∈ I2 × I3 ] .
b) Anwendung von Satz 5.1.
«
5.3 Bemerkung. Satz 5.2 lässt sich auf (Ωi , Ai ) - Zufallsvariablen und Abbildungen
gj :
N
i∈Ij (Ωi , Ai )
→ (Ωj0 , A0j ) verallgemeinern.
Ç
5.3 Satz Seien Xi (i = 1, . . . , n) reelle Zufallsvariablen auf einem W-Raum (Ω, A, P )
mit Verteilungsfunktionen Fi . Der Zufallsvektor X := (X1 , . . . , Xn ) habe die ndimensionale Verteilungsfunktion F.
a) {X1 , . . . , Xn } ist genau dann unabhängig, wenn gilt
∀ (x1 , . . . , xn ) ∈ Rn : F (x1 , . . . , xn ) =
n
Y
Fi (xi )
(*)
i=1
b) Existieren zu Fi (i = 1, . . . , n) bzw. F , Dichten fi bzw. f , dann gilt
(*) a f (x1 , . . . , xn ) =
86
n
Y
i=1
fi (xi ) für λ-fast alle (x1 , . . . , xn ) ∈ Rn .
21. Februar 2010 15:09
Ï
Unabhängige Ereignisse und Zufallsvariablen
»
a) Seien {X1 , . . . , Xn } unabhängig, so ist Definition 5.2 äquivalent zu
a ∀ B1 , . . . , Bn ∈ B
:
a ∀ x1 , . . . , x n ∈ R
:
a ∀ x1 , . . . , x n ∈ R
:
P [X1 ∈ B1 , . . . , Xn ∈ Bn ]
= P [X1 ∈ B1 ] · · · P [Xn ∈ Bn ],
P [X1 ≤ x1 , . . . , Xn ≤ xn ]
= P [X1 ≤ x1 ] · · · P [Xn ≤ xn ]
F (x1 , . . . , xn ) = F1 (x1 ) . . . Fn (xn ).
«
Unabhänige Zufallsvariablen haben somit die angenehme Eigenschaft, dass
die gemeinsame Dichte (die Dichte der gemeinsamen Verteilung) dem Produkt
der Randverteilungsdichten (der Dichten der Randverteilungen) entspricht. Insbesondere ist für unabhänige Zufallsvariablen die gemeinsame Verteilung eindeutig durch die Randverteilungen bestimmt.
Bsp 3 Seien X, Y unabhängig, wobei X exp(λ) und Y exp(τ) verteilt, so besitzen
sie die Dichten
fX (x) = λe−λx ,
fY (y) = τe−τx .
Die gemeinsame Dichte ist nach Satz 5.3 gegeben durch
f (x, y) = λτe−λx e−τy .
Betrachten wir andererseits die gemeinsame Verteilung, so gilt
!
F (s, t) = P [X ≤ s, Y ≤ t] = P [X ≤ s]P [Y ≤ t]
da X und Y unabhängig. Weiterhin ist
P [X ≤ s]P [Y ≤ t] = FX (s)FY (t) =
=
Zs Zt
0
0
Z s
0
λe
−λx
dx
Zt
0
τe
−τy
dy
!
−λx −τy
λτe
{z e } dx dy . |
f (x,y)
5.4 Satz Seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen auf einem W-Raum
(Ω, A, P ) mit endlichen Erwartungswerten. Dann existiert
E(X1 · . . . · Xn ) = EX1 · . . . · EXn .
21. Februar 2010 15:09
87
5-A
5
Unabhängigkeit
— Entsprechendes gilt für komplexe Zufallsvariablen, wobei wir C mit dem R2
identifizieren und komplexe Zufallsvariablen als Xk : (Ω, A) → (R2 , B2 ) mit
EXk := E Re Xk + iE Im Xk
(k = 1, . . . , n).
Ï
» Wir beschränken uns zunächst auf reelle Zufallsvariablen. Mit Satz 5.2 ist
eine Reduktion auf den Fall n = 2 möglich. Zu zeigen ist also, dass E(X1 X2 ) =
(EX1 )(EX2 ).
Ohne Einschränkung sind X1 , X2 ≥ 0, ansonsten betrachten wir eine Zerle-
gung in X1 = X1,+ − X1,− . Mit Hilfe des des Satzes von der monotonen Konver-
genz können wir uns auf einfache Funktionen der Form
x,
n
X
λj 1Aj (x)
j=1
zurückziehen. Wir beweisen die Aussage nun für Indikatorfunktionen X1 = 1A1 ,
X2 = 1A2 mit A1 , A2 ∈ A.
E(X1 X2 ) = E(1A1 1A2 ) = E(1A1 ∩A2 ) = P (A1 ∩ A2 ) = P (1A1 = 1, 1A2 = 1)
= P (1A1 = 1)P (1A2 = 1) = P (A1 )P (A2 ) = (E1A1 )(E1A2 )
= (EX1 )(EX2 ). «
Der Erwartungswert ist somit linear und vertauscht mit der Multiplikation.
5.5 Satz von Bienaymé Seien X1 , . . . , Xn paarweise unabhängige reelle Zufallsva-
riablen mit endlichen Erwartungswerten. Dann gilt


n
n
X
X
Xj  =
V(Xj ) . Ï
V
j=1
j=1
» Addieren wir zum Erwartungswert eine Konstante, ändert sich die Varianz
nicht, wir können also ohne Einschränkung annehmen EXj = 0 (j = 1, . . . , n).

V
n
X
j=1


Xj  = E 
j=1
=
88
n
X
n
X
i=1
2
Xj  =
EXi2 + 2
X
i<j
|
n
X
i=1
EXi2 + 2
X
E(Xi )E(Xj ) =
{z
=0
}
E(Xi Xj )
i<j
n
X
i=1
EXi2 =
n
X
VXi .
«
i=1
21. Februar 2010 15:09
Unabhängige Ereignisse und Zufallsvariablen
Für unabhängige Zufallsvariablen vertauscht die Varianz mit endlichen Summen, wobei für reelle Konstanten a, b ∈ R und eine Zufallsvariable X gilt
V(aX + b) = a2 V(X).
Dies ist kein Widerspruch, denn setzen wir Y ≡ b, so ist Y Zufallsvariable und
EY = b. Somit ist VY = EY 2 − (EY )2 = b2 − b2 = 0, also
V(aX + b) = V(aX + Y ) = V(aX) + V(Y ) = a2 V(X).
5.4 Bemerkung. In Satz 5.5 genügt statt der Unabhängigkeit von {X1 , . . . , Xn } die
sog. paarweise Unkorreliertheit zu fordern, d.h.
∀ j ≠ k : E((Xj − EXj )(Xk − EXk )) = 0.
Dies ist tatsächlich eine schwächere Voraussetzung, denn sind X und Y unabhängig, so gilt
E((X − EX)(Y − EY )) = E(X · Y − (EX)Y − (EY )X + (EX)(EY ))
= E(X · Y ) − (EX)(EY ) − (EY )(EX) + (EX)(EY ))
= E(X)(EY ) − (EX)(EY ) = 0.
Ç
Faltungen
Sind X, Y zwei unabhängige reelle Zufallsvariablen auf einem W-Raum (Ω, A, P )
mit Verteilungen PX , PY , so ist nach Satz 5.3 und Satz 2.1 die Verteilung P(X,Y )
des 2-dimensionalen Zufallsvektors durch PX und PY eindeutig festgelegt.
Setzen wir g : (x, y) , x +y, so ist g messbar und damit auch die Verteilung
PX+Y = Pg◦(X,Y ) von X + Y eindeutig durch PX und PY festgelegt.
Wie ermittelt man nun diese Verteilung?
5.3 Definition Sind X, Y zwei unabhängige reelle Zufallsvariablen auf einem W-
Raum (Ω, A, P ) mit Verteilungen PX , PY , so wird die Verteilung PX+Y =: PX ∗ PY
der Zufallsvariable X + Y als Faltung von PX und PY bezeichnet. Ï
5.5 Bemerkung. Die Faltungsoperation ist kommutativ und assoziativ.
Ç
5.6 Satz Seien X, Y zwei unabhängige reelle Zufallsvariablen.
21. Februar 2010 15:09
89
5-A
5
Unabhängigkeit
a) Besitzen X und Y Dichten f bzw. g, so besitzt X + Y eine [als Faltung von
f und g bezeichnete] Dichte h mit
Z
Z
f (t − y)g(y) dy =
g(t − x)f (x) dx,
h(t) =
R
R
t ∈ R.
b) Besitzen X und Y Zähldichten (pk )k∈N0 bzw. (qk )k∈N0 , so besitzt X + Y
eine [als Faltung von (pk ) und (qk ) bezeichnete] Zähldichte (rk )k∈N0 mit
rk =
k
X
j=0
pk−j qj =
k
X
i=0
qk−i pi , k ∈ N0 .
Ï
Den Beweis verschieben wir auf das nächste Kapitel, denn mit Hilfe der charakteristischen Funktionen werden wir über die für einen einfachen Beweis nötigen Mittel verfügen.
Bsp 4 Sei X1 eine b(n1 , p)-verteilte und X2 eine b(n2 , p)-verteilte Zufallsvaria-
ble. Sind X1 und X2 unabhängig, dann ist X1 + X2 eine b(n1 + n2 , p)-verteilte
Zufallsvariable.
» Einfacher Beweis. Betrachte n1 +n2 Bernoulli-Versuche mit jeweiliger Erfolgs-
wahrscheinlichkeit p. Sei nun Y1 die Zufallsvariable, die die Anzahl der Erfolge
der ersten n1 Versuche angibt und Y2 die Zufallsvariable, die die Anzahl der
Erfolge in den letzten n2 Versuchen angibt. Somit sind Y1 und Y2 unabhängig
und Y1 + Y2 gibt die Anzahl der Erfolge in n1 + n2 Bernoulli-Versuchen an.
Scharfes Hinsehen liefert PX1 = PY1 und PX2 = PY2 , dann gilt auch
PX1 +X2 = PY1 +Y2 = b(n1 + n2 , p). «
Somit folgt für unabhängige Zufallsvariablen X1 , . . . , Xn , die b(1, p)-verteilt sind,
dass X1 + . . . + Xn eine b(n, p)-verteilte Zufallsvariable ist. Bsp 5 Wir können jetzt einen einfachen Beweis dafür geben, dass eine b(n, p)-
verteilte Zufallsvariable die Varianz np(1 − p) besitzt. Ohne Einschränkung
lässt sich diese Zufallsvariable als Summe von n unabhängigen b(1, p)-verteilten
Zufallsvariablen X1 , . . . , Xn darstellen,
5.5
V(X1 + . . . + Xn ) = nV(X1 ) = np(1 − p),
da V(X1 ) = EX12 − (EX1 )2 = 02 · (1 − p) + 12 · p − p 2 = p(1 − p).
90
21. Februar 2010 15:09
Null-Eins-Gesetz
Die Unabhängigkeit der Zufallsvariablen ist für die Aussage des Satzes 5.6
notwendig, denn er basiert darauf, dass für unabhängige Zufallsvariablen die
gemeinsame Dichte das Produkt der Randverteilungsdichten ist. Für allgemeine
(nicht unabhängige) Zufallsvariablen wird diese Aussage und damit der Satz
falsch.
5.6 Bemerkung (Satz von Andersen und Jessen). Gegeben seien Messräume (Ωi , Ai )
und W-Maße Qi auf Ai , i ∈ I. Dann existiert ein W-Raum (Ω, A, P ) und (Ωi , Ai )Zufallsvariablen Xi auf (Ω, A, P ), i ∈ I, mit Unabhängigkeit von {Xi : i ∈ I}
und PXi = Qi .
Ç
5-B Null-Eins-Gesetz
In Kapitel 1-B haben wir das 1. Lemma von Borel und Cantelli bewiesen, welches
für einen W-Raum (Ω, A, P ) und An ∈ A die Aussage macht
n
X
n=1
P (An ) < ∞ ⇒ P (lim sup An ) = 0.
Das 2. Lemma von Borel und Cantelli ist für unabhängige Ereignisse das Gegenstück zu dieser Aussage.
5.7 2. Lemma von Borel und Cantelli Sei (Ω, A, P ) ein W-Raum. Die Familie
{An : n ∈ N} von Ereignissen (∈ A) sei unabhängig. Dann gilt:
∞
X
n=1
P (An ) = ∞ ⇒ P (lim sup An ) = 1.
In diesem Fall tritt An P-f.s. unendlich oft auf. Ï
» Sei B := lim supn An :=
c
T∞
n=1
S
k≥n
Ak . Zu zeigen ist nun, dass P (B) = 1, d.h.
P (B ) = 0. Mit den De-Morganschen Regeln folgt,
c

P (B ) = P 
∞ \
[
n=1 k≥n

Ack  .
Aufgrund der σ -Additivität genügt es nun zu zeigen, dass die Mengen
das P -Maß Null haben.
21. Februar 2010 15:09
T
k≥n
Ack
91
5-B
5
Unabhängigkeit
Sei also n ∈ N fest.
N
\
Ack ↓
k=n
\
k≥n
Ack ,
N → ∞.
Somit genügt es wegen der Stetigkeit der W-Maße von oben zu zeigen, dass


N
\
c
P
A  ↓ 0.
k=n
k
Aufgrund der Unabhängigkeit der A1 , A2 , . . . gilt


N
N
N
\
Y
Y
c

Ak =
P
P Ack =
(1 − P (Ak )).
k=n
k=n
k=n
e−x
x
1−x
e−x mit Tangente 1 − x in (0, 1).
5.1
Eine geometrische Überlegung zeigt 1 − x ≤ e−x (siehe Skizze), also gilt auch
1 − P (Ak ) ≤ e−P (Ak ) und somit

P
N
\
k=n

Ack 
≤e
−
N
P
k=n
P (Ak )
→ 0,
N → ∞.
«
Korollar Sind die Ereignisse A1 , A2 , . . . unabhängig, gilt
P (lim sup An ) = 0 oder 1,
92
21. Februar 2010 15:09
Null-Eins-Gesetz
abhängig davon ob
X
n≥1
P (An ) < ∞ oder
X
n≥1
P (An ) = ∞.
Ï
Die Voraussetzung der Unabhängigkeit der (An ) im 2. Lemma von BorelCantelli ist notwendig, damit die Aussage gilt, wie folgendes Beispiel zeigt.
Bsp 6 Sei A ∈ A mit P (A) =
und
P
n≥1
1
2
und ∀ n ∈ N : An = A. Dann gilt lim sup An = A
P (An ) = ∞. Dennoch ist
P (lim sup AN ) = P (A) =
1
.
2
Bsp 7 Betrachte eine unabhängige Folge von Versuchen An mit Misserfolgs-
wahrscheinlichkeit
X
n≥1
1
n.
Da
P (An ) = ∞,
folgt, dass die Wahrscheinlichkeit für unendlich viele Misserfolge gleich 1 ist
(obwohl P (An ) → 0).
5.4 Definition Sei (Ω, A) ein Messraum und An ⊂ A σ -Algebren für n ∈ N. Mit

Tn := F 
∞
[
k=n

Ak 
bezeichnen wir die von An , An+1 , . . . erzeugte σ -Algebra.
T∞ :=
∞
\
Tn
n=1
heißt die σ -Algebra der terminalen Ereignisse (tail events) der Folge (An ).
Ï
−1
(B) für n ∈ N.
Bsp 8 Seien Xn : (Ω, A) → (R, B) und An := F (Xn ) := Xn
Tn ist somit die von den Ereignissen, die lediglich von Xn , Xn+1 , . . . abhängen,
erzeugte σ -Algebra.
21. Februar 2010 15:09
93
5-B
5
Unabhängigkeit
a.)
(Xn ) konvergiert ∈ T∞ , denn es gilt
(Xn ) konvergiert = lim Xn = X ∈ R = lim |Xn − X| = 0
n→∞
n→∞
= [ ∀ ε > 0 ∃ N ∈ N ∀ n ≥ N : |Xn − X| < ε]
Q liegt dicht in R, wir können uns also für die Wahl von ε auf Q zurückziehen,
[ ∀ ε ∈ Q > 0 ∃ N ∈ N ∀ n ≥ N : |Xn − X| < ε]
da alle ε > 1 uninteressant sind, können wir auch schreiben
1
∀ k ∈ N ∃ N ∈ N ∀ n ≥ N : |Xn − X| <
k
\ 1
=
∃ N ∈ N ∀ n ≥ N : |Xn − X| <
k
k∈N
und da es auf endlich viele N nicht ankommt,
\ [ 1
=
∀ n ≥ N : |Xn − X| <
k
k∈N N≥k
"
#
\ [
1
.
=
sup |Xn − X| <
k
n≥N
k∈N N≥k
|
{z
}
∈Tk
Also handelt es sich um ein terminales Ereignis.
b.)
P
n
Xn konvergiert ∈ T∞ , denn

"
# 
X
X

Xn konvergiert =
Xn konvergiert ,
n
n≥k
da es auf endlich viele nicht ankommt also
k ∈ N.
P
n
∀k∈N
Xn konvergiert ∈ Tk für
Bsp 9 Sei (Ω, A) ein Messraum, An ∈ A Ereignisse (n ∈ N) und weiterhin
An := œ, An , Acn , Ω (n ∈ N).
lim sup An :=
n→∞
lim inf An :=
n→∞
94
∞ [
∞
\
n=1 k=n
∞ \
∞
[
n=1 k=n
Ak = {ω ∈ Ω : ω ∈ An für unendliche viele n} ∈ T∞ ,
Ak = {ω ∈ Ω : ω ∈ An von einem Index an} ∈ T∞ .
21. Februar 2010 15:09
Null-Eins-Gesetz
5.8 Null-Eins-Gesetz von Kolmogorov Sei (Ω, A, P ) ein W-Raum und (An ) eine
unabhängige Folge von σ -Algebren An ⊂ A. Dann gilt für jedes terminale Ereignis A von (An ) entweder P (A) = 0 oder P (A) = 1.
Ï
Für den Beweis benötigen wir das folgende Resultat.
Lemma Seien E1 und E2 schnittstabile Mengensysteme von Ereignissen, d.h.
A, B ∈ E1 , E2 ⇒ A ∩ B ∈ E1 , E2 .
Sind E1 und E2 unabhängig, so sind es auch F (E1 ) und F (E2 ).
» Den Beweis findet man z.B. in [Wengenroth].
Ï
«
» Beweis von Satz 5.8. Sei also A ∈ T∞ . Es genügt zu zeigen, dass A von sich
selbst unabhängig ist, d.h.
P (A ∩ A) = P (A)P (A),
denn dann ist P (A) = 0 oder 1. Betrachte dazu die Mengen

Tn+1 = F 

Dn := F 
[
k≥n+1
[
k≤n

Ak  ,

Ak  ,
und wende das vorige Lemma an, so sind Tn+1 und Dn unabhängig.
Weiterhin sind aus dem selben Grund T∞ und Dn unabhängig für alle n ∈ N.
Daher ist auch

G=F
[
n∈N

Dn 
unabhängig von T∞ , wobei gerade G = T1 ⊃ T∞ . Somit ist T∞ unabhängig von
jeder Teilmenge von T1 insbesondere von sich selbst. Somit folgt die Behauptung.
«
Wir betrachten nun einige Anwendungen des 0-1-Gesetzes.
21. Februar 2010 15:09
95
5-B
5
Unabhängigkeit
Bsp 10 Sei {An : n ∈ N} unabhängig, An := ∅, An , Acn , Ω , somit sind
A1 , A2 , . . .
unabhängig. Mit dem 0-1-Gesetz gilt daher,




= 0 oder 1.
P
sup An 
lim
{z
}
|
∈T∞
Diese Aussage erhalten wir auch mit dem 1. und 2. Lemma von Borel und
Cantelli. Insofern kann man das 0-1-Gesetz als Verallgemeinerung dieser Lemmata betrachten. Die Aussagen von Borel und Cantelli liefern jedoch darüber
hinaus noch ein Kriterium, wann die Voraussetzungen des 0-1-Gesetzes erfüllt
sind. Bsp 11 Sei {Xn : n ∈ N} eine Folge reeller unabhängiger Zufallsvariablen, dann
gilt
P (Xn ) konvergiert = 0 oder 1,
"
#
X
P
Xn konvergiert = 0 oder 1. n
96
21. Februar 2010 15:09
6
Erzeugende und charakteristische Funktionen, Faltungen
6 Erzeugende und
charakteristische Funktionen,
Faltungen
Die erzeugenden und charakteristischen Funktionen sind ein methodisches
Hilfsmittel zur Untersuchung von W-Maßen.
Bisher haben wir gesehen, dass Verteilungen und Verteilungsfunktionen manchmal schwierig “zu fassen” sind. Erzeugende und charakteristische Funktionen
ermöglichen den Übergang von Verteilungen definiert auf einer σ -Algebra zu
Funktionen definiert auf R. Dadurch erhalten wir die Möglichkeit, Konzepte aus
der Analysis wie Integration, Differentiation und Grenzwertbildung anzuwenden.
6-A Erzeugende Funktionen
6.1 Definition Es sei µ : B → R ein auf N0 konzentriertes W-Maß mit Zähldichte
(bk )k∈N0 bzw. X eine reelle Zufallsvariable auf einem W-Raum (Ω, A, P ), deren
Verteilung PX auf N0 konzentriert ist, mit Zähldichte (bk )k∈N0 . Dann heißt die
auf [0, 1] (oder auch {s ∈ C | |s| ≤ 1}) definierte Funktion g mit
P


µ({k})s k ,


∞

X
g(s) :=
bk s k = bzw.



k=0

P P [X = k]s k = P PX ({k})s k = Es X .
die erzeugende Funktion von µ bzw. X.
Ï
6.1 Bemerkung. In Definition 6.1 gilt |g(s)| ≤
P
bk |s|k ≤
es sich bei (bk ) um eine Zähldichte handelt. Ç
98
P
bk = 1 für |s| ≤ 1, da
21. Februar 2010 15:09
Erzeugende Funktionen
Bei der erzeugenden Funktion handelt es sich also um die formale Potenzreihe
g(s) =
∞
X
bk s k ,
k=0
die nach obiger Bemerkung auf dem Intervall [0, 1] bzw. der abgeschlossenen
Kreisscheibe {s ∈ C : |s| ≤ 1} absolut und gleichmäßig bezüglich s konvergiert.
Von besonderem Interesse sind die erzeugenden Funktionen, die neben der
Darstellung als Potenzreihe auch über eine explizite Darstellung verfügen, denn
dann lassen sich g(s), g 0 (s), . . . meißt leicht berechnen und man erspart sich
kombinatorische Tricks, um die Reihen auf eine Form mit bekanntem Wert zu
bringen.
6.2 Bemerkungen.
a. Die Binomialverteilung b(n, p) mit n ∈ N und p ∈ [0, 1]
hat - mit q := 1 − p - die erzeugende Funktion g,
!
!
∞
n
X
X
n k
n
g(s) :=
p (1 − p)n−k s k =
(p · s)k (1 − p)n−k
k
k
k=0
k=0
= (p · s + (1 − p))n = (ps + q)n .
Die Reihe lässt sich im Gegensatz zu dem Ausdruck (ps + q)n nur mit
einigem an Aufwand direkt berechnen.
b. Die Poissonverteilung π (λ) mit λ ∈ (0, ∞) hat die erzeugende Funktion g
mit
g(s) =
∞
X
k=0
e−λ
∞
X
λk k
(λs)k
s = e−λ
e−λ
= e−λ esλ = e−λ(1−s) .
k!
k!
k=0
c. Als negative Binomialverteilung oder Pascal-Verteilung Nb(r , p) mit Parametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder auch B) bezeichnet,
das auf N0 konzentriert ist und — mit q := 1 − p — die Zähldichte
!
r +k−1 r k
k → Nb(r , p; k) :=
p q , k ∈ N0
k
besitzt. Speziell wird Nb(1, p) — mit Zähldichte
k → p(1 − p)k , k ∈ N0
21. Februar 2010 15:09
99
6-A
6
Erzeugende und charakteristische Funktionen, Faltungen
— als geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet.
Ist (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten Zufallsvariablen,
so ist die erweitert-reelle Zufallsvariable


n


X
X := inf n ∈ N :
Xk = r − r ,


k=1
mit der Konvention inf œ := ∞, Nb(r , p)-verteilt. X gibt die Anzahl der Miss-
erfolge bis zum r-ten Erfolg bei der zu (Xn ) gehörigen Folge von BernoulliVersuchen an.
EX =
rq
rq
, V(X) = 2 .
p
p
Nb(r , p) hat die erzeugende Funktion g mit g(s) = p r (1 − qs)−r .
Ç
6.1 Eindeutigkeitssatz für erzeugende Funktionen Besitzen zwei auf B definierte,
aber auf N0 konzentrierte W-Maße bzw. Verteilungen dieselbe erzeugende Funk-
tion, so stimmen sie überein. Ï
» Dies folgt aus dem Identitätssatz für Potenzreihen, der besagt, dass zwei auf
einer nichtleeren offenen Menge identische Potenzreihen dieselben Koeffizienten haben.
«
Es besteht also eine Bijektion zwischen diskreten Verteilungen und erzeugenden Funktionen. Insbesondere haben zwei diskrete Zufallsvariablen mit derselben erzeugenden Funktion auch dieselbe Verteilung.
6.2 Satz Sei X eine reelle Zufallsvariable, deren Verteilung auf N0 konzentriert ist,
mit erzeugender Funktion g.
a) g ist auf der offenen Kreisscheibe {s ∈ C : |s| < 1} unendlich oft differenzierbar, sogar analytisch und für j ∈ N gilt
g (j) (1−) := lim g (j) (s) = E[X(X − 1) . . . (X − j + 1)]
0≤s↑1
(≤ ∞),
insbesondere g 0 (1−) = EX.
b) Falls EX < ∞, so gilt V(X) = g 00 (1−) + g 0 (1−) − (g 0 (1−))2 .
100
Ï
21. Februar 2010 15:09
Erzeugende Funktionen
»
a) Die Differenzierbarkeit bzw. die Analytizität auf der offenen Kreisscheibe wird in der Funktionentheorie bewiesen. Auf dieser Kreisscheibe können
wir gliedweise differenzieren und erhalten somit,
g (j) (s) =
∞
X
k=j
bk k(k − 1) · · · (k − j + n)s k−j ,
0 ≤ s < 1.
Auf dem Rand gehen wir gegebenfalls zum Grenzwert über und erhalten
mit dem Satz von der monotonen Konvergenz für s ↑ 1,
g (j) (s) →
∞
X
k=j
bk k(k − 1) · · · (k − j + n).
Diese Reihe können wir auch als Erwartungswert der Zufallsvariablen
X(X − 1) · · · (X − j + 1)
betrachten (siehe Satz 4.5), d.h.
lim g (j) (s) = E(X(X − 1 · · · (X − j + 1))).
s↑1
Insbesondere erhalten wir g 0 (1−) = EX.
b) Da X integrierbar, können wir die Varianz darstellen als
VX = EX 2 − (EX)2 = E(X(X − 1)) + EX − (EX)2
= g 00 (1−) + g 0 (1−) − (g 0 (1−))2 .
«
Kennen wir eine explizite Darstellung der erzeugenden Funktion einer diskreten Zufallsvariablen, lassen sich mit Satz 6.2 ihre Momente oftmals leicht
berechnen.
6.3 Satz Seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen, deren Verteilungen
jeweils auf N0 konzentriert sind, mit erzeugenden Funktionen g1 , . . . , gn . Für die
Qn
erzeugende Funktion g der Summe X1 + . . . + Xn gilt dann g = j=1 gj . Ï
21. Februar 2010 15:09
101
6-A
6
Erzeugende und charakteristische Funktionen, Faltungen
» Sei |s| < 1, dann gilt per definitionem
g(s) =
∞
X
k=0
P [X1 + . . . + Xn = k]s k .
Nun interpretieren wir die erzeugende Funktion als Erwartungswert wie in 6.1,
d.h.
g(s) = E s X1 +...+Xn = E
n
Y
s Xi .
i=1
Da X1 , . . . , Xn unabhängig, sind nach Satz 5.4 auch s X1 , . . . , s Xn unabhängig, d.h.
g(s) =
n
Y
i=1
Es Xi =
n
Y
gi (s).
«
i=1
Bsp 1 Seien X1 , X2 , . . . unabhängige b(1, p) verteilte Zufallsvariablen, mit
P [Xi = 1] = p,
P [Xi = 0] = 1 − p ,
| {z }
q
so können wir sie als Folge von Bernoulli-Versuchen interpretieren mit jeweiliger Erfolgswahrscheinlichkeit p,
[Xi = 1],
Erfolg im i-ten Versuch.
Die erweiterte reellwertige Zufallsvariable Z1 gebe die Anzahl der Misserfolge
bis zum 1. Erfolg an. Z1 ist erweitert reellwertig, da die Möglichkeit besteht,
dass Z1 unendlich wird.
Nach dem 1. Erfolg wiederholt sich die stochastische Situation. Z2 gebe die
Anzahl der Misserfolge nach dem 1. bis zum 2. Erfolg an.
Betrachte nun eine Realisierung
0, 0, 0, 0, 1, 0, 0, 1 , 1, 0, . . .
| {z }
| {z } |{z}
Z1
Z2
Z3
Die Zufallsvariablen Z1 , Z2 , . . . sind unabhängig und identisch verteilt.
102
21. Februar 2010 15:09
Erzeugende Funktionen
» Nachweis der Unabhänigkeit und der identischen Verteilung. Wir zeigen zuerst
die identische Verteilung,
P [Z1 = k] = qk p,
P [Z1 = ∞] = 1 −
P [Z2 = k] =
∞
X
j=1
∞
X
k=0
k ∈ N0
qk p = 1 − p
1
= 0,
1−q
P [Z1 = j, Z2 = k] =
1
= p 2 qk
= qk p,
1−q
∞
X
für p > 0,
qj pqk p
j=1
P [Z2 = ∞] = . . . = 0.
Induktiv erhalten wir
∀ j, k ∈ N0 : P [Z1 = j, Z2 = k] = qj pqk p = P [Z1 = j]P [Z2 = k]
insbesondere sind Z1 und Z2 unabhängig.
«
Z1 hat die erzeugende Funktion,
h(s) =
∞
X
k=0
qk ps k = p
1
= p(1 − qs)−1 ,
1 − qs
h0 (s) = pq(1 − qs)−2 ,
h00 (s) = 2pq2 (1 − qs)−3 ,
h0 (1−) =
|s| < 1,
q
pq
= ,
(1 − q)2
p
h00 (1−) =
2pq2
2q2
= 2 .
(1 − q)3
p
Nach Satz 6.2 gilt somit
EZ1 =
q
,
p
VZ1 =
2q2
q
+ −
p2
p
q
p
!2
=
q(q + p)
q
= 2.
p2
p
Sei nun r ∈ N fest, so hat die Zufallsvariable
X :=
r
X
Zi
i=1
nach Satz 6.3 die erzeugende Funktion g = hr , also
g(s) = h(s)r = p r (1 − qs)−r .
21. Februar 2010 15:09
103
6-A
6
Erzeugende und charakteristische Funktionen, Faltungen
Aus der Analysis kennen wir folgenden Spezialfall der binomischen Reihe,
α
(1 + x) =
!
α k
x ,
k
∞
X
k=0
α
k
|x| < 1,
!
=
α(α − 1) · · · (α − k − 1)
.
k!
Diese Definition ist auch für α ∈ R sinnvoll. Wir können somit g darstsellen als
!
!
∞
X
−r
k k k
r r +k−1
g(s) =
p
(−1) q s =
p
qk s k ,
k
k
k=0
k=0
!
6.1
r +k−1 r k
⇒P [X = k] =
p q ,
k ∈ N0 .
k
∞
X
r
Die Zufallsvariable X gibt die Anzahl der Misserfolge bis zum r -ten Erfolg an.
Also ist eine äquivalente Definition von X gegeben durch


n


X
Xk = r − r
X := inf n ∈ N :


k=1
wobei Xk angibt, ob im k-ten Versuch ein Erfolg aufgetreten ist.
Eine Zufallsvariable, welche die Anzahl der Misserfolge bis zum r -ten Erfolg
bei Bernoulli-Versuchen mit Erfolgswahrscheinlichkeit p ∈ (0, 1) angibt, hat
somit die Zähldichte
!
r +k−1 r k
p q ,
k
wobei Nb (r , p; k) :=
−r
k
k ∈ N0 , r ∈ N, p ∈ (0, 1),
(−1)k p r qk =
r +k−1
k
p r qk . Nb(r , p) heißt negative
Binomial-Verteilung oder Pascal-Verteilung mit Parametern r ∈ N, p ∈ (0, 1).
Für r = 1 heißt Nb(1, p) mit Zähldichte (pqk )k∈N geometrische Verteilung
mit Parameter p ∈ (0, 1). Wir können nun die negative Binomial-Verteilung
darstellen als
Nb(r , p) = Nb(1, p) ∗ . . . ∗ Nb(1, p) .
|
{z
}
r −mal
Konvergenzsätze der Maßtheorie
Wir haben bereits den Satz von der monotonen Konvergenz kennengelernt, der
eine Aussage über Vertauschbarkeit von Grenzwertbildung und Integration für
104
21. Februar 2010 15:09
Erzeugende Funktionen
positive, monotone Funktionenfolgen macht. Im Allgemeinen sind die Funktionenfolgen, mit denen wir in der Wahrscheinlichkeitstheorie arbeiten weder
monoton noch positiv, wir benötigen also allgemeinere Aussagen.
Lemma von Fatou Sei (Ω, A, P ) ein Maßraum. Für jede Folge von nichtnegativen erweitert reellen messbaren Funktionen fn gilt,
Z
Z
Z
fn dµ.
lim inf fn dµ ≤ lim inf
fn dµ ≤ lim sup
Ω
n→∞
n→∞
n→∞
Ω
Ω
R
Gilt außerdem fn ≤ g mit Ω g dµ < ∞, so gilt auch
Z
Z
lim sup
fn dµ ≤
lim sup fn dµ. Ï
n→∞
Ω
Ω
n→∞
» Wir beweisen lediglich die erste Ungleichung, die andere ist trivial. Setze
gn := inf fm ↑ lim inf fn =: g.
m≥n
n
Auf diese Funktionenfolge können wir den Satz von der monotonen Konvergenz anwenden und erhalten somit,
Z
Z
Z
lim inf fn dµ = lim
inf fn dµ ≤ lim inf
fn dµ
n→∞ Ω m≥n
n→∞ m≥n Ω
Ω
Z
= lim inf
fn dµ. «
n
Ω
Man kann das Lemma von Fatou als Verallgemeinerung des Satzes von der
monotonen Konvergenz von monotonen nichtnegativen auf lediglich nichtnegative Funktionenfolgen betrachten. Dadurch wird jedoch auch die Aussage auf
“≤” anstatt “=” abgeschwächt.
Satz von der dominierten Konvergenz Sei (Ω, A, µ) ein Maßraum und fn , f ,
g erweitert reellwertige messbare Funktionen mit fn → f µ-f.ü., fn ≤ g µ-f.ü.
R
sowie Ω g dµ < ∞. Dann existiert
Z
lim
fn dµ
n→∞
Ω
und es gilt
lim
n→∞
Z
Ω
21. Februar 2010 15:09
fn dµ =
Z
lim fn dµ =
Ω n→∞
Z
Ω
f dµ.
Ï
105
6-A
6
Erzeugende und charakteristische Funktionen, Faltungen
Man findet den Satz in der Literatur auch unter dem Namen Satz von der majorisierten Konvergenz bzw. Satz von Lebesgue.
S
» Setze N := [fn 3 f ] ∪
fn > g] ∪ [g = ∞] ∈ A, so ist nach
n∈N [
Voraussetzung µ(N) = 0. Setze nun
f˜n := fn · 1N c ,
f˜ := f · 1N c ,
g̃ := g · 1N c .
Dann gilt f˜n + g̃ ≥ 0, g̃ − f˜n ≥ 0 auf ganz Ω und für alle n ∈ N. Mit dem Lemma
von Fatou folgt,
Z
Ω
Z
Z
lim inf(f˜n + g̃) dµ −
g̃ dµ
n
Ω
Z
ZΩ
Z
≤ lim inf (f˜n + g̃) dµ −
g̃ dµ = lim inf
f˜n dµ
n
n
Ω
Ω
ZΩ
Z
f˜n dµ = − lim inf
−f˜n dµ
≤ lim sup
n
n
Ω
Ω
Z
Z
=
g̃ dµ − lim inf (g̃ − f˜n ) dµ
n
Ω
ZΩ
Z
Z
≤
g̃ dµ −
lim inf(g̃ − f˜n ) dµ =
f˜ dµ.
f˜ dµ =
Ω
Ω
Insbesondere gilt lim infn
zeigt.
«
R
Ω
n
Ω
f˜n dµ = lim supn
R
Ω
f˜n dµ und somit ist alles ge-
6-B Charakteristische Funktionen
6.2 Definition Sei µ ein W-Maß auf B bzw. X eine reelle Zufallsvariable mit Vertei-
lungsfunktion F . Dann heißt die auf R definierte (i.a. komplexwertige) Funktion
ϕ mit
ϕ(u) :=
Z
R
eiux µ( dx)
bzw.
ϕ(u) := EeiuX =
Z
R
eiux PX ( dx) =
Z
R
die charakteristische Funktion von µ bzw. X.
106
eiux dF (x)
Ï
21. Februar 2010 15:09
Charakteristische Funktionen
Diese Definition ist tatsächlich sinvoll, denn wir können eiux für u, x ∈ R
6-B
stets durch 1 majorisieren. Es gilt also
|ϕ(u)| ≤ E eiuX ≤ E1 = 1
und daher existiert ϕ(u) für jedes u ∈ R.
6.3 Bemerkungen. In Definition 6.2 gilt
a. ϕ(0) = 1,
b. |ϕ(u)| ≤ 1, u ∈ R,
c. ϕ gleichmäßig stetig in R,
d. ϕ(−u) = ϕ(u), u ∈ R.
Ç
» Nachweis von Bemerkung 6.3 c)
Z
Z
i(u+h)x
ihx
|ϕ(u + h) − ϕ(u)| = − eiux µ( dx)
− 1)eiux µ( dx)
e
= (e
R
R
Z ihx
e
≤
− 1 µ( dx)
R
Nun verschwindet der Integrand für h → 0, d.h. für jede Nullfolge hn gilt
ihn x
e
n → ∞.
− 1 → 0,
R
Außerdem ist eihn x − 1 ≤ eihn x + 1 = 2, und R 2 dµ = 2µ(R) = 2, wir
können also den Satz von der dominierten Konvergenz anwenden.
«
Die charakteristische Funktion ist im Wesentlichen die Inverse Fouriertransformierte von PX , der Verteilung von X. Besitzt X eine Dichte f , so gilt nach
dem Transformationssatz
Z
ϕX (u) =
eiux f (x) dx.
R
6.4 Bemerkung. Die Normalverteilung N(a, σ 2 ) mit a ∈ R und σ 2 ∈ (0, ∞) besitzt
die charakteristische Funktion ϕ : R → C mit
ϕ(u) = eiau e−
σ 2 u2
2
.
Insbesondere besitzt die Standardnormalverteilung N(0, 1) die charakteristische Funktion ϕ mit ϕ(u) = e−
21. Februar 2010 15:09
u2
2
.
Ç
107
6
Erzeugende und charakteristische Funktionen, Faltungen
» Beweisskizze. 1. Teil. Wir betrachten zunächst N(0, 1). Die Standardnormalverteilung besitzt die Dichte
f (x) = √
x2
1
e− 2 ,
2π
somit gilt für die charakteristische Funktion,
Z
Z
1 2
1
1
2 1 2
e− 2 x dx = √
ei(x−iu) − 2 u dx
ϕ(u) =
eiux √
2π
2π
R
R
Z
1
1
1
− 2 u2
(x−iu)2
2
√
e
e
=
dx.
2π
R
1
2
Um das Integral zu berechnen, betrachten wir z , e 2 z ; diese Funktion einer komplexen Variablen z ist komplex differenzierbar (analytisch, holomorph).
Wir verwenden nun den Residuensatz, ein Resultat aus der Funktionentheorie,
der besagt, dass das Integral einer holomorphen Funktion über jede geschlossene Kurve c verschwindet,
Z
1 2
e 2 z dz = 0.
c
Um dies auszunutzen, wählen wir eine spezielle geschlossene Kurve c (siehe
Skizze) bestehend aus den Geradenstücken c1 , c2 , c3 und c4 .
−R
R
c1
c4
c2
c3
6.1
Zur Konstruktion der geschlossenen Kurve c.
Für diese Geradenstücke können wir die Integrale leicht berechnen bzw. abschätzen,
Z
p
1 2
R→∞
e− 2 z dz → − 2π ,
c
Z1
Z
Z
1 2
1 2
1 2
e− 2 z dz =
e− 2 z dz +
e− 2 z dz = 0,
c2 ,c4
c2
c4
|
{z
}
Z
c3
108
1
2
R→∞
e− 2 z dz →
Z
−
1
R
2
R
c2
1 2
e− 2 z dz
e− 2 (x−iu) dx.
21. Februar 2010 15:09
Charakteristische Funktionen
Für ganz c gilt nach Voraussetzung,
0=
⇒
Z
R
Z
e
1
c
2
e− 2 z dz =
− 12 (x−iu)2
4 Z
X
i=1
1
ci
2
e− 2 z dz =
Z
1
c1
2
e− 2 z dz +
Z
1
c3
2
e− 2 z dz
p
dx = 2π .
Somit besitzt N(0, 1) die charakteristische Funktion
Z
1
1 2
1 2
1
2
e− 2 (x−iu) dx = e− 2 u .
ϕ(u) = √
e− 2 u
2π
R
2. Teil. Für N(a, σ 2 ) allgemein ist die charakteristische Funktion gegeben durch,
Z
(x−a)2
1
ϕ(u) =
eiux √
e 2σ 2 dx
2π σ
R
Die Substitution y =
x−a
σ
liefert die Behauptung.
«
6.5 Bemerkung. Als Exponentialverteilung exp(λ) mit Parameter λ ∈ (0, ∞) wird
ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit


λe−λx , x > 0
f (x) =

0,
x≤0
besitzt.
Die zufällige Lebensdauer eines radioaktiven Atoms wird durch eine exponentialverteilte Zufallsvariable angegeben. Ist X eine erweitert-reelle Zufallsvariable, deren Verteilung auf R+ konzentriert ist, mit P [0 < X < ∞] > 0, so
gilt
∀ s, t ∈ (0, ∞) : P [X > t + s | X > s] = P [X > t].
Diese Eigenschaft nennt man Gedächtnislosigkeit. Eine auf R+ konzentrierte
reell erweiterte Zufallsvariable ist genau dann gedächtnislos, wenn sie exponentialverteilt ist.
» “⇐”: Sei X also exp(λ) verteilt. Per definitionem der bedingten Wahrscheinlichkeit gilt,
P [X > t + s | X > s] =
21. Februar 2010 15:09
P [X > t + s, X > s]
1 − F (t + s)
=
.
P [X > s]
1 − F (s)
109
6-B
6
Erzeugende und charakteristische Funktionen, Faltungen
Die Verteilungsfunktion erhält man durch elementare Integration,
R

 x λe−λt dt = 1 − e−λx , x > 0,
0
F (x) =

0,
x ≤ 0.
Somit ergibt sich
1 − F (t + s)
e−λ(t+s)
=
= e−λt = 1 − F (t) = P [X > t].
1 − F (s)
e−λs
“⇒”: Sei X gedächtnislos, d.h. P [X > t + s | X > s] = P [X > s]. Unter Verwen-
dung der Definition der bedingten Wahrscheinlichkeit erhalten wir
P [X > t + s] = P [X > t] P [X > s] .
|
{z
} | {z } | {z }
H(t+s)
H(t)
H(s)
Wir interpretieren diese Gleichung als Funktionalgleichung und suchen nach
einer Lösung H : R+ → R+ , die diese Gleichung erfüllt. Da
H(t) = P [X > t] = 1 − F (t)
erhalten wir aus den Eigenschaften der Verteilungsfunktion für H außerdem die
Randbedingungen H(0) = 1 und lim H(t) = 0. Offensichtlich ist H(t) = e−λt
t→∞
für λ ∈ (0, ∞) eine Lösung.
Man kann zeigen, dass dies in der Klasse auf R+ konzentrierten Verteilungen
die einzige Lösung ist (siehe Hinderer § 28).
«
Für die Beschreibung von technischen Geräten oder Bauteilen ist es oft notwending ein “Gedächtnis” miteinzubauen. Dafür eignet sich die sog. WeibullVerteilung1 , welche eine Verallgemeinerung der Exponential-Verteillung darstellt.
Für eine Zufallsvariable X mit PX = exp(λ) gilt
EX =
1
1
,
λ
V(X) =
1
.
λ2
Ernst Hjalmar Waloddi Weibull (* 18. Juni 1887;
† 12. Oktober 1979 in Annecy) war ein schwe-
discher Ingenieur und Mathematiker.
110
21. Februar 2010 15:09
Charakteristische Funktionen
» Der Nachweis folgt durch direktes Rechnen,
EX =
Z∞
xf (x) dx =
−∞
VX = EX 2 − (EX)2 =
Z∞
0
Z∞
0
∞
λxe−λx dx = −xe−λx x=0
λx 2 e−λx −
1
1
= 2.
2
λ
λ
+
R∞
0
eiux λe−λx dx = λ
R∞
0
e−(λ−iu)x dx =
0
e−λx dx =
1
λ
«
exp (λ) hat die charakteristische Funktion ϕ mit ϕ(u) =
» ϕ(u) =
Z∞
λ
λ−iu .
λ
λ−iu .
« Ç
6.6 Bemerkung. Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν ∈ (0, ∞) wird ein
W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit
f (x) =



λν
ν−1 −λx
e
,
Γ (ν) x

0,
x > 0,
x ≤ 0,
besitzt. Hierbei ist Γλ,1 = exp(λ) Die Gamma-Verteilung stellt also ebenfalls eine
Verallgemeinerung der Exponential-Verteilung dar. Γ 1 , n wird als Chi-Quadrat2 2
2
Verteilung χn
mit n Freiheitsgraden bezeichnet (n ∈ N).
Für eine Zufallsvariable X mit PX = Γλ,ν gilt
EX =
ν
,
λ
V(X) =
ν
.
λ2
Γλ,ν hat die charakteristische Funktion ϕ mit ϕ(u) =
ν
λ
.
λ−iu
» EX und VX folgen durch direktes Integrieren oder unter Verwendung der
charakteristischen Funktion.
Die charakteristische Funktion ist gegeben durch folgendes Integral
ϕ(u) =
Z∞
0
λν iux ν−1 −λx
e
x
e
dx.
Γ (ν)
Dieses wollen wir nicht direkt berechnen, sondern in eine Differentialgleichung
umformen und so elegant lösen. Unter Verwendung des Satzes über dominierte
21. Februar 2010 15:09
111
6-B
6
Erzeugende und charakteristische Funktionen, Faltungen
Konvergenz lässt sich nachweisen, dass Differentiation und Integration hier
vertauscht werden können. Somit erhalten wir
ϕ0 (u) =
=
=
Z∞
∂u
0
λν iux ν−1 −λx
λν
e
x
e
dx =
Γ (ν)
Γ (ν)
iλν
Γ (ν)
Z∞
Z∞
ixeiux x ν−1 e−λx dx
0
e(iu−λ)x x ν dx
0
∞
∞
ν Z
iλν ν e(iu−λ)x e(iu−λ)x
− iλ
νx ν−1
x
dx
Γ (ν)
iu − λ 0 Γ (ν)
iu − λ
{z
}
|
0
=0
=
iν
λ − iu
Z∞
0
λν ν−1 (iu−λ)x
iν
x
ϕ(u).
e
dx =
Γ (ν)
λ − iu
Dies liefert nach Zerlegung der DGL in Real- und Imaginäranteil und anschließendem Lösen der Anfangswertprobleme Re ϕ(0) = 1 und Im ϕ(0) = 0 die
eindeutige Lösung
ν
λ
ϕ(u) =
.
λ − iu
«
Ç
Eindeutigkeitssatz und Umkehrformeln
Per se ist nicht klar, ob zwei unterschiedliche Verteilungsfunktionen auch unterschiedliche charakteristische Funktionen besitzten bzw. inwiefern eine charakteristische Funktion die Verteilung “charakterisiert”. Der folgende Satz beantwortet die Frage.
6.4 Eindeutigkeitssatz für charakteristische Funktionen Besitzen zwei auf B de-
finierte W-Maße bzw. Verteilungen dieselbe charakteristische Funktion, so stimmen sie überein.
Ist µ ein W-Maß auf B bzw. PX die Verteilung einer reellen Zufallsvariablen X
mit zugehöriger Verteilungsfunktion F und zugehöriger charakteristischer Funktion ϕ und sind a, b mit a < b Stetigkeitsstellen von F , so gilt die Umkehrformel
Z
1 U e−iua − e−iub
= lim
ϕ(u) du . Ï
F (b) − F (a)
{z
}
|
U →∞ 2π −U
iu
=µ((a,b]) bzw. PX ((a,b])
112
21. Februar 2010 15:09
Charakteristische Funktionen
Wir erhalten mit Hilfe dieses Satzes zunächst nur die Eindeutigkeit auf den
halboffenen Intervallen. Der Fortsetzungssatz besagt jedoch, dass damit auch
die Fortsetzung auf die Menge der Borelschen Mengen eindeutig ist.
» Es genügt, die Umkehrformel zu beweisen. Wir verwenden dazu die DirichletFormel
lim
A→−∞
B→∞
1
π
ZB
A
sin(v)
dv = 1,
v
die man leicht unter Verwendung der Funktionentheorie beweisen kann. Wir
verwenden außerdem die Identität,
b
e−iua − e−iub = −e−iuy y=a
= iu
Zb
e−iuy dy ,
y=a
somit folgt nach Anwendung des Satzes von Fubini
lim
U →∞
1
2π
ZU
u=−U
1
= lim
U →∞ 2π
1
= lim
U →∞ 2π
= lim
U →∞
1
2π
= lim
1
2π
= lim
1
π
U →∞
U →∞
21. Februar 2010 15:09
1 −iua
e
− e−iub ϕ(u) du
iu
ZU
Z∞
Z∞
ZU
u=−U x=−∞
1 −iua
e
− e−iub eiux F ( dx) du
iu
Zb
eiu(x−y) dy F ( dx) du
x=−∞ u=−U y=a
Z∞
Zb
Z∞
Zb
ZU
eiu(x−y) du dy F ( dx)
x=−∞ y=a u=−U
x=−∞ y=a
Z∞
Zb
x=−∞ y=a
eiU(x−y) − e−iU(x−y)
dy F ( dx)
i(x − y)
sin(U(x − y))
dy F ( dx)
(x − y)
113
6-B
6
Erzeugende und charakteristische Funktionen, Faltungen
Nun substituieren wir ν = U(x − y), d.h. “ dx =
=
=
Z∞
x=−∞
Z∞
−∞
1
π
lim
U →∞
|
U(x−b)
Z
y=U(x−a)
1
U
dν”,
sin(v)
dv F ( dx)
v
{z
:=G(U,x)
}
lim G(U, x)F ( dx)
U →∞
Für den Integranden erhalten wir unter Verwendung der Formel von Dirichlet,



1, falls a < x < b,



lim G(U , x) = 0, falls x < a,

U →∞



0, falls x > b.
Falls wir den Satz von der dominierten Konvergenz anwenden können, erhalten
wir für das Integral
Z∞
−∞
lim G(U, x)F ( dx) = F (b) − F (a),
U →∞
denn das Verhalten des Integranden an den Unstetigkeitsstellen ist für den
Integralwert nicht von Bedeutung.
Wir müssen also noch nachweisen, dass wir den Satz über die dominierte
Konvergenz auch anwenden können. Setze n = U und fn = G(U, ·), G(U, ·) ist
beschränkt, d.h.
|G(U , ·)| ≤ g < ∞,
g ∈ R.
Nun ist die konstante Funktion g integrierbar bezüglich der durch die Verteilungsfunktion F induzierten Verteilung µ. (µ(a, b] = F (b) − F (a)).
«
Mit dem Eindeutigkeitssatz erhält man aus ϕ die Verteilungsfunktion, ist ϕ
darüber hinaus integrierbar, gilt wesentlich mehr.
6.5 Satz Gegeben sei eine Verteilungsfunktion F mit charakteristischer Funktion ϕ;
es sei
R∞
−∞
|ϕ(u)| du < ∞. Dann besitzt F eine Dichte f , die stetig und be-
schränkt ist, und es gilt die Umkehrformel
Z
1
e−iux ϕ(u) du , x ∈ R.
f (x) =
2π R
114
Ï
21. Februar 2010 15:09
Charakteristische Funktionen
» Sei also ϕ integrierbar, d.h.
kehrformel
F (b) − F (a) = lim
U →∞
1
2π
R
ZU
−U
R
|ϕ| (x) dx = c < ∞. Wir verwenden die Um-
e−iua − e−iub
ϕ(u) du
iu
und bilden so den Differenzenquotienten für F , falls F in x stetig,
F (x + h) − F (x)
1
= lim
U→∞ 2π
h
ZU
−U
Diesen Ausdruck können wir durch
e−iu(x+h) − e−iux
iuh
−
1
2π
R
R
!
ϕ(u) du .
|ϕ| (u) du majorisieren, indem wir
auf den Integranden den Mittelwertsatz bezüglich x anwenden,
e−iu(x+h) − e−iux
iueiuξ
=−
= −eiuξ ,
iuh
iu
ξ ∈ [x, x + h].
Somit können wir den Satz von der dominierten Konvergenz anwenden und
die Grenzwertbildung für h → 0 mit der Grenzwertbildung für U → ∞ und der
Integration vertauschen.
!
ZU
1
e−iu(x+h) − e−iux
F (x + h) − F (x)
= lim lim
ϕ(u) du
−
lim
h
iuh
h→0 U →∞ 2π
h→0
−U
Z
1
e−iux ϕ(u) du =: f (x).
=
2π
R
f ist offensichtlich Dichte zu F und beschränkt, denn
Z
Z
1
−iux f (x) ≤ 1
e
|ϕ(u)| du =
|ϕ(u)| du < ∞,
2π
2π
R
R
und außerdem stetig, denn
Z iuy
f (y) − f (x) ≤
e
− eiux |ϕ(u)| du
R
Z
≤ sup eiuy − eiux |ϕ(u)| du
x,y∈U
R
= c sup eiuy − eiux .
x,y∈U
Der rechte Ausdruck wird klein für x − y klein, denn eiu· ist stetig.
21. Februar 2010 15:09
«
115
6-B
6
Erzeugende und charakteristische Funktionen, Faltungen
Ist X Zufallsvariable mit integrierbarer charakteristischer Funktion ϕ, so besitzt X eine Dichte und diese entspricht im Wesentlichen der Fouriertransformierten von ϕ. Wie wir bereits festgestellt haben, erhalten wir ϕ als inverse
Fouriertransformierte dieser Dichte zurück.
6.6 Satz Sei X eine reelle Zufallsvariable mit Verteilung PX und charakteristischer
Funktion ϕ. Falls für j ∈ N gilt:
E |X|j < ∞,
so besitzt ϕ eine stetige j-te Ableitung ϕ(j) mit
Z
ϕ(j) (u) = ij
x j eiux PX ( dx), u ∈ R.
R
Insbesondere ϕ(j) (0) = ij EX j . Ï
» Wir beweisen die Behauptung für j = 1, der Rest folgt induktiv.
ϕ(u) =
0
Z∞
eiux PX ( dx)
−∞
Z i(u+h)x
e
− eiux
ϕ(u + h) − ϕ(u)
= lim
PX ( dx)
h
h
h→0
h→0
R
!
Z
eihx − 1
iux
= lim e
PX ( dx)
h
h→0
R
|
{z
}
ϕ (u) = lim
→ixeiux
Wir müssen also nachweisen, dass wir den Satz von der dominierten Konvergenz anwenden können,
!
eihx − 1 ihx
e
−
1
iux
e
= 1
< const |x| ,
h
h
{z
}
|
iux
und
R
R
x, h ∈ R
→ixe
|x| PX ( dx) = E |X| < ∞.
Somit erhalten wir für das Integral,
Z
ϕ0 (u) = i
xeiux PX ( dx)
R
116
21. Februar 2010 15:09
Charakteristische Funktionen
ϕ0 ist gleichmäßig stetig, denn
Z
0
ϕ (u + h) − ϕ0 (u) ≤
|x| ei(u+h)x − eiux PX ( dx)
R
Nun ist ei(u+h)x − eiux nach der Dreiecksungleichung durch 2 beschränkt
und konvergiert für h → 0 gegen Null, somit haben wir eine integrierbare Majorante und mit dem Satz von der dominierten Konvergenz folgt,
0
ϕ (u + h) − ϕ0 (u) → 0,
h → 0. «
Erinnern wir uns an die erzeugende Funktion g einer auf N0 konzentrierten
Verteilung so besagt Satz 6.2,
g (j) (1−) = E(X(X − 1) · · · (X − j + 1)).
Für charakteristische Funktionen reeller Zufallsvariablen gilt nun,
ϕ(j) (0) = ij EX j .
Erzeugende und charakteristische Funktionen ermöglichen es uns Integrationsaufgaben,
Z
x j PX ,
R
X
kj bk
k≥0
auf Differentiationsaufgaben ϕj (u)u=0 , g (j) (1−) zurückzuführen, die sich
meist wesentlich leichter lösen lassen.
6.7 Satz Seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen mit charakteristischen
Funktionen ϕ1 , . . . , ϕn . Für die charakteristische Funktion der Summe
X1 + . . . + Xn
gilt dann
ϕ=
n
Y
ϕj .
Ï
j=1
5.4
» ϕ(u) = Eeiu(X1 +...+Xn ) = E(eiuX1 · · · eiuXn ) = (EeiuX1 ) · · · (EeiuXn ).
«
Für die erzeugende und charakteristische Funktion einer Summe von unabhängigen Zufallsvariablen gelten also analoge Aussagen. Beide beruhen auf der
Multiplikativität des Erwartungswerts für unabhänige Zufallsvariablen.
21. Februar 2010 15:09
117
6-C
6
Erzeugende und charakteristische Funktionen, Faltungen
6-C Faltungen
In Abschnitt 5-A haben wir bereits für zwei reelle unabhängige Zufallsvariablen
X und Y die Faltung PX ∗ PY := PX+Y als Verteilung von X + Y definiert. Wir
wollen die Definition nun noch etwas Verallgemeinern und die Argumentationslücken aus 5-A schließen.
6.3 Definition Zu zwei W-Maßen P , Q auf B wird das W-Maß P ∗ Q auf B, die sog.
Faltung von P und Q, folgendermaßen definiert:
1.) Sei T : R × R → R mit T (x, y) = x + y;
P ∗ Q := (P ⊗ Q)T
(P ⊗ Q W-Maß auf B2 mit (P ⊗ Q)(B1 × B2 ) = P (B1 )Q(B2 ), B1,2 ∈ B, sog.
Produkt-W-Maß von P und Q)
oder — äquivalent —
2.) Man wähle ein unabhängiges Paar reeller Zufallsvariablen X, Y mit Verteilungen PX = P , PY = Q und setze
P ∗ Q := PX+Y .
Ï
» Beweis der Äquivalenz in 6.3. Sei Z = (X, Y ) gemäß b), dann gilt
!
PX+Y = PT ◦Z = (PZ )T = (PX ⊗ PY )T .
Um (!) nachzuweisen, genügt es zu zeigen, dass
∀ B1 , B2 ∈ B : (PZ )(B1 × B2 ) = (PX ⊗ PY )(B1 × B2 ) .
|
{z
} |
{z
}
P [Z∈B1 ×B2 ]
(*)
PX (B1 )PY (B2 )
Da X, Y unabhängig sind, gilt
P [Z ∈ B1 × B2 ] = P [(X, Y ) ∈ B1 × B2 ] = P [X ∈ B1 , Y ∈ B2 ]
= P [X ∈ B1 ]P [Y ∈ B2 ]
und somit ist die Identität (*) gezeigt. Mit Hilfe des Fortsetzungssatzes liegt die
Identität auf allen Borelschen Mengen aus B2 vor.
118
«
21. Februar 2010 15:09
Faltungen
6.8 Satz
a) Die Faltungsoperation ist kommutativ und assoziativ.
b) Sei (X, Y ) ein unabhängiges Paar reeller Zufallsvariablen. Für X, Y und
X + Y seien die Verteilungsfunktionen mit F , G, H, die Dichten — falls existent — mit f , g, h und die Zähldichten — falls PX , PY auf N0 konzentriert
sind — mit (pk ), (qk ), (rk ) bezeichnet. Dann gilt
Z
Z
H(t) =
F (t − y) G( dy ) =
G(t − x) F (dx), t ∈ R.
R
R
Falls f existiert, so existiert h mit
Z
h(t) =
f (t − y) G( dy ) für (L-f.a.) t ∈ R;
R
falls zusätzlich g existiert, so gilt
Z
Z
h(t) =
f (t − y)g(y) dy =
g(t − x)f (x) dx für (L-f.a.) t ∈ R.
R
R
Falls (pk )k∈N0 , (qk )k∈N0 existieren, so existiert (rk )k∈N0 mit
rk =
»
k
X
i=0
pk−i qi =
k
X
i=0
qk−i pi (k ∈ N0 ).
Ï
a) Assoiziativität und Kommutativität der Faltungsoperation folgen direkt
aus der Assoziativität und Kommutativität der Addition reeller Zahlen.
b) Siehe auch Satz 5.6. Sei
H(t) = P [X + Y ≤ t] = P [(X, Y ) ∈ B]
mit B := (x, y) : x + y ≤ t , also
Z
H(t) = P(X,Y ) (B) = (PX ⊗ PY )(B) =
PX ((−∞, t − y])PY ( dy )
R
Z
Z
Komm. von X + Y
=
F (t − y)G( dy )
=
G(t − x)F ( dx).
R
R
Falls zu F eine Dichte f existiert, dann gilt für t ∈ R,


t−y
Z
Z
Zt Z
Fubini


H(t) =
f (τ) dτ  G( dy ) =
f (τ − y)G( dy ) dτ .

R
21. Februar 2010 15:09
−∞
−∞
R
119
6-C
6
Erzeugende und charakteristische Funktionen, Faltungen
Falls zusätzlich G eine Dichte g besitzt, dann ist G( dy ) = g(y) dy und
somit besitzt H eine Dichte der Form
h(t) =
Z
R
f (t − y)g(y) dy =
Z
R
g(t − x)f (x) dx,
wobei h(t) nur λ-f.ü. definiert ist. Falls X und Y Zähldichten (pk ) und (qk )
besitzen, dann ist
rk := P [X + Y = k] = P [ ∃ i ∈ {0, 1, . . . , k} : X = k − i, Y = i]
=
=
k
X
P [X = k − i, Y = i] =
k
X
pk−i qi =
i=0
i=0
k
X
k
X
i=0
P [X = k − i]P [Y = i]
qk−i pi . «
i=0
Sind X und Y reelle unabhängige Zufallsvariablen mit Dichten f und g, so
ist mit dem eben bewiesenen die Dichte von X + Y gegeben durch
Z
R
f (x − y)g(y) dy =
Z
R
g(y − x)f (x) dx.
Dieser Ausdruck wird als Faltung von f mit g bezeichnet, geschrieben
f ∗ g =: fX+Y .
6.7 Bemerkungen.
a. Für n1,2 ∈ N, p ∈ [0, 1] gilt
b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p).
Die Summe von n unabhängigen b(1, p) verteilten Zufallsvariablen ist also
b(n, p)-verteilt.
b. Für λ1,2 > 0 gilt π (λ1 ) ∗ π (λ2 ) = π (λ1 + λ2 ).
» π (λ1 ), π (λ2 ) haben nach Bemerkung 6.2 die erzeugenden Funktionen
g1 (s) = eλ1 (s−1) ,
120
g2 (s) = eλ2 (s−1) .
21. Februar 2010 15:09
Faltungen
Im Satz 6.3 haben wir gezeigt, dass die Verteilungsfunktion einer Zufallsvariable X + Y , wobei X und Y unabhängig und X π (λ1 ) und Y π (λ2 ) verteilt
ist, die Form hat
π (λ1 ) ∗ π (λ2 ).
Diese hat die erzeugende Funktion
g1 (s)g2 (s) = e(λ1 +λ2 )(s−1) ,
welche ebenfalls die erzeugende Funktion von π (λ1 + λ2 ) ist. Mit Satz 6.1
folgt nun, dass π (λ1 + λ2 ) = π (λ1 ) ∗ π (λ2 ).
«
c. Für r1,2 ∈ N, p ∈ (0, 1) gilt
Nb(r1 , p) ∗ Nb(r2 , p) = Nb(r1 + r2 , p).
Die Summe von r unabhängigen Nb(1, p)-verteilten Zufallsvariablen ist also Nb(r , p)-verteilt.
2
d. Für a1,2 ∈ R, σ1,2
∈ (0, ∞) gilt
N(a1 , σ12 ) ∗ N(a2 , σ22 ) = N(a1 + a2 , σ12 + σ22 ).
e. Für λ ∈ (0, ∞), ν1,2 ∈ (0, ∞) gilt
Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 .
Die Summe von n unabhängigen exp(λ)-verteilten Zufallsvariablen ist Γλ,n verteilt.
Die Summe der Quadrate von n unabhängigen jeweils N(0, 1)-verteilten
2
Zufallsvariablen ist χn
-verteilt.
Ç
Es lässt sich auch für nicht unabhängige reelle Zufallsvariablen X und Y
nach der Verteilung von X + Y fragen. Um diese zu berechnen kann man stets
folgenden Ansatz wählen,
FX+Y (t) = P [X + Y ≤ t] = P [g ◦ (X, Y ) ≤ t] = P [(X, Y ) ∈ g −1 (−∞, t]]
Z
−1
= P(X,Y ) [g (−∞, t]] =
1 dP(X,Y ) .
g −1 (−∞,t]
Besitzen X und Y eine gemeinsame Dichte, so kann man das eigentliche Inte
grationsgebiet g −1 (−∞, t] ∩ f(X,Y ) ≠ 0 (meißt geometrisch) bestimmen und
so das Integral berechnen.
21. Februar 2010 15:09
121
6-C
7
Spezielle Verteilungen
7 Spezielle Verteilungen
Wir wollen in diesem Kapitel die wesentlichen Eigenschaften der bisher vorgestellten Verteilungen zusammenfassen.
7-A Diskrete Verteilungen
Verteilungen, die auf höchstens abzählbare Mengen konzentriert sind, heißen
diskret. Nimmt eine Zufallsvariable nur endlich oder abzählbar viele Werte an,
so ist ihre Verteilung PX diskret.
7.1 Definition Als Binomialverteilung b(n, p) mit Parametern n ∈ N, p ∈ (0, 1)
oder auch [0, 1] wird ein W-Maß auf B bezeichnet, das auf {0, 1, . . . , n} konzentriert ist und die Zähldichte
!
n k
k , b(n, p; k) :=
p (1 − p)n−k , k ∈ N0
k
besitzt.
Ï
7.1 Satz Sei n ∈ N, p ∈ [0, 1]; q := 1 − p.
a) Ist (X1 , . . . , Xn ) ein n-Tupel unabhängiger reeller Zufallsvariablen mit
P [Xi = 1] = p,
P [Xi = 0] = q,
d.h. mit jeweiliger b(1, p)-Verteilung, so ist
i = 1, . . . , n
Pn
i=1
Xi b(n, p)-verteilt.
b) Für eine Zufallsvariable X mit PX = b(n, p) gilt
EX = np,
V(X) = npq.
c) b(n, p) hat die erzeugende Funktion g mit g(s) = (q + ps)n .
122
21. Februar 2010 15:09
Diskrete Verteilungen
d) Für n1,2 ∈ N gilt
b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p),
d.h. für zwei unabhängige Zufallsvariablen X1 , X2 mit PX1 = b(n1 , p) und
PX2 = b(n2 , p) gilt PX1 +X2 = b(n1 + n2 , p).
Ï
7.1 Bemerkung. Das n-Tupel (X1 , . . . , Xn ) von Zufallsvariablen aus Satz 7.1 be-
schreibt ein n-Tupel von Bernoulli-Versuchen, d.h. Zufallsexperimenten ohne
gegenseitige Beeinflussung mit Ausgängen 1 (“Erfolg”) oder 0 (“Misserfolg”) und
Pn
jeweiliger Erfolgswahrscheinlichkeit p; k=1 Xi gibt die Anzahl der Erfolge in
n Bernoulli-Versuchen an. Ç
7.2 Definition Als Poisson-Verteilung π (λ) mit Parameter λ > 0 wird ein W-Maß
auf B bezeichnet, das auf N0 konzentriert ist und die Zähldichte
k , π (λ; k) := e−λ
λk
, k ∈ N0
k!
besitzt. Ï
7.2 Satz Sei λ > 0.
a) Ist (b(n, pn ))n eine Folge von Binomialverteilungen mit n pn → λ für
n → ∞, dann konvergiert
b(n, pn ; k) → π (λ; k)
(n → ∞) für alle k ∈ N0 .
b) Für eine Zufallsvariable X mit PX = π (λ) gilt
EX = V(X) = λ.
c) π (λ) hat die erzeugende Funktion g mit g(s) = e−λ+λs .
d) Für λ1,2 > 0 gilt
π (λ1 ) ∗ π (λ2 ) = π (λ1 + λ2 ) .
21. Februar 2010 15:09
Ï
123
7-A
7
Spezielle Verteilungen
7.2 Bemerkung. Bei einer rein zufälligen Aufteilung von n unterscheidbaren Teil-
chen auf m gleichgroße mehrfach besetzbare Zellen in einem Euklidischen
Raum wird die Anzahl der Teilchen in einer vorgegebenen Zelle durch eine
b(n,
1
m )-verteilte
Zufallsvariable angegeben.
Der Grenzübergang n → ∞, m → ∞ mit Belegungsintensität
gemäß Satz 7.2a zu einer π (λ)-verteilten Zufallsvariable. Ç
n
m
→ λ > 0 führt
7.3 Definition Als negative Binomialverteilung oder Pascal-Verteilung Nb(r , p) mit
Parametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder auch B) bezeichnet,
das auf N0 konzentriert ist und — mit q := 1 − p — die Zähldichte
!
r +k−1 r k
k , Nb(r , p; k) :=
p q , k∈N
k
besitzt. Speziell wird Nb(1, p) — mit Zähldichte k , p(1 − p)k , k ∈ N0 — als
geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet. Ï
7.3 Satz Sei r ∈ N, p ∈ (0, 1), q := 1 − p.
a) Sei (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten Zufallsvariablen. Die erweitert-reelle Zufallsvariable


n


X
X := inf n ∈ N :
Xk = r − r


k=1
mit inf œ := ∞ ist Nb(r , p)-verteilt.
b) Für eine Zufallsvariable X mit PX = Nb(r , p) gilt
EX =
rq
,
p
V(X) =
rq
.
p2
c) Nb(r , p) hat die erzeugende Funktion g mit g(s) = p r (1 − qs)−r .
d) Für r1,2 ∈ N gilt
Nb(r1 , p) ∗ Nb(r2 , p) = Nb(r1 + r2 , p).
Die Summe von r unabhängigen Nb(1, p)-verteilten Zufallsvariablen ist
somit Nb(r , p)-verteilt. Ï
124
21. Februar 2010 15:09
Diskrete Verteilungen
7.3 Bemerkung. Für die Folge (Xn ) in Satz 7.3a wird durch die erweitert-reelle Zu-
fallsvariable


n


X
T := inf n ∈ N :
Xk = r


k=1
mit inf œ := ∞ die Wartezeit bis zum r -ten Auftreten der Eins in (Xn ) und
durch die erweitert-reelle Zufallsvariable X = T − r die Anzahl der Misserfolge
bis zum r -ten Erfolg bei der zu (Xn ) gehörigen Folge von Bernoulli-Versuchen
Ç
angegeben.
7.4 Definition Als hypergeometrische Verteilung mit Parametern n, r , s ∈ N, wobei
n ≤ r + s, wird ein W-Maß auf B bezeichnet, das auf {0, 1, . . . , n} — sogar auf
{max (0, n − s), . . . , min (n, r )} — konzentriert ist und die Zähldichte
k,
besitzt.
 s
r


 k n−k

 ,




0,
r +s
n
k = 0, 1, . . . , n
k = n + 1, n + 2, . . .
Ï
7.4 Bemerkung. Werden aus einer Urne mit r roten und s schwarzen Kugeln rein
zufällig n Kugeln ohne Zurücklegen gezogen (n, r , s wie in Definition 7.4), so
wird die Anzahl der gezogenen roten Kugeln durch eine Zufallsvariable angegeben, die eine hypergeometrische Verteilung mit Parametern n, r , s besitzt.
Anwendung der hypergeometrischen Verteilung in der Qualitätskontrolle. Ç
21. Februar 2010 15:09
125
7-A
7
Spezielle Verteilungen
7-B Totalstetige Verteilungen
Totalstetige Verteilungen sind die Verteilungen, die eine Dichtefunktion
f : R → R+
besitzen. Sie sind dann natürlich auch stetig, denn für ihre Verteilungsfunktion
gilt
F (t) =
Zt
−∞
f (x) dx,
aber nicht jede stetige Verteilung besitzt eine Dichtefunktion. Mit Hilfe der
Dichtefunktion können wir Randverteilungen, Erwartungswert, Varianz, Momente . . . sehr leicht berechnen. Totalstetige Verteilungen sind also sehr angenehm.
7.5 Definition Als Gleichverteilung auf (a, b) mit −∞ < a < b < ∞ wird ein W-Maß
auf B bezeichnet, das eine Dichte
f =
besitzt.
Ï
1
1(a,b)
b−a
7.4 Satz Für eine Zufallsvariable X mit Gleichverteilung auf (a, b) gilt
EX =
a+b
,
2
V(X) =
(b − a)2
.
12
Ï
7.6 Definition Als (eindimensionale) Normalverteilung oder Gauß-Verteilung N(a, σ 2 )
mit Parametern a ∈ R, σ > 0 wird ein W-Maß auf B bezeichnet, das eine Dichte
f mit
f (x) = √
2
1
− (x−a)
e 2σ 2 ,
2π σ
x∈R
besitzt. Speziell heißt N(0, 1) standardisierte Normalverteilung. Ï
a. Sei f wie in Definition 7.6. Der Graph von f heißt Gaußsche
1
Glockenkurve. Im Fall a = 0 ist f (0) = √
und hat f zwei Wendepunk2π σ
1
te (±σ ; √
).
2π eσ
7.5 Bemerkungen.
126
21. Februar 2010 15:09
Totalstetige Verteilungen
ϕ(t)
√ 1
2πσ
ϕ
7.1
t
σ
−σ
Gaußsche Glockenkurve mit Wendepunkten
b. Dichte- und die Verteilungsfunktion φ von N(0, 1) sind tabelliert.
c. Ist die Zufallsvariable X N(a, σ 2 )-verteilt, so ist
gilt hierbei
X −a
N(0, 1)-verteilt. Es
σ
P [a − σ ≤ X ≤ a + σ ]
=
2φ(1) − 1
≈
0, 683
P [a − 2σ ≤ X ≤ a + 2σ ]
=
2φ(2) − 1
≈
0, 954
P [a − 3σ ≤ X ≤ a + 3σ ]
=
2φ(3) − 1
≈
0, 997 .
d. Anwendung der Normalverteilung z.B. in der Theorie der Beobachtungsfehler.
Ç
7.5 Satz Sei a ∈ R, σ > 0.
a) Für eine Zufallsvariable X mit Verteilung N(a, σ 2 ) gilt:
E(X − a)2k−1 = 0,
E(X − a)2k = σ 2k
k
Y
j=1
(2j − 1),
k ∈ N;
insbesondere EX = a, V(X) = σ 2 . Die Zufallsvariable Y = cX + b mit
0 ≠ c ∈ R, b ∈ R hat die Verteilung N(ca + b, c 2 σ 2 ).
b) Die charakteristische Funktion von N(a, σ 2 ) ist ϕ mit
ϕ(u) = eiau e−
21. Februar 2010 15:09
σ 2 u2
2
.
127
7-B
7
Spezielle Verteilungen
c) Für a1,2 ∈ R, σ1,2 > 0 gilt
N(a1 , σ12 ) ∗ N(a2 , σ22 ) = N(a1 + a2 , σ12 + σ22 ) .
Ï
7.7 Definition Als Exponentialverteilung exp(λ) mit Parameter λ > 0 wird ein W-
Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit


λe−λx , x > 0,
f (x) =
0,

x ≤ 0,
besitzt. Ï
7.6 Satz Sei λ > 0.
a) Sei X eine erweitert-reelle Zufallsvariable, deren Verteilung auf R+ konzentriert sei, mit P [0 < X < ∞] > 0. X erfüllt
∀ s, t ∈ (0, ∞) : P [X > t + s | X > s] = P [X > t].
genau dann, wenn PX eine Exponentialverteilung ist. Diese Eigenschaft
heißt “Gedächtnislosigkeit”.
b) Für eine Zufallsvariable X mit PX = exp(λ) gilt
EX =
1
,
λ
V(X) =
1
.
λ2
c) exp(λ) hat die charakteristische Funktion ϕ mit
ϕ(u) =
λ
.
λ − iu
Ï
7.6 Bemerkung. Die zufällige Lebensdauer eines radioaktiven Atoms wird durch
eine exponentialverteilte Zufallsvariable angegeben. Ç
7.8 Definition Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν > 0 wird ein W-Maß
auf B oder B bezeichnet, das eine Dichtefunktion f mit

ν

 λ x ν−1 e−λx , x > 0
Γ
(ν)
f (x) =


0,
x≤0
2
mit
besitzt. Hierbei gilt Γλ,1 = exp(λ). Γ 1 , n wird als Chi-Quadrat-Verteilung χn
2 2
n(∈ N) Freiheitsgraden bezeichnet. Ï
128
21. Februar 2010 15:09
Totalstetige Verteilungen
7.7 Satz Seien λ, ν > 0, n ∈ N.
a) Für eine Zufallsvariable X mit PX = Γλ,ν gilt EX =
ν
λ,
V(X) =
ν
λ2
.
b) Γλ,ν hat die charakteristische Funktion ϕ mit
ϕ(u) =
λ
λ − iu
ν
.
c) Für ν1,2 > 0 gilt
Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 .
Insbesondere ist Γλ,n die n-fache Faltung von exp(λ).
d) Die Summe der Quadrate von n unabhängigen jeweils N(0, 1)-verteilten
2
reellen Zufallsvariablen ist χn
-verteilt. Ï
7.7 Bemerkung. Sind X, Y zwei unabhängige reelle Zufallsvariablen mit PX = N(0, 1)
X
2
als t -Verteilung
und PY = χn
, so wird die Verteilung der Zufallsvariablen p
Y /n
oder Student-Verteilung tn bzw. Stn mit n Freiheitsgraden bezeichnet (n ∈ N).
2
t1 bzw. St1 ist eine sogenannte Cauchy-Verteilung — Anwendung von χn
und
Stn in der Statistik.
Ç
Sei {Tn : n ∈ N} eine unabhängige Folge nichtnegativ-reeller Zufallsvaria-
blen (d.h. Ti und Tj haben jeweils dieselbe Verteilung) mit P [Tn = 0] < 1.
Definiere die Zufallsvariable Nt := sup {n ∈ N : T1 + . . . + Tn ≤ t} für t ∈ R+
und der Konvention sup œ = 0.
Bsp 1 In einem technischen System wird ein Bauelement mit endlicher zufäl-
liger Lebensdauer bei Ausfall durch ein gleichartiges Element ersetzt. Die einzelnen Lebensdauern seien Realisierung der Zufallsvariablen Tn . Nt gibt die
Anzahl der Erneuerungen im Zeitintervall [0, t] an.
7.8 Satz Ist — mit den obigen Bezeichnungen — Tn exp(λ)-verteilt (λ > 0), so ist Nt
π (λt)-verteilt, t ∈ R+ .
21. Februar 2010 15:09
Ï
129
7-B
7
Spezielle Verteilungen
» Setze Sk := T1 + . . . + Tk mit k ∈ N, wobei S0 = 0. Gesucht ist nun
P [Nt = k] = P [Sk ≤ t, Sk+1 > t] = P [Sk ≤ t] − P [Sk+1 ≤ t],
denn [Sk+1 > t] = [Sk+1 ≤ t]c und somit ist
[Sk ≤ t] ∩ [Sk+1 ≤ t]c = [Sk ≤ t] \ [Sk+1 ≤ t].
Nun ist Sk Γλ,k verteilt und Sk+1 Γλ,k+1 verteilt. Für die Dichte erhalten wir somit,
P [Nt = k] =
Zt
0
λk
x k−1 e−λx dx −
(k − 1)!
(λt)k
= e−λt
k!
Zt
0
λk+1 k −λx
x e
dx
k!
Der letzte Schritt folgt durch Differenzieren der Integrale nach t, Zusammenfassen und anschließendes Integrieren.
«
7.8 Bemerkung. Die Familie {Nt | t ∈ R+ } aus Satz 7.8 ist ein sogenannter Poisson-
Prozess.
130
Ç
21. Februar 2010 15:09
8
Gesetze der großen Zahlen
8 Gesetze der großen Zahlen
8-A Konvergenzbegriffe
8.1 Definition Seien Xn , X reelle Zufallsvariablen (für n ∈ N) auf einem W-Raum
(Ω, A, P ). Die Folge (Xn ) heißt gegen X
1.) vollständig konvergent, wenn für jedes ε > 0 gilt
X
n∈N
P [|Xn − X|] ≥ ε] → 0.
c
Schreibweise Xn → X.
2.) konvergent P -fast sicher (P -f.s., f.s.), wenn
P [Xn → X] = 1.
3.) konvergent nach Wahrscheinlichkeit oder stochastisch konvergent, wenn
für jedes ε > 0 gilt
P [|Xn − X| ≥ ε] → 0.
P
Schreibweise Xn → X,
4.) konvergent im r -ten Mittel (r > 0), wenn E |Xn |r , E |X|r < ∞ für n ∈ N
und E |Xn − X|r → 0.
Spezialfall: r = 2, . . . konvergenz im quadratischen Mittel.
5.) konvergent nach Verteilung, wenn für jede beschränkte stetige Funktion
g : R → R gilt
Eg(Xn ) → Eg(X),
132
n → ∞,
21. Februar 2010 15:09
Konvergenzbegriffe
oder — hier äquivalent — wenn für die Verteilungsfunktion Fn und F von
Xn bzw. X gilt
Fn (x) → F (x),
n → ∞,
D
in jedem Stetigkeitspunkt x von F . Schreibweise Xn → X.
8.1 Bemerkungen.
Ï
a. Seien Fn Verteilungsfunktionen für n ∈ N, dann impliziert
(Fn ) konvergiert nicht, dass lim Fn eine Verteilungsfunktion ist.
n→∞
b. Die Grenzverteilungsfunktion in Definition 8.1 e) ist eindeutig bestimmt.
c. Die Konvergenz in e.) entspricht einer schwach*-Konvergenz der Fn im
Dualraum von Cb (R).
Ç
8.1 Satz Seien Xn , X reelle Zufallsvariablen auf einem W-Raum (Ω, A, P ).
c
a) Falls Xn → X, so gilt Xn → X f.s.
P
b) Falls Xn → X f.s., so gilt Xn → X.
P
c) Falls für r > 0, Xn → X im r -ten Mittel, so gilt Xn → X.
D
P
d) Falls Xn → X, so gilt Xn → X.
Ï
» Vorbetrachtung. Seien Xn , X reelle Zufallsvariablen, so gilt
Xn → X P -f.s. a P [ lim Xn = X] = 1
n→∞


\ [ \

aP
[|Xm − X| < ε] = 1
0<ε∈Q n∈N m≥n
Wobei sich die letzte Äquivalenz direkt aus dem ε−δ-Kriterium für konvergente
Folgen ergibt, wenn man sich für die Wahl von ε auf Q zurückzieht.
Dies ist natürlich äquivalent zu


[ \ [
P
[|Xm − X| ≥ ε] = 0
0<ε∈Q n∈N m≥n





\ [


a∀ε>0:P
[|Xm − X| ≥ ε] = 0


n∈N m≥n
{z
}
|
:=An (ε)
21. Februar 2010 15:09
133
8-A
8
Gesetze der großen Zahlen
Nun ist An ↓ A, d.h. wir können dies auch schreiben als
∀ ε > 0 : lim P (An (ε)) = 0
n→∞
a ∀ ε > 0 : lim P
n→∞
sup |Xm − X| ≥ ε
m≥n
!
= 0.
Weiterhin gilt
P [|Xn − X| ≥ ε] ≤ P [sup |Xn − X| ≥ ε] ≤
c
a) Falls Xn → X, dann gilt
Xn → X f.s.
P
m≥n
X
m≥n
P [|Xn − X| ≥ ε] .
P [|Xn − X| ≥ ε] → 0 und damit auch
b) Falls Xn → X f.s., so gilt P [sup |Xn − X| ≥ ε] → 0 und damit auch
P [|Xn − X| ≥ ε] → 0.
c) Unter Verwendung der Markov-Ungleichung erhalten wir
P [|Xn − X| ≥ ε] ≤
1
E |Xn − X|r
εr
P
also Xn → X, wenn Xn → X im r -ten Mittel.
P
d) Sei g : R → R beschränkt und stetig und Xn → X. Es existiert also zu jeder
Teilfolge (Xn0 ) eine konvergente Teilfolge (Xn00 ), die gegen X konvergiert.
Somit gilt g(Xn00 ) → g(X) f.s.
Mit dem Satz von der dominierten Konvergenz erhalten wir somit
Eg(Xn00 ) → Eg(X).
Nun verwenden wir den Satz aus der Analysis, dass eine Folge genau dann
konvergiert, wenn jede Teilfolge eine konvergente Teilfolge besitzt, und alle
diese Teilfolgen denselben Grenzwert haben und erhalten somit, Eg(Xn ) →
D
Eg(X), d.h. Xn → X.
134
«
21. Februar 2010 15:09
Schwache und starke Gesetze der großen Zahlen
8-B Schwache und starke Gesetze der großen Zahlen
8.2 Definition Eine Folge (Xn ) von integrierbaren reellen Zufallsvariablen auf ei-
nem W-Raum (Ω, A, P ) genügt dem schwachen bzw. starken Gesetz der großen
Zahlen, wenn
n
1 X
(Xk − EXk ) → 0,
n k=1
n → ∞ nach Wahrscheinlichkeit bzw. P -f.s. Ï
8.2 Bemerkung. Genügt eine Folge von Zufallsvariablen dem starken Gesetzt der
großen Zahlen, dann genügt sie auch dem schwachen Gesetz der großen Zahlen.
Die Umkehrung gilt im Allgemeinen nicht.
Ç
8.2 Kriterium von Kolmogorov für das starke Gesetz der großen Zahlen Eine un-
abhängige Folge (Xn ) quadratisch integrierbarer reeller Zufallsvariablen mit
∞
X
n=1
n−2 V(Xn ) < ∞
genügt dem starken Gesetz der großen Zahlen. Ï
» Wir wollen den Satz zunächst nur unter der stärkeren Bedingung
sup V(Xn ) =: C < ∞
n
(jedoch unter der schwächeren Voraussetzung der paarweisen Unkorreliertheit
der (Xn ) anstatt der Unabhängigkeit). Einen vollständigen Beweis werden wir
mit Hilfe der Martingaltheorie geben können.
Wir zeigen nun
und


X
1 n
C

Xj − EXj ≥ ε ≤
∀ε>0:P nε2
n j=1
(1)
n
1 X
(Xj − EXj ) → 0
n j=1
21. Februar 2010 15:09
135
8-B
8
Gesetze der großen Zahlen
1
n
im quadratischen Mittel und P -f.s.. Setze Yj := Xj − EXj , Zn :=
n
P
j=1
Yj . Mit
Hilfe der Markov-Ungleichung erhalten wir


n
n
1  X  Bienayme 1 X C
2
ε P [|Zn | ≥ ε] ≤ V(Zn ) = 2 V
Yj
=
V Yj ≤ .
n
n2 j=1
n
j=1
Somit folgt (1) und damit
n
1 X
Xj − EXj → 0,
n j=1
im quadratischen Mittel.
Es verbleibt die P -f.s. konvergenz zu zeigen. Betrachte dazu
∞
C X 1
.
P [Zn2 ≥ ε] ≤ 2
ε n=1 n2
n=1
∞
X
also konvergiert Zn2 vollständig und insbesondere auch P -f.s. gegen 0 (mit Satz
8.1). Sei nun n ∈ N, setze
n
o
m(n) := max m ∈ N : m2 ≤ n
dann folgt m(n)2 ≤ n < (m(n) + 1)2 .
2
m(n)
n
X
1 X
1
|Zn | ≤ Yj + Yj n j=1
n j=m(n)2 +1 {z
}
|
1
Nun ist n
m(n)
P2 1
Yj ≤ m(n)
2
j=1
=:Rn
m(n)
P2
j=1
Yj → 0 P -f.s.. Es genügt also zu zeigen,
dass Rn → 0 P -f.s.. Sei also ε > 0, dann folgt mit der Markov-Ungleichung und
dem Satz von Bienayme
ε2 P [|Rn | ≥ ε] ≤ V(Rn ) ≤
1
n2
n
X
j=m(n)2 +1
V(Yj ) ≤
C
(n − m(n)2 )
n2
C
((m(n) + 1)2 − 1 − m(n)2 )
n2
√
C
n
= 2 (2m(n)) ≤ 2C 2 = 2Cn−3/2 .
n
n
≤
Da
136
P
n≥0
n−3/2 < ∞, folgt (Rn ) konvergiert vollständig gegen 0.
«
21. Februar 2010 15:09
Schwache und starke Gesetze der großen Zahlen
8.3 Kolmogorovsches starkes Gesetz der großen Zahlen Für eine unabhängige Fol-
ge (Xn ) identisch verteilter integrierbarer reeller Zufallsvariablen gilt
n
1 X
Xk → EX1 ,
n k=1
n → ∞, f .s.
Ï
» Um die quadratische Integrierbarkeit der Zufallsvariablen zu gewährleisten,
führen wir gestutzte Zufallsvariablen ein durch
Xi0 := Xi 1[|Xi |≤i]
Insbesondere folgt aus der Unabhängigkeit der Xn auch die Unabhängigkeit der
Xn0 . Setze weiterhin
Sn0 =
n
X
i=1
Xi0 ,
kn := bϑn c
Sn :=
n
X
Xi ,
i=1
für beliebiges aber fest gewähltes ϑ > 1.
ε2
∞
X
n=1
P
kn
∞
∞
X
X
1 1
1 X
0
0
Skn − ESk0 n ≤
V(Xk0 )
V(S
)
=
kn
kn
k2
k2
n=1 n
n=1 n k=1
≤
kn
kn
∞
∞
X
X
1 X
1 X
0 2
E((X
)
)
≤
E(Xk2 1[|Xk |≤k] )
k
2
2
k
k
n
n
n=1
n=1
k=1
k=1
≤
kn
∞
X
1 X
E(X12 1[|X1 |≤kn ] ),
2
k
n
n=1
k=1
denn da alle Zufallsvariablen dieselbe Verteilung besitzten, ist es für den Erwartungswert unerheblich, welche Zufallsvariable speziell ausgewählt wird. Aufgrund der Linearität von E und dem Satz der monotonen Konvergenz folgt,


∞
X
1
2

≤ E X1
1[|X1 |≤kn ]  .
k
n
n=1
Setzen wir n0 := min {n ∈ N : |X1 | ≤ kn }, so gilt


∞
X
1
2
= E X1
1[|X1 |≤kn ]  .
n=n0 kn
21. Februar 2010 15:09
137
8-B
8
Gesetze der großen Zahlen
Außerdem |X1 | ≤ kn0 = bϑn0 c ≤ ϑn0 , also
∞
X
n=n0
wobei
1
bϑn0 c
∞
∞
X
1 X 2
2
1
1
1
1[|X1 |≤kn ] ≤
≤ n
= n
n
n
0
0
kn
bϑ
ϑ
ϑ
ϑ
c
1
−
n=n0
n=0
≤
2
ϑn0
1
ϑ
≤
2
ϑ
,
|X1 | ϑ − 1
, denn es gilt allgemein für positive reelle Zahlen bpc >
p
2.
Also erhalten wir für den Erwartungswert,


∞
X
1
2
ϑ
2ϑ
E X12
1[|X1 |≤kn ]  ≤ E X12
=
E |X1 | < ∞,
k
|X
|
ϑ
−
1
ϑ
−1
1
n=n0 n
da E |Xn | < ∞ nach Voraussetzung.
Mit Satz 8.1 folgt
1 0
Skn − ESk0 n → 0,
kn
P -f.s. für n → ∞
wobei
kn
1
1 X
ESk0 n =
E(X1 1[|X1 |≤k] ).
kn
kn k=1
Mit dem Satz von der dominierten Konvergenz folgt E(X1 1[|X1 |≤k] ) → EX1 und
damit,
kn
1 X
E(X1 1[|X1 |≤k] ) → EX
kn k=1
nach dem Satz von Césaro–Stolz bzw. dem Cauchyschen Grenzwertsatz.
Sk
Außerdem konvergiert n → EX1 P -f.s., denn
kn
∞
X
n=1
P [Xn = Xn0 ] =
∞
X
n=1
P [|Xn | > n] ≤
dom.konv
=
Z∞
0
n
∞ Z
X
n=1 n−1
P [|Xn | > t] dt
P [|Xn | > t] dt = EX1 .
Mit Lemma von Borel-Cantelli folgt dass Xn und Xn0 für alle bis auf endlich viele
n übereinstimmen, damit
Skn − Sk0 n
kn
138
→ 0,
P -f.s. für n → ∞.
21. Februar 2010 15:09
8-B
Schwache und starke Gesetze der großen Zahlen
Zusammenfassend erhalten wir also
Skn − Sk0 n
Sk0 − ESk0 n
ESk0 n
Skn
=
+ n
+
→ EX1 f.s.
kn
kn
kn
k
|
{z
} |
{z
}
| {zn }
→0 f.s.
→0 f.s.
→EX1 f.s.
Sei zunächst Xi ≥ 0 für alle i ∈ N. Dann gilt für alle i mit kn ≤ i ≤ kn+1 ,
Sk
Sk
kn Si
Si
kn+1
kn Skn
≤
≤
≤ n+1 ≤ n+1
.
kn+1 kn
kn+1 kn
i
i
kn+1 kn
per definitionem ist
kn
bϑn c
ϑn − 1
1
=
≥
→
kn+1
bϑn+1 c
ϑn+1
ϑ
analog erhält man
kn+1
kn
→ ϑ. Somit folgt
1
Sn
Sn
EX1 ≤ lim inf
≤ lim sup
≤ ϑEX1 .
n
ϑ
n
n
n
Da ϑ > 1 beliebig und obige Gleichung für alle ϑ gilt, folgt durch den Übergang
ϑ ↓ 1,
EX1 = lim
n→∞
Sn
,
n
P -f.s. n → ∞.
Sei jetzt Xi reellwertig, mit Xi = Xi+ − Xi− , dann ist
n
n
n
1 X +
1 X −
1 X
Xi =
Xi −
X → EX1+ − EX1− = EX1 ,
n i=1
n i=1
n i=1 i
8.3 Bemerkungen.
P -f.s. für n → ∞.
a. In Satz 8.3 darf die Integrierbarkeitsvoraussetzung nicht
weggelassen werden.
b. Die Voraussetzung der Unabhängigkeit in Satz 8.4 kann zur Voraussetzung
der paarweisen Unabhängigkeit abgeschwächt werden (Etemadi).
c. In Satz 8.2 kann bei
P
n−2 V(Xn )(log n)2 < ∞ die Unabhängigkeitsvor-
aussetzung zur Voraussetzung der paarweisen Unkorreliertheit (s.u.) abgeschwächt werden (Rademacher, Menchov). Ç
21. Februar 2010 15:09
139
«
8
Gesetze der großen Zahlen
8.4 Satz von Tschebyschev Eine Folge (Xn ) quadratisch integrierbarer paarweise
unkorrelierter, d.h. es gilt
∀ j ≠ k : E(Xj − EXj )(Xk − EXk ) = 0,
reeller Zufallsvariablen mit
n−2
n
X
k=1
V(Xk ) → 0,
n → ∞,
genügt dem schwachen Gesetz der großen Zahlen. Ï
8.4 Bemerkung. Für eine unabhängige Folge (Xn ) identisch verteilter reeller Zu-
fallsvariablen mit P [X1 = 1] = p, P [X1 = 0] = 1 − p (festes p ∈ [0, 1]) gilt
n
1 X
Xk → p,
n k=1
n→∞
P -f.s. und nach Wahrscheinlichkeit.
Borelsches Gesetz der großen Zahlen bzw. Bernoullisches schwaches Gesetzt
der großen Zahlen. Ç
Bemerkung 8.4 stellt ein theoretisches Gegenstück zu der Erfahrungstatsache dar, dass im Allgemeinen die relative Häufigkeit eines Ereignisses bei großer
Zahl der unter gleichen Bedingungen unabhängig durchgeführten Zufallsexperimente näherungsweise konstant ist.
Wir betrachten nun zwei Beispiele zu Satz 8.3 und Bemerkung 8.4.
Bsp 1 Es seien X1 , X2 , . . . unabhängige identisch verteilte Zufallsvariablen Zn
mit existierenden (endlichen) EX1 =: a und V(X1 ) =: σ 2 . Aufgrund der beobachteten Realisierungen x1 , . . . , xn von X1 , . . . , Xn wird a geschätzt durch
x n :=
n
1 X
xi
n i=1
das sogenannte empirische Mittel und σ 2 durch
2
sn
:=
140
n
1 X
(xi − x n )2
n − 1 i=1
21. Februar 2010 15:09
Schwache und starke Gesetze der großen Zahlen
die sogenannte empirische Varianz. Für
n
1 X
Xi ,
n i=1
X n :=
Sn2 :=
n
1 X
(Xi − X n )2
n − 1 i=1
gilt EX n = a, ESn2 = σ 2 (sogenannte Erwartungstreue der Schätzung) und ferner
für n → ∞,
Sn2 → σ 2 f.s.,
X n → a f.s.,
sogenannte Konsistzenz der Schätzfolgen. » Wir zeigen Sn2 → σ 2 P -f.s.. Setzen wir µ = EX1 , so gilt
Sn2


n
n
n 1 X
1 X
2
2
(Xi − X n ) =
(Xi − µ + µ − X n )
:=
n − 1 i=1
n − 1 n i=1





 X
n
n
n
X
X

n 
1
2
1
2
2

=
(Xi − µ) +
(Xi − µ) (µ − X n ) +
(µ − X n )  ,
n
| {z } n
n
−
1
n


| {z }  i=1
i=1
i=1
|
|
{z
} |
{z
} →0 f.s.
{z
}
→1
→σ 2 P -f.s.
→ σ 2 f.s.
→0 P -f.s.
(µ−X n )2 →0 f.s.
Bsp 2 Für eine Menge von n radioaktiven Atomen mit unabhängigen exp(λ)-
verteilten Lebensdauern (mit Verteilungsfunktion F ) gebe - bei festem T > 0 die Zufallsvariable Zn die zufällige Anzahl der Atome an, die von jetzt (Zeitpunkt 0) an bis zum Zeitpunkt T zerfallen. Die Wahrscheinlichkeit, dass ein
gewisses Atom im Zeitintervall [0, T ] zerfällt, ist p = F (T ) = 1 − e−λT . Nach
Bemerkung 8.4 konvergiert mit Wahrscheinlichkeit Eins Zn /n → p für n → ∞.
Wählt man T so, dass F (T ) =
1
2,
dann gilt
f.s.
1
Zn
→ ,
n
2
d.h. T = (ln 2)/λ (T sog. Median von exp(λ)),
n → ∞.
Dieses T wird als Halbwertszeit des radioaktiven Elements bezeichnet (nach T
Zeiteinheiten ist i.A. bei großem n ungefähr die Hälfte der Atome zerfallen).
21. Februar 2010 15:09
141
8-B
8
Gesetze der großen Zahlen
Bsp 3 Aus der Analysis ist der Satz von Weierstraß bekannt, dass jede stetige
Funktion f : R → R auf einem kompakten Intervall gleichmäßiger Limes von
Polynomen ist.
Wir wollen diesen Satz nun unter Verwendung des Kolmogorovschen starken
Gesetz der großen Zahlen beweisen. Dazu verwenden wir Bernstein-Polynome,
um stetige Funktionen über einem kompakten Intervall zu approximieren.
Sei f : [0, 1] → R stetig. Die Bernsteinpolynome n-ten Grades sind definiert
durch
fn (p) =
n
X
f
k=0
k
n
!
n k
p (1 − p)n−k ,
k
p ∈ [0, 1].
Wir versehen also [0, 1] mit einem Gitter mit Gitterabstand
1
n,
werten f an
k
n
aus und multiplizieren mit speziellen Gewichten.
Seien U1 , . . . , Un unabhängige auf [0, 1] identisch gleichverteilte Zufallsvariablen. Wähle p ∈ [0, 1] fest und setze
Xi := 1[0,p] (Ui ) = 1Ui ∈[0,p] .
Die Xi sind dann unabhängige und b(1, p)-verteilte Zufallsvariablen.
 




n
X

1
E f 
1[0,p] (Ui ) = E 
f
n i=1


 
=
n
X
k=0
f
k
n







n
1 X
Xi
n i=1
| {z }
∈{0,1/n,2/n,...,1}
!
n k
p (1 − p)k = fn (p)
k







Sei ε > 0 beliebig. Da f auf dem kompakten Intervall [0, 1] gleichmäßig stetig,
existiert ein δ > 0, so dass
x − y < δ ⇒ f (x) − f (y) < ε,
für x, y ∈ [0, 1].
Somit gilt
 

n
X
fn (p) − f (p) = E f  1


1
(U
)
−
f
(p)
[0,p]
i
n i=1
 




n
n
X
X
1
1
= E f 
1[0,p] (Ui ) − f (p) ≤ E f 
1[0,p] (Ui ) − f (p)
n i=1
n i=1
142
21. Februar 2010 15:09
Schwache und starke Gesetze der großen Zahlen
P
1 n
Falls nun n
1[0,p] (Ui ) − p < δ, ist der Erwartungswert < ε, andernfalls
i=0
schätzen wir grob durch die Dreiecksungleichung ab,
#
≤ E ε + 2 f ∞ · 1" 1 P
n
n
1
(U )−p ≥δ i=0 [0,p] i


X
n
V 1[0,p] (U1 )
1

1[0,p] (Ui ) − p = ε + 2 f ∞ P 
≥δ ≤ε+2 f ∞
n
nδ2
i=0
p(1 − p)
1
= ε + 2 f ∞
≤ ε + 2 f ∞
2
nδ
nδ2
Somit fn % f gleichmäßig auf [0, 1].
Bernstein-Polynome haben sehr angenehme Eigenschaften. Ist beispielsweise
f monoton, so ist auch fn monoton. Ist f konvex, so ist auch fn konvex.
21. Februar 2010 15:09
143
8-B
9
Zentrale Grenzwertsätze
9 Zentrale Grenzwertsätze
9-A Schwache Konvergenz von
Wahrscheinlichkeitsmaßen in R
Im Folgenden sei stets n ∈ N und “→” bezeichne die Konvergenz für n → ∞.
1.) Seien Qn , Q W-Maße auf der σ -Algebra B der Borelschen Men-
9.1 Definition
gen in R. Die Folge (Qn ) heißt gegen Q schwach konvergent (weakly convergent) — Schreibweise Qn → Q schwach — , wenn für jede beschränkte
stetige Funktion g : R → R gilt,
Z
R
g dQ n →
Z
R
g dQ ,
n → ∞.
2.) Seien Xn , X reelle Zufallsvariablen (nicht notwendig auf demselben WRaum definiert). Die Folge (Xn ) heißt gegen X nach Verteilung konverD
gent (convergent in distribution, convergent in law) — Schreibweise Xn →
X (n → ∞) — , wenn PXn → PX schwach, d.h. für jede beschränkte stetige
Funktion g : R → R gilt
Z
R
g dPXn →
Z
R
g dPX ,
n→∞
oder (äquivalent nach dem Transformationssatz für Integrale)
Eg(Xn ) → Eg(X),
9.1 Bemerkungen.
n → ∞.
Ï
a. In Definition 9.1a ist das Grenz-W-Maß Q eindeutig bestimmt.
b. In Definition 9.1b können Xn , X durch reelle Zufallsvariablen Xn0 , X 0 mit
PXn0 = PXn , PX 0 = PX ersetzt werden. Ç
144
21. Februar 2010 15:09
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
Bevor wir die Eindeutigkeit des Grenz-W-Maßes beweisen, betrachten wir zunächst den Poissonschen Grenzwertsatz
∀ k ∈ N0 : b(n, pn ; k) → π (λ; k),
n → ∞,
falls npn → λ. Dies ist (hier) äquivalent zu
∀ x ∈ R : Fn (x) → F (x),
wobei Fn Verteilungsfunktion einer b(n, p)-verteilten und F Verteilungsfunktion einer π (λ)-verteilten Zufallsvariable ist.
Seien Xn , X reelle Zufallsvariablen mit Xn =
X f.s. für n → ∞.
1
f.s., X := 0 f.s., so gilt Xn →
Fn
F
1
n
9.1
1
n
t
Verteilungsfunktionen von X und Xn .
Für die Verteilungsfunktionen folgt
∀ x ∈ R \ {0} : Fn (x) → F (x),
denn 0 ist Unstetigkeitsstelle von F . Wir sehen an diesem Beispiel, dass die Konvergenz der Verteilungsfunktion in Unstetigkeitsstellen im Allgemeinen nicht
fordern können. Wir können jedoch die Konvergenz nach Verteilung durch die
Konvergenz der Fn in Stetigkeitspunkten charakterisieren.
Klassische Definition der Verteilungskonvergenz Seien Xn , X reelle Zufallsvariablen bzw. Qn , Q W-Maße mit Verteilungsfunktion Fn bzw. F . Dann ist
D
Xn → X,
21. Februar 2010 15:09
145
9-A
9
Zentrale Grenzwertsätze
bzw.
Qn → Q schwach,
wenn
∀ Stetigkeitspunkte x von F : Fn (x) → F (x),
n → ∞.
Ï
Diese Definition ist jedoch nicht so allgemein wie die in 9.1, da sie sich nicht
auf unendlichdimensionale Räume übertragen lässt.
» Beweis der Eindeutigkeit des Grenz-W-Maßes. Falls Qn → Q∗ schwach und Qn →
Q∗∗ schwach, so gilt nach Satz 9.2 (noch zu zeigen),
Fn (x) → F ∗ (x),
Fn (x) → F ∗∗ (x)
für jede Stetigkeitsstelle x von F ∗ bzw. F ∗∗ . Aufgrund der rechtsseitigen Stetigkeit einer Verteilungsfunktion folgt,
∀ x ∈ R : F ∗ (x) = F ∗∗ (x)
und damit auch Q∗ = Q∗∗ .
«
9.1 Satz Seien Xn , X reelle Zufallsvariablen auf (Ω, A, P ). Dann gilt
D
P
Xn → X ⇒ Xn → X.
Ï
» Sei g : R → R stetig und beschränkt. Angenommen E(g(Xn ) − g(X)) konvergiert nicht gegen Null, es gibt also eine Teilfolge (nk ), so dass
E(g(Xn ) − g(X)) > ε,
k
∀ k ∈ N.
P
Aber da auch Xnk → X, besitzt Xnk eine Teilfolge, die P -f.s. konvergiert. Da g
stetig, folgt somit auch
g(Xnkl ) → g(X) P -f.s.
Da außerdem g beschränkt, können wir den Satz von der dominierten Konvergenz anwenden und erhalten somit
Eg(Xnkl ) → Eg(X),
im Widerspruch zur Annahme, dass Eg(Xn ) nicht gegen Eg(X) konvergiert.
146
«
21. Februar 2010 15:09
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
9.2 Satz Seien Qn , Q W-Maße auf B bzw. reelle Zufallsvariablen Xn , X mit Vertei-
lungsfunktion Fn , F .
D
Qn → Q schwach bzw. Xn → X gilt genau dann, wenn Fn (x) → F (x) für alle
Stetigkeitspunkte x von F .
Ï
D
» “⇒”: Es gelte Xn → X. Sei D := {x ∈ R : F (x−) = F (x)} die Menge der Stetigkeitspunkte von F . D ist dicht in R, denn F ist monoton und daher ist D c
höchstens abzählbar. Sei x ∈ D. Für jedes p ∈ N setze



1,
y ≤ x,



fp (y) := p(x − y), x ≤ y ≤ x + p1 ,





0,
x + p1 ≤ y,



y ≤ x − p1 ,
1,


gp (y) := p(x − y), x − p1 ≤ y ≤ x,




0,
x ≤ y.
gp
x−
9.2
1(−∞,x]
1
p
x
fp
x+
1
p
t
Verteilungsfunktionen von X und Xn .
fp , gp : R → [0, 1] sind stetige, beschränkte Approximationen von 1(−∞,x] (y),
wobei
fp (y) ↓ 1(−∞,x] (y),
gp (y) ↑ 1(−∞,x] (y),
p → ∞.
Da Xn nach Verteilung konvergiert, gilt
∀ p ∈ N : lim Efp (Xn ) = Efp (X),
n→∞
∀ p ∈ N : lim Egp (Xn ) = Egp (X).
n→∞
21. Februar 2010 15:09
147
9-A
9
Zentrale Grenzwertsätze
Nach Definition der Verteilungsfunktion ist Fn (x) = E1(−∞,x] (X), also gilt auch
Egp (Xn ) ≤ Fn (x) ≤ Efp (Xn ).
Mit dem Lemma von Fatou folgt außerdem
∀ p ∈ N : Egp (X) ≤ lim inf Egp (Xn ) ≤ lim inf Fn (x) ≤ lim sup Fn (x)
n→∞
n→∞
n→∞
≤ lim sup Efp (Xn ) ≤ Efp (X),
(*)
n→∞
da fp beschränkt. Weiterhin folgt mit dem Satz von der monotonen Konvergenz,
lim Efp (X) = E1(−∞,x] (X) = P [X ≤ x] = F (x),
p→∞
lim Egp (X) = E1(−∞,x) (X) = P [X < x] = F (x−).
p→∞
Mit (*) folgt F (x − 0) ≤ lim inf Fn (x) ≤ lim sup Fn (x) ≤ F (x). Für x ∈ D gilt
n→∞
n→∞
F (x−) = F (x),
also auch
lim Fn (x) = F (x).
n→∞
“⇐”: Diese Richtung ist etwas mühsamer. Hier approximiert man umgekehrt
zur Hinrichtung eine stetige, beschränkte Funktion g durch Stufenfunktionen.
Details findet man in [Jacod J, Protter P. Probability Essentials].
«
9.3 Satz Seien Xn , X reelle Zufallsvariablen auf (Ω, A, P ). Ist X P-f.s. konstant, so
gilt:
D
P
Xn → X a Xn → X.
Ï
» “⇐”: Klar nach Satz 9.1.
“⇒”: Sei X = c P -f.s. mit Verteilungsfunktion F . c ist die einzige Unstetig-
keitsstelle von F .
148
21. Februar 2010 15:09
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
F
1
c
9.3
x
Verteilungsfunktionen von X.
D
Da Xn → X nach Voraussetzung folt mit Satz 9.1,
∀ R \ {c} : Fn (x) → F (x).
Sei ε > 0 beliebig aber fest, so gilt
P [|Xn − X| > ε] = 1 − P [|Xn − X| ≤ ε]
P [|Xn − X| ≤ ε] = P [c − ε ≤ Xn ≤ c + ε] ≥ P [c − ε < Xn ≤ c + ε]
= Fn (c + ε) − Fn (c − ε) → 1.
{z
} |
{z
}
|
→F (c+ε)
→F (c−ε)
Somit konvergiert P [c − ε < Xn ≤ c + ε] → 1, also P [|Xn − X| > ε] → 0.
«
9.4 Satz Seien Xn , Yn , X reelle Zufallsvariablen auf (Ω, A, P ). Gilt
D
P
Xn → X,
|Xn − Yn | → 0,
so folgt
D
Yn → X.
Ï
» Sei g : R → R stetig und beschränkt. Ohne Einschränkung können wir annehmen, dass g gleichmäßig stetig ist (siehe Satz 9.9). Außerdem gilt ohne Einschränkung
|Xn − Yn | → 0 P -f.s.
21. Februar 2010 15:09
149
9-A
9
Zentrale Grenzwertsätze
ansonsten gehen wir zu einer Teilfolge (nk ) über. Betrachte
Eg(Yn ) = Eg(Xn ) + E[g(Yn ) − g(Xn )].
da g gleichmäßig stetig und |Xn − Yn | → 0 P -f.s. gilt g(Yn ) − g(Xn ) → 0 P -f.s..
g(Yn ) − g(Xn ) ≤ c, da g beschränkt, also können wir den Satz von der dominierten Konvergenz anwenden und erhalten E[g(Yn ) − g(Xn )] → 0.
Somit gilt
Eg(Yn ) = Eg(Xn ) + E[g(Yn ) − g(Xn )] → Eg(X) P -f.s..
| {z }
{z
}
|
«
→0 P -f.s.
→Eg(X) P -f.s.
9.5 Spezialfall des Darstellungssatzes von Skorokhod Seien Xn , X reelle ZufallsD
variablen mit Xn → X. Dann existiert ein W-Raum (Ω∗ , A∗ , P ∗ ) — wobei man
Ω∗ = [0, 1], A∗ = [0, 1] ∩ B, P ∗ = L-B-Maß auf A∗ wählen kann — und reelle
Zufallsvariablen Xn∗ , X ∗ auf (Ω∗ , A∗ , P ∗ ) derart, dass
∀ n ∈ N : PXn = PX∗n∗ , PX = PX∗∗ , Xn∗ → X ∗ P ∗ -f.s. Ï
» Beweisidee. Wähle als Ansatz für Xn∗ , X ∗ die verallgemeinerte Inverse von Fn
und F ,
Xn∗ (ω) := inf {t ∈ R : Fn (t) ≥ ω} ,
X ∗ (ω) := inf {t ∈ R : F (t) ≥ ω} .
D
Nach Annahme konvergiert Xn → X und daher Fn (x) → F (x) in den Stetigkeitspunkten von F . Zu zeigen ist nun
Xn∗ (ω) → X ∗ (ω)
in den Stetigkeitspunkten ω von X ∗ , also λ-f.ü..
Formaler Beweis. Wähle Ω∗ = (0, 1), A∗ = (0, 1) ∩ B und P ∗ = λA∗ . Seien
Fn und F die Verteilungsfunktionen von Xn und X. Nun setzen wir
Xn∗ (ω) := inf {t ∈ R : Fn (t) ≥ ω} ,
X ∗ (ω) := inf {t ∈ R : F (t) ≥ ω} ,
150
21. Februar 2010 15:09
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
d.h. Xn∗ und X ∗ sind die verallgemeinerten Inversen von Fn bzw. F . Somit sind
Xn∗ und X ∗ monotone Funktionen und damit insbesondere messbar. Wähle für
die Verteilung von X ∗ ,
P ∗ [X ∗ ≤ x] := F (x) = P [X ≤ x],
so gilt PX∗∗ = PX , entsprechend für Xn und Xn∗ . Somit ist auch klar, dass X ∗
höchstens abzählbar viele Unsteigkeitsstellen hat.
Es genügt nun zu zeigen Xn∗ → X ∗ für alle Stetigkeitspunkte ω von X ∗ . Sei
ω Stetigkeitspunkt von X ∗ und ε > 0. Es existieren dann Stetigkeitspunkte x1
und x2 von F mit
x1 < X ∗ (ω) < x2 und x2 − x1 < ε,
(*)
Hierbei gilt auch F (x1 ) < ω < F (x2 ), da ω Stetigkeitspunkt von X ∗ , sowie
Fn (x1 ) → F (x1 ) und Fn (x2 ) → F (x2 ), da x1 , x2 Stetigkeitspunkte von F und
D
Xn → X. Also
∃ n0 ∈ N ∀ n ≥ n0 : Fn (x1 ) < ω < Fn (x2 )
und damit auch
∀ n ≥ n0 : x1 ≤ Xn∗ (ω) ≤ x2 ,
(**)
wobei lediglich benötigt wird, dass ω Stetigkeitspunkt von X ∗ , nicht unbedingt
von Xn∗ .
Aus (*) und (**) folgt nun Xn∗ (ω) − X ∗ (ω) < ε.
«
D
9.6 Satz von der stetigen Abbildung Seien Xn , X reelle Zufallsvariablen mit Xn →
X. Sei die Abbildung
h : (R, B) → (R, B)
D
PX -f.ü. stetig. Dann gilt h(Xn ) → h(X).
Ï
» Sei D := x ∈ R : h unstetig in x . Den Beweis D ∈ B überspringen wir. Nach
Voraussetzung ist PX (D) = 0.
21. Februar 2010 15:09
151
9-A
9
Zentrale Grenzwertsätze
Nach Satz 9.5 existieren ein W-Raum (Ω∗ , A∗ , P ∗ ) und Zufallsvariablen Xn∗ ,
∗
X : (Ω∗ , A∗ , P ∗ ) → (R, B) mit Xn∗ → X ∗ P ∗ -f.ü. und
PX∗n∗ = PXn ,
PX∗∗ = PX .
Da h stetig, gilt
h(Xn∗ (ω)) → h(X ∗ (ω))
für ω ∈ D c , aber
P ∗ ( ω ∈ Ω∗ : X ∗ (ω) ∈ D ) = P ∗ [X ∗ ∈ D] = PX∗∗ (D) = PX (D) = 0,
D
also gilt h(Xn∗ ) → h(X ∗ ) P ∗ f.s. Somit folgt nach Satz 9.1 h(Xn∗ ) → h(X ∗ ), also
∗
∗
Ph(X
∗ → Ph(X ∗ )
n)
schwach.
∗
∗
∗
Nun ist Ph(X
∗ = (P ∗ )h = (PXn )h = Ph(Xn ) , analog Ph(X ∗ ) = Ph(X ∗ ) . Somit
Xn
n)
Ph(Xn ) → Ph(X)
schwach.
«
Wie wir gesehen haben, vertauscht der Limes Operator der Verteilungskonvergenz im Allgemeinen nicht mit der Addition oder der Multiplikation. Für
spezielle Zufallsvariablen erhalten wir jedoch Vertauschbarkeit.
9.7 Satz von Slutsky Seien Xn , Yn und X reelle Zufallsvariablen auf (Ω, A, P ) und
c ∈ R.
D
Xn → X,
P
Yn → c,




D

Xn + Yn →
X + c,
⇒
D


 Y X → cX. Ï
n
n
» Sei c ∈ R und Zn := Xn + (Yn − c), so gilt
|Xn − Zn | = |Yn − c| = 0 f.s.,
P
insbesondere |Xn − Zn | → 0. Somit ist 9.4 anwendbar und daher,
D
Xn + (Yn − c) = Zn → X.
152
21. Februar 2010 15:09
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
Nun wenden wir den Satz von der stetigen Abbildung an mit
h : R → R,
x , x + c,
so gilt
D
Xn + Yn = h(Xn + (Yn − c)) → h(X) = X + c. «
9.8 Satz Für reellwertige Zufallsvariablen Xn , X mit Dichten fn bzw. f gilt:
D
fn → f λ-f.ü. ⇒ Xn → X.
Ï
» Sei g ∈ Cb (R). Wähle c ∈ R, so dass g ≤ c, so folgt
g + c ≥ 0.
Da dPX = f dλ erhalten wir,
Z
Z
Z
g dPX = −c + (c + g) dPX = −c + (c + g)f dλ.
R
R
R
Nun ist f = lim fn = lim inf fn λ-f.ü. nach Vorraussetzung. Da f , fn Dichten
n→∞
n→∞
und daher positiv, können wir das Lemma von Fatou anwenden und erhalten,
Z
Z
Z
g dPX ≤ −c + lim inf (c + g)fn dλ = lim inf
gfn dλ
n→∞
n→∞
R
R
R
Z
Z
≤ lim sup
gfn dλ = − lim inf
−gfn dλ
n→∞
n→∞
R
R
Z
Z
lim inf(c − g)fn dλ
= c − lim inf
(c − g) fn dλ ≤ c −
n→∞
R n→∞
R | {z }
=
Z
≥0
R
gf dλ.
Es gilt also
Z
Z
Z
Z
g dPX ≤ lim inf
gfn dλ ≤ lim sup
gfn dλ ≤
g dPX .
n→∞
R
Somit existiert lim
R
n→∞ R
lim
n→∞
Z
R
21. Februar 2010 15:09
n→∞
R
R
R
gfn dλ und es gilt
g dPXn =
Z
R
g dPX .
«
153
9-A
9
Zentrale Grenzwertsätze
D
Um Xn → X nachzuweisen, müssen wir für jedes stetige beschränkte g nach-
weisen
Eg(Xn ) → Eg(X).
Der nächste Satz zeigt, dass es genügt, sich auf eine kleinere Menge von Funktionen zurückzuziehen.
Definition Eine Funktion g : R → R heißt Lipschitz-stetig, falls eine Konstante
L ∈ R existiert, so dass
g(x) − g(y) ≤ L x − y ,
∀ x, y ∈ R.
Ï
Jede lipschitzstetige Funktion ist gleichmäßig stetig und jede gleichmäßig stetige Funktion ist stetig. Die Umkehrungen gelten im Allgemeinen nicht.
Die gleichmäßig stetigen Funktionen auf R bilden eine echte Teilmenge der
stetigen Funktionen.
9.9 Satz Für reellwertige Zufallsvariablen Xn , X gilt:
D
Xn → X a Ef (Xn ) → Ef (X)
für alle beschränkten gleichmäßig stetigen Funktionen f : R → R.
Ï
» “⇒”: Klar, denn die Aussage gilt nach Voraussetzung für stetige beschränkte
und somit insbesondere für gleichmäßig stetige beschränkte Funktionen.
“⇐”: Sei f ∈ Cb (R). Zu zeigen ist Ef (Xn ) → Ef (X), da f lediglich stetig und
beschränkt. Setzen wir
α := sup f (x) = f ∞ .
x∈R
Wir zeigen nun, dass für jedes i ∈ N eine Lipschitz-stetige Funktion gi : R → R
existiert mit
−α ≤ gi ≤ gi+1 ≤ α,
∀ x ∈ R : gi (x) → f (x),
i → ∞.
(*)
Haben wir die Existenz der gi gezeigt, so gilt für i ∈ N
lim inf Ef (Xn ) ≥ lim inf Egi (Xn ) = lim Egi (Xn ) = Egi (X),
n
154
n→∞
n→∞
(**)
21. Februar 2010 15:09
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
denn die gi sind gleichmäßig stetig und daher konvergiert der Erwartungswert
nach Voraussetzung.
Da die gi durch α beschränkt sind, ist gi (X) + α ≥ 0 und es gilt
lim E(gi (X) + α)
i→∞
mon.konv
=
E(f (X) + α).
Somit gilt auch lim E(gi (X)) = Ef (X). Zusammen mit (**) erhalten wir also
i→∞
lim inf Ef (Xn ) ≥ Ef (X).
n→∞
Analog erhalten wir mit f ersetzt durch −f ,
lim sup Ef (Xn ) ≤ Ef (X).
n→∞
Insgesamt gilt also Ef (Xn ) → Ef (X) und die Behauptung ist gezeigt.
Wir müssen also noch die Behauptung (*) nachweisen. Es genügt, eine Folge
(hk )k∈N Lipschitz-stetiger Funktionen zu finden mit
hk ≥ −α und ∀ x ∈ R : sup hk (x) = f (x).
k∈N
Denn dann leistet gi mit gi (x) = max {h1 (x), . . . , hi (x)} das Gewünschte, denn
das Maximum über endlich viele Lipschitz-stetige Funktionen ist wieder Lipschitzstetig.
Wir können ohne Einschränkung davon ausgehen, dass f ≥ 0, ansonsten
ersetzen wir f durch f˜ = f + α ≥ 0. Wähle A ∈ B und setze
dA (x) = inf x − y : y ∈ A .
dA ist der Hausdorffabstand des Punktes x von der Menge A. Sei r ≥ 0 rational,
m ∈ N und
n
o
hm,r (x) = min r , (m · d{t:f (t)≤r } (x)) ,
so sind die hm,r lipschitz, denn
hm,r (x) − hm,r (y) ≤ m d{t:f (t)≤r } (x) − d{t:f (t)≤r } (y) ≤ m x − y ,
21. Februar 2010 15:09
155
9-A
9
Zentrale Grenzwertsätze
f
h2,r
h1,r
x
9.4
hm,r (x) für f (x) = x 2 , r = 1 und m = 1, 2.
außerdem sind die hm,r beschränkt, denn hm,r ≤ r , und hm,r (x) = 0 für
x mit f (x) ≤ r . Insbesondere
0 ≤ hm,r (x) ≤ f (x),
∀ x ∈ R.
Wähle x ∈ R, ε > 0 beliebig aber fest. Wähle außerdem 0 ≤ r ∈ Q so, dass
f (x) − ε < r < f (x).
Es gilt f (y) > r für alle y aus einer hinreichend kleinen Umgebung von x, da
f stetig. Somit folgt
d{t:f (t)≤r } (x) > 0,
also ist auch


< f (x),
hm,r (x) = r

> f (x) − ε,
für m hinreichend groß.
Die Menge hm,r : m ∈ N, 0 ≤ r ∈ Q ist abzählbar. Sei
{hk : k ∈ N}
156
21. Februar 2010 15:09
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
eine Abzählung dieser Menge. Nach Konstruktion gilt nun


≤ f (x),
sup hk (x)
≥ f (x) − ε,

k∈N
also sup hk (x) = f (x), da ε > 0 beliebig.
k∈N
«
9.10 Satz von Lévy-Cramér; Stetigkeitssatz Seien Qn , Q W-Maße auf B mit charak-
teristischen Funktionen ϕn , ϕ : R → C. Dann gilt:
Qn → Q schwach a ∀ u ∈ R : ϕn (u) → ϕ(u).
Ï
» “⇒”: Sei ϕn die charakteristische Funktion von Qn , also
Z
Z
Z
ϕn (u) =
eiux dQ n (x) =
cos(ux) dQ n (x) + i
sin(ux) dQ n (x).
R
R
R
sin und cos sind beschränkte Funktionen also,
Z
Z
Z
ϕn (u) →
cos(ux) dQ (x) + i
sin(ux) dQ (x) =
eiux dQ (x)
R
R
R
= ϕ(u).
“⇐”: Seien Yn , Y0 , X unabhängige Zufallsvariablen auf (Ω, A, P ) mit Yn ∼ Qn ,
Y0 ∼ Q, X ∼ N(0, 1). Dann gilt für alle α > 0,
PYn +αX = PYn ∗ PαX .
Nach Übungsaufgabe 40 besitzt PYn +αX die Dichte
Z
(αu)2
1
e−ux ϕn (u)e− 2 du .
gn,α (x) =
2π
Der Integrand besitzt eine integrierbare Majorante, denn
−ux
(αu)2 (αu)2
− 2 −ux − 2
e
ϕ
(u)e
e
,
n
≤e
also können wir den Satz von der dominierten Konvergenz anwenden und erhalten,
∀ x ∈ R : gn,α (x) →
21. Februar 2010 15:09
1
2π
Z
R
e−ux ϕ(u)e−
(αx)2
2
du .
157
9-A
9
Zentrale Grenzwertsätze
Unter Verwendung des Satzes 9.8 erhalten wir
D
Yn + αX → Y0 + αX.
(*)
D
Zum Nachweis von Yn → Y0 genügt es nach Satz 9.9 zu zeigen, dass für beliebige beschränkte gleichmäßig stetige Funktionen gilt f : R → R
Z
Z
f (Yn ) dP → f (Y0 ) dP .
Seien also f wie vorausgesetzt, ε > 0 und δ > 0, so dass
f (y + x) − f (y) < ε ,
∀ x, y ∈ R mit |x| < δ.
6
Wähle außerdem α > 0 mit
P [|αX| ≥ δ] ≤
ε
.
12 f ∞
Nach (*) existiert ein n0 so, dass
Z
< ε.
∀ n ≥ n0 : f
(Y
+
αX)
−
f
(Y
+
αX)
dP
n
0
3
Ω
Dann gilt für n ≥ n0 ,
Z
Z
f (Yn ) − f (Y0 ) dP ≤
f (Yn ) − f (Yn + αX) dP
Ω
{z
}
|Ω
(1)
Z
+
f (Yn + αX) − f (Y0 + αX) dP Ω
{z
}
|
(2)
Z
f (Y0 + αX) − f (Y0 ) dP .
+
|Ω
{z
}
(3)
(1): Wir nutzen die gleichmäßige Stetigkeit von f aus,
Z
Z
f (Yn ) − f (Yn + αX) dP =
f (Yn ) − f (Yn + αX) dP
Ω
|αX|≥δ
Z
f (Yn ) − f (Yn + αX) dP
+
|αX|<δ
ε
< 2 f ∞ P [|αX| ≥ δ] + P [|αX| < δ]
6
ε
ε
ε
+ ·1= .
≤ 2 f ∞
12 f ∞
6
3
158
21. Februar 2010 15:09
Zentrale Grenzwertsätze
(2) <
(3) <
ε
3 für n ≥ n0 .
ε
6 P [|αX| < δ]
9-B
+ 2 f ∞ P [|αX| ≥ δ] ≤ 3ε .
D
Somit Ef (Yn ) → Ef (Y0 ), d.h. Yn → Y0 .
«
9.2 Bemerkung. Die obigen Definitionen und Sätze lassen sich auf W-Maße auf Bk
bzw. k-dim. Zufallsvektoren übertragen. Ç
9-B Zentrale Grenzwertsätze
Ausssagen über die Approximation von Verteilungen, insbesondere der Verteilungen von Summen von Zufallsvariablen, durch die Normalverteilung im Sinne
der schwachen Konvergenz werden als zentrale Grenzwertsätze bezeichnet.
9.11 Zentraler Grenzwertsatz von Lindeberg-Lévy im 1-dim. Fall Sei (Xn )n∈N eine
unabhängige Folge identisch verteilter quadratisch integrierbarer reeller Zufallsvariablen mit EX1 =: a, V(X1 ) =: σ 2 mit σ > 0. Dann
n
1 X
√
(Xk − a)
nσ k=1
D
-→
N(0, 1)-verteilte reelle Zufallsvariable.
Ï
» Ohne Einschränkung können wir a = 0 und σ = 1 annehmen (andernfalls
ersetzen wir Xk durch
Xk −a
σ ).
X1 habe die charakteristische Funktion ϕ, dann
besitzt
n
X
Xk
k=1
nach Satz 6.4 die charakteristische Funktion ϕn . Somit hat
n
1 X
√
Xk
n k=1
die charakteristische Funktion ϕn ( √·n ). Nach Satz 9.10 genügt es zu zeigen,
∀ x ∈ R : ϕn
e−
u2
2
u
√
n
→ e−
u2
2
.
ist nach Bemerkung 6.4 die charakterisitsche Funktion einer N(0, 1)-Verteilung.
21. Februar 2010 15:09
159
9
Zentrale Grenzwertsätze
Nach Satz 6.6 besitzt ϕ wegen EX12 < ∞ eine stetige 2. Ableitung und daher
nach dem Satz von Taylor eine Darstellung
ϕ(u) = ϕ(0) + uϕ0 (0) +
= 1 + iuEX1 −
u2 00
ϕ (0) + ρ(u)
2
u2
EX12 + ρ(u),
2
mit einem Restterm ρ(u) der Ordnung o(u2 ), d.h.
lim
u→0
ρ(u)
= 0.
u2
Nach Voraussetzung ist EX1 = a = 0 und EX1 (X1 − 1) = EX12 = VX1 = 1 und
daher
u2
+ ρ(u).
2
ϕ(u) = 1 −
Für u ∈ R beliebig aber fest gilt
ϕ2
u
√
n
=

!n
u2
u
1−
+ρ √
= 1 −
2n
n
Nach Voraussetzung nρ

1 −
u2
2
+ nρ
n
√u
n
√u
n
u2
2
+ nρ
n
√u
n
n

→ 0 für n → ∞, also
n
 → e−
u2
2
. «
Als unmittelbares Korollar erhalten wir.
9.2 Zentraler Grenzwertsatz von de Moivre und Laplace Für eine unabhängige Fol-
ge (Xn )n∈N identisch verteilter reeller Zufallsvariablen auf (Ω, A, P ) mit
P [X1 = 1] = p,
gilt für n → ∞
P [X1 = 0] = 1 − p =: q,
"
∀α<β∈R:P α <
160
(=)
Pn
(0 < p < 1)
#
Zβ
Xk − np
1
2
<β → √
e−t /2 dt .
√
npq
(=)
2π α
k=1
Ï
21. Februar 2010 15:09
Zentrale Grenzwertsätze
Bsp 1 Volksabstimmung zu Vorschlägen A und B. Eine resolute Minderheit von
3.000 Personen stimmt für A. Weitere 1.000.000 Personen stimmen zufällig ab.
Wie groß ist die Wahrscheinlichkeit, dass A angenommen wird? Bezeichne die
“gleichgültigen” Wähler mit den Nummern k = 1, 2, 3, . . . , 1.000.000,


1,
Xk =
0,

Wähler wählt A,
Wähler wählt B.
Somit sind X1 , X2 , . . . unabhängig und b(1, 1/2)-verteilt. Seien n = 1.000.000,
r = 3.000, so wird der Vorschlag A angenommen, wenn
n
X
k=1
Xk + r > n −
n
X
Xk ,
k=1
d.h. genau dann, wenn
n
X
Xk >
k=1
n−r
= 498.500.
2
Die Wahrscheinlichkeit dafür ist gegeben durch,
P[
n
X
k=1
P
Xk > 498.500] = P 
Korollar 9.2 besagt, dass
P
P
n
k=1
q
Xk −
n 14
n
2
Pn
k=1
q
n
k=1
Xk −
Xk −
q
n 14
n
2
n 14

n
2

498.500 − 500.000
>
= −3 .
500
annähernd N(0, 1)-verteilt ist, d.h.
P
> −3 = 1 − P 
n
k=1
q
Xk −
n
2
n 41
≈ 1 − Φ(−3) = 0.9986.

≤ −3
Obwohl lediglich 3.000 Personen sicher für A stimmen, wird der Vorschlag mit
einer Wahrscheinlichkeit von 99.86% angenommen.
Dies ist auch der Grund dafür, dass Vorschläge, die den Großteil der Abstimmenden nicht interessieren, bereits von einer kleinen Gruppe von Entschlossenen durchgesetzt werden können.
21. Februar 2010 15:09
161
9-B
9
Zentrale Grenzwertsätze
Normal- oder Poisson-Approximation?
Seien Xn unabhängige b(1, p)-verteilte Zufallsvariablen. Nach dem Grenzwertsatz von de Moivre-Laplace gilt
n
X
i=1
|
D
p
Xi − p
≈ N(0, 1)-verteilt für “große” n.
np(1 − p)
{z
}
(1)
→N(0,1)−vert. ZV
Andererseits gilt nach dem Grenzwertsatz von Poisson
n
X
j=1
Xi ≈ π (npn ), falls n “groß” und pn “klein”,
(2)
| {z }
D
→π (λ)
und npn → λ ∈ (0, ∞) (siehe Übungsaufgabe 45).
Im Fall (1) sind die Summanden dem Betrag nach klein für großes n, während
im Fall (2) nur die Wahrscheinlichkeit, pn = P [Xn = 1], klein ist, dass die
Summanden nicht klein sind.
Als Faustregel gilt
(a) Normal-Approximation ist “gut”, falls np(1 − p) ≥ 9.
(b) Poisson-Approximation ist “gut”, falls n ≥ 50 und p ≤ 0.05.
Im Allgemeinen können Poisson- und Normal-Approximation (für kleine n)
nicht gleichzeitig angewendet werden.
9.3 Bemerkungen.
a. Seien Xn unabhängige, identisch verteilte reelle Zufallsva-
riablen mit endlichen Varianzen und µ = EX1 , so gilt nach dem starken
Gesetz der großen Zahlen,
n
1
1 X
Sn :=
Xi → µ,
n
n i=1
P -f.s. und L2 .
Sei ε > 0. Wie groß ist nun n0 zu wählen, so dass
1
Sn − µ < ε,
n
162
n ≥ n0 ?
21. Februar 2010 15:09
Zentrale Grenzwertsätze
Mit Standardmethoden der Analysis lässt sich die Fragestellung umformulieren zu
Sn
∃ α > 0 ∃ c ≠ 0 : lim nα − µ
= c,
n→∞
n
P -f.s.?
Ein solches α existiert nicht, da nach dem zentralgen Grenzwertsatz
1
n2
Für α <
1
2
Sn
D
− µ → N(0, V(X1 ))-verteilte Zufallsvariable.
n
liegt nach dem Satz von Slutsky Verteilungs-Konvergenz gegen
Null vor, also auch nach Wahrscheinlichkeit.
b. In der Praxis ist die Verteilungsfunktion F der Zufallsvariablen X meist
unbekannt. Seien dazu X1 , . . . , Xn unabhängige Zufallsvariablen mit Verteilungsfunktion F . Schätze Fn durch
F̂n (x) := F̂n (x, ω) :=
n
1 X
1[Xi (ω)≤x] ,
n i=1
x ∈ R,
wobei F̂n (x) die relative Anzahl derjenigen X1 , . . . , Xn bezeichnet mit Xi ≤
x. F̂n heißt empirische Verteilungsfunktion zu X1 , . . . , Xn . Nach dem starken Gesetz der großen Zahlen von Kolmogorov gilt P -f.s.
lim F̂n (x) = lim
n→∞
n→∞
n
1 X
1[Xi ≤x] = EY1 (x) = E1[X1 ≤x] = P [X1 ≤ x]
n i=1 | {z
}
:=Yi (x)
= F (x),
also F̂n (x) → F (x) P -f.s. und L2 . Eine Verschärfung dieser Aussage liefert
der
Satz von Glivenko-Cantelli Seien Xn , X unabhängige und identisch verteilte Zufallsvariablen. Die empirische Verteilungsfunktion F̂n konvergiert P-f.s.
gleichmäßig gegen F , d.h.
∀ ε > 0 ∃ n0 ∈ N ∀ x ∈ R, n ≥ n0 : sup F̂n (x) − F (x) < ε f.s..
x∈R
21. Februar 2010 15:09
Ï
163
9-B
9
Zentrale Grenzwertsätze
Dieser Satz wird in der mathematischen Statistik bewiesen und heißt auch
Hauptsatz der Statistik.
Nach dem zentralen Grenzwertsatz gilt


n
√
X
√ 1
1[Xi ≤x] − E1[X1 ≤x] 
n F̂n (x) − F (x) = n 
n i=1
Pn
1[Xi ≤x] − E1[X1 ≤x] D
√
= i=1
→ N(0, σ 2 (x))
n
wobei σ 2 (x) = V(1[X1 ≤x] ) = F (x)(1−F (x)) und 1[X1 ≤x] eineb(1, F (x)) ver
(x)
teilte Zufallsvariable. Somit ist F̂n (x)−F (x) approximativ N 0, F (x)(1−F
n
verteilt.
Da σ (x) ≤ 1/4 für alle x ∈ R, gilt für ein vorgegebenes ε > 0 und eine
N(0, 1)-verteilte Zufallsvariable Z,
"
s
n
P [|F̂n (x) − F (x)| ≤ ε] ≈ P |Z| ≤ F (x)(1 − F (x))
√ ≥ P |Z| ≤ 2 nε
√
= 2Φ(2ε n) − 1
#
Zahlenbeispiel ε = 0.1, n = 100, dann ist P [|F̂n (x) − F (x)| ≤ ε] Û 0, 955
für jedes x und jede Verteilfungsfunktion F .
c. Satz von Berry-Esseen Seien Xn unabhängige identisch verteilte Zufallsvariablen mit EX1 = µ, V(X1 ) = σ 2 und E |X1 |3 < ∞. Dann gilt
"
#
Pn
√
E |X1 |3
i=1 (Xi − µ)
sup P
n
≤ x − Φ(x) ≤ c 3 √ ,
nσ
σ n
x∈R
mit c < 0.7975, wobei
"
#
Pn
Zx
√
1 − t2
i=1 (Xi − µ)
P
n
≤ x → Φ(x) =
e 2 dt .
nσ
−∞ 2π
nach dem zentralen Grenzwertsatz. Ï
164
Ç
21. Februar 2010 15:09
Zentrale Grenzwertsätze
9.12 Zentraler Grenzwertsatz von Lindeberg Die Folge (Xn )n∈N quadratisch inte-
9-B
grierbarer reeller Zufallsvariablen qmit EX12 > 0, EXn = 0, sei unabhängig und
Pn
2
2
— die klassische Lindeberg-Bedingung
erfülle — mit sn
:= i=1 EXi2 , sn = sn
∀ε>0:
n
1 X
E(Xi2 1[|Xi |>εsn ] ) → 0.
2
sn
i=1
(LB)
Dann
n
1 X
Xi
sn i=1
D
-→
N(0, 1)-verteilte Zufallsvariable.
Ï
Die Lindeberg-Bedingung stellt sicher, dass der Einfluss aller Zufallsvariablen
ungefähr “gleich groß ist”. Salop kann man sagen, dass ein Zentraler Grenzwertsatz immer existiert, wenn man eine Größe betrachtet, die aus sehr vielen aber
kleinen und nahezu unabhängigen Einflüssen besteht. In diesem Fall kann man
stets vermuten, dass die Summe der Einflüsse normalverteilt ist.
Als Beispiel sei der Kurs einer Aktien genannt, die sich im Streubesitzt befindet. Durch unabhängige Kauf- und Verkaufsaktionen haben die Aktienbesitzer nur einen geringen Einfluss auf den Kurs, in ihrer Gesamtheit führt dies
aber zu normalverteilten Tages-Renditen. Befindet sich die Aktie dagegen im
Besitz einiger weniger Großaktionäre, sind die Aktienkurse nicht mehr (log)normalverteilt.
9.4 Bemerkungen.
a. In Satz 9.12 dient die Folge (sn ) zur Normierung. Die Lindeberg-
Bedingung (LB) schränkt den Einfluss der einzelnen Zufallsvariablen ein.
b. In Satz 9.12 — mit am Erwartungswert zentrierten Zufallsvariablen — impliziert die klassische Lindeberg-Bedingung (LB) die klassische Feller-Bedingung
!
1
2
max
EXi → 0
2
i=1,...,n sn
und wird ihrerseits durch die klassische Ljapunov-Bedingung
∃δ>0:
1
2+δ
sn
n
X
i=1
E|Xi |2+δ → 0
impliziert. Bei nicht am Erwartungswert zentrierten Zufallsvariablen ist jeweils Xi durch Xi − EXi , auch in der Definition von sn , zu ersetzen.
21. Februar 2010 15:09
165
9
Zentrale Grenzwertsätze
c. Satz 9.12 ⇒ Satz 9.11.
Ç
Satz 9.12 folgt aus
9.13 Zentraler Grenzwertsatz von Lindeberg für Dreiecksschemata von ZVn Für je-
des n ∈ N seien Xn,1 , . . . , Xn,mn unabhängige quadratisch integrierbare reelle
Zufallsvariablen mit mn → ∞ für n → ∞. Ferner seien
m
Xn
EXn,i = 0,
i=1
2
EXn,i
=1
und die Lindeberg-Bedingung
∀ε>0:
m
Xn
i=1
2
E Xn,i
1[|Xi |>ε] → 0.
erfüllt. Dann
m
Xn
i=1
D
Xn,i → N(0, 1)-verteilte Zufallsvariable. Ï
Bevor wir den Satz beweisen, betrachten wir folgendes Beispiel.
Bsp 2 Seien Xn unabhängige, identisch verteilte, quadratisch integrierbare reel-
le Zufallsvariablen mit
EX1 = 0,
EX12 = 1,
Sn :=
n
X
Xi .
i=1
Wir zeigen
3
n− 2
n
X
k=1
Sk → N(0,
1
)-verteilte Zufallsvariable.
3
Der zentrale Grenzwertsatz von Lindeberg 9.12 lässt sich so nicht anwenden, da
beispielsweise die Unabhängikeit in Bezug auf die Sk verletzt ist. Es gilt jedoch,
p
3
3n− 2
n
X
k=1
n
k
n
p
p
3 X X
3 X
Sk = 3n− 2
Xj = 3n− 2
k=1 j=1
j=1
n
X
Xj .
k=j
| {z }
(n−j+1)Xj
166
21. Februar 2010 15:09
Zentrale Grenzwertsätze
j
n
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
n k
9.5
Zur Vertauschbarkeit der Summen.
Die Vertauschbarkeit der Summen macht man sich schnell an der Skizze klar.
√
3
Setzen wir nun Xn,j = 3n− 2 (n − j + 1)Xj , so sind die Voraussetzung von
Satz 9.13 erfüllt, denn
m
Xn
j=1
EXn,j = 0,
2
EXn,j
=
n
X
E
j=1
→3
Z1
0
p
3
3n− 2 (n − j + 1)Xj
2
=3
n j−1 2
1 X
1−
n j=1
n
(1 − t)2 dt = 1.
Außerdem ist (LB) erfüllt, da für ε > 0,
3
n
X
j=1
≤
En−3 (n − j + 1)2 Xj2 1
3
√
[ 3n− 2 (n−j+1)Xj >ε]
n
3 X
1
E X21 √
→ 0,
n j=1 | 1 [ 3n{z− 2 |X1 |>ε]}
→0 in Ω
denn
X12 1 √ − 1
[ 3n 2 |X1 |>ε]
≤ X12 und EX12 < ∞, also können wir den Satz von der
dominierten Konvergenz anwenden. Somit konvergieren die Erwartungswerte
gegen Null und nach dem Satz von Stolz-Cesàro konvergiert daher auch das
arithmetische Mittel gegen Null.
Somit gilt
p
3
3n− 2
21. Februar 2010 15:09
n
X
k=1
Sk =
n
X
j=1
D
Xn,j → N(0, 1) 167
9-B
9
Zentrale Grenzwertsätze
Zur Beweisvorbereitung benötigen wir noch einige Ergebnisse.
Lemma Seien zi , ηi ∈ C mit |zi | , |ηi | < 1, so gilt,
Y
X
n
n
Y
n
zi −
ηi |zi − ηi | .
≤
i=1
i=1
i=1
Ï
» Der Beweis erfolgt durch Induktion. Der Induktionsanfang mit n = 1 ist klar.
“n = 2”:
z1 z2 − η1 η2 = z1 (z2 − η2 ) + η2 (z1 − η1 ),
⇒ |z1 z2 − η1 η2 | ≤ |z2 + η2 | + |z1 + η1 | .
Der Induktionsschritt erfolgt analog.
«
Aus der Analysis kennen wir die
Taylor-Formel mit Integralrestglied Sei I ⊂ R ein Intervall und f : I → C mindestens (n + 1)-mal stetig differenzierbar, so gilt für a ∈ I
f (x) =
Z
n
X
1 x
f (k) (0)
(x − t)n f (n+1) (t) dt .
(x − a)k +
k!
n! a
k=0
Ï
Als unmittelbare Konsequenz erhalten wir
Hilfsformel 1 eix − (1 + ix −
x2 2 )
≤ min x 2 , x 3 .
Ï
» Nach dem Taylor-Formel gilt für a = 0 und m ∈ N,
eix =
Z
m
X
1 x m
1
(ix)k +
i (x − s)m eis ds .
k!
m! 0
k=0
Zx
|x|2
is
≤
m = 1 : eix − (1 + ix) = ie
(x
−
s)
ds
,
2
0
3
x2 |x|
m = 2 : eix − (1 + ix −
) ≤
≤ |x|3 .
2 6
168
21. Februar 2010 15:09
Zentrale Grenzwertsätze
und folglich
|x|2
x2 ix
e − (1 + ix −
) ≤ eix − (1 + ix) +
≤ |x|2 .
2 2
Zusammenfassend also
n o
x2 ix
e − (1 + ix −
) ≤ min x 2 , x 3 . «
2 Hilfsformel 2 Für x ≥ 0 gilt |e−x − (1 − x)| ≤ 21 x 2 .
» |e−x − (1 − x)| ≤
Rx
0
|e−s (x − s)| ds ≤
Rx
0
Ï
|x − s| ds = 12 x 2 .
«
» Beweis von Satz 9.13 Wir zeigen zunächst, dass das Maximum der Varianzen
von Xn,1 , . . . , Xn,nm gegen Null konvergiert. Sei also ε > 0
max
i∈{1,...,mn }
V(Xn,i ) =
max
i∈{1,...,mn }
≤ ε2 +
Z
Z m
Xn
|
Ω
i=1
Ω
2
2
Xn,i
1[|Xn,i |≤ε] + Xn,i
1[|Xn,i |>ε] dP
2
Xn,i
1[|Xn,i |>ε] dP .
{z
→0 nach Vor.
}
Somit konvergiert das Maximum gegen Null, da ε beliebig.
Pn
Pn
Seien nun Sn = i=1 Xi und Cn,i := VXn,i , so gilt nach Annahme i=1 Cn,i = 1.
Nach Satz 6.7 gilt für t ∈ R,
Y
X
m
n 2 2 2 Yn
n
−Cn,i t2 ϕS (t) − e− t2 = ϕX (t) − e−Cn,i t2 ,
ϕXn,i (t) −
e
n
≤
n,i
i=1
i=1
i=1
(*)
nach dem obigen Lemma. Anwendung von Hilfsformel 1 und EXn,i = 0 ergibt,
! Z
!
2
t2 2 t
ϕn,i (t) − 1 − cn,i
= eitXn,i − 1 − itXn,i − Xn,i
dP 2 Ω
2
Z
n
2 3 o
HF1
≤
min tXn,i , tXn,i dP
Ω
n
oZ
2
Xn,i
min 1, Xn,i dP ,
≤ max 1, |t|3
Ω
|
{z
}
α
21. Februar 2010 15:09
169
9-B
9
Zentrale Grenzwertsätze
wobei
Z
2
Xn,i
min 1, Xn,i dP ≤
Z
[|Xn,i |>ε]
≤E
2
Xn,i
dP +
2
Xn,i
1[|Xn,i |>ε]
Z
2 Xn,i
Xn,i dP
| {z }
[|Xn,i |≤ε]
≤ε
+ εCn,i .
Durch Summation erhalten wir,


m

!
m
m
 Xn 
Xn Xn
t2 

2
ϕn,i (t) − 1 − Cn,i
≤ α
E Xn,i 1[Xn,i >ε] +ε
Cn,i 


2 i=1

i=1
i=1
|
{z
}
| {z }
→0,
n→∞
(1)
=1
Also konvergiert der gesamte Ausdruck gegen Null für n → ∞, da ε > 0 beliebig.
Da Cn,i Varianz, ist Cn,i ≥ 0. Wir können somit Hilfsformel 2 anwenden und
erhalten,
!
m
mn
Xn
t2
t2 HF2 t 2 X 2
−Cn,i t22
≤
e
Cn,i .
Cn,i ≤
− 1 − Cn,i
max Cn,i
2 4 i=1
4 1≤i≤mn
i=1
{z
} |j=1{z }
|
m
Xn
→0,
n→∞
(2)
=1
Wenden wir die Dreieckungsungleichugn sowie (1) und (2) auf (*) an, so folgt
t2
∀ t ∈ R : ϕSn (t) → e− 2 . «
Multivariate zentrale Grenzwertsätze
Ist X ein d-dimensionaler integrierbarer Zufallsvektor, d.h. E kXk < ∞, so heißt
EX = (EX1 , . . . , EXd )>
Erwartungsvektor von X.
Ist X ein d-dimensionaler quadratisch integrierbarer Zufallsvektor, d.h. E kXk2 <
∞, so heißt
Cov(X) := (Cov(Xi , Xj ))i,j∈{1,...,d}
170
21. Februar 2010 15:09
Zentrale Grenzwertsätze
Kovarianzmatrix von X, wobei die einzelnen Einträge die Kovarianzen
Cov(Xi , Xj ) := E(Xi − EXi )(Xj − EXj )
der reellwertigen Zufallsvariablen Xi und Xj darstellen.
Auf der Hauptdiagonalen der Kovarianzmatrix stehen die Varianzen der Xi .
Insbesondere ist im eindimensionalen Fall gerade VX = Cov(X). Die Nebendiagonalelemente können als Maß für die stochastische Abhängigkeit der Xi , Xj
interpretiert werden. Sind alle Komponenten unabhängig, so ist die Kovarianzmatrix eine Diagonalmatrix.
9.2 Definition Ein d-dimensionaler Zufallsvektor X = (X1 , . . . , Xd )> heißt multi-
variat normalverteilt (oder auch d-dimensional normalverteilt), falls für jedes
Pd
u ∈ Rd die Zufallsvariable hu, Xi = ut X = i=1 ui Xi eindimensional normalverteilt ist, wobei eine 1-dimensionale Normalverteilung mit Varianz 0 als eine
Dirac-Verteilung δa im Punkt a interpretiert wird.
Ï
9.3 Definition Seien Xn , X d-dimensionale Zufallsvektoren so konvergiert Xn → X
nach Verteilung für n → ∞, wenn
∀ f ∈ Cb (Rn ) : Ef (Xn ) → Ef (X).
D
Schreibe Xn → X.
Ï
9.14 Satz (Cramér-Wold-Device) Für d-dimensionale Zufallsvektoren Xn und X gilt
D
D
Xn → X genau dann, wenn hu, Xn i → hu, Xi für alle u ∈ Rd .
» Der Beweis wird in den Übungen behandelt.
Ï
«
9.15 Multivariater zentraler Grenzwertsatz Seien Xn,1 , . . . , Xn,mn unabhängige qua-
dratisch integrierbare d-dimensionale Zufallsvariablen mit mn → ∞ für n → ∞.
Des Weiteren gelte
(a) ∀ n ∈ N ∀ i ∈ {1, . . . , mn } : EXn,i = 0,
P mn
Cov(Xn,i ) = C ∈ Rd×d ,
Pmn (c) ∀ ε > 0 : i=1
E kXk2n,i 1[kXi k>ε] → 0.
(b) ∀ n ∈ N :
21. Februar 2010 15:09
i=1
171
9-B
9
Zentrale Grenzwertsätze
Dann
m
Xn
i=1
» Sn :=
D
Xn,i → N(0, C)-verteilten Zufallsvektor.
P mn
i=1
Ï
Xn,i . Wegen Satz 9.14 genügt es zu zeigen,
D
∀ u ∈ Rd : hu, Sn i → N(0, hu, Cui).
1. Fall hu, Cui = 0. Dann ist
V(hu, Sn i) = 0,
also hu, Sn i = 0 P -f.s.
2. Fall hu, Cui > 0. Wende Satz 9.13 auf
1
X̃n,i = p
u, Xn,i
hu, Cui
an, so erhalten wir für den Erwartungswert
also
EX̃n,i = p
m
Xn
i=1
1
u, EXn,i = 0,
hu, Cui
V(X̃n,i ) =
m
Xn 1
V( u, Xn,i ) = 1.
hu, Cui i=1
{z
}
|
hu,Cui
Zum Nachweis der Lindebergbedingung betrachte
m
Xn
i=1
m
Xn 2 1
E u, Xn,i
1 √ 1
|hu,Xn,i i|>ε
{z
}
hu, Cui i=1 |
hu,Cui
2
≤kuk2 kXn,i k
m
Xn 2 1
≤
E kuk2 Xn,i 1 √ kuk
kXn,i k>ε
hu, Cui i=1
hu,Cui
2
1[|X̃n,i |>ε] =
E X̃n,i
≤
mn
2
kuk2 X √
E Xn,i 1
→ 0,
hu,Cui
[kXn,i k> kuk ε]
hu, Cui i=1
nach Voraussetzung für n → ∞. Damit sind alle Voraussetzungen von Satz 9.13
erfüllt.
172
«
21. Februar 2010 15:09
Zentrale Grenzwertsätze
9.3 Korollar Ist (Xn )n∈N eine unabhängige Folge identisch verteilter quadratisch
integrierbarer Zufallsvektoren, so gilt
mn
1 X
D
√
(Xi − EXi ) → N(0, Cov(X1 ))-verteilte ZV.
n i=1
21. Februar 2010 15:09
Ï
173
9-B
10
Bedingte Erwartungen
10 Bedingte Erwartungen
Bedingte Erwartungen stellen den mathematischen Rahmen zur Untersuchung
der Fragestellung, welchen Mittelwert eine Zufallsvariable Y annimmt unter der
Voraussetzung, dass eine andere Zufallsvariable X den Wert x annimmt,
E(Y | X = c).
Als Beispiel sei die Suche des mittleren Körpergewichts einer gegebenen Bevölkerungsschicht, unter Vorraussetzung einer gewissen Körpergröße, genannt.
Erinnern wir uns zurück an die Definition des Erwartungswerts, so können
wir diesen als Verallgemeinerung des Begriffes der Wahrscheinlichkeit für das
Eintreten eines Ereignisses interpretieren. Allgemeiner gilt
P (A | X = x) = E(1A | X = x).
Als Beispiel sei das Ereignis A, die Straße ist glatt, unter der Voraussetzung,
dass die Lufttemperatur X den Wert x annimmt.
Unsere bisherige Definition von P (A | X = x) schließt den Fall P [X = x] = 0
nicht mit ein. Wir werden dieses Manko durch die Definition einer allgemeinen
“bedingten Erwartung” beheben.
174
21. Februar 2010 15:09
Grundlagen
10-A Grundlagen
Wie immer sei (Ω, A, P ) ein W-Raum.
Erinnern wir uns zunächst an die Definition der Messbarkeit einer Abbildung.
f ist C-B-messbar a f −1 (B) ⊆ C.
Eine reellwertige Funktion ist eine Zufallsvariable, falls sie A − B messbar
ist. Bedingte Erwartungen sind spezielle Zufallsvariablen, bei denen die Messbarkeitsforderung noch verschärft wird.
Zum Beweis des folgenden Satzes benötigen wir den Satz von Radon-Nikodym
(siehe Anhang), der ein Verhältnis zwischen zwei Maßen µ und ν herstellt.
10.1 Satz Sei X : (Ω, A, P ) → (R, B) integrierbare Zufallsvariable und C ⊂ A σ -
Algebra. Dann existiert eine Zufallsvariable
Z : (Ω, A, P ) → (R, B)
mit folgenden Eigenschaften:
(a) Z ist integrierbar und C-B-messbar,
(b) ∀ C ∈ C :
R
C
X dP =
R
C
Z dP .
Ï
» Ohne Einschränkung sei X ≥ 0, ansonsten zerlegen wir X in X+ und X− . Sei
ϕ : C → R definiert durch
Z
ϕ(C) :=
X dP ,
C ∈ C,
C
so ist ϕ aufgrund der Integrierbarkeit von X wohldefiniert und ein Maß. Außer
dem ist ϕ ein P -stetiges endliches Maß auf C.
C
Somit sind alle Voraussetzungen des Satzes von Radon-Nikodyn erfüllt und
es folgt die Existenz einer bis auf die Äquivalenz “= P -f.ü.” eindeutige, C−BC
messbare Funktion
Z : Ω → R+ .
Weiterhin ist Z P C -integrierbar, wobei
Z
Z
∀ C ∈ C : ϕ(C) =
Z dP C =
Z dP .
C
C
«
Z ist auch A − B-messbar und bezüglich P integrierbar.
21. Februar 2010 15:09
«
175
10-A
10
Bedingte Erwartungen
Die Aussage des Satzes mag zunächst unscheinbar sein. Es ist jedoch zu
beachten, dass die Zufallsvariable Z tatsächlich so konstruiert werden kann,
dass sie C-B-messbar ist. Da man C als echte Teilmenge von A wählen kann,
ist dies überhaupt nicht offensichtlich
Z ist eindeutig bis auf die Äquivalenz “ P C -f.ü.’
10.1 Definition Sei X : (Ω, A, P ) → (R, B) integrierbare Zufallsvariable und C ⊂
A σ -Algebra. Die Äquivalenzklasse (im oberen Sinne) der Zufallsvariablen Z:
(Ω, A, P ) → (R, B) mit (a) und (b) — oder auch ein Repräsentant dieser Äquiva-
lenzklasse — heißt bedingte Erwartung von X bei gegebenem C. Man bezeichnet
Z mit E(X | C).
Häufig wird ein Repräsentant dieser Äquivalenzklasse als eine Version von
E(X | C) bezeichnet. Ï
Die bedingte Erwartung E(X | C) stellt im Allgemeinen also keine reelle Zahl
sondern eine Zufallsvariable dar! E(X | C) kann man als eine “Vergröberung”
von X betrachten, da C gröber als A und Z daher weniger Möglichkeiten der
Variation als X besitzt. (Siehe Abbildung 11.2)
Bemerkungen.
a. Zur Eindeutigkeit von Satz 10.1 betrachte zwei Zufallsvaria-
blen Z1 und Z2 , so gilt
Z
∀ C ∈ C : (Z1 − Z2 ) dP = 0 ⇒ Z1 = Z2 P C -f.ü.
C
b. E(X | C) =
dϕ
dP C
, wobei ϕ(C) =
R
C
X dP für C ∈ C.
Ç
Bsp 1 a.) Sei C = A, so gilt E(X | C) = X f.s.
b.) Sei C = {œ, Ω} so gilt E(X | C) = EX, denn
Z
Z
Z
Z
X dP =
EX dP ,
X dP =
EX dP .
Ω
Ω
}
| œ {z } | ∅ {z
=0
=0
c.) Sei C = {œ, B, B c , Ω} für festes B mit 0 < P (B) < 1. So gilt

R

 1
P (B) B X dP =: E(X | B), ω ∈ B
(E(X | C))(ω) =
R

 1 c B c X dP ,
ω ∈ Bc .
P (B )
E(X | B) heißt bedingter Erwartungswert von X unter der Hypothese B.
176
21. Februar 2010 15:09
Grundlagen
4
X
Z
3
2
1
1
4
10.1
Ω = [0, 1], A = σ
1
2
3
4
1
ω
o
n
o
n
[0, 41 ), [ 14 , 21 ), [ 12 , 34 ), [ 34 , 1] , C = σ [0, 21 ), [ 12 , 1] ⊊ A.
» Scharfes Hinsehen liefert, dass die rechte Seite nach obiger Definition
C − B-messbar ist. Weiterhin gilt
Z
Z
“rechte Seite" dP = 0 =
X dP ,
∅
∅
R
Z
Z
Z
1 dP
“rechte Seite" dP = B
X dP =
X dP ,
P (B) B
B
B
R
Z
Z
Z
c 1 dP
“rechte Seite" dP = B c
X dP =
X dP ,
P (B ) B c
Bc
Bc
Z
Z
Z
“rechte Seite" dP =
“rechte Seite" dP +
“rechte Seite" dP
c
Ω
ZB
Z
ZB
=
X dP +
X dP =
X dP . « Bc
B
Ω
10.2 Satz Seien X, Xi integrierbar, C ⊂ A σ -Algebra und c, α1,2 ∈ R.
a) ∀ C ∈ C :
R
C
E(X | C) dP =
R
C
X dP .
b) X = c P-f.s. ⇒ E(X | C) = c f.s.
c) X ≥ 0 P-f.s. ⇒ E(X | C) ≥ 0 f.s.
d) E(α1 X1 + α2 X2 | C) = α1 E(X1 | C) + α2 E(X2 | C) f.s.
21. Februar 2010 15:09
177
10-A
10
Bedingte Erwartungen
e) X1 ≤ X2 P-f.s. ⇒ E(X1 | C) ≤ E(X2 | C) f.s.
f) X C-B-messbar ⇒ X = E(X | C) f.s.
g) X integrierbar, Y C-B-messbar, XY integrierbar
⇒ E(XY | C) = Y E(X | C) f.s.
g’) X, X 0 integrierbar, XE(X 0 | C) integrierbar
⇒ E(XE(X 0 | C) | C) = E(X | C)E(X 0 | C) f.s.
h) σ -Algebra C1,2 mit C1 ⊂ C2 ⊂ A, X integrierbar
E(E(X | C1 ) | C2 ) = E(X | C1 ) f.s.
E(E(X | C2 ) | C1 ) = E(X | C1 ) f.s.
Hier bedeutet f.s., Rest C2 P-f.s. bzw. Rest C1 P-f.s.
»
Ï
a) Folgt sofort aus der Definition der bedingten Erwartung.
b) Klar, denn Glättung einer Konstanten ergibt die Konstante selbst.
c) Für eine C − B-messbare Funktion Z mit ∀ C ∈ C :
P - f.s.
C
R
C
Z dP ≥ 0 folgt Z ≥ 0
d) Folgt direkt aus der Linearität des Intergrals.
e) Folgt direkt aus der Monotonie des Integrals, denn für C − B-messbare Zufallsvariablen Z1,2 mit
∀C∈C:
Z
C
Z1 dP ≤
Z
C
Z2 dP
gilt auch Z1 ≤ Z2 P C - f.s.
f) Klar.
178
21. Februar 2010 15:09
Grundlagen
g) Es folgt sofort, dass XY und Y E(X | C) C − B-messbar. Es verbleibt zu
zeigen, dass
∀C∈C:
Z
C
Y E(X | C) dP =
Z
C
XY dP .
Ohne Einschränkung ist X ≥ 0, ansonsten gehen wir zu X+ und X− über.
Sei C ∈ C so gilt
Z
C
Y E(X | C) dP =
wobei E(X | C) =
dϕ
Z
Y E(X | C) dP C ,
C
mit ϕ(C) =
dP C
R
C
Zusatz zum Satz von Radon-Nikodym,
Z
C
Y E(X | C) dP C =
mit ϕ∗ (A) =
R
A
Z
C
Y dϕ =
X dP für C ∈ C, so dass nach dem
Z
C
Y dϕ ∗ ,
X dP für A ∈ A (also ϕ = ϕ∗ C ). Somit ist ϕ∗ ein endli-
ches Maß auf A. Erneute Anwendung des Zusatzes zum Satz von RadonNikodym ergibt,
Z
C
Y dϕ ∗ =
dϕ ∗
dP
Nun ist
Z
C
Y
Z
C
dϕ ∗
dP .
dP
Y
= X P -f.s. und daher
dϕ ∗
dP =
dP
Z
C
Y X dP .
g’) Folgt sofort aus g), wenn wir Y = E(X | C) setzen.
h) (α) Aus g) folgt direkt, dass
E(E(X | C1 ) | C2 ) = E(X | C1 ) E(1 | C2 ),
| {z }
1
da E(X | C1 ) C1 − B-messbar.
(β) Die zweite Gleichung ist plausibel, da die Vergröberung von X über C2
zur noch kleineren σ -Algebra C1 dasselbe liefert, wie die unmittelbare
Vergröberung über C1 .
21. Februar 2010 15:09
179
10-A
10
Bedingte Erwartungen
Seien also Z := E(X | C1 ) und Y := E(X | C2 ). Es ist zu zeigen, dass
Z = E(Y | C1 ). Zunächst ist nach Definition Z auch C1 − B-messbar.
Weiterhin sei C ∈ C1 ⊆ C2 , so gilt per definitionem,
Z
Z
Z
Z
Z dP =
X dP ,
Y dP =
X dP ,
C
C
ZC
ZC
⇒
Y dP =
Z dP . «
C
C
10.2 Definition Sei C ⊂ A σ -Algebra und A ∈ A.
P (A | C) := E(1A | C)
heißt bedingte Wahrscheinlichkeit von A bei gegebenem C.
Ï
Setzen wir C = {∅, Ω}, so ist E(1A | C) = E1A = P (A) (vgl. Bsp 1). Nach
Definition 10.2 gilt dann
E(1A | C) = P (A | C).
10.1 Bemerkung zu Definition 10.2.
∀C∈C:
Z
C
P (A | C) dP = P (A ∩ C).
Ç
» Sei C ∈ C, so gilt
Z
Z
Z
Z
P (A | C) dP =
E(1A | C) dP =
1A dP =
1A 1C dP = P (A ∩ C).
C
C
C
Ω
«
Bsp 2 Sei C = {œ, B, B c , Ω} mit 0 < P (B) < 1. Sei A ∈ A, so gilt


 P (A∩B) =: P (A | B),
P (B)
(P (A | C))(ω) =
c

 P (A∩B ) =: P (A | B c ),
P (B c )
denn
(P (A | C))(ω)
180
ω∈B
ω ∈ Bc ,
vgl. Bsp 1
=



E(1A | C)(ω)
1 R
P (A∩B)
ω ∈ B,
P (B) B 1A dP = P (B) = P (A | B),
=
R
P (A∩B c )
 1
c

P (B c ) B c 1A dP = P (B c ) = P (A | B ), ω ∉ B. 21. Februar 2010 15:09
Grundlagen
1.) Seien X : (Ω, A, P ) → (R, B), Y : (Ω, A, P ) → (Ω0 , A0 ) Zu-
10.3 Definition
fallsvariablen und X integrierbar.
E(X | Y ) := E(X | Y −1 (A0 ))
heißt bedingte Erwartung von X bei gegebenem Y . Y −1 (A) bezeichnet
hier die kleinste σ -Algebra in Ω, bzgl. der Y messbar ist.
2.) Seien X : (Ω, A, P ) → (R, B), Yi : (Ω, A, P ) → (Ωi0 , A0i ) für i ∈ I Zufallsvariablen und X integrierbar.
C ⊂ Asei die kleinsteσ -Algebra in Ω, bzgl. der alle Yi messbar sind, d.h.
S
−1
C=F
i∈I Yi (Ai ) . So heißt
E(X | (Yi )i∈I ) := E(X | C)
bedingte Erwartung von X bei gegebenen Yi , i ∈ I.
3.) Sei A ∈ A und Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariable.
P (A | Y ) := E(1A | Y )
heißt bedingte Wahrscheinlichkeit von A bei gegebenem Y .
Ï
10.2 Bemerkungen. Sei X : (Ω, A, P ) → (R, B) eine integrierbare Zufallsvariable.
a. Sei C σ -Algebra in A. Dann gilt
(X −1 (B), C) unabhängig ⇒ E(X | C) = EX f.s.
b. Sei Y : (Ω, A, P ) → (Ω0 , A0 ) eine Zufallsvariable. Dann gilt
(X, Y ) unabhängig ⇒ E(X | Y ) = EX f.s.
»
Ç
a. Zu zeigen ist, dass
Z
Z
∀C∈C:
EX dP =
X dP .
C
C
Schreiben wir
Z
Z
EX dP = (EX)
1C dP = (EX)(P (C)),
C
21. Februar 2010 15:09
Ω
181
10-A
10
Bedingte Erwartungen
sowie
Z
C
X dP =
Z
Ω
1C X dP = E(1C X) = E(1C )EX,
mit Hilfe der Unabhängigkeit, so ist die Gleichheit offensichtlich.
b. Folgt direkt mit a).
«
10.3 Satz Seien X : (Ω, A, P ) → (R, B), Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariablen.
Dann existiert eine Abbildung
g : (Ω0 , A0 ) → (R, B),
mit E(X | Y ) = g ◦ Y . g ist die sog. Faktorisierung der bedingten Erwartung. g
ist eindeutig bis auf die Äquivalenz “= PY -f.ü. ”. Ç
» Sei Z := E(X | Y ), dann
Z : (Ω, F (Y )) → (R, B).
a) Existenz 1. Schritt. Rückführung auf Indikatorfunktionen. Sei Z = 1A für ein
A ∈ F (Y ) = Y −1 (A0 ), also existiert ein A0 ∈ A0 , so dass Y −1 (A0 ) = A.


1, Y (ω) ∈ A0 , d.h. ω ∈ A,
0
= 1A (ω).
1A (Y (ω)) =
0, sonst

Also ist Z = g ◦ Y mit g = 1A0 .
2. Schritt. Z sei nichtnegativ und einfach. Dann folgt die Existenz von g mit
Z = g ◦ Y direkt aus dem 1. Schritt.
3. Schritt. Z sei nichtnegativ und C − B-messbar. Dann existiert einer Folge
von einfachen Zufallsvariablen Zn mit Zn ↑ Z. Nach dem 2. Schritt existieren gn : (Ω0 , A0 ) → (R, B0 ) mit Zn = gn ◦ Y . Setzen wir
g ∗ := sup gn ,
n∈N
so ist g ∗ messbar und setzten wir weiterhin
g = g ∗ 1[g ∗ <∞] ,
182
21. Februar 2010 15:09
Grundlagen
so ist g reellwertig. Da Z = supn∈N Zn , gilt auch P -f.s.
Z = g ◦ Y.
4. Schritt. Sei Z messbar, so besitzt Z eine Darstellung Z = Z+ − Z− , mit
Z+ , Z− positiv und messbar. Nach dem 3. Schritt existieren Abbildungen
g+ , g− mit Z+ = g+ ◦ Y und Z− = g− ◦ Y . g := g+ − g− ist die gesuchte
Abbildung.
b) Eindeutigkeit. Es gelte E(X | Y ) = g1 ◦ Y f.s. = g2 ◦ Y f.s. und somit
Z
Z
Z
∀ C ∈ F (Y ) :
g1 ◦ Y dP =
X dP =
g2 ◦ Y dP .
C
C
Z C
Z
⇒ ∀ C 0 ∈ A0 :
g1 ◦ Y dP =
g2 ◦ Y dP .
Y −1 (C 0 )
Y −1 (C 0 )
Nach dem Transformationssatz gilt somit
Z
Z
∀ C 0 ∈ A0 :
g1 dPY =
g2 dPY ,
C0
C0
d.h. gerade
∀ C 0 ∈ A0 :
Z
C0
(g1 − g2 ) dPY = 0
und daher g1 = g2 PY -f.ü.
«
10.4 Definition Sei X : (Ω, A, P ) → (R, B) bzw. A ∈ A eine integrierbare Zufallsva-
riable und Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariable. Sei g bzw. gA eine — bis auf
Äquivalenz “= PY - f.ü.” eindeutig bestimmte — Faktorisierung von E(X|Y ) bzw.
von P (A | Y ).
E(X | Y = y) := g(y)
heißt bedingte Erwartung von X unter der Hypothese Y = y.
P (A | Y = y) := gA (y)
heißt bedingte Wahrscheinlichkeit von A unter der Hypoththese. Y = y
E(X | Y = ·) = g,
P (A | Y = ·) = gA .
21. Februar 2010 15:09
Ï
183
10-A
10
Bedingte Erwartungen
10.4 Satz Sei X : (Ω, A, P ) → (R, B) bzw. A ∈ A integrierbare Zufallsvariable und
Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariable. Dann gelten
a) ∀ A0 ∈ A0 :
insbesondere
b) ∀ A0 ∈ A0 :
insbesondere
R
R
A0
R
E(X | Y = y) dPY (y) =
Ω0
R
A0
R
R
Y −1 (A0 )
X dP ,
E(X | Y = y) dPY (y) = EX.
P (A | Y = y) dPY (y) = P (Y −1 (A0 ) ∩ A).
Ω0
P (A | Y = y) dPY (y) = P (A).
Ï
In vielen Anwendungen ist es tatsächlicher einfacher, die bedingte Erwartung
Ω0
»
E(X | Y = y) dPY (y) anstelle des Erwartungswerts EY zu berechnen.
a) Sei g eine Faktorisierung von E(X | Y ) (deren Existenz sichert Satz 10.3)
und A0 ∈ A0 . So gilt
Z
Z
Z
Satz 10.3
X dP =
E(X | Y ) dP
=
g ◦ Y dP
Y −1 (A0 )
Y −1 (A0 )
Y −1 (A0 )
Z
Z
Def 10.4
=
g(y) dPY (y) =
E(X | Y = y) dPY (y).
A0
A0
b) Folgt direkt aus dem Vorangegangenen mit X = 1A .
«
Bsp 3 Seien X bzw. A sowie Y wie zuvor. Sei y ∈ Ω0 wobei
P [Y = y] = PY ( y ) > 0.
y ∈ A0 und
a.) E(X | Y = y) = E(X | [Y = y]).
|
{z
} |
{z
}
s. Definition 10.4
s. Bsp 1
» Sei also y ∈ Ω0 fest mit y ∈ A0 und PY ( y ) > 0. Nach Satz 10.4
ist E(X | Y = y) eindeutig, denn für zwei Faktorisierungen g1 und g2 von
E(X | Y ) stimmen g1 und g2 bis auf eine Menge vom PY -Maß Null überein,
aber PY ( y ) > 0, also g1 (y) = g2 (y).
Sei also g eine Faktorisierung von E(X | Y ), so ist E(X | Y ) = g(y) unab-
hängig von der Wahl von g. Nach Satz 10.4 gilt
Z
Z
g(y 0 ) dPY (y 0 ) =
X dP ,
[Y =y]
{y }
Z
1
X dP . «
⇒g(y) =
P [Y = y] [Y =y]
184
21. Februar 2010 15:09
Grundlagen
b.) P (A | Y = y) = P (A | [Y = y]).
{z
} |
{z
}
|
s. Definition 10.4
s. Bsp 2
10.5 Satz Sei X : (Ω, A, P ) → (R, B) integrierbare Zufallsvariable und Y : (Ω, A) →
(Ω0 , A0 ) Zufallsvariable.
a) X = cf.s. ⇒ E(X | Y = ·) = c PY -f.ü..
b) X ≥ 0 f.s. ⇒ E(X | Y = ·) ≥ 0 PY -f.ü..
c) E(αX1 + βX2 | Y = ·) = αE(X1 | Y = ·) + βE(X2 | Y = ·) PY -f.ü..
d) X1 ≤ X2 f.s. ⇒ E(X1 | Y = ·) ≤ E(X2 | Y = ·) PY -f.ü..
Ï
» Diese Eigenschaften ergeben sich sofort aus Satz 10.2 und Satz 10.3.
«
10.6 Satz Seien C ⊂ A eine Sub-σ -Algebra und X, Xn integrierbare Zufallsvariablen.
Dann gilt:
a) Ist 0 ≤ Xn ↑ X f.s., so folgt
E(Xn | C) → E(X | C) f.s.
(Satz von der monotonen Konvergenz für bedingte Erwartungen).
b) Ist Xn → X f.s., |Xn | ≤ Y f.s. und Y eine integrierbare Zufallsvariable, so
folgt
E(Xn | C) → E(X | C) f.s.
(Satz von der dominierten Konvergenz für bedingte Erwartungen). Ï
»
a) Sei 0 ≤ Xn ↑ X f.s., so folgt mit dem klassischen Satz von der monotonen
Konvergenz, dass
E |Xn − X| = EXn − EX → 0.
Außerdem folgt aus der Dreiecksungleichung oder aus Satz 10.7,
E(E(|Xn − X| | C)) ≥ E(|E((Xn − X) | C)|) = E(|E(Xn | C) − E(X | C)|),
21. Februar 2010 15:09
185
10-A
10
Bedingte Erwartungen
L1
wobei die linke Seite gegen Null konvergiert, also E(Xn | C) → E(X | C).
Nun existiert eine Teilfolge, so dass E(Xnk | C) → E(X | C) f.s. und da
Xnk ↑ X f.s. ist auch die Konvergenz von (E(Xnk | C)) monoton und da
(E(Xn | C)) monoton folgt
E(Xn | C) ↑ E(X | C).
b) Sei Xn → X f.s. Setzen wir Zn := sup |Xk − X|, so ist klar, dass Zn ↓ 0 P -f.s.
k≥n
und es gilt
|E(Xn | C) − E(X | C)| ≤ E(|Xn − X| | C) ≤ E(Zn | C),
aufgrund der Monotonie der bedingten Erwartung. Es genügt nun zu zeigen,
dass E(Zn | C) ↓ 0 P -f.s.
Da Zn ↓ 0 P -f.s., konvergiert auch E(Zn | C) P -f.s. punktweise gegen eine
nichtnegative Zufallsvariable. Sei also U := lim E(Zn | C). Nun gilt
n→∞
0 ≤ Zn ≤ sup |Xn | + |X| ≤ 2Y .
n∈N
Wir können schreiben
E(U ) = E(E(U | C)) ≤ E(E(Zn | C)) = E(Zn ) → 0,
nach dem klassischen Satz von der dominierten Konvergenz, denn die Zn
konvergieren f.s. und werden durch eine integrierbare Zufallsvariable majorisiert. Somit ist U = 0 f.s.
«
10.7 Jensen’sche Ungleichung Sei C ⊂ A eine Sub-σ -Algebra, I ⊂ R ein Intervall,
f : I → R eine konvexe Funktion und X : Ω → I eine integrierbare Zufallsvaria-
ble. Dann ist E(X | C) ∈ I fast sicher. Ist f (X) integrierbar, so gilt
f (E(X | C)) ≤ E(f (X) | C) f.s. Ï
» Falls a ≤ X bzw. X ≤ b, so ist a ≤ E(X | C) bzw. E(X | C) ≤ b und daher
E(X | C) ∈ I.
186
21. Februar 2010 15:09
Grundlagen
Eine konvexe Funktion f : I → R besitzt eine Darstellung als
f (x) = sup v(x),
v∈V
V := v : I → R : v(t) = a + bt ≤ f (t),
t∈I .
Somit gilt aufgrund der Linearität
f (E(X | C)) = sup v(E(X | C)) = sup(E(v(X) | C)).
v∈V
v∈V
Nun ist sup v(X) ≤ f (X) und somit,
v∈V
sup(E(v(X) | C)) ≤ E(f (X) | C).
v∈V
21. Februar 2010 15:09
«
187
10-A
11
Martingale
11 Martingale
Ziel dieses Kapitels ist es, Kriterien für ein starkes Gesetz der großen Zahlen
auch für abhängige Zufallsvariablen zu finden. Dazu untersuchen wir zunächst
spezielle Folgen von Zufallsvariablen, die Martingale, für die sehr angenehme
Konvergensätze existieren, auch wenn die Zufallsvariablen der Folge abhängig
sind.
Martingale spielen eine große Rolle in der Spieltheorie, in der Finanzmathematik und in der stochastischen Analysis.
Für alles Weitere sei (Ω, A, P ) ein W-Raum, n ∈ N und sofern nicht anders
angegeben, mit “→” die Konvergenz für n → ∞ bezeichnet.
11.1 Definition Eine Folge (Xn ) integrierbarer Zufallsvariablen Xn : (Ω, A, P ) →
(R, B) heißt bei gegebener monoton wachsender Folge (An ) von σ -Algebren
An ⊂ A mit An -B-Messbarkeit von Xn [wichtiger Fall An = F (X1 , . . . , Xn )]
a) ein Martingal bzgl. (An ), wenn
∀ n ∈ N : E(Xn+1 | An ) = Xn f.s.
Z
Z
d.h. ∀ n ∈ N ∀ C ∈ An :
Xn+1 dP =
Xn dP .
C
C
b) ein Submartingal bzgl. (An ), wenn
∀ n ∈ N : E(Xn+1 | An ) ≥ Xn f.s.
Z
Z
d.h. ∀ n ∈ N ∀ C ∈ An :
Xn+1 dP ≥
Xn dP .
C
C
c) ein Supermartingal bzgl. (An ), wenn (−Xn ) ein Submartingal bzgl. (An )
ist.
Ï
Eine Folge von Zufallsvariablen ist aber nicht per se ein Martingal sondern
immer nur in Bezug auf eine Folge von σ -Algebren.
188
21. Februar 2010 15:09
11.1 Bemerkung. Ein Martingal (Xn ) bezüglich (An ) ist stets auch ein Martingal
bezüglich (F (X1 , . . . , Xn )). Entsprechend für Sub-, Supermartingal.
»
Ç
a) Xn ist F (X1 , . . . , Xn ) messbar.
b) Sei (Xn ) ein Submartingal bezüglich (An ), so gilt
E(Xn+1 | X1 , . . . , Xn ) = E(Xn+1 | F (X1 , . . . , Xn ))
= E(E(Xn+1 | An ) | F (X1 , . . . , Xn ))
|
{z
}
≥Xn
≥ E(Xn | F (X1 , . . . , Xn )) = Xn ,
da Xn messbar bezüglich F (X1 , . . . , Xn ).
«
11.1 Satz Sei (Vn ) eine Folge von Zufallsvariablen Vn : (Ω, A, P ) → (R, B). Die Par-
tialsummenfolge
P
n
j=1
Vj
n
ist genau dann ein Martingal bzw. Submartingal
bzgl. (F (V1 , V1 + V2 , . . . , V1 + . . . + Vn )) = (F (V1 , . . . , Vn )), wenn für jedes n
gelten
a) Vn integrierbar,
b) E(Vn+1 | V1 , . . . , Vn ) = 0 bzw. ≥ 0 f.s. Ï
» Wir haben zu zeigen, dass für alle n gilt

E
n+1
X
j=1

Vj | Fn  =
n
X
j=1
E(Vj | Fn ) a E(Vn+1 | Fn ) = 0 f.s.
Nach Satz 10.2 gilt gerade

E
n+1
X
j=1


Vj | Fn  = E(Vn+1 | Fn ) + E 
= E(Vn+1 | Fn ) +
da
Pn
j=1
n
X
n
X
j=1

Vj | Fn 
Vj ,
j=1
Vj Fn -messbar. Ein Martingal liegt genau dann vor, wenn E(Vn+1 | Fn )
verschwindet.
21. Februar 2010 15:09
«
189
11-
11
Martingale
11.2 Definition Ein Spiel mit zufälligen Gewinnständen X1 , X2 , . . . nach dem 1., 2., . . .
Schritt heißt fair, wenn EX1 = 0 und (Xn ) ein Martingal [bzgl. (F (X1 , . . . , Xn ))]
ist, d.h. EX1 = 0 und für jedes n gilt
E(Xn+1 | X1 = x1 , . . . , Xn = xn ) = xn für P(X1 ,...,Xn ) -f.a. (x1 , . . . , xn ).
Ï
11.2 Satz Seien die Vn : (Ω, A, P ) → (R, B) quadratisch integrierbare Zufallsvaria-
Pn
blen und die Partialsummenfolge ( j=1 Vj ) ein Martingal.
Dann sind die Vn paarweise unkorreliert, d.h. ∀ i ≠ j : E(Vi Vj ) = 0.
Ï
» Ohne Einschränkung ist j > i. Da Vi und Vj quadratisch integrierbar, gilt
nach der Cauchy-Schwartz- bzw. Hölder-Ungleichung, dass Vj Vi ebenfalls integrierbar, denn
(E(Vj Vi ))2 ≤ (EVj2 )(EVi2 ) < ∞.
Somit erhalten wir
10.2
E(Vj Vi ) = E(E(Vj Vi | Vi )) = E(Vi E(Vj | Vi ))
= E(E(Vj | V1 , . . . , Vj−1 ) | Vi ).
{z
}
|
«
=0 f.s. nach 11.1
Pn
Bsp 1 Ein Beispiel für ein Martingal ist die Partialsummenfolge (
i=1
Vj )n zu
einer unabhängigen Folge (Vn ) von integrierbaren reellen Zufallsvariablen mit
Erwartungswerten 0.
» Nach Satz 11.1 genügt es zu zeigen, dass
E(Vn+1 | V1 , . . . , Vn ) = 0 f.s.
da (F (Vn+1 ), F (V1 , . . . , Vn )) ein unabhängiges Paar von σ -Algebren ist, gilt
nach Bemerkung 10.2,
E(Vn+1 | V1 , . . . , Vn ) = EVn+1 = 0. «
11.3 (Sub-/Super-)Martingalkonvergenztheorem von Doob Sei (Xn ) ein Sub-, Super-
oder Martingal mit lim sup E|Xn | < ∞. Dann existiert eine integrierbare reelle
n→∞
Zufallsvariable X, so dass Xn → X P -f.s. Ï
190
21. Februar 2010 15:09
Zur Beweisvorbereitung benötigen wir noch Definition 11.3 und 11.4, sowie
Satz 11.4 und 11.5.
11.3 Definition Sei (An ) eine monoton wachsende Folge von σ -Algebren An ⊂ A.
Eine Zufallsvariable
T : (Ω, A, P ) → (N, P(N)),
N := N ∪ {∞}
heißt Stoppzeit bzgl. (An ), wenn
∀ k ∈ N : [T = k] ∈ Ak .
Hierbei heißt T Stoppzeit im engeren Sinne, falls P [T < ∞] = 1 (“Kein Vorgriff
auf die Zukunft”).
Wichtiger Spezialfall: An = F (X1 , . . . , Xn ) mit Zufallsvariablen Xn .
Ï
Man kann (Xn ) als Folge der Gewinnstände in einem Spiel interpretieren. Ein
Spieler ohne prophetische Gaben bricht das Spiel im zufälligen Zeitpunkt T
aufgrund des bisherigen Spielverlaufs, d.h. aufgrund der Informationen, die bis
zu diesem Zeitpunkt zur Verfügung stehen, ab.
Bsp 2 T (ω) = inf {n ∈ N : Xn (ω) ∈ B}, ω ∈ Ω — festes messbares B.
Zum Beispiel habe sich ein Aktienhändler einen festen Minimalwert vorgege-
geben, bei dessen Unterschreitung er seine Aktien verkaufen will. B stellt dann
das Ereignis dar, dass eine Aktie den Minimalwert unterschreitet, und Xn den
Aktienkurs seiner Aktien. Seine Bedingung lautet damit “Verkaufe die Aktien
für das kleinste n, so dass Xn ∈ B”.
11.4 Definition Sei (Xn ) eine Folge von Zufallsvariablen Xn : (Ω, A, P ) → (R, B)
und (Tn ) eine Folge von Stoppzeiten bzgl. (Xn ) [d.h. bzgl. (F (X1 , . . . , Xn ))] mit
T1 ≤ T2 ≤ . . . < ∞.
So wird eine neue Folge (XTn )n von Zufallsvariablen definiert durch
(XTn )(ω) := XTn (ω) (ω),
ω ∈ Ω.
Der Übergang von (Xn ) zu (XTn ) heißt optional sampling [frei gewählte Stichprobenbildung].
21. Februar 2010 15:09
Ï
191
11-
11
Martingale
Man kann optional sampling z.B. als ein Testen des Spielverlaufs zu den
Zeitpunkten Tn (ω) interpretieren.
Anschaulich greift man aus einer vorgegebenen Menge von Zufallsvariablen
eine zufällige Teilmenge heraus. Dabei ist es durchaus möglich, dass eine Zufallsvariable mehrfach auftritt.
Vorsicht: Die (XTn ) stellen keine Teilfolge von (Xn ) dar!
11.4 Optional sampling theorem Sei (Xn ) ein Submartingal, M ∈ N fest und (Tn )
eine Folge von Stoppzeiten bzgl. (Xn ) mit T1 ≤ T2 ≤ . . . ≤ M.
Die durch optional sampling erhaltene Folge (XTn )n∈N ist ebenfalls ein Sub-
martingal. — Entsprechend für Martingal statt Submartingal. Ï
Die Martingaleigenschaft ist invariant unter “Stoppen”. Interpretieren wir
(Xn ) z.B. als Folge von Gewinnständen in einem Spiel, so besagt der Satz, dass
sich die Fairness eines Spielverlaufs nicht ändert.
» Wir beweisen den Satz für Submartingale. Für Martingale erfolgt er analog.
Sei n ∈ N beliebig aber fest und C ∈ F (XT1 , . . . , XTn ). Zu zeigen ist
Z
C
XTn+1 dP ≥
Z
C
XTn dP .
(*)
Sei Dj = C ∩ [Tn = j] für j ∈ {1, . . . , M}. Wegen C =
PM
j=1
Dj genügt es (*) auf
Dj nachzuweisen. Sei nun j ∈ {1, . . . , M} fest, so gilt Dj ∈ F (X1 , . . . , Xj ), denn
C = [(XT1 , . . . , XTn ) ∩ B] für ein B ∈ B und damit
Dj = [(XT1 , . . . , XTn ) ∩ B, Tn = j]
X
[Xj1 , . . . , Xjn ∈ B, T1 = j1 , . . . , Tn−1 = jn−1 , Tn = j]
=
j1 ,...,jn−1 =1
j1 ≤j2 ≤...≤jn−1 ≤j
∈ F (X1 , . . . , Xj ).
Das Integral über Dj ist also definiert und es gilt
Z
Dj
192
XTn+1 dP =
M Z
X
k=1
Dj ∩[Tn+1 =k]
XTn+1 dP =
M Z
X
k=j
Dj ∩[Tn+1 =k]
Xk dP .
21. Februar 2010 15:09
11-
Wir behandeln lediglich j = M − 2, die übrigen Fälle zeigt man analog,
Z
DM−2
XTn+1 dP =
Z
M
X
k=M−2
DM−2 ∩[Tn+1 =k]
Xk dP .
Wir schätzen nun jeden der drei Summanden ab.
“k = M”: Da Dj ∩ [Tn+1 = M] = Dj ∩ [Tn+1 ≤ M − 1]c ∈ F (X1 , . . . , XM−1 ), gilt
aufgrund der Submartingaleigeschaft
Z
Z
XM dP ≥
DM−2 ∩[Tn+1 =M]
DM−2 ∩[Tn+1 =M]
XM−1 dP .
“k = M − 1”: Zusammen mit dem eben gezeigten gilt
Z
M
X
k=M−1
DM−2 ∩[Tn+1 =k]
Xk dP ≥
=
Z
DM−2 ∩[Tn+1 =M−1]
Z
DM−2 ∩[Tn+1 ≥M−1]
XM−1 dP +
Z
DM−2 ∩[Tn+1 =M]
XM−1 dP
XM−1 dP .
Da DM−2 ∩ [Tn+1 ≥ M − 1] = DM−2 ∩ [Tn+1 ≤ M − 2]c ∈ F (X1 , . . . , XM−2 ) gilt
Z
Z
XM−1 dP ≥
XM−2 dP .
DM−2 ∩[Tn+1 ≥M−1]
DM−2 ∩[Tn+1 ≥M−1]
“k = M − 2": Folglich ist mit dem eben gezeigten,
Z
Z
Z
XM−2 dP +
XTn+1 ≥
Dj ∩[Tn+1 =M−2]
=
Z
DM−2 ∩[Tn+1 =M−2]
DM−2 ∩[Tn+1 ≥M−2]
DM−2 ∩[Tn+1 ≤M−2]c
XM−2 dP
XM−2 dP .
Da DM−2 ⊂ [Tn ≥ M − 2] ⊂ [Tn+1 ≥ M − 2] gilt
Z
Z
Z
XTn+1 ≥
XM−2 dP =
XTn dP ,
Dj
DM−2
da auf DM−2 , Tn = M − 2.
DM−2
«
11.5 Upcrossing inequality von Doob Sei (X1 , . . . , Xn ) ein — beim festen Index n ∈
N abbrechendes — Submartingal und a, b reelle Zahlen mit a < b. Die Zufallsva-
riable U[a, b] gebe die Anzahl der aufsteigenden Überquerungen des Intervalls
[a, b] durch X1 , . . . , Xn an (d.h. die Anzahl der Übergänge der abbrechenden
Folge von einem Wert ≤ a zu einem Wert ≥ b). Dann gilt
(b − a)EU [a, b] ≤ E(Xn − a)+ − E(X1 − a)+ .
21. Februar 2010 15:09
Ï
193
11
Martingale
b
b
b
b
b
b
a
b
b
b
b
b
1
11.1
2
3
4
5
6
7
8
9
10
ω
Zur Upcrossing Inequality. Xn (ω) mit Überquerungen, U10 [a, b] = 2.
» Da (X1 , . . . , Xn ) ein Submartingal, ist auch (X1 − a, . . . , Xn − a) ein Submartingal und ebenso ((X1 − a)+ , . . . , (Xn − a)+ ), da (· − a)+ : R → R konvex.
U [a, b] gibt auch die Anzahl der aufsteigenden Überschreitungen des Intervalls [0, b − a] durch ((X1 − a)+ , . . . , (Xn − a)+ ) an. Deshalb können wir ohne
Einschränkung a = 0 und Xi ≥ 0 annehmen.
Zu zeigen ist nun b EU[0, b] ≤ EXn −EX1 . Wir definieren uns Zufallsvariablen
T1 , . . . , Tn+1 durch folgende Vorschrift,
T1 (ω) = 1,


min {i : 1 ≤ i ≤ n, Xi (ω) = 0} ,
T2 (ω) =
n,

falls ein solches i existiert,
sonst,


min {i : T2 (ω) ≤ i ≤ n, Xi (ω) ≥ b} , falls ein solches i existiert,
T3 (ω) =

n,
sonst,
. . . abwechselnd
Tn+1 (ω) = n.
Die Zufallsvariablen T1 , . . . , Tn+1 sind Stoppzeiten und T1 ≤ . . . ≤ Tn+1 = n.
194
21. Februar 2010 15:09
11-
Nach Satz 11.4 ist auch (XT1 , . . . , XTn ) ein Submartingal. Nun ist
Xn − X1 =
n
X
(XTk+1 − XTk ) =
k=1
X X
XT2j+1 − XT2j +
XT2j − XT2j−1
|
{z
}
|
{z
}
|
Also EXn − EX1 ≥ bEU [0, b].
E...≥0, da Submartingal
≥b, Aufsteigungen
{z
≥bU[0,b]
}
Nun können wir einen Beweis für Satz 11.3 geben.
» Beweis von 11.3. 1. Schritt. Wir zeigen,
"
∀ − ∞ < a < b < ∞ : P lim inf Xn < a < b < lim sup Xn
n
|
n
{z
=:A(a,b)
#
}
=0
Wähle also a < b beliebig aber fest. Un [a, b] gebe die Anzahl der aufsteigenden
Überquerungen des Intervalls [a, b] durch X1 , . . . , Xn an. Für jedes n ∈ N gilt
Z
(b − a)EUn [a, b] = (b − a)
Un [a, b] dP ≤ E(Xn − a)+ dP
A(a,b)
Satz 11.5
≤
E |Xn | + a ≤ const < ∞.
Angenommen P (A(a, b)) > 0. Dann gilt aber Un [a, b] ↑ ∞ für n → ∞ auf
A(a, b). Nach dem Satz von der monotonen Konvergenz gilt
Z
Un [a, b] dP → ∞ · P (A(a, b)) = ∞.
|
{z
}
A(a,b)
Im Widerspruch zu
>0
R
A(a,b)
Un [a, b] dP ≤ const < ∞.
2. Schritt. Sei A := [lim infn Xn < lim supn Xn ] =
messbar.
P (A) ≤
X
a,b∈Q
S
a,b∈Q
A(a, b), so ist A
P (A(a, b)) = 0.
|
{z
}
=0
Also existiert eine erweitert reellwertige Zufallsvariable X ∗ mit Xn → X ∗ f.s.
Nun gilt
E X ∗ ≤ lim inf E |Xn | < ∞
n
nach Voraussetzung. Also ist X ∗ integrierbar und daher X ∗ ∈ R f.s. Setzen wir
X = X ∗ 1[X ∗ ∈R] , so Xn → X f.s. und X ist reellwertige Zufallsvariable.
21. Februar 2010 15:09
«
195
11
Martingale
11.1 Korollar Ist (Un ) eine Folge integrierbarer nichtnegativ-reeller Zufallsvariablen
auf (Ω, A, P ) und (An ) eine monoton wachsende Folge von Sub-σ -Algebren von
A mit An -B+ -Messbarkeit von Un und gilt weiterhin
E(Un+1 | An ) ≤ (1 + αn )Un + βn ,
wobei αn , βn ∈ R+ mit
P
αn < ∞,
P
βn < ∞, dann konvergiert (Un ) f.s. —
(Un ) ist “fast ein nichtnegatives Supermartingal”.
Auch (EUn ) konvergiert. Ï
Zusatz zum Martingalkonvergenztheorem Ist das Martingal (Xn ) bezüglich
der Folge (An ) gleichgradig integrierbar, d.h.
lim sup E(|Xn | | 1[|Xn |≥c] = 0,
n→∞
so gilt zusätzlich
L1
Xn → X,
Xn = E(X | An ).
Ï
» Sei ε > 0 fest. Dann existiert ein c > 0, so dass
sup E(|Xn | | 1[|Xn |>c] ) < ε,
n≥1
da (Xn ) gleichgradig integrierbar. Nun gilt
E |Xn | = E(|Xn | | 1[|Xn |>c] ) + E(|Xn | | 1[|Xn |≤c] ) < c + ε.
|
{z
} |
{z
}
<ε
≤c
Also ist (Xn ) beschränkt in L1 , d.h. sup E |Xn | < ∞. Mit Satz 11.3 folgt somit
n≥1
lim Xn =: X existiert f.s. und X ∈ L1 , d.h. E |X| < ∞.
n→∞
Noch zu zeigen ist, dass Xn → X in L1 , d.h. E |Xn − X| → 0. Setze dazu



c,
x > c,



fc (x) = x,
−c ≤ x ≤ c,




−c, x < −c,
196
21. Februar 2010 15:09
so ist f lipschitz stetig und wegen der gleichgradigen Integrierbarkeit der Xn
existiert ein c > 0, so dass
ε
∀ n ∈ N :E fc (Xn ) − Xn < ,
3
ε
E fc (X) − X < ,
3
(1)
(2)
Da lim Xn = X f.s. folgt
n→∞
fc (Xn ) → fc (X) f.s.
und fc (Xn ) ≤ c. Mit dem Satz von der dominierten Konvergenz folgt
E fc (Xn ) − fc (X) → 0 f.s.
Zusammenfassend ergibt sich,
E |Xn − X| ≤ E Xn − fc (Xn ) + E fc (Xn ) − fc (X) + E fc (X) − X < ε
also Xn → X in L1 .
Noch zu zeigen ist Xn = E(X | An ) f.s. Sei C ∈ Am und n ≥ m. Da (Xn ) ein
Martingal ist E(Xn 1C ) = E(Xm 1C ). Betrachte
|E(Xn 1C ) − E(X1C )| ≤ E(|Xn − X| 1C ) ≤ E(|Xn − X|) → 0,
so folgt E(Xm 1C ) = E(X1C ).
«
11.6 Satz Sei (Vn ) eine Folge von quadratisch integrierbaren reellen Zufallsvariablen
mit
P∞
n=1
∞
X
V(Vn ) < ∞. Dann ist
(Vn − E(Vn | V1 , . . . , Vn−1 ))
f.s. konvergent.
n=1
[Falls zusätzlich (Vn ) unabhängig, dann ist
P∞
n=1 (Vn
− EVn ) f.s. konvergent]
Ï
» Ohne Einschränkung sei EVn = 0 ansonsten ersetze Vn durch Vn − EVn .
Wn := Vn − E(Vn | V1 , . . . , Vn−1 )
ist somit integrierbar.
21. Februar 2010 15:09
197
11-
11
Martingale
c
ω
11.2
Zur gleichgradigen Integrierbarkeit.
a) Wir zeigen
Pn
k=1
Wk ist ein Martingal bezüglich (F (V1 , . . . , Vn ). Nach Satz
11.1 genügt es dazu zu zeigen, dass für alle n gilt
E(Wn+1 | V1 , . . . , Vn ) = 0.
Es gilt nun gerade,
E(Wn+1 | V1 , . . . , Vn )
= E(Vn+1 | V1 , . . . , Vn ) − E(E(Vn+1 | V1 , . . . , Vn ) | V1 , . . . , Vn )
= E(Vn+1 | V1 , . . . , Vn ) − E(Vn+1 | V1 , . . . , Vn ) = 0 f.s.
Pn
b) Wir zeigen, dass sup E k=1 Wk < ∞. Nach Cauchy-Schwartz gilt,
n≥1
2 
 
X
n
X
n
2
E  ≤ E
Wk |Wk | 
k=1
k=1
es genügt also zu zeigen, dass sup E
dratisch integrierbar, da
n≥1
Pn
k=1
|Wk |2 < ∞. Wn ist ebenfalls qua-
EWn2 ≤ 2EVn2 + 2E [E(Vn | V1 , . . . , Vn−1 )]2
(mit Hilfe von (a + b)2 ≤ 2a2 + 2b2 ). Anwendung von 10.7 ergibt,
h
i
E [E(Vn | V1 , . . . , Vn−1 )]2 ≤ E E(Vn2 | V1 , . . . , Vn−1 ) ≤ EVn2 .
198
21. Februar 2010 15:09
11-
Somit ist EWn2 ≤ 4EVn2 < ∞.
Nun sind die Wn quadratisch integrierbar und stellen ein Martingal dar,
sind also nach 11.2 unkorreliert. Somit ist
2
X
n
n
∞
X
X
X
n
E
W
E |Wk |2 ≤ 4
E |Vk |2 = 4
VVk < ∞.
k =
k=1
k=1
k=1
k=1
Pn
Aus a) und b) folgt mit Satz 11.3 die Behauptung, dass ( k=1 Wk )n f.s. konver-
giert.
Falls die (Vn ) unabhängig, können wir Bemerkung 10.2 anwenden und erhalten E(Vn | V1 , . . . , Vn−1 ) = EVn f.s.
«
11.7 Satz Sei (Vn ) eine Folge von quadratisch integrierbaren reellen Zufallsvariablen
mit
P∞
n=1
n−2 V(Vn ) < ∞. Dann gilt
n
1 X
(Vj − E(Vj | V1 , . . . , Vj−1 )) → 0
n j=1
Falls zusätzlich (Vn ) unabhängig, dann
1
n
f.s.
Pn
j=1 (Vj
− EVj ) → 0 f.s.
(Kriterium von Kolmogorov zum starken Gesetz der großen Zahlen)
Ï
» Nach Satz 11.6 für n−1 Vn anstatt Vn gilt,
∞
X
Vn − E(Vn | V1 , . . . , Vn−1 )
konvergiert f.s.
n
n=1
Daraus folgt mit dem Lemma von Kronecker (s.u.),
n
1 X
(Vi − E(Vi | V1 , . . . , Vi−1 ) → 0 f.s.
n i=1
Falls (Vn ) unabhängig, Bemerkung 10.2 anwenden.
«
11.1 Lemma von Kronecker Sei (cn ) eine Folge reeller Zahlen.
n
∞
X
cn
1 X
konvergiert ⇒
cj → 0.
n
n j=1
n=1
21. Februar 2010 15:09
Ï
199
11
Martingale
» Sei sn =
Pn
j=1
j −1 cj , so ist (sn ) nach Voraussetzung konvergent, sei s der
Grenzwert. Offensichtlich ist sn − sn−1 = n−1 cn mit s0 = 0 und daher
n
X
j=1
cj =
n
X
j=1
j(sj − sj−1 ) = nsn −
n
X
j=1
Somit gilt
n
n
1 X
1 X
cj = s n −
sj−1 → 0.
n j=1
n j=1
|
{z
}
(j − (j − 1)) sj−1 .
{z
}
|
1
«
→s
11.2 Bemerkung. Aus Satz 11.6 bzw. 11.7 ergibt sich unmittelbar für eine Folge (Vn )
quadratisch integrierbarer reeller Zufallsvariablen eine hinreichende Bedingung
Pn
1 Pn
für die f.s.-Konvergenz der Reihe j=1 Vn bzw. für n
j=1 Vj → 0 f.s. Ï
11.8 Kriterium von Kolmogorov für das starke Gesetz der großen Zahlen Eine un-
abhängige Folge (Xn ) quadratisch integrierbarer reeller Zufallsvariablen mit
∞
X
n=1
n−2 V (Xn ) < ∞
genügt dem starken Gesetz der großen Zahlen. Ï
11.9 Kolmogorovsches starkes Gesetz der großen Zahlen Für eine unabhängige Fol-
ge (Xn )n∈N identisch verteilter integrierbarer reeller Zufallsvariablen gilt
n
1 X
Xk → EX1 f.s. Ï
n k=1
Der Satz wurde bereits im Kapitel 8 beweisen, wir wollen nun unter Verwendung der Martingaltheorie einen eleganteren Beweis geben.
Lemma Sei (Xn ) eine Folge unabhängiger, identisch verteilter Zufallsvariablen
mit E |X1 | < ∞. Setze Yn := Xn 1[|Xn |≤n] (“Stutzung”). Dann gilt
a) EYn → EX1 ,
b) P [Xn = Yn für fast alle n] = 1,
200
21. Februar 2010 15:09
11-
c) (Yn ) erfüllt die Kolmogorov-Bedingung,
∞
X
n=1
»
n−2 V(Yn ) < ∞.
Ï
a) Sei Zn := X1 1[|X1 |≤n] . Für jedes n ∈ N haben X1 und Xn dieselbe Verteilgung also besitzen auch Yn und Zn dieselbe Verteilung.
Somit gilt EZn = EYn . Ferner ist |Zn | ≤ |Xn | und Zn → X1 f.s. also nach
dem Satz von der dominierten Konvergenz
EYn = EZn → EX1 f.s.
b)
∞
X
n=1
P [Xn ≠ Yn ] =
∞
X
n=1
P [Xn > n] ≤
Lemma 4.1
=
Z∞
0
P [|X1 | > t] dt
E |X1 | < ∞.
Mit dem 1. Lemma von Borel und Cantelli folgt somit
P [Xn ≠ Yn für fast alle n] = 0.
c) Für jedes n ∈ N gilt nach Partialbruchzerlegung,
2
1
1
1
≤
≤2
−
.
2
n
n(n + 1)
n
n+1
Damit erhalten wir eine Abschätzung für den Reihenrest
X 1
2
≤ .
2
n
k
n≥k
(*)
Somit folgt
∞
X
X
|X1 |2 1[|X1 |≤n]
≤
2
n
n=1
n≥max{1,|X
1 |}
|X1 |2
2 |X1 |2
≤
≤ 2 |X1 | .
n2
max {1, |X1 |}
Also gilt auch für die Summe der Varianzen
∞
∞
∞
X
X
X
V(Yn )
E |Yn |2
E |Zn |2
≤
=
≤ 2E |X1 | < ∞.
2
2
n
n
n2
n=1
n=1
n=1
21. Februar 2010 15:09
«
201
11
Martingale
» Beweis von Satz 11.9. Wir betrachten die gestutzten Zufallsvariablen
Yn := Xn 1[|Xn |≤n] ,
Sn :=
n
X
Xi .
i=1
Nach Betrachtung b) im obigen Lemma genügt es zu zeigen,
n
1 X
Yi → EX1 f.s.
n i=1
Dazu betrachten wir die Zerlegung
n
n
n
1 X
1 X
1 X
Yi =
EYi +
(Yi − EYi ).
n i=1
n i=1
n i=1
Nach dem Grenzwertsatz von Caesaro gilt
n
1 X
EYi → EX1 f.s.
n i=1
und nach Satz 11.8 gilt außerdem
n
1 X
(Yi − EYi ) → 0 f.s.
n i=1
«
11.2 Korollar Sei (Xn ) eine Folge von unabhängigen identisch verteilten reell-erweiterten
Zufallsvariablen mit EX1− < ∞ und EX1+ = ∞, d.h. EX1 = ∞. Dann gilt
∞
1 X
Xi → ∞ f.s.
n n=1
Ï
» Mit Satz 11.9 gilt
∞
1 X −
X → EX1− f.s.
n i=1 i
Deshalb können wir ohne Einschränkung davon ausgehen, dass Xi ≥ 0. Sei
k ∈ N beliebig aber fest und setze
Zn(k) := Xn 1[Xn ≤k] .
202
21. Februar 2010 15:09
0-
(k)
So folgt Zn ≤ k und
n
n
1 X
1 X (k)
(k)
Xi ≥
Z
→ EZ1 f.s.
n i=1
n i=1 i
(k)
Aber Z1
(**)
↑ X1 und mit dem Satz von der monotonen Konvergenz folgt
(k)
EZ1
↑ EX1 .
Mit (**) folgt jedoch, dass
n
1 X
Xi → ∞ f.s.
n i=1
«
Ein direktes Analogon zu Satz 9.13 für Dreiecksschemata von Zufallsvariablen ist.
11.10 Satz Das Schema reeller Zufallsvariablen Xn, mit j = 1, . . . ., jn und das Schema
der σ -Algebren Anj in Ω mit F (Xnj ⊂ Anj ⊂ An,j+1 ⊂ A sollen die folgenden
Bedingungen erfüllen
a) Xn,j ist quadratisch integrierbar, Ej−1 Xn−j := E(Xnj | An,j−1 ) = 0,
die Xn,j bilden ein sogenanntes Martingaldifferenzschema.
b)
Pjn
j=1
P
2
Ej−1 Xn,j
→ 1.
c) Für jedes ε > 0 sei
jn
X
j=1
P
2
Ej−1 Xn,j
1[Xn,j >ε] → 0
eine sogenannte bedingte Lindeberg-Bedingung.
21. Februar 2010 15:09
Ï
203
A
Begriffe und Sätze der Maß- und Integrationstheorie
A Begriffe und Sätze der Maßund Integrationstheorie
Sei (Ω, A, µ) ein Maßraum.
Satz von der monotonen Konvergenz (B. Levi) Für erweitert reellwertige messR
bare Funktionen fn mit fn ≥ 0 und fn ↑ f existiert lim fn dµ und es gilt
n
lim
n
Z
fn dµ =
Z
lim fn dµ.
n
Ï
Lemma von Fatou Für jede Folge (fn ) von erweitert reellwertigen messbaren
Funktionen mit fn ≥ 0 µ-f.ü. gilt
Z
lim inf fn dµ ≤ lim inf
Z
fn dµ.
Ï
Satz von der dominierten Konvergenz (Lebesgue) Für erweitert-reellwertige messbare Funktionen fn , f und g mit fn → f µ-f.ü., |fn | ≤ g µ-f.ü. für alle n und
R
R
g dµ < ∞ existiert limn→∞ fn dµ und es gilt
lim
n→∞
Definition
Z
fn dµ =
Z
f dµ.
Ï
1.) Das Maß µ heißt σ -endlich, wenn es ein Folge von Mengen
An ∈ A gibt mit An ↑ Ω und µ(An ) < ∞.
2.) Ein Maß ν auf A heißt µ-stetig, falls
∀ A ∈ A : µ(A) = 0 ⇒ ν(A) = 0.
204
Ï
21. Februar 2010 15:09
Satz von Radon-Nikodym Seien (Ω, A) Messraum, µ und ν σ -endliche Maße
auf A und ν sei µ-stetig. Dann existiert eine Funktion f : (Ω, A) → (R+ , B+ ) mit
∀ A ∈ A : ν(A) =
Z
A
f dµ
f ist eindeutig bis auf Äquivalenz “=µ-f.ü.”.
f ist die sog. Radon-Nikodym-Ableitung von ν nach µ und wird häufig kurz
durch
dν
dµ
angegeben.
Ï
» Zum Beweis siehe Elstrodt.
«
Bsp 1 Sei Q ein W-Maß auf B, λ das LB-Maß auf B und Q sei λ-stetig. Dann ist
die Radon-Nikodyn-Ableitung
dQ
dλ
die gewöhnliche Dichte von Q.
Zusatz Seien µ, ν, ϕ σ -endliche Maße, ϕ sei ν-stetig und ν sei µ-stetig. Dann
gilt
dϕ
dϕ
dν
=
·
.
dµ
dν
dµ
21. Februar 2010 15:09
Ï
205
1-
A
Literaturverzeichnis
Literaturverzeichnis
[1] Bauer, H. Wahrscheinlichkeitstheorie; de Gruyter, Berlin (1990), 4. Aufl.
[2] Bauer, H. Maß- und Integrationstheorie; de Gruyter, Berlin (1998), 2. Aufl.
[3] Billingsley, P. Probability and Measure; Wiley, New York (1995), 3rd ed.
[4] Capiński, M., Kopp, E. Measure Integral and Probability; Springer (2004),
2nd ed.
[5] Dudley, R.M. Real Analysis and Probability; Cambridge University Press
(2002), 2nd ed.
[6] Elstrodt, J. Maß- und Integrationstheorie; Springer (2009), 6. Aufl.
[7] Feller, W. An Introduction to Probability and Its Applications I,II; Wiley,
New York (1970/71), 3rd ed./2nd ed.
[8] Fisz, M. Wahrscheinlichkeitsrechnung und mathematische Statistik; VEB
Deutscher Verlag der Wissenschaften, Berlin (1970), 5. Aufl.
[9] Gänssler, P., Stute, W. Wahrscheinlichkeitstheorie; Springer, Berlin (1977).
[10] Henze, N. Stochastik für Einsteiger: Eine Einführung in die faszinierende
Welt des Zufalls; Vieweg+Teubner (2008), 7. Aufl.
[11] Hesse, C. Wahrscheinlichkeitstheorie — Eine Einführung mit Beispielen
und Anwendungen. Vieweg+Teubner (2009), 2. Aufl.
[12] Hinderer, K. Grundbegriffe der Wahrscheinlichkeitstheorie; Springer,
Berlin (1985), 3. korr. Nachdruck.
[13] Jacod, J., Protter, P. Probability Essentials. Springer, Berlin (2004), 2nd ed.
206
21. Februar 2010 15:09
Literaturverzeichnis
[14] Kallenberg, O. Foundations of Modern Probability. Springer, New York
(2001), 2nd ed.
[15] Klenke, A. Wahrscheinlichkeitstheorie; Springer, Heidelberg (2006)
[16] Krengel, U. Einführung in die Wahrscheinlichkeitstheorie und Statistik;
Vieweg, Braunschweig (2003), 7. Aufl.
[17] Loève, M. Probability Theory I,II; Springer, Berlin (1977/78), 4th ed.
[18] Meintrup D., Schäffler S. Stochastik — Theorie und Anwendungen; Springer (2004).
[19] Williams, D. Probability with Martingales; Cambridge University Press
(1991).
[20] Wengenroth, J. Wahrscheinlichkeitstheorie. De Gruyter (2008).
[21] Williams, D. Weighing the Odds — A Course in Probability and Statistics;
Cambridge University Press (2001).
21. Februar 2010 15:09
207
1-
Herunterladen