- of Jan Molnar

Jan-Cornelius Molnar
Wahrscheinlichkeitstheorie
Aufbauend auf einer Vorlesung von PD Dr. J. Dippon
Stuttgart, Wintersemester 2009 / 2010
Version: 6. November 2011 13:28
Für Hinweise auf Druckfehler und Kommentare jeder Art bin ich dankbar. Viel Spaß!1
1
Jan-Cornelius Molnar [email protected]
Inhaltsverzeichnis
0 Gegenstand der Vorlesung
5
1 Wahrscheinlichkeitsräume
7
1-A Algebren, Inhalte und Maße . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1-B Wahrscheinlichkeiträume und -maße . . . . . . . . . . . . . . . . . . . . .
13
Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Weitere Eigenschaften von Wahrscheinlichkeitsmaßen . . . . . . 18
Fortsetzung von Wahrscheinlichkeitsmaßen . . . . . . . . . . . . . 22
17
1-C Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1-D Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . 29
2 Kombinatorische Wahrscheinlichkeitsrechnung
35
3 Zufallsvariablen und Verteilungen
39
3-A Meßbare Abbildungen und Zufallsvariablen . . . . . . . . . . . . . . . . . 39
3-B Bildmaße und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Produktmessräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4 Erwartungswerte und Dichten
53
4-A Erwartungswert, Varianz und Lebesgue Integral . . . . . . . . . . . . . . 53
Erwartungswert mittels Riemann-Stieltjes-Integral . . . . . . . . . 54
Erwartungswert mittels Maß-Integral . . . . . . . . . . . . . . . . . 55
Eigenschaften des Erwartungswerts . . . . . . . . . . . . . . . . . . 59
4-B Dichtefunktion und Zähldichte . . . . . . . . . . . . . . . . . . . . . . . . . 63
Der Transformationssatz . . . . . . . . . . . . . . . . . . . . . . . . 67
4-C Momente von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . .
5 Unabhängigkeit
71
75
5-A Unabhängige Ereignisse und Zufallsvariablen . . . . . . . . . . . . . . . . 76
Unabhängige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 78
-1
Inhaltsverzeichnis
Faltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5-B Null-Eins-Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6 Erzeugende und charakteristische Funktionen, Faltungen
89
6-A Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Konvergenzsätze der Maßtheorie . . . . . . . . . . . . . . . . . . . 95
6-B Charakteristische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Eindeutigkeitssatz und Umkehrformeln . . . . . . . . . . . . . . . 103
6-C Faltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7 Spezielle Verteilungen
113
7-A Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7-B Totalstetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8 Gesetze der großen Zahlen
123
8-A Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
8-B Schwache und starke Gesetze der großen Zahlen . . . . . . . . . . . . . . 126
9 Zentrale Grenzwertsätze
135
9-A Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R . . . . . . . 135
9-B Zentrale Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Multivariate zentrale Grenzwertsätze . . . . . . . . . . . . . . . . . 160
10 Bedingte Erwartungen
163
10-AGrundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
11 Martingale
177
A Begriffe und Sätze der Maß- und Integrationstheorie
191
Literaturverzeichnis
193
4
6. November 2011 13:28
0-
0 Gegenstand der Vorlesung
Realität
Erfahrung
Daten
Beobachtung
Modellierung
Abstraktion
0.1
Axiomatische Theorie
Analyse
Anwendung
Aussagen über
die Realität
Mathematisches Model
Deduktion
Interpretation
Mathematische Eigenschaften
Theoreme
Schema Mathematische Modellierung.
Gegenstand der Vorlesung ist es nicht, Aussagen darüber zu treffen, was “Zufall”
oder “Wahrscheinlichkeit” konkret bedeutet. Wir haben die Absicht zu klären, welche Axiome für eine Wahrscheinlichkeit gelten und welche Eigenschaften sie erfüllen muss - sofern sie existiert.
6. November 2011 13:28
5
1-A
1 Wahrscheinlichkeitsräume
1-A Algebren, Inhalte und Maße
Ziel dieses Abschnittes ist es, Abbildungen µ zu definieren, die einer Teilmenge
eines Raumes Ω ein “Maß” zuordnen,
µ : P(Ω) → R.
Gehen wir von Ω = R aus und betrachten zunächst nur Intervalle als Teilmengen,
so ist es nur natürlich diesen auch ihre Länge als “Maß” zuzuordnen,
µ((a, b]) = b − a.
G. Vitali1 hat jedoch bereits 1905 gezeigt, dass es nicht möglich ist, ein solches
“Maß” dann für alle Teilmengen von R, d.h. auf der Potenzmenge P(R) zu definieren, es ist also notwendig sich lediglich auf eine Teilmenge von P(R) zurückzuziehen, d.h. man kann auch nur bestimmen Teilmengen von R mit einem solchen Maß
“vermessen”.
1
Giuseppe Vitali (* 26. August 1875 in Ravenna;
† 29. Februar 1932 in Bologna) war ein italienischer
Mathematiker.
6. November 2011 13:28
7
1
Wahrscheinlichkeitsräume
In der Wahrscheinlichkeitstheorie werden üblicherweise als Definitionsbereich
von Maßen sogenannte σ -Algebren betrachtet.
1.1 Definition Sei Ω eine nichtleere Menge. Ein System A von Teilmengen von Ω heißt
Algebra, wenn
1.) ∅ ∈ A,
2.) A ∈ A ⇒ Ω \ A ∈ A,
3.) A, B ∈ A ⇒ A ∪ B ∈ A
oder äquivalent
A1 , . . . , Am ∈ A ⇒
Sm
i=1
Ai ∈ A.
das System A heißt σ -Algebra, falls zusätzlich gilt,
3.*) An ∈ A für n ∈ N ⇒
S∞
n=1
An ∈ A. Ï
Diese Definition einer Algebra ist nicht mit der aus der Vorlesung “Algebra” zu
verwechseln. Dennoch existieren Parallelen. Vereinigung und Schnittbildung könnte man als Addition und Multiplikation betrachten, das Komplement als Inverses
und die leere Menge als Identität.
1.1 Bemerkung. Ist A σ -Algebra, so ist A auch auch eine Algebra.
Ç
Wie wir noch sehen werden, besitzen Algebren zahlreiche angenehme Eigenschaften. Durch die Forderung dass Komplemente und Vereinigungen enthalten
sind, ergibt sich beispielsweise automatisch, dass auch Schnitte und Differenzen
enthalten sind.
1.1 Lemma
a) Sei A eine Algebra, so gilt
A1 , . . . , A m ∈ A ⇒
m
\
n=1
An ∈ A.
A, B ∈ A ⇒ A \ B ∈ A.
b) Sei A eine σ -Algebra, so gilt außerdem
An ∈ A für n ∈ N ⇒
8
∞
\
n=1
An ∈ A.
Ï
6. November 2011 13:28
Algebren, Inhalte und Maße
Eine Algebra (bzw. σ -Algebra) enthält somit stets ∅ und Ω und ist abgeschlossen
gegenüber endlich (bzw. abzählbar) vielen üblichen Mengenoperationen.
»
a) Definition 1.1 besagt, A1 , . . . , Am ∈ A ⇒ Ac1 , . . . , Acm ∈ A. Mit den Regeln von
De-Morgan folgt,

c
m
m
\
[

An  =
Acn ∈ A,
n=1
Tm
d.h.
n=1
n=1
An ∈ A.
b) Seien A, B ∈ A. Man sieht leicht, dass A \ B = A ∩ B c und daher ist auch
A \ B ∈ A als Schnitt von A und B c .
«
1.2 Definition Sei Ω eine nichtleere Menge und A eine σ -Algebra in Ω. Das Paar (Ω, A)
heißt Messraum (mesurable space); die Elemente ∈ A heißen A-messbare Mengen.
Entsprechendes gilt für σ -Algebra. Ï
Man startet bei der Definition von Abbildungen auf Messräumen oft nur auf
Teilmengen - wie z.B. den Intervallen in R - und dehnt anschließend den Definitionsbereich aus. Für diese Vorgehensweise sind folgende Ergebnisse zentral.
1.2 Lemma
T
a) Seien Aα Algebren in Ω, α ∈ I und I beliebige Indexmenge, so ist
α∈I Aα eine Algebra in Ω.
b) Sei C ⊆ P(Ω) ein Mengensystem in Ω, so es existiert eine kleinste C enthaltende
Algebra. Ï
»
a) Wir führen den Beweis für σ -Algebren; der für Algebren wird analog geführt.
T
Aα sei für jedes α ∈ I eine σ -Algebra in Ω. Also ist auch ∅ ∈ α∈I Aα , da
∅ ∈ Aα für alle α ∈ I. Weiterhin gilt
\
A∈
Aα a ∀ α ∈ I : A ∈ Aα ⇒ ∀ α ∈ I : Ac ∈ Aα
α∈I
a Ac ∈
\
α∈I
Aα ,
sowie
A1 , A2 , . . . ∈
\
α∈I
Aα a ∀ α ∈ I : A1 , A2 , . . . ∈ Aα
⇒ ∀α∈I :
6. November 2011 13:28
∞
[
n=1
An ∈ Aα a
∞
[
n=1
An ∈
\
α∈I
Aα .
9
1-A
1
Wahrscheinlichkeitsräume
b) Betrachte alle Obermengen von C, die Algebren sind, und bilde den Schnitt,
\
Aα Algebra
C⊆Aα
Aα
Aus a) folgt, dass der Schnitt eine Algebra ist. Der Schnitt ist dann auch per
definitionem die kleinste σ -Algebra, die C enthält.
«
1.3 Definition Sei C ein Mengensystem in Ω. Die kleinste der C enthaltenden Algebren
heißt die von C erzeugte Algebra; C heißt ein Erzeugersystem dieser Algebra.
Entsprechendes gilt für σ -Algebren.
Wir bezeichnen die von C erzeugte Algebra mit F (C). Ï
Das Konzept des Erzeugersystems ermöglicht es uns, Eigenschaften nur auf dem
Erzeugersystem nachzuweisen, was oft einfacher ist, und diese Eigenschaften auf
die erzeugte Algebra zu übertragen.
Im Rn bilden die offenen Teilmengen ein wichtiges Mengensystem, die sie die
Topologie erzeugen und somit Metrik, Norm, Konvergenz, Differenziation, etc. charakterisieren. Folgende Definition ist daher für alles Weitere zentral.
1.4 Definition Sei On das System der offenen Mengen des Euklidischen Raumes Rn .
Setze Bn Í F (On ). Bn wird als σ -Algebra der Borelschen Mengen in Rn bezeichnet.
B Í B1 . Ï
Bn enthält alle abgeschlossenen, alle kompakten und alle höchstens abzählbaren
Mengen in Rn . Es gilt dennoch tatsächlich Bn ⊊ P(Rn ), der Beweis benötigt jedoch
die Annahme des Auswahlaxioms.
Die Borelschen Mengen bilden die grundlegenden Mengen, mit denen wir uns
beschäftigen. Wenn wir auf dem Rn arbeiten, enthält also Bn alle “für uns interessanten” Mengen.
Um das Konzept des Erzeugersystem ausnutzen können, verwenden wir das System Jn der halboffenen Intervalle (bzw. Rechtecke)
(a, b] Í {(x1 , . . . , xn ) ∈ Rn : ai < xi à bi , i = 1, . . . , n}
in Rn , wobei a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈ Rn mit ai < bi , oder auch das Sys-
tem der offenen Intervalle, der abgeschlossenen Intervalle, der Intervalle (−∞, a]
oder der Intervalle (−∞, a).
1.1 Satz Das System Jn ist ein Erzeugersystem von Bn .
10
Ï
6. November 2011 13:28
Algebren, Inhalte und Maße
» per definitionem gilt (a, b] Í {(x1 , . . . , xn ) ∈ Rn : ai < xi à bi , i = 1, . . . , n}. Nun
lässt sich jedes offene Intervall als abzählbare Vereinigung halboffener Intervalle
darstellen,
[ 1
a, b −
k
k∈N
[ 1
(x1 , . . . , xn ) ∈ Rn : ai < xi à bi −
=
∈ Bn .
k
k∈N
(a, b) =
Ferner lässt sich jede offene Menge in Rn als abzählbare Vereinigung von offenen
Intervallen mit rationalen Randpunkten darstellen.
«
Wir haben nun die notwendigen Vorbereitungen getroffen um ein Maß zu definieren.
1.5 Definition Sei C ein Mengensystem in Ω mit ∅ ∈ C. Eine Mengenfunktion
µ : C → R Í R ∪ {+∞, −∞}
heißt (mit den Konventionen a + ∞ = ∞ (a ∈ R), ∞ + ∞ = ∞ usw.)
1.) ein Inhalt (content) auf C, wenn
(a) µ ist nulltreu, d.h. µ(∅) = 0,
(b) µ ist positiv, d.h. ∀ A ∈ C : µ(A) ≥ 0,
(c) µ ist additiv, d.h. für paarweise disjunkte An ∈ C mit n = 1, 2, . . . , m
Pm
und n=1 An ∈ C gilt2

µ
m
X
n=1

An  =
m
X
µ(An ).
n=1
2.) ein Maß (measure) auf C, wenn
(a) µ ist nulltreu, d.h. µ(∅) = 0,
(b) µ ist positiv, d.h. ∀ A ∈ C : µ(A) ≥ 0,
2
A + B bzw.
Pm
n=1
An steht für die disjunkte Vereinigung von A und B bzw. der An . Wir fordern bei
P
implizit, dass A und B bzw. die An disjunkt sind.
der Verwendung von + und
6. November 2011 13:28
11
1-A
1
Wahrscheinlichkeitsräume
(c) µ ist σ -additiv, d.h. für paarweise disjunkte An ∈ C mit n ∈ N und
P∞
n=1 An ∈ C gilt

µ
∞
X
n=1

An  =
∞
X
µ(An ).
n=1
Ist A eine σ -Algebra in Ω, µ ein Maß auf A, so heißt (Ω, A, µ) ein Maßraum (mea-
sure space).
Ï
Offensichtlich ist jedes Maß ein Inhalt.
“Natürliche” Definitionsbereiche für Inhalt und Maß sind Algebren bzw. σ -Algebren.
P∞
Pm
n=1 An ∈
n=1 An ∈ C bzw.
In diesem Fall können wir auch auf die Voraussetzung
C) verzichten. Häufig werden wir nur diese Definitionsbereiche verwenden.
In der Wahrscheinlichkeitstheorie arbeiten wir häufig auf abzählbaren Messräumen wie z.B. N dann lassen sich alle Teilmengen messen, indem wir ihnen als Maß
die Anzahl ihrer Elemente zuordnen.
1.6 Definition Sei (Ω, A) ein Messraum und Z = {z1 , z2 , . . .} eine höchstens abzählbare
Teilmenge von Ω, so heißt
µ : A → R, mit µ(A) Í Anzahl der Elemente in A ∩ Z,
A ∈ A,
ein abzählendes Maß (counting measure). Ï
1.2 Bemerkung. Sei A Algebra in Ω, µ endlicher Inhalt auf A, ferner A, B ∈ A und
A ⊂ B, so gilt
µ(B \ A) = µ(B) − µ(A).
Diese Eigenschaft nennt sich Subtraktivität. Ç
» Da B = A + B \ A, gilt µ(B) = µ(A) + µ(B \ A).
12
«
6. November 2011 13:28
Wahrscheinlichkeiträume und -maße
1-B Wahrscheinlichkeiträume und -maße
1.7 Definition Sei A eine σ -Algebra in Ω. Eine Abbildung P : A → R heißt ein Wahr-
scheinlichkeitsmaß (W-Maß) auf A, wenn
(a) P nulltreu, d.h. P (∅) = 0,
(b) P positiv, d.h. P (A) ≥ 0,
(c) P σ -additiv, d.h. für alle paarweise disjunkte An ∈ A (n = 1, 2, . . .) gilt

P
∞
X
n=1

An  =
∞
X
P (An ),
n=1
(d) P normiert, d.h. P (Ω) = 1.
(Ω, A, P ) heißt dann ein Wahrscheinlichkeitsraum (W-Raum) (probability space).
Ist (Ω, A, P ) ein W-Raum, so bezeichnet man die Grundmenge Ω auch als Merk-
malraum, Stichprobenraum (sample space), die Mengen A ∈ A als Ereignisse, P (A)
als Wahrscheinlichkeit von A und die Elemente ω ∈ Ω bzw. die 1-Punkt-Mengen
{ω} ⊂ Ω (nicht notwendig ∈ A) als Elementarereignisse (auch Realisierungen).
Ein W-Raum ist ein normierter Maßraum.
Ï
Ein Wahrscheinlichkeitsmaß, ist also ein normiertes Maß auf (Ω, A) mit Werte-
bereich R anstatt R.
Bei der Definition eines Wahrscheinlichkeitsmaßes, ergeben sich Nulltreue, Positivität und Normiertheit ganz intuitiv. In der Vergangenheit wurde lange darüber
diskutiert, ob es notwendig ist, die σ -Additivität für Ereignisse zu fordern. Es hat
sich jedoch herausgestellt, dass dies durchaus sinnvoll und notwendig ist.
Damit haben wir die Axiome der Wahrscheinlichkeitstheorie formuliert und alles Folgende wird auf diesen Axiomen aufbauen. Nun stellt sich natürlich die Frage,
ob diese Definition einer “Wahrscheinlichkeit” mit unserer Alltagserfahrung übereinstimmt. Im Laufe der Vorlesung werden wir feststellen, dass dieses “Modell” in
vielen Fällen eine sehr gute Approximation der Wirklichkeit darstellt.
Zur Motivation des Wahrscheinlichkeitsraumes. Wir suchen nach einem alternativen Weg, eine Wahrscheinlichkeit einzuführen. Sei dazu hn (A) die absolute Häufigkeit des Eintretens eines Ereignisses A (z.B. Würfeln einer “6” bei n Würfen) und
6. November 2011 13:28
13
1-B
1
Wahrscheinlichkeitsräume
Hn (A) =
hn (A)
n
die relative Häufigkeit des Auftretens von Ereignis A.
Offensichtlich gilt für jedes A und jedes n:
0 à Hn (A) à 1,
Hn (Ω) = 1,
Hn (∅) = 0.
Für zwei disjunkte Ereignisse A1 , A2 gilt weiterhin
Hn (A1 + A2 ) = Hn (A1 ) + Hn (A2 ).
Hn verfügt also über alle Eigenschafen eines Wahrscheinlichkeistmaßes.
Führt man das (Würfel)-Experiment hinreichend oft durch, kann man das “Empirische Gesetz der großen Zahlen” vermuten:
lim Hn (A) existiert.
n→∞
Im Fall der Existenz kann man dem Ereignis A den obigen Grenzwert als Wahrscheinlichkeit zuordnen (R.v. Mises 19193 ),
P (A) = lim Hn (A).
n→∞
Dieser Grenzwert muss aber nicht für alle möglichen Folgen von Versuchsergebnissen existieren - es lässt sich nicht ausschließen, dass man in einer Versuchsfolge
ausschließlich 6er würfelt.
Die endgültige, axiomatische Formulierung der Wahrschienlichkeitstheorie, wie
wir sie eben eingeführt haben, hat 1933 mit dem Werk “Grundbegriffe der Wahrscheinlichkeitsrechnung” von Kolmogorov4 seinen Abschluss gefunden. Der axiomatische Ansatz hat sich bisher als der erfolgreichste erwiesen. Wir zahlen aber
einen Preis, denn dieser Ansatz erklärt nicht, was Wahrscheinlichkeit eigentlich
bedeutet.
Binomialverteilung
Oft sind nur endlich viele Elementarereignisse möglich und alle diese treten mit der
gleichen Wahrscheinlichkeit ein. Wir sprechen in diesem Fall von einem LaplaceExperiment.
3
Richard Edler von Mises (* 19. April 1883 in Lemberg, Österreich-Ungarn, heute Lwiw, Ukraine;
†
14. Juli 1953 in Boston, Massachusetts) war ein österreichischer Mathematiker.
4
Andrei Nikolajewitsch Kolmogorow (* 25. April 1903 in Tambow; † 20. Oktober 1987 in Moskau) war
einer der bedeutendsten Mathematiker des 20. Jahrhunderts. Kolmogorow leistete wesentliche
Beiträge auf den Gebieten der Wahrscheinlichkeitstheorie und der Topologie, er gilt als der Gründer der Algorithmischen Komplexitätstheorie. Seine bekannteste mathematische Leistung war die
Axiomatisierung der Wahrscheinlichkeitstheorie.
14
6. November 2011 13:28
Wahrscheinlichkeiträume und -maße
Definition Ein W-Raum (Ω, A, P ) mit Ω endlich, A = P(Ω) und
P ({ω}) =
1
,
|Ω|
ω ∈ Ω,
|Ω| = Anzahl der Elemente in Ω,
heißt Laplacescher W-Raum:
Für A ∈ A gilt P (A) =
|A|
Anzahl der “günstigen” Fälle
=
.
|Ω|
Anzahl der “möglichen” Fälle
Ï
Bsp 1 Seien n ∈ N, p ∈ [0, 1] fest. Betrachte n gleichartige Experimente ohne ge-
genseitige Beeinflussung mit den möglichen Ausgängen
0 (“Misserfolg”, “Kopf”) und 1 (“Erfolg”, “Zahl”)
mit jeweiliger Erfolgswahrscheinlichkeit p. Dies bezeichnet man auch als n-Tupel
von Bernoulli-Versuchen.5
Wie groß ist die Wahrscheinlichkeit in n Bernoulli-Versuchen genau k, wobei k ∈
{0, 1, . . . , n}. Erfolge zu erhalten?
Dieses Experiment entspricht der Platzierung von k Kugeln auf n Plätzen ohne
Mehrfachbelegung eines Platzes.
Experiment
Wahrscheinlichkeit
1
. . 1} 0
. . 0}
| .{z
| .{z
p · · · p · (1 − p) · · · (1 − p) = p k (1 − p)n−k
k
n−k
0 1 1...1 0...0
(1 − p)p · · · p(1 − p) · · · (1 − p) = p k (1 − p)n−k .
Die Reihenfolge der Erfolge und Miserfolge ist unerheblich für die Wahrscheinlichkeit. Das Experiment besitzt genau
!
n
n!
=
k
k!(n − k)!
mögliche Ausgänge. Aufsummation liefert die Gesamtwahrscheinlichkeit,
!
n k
p (1 − p)n−k Î b(n, p; k),
W =
k
wobei
5
n
k
= 0, falls k ∉ {0, 1, . . . , n}.
Jakob I. Bernoulli (* 6. Januar 1655 in Basel; † 16. August 1705 ebenda) war ein Schweizer Mathematiker und Physiker.
6. November 2011 13:28
15
1-B
1
Wahrscheinlichkeitsräume
Definition Durch P ({k}) Í b(n, p; k) für k ∈ N0 ist ein W-Maß auf B definiert,
wobei für A ⊆ N0 ,
P (A) =
X
k∈N0 ∩A
b(n, p; k) Í
X
k∈N0 ∩A
!
n k
p (1 − p)n−k .
k
P ist ein W-Maß und heißt Binomialverteilung b(n, p) mit Parameteren n ∈ N und
p ∈ [0, 1]. Ï
Bsp 2 500g Teig und 36 Rosinen seien rein zufällig verteilt. Daraus werden 10 Bröt-
chen mit je 50g Teil geformt. Greife ein Brötchen heraus.
Wie groß ist die Wahrscheinlichkeit, dass dieses Brötchen 2 oder mehr Rosinen
enthält?
1
10
Rosine Nr. 1-36 ist unabhängig von den anderen mit Wahrscheinlichkeit p =
im betrachteten Brötchen. Es handelt sich also um 36 Bernoulli Versuche mit
jeweiliger Erfolgswahrscheinlichkeit p =
1
10 .
!
36 1
1 36−k
1
−
k 10k
10
k=2
k=2
1
1
= 1 − b 36,
; 0 − b 36,
; 1 ≈ 0.89. 10
10
P (A) =
36
X
b(n, p; k) =
36
X
Wir wollen das Beispiel der Binomialverteilung nun dahingehend verallgemeinern, dass wir die Menge Ω auf die ganze reelle Achse erweitern.
Definition Sei Ω = R, A = B und (pk )k∈N0 eine reelle Zahlenfolge mit
X
0 à pk à 1 für k ∈ N0 ,
pk = 1.
k∈N0
(pk ) bezeichnet man als Zähldichte. Durch P ({k}) = pk , ∀ k ∈ N0 also
X
P (A) =
pk ,
A ∈ B.
k∈A∩N0
wird ein W-Maß auf B definiert. P ist auf N0 konzentriert, d.h. P (N0 ) = 1 und besitzt
die Zähldichte (pk )k∈N0 . Ï
» Nulltreue, Positivität und Normiertheit sind klar. Wir weisen nun die σ -Additivität
nach: Seien An für n ∈ N paarweise disjunkt. Ohne Einschränkung können wir da-
von ausgehen, dass An ⊆ N, es gilt also,


∞
X
X
P
An  =
pk .
n=1
16
k∈
P
n
An
6. November 2011 13:28
Wahrscheinlichkeiträume und -maße
Da die Reihe absolut konvergent ist, dürfen wir den großen Umordnungssatz aus
der Analysis anwenden, und die Reihenglieder umgruppieren,
... =
∞ X
X
n=1 k∈An
|
pk =
{z
}
∞
X
P (An ).
«
n=1
ÍP (An )
Für Beispiel 1 gilt (b(n, p; k))k∈N0 = (pk )k∈N0 .
Poissonverteilung
Seien nun pn ∈ (0, 1) mit n · pn → λ ∈ (0, 1) für n → ∞, so ist
!
n k
b(n, pn ; k) =
pn (1 − pn )n−k
k
n(n − 1) · · · (n − k + 1) k
pn (1 − pn )n−k
k!
h
inpn
n(n − 1) · · · (n − k + 1) k
=
pn · (1 − pn )−k (1 − pn )1/pn
k!
=
Für den Grenzübergang n → ∞ gilt,
n(n − 1) · · · (n − k + 1) k
λk
pn →
,
k!
k!
(1 − pn )−k → 1,
(1 − pn )1/pn → e−1 .
Wir erhalten also insgesamt,
n→∞
b(n, pn ; k) →
λk −λ
e Î π (λ; k).
k!
π (λ; k) definiert eine Zähldichte, denn
X
k∈N0
π (λ; k) = e−λ
∞
X
λk
= 1.
k!
k=0
| {z }
Íeλ
1.8 Definition Das zu π (λ; k) gehörige W-Maß π (λ) auf B ist gegeben durch,
π (λ)({k}) Í π (λ; k)
6. November 2011 13:28
17
1-B
1
Wahrscheinlichkeitsräume
und heißt Poisson-Verteilung6 mit Parameter λ. Ï
Die Poission-Verteilung hat sehr viele angenehme Eigenschaften, insbesondere
ist sie numerisch gut handhabbar. Daher approximiert man oft eine Binomialverteilung durch eine Poissonverteilung. Die Approximation ist gut für p “klein” und
n “groß”.
Bsp 3 Eine Anwendung zu Beispiel 2. Gegeben seien m gleichgroße mehrfach be-
setzbare Zellen.
vorgegebene Zelle Z
Zur Anwendung von 2.
1.1
n Teilchen seien rein zufällig auf die Zellen verteilt. Die Wahrscheinlichkeit, dass
Teilchen Nr. 1 in Zelle Z landet, ist
chen in Z landen b(n,
1
m ; k).
1
m.
Also ist die Wahrscheinlichkeit, dass k Teil-
Die “Belegungsintensität” ist
Für n → ∞ und m → ∞ gelte
n
m
n
m.
→ λ ∈ (0, ∞). In der Grenze ist die Wahrschein-
lichkeit, dass genau k ∈ N0 Teilchen in der Zelle Z landen gegeben durch π (λ; k).
Damit können wir das Beispiel 2 wieder aufgreifen.
Betrachte eine große Anzahl von Rosinen in einer großen Teigmenge. Teile den
Teig in m gleichgroße Brötchen auf, mit λ Í
n
m.
Nehmen wir nun ein Brötchen
heraus, so ist die Wahrscheinlichkeit, dass es genau k Rosinen enthält
≈ e−λ
λk
.
k!
Im Zahlenbeispiel n = 36, m = 10, λ = 3.6 gilt
36
X
k=2
e−λ
λk
≈ 1 − e−λ − λe−λ ≈ 0.874,
k!
statt 0.89. Weitere Eigenschaften von Wahrscheinlichkeitsmaßen
Die reellen Zahlen R sind geordnet und für “monoton fallende” bzw. “monoton
steigende” Folgen wissen wir, dass ein eigentlicher oder uneigentlicher Grenzwert
6
Siméon-Denis Poisson (* 21. Juni 1781 in Pithiviers (Département Loiret);
† 25. April 1840 in Paris)
war ein französischer Physiker und Mathematiker.
18
6. November 2011 13:28
Wahrscheinlichkeiträume und -maße
existiert. Ein Mengensystem lässt sich durch “⊆” oder “⊇” halbordnen, somit lässt
sich der Monotoniebegriff in gewisser Weise übertragen.
Definition Die Konvergenz von unten bzw. von oben ist für die Mengen A und An
(n = 1, 2, . . .) folgendermaßen definiert:
An ↑ A : A1 ⊂ A2 ⊂ A3 ⊂ . . . ,
An ↓ A : A1 ⊃ A2 ⊃ A3 ⊃ . . . ,
∞
[
n=1
∞
\
n=1
An = A,
An = A.
Ï
Da wir nun über eine Art Konvergenzbegriff für Mengen verfügen, lässt sich nach
der Stetigkeit von Abbildungen von Mengensystemen in die reellen Zahlen fragen.
Natürlich handelt es sich hierbei nicht um Konvergenz und Stetigkeit im Sinne der
Analysis, denn wir haben auf A keine Norm zur Verfügung.
1.2 Satz Sei A eine Algebra in Ω, µ ein endlicher (d.h. µ(Ω) < ∞) Inhalt auf A. Dann
sind die folgenden Aussagen äquivalent:
a) µ ist σ -additiv
b) µ ist stetig von unten,
d.h. [An ∈ A, An ↑ A ∈ A ⇒ µ(An ) → µ(A)]
c) µ ist stetig von oben,
d.h. [An ∈ A, An ↓ A ∈ A ⇒ µ(An ) → µ(A)]
d) µ ist ∅-stetig,
d.h. [An ∈ A, An ↓ ∅ ⇒ µ(An ) → 0] .
Auch ohne die Voraussetzung der Endlichkeit von µ gilt a) ⇐⇒ b).
» a)⇒b): Sei An = A1 + A2 \ A1 + . . . + An \ An−1 und A = A1 +
verwenden die Additivität von µ und erhalten somit,
Ï
∞
P
k=2
Ak \ Ak−1 . Wir
µ (An ) = µ(A1 ) + µ(A2 \ A1 ) + . . . + µ(An \ An−1 )
= µ(A1 ) +
n
X
k=2
Die übrigen Implikationen folgen analog.
6. November 2011 13:28
n→∞
µ(Ak \ Ak−1 ) → µ(A1 ) +
∞
X
k=2
µ(Ak \ Ak−1 ) = µ(A).
«
19
1-B
1
Wahrscheinlichkeitsräume
Da Wahrscheinlichkeitsräume per definitionem endlich sind, ist Satz 1.2 dort
stets anwendbar. Insbesondere ist jedes W-Maß stetig.
1.3 Lemma Sei A eine Algebra in Ω, µ ein Inhalt auf A.
a) µ ist monoton,
d.h. [A, B ∈ A, A ⊂ B ⇒ µ(A) ≤ µ(B)] .
b) µ ist subadditiv,
d.h. [A1 , . . . , Am ∈ A ⇒ µ(
Sm
n=1
An ) ≤
m
P
n=1
µ(An )] .
c) Ist µ ein Maß, dann ist µ sogar σ -subadditiv,
∞
S∞
S∞
P
d.h. [An ∈ A für n ∈ N, n=1 An ∈ A ⇒ µ( n=1 An ) ≤
µ(An )] .
n=1
Ï
» a): Seien A, B ∈ A und A ⊆ B. Nun gilt B = A + B \ A, also
µ(B) = µ(A) + µ(B \ A),
| {z }
á0
⇒µ(A) à µ(B).
b): Wir untersuchen den Spezialfall n = 2. Seien A1 , A2 ∈ A, so ist
µ(A1 ∪ A2 ) = µ(A1 + A2 \ A1 ) = µ(A1 ) + µ(A2 \ A1 )
|
{z
}
àµ(A2 )
à µ(A1 ) + µ(A2 ).
Der allgemeine Fall folgt durch Induktion.
c): Für N ∈ N gilt,
µ(A1 ∪ . . . ∪ AN ) à
N
X
µ(An ) à
n=1
∞
X
µ(An ).
n=1
Beim Grenzübergang für N → ∞ erhalten wir so,

µ(A1 ∪ . . . ∪ AN ) → µ 
∞
[
n=1
und die Behauptung folgt.
20

An  ,
«
6. November 2011 13:28
Wahrscheinlichkeiträume und -maße
W-Maße sind also σ -additiv, σ -subadditiv, monoton und stetig. Diese Eigenschaften sind zwar unscheinbar, es lassen sich damit aber sehr starke Aussagen beweisen, wie wir gleich sehen werden.
Erinnern wir uns aber zunächst an den limes superior einer reellen Zahlenfolge
(an ),
lim sup an Í inf sup ak .
n∈N kán
n→∞
Wir können nun diese Definitionen auf Mengen übertragen.
Definition Sei (Ω, A, P ) ein W-Raum, An ∈ A für n ∈ N
lim sup An =
n→∞
∞ [
∞
\
n=1 k=n
Ak Í {ω ∈ Ω : es ex. unendlich viele n mit ω ∈ An }
= “Ereignis, dass unendlich viele An eintreten”.
Ï
1.3 1. Lemma von Borel und Cantelli Sei (Ω, A, P ) ein W-Raum und An ∈ A für n ∈
N, dann gilt
∞
X
n=1
P (An ) < ∞
=⇒
P (lim sup An ) = 0,
d.h. P -f.s. gilt: An tritt nur endlich oft auf.
Ï
Bsp 4 Lernen durch Erfahrung, d.h. je öfter man eine Tätigkeit durchführt, je klei-
ner ist die Wahrscheinlichkeit, dass ein Fehler auftritt.
Betrachte eine Folge von Aufgaben. Ein Misserfolg in der n-ten Aufgabe tritt mit
der Wahrscheinlichkeit
P (An ) =
1
n2
auf. Es gilt dann
∞
X
n=1
P (An ) =
∞
X
1
< ∞.
2
n
n=1
1.3
⇒ Mit Wahrscheinlichkeit 1 wird von einem zufälligen Index n an jede Aufgabe
immer richtig gelöst. 6. November 2011 13:28
21
1-B
1
Wahrscheinlichkeitsräume
» Beweis des 1. Lemma von Borel und Cantelli. Sei B Í lim supn An , d.h.
B=
∞ [
\
Ak .
n=1 kán
S
Ak ↓ B. Aufgrund der Monotonie von P gilt somit,

∞
X
[
P (Ak ) → 0,
Ak  à
P (B) à P 
Offensichtlich gilt

kán
kán
k=n
da die Reihe nach Voraussetzung konvergent ist. Also ist P (B) = 0.
«
Fortsetzung von Wahrscheinlichkeitsmaßen
Bisher haben wir ausschließlich mit Maßen gearbeitet, die auf N0 konzentiert sind,
d.h. P (N0 ) = 1. Unser Ziel ist es jedoch ein Maß auf Bn zu definieren, das jedem
Intervall (Rechteck) seinen elementargeometrischen Inhalt zuordnet.
Betrachten wir wieder das Erzeugersystem Jn der halboffenen Intervalle, so bildet dieses einen Halbring.
Definition h ⊆ P(Ω) heißt Halbring über Ω, falls
1.) ∅ ∈ h,
2.) A, B ∈ h ⇒ A ∩ B ∈ h,
3.) A, B ∈ h, A ⊆ B ⇒ ∃ k ∈ N : C1 , . . . , Ck ∈ h : B \ A =
Pk
i=1
Ci . Ï
Auf dem Halbring Jn können wir das gesuchte Maß definieren durch,
µ : Jn → R,
(ai , bi ] , µ((ai , bi ]) =
n
Y
i=1
(bi − ai ).
Mit Hilfe des folgenden Satzes können wir µ eindeutig auf Bn fortsetzen.
1.4 Fortsetzungs- und Eindeutigkeitssatz Sei µ ein Maß auf einem Halbring h über Ω,
so besitzt µ eine Fortsezung µ ∗ zu einem Maß auf F (h).
S∞
Gilt außerdem Ω = i=1 Ai mit µ(Ai ) < ∞, so ist µ ∗ eindeutig. Ï
» Siehe Elstrodt, Kap. III, §§ 4.5.
«
Insbesondere lassen sich auf Halbringen bzw. Algebren über W-Räumen definierte Maße immer eindeutig fortsetzen, da hier bereits µ(Ω) < ∞.
22
6. November 2011 13:28
Wahrscheinlichkeiträume und -maße
1.3 Bemerkung. µ ∗ in Satz 1.4 ist für A ∈ F (A) gegeben durch
µ ∗ (A) = inf

∞
X

n=1
µ(Bn ) : Bn ∈ A (n = 1, 2, . . .) mit A ⊂
[
n


Bn .

Ç
1.4 Bemerkung. Es ist im Allgemeinen nicht möglich, µ von A auf P(Ω) fortzusetzen.
H. Lebesque7 hat sogar bewiesen, dass es unter Annahme des Auswahlaxioms nicht
möglich ist, ein Maß auf P([0, 1]) fortzusetzen. Ist Ω jedoch abzählbar, so kann P
stets auf die Potenzmenge fortgesetzt werden. Ç
1.5 Korollar Es gibt genau ein Maß λ auf Bn , das jedem beschränkten (nach rechts
halboffenen) Intervall in Rn seinen elementargeometrischen Inhalt zuordnet. Ï
1.9 Definition Das Maß λ in Korollar 1.5 heißt Lebesgue–Borel–Maß (L-B-Maß) in Rn .
Ï
Bsp 5 Rein zufälliges Herausgreifen eines Punktes aus dem Intervall [0, 1].
Sei Ω = [0, 1], A Í [0, 1] ∩ B Í {B ∩ [0, 1] : B ∈ B}. Das W-Maß P auf A soll
jedem Intervall in [0, 1] seine elementare Länge zuordnen. Also ist
P = λ[0,1]∩B
eine Restriktion von λ auf [0, 1] ∩ B. Das λ-Maß hat die Eigenschaft, dass nicht nur die leere Menge sondern auch jede
höchstens abzählbare Menge das Maß Null hat. Eine Menge N ⊆ Ω mit µ(N) = 0
nennt man Nullmenge.
Oft kann man Eigenschaften nicht auf ganz Ω nachweisen aber auf Ω bis auf
eine Nullmenge. Solche Eigenschaften treten vor allem in der Maßtheorie auf und
sind daher auch in der Wahrscheinlichkeitstheorie von großer Bedeutung.
Definition Sei Maßraum (Ω, A, µ), W-Raum (Ω, A, P ). Eine Aussage gilt
1.) µ-fast überall (µ-f.ü.) in Ω bzw. P -fast sicher (P -f.s.) in Ω, falls sie überall
bis auf einer Menge ∈ A vom µ-Maß bzw. P -Maß Null [oder eine Teilmenge
hiervon] gilt.
2.) L-fast überall (L-f.ü.) in Rn . . . , wenn sie überall bis auf einer Menge ∈ Bn
vom L-B-Maß Null [oder eine Teilmenge hiervon] gilt. Ï
7
Henri Léon Lebesgue (* 28. Juni 1875 in Beauvais;
†
26. Juli 1941 in Paris) war ein französischer
Mathematiker.
6. November 2011 13:28
23
1-B
1
Wahrscheinlichkeitsräume
1-C Verteilungsfunktionen
W-Maße sind Abbildungen der Art
P : σ ⊆ P(Ω) → R.
Ihr Definitionsbereich ist somit ein Mengensystem. Wir konnten einige elementare Eigenschaften wie Stetigkeit und Monotonie aus der reellen Analysis auf diese
Abbildungen übertragen, dennoch lassen sie sich nicht immer so leicht handhaben
wie Funktionen.
Betrachten wir nun ein W-Maß auf B, so ist durch folgende Vorschrift eine Funk-
tion gegeben
F : R → R,
F (x) Í P ((−∞, x]),
x ∈ R.
F wird als die zu P gehörende Verteilungsfunktion (Verteilungsfunktion) bezeichnet. Verteilungsfunktionen auf R lassen sich in der Regel viel leichter handhaben
als Maße auf B.
In diesem Abschnitt werden wir zeigen, dass eine Bijektion zwischen Maßen und
Verteilungsfunktionen auf einem W-Raum existiert, wir also jedem Maß eine Verteilungsfunktion zuordnen können und umgekehrt. Durch die Verteilungsfunktionen
werden die Maße “greifbar”.
24
6. November 2011 13:28
Verteilungsfunktionen
Bsp 6 a.) Würfeln mit Wahrscheinlichkeiten p1 , . . . , p6 für die Augenzahlen 1, . . . , 6
wobei p1 + . . . + p6 = 1.
|{z}
|{z}
á0
á0
Als zugehörigen Wahrscheinlichkeitsraum wählen wir Ω = R mit A = B. Das
W-Maß auf B erfüllt P ({1}) = p1 , . . . , P ({6}) = p6 .
Zur Verteilungsfunktion betrachte die Skizze.
b.) Betrachte erneut Beispiel 5: Sei (Ω, A, P ) = ([0, 1], [0, 1] ∩ B, λ[0,1]∩B ) abgewandelt zu (Ω, A, P ) = (R, B, P ). Das Lebesgue-Maß ist nur dann ein Wahr-
scheinlichkeitsmaß, wenn man den zugrundeliegenden Raum auf ein Intervall
der Länge Eins einschränkt.
Wir setzten daher P (B) Í λ([0, 1] ∩ B). Die zugehörige Verteilungsfunktion ist
dann gegeben durch,



0, x à 0,



F (x) = x, x ∈ (0, 1),





1, x á 1. F (x)
1
1
p1 + ... + p5
p1 + p2
p1
1 2 3 4 5 6
1.2
1
x
Verteilungsfunktionen zum Würfelexperiment und zu Beispiel 5
1.10 Definition Eine Funktion F : R → R, die monoton wachsend (im Sinne von nicht
fallend) und rechtsseitig stetig ist mit
lim F (x) = 0,
x→−∞
lim F (x) = 1,
x→+∞
heißt (eindimensionale) Verteilungsfunktion (Verteilungsfunktion). Ï
Der folgende Satz stellt nun eine eindeutige Beziehung zwischen einem Maß auf
B und einer eindimensionalen Verteilungsfunktion her.
6. November 2011 13:28
25
1-C
1
Wahrscheinlichkeitsräume
1.6 Satz Zu jedem W-Maß P auf B gibt es genau eine Verteilungsfunktion F : R → R, so
dass gilt
F (b) − F (a) = P ((a, b]), a ≤ b, a, b ∈ R
(*)
gilt, und umgekehrt. Es existiert also eine Bijektion P ←→ F . Ï
» Wir wählen für die Verteilungsfunktion den Ansatz,
F (x) Í P ((−∞, x]),
x ∈ R.
1.) Die (*)-Bedingung ist erfüllt, denn es gilt für a, b ∈ R mit a < b,
P ((a, b]) = P ((−∞, b] \ (−∞, a]) = P ((−∞, b]) − P ((−∞, a]).
2.) F ist monoton steigend, denn P ist monoton.
3.) F ist rechtsstetig, denn für xn ↓ x folgt (−∞, xn ] ↓ (−∞, x]. Somit gilt nach
Satz 1.2,
F (xn ) = P ((−∞, xn ]) ↓ P ((−∞, x]) = F (x).
4.) F (x) → 0 für x → −∞, denn
xn ↓ −∞ ⇒ (−∞, xn ] ↓ ∅.
Mit Satz 1.2 folgt daraus,
F (xn ) = P ((−∞, xn ]) ↓ P (∅) = 0.
5.) F (x) → 1 für x → ∞, denn
xn → ∞ ⇒ (−∞, xn ) ↑ R.
Ebenfalls mit Satz 1.2 folgt
F (xn ) = P ((−∞, xn ]) → P (R) = 1.
26
6. November 2011 13:28
Verteilungsfunktionen
6.) Eindeutigkeit. Seien F , F ∗ zwei Verteilungsfunktion gemäß der (*)-Bedingung in
Satz 1.6. Dann unterscheiden sich F und F ∗ lediglich um eine Konstante, d.h.
F ∗ = F + c.
Nun gilt aber F ∗ (x), F (x) → 1 für x → +∞, also c = 0, d.h. F = F ∗ .
«
Wir betrachten nun zwei sehr wichtige Verteilungsfunktionen als Beispiele.
Bsp 7 Die Funktion Φ : R → [0, 1] mit
1
Φ(x) Í √
2π
Zx
t2
− 2
|e {z } dt, x ∈ R,
−∞ ϕ(t)
ist eine Verteilungsfunktion, denn Φ ist streng monoton, da ϕ > 0, die Rechtsstetigkeit folgt aus der Stetigkeit des Integrals. F (x) → 0 für x → −∞ ist offensichtlich,
einzig F (x) → 1 für x → ∞ muss man explizit nachrechnen (Funktionentheorie).
Der Integrand ϕ(t) heißt übrigens Gaußsche Glockenkurve und das zu Φ gehö-
rige W-Maß auf B, standardisierte Normverteilung N(0, 1).
ϕ(t)
Φ(t)
Φ
ϕ
t
1.3
t
Gaußsche Glockenkurve und standardisierte Normalverteilung
Eine Verallgemeinerung davon ist die Normalverteilung (Gauß-Verteilung) N(a, σ 2 ),
mit a ∈ R und σ > 0. N(a, σ 2 ) ist ein W-Maß auf B mit Verteilungsfunktion
F (x) Í √
1
2π
Zx
−∞
2
− (t−a)
2
e
2σ
dt ,
x ∈ R.
Diese Funktion ergibt sich mittels Substitution aus der Verteilungsfunktion von
N(0, 1), alle Eigenschaften übertragen sich daher entsprechen. 6. November 2011 13:28
27
1-C
1
Wahrscheinlichkeitsräume
Bsp 8 Wähle λ > 0 fest, so ist eine Verteilungsfunktion gegeben durch,
F : R → R,


0,
xà0
F (x) =

−λx
1 − e
, x > 0.
F (x)
1
x
1.4
Verteilungsfunktion der Exponentialverteilung.
Das zugehörige W-Maß heißt Exponentialverteilung mit Parameter λ (kurz exp(λ)).
1.5 Bemerkung. Definition 1.10 und Satz 1.6 lassen sich auf Bn und Rn als Definitions-
bereiche von P bzw. F anstatt B bzw. R verallgemeinern. Dabei ist die Verteilungs-
funktion F zu einem W-Maß P auf Bn gegeben durch
F (x1 , . . . , xn ) = P ({(u1 , . . . , un ) ∈ Rn | u1 ≤ x1 , . . . , un ≤ xn })
für (x1 , . . . , xn ) ∈ Rn . Ç
R2
x2
x = (x1 , x2 )
x1
(u1, u2) ∈ R2 : u1 ≤ x1 , u2 ≤ x2
1.5
Zur Verallgemeinerung der Verteilungsfunktion.
28
6. November 2011 13:28
Bedingte Wahrscheinlichkeiten
1-D Bedingte Wahrscheinlichkeiten
Wenn wir beim Durchführen eines Zufallsexperiments wissen, dass bereits Ereignis
A eingetreten ist, so ändert sich die Wahrscheinlichkeit dafür, dass auch noch B
eintritt. Für diese Wahrscheinlichkeit schreiben wir
P (B | A).
P (B | A) ist die bedingte Wahrscheinlichkeit, dass unter der Voraussetzung, dass
A eingetreten ist, nun B eintritt.
Bedingte Wahrscheinlichkeiten spielen in vielen aktuellen Fragestellungen der
Wahrscheinlichkeitstheorie eine zentrale Rolle. Beispielsweise in der Finanzmathematik, denn es ist offensichtlich, dass der nächste Aktienkurs von allen vorherigen
abhängt.
Bsp 9 Unter Studenten einer Vorlesung wird eine Umfrage gemacht.
m
1.6
w
Sport
12
18
Kein Sport
16
20
Ergebnis der Umfrage.
Wir nummerieren die Personen so, dass Nr. 1-12 die Sport-treibenden Frauen, 1330 die Sport-treibenden Männer, 31-46 die nicht Sport-treibenden Frauen und 47-66
die nicht Sport-treibenden Männer sind.
Nun modelieren wir einen W-Raum für die rein zufällige Auswahl einer Person,
Ω = {1, . . . , 66} ,
A = P(Ω),
P ({ω}) =
1
.
66
Ereignis A Í {1, . . . , 12, 31, . . . , 46}, die ausgewählte Persion ist weiblich,
Ereignis B Í {1, . . . , 30}, die ausgewählte Person treibt Sport.
Es sei bekannt, dass die ausgewählte Person Sport treibt. Wie groß ist die Wahr-
scheinlichkeit, dass die ausgewählte Person eine Frau ist? Abzählen der Elemente in
Ω ergibt,
12
2
= .
30
5
6. November 2011 13:28
29
1-D
1
Wahrscheinlichkeitsräume
Andererseits erhalten wir durch
P (A ∩ B)
=
P (B)
12
66
30
66
=
2
5
dasselbe Ergebnis. Wir verwenden dies nun zur Definition der bedingten Wahrscheinlichkeit. 1.11 Definition Es sei (Ω, A, P ) ein W-Raum, A ∈ A, B ∈ A mit P (B) > 0. Dann heißt
P (A | B) Í
P (A ∩ B)
P (B)
die bedingte Wahrscheinlichkeit (conditional probability) von A unter der Bedingung B. Ï
Es folgen einige elemenatre Eigenschaften der bedingten Wahrscheinlichkeit.
1.7 Satz Sei (Ω, A, P ) ein W-Raum.
a) Bei festem B ∈ A mit P (B) > 0 ist P (· | B) ein W-Maß auf A, das auf B
konzentriert ist [d.h. P (B | B) = 1].
b) Für A, B ∈ A mit P (A) > 0, P (B) > 0 gilt
P (A | B) = P (B | A) ·
P (A)
.
P (B)
Tm−1
c) Für An ∈ A (n = 1, . . . , m) mit P ( n=1 An ) > 0 gilt

P
m
\
n=1

An  =P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 )·

. . . · P Am |
»
m−1
\
n=1

An  .
Ï
a) Der Beweis ist eine leichte Übungsaufgabe.
b) Betrachte die rechte Seite,
P (B | A) ·
30
P (A)
P (A ∩ B) P (A)
P (A ∩ B)
=
=
Î P (A|B).
P (B)
P (A) P (B)
P (B)
6. November 2011 13:28
Bedingte Wahrscheinlichkeiten
c) Vollständige Induktion. Für n = 2
P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ).
Der Induktionsschulss ist eine leichte Übung.
«
1.8 Satz Sei (Ω, A, P ) ein W-Raum, {Bn : n ∈ I} eine höchstens abzählbare Familie
paarweise disjunkter Ereignisse Bn ∈ A mit P (Bn ) > 0 (n ∈ I) und
Dann gilt für A ∈ A
P
n∈I
Bn = Ω.
a) die Formel von der totalen Wahrscheinlichkeit
P (A) =
X
n∈I
P (Bn )P (A | Bn ).
b) falls P (A) > 0 die Formel von Bayes
P (Bk ) · P (A | Bk )
P (Bk | A) = P
,
P (Bn )P (A | Bn )
n∈I
k ∈ I.
Ï
Mit der Formel von der totalen Wahrscheinlichkeit kann man somit mit bedingten
Wahrscheinlichkeiten auf die Wahrscheinlichkeit für ein bestimmtes Ereignis rückschließen. Die Formel von Bayes hingegen erlaubt es die Bedingung der Bedingten
Wahrscheinlichkeit umzukehren.
»
a) A = A ∩ Ω =
P (A) =
P
n∈I
X
n∈I
(A ∩ Bn ). Weiterhin gilt aufgrund der σ -Additivität,
P (A ∩ Bn ) =
X
n∈I
P (Bn )P (A | Bn ).
P (B )
k
b) Satz 1.7 besagt, P (Bk ) = P (A|Bk ) P (A)
. Die Behauptung folgt nun unter Verwen-
dung des Teils a).
«
Bsp 10 Zur Veranschaulichung des Satzes 1.8. Betrachte einen Weg von 0 über b1
oder b2 oder b3 oder . . . nach a oder a. [a könnte z.B. für das Auftreten von Krebs,
a für das Nichtauftreten von Krebs, b1 für Rauchen, b2 für das Ausgesetzsein von
giftigen Dämpfen, b3 . . . stehen].
An jeder Verzweigung b1 , b2 , b3 , . . . wird ein Zufallsexperiment durchgeführt.
Das Ereignis Bk sei definiert durch, dass der Weg über bk führt.
6. November 2011 13:28
31
1-D
1
Wahrscheinlichkeitsräume
P (B1 )
b
b1
b
a
0b
P (B2 )
P (B3 )
1.7
b
b2
b
a
b
b3
Wegediagramm.
Die Formel von der totale Wahrscheinlichkeit ergibt,
P (A) =
X
n
P (A|Bn )P (Bn ).
Deutung. Betrachte B1 , B2 , . . . als “Ursachen” und A als “Wirkung”.
P (Bk ) bezeichnet man als sog. “a priori Wahrsch.” von Bk .
Nun stehe A durch Erfahrung zur Verfügung.
P (Bk |A) bezeichnet man als sog. “a posteriori Wahrsch.” von Bk .
P (Bk |A) ist die Wahrscheinlichkeit, dass der Weg über bk verlaufen ist, wobei be-
reits bekannt sei, dass die Ankunft in a (= Ereignis A) stattgefunden hat.
Die Formel von Bayes erlaubt also den Rückschluss von einer Wirkung auf ihre
Ursache - zumindest in einem Wahrscheinlichkeitstheoretischen Sinne.
Anwendung. Ein Arzt beobachtet das Symptom a, welches ausschließlich die
Ursachen b1 , b2 , . . . haben kann. Gesucht ist P (Bk |A), die Wahrscheinlichkeit für
die jeweilige Ursache unter Berücksichtigung des Eintretens von a. Bsp 11 Betrieb mit einer Alarmanalge. Bekannt seien folgende Daten:
- Bei Einbruch erfolgt Alarm mit Wahrscheinlichkeit 0.99,
- bei Nichteinbruch mit Wahrscheinlichkeit 0.005.
- Die Einbruchswahrscheinlichkeit ist 0.001.
32
6. November 2011 13:28
Bedingte Wahrscheinlichkeiten
Gesucht ist nun die Wahrscheinlichkeit, dass bei einem Alarm auch tatsächlich
ein Einbruch stattfindet. Übertragen wir dies auf unser Modell, so erhalten wir folgendes Schema:
Ereignis
Beschreibung
E
Einbruch
ec
kein Einbruch
A
Alarm
Ac
kein Alarm
Die Wahrscheinlichkeiten der einzelnen Ereignisse sind,
P (A|E) = 0.99,
P (A|ec ) = 0.005,
P (E) = 0.001.
Gesucht ist P (E|A). Mit dem Satz von Bayes erhalten wir,
P (A|E)P (E)
0.99 · 0.001
=
P (A|E)P (E) + P (A|ec )P (ec )
0.99 · 0.001 + 0.005 · 0.999
22
=
≈ 0.165.
133
P (E|A) =
D.h. die Wahrscheinlichkeit, dass bei Auslösung eines Alarms, auch tatsächlich ein
Einbruch stattfindet, beträgt lediglich 16.5%.
Die Wahrscheinlichkeit für einen Alarm ist nach der Formel von der totalen
Wahrscheinlichkeit
P (A) = P (A|E)P (E) + P (A|ec )P (ec ) = 0.006.
6. November 2011 13:28
33
1-D
2-
2 Kombinatorische
Wahrscheinlichkeitsrechnung
In der kombinatorischen Wahrscheinlichkeitsrechnung legen wir Laplacesche WRäume zugrunde. Die Abzählung der “günstigen” und der “möglichen” Fälle erfolgt
systematisch mit Hilfe der Kombinatorik.
2.1 Definition Gegeben seien n — nicht notwendiger Weise verschiedene — Elemente
a1 , . . . , an . Das n-Tupel (ai1 , . . . , ain ) mit ij ∈ {1, . . . , n}, ij ≠ ik für j ≠ k (j, k =
1, . . . , n) heißt eine Permutation der gegebenen Elemente.
Ï
In der Kombinatorik spielt die mögliche Anzahl an Permutationen eine sehr
große Rolle.
2.1 Satz Die Anzahl der Permutationen von n verschiedenen Elementen ist n!.
Eine Verallgemeinerung für nicht notwendiger weise verschiedene Elemente liefert der folgende
2.2 Satz Gegeben seien n Elemente; die verschiedenen Elemente darunter seien mit
a1 , . . . , ap bezeichnet (mit p ≤ n). Tritt ai ni -fach auf (i = 1, . . . , p), wobei
n, dann können die n Elemente auf
Pp
i=1
ni =
n!
n1 ! . . . np !
verschiedene Arten permutiert werden.
Ï
2.2 Definition Sei A eine n-elementige Menge, k ∈ N.
1.) [2.)] Jedes k-Tupel (a1 , . . . , ak ) mit nicht notwendig verschiedenen [lauter verschiedenen] ai ∈ A heißt eine Kombination k-ter Ordnung aus A mit [ohne]
Wiederholung und mit Berücksichtigung der Anordnung.
6. November 2011 13:28
35
2
Kombinatorische Wahrscheinlichkeitsrechnung
3.) [4.)] Werden in a) [2.)] Kombinationen, welche dieselben Elemente in verschiedener Anordnung enthalten, als äquivalent aufgefasst, so heißen die einzelnen Äquivalenzklassen Kombinationen k-ter Ordnung aus A mit [ohne] Wiederholung und ohne Berücksichtigung der Anordnung. Ï
Interpretation (mit A = {1, . . . , n}): Aufteilung von k Kugeln auf n Zellen, wobei
in 1.) [2.)] die Zellen mehrfach [nicht mehrfach] besetzt werden dürfen und die Ku-
geln unterscheidbar sind (ai . . . Nummer der Zelle, in der die i-te Kugel liegt), in
3.) [4.)] die Zellen mehrfach [nicht mehrfach] besetzt werden dürfen und die Kugeln nicht unterscheidbar sind (ein Repräsentant der Äquivalenzklasse ist gegeben
durch ein k-tupel von Zahlen aus {1, . . . , n}, in dem die Zellennummern so oft auf-
treten, wie die zugehörige Zelle besetzt ist).
2.3 Satz Die Anzahl der Kombinationen k-ter Ordnung aus der n-elementigen Menge
A – mit [ohne] Wiederholung und mit [ohne] Berücksichtigung der Anordnung – ist
gegeben durch
m. Wiederholung
m. Ber. der Anordnung
o. Ber. der Anordnung
n
k
n+k−1
k
o. Wiederholung (1 ≤ k ≤ n)
n(n − 1) . . . (n − k + 1)
n
k
Bestimmung von Fakultäten durch Tabellen für log n! und – bei großem n – durch
die Stirlingsche Formel
n!
n
e
n p
2π n
(n → ∞)
und ihre Verschärfung
exp
1
n!
1
< n n√
< exp
,
12n + 1
12n
( e ) 2π n
n ∈ N.
Ï
» Wir beweisen exemplarisch die Formel für die Anzahl der Kombinationen ohne
Berücksichtigung der Anordnung und mit Wiederholungen. Betrachte dazu k Kugeln, die auf n Zellen verteilt werden sollen.
b
b
b
b
b
Zur Platzierung von k Kugeln in n Zellen
2.1
36
6. November 2011 13:28
Ohne die äußeren Trennwende gibt es also k Kugeln und n − 1 Trennwände, d.h.
es gibt insgesamt (n − 1 + k)! Permutationen. Berücksichtigen wir nun noch die
Ununterscheidbarkeit der Kugeln, so erhalten wir
!
n+k−1
. «
k
Bsp Anwendung in der Physik. Man beschreibt das makroskopische Verhalten von k
Teilchen in der Weise, dass man den (der Darstellung des Momentanzustandes dienenden) Phasenraum in n kongruente würfelförmige Zellen zerlegt und die Wahrscheinlichkeit p(k1 , . . . , kn ) bestimmt, dass sich genau ki der Teilchen in der i-ten
Zelle befinden (i ∈ {1, . . . , n}). Sei Ω0 die Menge aller n-Tupel (k1 , . . . , kn ) ∈ Nn
0
n
P
0
von Besetzungszahlen mit
ki = k. W-Maße auf P(Ω ) (charakterisiert durch p):
i=1
a.) Maxwell-Boltzmann-Statistik (Unterscheidbarkeit der Teilchen, Mehrfachbesetzbarkeit von Zellen)
p(k1 , . . . , kn ) =
k!
1
.
k1 ! . . . kn ! nk
b.) Bose-Einstein-Statistik zur Beschreibung des Verhaltens von Photonen (keine
Unterscheidbarkeit der Teilchen, jedoch Mehrfachbesetzbarkeit von Zellen)
!−1
n+k−1
p(k1 , . . . , kn ) =
.
k
c.) Fermi-Dirac-Statistik zur Beschreibung des Verhaltens von Elektronen, Protonen und Neutronen (keine Unterscheidbarkeit der Teilchen, keine Mehrfachbesetzbarkeit von Zellen )
 −1

 n
,
k
p(k1 , . . . , kn ) =

0,
ki ∈ {0, 1}
sonst. Bsp Die Binomialverteilung b(n, p) mit Parametern n ∈ N, p ∈ (0, 1) ist ein W-Maß
auf B mit der Zähldichte
 
 n p k (1 − p)n−k ,
k
k→

0,
k = 0, 1, . . . , n
k = n + 1, n + 2, . . . ;
durch diese wird für n “unabhängige” Versuche mit jeweiliger Erfolgswahrscheinlichkeit p die Wahrscheinlichkeit von k Erfolgen angegeben. 6. November 2011 13:28
37
2-
3-A
3 Zufallsvariablen und
Verteilungen
3-A Meßbare Abbildungen und Zufallsvariablen
Wir betrachten folgende Zufallsexperimente:
1.) Zufällige Anzahl der Erfolge bei n Bernoulli-Versuchen.
2.) Zufällige Anzahl der an einem Schalter in einem bestimmten Zeitintervall
[0, T ] eintreffenden Kunden.
3.) Zufällige Wartezeit (von 0 an gemessen) bis zum Eintreffen des nächsten
Kunden.
4.) Zufälliger Abstand eines aus dem Intervall [−1/2, 1/2] herausgegriffenen
Punktes von 0.
5.) Zufällige Lage eines Partikels im R3 zu einem bestimmten Zeitpunkt.
Die zufälligen Größen können durch sogenannte “Zufallsvariablen” modelliert
werden.
Bsp 1 Zu 4.): Betrachte den W-Raum (Ω, A, P ) mit Ω = [−1/2, 1/2], A = B ∩ Ω
und P = λA (Restriktion des LB-Maßes auf Mengen aus A). Ein Punkt ω ∈ Ω hat
Abstand Y (ω) Í |ω| von Null. Y nennen wir Zufallsvariable.
Die Wahrscheinlichkeit, dass Y à x mit x ∈ [0, 1/2] fest, ist gegeben durch
P [Y à x] Í P ({ω ∈ Ω : Y (ω) à x}) = [−x, x] ∈ A.
Allgemeiner ist die Wahrscheinlichkeit, dass Y ∈ B für B ∈ B, gegeben durch
P [Y ∈ B] Í P ({ω ∈ Ω : Y (ω) ∈ B}) .
6. November 2011 13:28
39
3
Zufallsvariablen und Verteilungen
Damit P [Y ∈ B] überhaupt definiert ist, muss [Y ∈ B] eine messbare Menge sein,
d.h. im Definitionsbereich von P liegen. Im Folgenden erarbeiten wir die notwendigen Vorraussetzungen, dass dem so ist. 3.1 Definition Seien Ω, Ω0 zwei nichtleere Mengen, A0 ⊂ Ω0 und X : Ω → Ω0 eine
Abbildung. Die Menge
ω ∈ Ω : X(ω) ∈ A0 Î X −1 (A0 ) Î [X ∈ A0 ]
(in Ω) heißt das Urbild von A0 bezüglich der Abbildung X; die somit definierte Abbildung X −1 : P(Ω0 ) → P(Ω) heißt Urbildfunktion (zu unterscheiden von einer inversen
Funktion!).
Ï
In vielen Fällen untersuchen wir nicht nur einzelne Mengen sondern ganze Mengensysteme und verwenden daher folgende Bezeichnung als Abkürzung.
Bezeichnung. Sei X : Ω → Ω0 und C 0 Mengensystem in Ω0 . So ist
o
n
X −1 (C 0 ) Í X −1 (A0 ) : A0 ∈ C 0 ,
wobei X −1 (C0 ) ist ein Mengensystem in Ω ist.
Ç
Um zu klären, unter welchen Voraussetzungen [X ∈ B] messbar ist, wenn B
messbar ist, müssen wir untersuchen, wie sich die Urbildfunktion X −1 auf σ -Algebren
im Bildraum auswirkt.
3.1 Satz Sei X : Ω → Ω0 .
P
a) X −1 und Mengenoperationen
∪, , ∩, c , \ sind vertauschbar.
!
S 0
S −1 0
z.B. ist X −1
Aα =
X (Aα )
für A0α ⊂ Ω0 , α ∈ Indexbereich I.
α∈I
b) X −1 () = ;
α∈I
X −1 (Ω0 ) = Ω.
A0 ⊂ B 0 ⊂ Ω0 =⇒ X −1 (A0 ) ⊂ X −1 (B 0 ).
c) Ist A0 σ -Algebra in Ω0 , so ist X −1 (A0 ) σ -Algebra in Ω.
d) C0 ⊂ P(Ω0 ) =⇒ X −1 (FΩ0 (C0 )) = FΩ (X −1 (C0 )). Ï
» a)-d): Der Beweis sei als Übungsaufgabe überlassen.
40
«
6. November 2011 13:28
Meßbare Abbildungen und Zufallsvariablen
Sei X : (Ω, A) → (Ω0 , A0 ), so ist X −1 (A0 ) stets eine σ -Algebra. Damit die Ur-
bilder messbarer Mengen auch tatsächlich messbar sind, müssen wir also fordern,
dass X −1 (A0 ) ⊆ A.
3.2 Definition Seien (Ω, A), (Ω0 , A0 ) Messräume. Die Abbildung X : Ω → Ω0 heißt A-
A0 -messbar [kurz: messbar; measurable], wenn gilt:
∀ A0 ∈ A0 : X −1 (A0 ) ∈ A,
d.h. X −1 (A0 ) ⊆ A,
d.h. Urbilder von messbaren Mengen in Ω0 sind messbare Mengen in Ω.
In diesem Falle verwenden wir die Schreibweise X: (Ω, A) → (Ω0 , A0 ). Ï
Wie wir noch sehen werden, ist die Messbarkeit einer Abbildung eine wesentlich
schwächere Voraussetzung als beispielsweise Stetigkeit oder gar Differenzierbarkeit. Es erfordert sogar einiges an Aufwand, eine nicht messbare Abbildung zu
konstruieren.
3.1 Bemerkung. In Satz 3.1 c) ist X −1 (A0 ) die kleinste der σ -Algebren A in Ω mit A-
A0 -Messbarkeit von X. Ç
Wir fassen nun alle nötigen Vorraussetzungen in der folgenden Definition zusammen.
3.3 Definition Sei (Ω, A, P ) ein W-Raum, (Ω0 , A0 ) ein Messraum. Die Abbildung
X : (Ω, A) → (Ω0 , A0 )
heißt Zufallsvariable (ZV ) auf (Ω, A, P ) [mit Zustandsraum Ω0 ] (ausführlich: (Ω0 , A0 )-
Zufallsvariable auf (Ω, A, P ); random variable).
1.) X : (Ω, A) → (R, B) heißt reelle Zufallsvariable (oft auch nur ZV).
2.) X : (Ω, A) → (R, B) heißt erweitert-reelle Zufallsvariable.
3.) X : (Ω, A) → (Rn , Bn ) heißt n-dimensionaler Zufallsvektor.
4.) X(ω) für ein ω ∈ Ω heißt eine Realisierung der Zufallsvariable X.
Bezeichnung. B Í {B, B ∪ {+∞}, B ∪ {−∞}, B ∪ {−∞, +∞} : B ∈ B}. Ï
6. November 2011 13:28
41
3-A
3
Zufallsvariablen und Verteilungen
Zufallsvariablen ermöglichen es uns für ein Experiment lediglich einmal einen
W-Raum (Ω, A, P ) zu modellieren und dann für jeden Aspekt, der uns interessiert,
eine Zufallsvariable zu konstruieren. X(ω) kann man als Messung interpretieren,
X(ω) ist der von ω abhängige Messwert.
Außerdem lassen sich Zufallsvariablen verknüpfen, wir können sie addieren,
multiplizieren, hintereinanderausführen, . . .
Messbarkeit für alle Elemente der Bild-σ -Algebra nachzuweisen, kann sich als
äußert delikat herausstellen. Der folgende Satz besagt jedoch, dass es genügt sich
auf ein Erzeugersystem der Bild-σ -Algebra zurückzuziehen.
3.2 Satz Seien (Ω, A), (Ω0 , A0 ) Messräume, X : Ω → Ω0 und E 0 Erzeugersystem von A0 .
Dann ist X genau dann messbar, wenn
∀ M ∈ E 0 : X −1 (M) ∈ A,
d.h. X −1 (E 0 ) ⊆ A.
Ï
» ⇒: Gilt per definitionem.
⇐: Sei X −1 (E 0 ) ⊆ A, zu zeigen ist nun, dass X −1 (A0 ) ⊆ A. Es gilt
X −1 (A0 ) = X −1 (FΩ0 (E 0 )) = FΩ (X −1 (E 0 )) ⊆ A,
denn X −1 (E 0 ) ⊆ A und FΩ (X −1 (E 0 )) ist die kleinste σ -Algebra, die X −1 (E 0 ) ent-
hält und A ist σ -Algebra.
«
Ein einfaches aber äußerst nützliches Korollar ergibt sich, wenn wir uns auf reellwertige messbare Abbildungen beschränken.
3.3 Korollar Sei (Ω, A) ein Messraum und X : Ω → R Abbildung. Dann sind folgende
Aussagen äquivalent:
(i) X A-B-messbar.
(ii) ∀ α ∈ R : [X ≤ α] ∈ A.
(iii) ∀ α ∈ R : [X < α] ∈ A.
(iv) ∀ α ∈ R : [X á α] ∈ A. Ï
» Wird geführt mit Satz 3.2 und der Tatsache, dass {(−∞, α] : α ∈ R} ein Erzeu-
gersystem von B ist.
42
«
6. November 2011 13:28
Meßbare Abbildungen und Zufallsvariablen
Insbesondere sind somit die Mengen [X à α], [X < α], . . . für jede reelle Zufallsvariable X messbar.
3.1 Korollar Für zwei Abbildungen X, Y : (Ω, A) → (R, B) gilt
[X < Y ],
[X ≤ Y ],
[X = Y ],
[X ≠ Y ] ∈ A,
wobei [X < Y ] Í {ω ∈ Ω : X(ω) < Y (ω)}. Ï
» Nach dem Prinzip von Archimedes gilt [X < Y ] =
ist
[
[X < α < Y ] =
α∈R
[
α∈Q
[X < α < Y ] =
[
α∈Q
S
α∈R [X
< α < Y ]. Außerdem
[X < α] ∩ [Y à α]c .
c
Für jedes α ∈ Q ist [X < α] ∩ [Y à α] messbar und die abzählbare Vereinigung
messbarer Mengen ist messbar.
Die übrigen Fälle folgen sofort, denn
[X à Y ] = [X > Y ]c ∈ A,
[X = Y ] = [X à Y ] ∩ [X á Y ] ∈ A
[X ≠ Y ] = [X = Y ]c ∈ A. «
3.4 Satz Sei ∅ ≠ A ⊂ Rm und A ∩ Bm Í {A ∩ B : B ∈ Bm }. Jede stetige Abbildung
g : A → Rn ist A ∩ Bm -Bn -messbar. Ï
» On , das System der offenen Mengen auf Rn , ist ein Erzeugersystem von Bn . Nach
3.2 genügt es zu zeigen, dass
g −1 (On ) ⊆ A ∩ Bm .
g ist stetig, daher sind die Urbilder offener Mengen offene Mengen ∩ A.
«
Für Abbildungen Rm > Rn ist somit Messbarkeit eine wesentlich schwächere
Voraussetzung als Stetigkeit.
Bsp 2 Die Dirichletfunktion f : R → R gegeben durch,
f (x) =


1,

0,
x ∈ Q,
x ∈ R \ Q,
ist messbar aber sicher nicht stetig. 6. November 2011 13:28
43
3-A
3
Zufallsvariablen und Verteilungen
3.5 Satz Seien X : (Ω1 , A1 ) → (Ω2 , A2 ), Y : (Ω2 , A2 ) → (Ω3 , A3 ). Die zusammenge-
setzte Abbildung Y ◦ X : Ω1 → Ω3 ist dann A1 -A3 -messbar. Ï
» Offensichtlich gilt (Y ◦ X)−1 (A3 ) = X −1 ◦ Y −1 (A3 ) ⊆ A1 .
«
3.2 Korollar Für X : (Ω, A) → (Rm , Bm ) und eine stetige Abbildung g : Rm → Rn ist
g ◦ X : Ω → Rn A-Bn -messbar. Ï
Insbesondere ist die Komposition von Zufallsvariablen bzw. von Zufallsvariablen
mit stetigen Funktionen wieder eine Zufallsvariable. Für eine reelle Zufallsvariable
p
X sind somit auch |X|, X 2 , |X|, . . . Zufallsvariablen.
3.6 Satz Sei (Ω, A) Messraum.
a) Seien Xn : (Ω, A) → (R, B) für n = 1, . . . , m. Dann ist
Y : Ω → Rm , ω , Y (ω) Í (X1 (ω)), . . . , Xm (ω)),
ω ∈ Ω,
A-Bm -messbar. Für g : (Rm , Bm ) → (R, B) ist
g◦Y :Ω →R
A-B-messbar.
b) Seien X1,2 : (Ω, A) → (R, B). Dann sind auch die Abbildungen
(a) αX1 + βX2
(α, β ∈ R)0 ,
(b) X1 X2 ,
X1
(c)
(falls existent)
X2
A-B-messbar. Ï
»
a) Ein Erzeugersystem C von Bm ist gegeben durch
(−∞, α1 ] × . . . × (−∞, αm ],
wobei (α1 , . . . , αm ) ∈ Rm . Es genügt zu zeigen, dass Y −1 (C) ⊆ A. Nun gilt
Y −1 ((−∞, α1 ] × . . . × (−∞, αm ])
= {ω ∈ Ω : x1 (ω) à α1 , . . . , Xm (ω) à αm }
= [X1 à α1 ] ∩ . . . ∩ [Xm à αm ] ∈ A.
44
«
6. November 2011 13:28
Meßbare Abbildungen und Zufallsvariablen
R2
α2
(α1 , α2 )
α1
3.1
Erzeuger der Bn .
b) Die Messbarkeit folgt mit Korollar 3.2 und der Stetigkeit von Summen- und
Produktabbildung (x, y) , x + y, (x, y) , x · y.
«
Eine Abbildung X : Ω → Rn ist also genau dann messbar, wenn jede Komponente
Xn : Ω → R messbar ist. Insbesondere sind Produkte und Summen von Zufallsva-
riablen stets messbar.
3.7 Satz Sei (Ω, A) Messraum, Xn : (Ω, A) → (R, B) für n = 1, 2, . . .. Dann sind
(a) inf Xn ,
n
(b) sup Xn ,
n
(c) lim sup Xn ,
n
(d) lim inf Xn ,
n
(e) lim Xn (falls existent)
n
A-B-messbar. Ï
» (1) ∀ α ∈ R : [inf Xn < α] =
S
n∈N [Xn
< α] ∈ A, d.h. inf Xn ist A-B-messbar.
(2) sup = − inf(−Xn ) ist A-B-messbar.
(3) lim sup Xn = infn supkán Xk ist A-B-messbar.
(4) lim inf Xn = supn infkán Xk ist A-B-messbar.
6. November 2011 13:28
45
3-A
3
Zufallsvariablen und Verteilungen
(5) lim Xn = lim sup Xn , falls limn Xn existiert.
«
Da Messbarkeit eine so schwache Voraussetzung ist, ist sie auch ein sehr stabiler Begriff, da sie auch unter Grenzwertbildung und Komposition erhalten bleibt.
Probleme treten erst bei überabzählbar vielen Operationen auf.
46
6. November 2011 13:28
Bildmaße und Verteilungen
3-B Bildmaße und Verteilungen
In diesem Abschnitt werden wir eine Beziehung zwischen Zufallsvariablen und Maßen herstellen. Jeder Zufallsvariablen
X : (Ω, A, P ) → (Ω0 , A0 )
lässt sich eindeutig ein Maß
PX : A0 → R,
A0 , PX (A) Í P (X −1 (A))
das sogenannte Bildmaß zuordnen. Die Verteilungsfunktion des Bildmaßes
F (t) = PX ((−∞, t])
nennen wir auch Verteilungsfunktion von X. F lässt sich oft leichter handhaben als
X, und aus den Eigenschaften von F lassen sich Rückschlüsse auf X machen.
Analog lässt sich zu jedem Maß
µ : A0 → R
über Ω0 eine Zufallsvariable
Y : (Ω, A, Q) → (Ω0 , A0 )
finden, so dass PY = µ.
6. November 2011 13:28
47
3-B
3
Zufallsvariablen und Verteilungen
Zunächst ist natürlich zu klären, ob das Bildmaß überhaupt ein Maß ist.
3.8 Satz Seien (Ω, A) und (Ω0 , A0 ) Messräume und X : (Ω, A) → (Ω0 , A0 ) eine Abbil-
dung. Sei µ ein Maß auf A. Durch
µX (A0 ) Í µ(X −1 (A0 ))
= µ ω ∈ Ω : X(ω) ∈ A0 Î µ[X ∈ A0 ];
A0 ∈ A0
wird ein Maß (das sogenannte Bildmaß) µX auf A0 definiert.
Ist µ ein W-Maß auf A, dann ist µX ebenfalls ein W-Maß auf A0 . Ï
»
(i) µX á 0 ist klar.
(ii) µX (∅) = µ(X −1 (∅)) = µ(∅) = 0.
(iii) Seien A01 , A02 , . . . ∈ A0 paarweise disjunkt, so gilt

µX 
X
iá1

A0i 


= µ X −1 
=
X
iá1
X
iá1

A0i 
µ X −1 (A0i ) .

= µ

X
0 
−1
X (Ai )
iá1
(iv) Sei µ ein Wahrscheinlichkeitsmaß so ist
µX (Ω0 ) = µ(X −1 (Ω0 )) = µ(Ω) = 1. «
Es genügt also, dass X messbar ist, damit PX tatsächlich ein Maß ist. Insbesondere ist für jede Zufallsvariable PX ein Maß.
3.4 Definition Sei X eine (Ω0 , A0 )-Zufallsvariable auf dem W-Raum (Ω, A, P ). Das W-
Maß PX im Bild-W-Raum (Ω0 , A0 , PX ) heißt Verteilung der Zufallsvariable X.
Sprechweise:
- Die Zufallsvariable X liegt in A0 ∈ A0 .
- X nimmt Werte in A0 ∈ A0 an mit Wahrscheinlichkeit PX (A0 ) = P [X ∈ A0 ].
- Wenn P [X ∈ A0 ] = 1, sagt man X liegt P -fast sicher (P -f.s.) in A0 . Ï
48
6. November 2011 13:28
Bildmaße und Verteilungen
Betrachten wir die Verteilung PX einer reellen Zufallsvariablen X, so besitzt diese
eine Verteilungsfunktion
F (t) = PX ((−∞, t]) = P (X −1 (−∞, t]).
Da es sich bei der Verteilungsfunktion um eine reelle Funktion handelt, kann man
oft viel leichter mit ihr Rechnen, als mit der Zufallsvariablen selbst.
Die Eigenschaften der Verteilungsfunktion charakterisieren die Zufallsvariable,
man klassifiziert Zufallsvariablen daher nach Verteilung (binomial-, poisson- , exponentialverteilt, . . . ).
Definition Besitzen zwei Zufallsvariaben dieselbe Verteilung (also dieselbe Verteilungsfunktion) heißen sie gleichverteilt. Ï
Bsp 3 Wir betrachten n Bernoulli-Versuche mit jeweiliger Erfolgswahrscheinlich-
keit p. Ω besteht aus der Menge der Elementarereignisse ω (= n-Tupel aus Nullen
und Einsen), A = P(Ω).
Das Wahrscheinlichkeitsmaß P auf A ist gegeben durch
P ({ω}) = p k (1 − p)n−k ,
falls ω aus k Einsen und n − k Nullen besteht.
Wir definieren uns eine Zufallsvariable X durch:
X : Ω → R,
X(ω) = Anzahl der Einsen in ω.
X ist A − B-messbar, denn X −1 (B) ⊆ P(Ω) = A.
X : (Ω, A, P ) → (R, B) gibt also die zufällige Anzahl der Erfolge in n Bernoulli-
Versuchen an.
Das Bildmaß zu X ist gegeben durch
PX ({k}) = P [X = k] =
!
n k
p (1 − p)n−k Î b(n, p; k).
k
Um das Bildmaß auf allgemeine Mengen in B fortzusetzen, setzen wir zu B ∈ B
PX (B) =
X
b(n, p; k).
k∈N0 ∩B
PX ist die sogenannte Binominalverteilung b(n, p). X ist b(n, p)-verteilt. 6. November 2011 13:28
49
3-B
3
Zufallsvariablen und Verteilungen
3.2 Bemerkung. Seien (Ω, A, P ) ein W-Raum und (Ω0 , A0 ), (Ω00 , A00 ) Messräume. Seien
X : (Ω, A) → (Ω0 , A0 ) und Y : (Ω0 , A0 ) → (Ω00 , A00 ), dann gilt
PY ◦X = (PX )Y .
Ç
» Y ◦ X ist wieder messbar. Für A00 ∈ A00 gilt somit,
PY ◦X (A00 ) = P ((Y ◦ X)−1 (A00 )) = P (X −1 (Y −1 (A00 )))
= PX (Y −1 (A00 ) = (PX )Y (A00 ). «
Produktmessräume
Betrachten wir die Vektorräume Rn und Rm , so können wir diese durch das karthesische Produkt verknüpfen zu V = Rn × Rm . V ist dann wieder ein Vektorraum
und jedes Element v ∈ V lässt sich darstellen als v = (x, y), wobei x ∈ Rn und
y ∈ Rm .
Eine solche Verknüpfung lässt sich auch für Messräume definieren.
3.5 Definition Seien (Ωi , Ai ) Messräume für i = 1, . . . , n. Die Produkt-σ -Algebra
wird definiert als die von dem Mengensystem


n

Y
Ai : Ai ∈ Ai , i = 1, . . . , n


Nn
i=1
Ai
i=1
erzeugte σ -Algebra.
!
n
Nn
Q
Nn
(Ω
,
A
)
Í
Ω
,
A
i
i
i
i heißt Produkt-Messraum. Ï
i=1
i=1
i=1
Man bildet also das karthesische Produkt der Ωi und die Produkt-σ -Algebra der
Nn
i=1 (Ωi , Ai ).
Ai und erhält so wieder einen Messraum
Bsp 4 (Rn × Rm , Bn
N
Bm ) = (Rn+m , Bn+m ). 3.3 Bemerkung. Sei Xi : (Ω, A) → (Ωi , Ai ) messbar für i = 1, . . . , n. Die Abbildung
X:Ω→
n
Y
Ωi
i=1
mit
X(ω) Í (X1 (ω), . . . , Xn (ω)),
Nn
ist dann A- i=1 Ai -messbar. Ç
50
ω∈Ω
6. November 2011 13:28
Bildmaße und Verteilungen
» Betrachte ein Erzeugendensystem von


n
Y

C =  Ai : Ai ∈ Ai  .
Nn
i=1
Ai , z.B. die Quader
i=1
Der Beweis wird dann wie im eindimensionalen Fall geführt.
«
Insbesondere ist eine Abbildung
X : Ω → Rn ,
ω , (x1 , . . . , xn )
genau dann messbar, wenn es jede Komponete Xi : Ω → R ist.
3.4 Bemerkung. Seien (Ωi , Ai ) Messräume für i = 1, . . . , n. Ein W-Maß auf
eindeutig festgelegt durch seine Werte auf dem Mengensystem


n

Y
Ai : Ai ∈ Ai , i = 1, . . . , n . Ç


Nn
i=1
Ai ist
i=1
» Fortsetzungs- und Eindeutigkeitssatz 1.4 mit der σ -Algebra gegeben durch die
endliche Summe von Quadern der Form
n
Y
Ai ,
Ai ∈ Ai . «
i=1
3.6 Definition Seien Xi : (Ω, A, P ) → (Ωi , Ai ) Zufallsvariablen für i = 1, . . . , n und
X Í (X1 , . . . , Xn ) Zufallsvariable auf (Ω, A, P ).
1.) Die Verteilung PX der Zufallsvariablen X - erklärt durch
PX (A) Í P [(X1 , . . . , Xn ) ∈ A]
für A ∈
Nn
i=1
Ai oder auch nur für A =
n
Q
i=1
Ai (Ai ∈ Ai , i = 1, . . . , n) - heißt
die gemeinsame Verteilung der Zufallsvariablen Xi .
2.) Die Verteilungen PXi - erklärt durch
PXi (Ai ) Í P [Xi ∈ Ai ]
= P [X ∈ Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωn ]
für Ai ∈ Ai - heißen Randverteilungen von PX
6. November 2011 13:28
(i = 1, . . . , n). Ï
51
3-B
3
Zufallsvariablen und Verteilungen
Wichtiger Spezialfall. (Ωi , Ai ) = (R, B) für i = 1, . . . , n. Dann sind die Xi reelle
Zufallsvariablen und X ein Zufallsvektor. Ç
3.5 Bemerkungen. Seien die Bezeichnungen wie in Definition 3.6.
a. Die Verteilung PX ist ohne Zusatzvoraussetzung durch ihre Randverteilungen
nicht eindeutig festgelegt.
b. Die Projektionsabbildung
πi :
n
Y
k=1
Ωk → Ωi ,
(ω1 , . . . , ωn ) → ωi
ist messbar und somit gilt
PXi = (PX )πi ,
i = 1, . . . , n.
Ç
Aufgrund der Messbarkeit der Projektionen sind die Randverteilungen einer gemeinsamen Verteilung eindeutig bestimmt. Die Umkehrung, dass die Randverteilungen auch die gemeinsame Verteilung eindeutig bestimmen ist im Allgemeinen
falsch. Wir werden uns in Kapitel 5 ausführlicher damit beschäftigen.
3.6 Bemerkungen.
a. Sei Q ein W-Maß auf (Rn , Bn ). Dann existieren reelle Zufalls-
variablen X1 , . . . , Xn auf einem geeigneten W-Raum (Ω, A, P ) so, dass ihre gemeinsame Verteilung mit Q übereinstimmt:
Auf dem W-Raum (Ω, A, P ) Í (Rn , Bn , Q), wird Xi : Ω → R definiert als die
Projektionsabbildung
(x1 , . . . , xn ) → xi
(i = 1, . . . , n);
hierbei ist also X Í (X1 , . . . , Xn ) die auf Rn definierte identische Abbildung.
b. Wir können die Aussage
aus a) unmittelbar auf einen beliebigen Produkt-Meßraum
!
n
Q
Nn
n
Ωi ,
i=1 Ai statt (R , Bn ) verallgemeinern.
i=1
c. Sonderfall zu b): Ist (Ω, A, Q) ein W-Raum, X : Ω → Ω die identische Abbildung,
so gilt PX = Q. Jedes W-Maß lässt sich somit als eine Verteilung auffassen (und
- definitionsgemäß - umgekehrt). Ç
Dieser Zusammenhang zwischen W-Maß und Verteilung hat eine große Bedeutung, wie wir mit der Einführung des Maßintegrals im folgenden Kapitel sehen werden.
52
6. November 2011 13:28
4-A
4 Erwartungswerte und Dichten
4-A Erwartungswert, Varianz und Lebesgue Integral
Gegeben seien ein W-Raum (Ω, A, P ) und eine reelle Zufallsvariable X auf (Ω, A, P )
mit Verteilung PX (auf B) und Verteilungsfunktion F : R → R.
Der Erwartungswert EX der Zufallsvariable X gibt einen “mittleren Wert” von X
bezüglich P an.
Bsp 1 Wir betrachten einen fairen Würfel. X gebe die zufällige Augenzahl an. Den
Erwartungswert von X erhalten wir, indem wir die möglichen Werte von X mit ihrer
Wahrscheinlichkeit multiplizieren und aufsummieren,
EX = 1 ·
1
1
1
+ 2 · + . . . + 6 · = 3.5.
6
6
6
Für diskrete Zufallsvariablen, das sind Zufallsvariablen deren Verteilung auf N0
konzentriert ist, erhalten wir somit,
EX =
∞
X
k=1
kpk ,
mit pk = P [X = k]. Diese Definition lässt sich allerdings nicht auf den Fall einer Zufallsvariablen mit
einer auf einem Kontinuum konzentrierten Verteilung übertragen. Um diesen Fall
einzuschließen, gehen wir von der diskreten Summe zum kontinuierlichen Integral
über, wir wählen also Integralansatz, um den Erwartungswert einzuführen.
6. November 2011 13:28
53
4
Erwartungswerte und Dichten
Erwartungswert mittels Riemann-Stieltjes-Integral
Bezeichnungen.


X(ω),
falls X(ω) > 0,

0,
sonst


−X(ω), falls X(ω) < 0,
X − (ω) Í

0,
sonst.
X + (ω) Í
Wir wählen zunächst den naiven Ansatz, den Erwartungswert von X als Integral
über den Wertebereich von X zu definieren.
1. Schritt: Sei zunächst X positiv (X ≥ 0), d.h. PX (R+ ) = 1 und F (x) = 0 für
x < 0. Wir ersetzen nun die Summe aus dem Beispiel durch ein Integral,
Z
Z
Z
x dF (x),
EX Í
x PX ( dx) Í
x dF (x) Í lim
R+
a→∞
R+
[0,a]
wobei es sich hier um ein Riemann-Stieltjes-Integral von x bezüglich F handelt. Da
der Integrand x auf R+ positiv, gilt 0 ≤ EX ≤ ∞.
Für F (x) = x entspricht das Riemann-Stieltjes-Integral dem gewöhnlichen Riemann-
Integral,
Z
R+
x dF (x) =
Z∞
0
x dx.
Allgemeiner entspricht das Riemann-Stieltjes-Integral für stetig differenzierbares F
dem Riemann-Integral,
Z
Z∞
x dF (x) =
x F 0 (x) dx.
0
R+
2. Schritt: Sei X beliebig und EX + , EX − nicht beide ∞, so ist der Erwartungswert
von X definiert als
Z
EX Í
x PX ( dx) Í EX + − EX − .
R
Ï
4.1 Erster Versuch des Erwartungswertes EX von X als ein Integral auf dem Wertebe-
reich von X:
EX Í
Z
R
x PX ( dx).
Ï
Für den Erwartungswert ist diese Definition ausreichend und historisch ist man
auch genau so vorgegangen. Wir integrieren hier jedoch lediglich die stetige Funktion x , x. In der Wahrscheinlichkeitstheorie arbeitet man aber meist mit unstetigen
Funktionen und für diese ist das Riemann-Stieltjes-Integral nicht ausreichend.
54
6. November 2011 13:28
Erwartungswert, Varianz und Lebesgue Integral
Erwartungswert mittels Maß-Integral
Wir benötigen einen allgemeineren Integrationsbegriff, der es uns erlaubt, lediglich
messbare (also insbesondere auch unstetige) Funktionen zu integrieren.
Dazu machen wir einen neuen Integralansatz, wobei wir diesmal über den Definitionsbereich von X also Ω integrieren.
Sei also X : (Ω, A) → (R, B) messbar.
0. Schritt: Sei X positiv und nehme nur endlich viele Werte an. Dann existiert
eine Darstellung
X=
N
X
αi 1Ai ,
i=1
αi ∈ R+ ,
mit Ai paarweise disjunkt und
PN
Ai ∈ A
i=1
Ai = Ω.
1A bezeichnet die sogenannte Indikatorfunktion einer Menge A,


1, x ∈ A,
1A (x) Í

0, x ∉ A.
Somit können wir den Erwartungswert definieren als
EX Í
Z
Ω
X dP Í
N
X
αi P (Ai ).
i=1
Diese Definition schließt z.B. den Fall des Würfels ein, jedoch sind wir beispielsweise noch nicht in der Lage, den Erwartungswert eines zufälligen Temperaturwertes anzugeben.
1. Schritt: Sei nun X lediglich positiv. In der Maßtheorie wird gezeigt, dass dann
eine Folge von Zufallsvariablen Xn ≥ 0 existiert, wobei Xn jeweils nur endlich viele
Werte annimmt und die Folge (Xn ) monoton gegen X konvergiert, Xn (ω) ↑ X(ω)
für n → ∞ und ω ∈ Ω.
Somit können wir den Erwartungswert von X definieren als
Z
EX Í
X dP Í lim EXn ,
Ω
n→∞
wobei der (uneigentliche) Grenzwert existiert, da die EXn monoton wachsen.
2. Schritt: Seien EX + , EX − nicht beide ∞.
Z
EX Í
X dP Í EX + − EX − .
Ω
Somit erhalten wir die endgültige Definition des Erwartungswerts.
6. November 2011 13:28
55
4-A
4
Erwartungswerte und Dichten
4.2 Definition des Erwartungswertes EX von X als ein Integral auf dem Definitionsbe-
reich von X:
Z
EX Í
Ω
X(ω)P ( dω ) Î
Z
Ω
X dP .
Ï
a. Die einzelnen Schritte - insbesondere bei der
4.1 Bemerkungen zu Definition 4.2
2. Definition über das Maß-Interal - sind sinnvoll. Für Interessierte werden die
Details in der Maßtheorie, einem Teilgebiet der Analysis, behandelt.
b. Die beiden Definitionen sind äquivalent.
c. Existiert das Integral
Z
R
x PX ( dx)
in 1. Definition, so ändert es seinen Wert nicht, wenn man es gemäß 2. Definition
erklärt. Insbesondere gilt dann,
Z
Ω
X dP =
d. Der Begriff
R
Ω
Z
R
x PX ( dx) =
Z
R
x dF (x).
X dP in Definition 4.2 lässt sich unmittelbar verallgemeinern auf
den Fall eines Maßraumes (Ω, A, µ) (anstatt eines W-Raumes) und liefert
Z
Ω
X(ω) µ( dω ) Î
Z
Ω
X dµ.
Wichtige Spezialfälle:
1.) Sei (Ω, A) = (Rn , Bn ) oder etwas allgemeiner Ω = B mit B ∈ Bn , A =
B ∩ Bn und µ = λ
Restriktion des L-B-Maß(es) auf A.
A
Z
Rn
X dλ bzw.
Z
B
X dµ
wird als Lebesgue–Integral bezeichnet. Im Falle n = 1 schreiben wir auch
Z
56
R
X(x) dx
bzw.
Z
B
X(x) dx.
6. November 2011 13:28
Erwartungswert, Varianz und Lebesgue Integral
2.) Sei (Ω, A) = (R, B) und H : R → R eine maßdefinierende Funktion mit
zugehörigem Maß µ, d.h.
H(b) − H(a) = µ((a, b]),
−∞ < a < b < ∞,
so schreiben wir
Z
Z
Z
X(x) dH(x) Í
X(x) H( dx) Í
X dµ
R
R
R
Die Verallgemeinerung auf Ω = B ∈ B folgt analog.
3.) Sei (Ω, A) = (N0 , P(N0 )) und µ das Zählmaß, d.h.
µ(A) = Anzahl der Elemente in A,
so gilt für eine Funktion f : N0 → R,
Z
∞
X
f (k).
f dµ =
N0
k=0
Reihen sind also lediglich ein Spezialfall des Maß-Integrals.
e. Sei X eine erweitert-reelle Zufallsvariable auf einem W-Raum (Ω, A, P ) mit
P [|X| = ∞] = 0 und


X(ω), falls |X(ω)| < ∞, ω ∈ Ω,
Y (ω) Í

0
sonst,
so definiert man EX Í EY , falls EX existiert.
Ç
Für das Maß- bzw. spezieller das Lebesgue-Integral existieren zahlreiche sehr
allgemeine Sätze und elegante Beweisstrategien, die uns für das Riemann-StieltjesIntegral nicht zur Verfügung stehen, weshalb wir im Folgenden fast ausschließlich
von dieser Definition ausgehen werden.
Wir haben bisher nicht geklärt, wie man ein Maß- bzw. ein Lebesgue-Integral
konkret berechnet, wenn X nicht nur endlich viele Werte annimmt. Ist die Verteilungsfunktion stetig differenzierbar, so gilt
Z
Z
X dP =
x F 0 (x) dx,
Ω
R
wobei wir letzteres Integral durchaus als Lebesgue-Integral mit all seinen angenehmen Eigenschaften auffassen können, wir können damit aber auch rechnen wie mit
dem Riemann-Integral (Substitution, partielle Integration, . . . ). Für allgemeineres F
müssen wir uns darauf beschränken, abstrakt mit dem Integral arbeiten zu können.
6. November 2011 13:28
57
4-A
4
Erwartungswerte und Dichten
4.2 Bemerkung. Sei (Ω, A, P ) ein W-Raum. Für A ∈ A gilt P (A) = E 1A .
Ç
4.3 Definition Existiert für die reelle Zufallsvariable X auf dem W-Raum (Ω, A, P ) ein
endlicher Erwartungswert EX, so heißt X integrierbar (bezüglich P ). Analog für
R
Ω X dµ in Bemerkung 4.1 d.. Ï
Ist X eine positive Zufallsvariable, so können wir den Erwartungswert direkt mit
Hilfe der Verteilungsfunktion berechnen.
4.1 Lemma Für eine reelle Zufallsvariable X ≥ 0 mit Verteilungsfunktion F gilt
EX =
Z∞
0
(1 − F (x)) dx.
Ï
» Wir verwenden Definition 4.1 mithilfe des R-S-Integrals,
Z
Z
x dF (x)
Z
Za
a
a
part.int.
(∗)
= lim x F (x)
−
1F (x) dx = lim a −
F (x) dx
x=0
a→∞
a→∞
0
0
Z a
Z∞
= lim
(1 − F (x)) dx =
(1 − F (x)) dx.
EX =
R+
x dF (x) = lim
a→∞
a→∞ [0,a]
0
0
1.) Zu (*). Sei EX < ∞
∞ > EX =
áa
Z
Z
x dF (x) á
R+
(a,∞)
Z
x dF (x) á
[a,∞]
Z
a dF (x)
[a,∞]
dF (x) = a(1 − F (a)) á 0.
2.) Außerdem:
Z
[a,∞]
da
R
[0,a]
a→∞
x dF (x) → 0,
x dF (x) →
R
R+
x dF (x), also
a→∞
a(1 − F (a)) → 0.
Der Fall EX = ∞ wird gesonderd behandelt.
58
«
6. November 2011 13:28
Erwartungswert, Varianz und Lebesgue Integral
Eigenschaften des Erwartungswerts
Der Erwartungswert einer reellen Zufallsvariablen X,
EX =
Z
Ω
X dP =
Z
R
x dPX ,
ist ein spezielles Maß-Integral. Daher übertragen sich alle Eigenschaften dieses Integrals auf den Erwartungswert.
4.1 Satz Sei X eine reelle Zufallsvariable auf einem W-Raum (Ω, A, P ).
a) X integrierbar a X + und X − integrierbar a |X| integrierbar.
b) Existiert eine reelle integrierbare Zufallsvariable Y ≥ 0 mit
|X| ≤ Y P-f.s., so ist X integrierbar.
c) Ist X integrierbar und existiert eine reelle Zufallsvariable Y mit Y = X P-f.s.,
dann existiert EY = EX. Ï
» Der Beweis wird in der Maßtheorie geführt.
«
Im Gegensatz zum klassischen uneigentlichen Riemann-Integral ist es beim MaßIntegral nicht möglich, dass sich positive und negative Anteile gegenseitig eliminieren und so eine Funktion deren Positiv- oder Negativanteil alleine nicht integrierbar
sind, als ganzes integrierbar wird. Es gibt also durchaus Funktionen die (uneigentlich) Riemann- aber nicht Lebesgue-integrierbar sind. Für “viel mehr Funktionen”
gilt jedoch das Gegenteil.
Beim Riemann-Integral ändert eine Abänderung einer Funktion an endlich vielen
Punkten den Integralwert nicht, beim Lebesgue-Integral hingegen ändert eine Abänderung einer Zufallsvariabeln auf einer Menge vom Maß Null ihren Erwartungswert
nicht.
Bsp 2 Die Dirichletfunktion f : R → R mit


1, x ∈ Q,
f (x) =

0, x ∈ R \ Q.
6. November 2011 13:28
59
4-A
4
Erwartungswerte und Dichten
ist nicht Riemann- aber Lebesgue-integirerbar. Das Lebesgue-Integral lässt sich auch
sehr leicht berechnen, denn f á 0, also gilt nach Definition
Z
R
f (x) dx = 1 · λ(Q) + 0 · λ(R \ Q) = 1 · λ(Q),
| {z }
=0
denn Q ist abzählbare Teilmenge von R. Ferner ist der Erwartungswert linear, monoton und erfüllt die Dreiecksungleichung.
4.2 Satz Seien X, Y reelle integrierbare Zufallsvariablen auf einem W-Raum (Ω, A, P ).
a) Es existiert E(X + Y ) = EX + EY .
b) Es existiert E(αX) = αEX für α ∈ R.
c) X ≥ Y ⇒ EX ≥ EY .
d) |EX| ≤ E|X|.
e) X ≥ 0, EX = 0 ⇒ X = 0 P-f.s.
Ï
» Beweisidee. Wir beweisen lediglich die erste Behauptung, der Rest folgt analog.
Dazu bedienen wir uns dem Standardtrick für Beweise in der Maßtheorie.
1. Schritt. Reduktion auf X á 0 und Y á 0, dann Reduktion auf einfache Funktionen
X=
mit
n
P
i=1
n
X
αi 1Ai ,
Y =
i=1
Ai = Ω =
X=
X
m
P
j=1
⇒X + Y =
X
i,j
βj 1Bj
j=1
Bj . Sei Cij = Ai ∩ Bj ∈ A, so gilt
γij 1Cij ,
i,j
m
X
Y =
X
δij 1Cij ,
i,j
(γij + δij )1Cij .
2. Schritt. Nun seien X á 0 und Y á 0 beliebig und Xn , Yn Folgen von einfachen
Funktionen mit Xn ↑ X, Yn ↑ Y und Xn + Yn = Zn ↑ Z = X + Y .
60
6. November 2011 13:28
Erwartungswert, Varianz und Lebesgue Integral
Für jedes n ∈ N sind Xn und Yn einfach und damit E linear. Es gilt also
E(Xn + Yn ) = EXn + EYn à EX + EY
sowie
EXn + EYn = E(Xn + Yn ) = EZn à EZ = E(X + Y ).
Nach dem Grenzübergang für n → ∞ erhalten wir somit
EX + EY = E(X + Y ).
3. Schritt. Für X und Y integrierbar betrachten wir
X = X+ − X− ,
Y = Y+ − Y− .
Nach dem eben gezeigten, können wir die Linearität von E für Positiv und Negativteil verwenden.
EX + EY = (EX+ EY+ ) − (EX− + EY− ) = E(X+ + Y+ ) − E(X− + Y− )
= E(X + Y ).
«
Bsp 3 Wir betrachten n Bernoulli-Versuche mit jeweiliger Erfolgswahrscheinlich-
keit p. Die Zufallsvariable Xi nehme Werte 0 bzw. 1 an, falls im i-ten Versuch ein
Misserfolg bzw. Erfolg aufgetreten ist (i = 1, . . . , n).
X = X1 + . . . + Xn gibt die Anzahl der Erfolge an.
!
EX = EX1 + . . . EXn = nEX1 = np,
da alle Xi dieselbe Verteilungsfunktion besitzen.
Der Erwartungswert einer b(n, p)-verteilten Zufallsvariablen ist also np. Ein alternativer (evtl. ungeschickterer) Rechenweg ist
!
n
n
X
X
n k
EX =
kP [X = k] =
k
p (1 − p)n−k = . . . = np.
k
k=0
k=0
Für das Riemann-Integral ist für die Vertauschbarkeit von Integration und Grenzwertbildung
Z
lim
n→∞ [a,b]
fn (x) dx =
Z
lim fn (x) dx
[a,b] n→∞
im Allgemeinen die gleichmäßige Konvergenz der fn erforderlich. Ein entscheidender Vorteil des Lebesgue-Integrals ist die Existenz von Konvergenzsätzen, die
wesentlich schwächere Voraussetzungen für die Vertauschbarkeit haben.
6. November 2011 13:28
61
4-A
4
Erwartungswerte und Dichten
4.3 Satz von der monotonen Konvergenz (B. Levi) Für reelle Zufallsvariablen Xn auf
(Ω, A, P ) mit Xn ≥ 0 (n ∈ N), Xn ↑ X (n → ∞) existiert
EX = lim EXn .
n
Hierbei EX Í ∞, falls P [X = ∞] > 0. Entsprechend für Reihen von nichtnegativen
R
Zufallsvariablen. – Analog für Ω Xn dµ gemäß Bemerkung 4.1d. Ï
» Die Messbarkeit von X folgt aus Satz 3.7. Die Xn sind monoton wachsend und
R
positiv, also ist ( Ω Xn dP )n monotone Folge, somit existiert ihr Grenzwert. Setze
c Í lim
Z
n→∞ Ω
Xn dP à
Z
Ω
X dP .
Es genügt nun für jede einfache Funktion Y mit Y à X zu zeigen, dass
cá
Z
Ω
Y dP .
Sei dazu
Y =
m
X
i=1
αi 1[Y =αi ] ,
αi á 0.
Sei δ < 1 beliebig aber fest und
An Í [Xn á δY ].
Wegen Xn ↑ X folgt An ↑ Ω also auch An ∩ [Y = αj ] ↑ [Y = αj ] für j = 1, . . . , m.
δ
Z
Ω
Y dP = δ
m
X
j=1
= lim
n→∞
à lim
n→∞
αj P [Y = αj ] = δ
m
X
j=1
Z
Ω
m
X
j=1
αj lim P (An ∩ [Y = αj ])
n→∞
δαj P (An ∩ [Y = αj ]) = lim
Xn dP = c.
n→∞
Z
Ω
δY 1An dP
| {z }
àXn
Da die Ungleichung für jedes δ < 1 gilt, folgt
Z
Ω
62
Y dP à c. «
6. November 2011 13:28
Dichtefunktion und Zähldichte
4-B Dichtefunktion und Zähldichte
4.4 Definition Sei X ein n-dimensionaler Zufallsvektor mit Verteilung PX auf Bn und
Verteilungsfunktion F : Rn → R.
1.) Nimmt X (eventuell nach Vernachlässigung einer P -Nullmenge in Ω) höchstens abzählbar viele Werte an, so ist PX eine sogenannte diskrete W-Verteilung.
Ist X eine reelle Zufallsvariable und PX auf N0 konzentriert, so heißt die Folge
(pk )k mit
pk Í PX ({k}) = P [X = k],
P∞
(wobei
k=0
k ∈ N0 ,
pk = 1) Zähldichte von X bzw. PX .
2.) Gibt es eine Funktion
f : (Rn , Bn ) → (R+ , B+ )
für die das Lebesgue-Integral
Z
Qn
i=1 (−∞,xi ]
f dλ
existiert und mit


n
Y
PX  (−∞, xi ] = F (x1 , . . . , xn ),
i=1
(x1 , . . . , xn ) ∈ Rn
übereinstimmt, so heißt f Dichte(funktion) von X bzw. PX bzw. F .
PX und F heißen totalstetig, falls sie eine Dichtefunktion besitzen. Ï
4.3 Bemerkungen.
a. Eine totalstetige Verteilungsfunktion ist stetig.
b. Besitzt die n-dimensionale Verteilungsfunktion
F : Rn → R
eine Dichtefunktion
f : Rn → R+ ,
6. November 2011 13:28
63
4-B
4
Erwartungswerte und Dichten
so existiert L-f.ü.
∂nF
,
∂x1 . . . ∂xn
und L-f.ü., d.h. insbesondere an den Stetigkeitsstellen von f , gilt
∂nF
= f.
∂x1 . . . ∂xn
c. Ein uneigentliches Riemann-Integral einer nichtnegativen Bn -B-messbaren Funktion lässt sich als Lebesgue-Integral deuten. Ç
Sind Dichtefunktion bzw. Zähldichte bekannt, so können wir den abstrakten
Ausdruck PX durch ein Integral über eine konkrete Funktion bzw. durch eine Reihe
ersetzen,
PX (A) =
Z
A
X
f dλ bzw.
pk .
k∈N0 ∩A
Zufallsvariablen mit Dichtefunktion bzw. Zähldichte, sind für uns somit sehr
“zugänglich”. Es lassen sich jedoch nicht für alle Zufallsvariablen Dichten finden,
denn dazu müsste jede Verteilungsfunktion L-f.ü. differenzierbar und Differentiation mit der Integration über Rn vertauschbar sein.
4.4 Satz Sei X eine reelle Zufallsvariable mit Verteilung PX .
a) Ist PX auf N0 konzentriert mit Zähldichte (pk ), dann gilt
EX =
∞
X
k pk .
k=1
b) Besitzt X eine Dichtefunktion f : R → R+ , so existiert das Lebesgue-Integral
Z
R
xf (x) dx Î
Z
R
xf (x) λ( dx)
genau dann, wenn EX existiert, und es gilt hierbei
EX =
64
Z
R
xf (x) dx.
Ï
6. November 2011 13:28
Dichtefunktion und Zähldichte
» Beweisidee zu Satz 4.4a) Für den Erwartungswert gilt nach 4.2,
EX =
Z
Ω
X dP .
X nimmt höchstens abzählbar viele verschiedene Werte in N0 an, wir können das
Integral also schreiben als,
Z
Ω
X dP = lim
n→∞
n
X
k=0
k · P [X = k] =
∞
X
k pk .
k=0
Spezialfall zu 4.4b). Sei X á 0 und F stetig differenzierbar auf (0, ∞). Wir verwenden die Definition des Erwartungswerts als Riemann-Stieltjes-Integral
EX = lim
x→∞
Z
[0,x]
!
t dF (t) = lim
x→∞
Z
[0,x]
tF 0 (t) dt =
Z
xf (x) dx.
[0,∞]
(!) gilt, da F stetig differenzierbar. Da f nur auf der positiven rellen Achse Werte
≠ 0 annimmt, gilt somit
EX =
Z
R
xf (x) dx.
Mit Hilfe des Transformationssatzes werden wir später einen vollständigen Beweis
geben können.
«
Für eine Zufallsvariable X auf (Ω, A, P ) mit Dichtefunktion bzw. Zähldichte ha-
ben wir mit Satz 4.4 eine konkrete Möglichkeit den Erwartungswert zu berechnen.
Wir betrachten dazu nun einige Beispiele.
Bsp 4 Sei X b(n, p)-verteilt, d.h. X hat die Zähldichte
pk = P [X = k] =
!
n k
p (1 − p)n−k ,
k
(k = 0, 1, . . . , n)
mit n ∈ N und p ∈ [0, 1]. Für den Erwartungswert gilt EX = np. Bsp 5 Sei X π (λ)-verteilt, d.h.
pk = P [X = k] = e−λ
λk
,
k!
k ∈ N0 ,
mit λ > 0, so gilt EX = λ.
6. November 2011 13:28
65
4-B
4
Erwartungswerte und Dichten
» Zu berechnen ist der Wert folgender Reihe,
EX =
∞
X
ke−λ
k=0
λk
.
k!
Wir verwenden dazu folgende Hilfsunktion,
g(s) Í
∞
X
e−λ
k=0
λk k
s = e−λ eλs ,
k!
s ∈ [0, 1].
g bezeichnet man auch als erzeugende Funktion der Poisson-Verteilung. Wir werden in Kapitel 6 genauer darauf eingehen. Die Reihe konvergiert auf [0, 1] gleichmäßig, wir können also gliedweise differenzieren und erhalten somit,
g 0 (s) =
X
ke−λ
k=1
λk k−1
s
= λe−λ eλs .
k!
Setzen wir s = 1, so erhalten wir
EX =
X
ke−λ
k=1
λk
= g 0 (1) = λ. «
k!
Bsp 6 Sei X N(a, σ 2 )-verteilt, d.h. X besitzt die Dichtefunktion f : R → R+ mit
f (x) Í √
2
1
− (x−a)
e 2σ 2 ,
2π σ
a ∈ R,
σ > 0.
Es gilt EX = a.
» Wir wenden Satz 4.4b) an und erhalten,
EX =
Z
R
xf (x) dx =
Z
R
(x − a)f (x) dx +
Z
R
af (x) dx.
f (x) ist symmetrisch bezüglich x = a, d.h. der linke Integrand ist asymmetrisch
bezüglich x = a und damit verschwindet das Integral.
⇒ EX = a
da f Dichte.
66
«
Z
R
f (x) dx = a,
6. November 2011 13:28
Dichtefunktion und Zähldichte
Bsp 7 Sei X exp(λ) verteilt mit λ > 0, so besitzt X die Dichtefunktion f mit,


0,
f (x) =

λe−λx ,
Es gilt EX =
x < 0,
x á 0.
1
λ.
» Eine Anwendung von Satz 4.4b) ergibt,
EX =
Z
R
xf (x) dx =
Z∞
xλe−λx dx
0
∞
1
1
= − e−λx = . «
0
λ
λ
part.int.
=
∞ Z ∞
−xe−λx +
e−λx dx
0
0
Bsp 8 X sei auf [a, b] gleichverteilt, d.h. mit Dichtefunktion f : R → R+ ,


0,
x ∉ [a, b],
f (x) =
1


b−a , x ∈ [a, b].
Dann ist EX =
a+b
2 .
» f ist eine Rechteckfunktion, ihr Erwartungswert ist die Intervallmitte.
« Der Transformationssatz
4.5 Transformationssatz Sei X : (Ω, A, P ) → R eine reelle Zufallsvariable mit Vertei-
lung PX und Verteilungsfunktion F , sowie
g : (R, B) → (R, B).
E(g ◦ X) existiert genau dann, wenn
Transformationssatz für Integrale
E(g ◦ X) =
Z
R
g dPX =:
Z
R
R
R
g dPX existiert, und es gilt hierbei nach dem
g dF Î
Z
R
g(x) dF (x).
Spezialfälle sind:

P

 ká0 g(k)pk ,
E(g ◦ X) = R

 R g(x)f (x) dλ(x),
6. November 2011 13:28
unter der Voraussetzung von Satz 4.4a,
unter der Voraussetzung von Satz 4.4b.
67
4-B
4
Erwartungswerte und Dichten
Insbesondere gilt (mit g = 1A , wobei A ∈ B)
P [X ∈ A] = PX (A)

P

 k∈A∩N pk
0
= R
R

 R 1A (x)f (x) dλ(x) Î A f (x) dx
u. V. von Satz 4.4a
Ï
u. V. von Satz 4.4b.
» Wir führen den Beweis nach der Standardprozedur.
0. Schritt: Beweis der Behauptung für g = 1A und A ∈ B.
Z
Z
Z
1A (x) dPX = PX (A) = P (X −1 (A)) =
X −1 (A) dP =
1A (X) dP .
Ω
R
Ω
1. Schritt: g á 0, wobei g Linearkombination einfacher Funktionen.
2. Schritt: g á 0. Verwende den Satz von der monotonen Konvergenz.
3. Schritt: g = g + − g − .
«
Wir können somit einen vollständigen Beweis von 4.4 b) geben.
» Sei X reelle Zufallsvariable und g = id, d.h. g(x) = x, so gilt
Z
Z
EX = E(g ◦ X) =
g dPX =
id dPX .
R
R
Die Verteilungsfunktion F erzeugt das Maß PX , somit gilt
Z
Z
id dPX =
x dF (x).
R
R
Besitzt X die Dichte f , d.h. F 0 = f L-f.ü., so gilt
Z
Z
x dF (x) =
xf (x) dλ(x). «
R
R
Wir betrachten einige Beispiele zu Satz 4.5
Bsp 9 Ein Schütze trifft einen Punkt des Intervalls [−1, 1] gemäß einer Gleichver-
1
teilung und erhält den Gewinn √ , wenn er den Punkt x trifft, wobei wir
gewichten.
|x|
1
0
Í∞
Gesucht ist der mittlere Gewinn des Schützen. Dazu konstruieren wir eine Zufallsvariable X, die den zufällig getroffenen Punkt angibt. X ist nach Voraussetzung
gleichverteilt, d.h. die zugehörige Dichte gegeben durch,


 1 , x ∈ [−1, 1],
2
f (x) =

0, sonst.
68
6. November 2011 13:28
Dichtefunktion und Zähldichte
f (x)
f
x
4.1
Dichtefunktion zu X.
Den mittleren Gewinn erhalten wir durch den Erwartungswert,
Z
Z
1
1
1
1
p
p
E(Gewinn) = E √ =
f (x) dx =
dx
2 [−1,1] |x|
X
R |x|
1
Z1
√ 1
√ dx = 2 x =
= 2. x
0
0
Bsp 10 Ein Punkt wird rein zufällig aus der Einheitskreisscheibe K von 0 ausge-
wählt. Wie groß ist der zufällige Abstand dieses Punktes von 0?
Um diese Fragestellung zu modellieren, konstruieren wir einen zweidimensionalen Zufallsvektor X = (X1 , X2 ), der auf K gleichverteilt ist. Die Dichtefunktion
f : R2 → R+ ist dann gegeben durch,


 1 , (x1 , x2 ) ∈ K,
π
f (x1 , x2 ) =

0, sonst.
q
Gesucht ist nun E X12 + X22 . Man arbeitet überlicherweise nicht auf Ω.
1. Weg (üblich). Anwendung des Transformationssatzes,
Z q
q
4.5
E X12 + X22 =
x12 + x22 f (x1 , x2 ) dλ(x1 , x2 )
R2
pol.koord.
=
1
π
2π
Z
Z1
ϕ=0 r =0
r · r dλ(r , ϕ) =
2
.
3
q
2. Weg. Betrachte die Zufallsvariable Y = X12 + X22 mit der zugehörigen Verteilungsfunktion
F (y) Í P [Y à y] =
6. November 2011 13:28



0,



1
2
 π πy



1,
falls y à 0,
2
= y , falls y ∈ (0, 1),
falls y á 1.
69
4-B
4
Erwartungswerte und Dichten
f
F
x
Dichtefunktion zu X.
4.2
F ist bis auf den Punkt y = 1 stetig differenzierbar, es gilt also
EY =
Z1
0
yF 0 (y) dy = 2
Z1
0
y 2 dy =
2
.
3
Welcher Weg (schneller) zum Ziel führt, hängt vom Problem ab. Zusatz Sei X ein n-dimensionaler Zufallsvektor auf (Ω, A, P ) und
g : (Rn , Bn ) → (R, B),
R
so existiert E(g ◦ X) genau dann, wenn Rn g dPX existiert. In diesem Fall gilt
Z
Z
E(g ◦ X) =
g ◦ X dP =
g dPX .
Rn
Ω
Besitzt X außerdem eine Dichtefunktion f : Rn → R+ , so gilt
Z
E(g ◦ X) =
g(x)f (x) dλ(x).
Rn
Insbesondere gilt für A ∈ Bn ,
Z
P [X ∈ A] = PX (A) =
Rn
1A (x)f (x) dx Î
Z
A
f (x) dx.
[Falls das entsprechende Riemann-Integral existiert, so stimmen Riemann- und LebesgueIntegral überein.]
Ï
» Der Beweis erfolgt wie im eindimensionalen Fall. Die letzte Behauptung folgt
sofort für g = 1A .
70
«
6. November 2011 13:28
Momente von Zufallsvariablen
R
4.4 Bemerkung. Das Integral A f (x) dx im Zusatz zu Satz 4.4 ist entspricht dem λ-
Maß der Ordinatenmenge
n
o
(x, y) ∈ Rn+1 : x ∈ A, 0 ≤ y ≤ f (x)
von f |A in Rn+1 . Ç
4-C Momente von Zufallsvariablen
4.5 Definition Sei X eine reelle Zufallsvariable und k ∈ N. Im Falle der Existenz heißt
EX k das k-te Moment von X und E(X − EX)k das k-te zentrale Moment von X.
Ist X integrierbar, dann heißt
V(X) Í E(X − EX)2
die Varianz von X und
q
σ (X) Í+ V(X)
die Streuung von X. Ï
Das erste Moment einer Zufallsvariablen haben wir bereits als Erwartungswert
kennengelernt. Die Varianz V(X), gibt die “Schwankung” der Zufallsvariablen X als
“mittleren Wert” ihrer quadratischen Abweichung von EX an.
Für die Existenz der Varianz ist es nicht notwendig, die quadratische Integrierbarkeit von X explizit zu fordern, da durch die Integrierbarkeit von X gesichert
ist, dass (X − EX)2 eine nicht-negative reelle Zufallsvariable und damit E(X − EX)2
definiert ist (wenn auch möglicherweise ∞).
4.2 Lemma Sei X eine reelle Zufallsvariable und 0 ≤ α < β < ∞. Dann gilt
E|X|β < ∞ ⇒ E|X|α < ∞.
Ï
n
o
» E |X|α à E max 1, |X|β
à 1 + E |X|β < ∞.
«
Da EX k genau dann existiert, wenn E |X|k existiert, impliziert die Existenz des
k-ten Moments somit die Existenz aller niedrigeren Momente EX l mit l à k.
4.6 Satz Sei X eine reelle integrierbare Zufallsvariable. Dann gilt
6. November 2011 13:28
71
4-C
4
Erwartungswerte und Dichten
a) V(X) = EX 2 − (EX)2 .
b) V(aX + b) = a2 V(X),
a, b ∈ R. Ï
Im Gegensatz zum Erwartungswert ist die Varianz ist also insbesondere keine
lineare Operation.
» Den Fall EX 2 = ∞ behandeln wir durch Stutzung von X in Höhe c und gehen
dann zum Grenzwert für c → ∞ über.
Betrachten wir also den Fall EX 2 < ∞.
a) V(X) = E(X−E(X))2 = E(X 2 −2(EX)X+(EX)2 ). Nach Voraussetzung ist EX < ∞
und somit,
V(X) = EX 2 − 2(EX)(EX) + (EX)2 = EX 2 − (EX)2 .
b) Unter Verwendung der Linearität von E erhalten wir sofort,
V(aX + b) = E(aX + b − E(aX + b))2 = E(aX + b − aEX − b)2
= a2 E(X − EX)2 = a2 V(X). «
Bsp 11 X sei b(n, p)-verteilt mit n ∈ N, p ∈ [0, 1]. V(x) = np(1 − p). Wir werden
dafür später einen einfachen Beweis gegeben können. Bsp 12 X sei π (λ)-verteilt mit λ > 0. Die Berechnung der Varianz erfolgt mittels
der Erzeugendenfunktion,
g(s) =
n
X
e−λ
k=0
n
X
g 00 (s) =
k=2
λk k
s = e−λ eλs ,
k!
k(k − 1)e−λ
λk k−2
s
= λ2 e−λ eλs ,
k!
s ∈ [0, 1].
Auswerten ergibt
g 00 (1) =
n
X
k=2
|
k(k − 1)e−λ
{z
4.5=E(X(X−1))
Somit erhalten wir,
λk
= λ2 .
k!
}
EX 2 = E(X(X − 1)) + EX = λ2 + λ,
VX = EX 2 − (EX)2 = λ2 + λ − λ2 = λ. 72
6. November 2011 13:28
Momente von Zufallsvariablen
1
Bsp 13 X sei N(a, σ 2 )-verteilt mit a ∈ R, σ > 0, dann ist Y = σ (X − a) N(0, 1)
verteilt. Wir können uns also auf den Fall a = 0, σ = 1 zurückziehen, wobei man
leicht zeigen kann, dass E |X|n < ∞, ∀ n ∈ N.
Weiterhin gilt
EX 2k+1 = 0,
k ∈ N0 ,
da der Integrand eine ungerade Funktion ist und daher das Integral verschwindet.
Insbesondere ist EX = 0.
Für geraden Exponenten erhalten wir
Z
k2
1
4.5
EX 2k = √
x 2k e− 2 dx
2π R
part. int.
=
∞
Z∞
x2 x2
1
1
2
2
2k+1
−
2
√
x
e
x 2k+1 (−x)e− 2 dx
−√
2k
+
1
2π 2k + 1
2π
0
|
{z
}
0
1
2
= √
2π 2k + 1
Z∞
=0
x 2k+2 e−
0
x2
2
dx =
1
EX 2k+2 .
2k + 1
Somit gilt für jedes k ∈ N0 , EX 2k+2 = (2k + 1)EX 2k . Insbesondere erhalten wir
EX 0 = E1 = 1
⇒ EX 2 = 1
⇒ V(X) = 1.
Für allgemeines N(a, σ 2 ) verteiltes X erhalten wir somit,
1
E
(X − a) = 0 ⇒ EX = a,
σ
1
V
(X − a) = 1 ⇒ VX = σ 2 . σ
Die folgenden Ungleichungen haben zahlreiche Anwendungen und gehören zu
den wichtigsten Hilfsmitteln der Stochastik.
4.7 Satz Sei X eine reelle Zufallsvariable auf einem W-Raum (Ω, A, P ). Dann gilt für
jedes ε > 0, r > 0:
P [|X| ≥ ε] ≤ ε−r E|X|r ,
Markoffsche Ungleichung.
Für r = 2 erhält man die sog. Tschebyschevsche Ungleichung, die bei integrierba-
rem X auch in der Variante
P [|X − EX| ≥ ε] ≤ ε−2 V(X)
angegeben wird. Ï
6. November 2011 13:28
73
4-C
4
Erwartungswerte und Dichten
» Zum Beweis verwenden wir eine Zufallsvariable Y , die X “stutzt”,


1, falls |X| á ε,
Y Í
0, sonst.

Offensichtlich ist Y à
|X|r
εr
, d.h. EY à ε−r E |X|r , wobei EY = P [|X| á ε].
«
Als Anwendung beweisen wir das Bernoullische schwache Gesetz der großen
Zahlen.
Bsp 14 Sei Yn eine Zufallsvariable, die die Anzahl der Erfolge in n Bernoulli-Versuchen
mit jeweiliger Erfolgswahrscheinlichkeit p ∈ [0, 1] (fest) angibt. Yn ist also b(n, p)verteilt und es gilt
EYn = np,
VYn = np(1 − p).
Die relative Häufigkeit der Anzahl der Erfolge ist gegeben durch
Sei nun ε > 0 beliebig aber fest, so gilt
Yn
.
n
V Yn
Yn
1
p(1 − p)
n
P = 2 2 V(Yn ) =
→ 0,
n − p á ε à
ε2
ε n
ε2 n
n → ∞.
Zusammenfassend erhalten wir das Bernoullische schwache Gesetz der großen
Zahlen,
Yn
∀ε>0:P n − p á ε → 0,
n → ∞.
Eines der Ziele dieser Vorlesung ist die Verallgemeinerung dieses Gesetzes auf
das starke Kolmogorovsche Gesetz der großen Zahlen in Kapitel 9. 74
6. November 2011 13:28
5-
5 Unabhängigkeit
Es ist eine zentrale Fragestellung der Wahrscheinlichkeitstheorie, inwiefern sich zufällige Experimente gegenseitig beeinflussen. In 1-D haben wir bereits die Bedingte
Wahrscheinlichkeit definiert und festgestellt, dass sich Zufallsexperimente tatsächlich beeinflussen können und damit die Wahrscheinlichkeit für das Eintreten eines
Ereignises vom Eintreten eines vorangegangen Ereignisses abhängen kann.
In diesem Kapitel wollen wir die Eigenschaften von unabhängigen Ereignissen
und insbesondere unabhängigen Zufallsvariablen studieren. Solche Zufallsvariablen haben viele angenehme Eigenschaften und lassen sich besonders “leicht” handhaben — Die wirklich interessanten Experimente sind jedoch gerade nicht unabhängig.
6. November 2011 13:28
75
5
Unabhängigkeit
5-A Unabhängige Ereignisse und Zufallsvariablen
Wir betrachten einige Beispiele zum Einstieg.
Bsp 1 Zwei Ausspielungen eines Würfels “ohne gegenseitige Beeinflussung”.
Betrachte dazu einen laplaceschen W-Raum (Ω, A, P ) mit Ω = {1, . . . , 6}2 und
A = P(Ω).
Sei A das Ereignis, dass im ersten Wurf eine 1 erzielt wird, B das Ereignis, dass
im zweiten Wurf eine gerade Zahl erscheint. Einfaches Abzählen ergibt,
6
1
= ,
36
6
18
1
P (B) =
= .
36
2
P (A) =
Die Wahrscheinlichkeit, dass beide Ereignisse gleichzeitig eintreten ist,
P (A ∩ B) =
3
1
1 1
=
= · = P (A) · P (B).
36
12
6 2
Eine solche Situation (P (A ∩ B) = P (A) · P (B)) ist typisch bei Ereignissen, bei denen
es physikalisch keine gegenseite Beeinflussung gibt. Wir werden den Fall, dass die Wahrscheinlichkeit des gemeinsamen Eintretens
mit dem Produkt der einzelnen Wahrscheinlichkeiten übereinstimmt als Grundlage für die Definition der stochastischen Unabhängigkeit verwenden. Es ist wichtig,
zwischen “stochastisch unabhängig” und “physikalisch unabhängig” zu unterscheiden, denn im Allgemeinen lassen sich aus der stochastischen Unabhänigkeit keine
Rückschlüsse auf die physikalische machen.
Sei (Ω, A, P ) ein W-Raum, A und B ∈ A mit P (B) > 0, dann gilt
P (A ∩ B) = P (A | B)P (B).
Falls A von B “unabhängig” ist, muss gelten P (A | B) = P (A) und damit
P (A ∩ B) = P (A)P (B).
5.1 Definition Sei (Ω, A, P ) ein W-Raum. Eine Familie {Ai : i ∈ I} von Ereignissen Ai ∈
A heißt unabhängig (ausführlich: stochastisch unabhängig bzgl. P ), falls für jede
nichtleere endliche Menge K ⊂ I gilt


\
Y
P
Ak  =
P (Ak ). Ï
k∈K
76
k∈K
6. November 2011 13:28
Unabhängige Ereignisse und Zufallsvariablen
In dieser Definition werden keine Anforderungen an die Indexmenge I gemacht,
unendliche (z.B. überabzählbare) Indexmengen sind also durchaus zugelassen.
Im Folgenden sei mit “unabhängig” stets stochastisch unabhängig gemeint. Auf
logische oder physikalische Unabhängigkeit lassen sich aus der stochastischen Unabhängigkeit im Allgemeinen keine Rückschlüsse machen.
5.2 Definition Sei (Ω, A, P ) ein W-Raum. Eine Familie {Xi : i ∈ I} von (Ωi , Ai ) - Zu-
fallsvariablen auf (Ω, A, P ) heißt unabhängig, wenn gilt: Für jede nichtleere endli-
che Indexmenge {i1 , . . . , in } ⊂ I und jede Wahl von Mengen Aiν ∈ Aiν (ν = 1, . . . , n)
ist
n
Y
P Xi1 ∈ Ai1 , . . . , Xin ∈ Ain =
P Xiν ∈ Aiν .
ν=1
Sprechweise: Unabhängigkeit der Zufallsvariablen statt Unabhängigkeit der Familie
der Zufallsvariablen. Ï
Für die Unabhängigkeit von Zufallsvariablen ist es somit nicht notwendig explizit zu fordern, dass alle Zufallsvariablen den selben Wertebereich teilen. Die Voraussetzung, dass alle auf dem selben W-Raum (Ω, A, P ) definiert sind, lässt sich
jedoch nicht abschwächen.
5.1 Lemma Eine Familie von Ereignissen ist genau dann unabhängig, wenn jede endli-
che Teilfamilie unabhängig ist. Entsprechendes gilt für Zufallsvariablen. Ï
» Die Aussage folgt direkt aus den Definitionen 5.1 und 5.2.
«
5.1 Bemerkung zu Definition 5.1 bzw. Definition 5.2. Die paarweise Unabhängigkeit im-
pliziert im Allgemeinen nicht die Unabhängigkeit. Ç
» Beweis durch Gegenbeispiel. Betrachte zwei Ausspielungen eines echten Würfels
ohne gegenseitige Beeinflussung. Dieses Experiment können wir durch einen Laplaceschen W-Raum (Ω, A, P ) mit |Ω| = 36 modellieren.
Sei Ai das Ereignis, dass im i-ten Wurf eine ungerade Zahl auftritt P (Ai ) =
B das Ereignis, dass die Summe der Augenzahlen ungerade ist P (B) =
P (A1 ∩ A2 ) =
9
1
= ,
36
4
P (A1 ∩ B) =
9
1
= ,
36
4
P (A2 ∩ B) =
1
2.
1
2
und
9
1
= ,
36
4
somit sind die Ereignisse paarweise unabhängig aber
P (A1 ∩ A2 ∩ B) = P (∅) = 0 ≠
6. November 2011 13:28
111
1
= . «
222
8
77
5-A
5
Unabhängigkeit
5.2 Bemerkung. Sei (Ω, A, P ) ein W-Raum und Ai ∈ A, i ∈ I Ereignisse, mit (reellen)
Zufallsvariablen und Indikatorfunktionen 1Ai auf (Ω, A, P ).
{Ai : i ∈ I} unabhängig a 1Ai : i ∈ I unabhängig .
Ç
Unabhängige Zufallsvariablen
5.1 Satz Gegeben seien (Ωi , Ai ) - Zufallsvariablen Xi auf einem W-Raum (Ω, A, P ) und
gi : (Ωi , Ai ) → (Ωi0 , A0i ), i ∈ I Abbildungen. Dann gilt:
{Xi : i ∈ I} unabhängig ⇒ gi ◦ Xi : i ∈ I unabhängig
Ï
» Aufgrund von Lemma 5.1 genügt es den Beweis auf einer endlichen Indexmenge
I = {1, . . . , n} zu führen.
h
i
P g1 ◦ X1 ∈ A01 , . . . , gn ◦ Xn ∈ A0n = P ∀ i ∈ {1, . . . , n} : Xi ∈ gi−1 (A0i )
h
i
h
i
Y
Y
P gi ◦ Xi ∈ A0i ,
P Xi ∈ gi−1 (A0i ) =
=
i=1,...,n
i=1,...,n
da die Xi nach Voraussetzung unabhängig sind.
«
also die Zufallsvariablen {Xi } unabhängig, so sind es insbesondere auch
n Sind
o p
Xi2 ,
Xi , . . .
Bsp 2 Betrachte erneut zwei Ausspielungen eines echten Würfels ohne gegenseitige
Beeinflussung mit W-Raum (Ω, A, P ).
1 , X2 die Augenzahl im 1. bzw. 2. Wurf. Da {X1 , X2 } unabhängig, ist auch
n Sei Xo
3
2
X1 , X2 unabhängig. 5.2 Satz Sei eine unabhängige Familie {Xi : i ∈ I} reeller Zufallsvariablen auf einem
P
W-Raum
n (Ω, A, P )ound eine Zerlegung I = j∈J Ij mit |Ij | < ∞ gegeben. Das |Ij |Tupel Xk : k ∈ Ij sei mit Yj bezeichnet für j ∈ J.
n
o
a) Die Familie Yj : j ∈ J ist unabhängig.
b) Sind Abbildungen gj : (R|Ij | , B|Ij | ) → (R, B), j ∈ J, gegeben, so ist die Familie
n
o
gj ◦ Yj : j ∈ J unabhängig. Ï
78
6. November 2011 13:28
Unabhängige Ereignisse und Zufallsvariablen
»
a) Beweisidee. Betrachte den Spezialfall Y1 = X1 , Y2 = (X2 , X3 ). Nach Annahme
gilt, dass die Xi unabhängige reelle Zufallsvariablen sind. Zu zeigen ist nun für
B1 ∈ B, B2 ∈ B2
P [Y1 ∈ B1 , Y2 ∈ B2 ] = P [Y1 ∈ B1 ] · P [Y2 ∈ B2 ].
Dabei genügt es nach Satz 1.4, die Aussage auf Intervallen I1 ∈ B1 bzw. Rechtecken I2 × I3 ∈ B2 nachzuweisen. Also
P [X1 ∈ I1 , (X2 , X3 ) ∈ I2 × I3 ] = P [X1 ∈ I1 , X2 ∈ I2 , X3 ∈ I3 ]
= P [X1 ∈ I1 ] P [X2 ∈ I2 , X3 ∈ I3 ]
= P [X1 ∈ I1 ] P [(X2 , X3 ) ∈ I2 × I3 ] .
b) Anwendung von Satz 5.1.
«
5.3 Bemerkung. Satz 5.2 lässt sich auf (Ωi , Ai ) - Zufallsvariablen und Abbildungen
gj :
N
i∈Ij (Ωi , Ai )
→ (Ωj0 , A0j ) verallgemeinern.
Ç
5.3 Satz Seien Xi (i = 1, . . . , n) reelle Zufallsvariablen auf einem W-Raum (Ω, A, P ) mit
Verteilungsfunktionen Fi . Der Zufallsvektor X Í (X1 , . . . , Xn ) habe die n-dimensionale
Verteilungsfunktion F.
a) {X1 , . . . , Xn } ist genau dann unabhängig, wenn gilt
∀ (x1 , . . . , xn ) ∈ Rn : F (x1 , . . . , xn ) =
n
Y
Fi (xi )
(*)
i=1
b) Existieren zu Fi (i = 1, . . . , n) bzw. F , Dichten fi bzw. f , dann gilt
(*) a f (x1 , . . . , xn ) =
»
n
Y
i=1
fi (xi ) für λ-fast alle (x1 , . . . , xn ) ∈ Rn .
Ï
a) Seien {X1 , . . . , Xn } unabhängig, so ist Definition 5.2 äquivalent zu
a ∀ B1 , . . . , B n ∈ B
:
a ∀ x1 , . . . , x n ∈ R
:
a ∀ x1 , . . . , x n ∈ R
:
6. November 2011 13:28
P [X1 ∈ B1 , . . . , Xn ∈ Bn ]
= P [X1 ∈ B1 ] · · · P [Xn ∈ Bn ],
P [X1 à x1 , . . . , Xn à xn ]
= P [X1 à x1 ] · · · P [Xn à xn ]
F (x1 , . . . , xn ) = F1 (x1 ) . . . Fn (xn ).
«
79
5-A
5
Unabhängigkeit
Unabhänige Zufallsvariablen haben somit die angenehme Eigenschaft, dass die
gemeinsame Dichte (die Dichte der gemeinsamen Verteilung) dem Produkt der
Randverteilungsdichten (der Dichten der Randverteilungen) entspricht. Insbesondere ist für unabhänige Zufallsvariablen die gemeinsame Verteilung eindeutig durch
die Randverteilungen bestimmt.
Bsp 3 Seien X, Y unabhängig, wobei X exp(λ) und Y exp(τ) verteilt, so besitzen sie
die Dichten
fX (x) = λe−λx ,
fY (y) = τe−τx .
Die gemeinsame Dichte ist nach Satz 5.3 gegeben durch
f (x, y) = λτe−λx e−τy .
Betrachten wir andererseits die gemeinsame Verteilung, so gilt
!
F (s, t) = P [X à s, Y à t] = P [X à s]P [Y à t]
da X und Y unabhängig. Weiterhin ist
P [X à s]P [Y à t] = FX (s)FY (t) =
=
Zs Zt
0
0
Z s
0
−λx
λe
dx
Zt
0
−τy
τe
dy
!
−λx −τy
|λτe {z e } dx dy . f (x,y)
5.4 Satz Seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen auf einem W-Raum (Ω, A, P )
mit endlichen Erwartungswerten. Dann existiert
E(X1 · . . . · Xn ) = EX1 · . . . · EXn .
— Entsprechendes gilt für komplexe Zufallsvariablen, wobei wir C mit dem R2 identifizieren und komplexe Zufallsvariablen als Xk : (Ω, A) → (R2 , B2 ) mit
EXk Í E Re Xk + iE Im Xk
(k = 1, . . . , n).
Ï
» Wir beschränken uns zunächst auf reelle Zufallsvariablen. Mit Satz 5.2 ist eine Reduktion auf den Fall n = 2 möglich. Zu zeigen ist also, dass E(X1 X2 ) =
(EX1 )(EX2 ).
80
6. November 2011 13:28
Unabhängige Ereignisse und Zufallsvariablen
Ohne Einschränkung sind X1 , X2 á 0, ansonsten betrachten wir eine Zerlegung in
X1 = X1,+ − X1,− . Mit Hilfe des des Satzes von der monotonen Konvergenz können
wir uns auf einfache Funktionen der Form
x,
n
X
λj 1Aj (x)
j=1
zurückziehen. Wir beweisen die Aussage nun für Indikatorfunktionen X1 = 1A1 ,
X2 = 1A2 mit A1 , A2 ∈ A.
E(X1 X2 ) = E(1A1 1A2 ) = E(1A1 ∩A2 ) = P (A1 ∩ A2 ) = P (1A1 = 1, 1A2 = 1)
= P (1A1 = 1)P (1A2 = 1) = P (A1 )P (A2 ) = (E1A1 )(E1A2 )
= (EX1 )(EX2 ). «
Der Erwartungswert ist somit linear und vertauscht mit der Multiplikation.
5.5 Satz von Bienaymé Seien X1 , . . . , Xn paarweise unabhängige reelle Zufallsvaria-
blen mit endlichen Erwartungswerten. Dann gilt


n
n
X
X

V(Xj ) . Ï
Xj  =
V
j=1
j=1
» Addieren wir zum Erwartungswert eine Konstante, ändert sich die Varianz nicht,
wir können also ohne Einschränkung annehmen EXj = 0 (j = 1, . . . , n).

V
n
X
j=1


Xj  = E 
=
n
X
i=1
n
X
j=1
2
Xj  =
EXi2 + 2
X
i<j
|
n
X
i=1
EXi2 + 2
X
E(Xi )E(Xj ) =
{z
=0
}
E(Xi Xj )
i<j
n
X
i=1
EXi2 =
n
X
VXi . «
i=1
Für unabhängige Zufallsvariablen vertauscht die Varianz mit endlichen Summen,
wobei für reelle Konstanten a, b ∈ R und eine Zufallsvariable X gilt
V(aX + b) = a2 V(X).
Dies ist kein Widerspruch, denn setzen wir Y ≡ b, so ist Y Zufallsvariable und
EY = b. Somit ist VY = EY 2 − (EY )2 = b2 − b2 = 0, also
V(aX + b) = V(aX + Y ) = V(aX) + V(Y ) = a2 V(X).
6. November 2011 13:28
81
5-A
5
Unabhängigkeit
5.4 Bemerkung. In Satz 5.5 genügt statt der Unabhängigkeit von {X1 , . . . , Xn } die sog.
paarweise Unkorreliertheit zu fordern, d.h.
∀ j ≠ k : E((Xj − EXj )(Xk − EXk )) = 0.
Dies ist tatsächlich eine schwächere Voraussetzung, denn sind X und Y unabhängig, so gilt
E((X − EX)(Y − EY )) = E(X · Y − (EX)Y − (EY )X + (EX)(EY ))
= E(X · Y ) − (EX)(EY ) − (EY )(EX) + (EX)(EY ))
= E(X)(EY ) − (EX)(EY ) = 0.
Ç
Faltungen
Sind X, Y zwei unabhängige reelle Zufallsvariablen auf einem W-Raum (Ω, A, P )
mit Verteilungen PX , PY , so ist nach Satz 5.3 und Satz 2.1 die Verteilung P(X,Y ) des
2-dimensionalen Zufallsvektors durch PX und PY eindeutig festgelegt.
Setzen wir g : (x, y) , x + y, so ist g messbar und damit auch die Verteilung
PX+Y = Pg◦(X,Y ) von X + Y eindeutig durch PX und PY festgelegt.
Wie ermittelt man nun diese Verteilung?
5.3 Definition Sind X, Y zwei unabhängige reelle Zufallsvariablen auf einem W-Raum
(Ω, A, P ) mit Verteilungen PX , PY , so wird die Verteilung PX+Y Î PX ∗ PY der Zufallsvariable X + Y als Faltung von PX und PY bezeichnet.
Ï
5.5 Bemerkung. Die Faltungsoperation ist kommutativ und assoziativ.
Ç
5.6 Satz Seien X, Y zwei unabhängige reelle Zufallsvariablen.
a) Besitzen X und Y Dichten f bzw. g, so besitzt X + Y eine [als Faltung von f
und g bezeichnete] Dichte h mit
Z
Z
h(t) =
f (t − y)g(y) dy =
g(t − x)f (x) dx,
R
R
t ∈ R.
b) Besitzen X und Y Zähldichten (pk )k∈N0 bzw. (qk )k∈N0 , so besitzt X + Y eine
[als Faltung von (pk ) und (qk ) bezeichnete] Zähldichte (rk )k∈N0 mit
rk =
82
k
X
j=0
pk−j qj =
k
X
i=0
qk−i pi , k ∈ N0 .
Ï
6. November 2011 13:28
Unabhängige Ereignisse und Zufallsvariablen
Den Beweis verschieben wir auf das nächste Kapitel, denn mit Hilfe der charakteristischen Funktionen werden wir über die für einen einfachen Beweis nötigen
Mittel verfügen.
Bsp 4 Sei X1 eine b(n1 , p)-verteilte und X2 eine b(n2 , p)-verteilte Zufallsvariable.
Sind X1 und X2 unabhängig, dann ist X1 + X2 eine b(n1 + n2 , p)-verteilte Zufalls-
variable.
» Einfacher Beweis. Betrachte n1 + n2 Bernoulli-Versuche mit jeweiliger Erfolgs-
wahrscheinlichkeit p. Sei nun Y1 die Zufallsvariable, die die Anzahl der Erfolge
der ersten n1 Versuche angibt und Y2 die Zufallsvariable, die die Anzahl der Erfolge in den letzten n2 Versuchen angibt. Somit sind Y1 und Y2 unabhängig und
Y1 + Y2 gibt die Anzahl der Erfolge in n1 + n2 Bernoulli-Versuchen an.
Scharfes Hinsehen liefert PX1 = PY1 und PX2 = PY2 , dann gilt auch
PX1 +X2 = PY1 +Y2 = b(n1 + n2 , p). «
Somit folgt für unabhängige Zufallsvariablen X1 , . . . , Xn , die b(1, p)-verteilt sind,
dass X1 + . . . + Xn eine b(n, p)-verteilte Zufallsvariable ist.
Bsp 5 Wir können jetzt einen einfachen Beweis dafür geben, dass eine b(n, p)-
verteilte Zufallsvariable die Varianz np(1 − p) besitzt. Ohne Einschränkung lässt
sich diese Zufallsvariable als Summe von n unabhängigen b(1, p)-verteilten Zufallsvariablen X1 , . . . , Xn darstellen,
5.5
V(X1 + . . . + Xn ) = nV(X1 ) = np(1 − p),
da V(X1 ) = EX12 − (EX1 )2 = 02 · (1 − p) + 12 · p − p 2 = p(1 − p). Die Unabhängigkeit der Zufallsvariablen ist für die Aussage des Satzes 5.6 notwendig, denn er basiert darauf, dass für unabhängige Zufallsvariablen die gemeinsame Dichte das Produkt der Randverteilungsdichten ist. Für allgemeine (nicht unabhängige) Zufallsvariablen wird diese Aussage und damit der Satz falsch.
5.6 Bemerkung (Satz von Andersen und Jessen). Gegeben seien Messräume (Ωi , Ai ) und
W-Maße Qi auf Ai , i ∈ I. Dann existiert ein W-Raum (Ω, A, P ) und (Ωi , Ai )-
Zufallsvariablen Xi auf (Ω, A, P ), i ∈ I, mit Unabhängigkeit von {Xi : i ∈ I} und
PXi = Qi . Ç
6. November 2011 13:28
83
5-B
5
Unabhängigkeit
5-B Null-Eins-Gesetz
In Kapitel 1-B haben wir das 1. Lemma von Borel und Cantelli bewiesen, welches für
einen W-Raum (Ω, A, P ) und An ∈ A die Aussage macht
n
X
P (An ) < ∞ ⇒ P (lim sup An ) = 0.
n=1
Das 2. Lemma von Borel und Cantelli ist für unabhängige Ereignisse das Gegenstück zu dieser Aussage.
5.7 2. Lemma von Borel und Cantelli Sei (Ω, A, P ) ein W-Raum. Die Familie
{An : n ∈ N} von Ereignissen (∈ A) sei unabhängig. Dann gilt:
∞
X
P (An ) = ∞ ⇒ P (lim sup An ) = 1.
n=1
In diesem Fall tritt An P-f.s. unendlich oft auf. Ï
» Sei B Í lim supn An Í
T∞
n=1
S
kán
Ak . Zu zeigen ist nun, dass P (B) = 1, d.h.
P (B c ) = 0. Mit den De-Morganschen Regeln folgt,

P (B c ) = P 
∞ \
[
n=1 kán

Ack  .
Aufgrund der σ -Additivität genügt es nun zu zeigen, dass die Mengen
P -Maß Null haben.
T
kán
Ack das
Sei also n ∈ N fest.
N
\
Ack ↓
k=n
\
kán
Ack ,
N → ∞.
Somit genügt es wegen der Stetigkeit der W-Maße von oben zu zeigen, dass

P
N
\
k=n

Ack  ↓ 0.
Aufgrund der Unabhängigkeit der A1 , A2 , . . . gilt

P
N
\
k=n
84

Ack  =
N
Y
k=n
N
Y
P Ack =
(1 − P (Ak )).
k=n
6. November 2011 13:28
Null-Eins-Gesetz
e−x
x
1−x
5.1
e−x mit Tangente 1 − x in (0, 1).
Eine geometrische Überlegung zeigt 1 − x à e−x (siehe Skizze), also gilt auch
1 − P (Ak ) à e−P (Ak ) und somit


N
P
N
\
P (Ak )
−
c

k=n
→ 0,
Ak à e
P
k=n
N → ∞. «
Korollar Sind die Ereignisse A1 , A2 , . . . unabhängig, gilt
P (lim sup An ) = 0 oder 1,
abhängig davon ob
X
X
P (An ) < ∞ oder
P (An ) = ∞.
ná1
Ï
ná1
Die Voraussetzung der Unabhängigkeit der (An ) im 2. Lemma von Borel-Cantelli
ist notwendig, damit die Aussage gilt, wie folgendes Beispiel zeigt.
1
Bsp 6 Sei A ∈ A mit P (A) = 2 und ∀ n ∈ N : An = A. Dann gilt lim sup An = A
P
und
ná1
P (An ) = ∞. Dennoch ist
P (lim sup AN ) = P (A) =
1
. 2
Bsp 7 Betrachte eine unabhängige Folge von Versuchen An mit Misserfolgswahr1
scheinlichkeit n . Da
X
P (An ) = ∞,
ná1
6. November 2011 13:28
85
5-B
5
Unabhängigkeit
folgt, dass die Wahrscheinlichkeit für unendlich viele Misserfolge gleich 1 ist (obwohl P (An ) → 0).
5.4 Definition Sei (Ω, A) ein Messraum und An ⊂ A σ -Algebren für n ∈ N. Mit

Tn Í F 
∞
[
k=n

Ak 
bezeichnen wir die von An , An+1 , . . . erzeugte σ -Algebra.
T∞ Í
∞
\
n=1
Tn
heißt die σ -Algebra der terminalen Ereignisse (tail events) der Folge (An ). Ï
−1
Bsp 8 Seien Xn : (Ω, A) → (R, B) und An Í F (Xn ) Í Xn
(B) für n ∈ N. Tn ist
somit die von den Ereignissen, die lediglich von Xn , Xn+1 , . . . abhängen, erzeugte
σ -Algebra.
a.) (Xn ) konvergiert ∈ T∞ , denn es gilt
(Xn ) konvergiert = lim Xn = X ∈ R = lim |Xn − X| = 0
n→∞
n→∞
= [ ∀ ε > 0 ∃ N ∈ N ∀ n á N : |Xn − X| < ε]
Q liegt dicht in R, wir können uns also für die Wahl von ε auf Q zurückziehen,
[ ∀ ε ∈ Q > 0 ∃ N ∈ N ∀ n á N : |Xn − X| < ε]
da alle ε > 1 uninteressant sind, können wir auch schreiben
1
∀ k ∈ N ∃ N ∈ N ∀ n á N : |Xn − X| <
k
\ 1
=
∃ N ∈ N ∀ n á N : |Xn − X| <
k
k∈N
und da es auf endlich viele N nicht ankommt,
\ [ 1
=
∀ n á N : |Xn − X| <
k
k∈N Nák
"
#
\ [
1
=
sup |Xn − X| <
.
k
k∈N Nák náN
|
{z
}
∈Tk
Also handelt es sich um ein terminales Ereignis.
86
6. November 2011 13:28
Null-Eins-Gesetz
b.)
P
n
Xn konvergiert ∈ T∞ , denn

"
# 
X
X

Xn konvergiert ,
Xn konvergiert =
n
nák
da es auf endlich viele nicht ankommt also
P
n
∀k∈N
Xn konvergiert ∈ Tk für k ∈ N.
Bsp 9 Sei (Ω, A) ein Messraum, An ∈ A Ereignisse (n ∈ N) und weiterhin
An Í , An , Acn , Ω (n ∈ N).
lim sup An Í
n→∞
lim inf An Í
n→∞
∞ [
∞
\
n=1 k=n
∞ \
∞
[
n=1 k=n
Ak = {ω ∈ Ω : ω ∈ An für unendliche viele n} ∈ T∞ ,
Ak = {ω ∈ Ω : ω ∈ An von einem Index an} ∈ T∞ . 5.8 Null-Eins-Gesetz von Kolmogorov Sei (Ω, A, P ) ein W-Raum und (An ) eine unab-
hängige Folge von σ -Algebren An ⊂ A. Dann gilt für jedes terminale Ereignis A
von (An ) entweder P (A) = 0 oder P (A) = 1. Ï
Für den Beweis benötigen wir das folgende Resultat.
Lemma Seien E1 und E2 schnittstabile Mengensysteme von Ereignissen, d.h.
A, B ∈ E1 , E2 ⇒ A ∩ B ∈ E1 , E2 .
Sind E1 und E2 unabhängig, so sind es auch F (E1 ) und F (E2 ). Ï
» Den Beweis findet man z.B. in [Wengenroth].
«
» Beweis von Satz 5.8. Sei also A ∈ T∞ . Es genügt zu zeigen, dass A von sich selbst
unabhängig ist, d.h.
P (A ∩ A) = P (A)P (A),
denn dann ist P (A) = 0 oder 1. Betrachte dazu die Mengen


[
Tn+1 = F 
Ak  ,

Dn Í F 
kán+1
[
kàn
6. November 2011 13:28

Ak  ,
87
5-B
5
Unabhängigkeit
und wende das vorige Lemma an, so sind Tn+1 und Dn unabhängig.
Weiterhin sind aus dem selben Grund T∞ und Dn unabhängig für alle n ∈ N.
Daher ist auch

G=F
[
n∈N

Dn 
unabhängig von T∞ , wobei gerade G = T1 ⊃ T∞ . Somit ist T∞ unabhängig von
jeder Teilmenge von T1 insbesondere von sich selbst. Somit folgt die Behauptung.
«
Wir betrachten nun einige Anwendungen des 0-1-Gesetzes.
Bsp 10 Sei {An : n ∈ N} unabhängig, An Í ∅, An , Acn , Ω , somit sind
A1 , A2 , . . .
unabhängig. Mit dem 0-1-Gesetz gilt daher,




P
An 
= 0 oder 1.
|lim sup
{z
}
∈T∞
Diese Aussage erhalten wir auch mit dem 1. und 2. Lemma von Borel und Cantelli.
Insofern kann man das 0-1-Gesetz als Verallgemeinerung dieser Lemmata betrachten. Die Aussagen von Borel und Cantelli liefern jedoch darüber hinaus noch ein
Kriterium, wann die Voraussetzungen des 0-1-Gesetzes erfüllt sind.
Bsp 11 Sei {Xn : n ∈ N} eine Folge reeller unabhängiger Zufallsvariablen, dann gilt
P (Xn ) konvergiert = 0 oder 1,
"
#
X
P
Xn konvergiert = 0 oder 1.
n
88
6. November 2011 13:28
6-A
6 Erzeugende und
charakteristische Funktionen,
Faltungen
Die erzeugenden und charakteristischen Funktionen sind ein methodisches Hilfsmittel zur Untersuchung von W-Maßen.
Bisher haben wir gesehen, dass Verteilungen und Verteilungsfunktionen manchmal schwierig “zu fassen” sind. Erzeugende und charakteristische Funktionen ermöglichen den Übergang von Verteilungen definiert auf einer σ -Algebra zu Funktionen definiert auf R. Dadurch erhalten wir die Möglichkeit, Konzepte aus der
Analysis wie Integration, Differentiation und Grenzwertbildung anzuwenden.
6-A Erzeugende Funktionen
6.1 Definition Es sei µ : B → R ein auf N0 konzentriertes W-Maß mit Zähldichte (bk )k∈N0
bzw. X eine reelle Zufallsvariable auf einem W-Raum (Ω, A, P ), deren Verteilung PX
auf N0 konzentriert ist, mit Zähldichte (bk )k∈N0 . Dann heißt die auf [0, 1] (oder auch
{s ∈ C | |s| ≤ 1}) definierte Funktion g mit
P


µ({k})s k ,


∞

X
g(s) Í
bk s k = bzw.



k=0

P P [X = k]s k = P PX ({k})s k = Es X .
die erzeugende Funktion von µ bzw. X. Ï
6.1 Bemerkung. In Definition 6.1 gilt |g(s)| ≤
P
sich bei (bk ) um eine Zähldichte handelt. Ç
6. November 2011 13:28
bk |s|k ≤
P
bk = 1 für |s| ≤ 1, da es
89
6
Erzeugende und charakteristische Funktionen, Faltungen
Bei der erzeugenden Funktion handelt es sich also um die formale Potenzreihe
g(s) =
∞
X
bk s k ,
k=0
die nach obiger Bemerkung auf dem Intervall [0, 1] bzw. der abgeschlossenen Kreisscheibe {s ∈ C : |s| à 1} absolut und gleichmäßig bezüglich s konvergiert.
Von besonderem Interesse sind die erzeugenden Funktionen, die neben der Dar-
stellung als Potenzreihe auch über eine explizite Darstellung verfügen, denn dann
lassen sich g(s), g 0 (s), . . . meißt leicht berechnen und man erspart sich kombinatorische Tricks, um die Reihen auf eine Form mit bekanntem Wert zu bringen.
6.2 Bemerkungen.
a. Die Binomialverteilung b(n, p) mit n ∈ N und p ∈ [0, 1] hat -
mit q Í 1 − p - die erzeugende Funktion g,
g(s) Í
∞
X
k=0
!
!
n
X
n k
n
n−k k
p (1 − p)
s =
(p · s)k (1 − p)n−k
k
k
k=0
= (p · s + (1 − p))n = (ps + q)n .
Die Reihe lässt sich im Gegensatz zu dem Ausdruck (ps + q)n nur mit einigem
an Aufwand direkt berechnen.
b. Die Poissonverteilung π (λ) mit λ ∈ (0, ∞) hat die erzeugende Funktion g mit
g(s) =
∞
X
k=0
e−λ
∞
X
λk k
(λs)k
s = e−λ
= e−λ esλ = e−λ(1−s) .
e−λ
k!
k!
k=0
c. Als negative Binomialverteilung oder Pascal-Verteilung Nb(r , p) mit Parametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder auch B) bezeichnet, das auf
N0 konzentriert ist und — mit q Í 1 − p — die Zähldichte
k → Nb(r , p; k) Í
!
r +k−1 r k
p q , k ∈ N0
k
besitzt. Speziell wird Nb(1, p) — mit Zähldichte
k → p(1 − p)k , k ∈ N0
— als geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet.
90
6. November 2011 13:28
Erzeugende Funktionen
Ist (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten Zufallsvariablen, so
ist die erweitert-reelle Zufallsvariable


X Í inf n ∈ N :

n
X
k=1
Xk = r



− r,
mit der Konvention inf Í ∞, Nb(r , p)-verteilt. X gibt die Anzahl der Miss-
erfolge bis zum r-ten Erfolg bei der zu (Xn ) gehörigen Folge von BernoulliVersuchen an.
EX =
rq
rq
, V(X) = 2 .
p
p
Nb(r , p) hat die erzeugende Funktion g mit g(s) = p r (1 − qs)−r . Ç
6.1 Eindeutigkeitssatz für erzeugende Funktionen Besitzen zwei auf B definierte, aber
auf N0 konzentrierte W-Maße bzw. Verteilungen dieselbe erzeugende Funktion, so
stimmen sie überein. Ï
» Dies folgt aus dem Identitätssatz für Potenzreihen, der besagt, dass zwei auf
einer nichtleeren offenen Menge identische Potenzreihen dieselben Koeffizienten
haben.
«
Es besteht also eine Bijektion zwischen diskreten Verteilungen und erzeugenden Funktionen. Insbesondere haben zwei diskrete Zufallsvariablen mit derselben
erzeugenden Funktion auch dieselbe Verteilung.
6.2 Satz Sei X eine reelle Zufallsvariable, deren Verteilung auf N0 konzentriert ist, mit
erzeugender Funktion g.
a) g ist auf der offenen Kreisscheibe {s ∈ C : |s| < 1} unendlich oft differenzierbar, sogar analytisch und für j ∈ N gilt
g (j) (1−) Í lim g (j) (s) = E[X(X − 1) . . . (X − j + 1)]
0às↑1
(≤ ∞),
insbesondere g 0 (1−) = EX.
b) Falls EX < ∞, so gilt V(X) = g 00 (1−) + g 0 (1−) − (g 0 (1−))2 . Ï
6. November 2011 13:28
91
6-A
6
Erzeugende und charakteristische Funktionen, Faltungen
»
a) Die Differenzierbarkeit bzw. die Analytizität auf der offenen Kreisscheibe
wird in der Funktionentheorie bewiesen. Auf dieser Kreisscheibe können wir
gliedweise differenzieren und erhalten somit,
g (j) (s) =
∞
X
k=j
bk k(k − 1) · · · (k − j + n)s k−j ,
0 à s < 1.
Auf dem Rand gehen wir gegebenfalls zum Grenzwert über und erhalten mit
dem Satz von der monotonen Konvergenz für s ↑ 1,
g (j) (s) →
∞
X
k=j
bk k(k − 1) · · · (k − j + n).
Diese Reihe können wir auch als Erwartungswert der Zufallsvariablen
X(X − 1) · · · (X − j + 1)
betrachten (siehe Satz 4.5), d.h.
lim g (j) (s) = E(X(X − 1 · · · (X − j + 1))).
s↑1
Insbesondere erhalten wir g 0 (1−) = EX.
b) Da X integrierbar, können wir die Varianz darstellen als
VX = EX 2 − (EX)2 = E(X(X − 1)) + EX − (EX)2
= g 00 (1−) + g 0 (1−) − (g 0 (1−))2 . «
Kennen wir eine explizite Darstellung der erzeugenden Funktion einer diskreten
Zufallsvariablen, lassen sich mit Satz 6.2 ihre Momente oftmals leicht berechnen.
6.3 Satz Seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen, deren Verteilungen je-
weils auf N0 konzentriert sind, mit erzeugenden Funktionen g1 , . . . , gn . Für die erQn
zeugende Funktion g der Summe X1 + . . . + Xn gilt dann g = j=1 gj . Ï
» Sei |s| < 1, dann gilt per definitionem
g(s) =
92
∞
X
k=0
P [X1 + . . . + Xn = k]s k .
6. November 2011 13:28
Erzeugende Funktionen
Nun interpretieren wir die erzeugende Funktion als Erwartungswert wie in 6.1, d.h.
g(s) = E s X1 +...+Xn = E
n
Y
s Xi .
i=1
Da X1 , . . . , Xn unabhängig, sind nach Satz 5.4 auch s X1 , . . . , s Xn unabhängig, d.h.
g(s) =
n
Y
i=1
Es Xi =
n
Y
gi (s). «
i=1
Bsp 1 Seien X1 , X2 , . . . unabhängige b(1, p) verteilte Zufallsvariablen, mit
P [Xi = 1] = p,
P [Xi = 0] = 1 − p ,
| {z }
q
so können wir sie als Folge von Bernoulli-Versuchen interpretieren mit jeweiliger
Erfolgswahrscheinlichkeit p,
[Xi = 1],
Erfolg im i-ten Versuch.
Die erweiterte reellwertige Zufallsvariable Z1 gebe die Anzahl der Misserfolge bis
zum 1. Erfolg an. Z1 ist erweitert reellwertig, da die Möglichkeit besteht, dass Z1
unendlich wird.
Nach dem 1. Erfolg wiederholt sich die stochastische Situation. Z2 gebe die Anzahl der Misserfolge nach dem 1. bis zum 2. Erfolg an.
Betrachte nun eine Realisierung
0, 0, 0, 0, 1, 0, 0, 1 , 1, 0, . . .
| {z }
| {z } |{z}
Z1
Z2
Z3
Die Zufallsvariablen Z1 , Z2 , . . . sind unabhängig und identisch verteilt.
» Nachweis der Unabhänigkeit und der identischen Verteilung. Wir zeigen zuerst die
identische Verteilung,
P [Z1 = k] = qk p,
P [Z1 = ∞] = 1 −
P [Z2 = k] =
∞
X
j=1
∞
X
k=0
k ∈ N0
qk p = 1 − p
1
= 0,
1−q
P [Z1 = j, Z2 = k] =
= p 2 qk
1
= qk p,
1−q
∞
X
für p > 0,
qj pqk p
j=1
P [Z2 = ∞] = . . . = 0.
6. November 2011 13:28
93
6-A
6
Erzeugende und charakteristische Funktionen, Faltungen
Induktiv erhalten wir
∀ j, k ∈ N0 : P [Z1 = j, Z2 = k] = qj pqk p = P [Z1 = j]P [Z2 = k]
insbesondere sind Z1 und Z2 unabhängig.
«
Z1 hat die erzeugende Funktion,
h(s) =
∞
X
k=0
qk ps k = p
1
= p(1 − qs)−1 ,
1 − qs
h0 (s) = pq(1 − qs)−2 ,
h00 (s) = 2pq2 (1 − qs)−3 ,
h0 (1−) =
|s| < 1,
pq
q
= ,
(1 − q)2
p
h00 (1−) =
2q2
2pq2
= 2 .
(1 − q)3
p
Nach Satz 6.2 gilt somit
EZ1 =
q
,
p
VZ1 =
2q2
q
+ −
p2
p
q
p
!2
=
q(q + p)
q
= 2.
p2
p
Sei nun r ∈ N fest, so hat die Zufallsvariable
XÍ
r
X
Zi
i=1
nach Satz 6.3 die erzeugende Funktion g = hr , also
g(s) = h(s)r = p r (1 − qs)−r .
Aus der Analysis kennen wir folgenden Spezialfall der binomischen Reihe,
α
(1 + x) =
!
α k
x ,
k
∞
X
k=0
|x| < 1,
!
α
α(α − 1) · · · (α − k − 1)
=
.
k
k!
Diese Definition ist auch für α ∈ R sinnvoll. Wir können somit g darstsellen als
!
!
∞
X
−r
k k k
r r +k−1
g(s) =
p
(−1) q s =
p
qk s k ,
k
k
k=0
k=0
!
6.1
r +k−1 r k
⇒P [X = k] =
p q ,
k ∈ N0 .
k
∞
X
94
r
6. November 2011 13:28
Erzeugende Funktionen
Die Zufallsvariable X gibt die Anzahl der Misserfolge bis zum r -ten Erfolg an. Also
ist eine äquivalente Definition von X gegeben durch


X Í inf n ∈ N :

n
X
k=1
Xk = r



−r
wobei Xk angibt, ob im k-ten Versuch ein Erfolg aufgetreten ist.
Eine Zufallsvariable, welche die Anzahl der Misserfolge bis zum r -ten Erfolg bei
Bernoulli-Versuchen mit Erfolgswahrscheinlichkeit p ∈ (0, 1) angibt, hat somit die
Zähldichte
!
r +k−1 r k
p q ,
k
wobei Nb (r , p; k) Í
−r
k
k ∈ N0 , r ∈ N, p ∈ (0, 1),
r +k−1
(−1)k p r qk =
p r qk . Nb(r , p) heißt negative Binomialk
Verteilung oder Pascal-Verteilung mit Parametern r ∈ N, p ∈ (0, 1).
Für r = 1 heißt Nb(1, p) mit Zähldichte (pqk )k∈N geometrische Verteilung mit
Parameter p ∈ (0, 1). Wir können nun die negative Binomial-Verteilung darstellen
als
Nb(r , p) = Nb(1, p) ∗ . . . ∗ Nb(1, p) .
|
{z
}
r −mal
Konvergenzsätze der Maßtheorie
Wir haben bereits den Satz von der monotonen Konvergenz kennengelernt, der eine
Aussage über Vertauschbarkeit von Grenzwertbildung und Integration für positive,
monotone Funktionenfolgen macht. Im Allgemeinen sind die Funktionenfolgen, mit
denen wir in der Wahrscheinlichkeitstheorie arbeiten weder monoton noch positiv,
wir benötigen also allgemeinere Aussagen.
Lemma von Fatou Sei (Ω, A, P ) ein Maßraum. Für jede Folge von nichtnegativen
erweitert reellen messbaren Funktionen fn gilt,
Z
Ω
lim inf fn dµ à lim inf
n→∞
n→∞
Z
Ω
fn dµ à lim sup
n→∞
Z
Ω
fn dµ.
R
Gilt außerdem fn à g mit Ω g dµ < ∞, so gilt auch
lim sup
n→∞
6. November 2011 13:28
Z
Ω
fn dµ à
Z
Ω
lim sup fn dµ.
n→∞
Ï
95
6-A
6
Erzeugende und charakteristische Funktionen, Faltungen
» Wir beweisen lediglich die erste Ungleichung, die andere ist trivial. Setze
gn Í inf fm ↑ lim inf fn Î g.
n
mán
Auf diese Funktionenfolge können wir den Satz von der monotonen Konvergenz
anwenden und erhalten somit,
Z
Ω
lim inf fn dµ = lim
n→∞
Z
n→∞ mán
Ω mán
= lim inf
n
inf fn dµ à lim inf
Z
Ω
Z
Ω
fn dµ
fn dµ. «
Man kann das Lemma von Fatou als Verallgemeinerung des Satzes von der monotonen Konvergenz von monotonen nichtnegativen auf lediglich nichtnegative Funktionenfolgen betrachten. Dadurch wird jedoch auch die Aussage auf “à” anstatt “=”
abgeschwächt.
Satz von der dominierten Konvergenz Sei (Ω, A, µ) ein Maßraum und fn , f , g
erweitert reellwertige messbare Funktionen mit fn → f µ-f.ü., fn à g µ-f.ü.
R
sowie Ω g dµ < ∞. Dann existiert
lim
n→∞
Z
Ω
fn dµ
und es gilt
lim
n→∞
Z
Ω
fn dµ =
Z
lim fn dµ =
Ω n→∞
Z
Ω
f dµ.
Ï
Man findet den Satz in der Literatur auch unter dem Namen Satz von der majorisierten Konvergenz bzw. Satz von Lebesgue.
» Setze N Í [fn 3 f ] ∪
S
zung µ(N) = 0. Setze nun
f˜n Í fn · 1N c ,
fn > g] ∪ [g = ∞] ∈ A, so ist nach Vorausset-
n∈N [
f˜ Í f · 1N c ,
g̃ Í g · 1N c .
Dann gilt f˜n + g̃ á 0, g̃ − f˜n á 0 auf ganz Ω und für alle n ∈ N. Mit dem Lemma
96
6. November 2011 13:28
Charakteristische Funktionen
von Fatou folgt,
Z
Ω
Z
g̃ dµ
lim inf(f˜n + g̃) dµ −
n
Ω
Z
ZΩ
Z
g̃ dµ = lim inf
f˜n dµ
à lim inf (f˜n + g̃) dµ −
n
n
Ω
Ω
Ω
Z
Z
−f˜n dµ
à lim sup
f˜n dµ = − lim inf
n
n
Ω
Ω
Z
Z
=
g̃ dµ − lim inf (g̃ − f˜n ) dµ
n
Ω
ZΩ
Z
Z
à
g̃ dµ −
lim inf(g̃ − f˜n ) dµ =
f˜ dµ.
f˜ dµ =
Z
Ω
Ω
Insbesondere gilt lim infn
«
R
Ω
n
Ω
f˜n dµ = lim supn
R
Ω
f˜n dµ und somit ist alles gezeigt.
6-B Charakteristische Funktionen
6.2 Definition Sei µ ein W-Maß auf B bzw. X eine reelle Zufallsvariable mit Verteilungs-
funktion F . Dann heißt die auf R definierte (i.a. komplexwertige) Funktion ϕ mit
ϕ(u) Í
Z
R
eiux µ( dx)
bzw.
ϕ(u) Í EeiuX =
Z
R
eiux PX ( dx) =
Z
R
eiux dF (x)
die charakteristische Funktion von µ bzw. X. Ï
Diese Definition ist tatsächlich sinvoll, denn wir können eiux für u, x ∈ R stets
durch 1 majorisieren. Es gilt also
|ϕ(u)| à E eiuX à E1 = 1
und daher existiert ϕ(u) für jedes u ∈ R.
6.3 Bemerkungen. In Definition 6.2 gilt
a. ϕ(0) = 1,
b. |ϕ(u)| ≤ 1, u ∈ R,
6. November 2011 13:28
97
6-B
6
Erzeugende und charakteristische Funktionen, Faltungen
c. ϕ gleichmäßig stetig in R,
d. ϕ(−u) = ϕ(u), u ∈ R. Ç
» Nachweis von Bemerkung 6.3 c)
Z
Z
i(u+h)x
ihx
|ϕ(u + h) − ϕ(u)| = − eiux µ( dx)
− 1)eiux µ( dx)
e
= (e
R
Z R
ihx
e
à
− 1 µ( dx)
R
Nun verschwindet der Integrand für h → 0, d.h. für jede Nullfolge hn gilt
ihn x
e
− 1 → 0,
n → ∞.
R
Außerdem ist eihn x − 1 à eihn x + 1 = 2, und R 2 dµ = 2µ(R) = 2, wir können
also den Satz von der dominierten Konvergenz anwenden.
«
Die charakteristische Funktion ist im Wesentlichen die Inverse Fouriertransformierte von PX , der Verteilung von X. Besitzt X eine Dichte f , so gilt nach dem
Transformationssatz
Z
ϕX (u) =
eiux f (x) dx.
R
6.4 Bemerkung. Die Normalverteilung N(a, σ 2 ) mit a ∈ R und σ 2 ∈ (0, ∞) besitzt die
charakteristische Funktion ϕ : R → C mit
ϕ(u) = eiau e−
σ 2 u2
2
.
Insbesondere besitzt die Standardnormalverteilung N(0, 1) die charakteristische
Funktion ϕ mit ϕ(u) = e−
u2
2
. Ç
» Beweisskizze. 1. Teil. Wir betrachten zunächst N(0, 1). Die Standardnormalverteilung besitzt die Dichte
f (x) = √
x2
1
e− 2 ,
2π
somit gilt für die charakteristische Funktion,
Z
Z
1 2
1
1
2 1 2
e− 2 x dx = √
ei(x−iu) − 2 u dx
ϕ(u) =
eiux √
2π
2π
R
R
Z
1
1
− 12 u2
(x−iu)2
2
√
=
e
e
dx.
2π
R
98
6. November 2011 13:28
Charakteristische Funktionen
1
2
Um das Integral zu berechnen, betrachten wir z , e 2 z ; diese Funktion einer komplexen Variablen z ist komplex differenzierbar (analytisch, holomorph). Wir verwenden nun den Residuensatz, ein Resultat aus der Funktionentheorie, der besagt,
dass das Integral einer holomorphen Funktion über jede geschlossene Kurve c verschwindet,
Z
1 2
e 2 z dz = 0.
c
Um dies auszunutzen, wählen wir eine spezielle geschlossene Kurve c (siehe
Skizze) bestehend aus den Geradenstücken c1 , c2 , c3 und c4 .
R
c1
−R
c4
c2
c3
6.1
Zur Konstruktion der geschlossenen Kurve c.
Für diese Geradenstücke können wir die Integrale leicht berechnen bzw. abschätzen,
Z
p
1 2
R→∞
e− 2 z dz → − 2π ,
c
Z1
Z
Z
1 2
1 2
1 2
e− 2 z dz =
e− 2 z dz +
e− 2 z dz = 0,
c2 ,c4
c2
c
| 4 {z
}
Z
1
R→∞
2
e− 2 z dz →
c3
Z
R
−
1
2
R
c2
1 2
e− 2 z dz
e− 2 (x−iu) dx.
Für ganz c gilt nach Voraussetzung,
0=
⇒
Z
R
Z
e
1
c
2
e− 2 z dz =
− 12 (x−iu)2
4 Z
X
i=1
ci
1
2
e− 2 z dz =
Z
c1
1
2
e− 2 z dz +
Z
c3
1
2
e− 2 z dz
p
dx = 2π .
Somit besitzt N(0, 1) die charakteristische Funktion
Z
1 2
1
1 2
1
2
ϕ(u) = √
e− 2 u
e− 2 (x−iu) dx = e− 2 u .
2π
R
6. November 2011 13:28
99
6-B
6
Erzeugende und charakteristische Funktionen, Faltungen
2. Teil. Für N(a, σ 2 ) allgemein ist die charakteristische Funktion gegeben durch,
ϕ(u) =
Z
R
eiux √
Die Substitution y =
(x−a)2
1
e 2σ 2 dx
2π σ
x−a
σ
liefert die Behauptung.
«
6.5 Bemerkung. Als Exponentialverteilung exp(λ) mit Parameter λ ∈ (0, ∞) wird ein
W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit
f (x) =
besitzt.


λe−λx ,

0,
x>0
x≤0
Die zufällige Lebensdauer eines radioaktiven Atoms wird durch eine exponentialverteilte Zufallsvariable angegeben. Ist X eine erweitert-reelle Zufallsvariable,
deren Verteilung auf R+ konzentriert ist, mit P [0 < X < ∞] > 0, so gilt
∀ s, t ∈ (0, ∞) : P [X > t + s | X > s] = P [X > t].
Diese Eigenschaft nennt man Gedächtnislosigkeit. Eine auf R+ konzentrierte reell
erweiterte Zufallsvariable ist genau dann gedächtnislos, wenn sie exponentialverteilt ist.
» “⇐”: Sei X also exp(λ) verteilt. Per definitionem der bedingten Wahrscheinlich-
keit gilt,
P [X > t + s | X > s] =
P [X > t + s, X > s]
1 − F (t + s)
=
.
P [X > s]
1 − F (s)
Die Verteilungsfunktion erhält man durch elementare Integration,
R

 x λe−λt dt = 1 − e−λx , x > 0,
0
F (x) =
0,

x à 0.
Somit ergibt sich
e−λ(t+s)
1 − F (t + s)
=
= e−λt = 1 − F (t) = P [X > t].
1 − F (s)
e−λs
100
6. November 2011 13:28
Charakteristische Funktionen
“⇒”: Sei X gedächtnislos, d.h. P [X > t + s | X > s] = P [X > s]. Unter Verwendung
der Definition der bedingten Wahrscheinlichkeit erhalten wir
P [X > t + s] = P [X > t] P [X > s] .
|
{z
} | {z } | {z }
H(t+s)
H(t)
H(s)
Wir interpretieren diese Gleichung als Funktionalgleichung und suchen nach einer
Lösung H : R+ → R+ , die diese Gleichung erfüllt. Da
H(t) = P [X > t] = 1 − F (t)
erhalten wir aus den Eigenschaften der Verteilungsfunktion für H außerdem die
Randbedingungen H(0) = 1 und lim H(t) = 0. Offensichtlich ist H(t) = e−λt für
t→∞
λ ∈ (0, ∞) eine Lösung.
Man kann zeigen, dass dies in der Klasse auf R+ konzentrierten Verteilungen die
einzige Lösung ist (siehe Hinderer § 28).
«
Für die Beschreibung von technischen Geräten oder Bauteilen ist es oft notwending ein “Gedächtnis” miteinzubauen. Dafür eignet sich die sog. Weibull-Verteilung1 ,
welche eine Verallgemeinerung der Exponential-Verteillung darstellt.
Für eine Zufallsvariable X mit PX = exp(λ) gilt
1
,
λ
EX =
V(X) =
1
.
λ2
» Der Nachweis folgt durch direktes Rechnen,
EX =
Z∞
−∞
xf (x) dx =
VX = EX 2 − (EX)2 =
Z∞
0
Z∞
0
∞
λxe−λx dx = −xe−λx x=0
λx 2 e−λx −
+
1
R∞
0
eiux λe−λx dx = λ
R∞
0
0
e−λx dx =
1
λ
1
1
= 2. «
λ2
λ
exp (λ) hat die charakteristische Funktion ϕ mit ϕ(u) =
» ϕ(u) =
Z∞
e−(λ−iu)x dx =
λ
λ−iu .
λ
λ−iu .
« Ç
Ernst Hjalmar Waloddi Weibull (* 18. Juni 1887; † 12. Oktober 1979 in Annecy) war ein schwedischer
Ingenieur und Mathematiker.
6. November 2011 13:28
101
6-B
6
Erzeugende und charakteristische Funktionen, Faltungen
6.6 Bemerkung. Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν ∈ (0, ∞) wird ein W-
Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit
f (x) =



λν
ν−1 −λx
e
,
Γ (ν) x

0,
x > 0,
x ≤ 0,
besitzt. Hierbei ist Γλ,1 = exp(λ) Die Gamma-Verteilung stellt also ebenfalls ei-
ne Verallgemeinerung der Exponential-Verteilung dar. Γ 1 , n wird als Chi-Quadrat2
Verteilung χn
mit n Freiheitsgraden bezeichnet (n ∈ N).
2 2
Für eine Zufallsvariable X mit PX = Γλ,ν gilt
EX =
ν
,
λ
V(X) =
ν
.
λ2
Γλ,ν hat die charakteristische Funktion ϕ mit ϕ(u) =
ν
λ
.
λ−iu
» EX und VX folgen durch direktes Integrieren oder unter Verwendung der charakteristischen Funktion.
Die charakteristische Funktion ist gegeben durch folgendes Integral
ϕ(u) =
Z∞
0
λν iux ν−1 −λx
e x
e
dx.
Γ (ν)
Dieses wollen wir nicht direkt berechnen, sondern in eine Differentialgleichung umformen und so elegant lösen. Unter Verwendung des Satzes über dominierte Konvergenz lässt sich nachweisen, dass Differentiation und Integration hier vertauscht
werden können. Somit erhalten wir
0
ϕ (u) =
=
Z∞
0
λν iux ν−1 −λx
λν
∂u
e x
e
dx =
Γ (ν)
Γ (ν)
iλν
Γ (ν)
Z∞
Z∞
ixeiux x ν−1 e−λx dx
0
e(iu−λ)x x ν dx
0
∞
Z∞
e(iu−λ)x
iλν ν e(iu−λ)x iλν
=
x
−
νx ν−1
dx
Γ (ν)
iu − λ 0 Γ (ν)
iu − λ
|
{z
}
0
=0
=
102
iν
λ − iu
Z∞
0
λν ν−1 (iu−λ)x
iν
x
e
dx =
ϕ(u).
Γ (ν)
λ − iu
6. November 2011 13:28
Charakteristische Funktionen
Dies liefert nach Zerlegung der DGL in Real- und Imaginäranteil und anschließendem Lösen der Anfangswertprobleme Re ϕ(0) = 1 und Im ϕ(0) = 0 die eindeutige
Lösung
ϕ(u) =
λ
λ − iu
ν
.
Ç
«
Eindeutigkeitssatz und Umkehrformeln
Per se ist nicht klar, ob zwei unterschiedliche Verteilungsfunktionen auch unterschiedliche charakteristische Funktionen besitzten bzw. inwiefern eine charakteristische Funktion die Verteilung “charakterisiert”. Der folgende Satz beantwortet
die Frage.
6.4 Eindeutigkeitssatz für charakteristische Funktionen Besitzen zwei auf B definier-
te W-Maße bzw. Verteilungen dieselbe charakteristische Funktion, so stimmen sie
überein.
Ist µ ein W-Maß auf B bzw. PX die Verteilung einer reellen Zufallsvariablen X mit
zugehöriger Verteilungsfunktion F und zugehöriger charakteristischer Funktion ϕ
und sind a, b mit a < b Stetigkeitsstellen von F , so gilt die Umkehrformel
F (b) − F (a)
|
{z
}
=µ((a,b]) bzw. PX ((a,b])
= lim
U→∞
1
2π
ZU
−U
e−iua − e−iub
ϕ(u) du .
iu
Ï
Wir erhalten mit Hilfe dieses Satzes zunächst nur die Eindeutigkeit auf den halboffenen Intervallen. Der Fortsetzungssatz besagt jedoch, dass damit auch die Fortsetzung auf die Menge der Borelschen Mengen eindeutig ist.
» Es genügt, die Umkehrformel zu beweisen. Wir verwenden dazu die DirichletFormel
lim
A→−∞
B→∞
1
π
ZB
A
sin(v)
dv = 1,
v
die man leicht unter Verwendung der Funktionentheorie beweisen kann. Wir verwenden außerdem die Identität,
−iua
e
−e
6. November 2011 13:28
−iub
= −e
b
−iuy y=a
= iu
Zb
e−iuy dy ,
y=a
103
6-B
6
Erzeugende und charakteristische Funktionen, Faltungen
somit folgt nach Anwendung des Satzes von Fubini
1
lim
U →∞ 2π
= lim
U→∞
ZU
u=−U
1
2π
1
= lim
U→∞ 2π
= lim
U→∞
1
2π
1
= lim
U→∞ 2π
= lim
U→∞
1
π
1 −iua
e
− e−iub ϕ(u) du
iu
ZU
Z∞
Z∞
ZU
u=−U x=−∞
1 −iua
e
− e−iub eiux F ( dx) du
iu
Zb
eiu(x−y) dy F ( dx) du
x=−∞ u=−U y=a
Z∞
Zb
Z∞
Zb
ZU
eiu(x−y) du dy F ( dx)
x=−∞ y=a u=−U
x=−∞ y=a
Z∞
Zb
x=−∞ y=a
eiU(x−y) − e−iU(x−y)
dy F ( dx)
i(x − y)
sin(U(x − y))
dy F ( dx)
(x − y)
Nun substituieren wir ν = U(x − y), d.h. “ dx =
=
=
Z∞
x=−∞
Z∞
−∞
1
lim
U→∞ π
|
U(x−b)
Z
y=U(x−a)
1
U
dν”,
sin(v)
dv F ( dx)
v
{z
ÍG(U,x)
}
lim G(U, x)F ( dx)
U→∞
Für den Integranden erhalten wir unter Verwendung der Formel von Dirichlet,



1, falls a < x < b,



lim G(U , x) = 0, falls x < a,

U →∞



0, falls x > b.
Falls wir den Satz von der dominierten Konvergenz anwenden können, erhalten wir
für das Integral
Z∞
−∞
104
lim G(U , x)F ( dx) = F (b) − F (a),
U →∞
6. November 2011 13:28
Charakteristische Funktionen
denn das Verhalten des Integranden an den Unstetigkeitsstellen ist für den Integralwert nicht von Bedeutung.
Wir müssen also noch nachweisen, dass wir den Satz über die dominierte Konvergenz auch anwenden können. Setze n = U und fn = G(U, ·), G(U, ·) ist beschränkt, d.h.
|G(U , ·)| à g < ∞,
g ∈ R.
Nun ist die konstante Funktion g integrierbar bezüglich der durch die Verteilungsfunktion F induzierten Verteilung µ. (µ(a, b] = F (b) − F (a)).
«
Mit dem Eindeutigkeitssatz erhält man aus ϕ die Verteilungsfunktion, ist ϕ darüber hinaus integrierbar, gilt wesentlich mehr.
6.5 Satz Gegeben sei eine Verteilungsfunktion F mit charakteristischer Funktion ϕ; es
sei
R∞
−∞
|ϕ(u)| du < ∞. Dann besitzt F eine Dichte f , die stetig und beschränkt ist,
und es gilt die Umkehrformel
f (x) =
1
2π
Z
R
e−iux ϕ(u) du ,
» Sei also ϕ integrierbar, d.h.
formel
F (b) − F (a) = lim
U →∞
1
2π
R
ZU
R
−U
x ∈ R.
Ï
|ϕ| (x) dx = c < ∞. Wir verwenden die Umkehr-
e−iua − e−iub
ϕ(u) du
iu
und bilden so den Differenzenquotienten für F , falls F in x stetig,
F (x + h) − F (x)
1
= lim
U →∞ 2π
h
ZU
−U
Diesen Ausdruck können wir durch
e−iu(x+h) − e−iux 1
=
|uh|
iuh
6. November 2011 13:28
e−iu(x+h) − e−iux
iuh
−
1
2π
R
R
!
ϕ(u) du .
|ϕ| (u) du majorisieren, denn
Z
Z
x+h
x+h 1 −ius
ds = 1.
−iue
ds à
|h| x x
105
6-B
6
Erzeugende und charakteristische Funktionen, Faltungen
Somit können wir den Satz von der dominierten Konvergenz anwenden und die
Grenzwertbildung für h → 0 mit der Grenzwertbildung für U → ∞ und der Integration vertauschen.
lim
h→0
!
ZU
F (x + h) − F (x)
1
e−iu(x+h) − e−iux
= lim lim
ϕ(u) du
−
h
iuh
h→0 U →∞ 2π
−U
Z
1
=
e−iux ϕ(u) du Î f (x).
2π
R
f ist offensichtlich Dichte zu F und beschränkt, denn
Z
Z
1
−iux e
|ϕ(u)| du =
|ϕ(u)| du < ∞,
2π
f (x) à 1
2π
R
R
und außerdem stetig, denn
Z iuy
e
− eiux |ϕ(u)| du
R
Z
à sup eiuy − eiux |ϕ(u)| du
f (y) − f (x) à
x,y∈U
R
= c sup eiuy − eiux .
x,y∈U
Der rechte Ausdruck wird klein für x − y klein, denn eiu· ist stetig.
«
Ist X Zufallsvariable mit integrierbarer charakteristischer Funktion ϕ, so besitzt
X eine Dichte und diese entspricht im Wesentlichen der Fouriertransformierten
von ϕ. Wie wir bereits festgestellt haben, erhalten wir ϕ als inverse Fouriertransformierte dieser Dichte zurück.
6.6 Satz Sei X eine reelle Zufallsvariable mit Verteilung PX und charakteristischer Funk-
tion ϕ. Falls für j ∈ N gilt:
E |X|j < ∞,
so besitzt ϕ eine stetige j-te Ableitung ϕ(j) mit
ϕ(j) (u) = ij
Z
R
x j eiux PX ( dx),
u ∈ R.
Insbesondere ϕ(j) (0) = ij EX j . Ï
106
6. November 2011 13:28
Charakteristische Funktionen
» Wir beweisen die Behauptung für j = 1, der Rest folgt induktiv.
ϕ(u) =
Z∞
eiux PX ( dx)
−∞
Z i(u+h)x
ϕ(u + h) − ϕ(u)
e
− eiux
ϕ (u) = lim
= lim
PX ( dx)
h
h
h→0
h→0
R
!
Z
eihx − 1
iux
PX ( dx)
= lim e
h
h→0
R
|
{z
}
0
→ixeiux
Wir müssen also nachweisen, dass wir den Satz von der dominierten Konvergenz
anwenden können,
und
R
!
eihx − 1 ihx
e
−
1
iux
e
< const |x| ,
= 1
h
h
|
{z
}
→ixeiux
R
x, h ∈ R
|x| PX ( dx) = E |X| < ∞.
Somit erhalten wir für das Integral,
ϕ0 (u) = i
Z
R
xeiux PX ( dx)
ϕ0 ist gleichmäßig stetig, denn
0
ϕ (u + h) − ϕ0 (u) à
Z
R
|x| ei(u+h)x − eiux PX ( dx)
Nun ist ei(u+h)x − eiux nach der Dreiecksungleichung durch 2 beschränkt und
konvergiert für h → 0 gegen Null, somit haben wir eine integrierbare Majorante
und mit dem Satz von der dominierten Konvergenz folgt,
0
ϕ (u + h) − ϕ0 (u) → 0,
h → 0.
«
Erinnern wir uns an die erzeugende Funktion g einer auf N0 konzentrierten Verteilung so besagt Satz 6.2,
g (j) (1−) = E(X(X − 1) · · · (X − j + 1)).
6. November 2011 13:28
107
6-B
6
Erzeugende und charakteristische Funktionen, Faltungen
Für charakteristische Funktionen reeller Zufallsvariablen gilt nun,
ϕ(j) (0) = ij EX j .
Erzeugende und charakteristische Funktionen ermöglichen es uns Integrationsaufgaben,
Z
R
x j PX ,
X
kj bk
ká0
auf Differentiationsaufgaben ϕj (u)u=0 , g (j) (1−) zurückzuführen, die sich meist
wesentlich leichter lösen lassen.
6.7 Satz Seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen mit charakteristischen
Funktionen ϕ1 , . . . , ϕn . Für die charakteristische Funktion der Summe
X1 + . . . + Xn
gilt dann
ϕ=
n
Y
ϕj .
Ï
j=1
5.4
» ϕ(u) = Eeiu(X1 +...+Xn ) = E(eiuX1 · · · eiuXn ) = (EeiuX1 ) · · · (EeiuXn ).
«
Für die erzeugende und charakteristische Funktion einer Summe von unabhängigen Zufallsvariablen gelten also analoge Aussagen. Beide beruhen auf der Multiplikativität des Erwartungswerts für unabhänige Zufallsvariablen.
6-C Faltungen
In Abschnitt 5-A haben wir bereits für zwei reelle unabhängige Zufallsvariablen X
und Y die Faltung PX ∗ PY Í PX+Y als Verteilung von X + Y definiert. Wir wollen
die Definition nun noch etwas Verallgemeinern und die Argumentationslücken aus
5-A schließen.
6.3 Definition Zu zwei W-Maßen P , Q auf B wird das W-Maß P ∗ Q auf B, die sog.
Faltung von P und Q, folgendermaßen definiert:
108
6. November 2011 13:28
Faltungen
1.) Sei T : R × R → R mit T (x, y) = x + y;
P ∗ Q Í (P ⊗ Q)T
(P ⊗ Q W-Maß auf B2 mit (P ⊗ Q)(B1 × B2 ) = P (B1 )Q(B2 ), B1,2 ∈ B, sog.
Produkt-W-Maß von P und Q)
oder — äquivalent —
2.) Man wähle ein unabhängiges Paar reeller Zufallsvariablen X, Y mit Verteilungen PX = P , PY = Q und setze
P ∗ Q Í PX+Y .
Ï
» Beweis der Äquivalenz in 6.3. Sei Z = (X, Y ) gemäß b), dann gilt
!
PX+Y = PT ◦Z = (PZ )T = (PX ⊗ PY )T .
Um (!) nachzuweisen, genügt es zu zeigen, dass
∀ B1 , B2 ∈ B : (PZ )(B1 × B2 ) = (PX ⊗ PY )(B1 × B2 ) .
|
{z
} |
{z
}
P [Z∈B1 ×B2 ]
(*)
PX (B1 )PY (B2 )
Da X, Y unabhängig sind, gilt
P [Z ∈ B1 × B2 ] = P [(X, Y ) ∈ B1 × B2 ] = P [X ∈ B1 , Y ∈ B2 ]
= P [X ∈ B1 ]P [Y ∈ B2 ]
und somit ist die Identität (*) gezeigt. Mit Hilfe des Fortsetzungssatzes liegt die
Identität auf allen Borelschen Mengen aus B2 vor.
6.8 Satz
«
a) Die Faltungsoperation ist kommutativ und assoziativ.
b) Sei (X, Y ) ein unabhängiges Paar reeller Zufallsvariablen. Für X, Y und X + Y
seien die Verteilungsfunktionen mit F , G, H, die Dichten — falls existent — mit
f , g, h und die Zähldichten — falls PX , PY auf N0 konzentriert sind — mit
(pk ), (qk ), (rk ) bezeichnet. Dann gilt
H(t) =
6. November 2011 13:28
Z
R
F (t − y) G( dy ) =
Z
R
G(t − x) F (dx), t ∈ R.
109
6-C
6
Erzeugende und charakteristische Funktionen, Faltungen
Falls f existiert, so existiert h mit
Z
h(t) =
f (t − y) G( dy ) für (L-f.a.) t ∈ R;
R
falls zusätzlich g existiert, so gilt
Z
Z
h(t) =
f (t − y)g(y) dy =
g(t − x)f (x) dx für (L-f.a.) t ∈ R.
R
R
Falls (pk )k∈N0 , (qk )k∈N0 existieren, so existiert (rk )k∈N0 mit
rk =
»
k
X
i=0
pk−i qi =
k
X
i=0
qk−i pi (k ∈ N0 ).
Ï
a) Assoiziativität und Kommutativität der Faltungsoperation folgen direkt aus
der Assoziativität und Kommutativität der Addition reeller Zahlen.
b) Siehe auch Satz 5.6. Sei
H(t) = P [X + Y à t] = P [(X, Y ) ∈ B]
mit B Í (x, y) : x + y à t , also
Z
H(t) = P(X,Y ) (B) = (PX ⊗ PY )(B) =
PX ((−∞, t − y])PY ( dy )
R
Z
Z
Komm. von X + Y
=
F (t − y)G( dy )
=
G(t − x)F ( dx).
R
R
Falls zu F eine Dichte f existiert, dann gilt für t ∈ R,


t−y
Zt Z
Z
Z
Fubini


f (τ − y)G( dy ) dτ .
H(t) =
f (τ) dτ  G( dy ) =

R
−∞
−∞
R
Falls zusätzlich G eine Dichte g besitzt, dann ist G( dy ) = g(y) dy und somit
besitzt H eine Dichte der Form
Z
Z
h(t) = f (t − y)g(y) dy = g(t − x)f (x) dx,
R
R
wobei h(t) nur λ-f.ü. definiert ist. Falls X und Y Zähldichten (pk ) und (qk )
besitzen, dann ist
rk Í P [X + Y = k] = P [ ∃ i ∈ {0, 1, . . . , k} : X = k − i, Y = i]
=
=
110
k
X
i=0
k
X
i=0
P [X = k − i, Y = i] =
pk−i qi =
k
X
qk−i pi .
k
X
i=0
P [X = k − i]P [Y = i]
«
i=0
6. November 2011 13:28
Faltungen
Sind X und Y reelle unabhängige Zufallsvariablen mit Dichten f und g, so ist
mit dem eben bewiesenen die Dichte von X + Y gegeben durch
Z
Z
f (x − y)g(y) dy =
g(y − x)f (x) dx.
R
R
Dieser Ausdruck wird als Faltung von f mit g bezeichnet, geschrieben
f ∗ g Î fX+Y .
6.7 Bemerkungen.
a. Für n1,2 ∈ N, p ∈ [0, 1] gilt
b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p).
Die Summe von n unabhängigen b(1, p) verteilten Zufallsvariablen ist also
b(n, p)-verteilt.
b. Für λ1,2 > 0 gilt π (λ1 ) ∗ π (λ2 ) = π (λ1 + λ2 ).
» π (λ1 ), π (λ2 ) haben nach Bemerkung 6.2 die erzeugenden Funktionen
g1 (s) = eλ1 (s−1) ,
g2 (s) = eλ2 (s−1) .
Im Satz 6.3 haben wir gezeigt, dass die Verteilungsfunktion einer Zufallsvariable X + Y , wobei X und Y unabhängig und X π (λ1 ) und Y π (λ2 ) verteilt ist,
die Form hat
π (λ1 ) ∗ π (λ2 ).
Diese hat die erzeugende Funktion
g1 (s)g2 (s) = e(λ1 +λ2 )(s−1) ,
welche ebenfalls die erzeugende Funktion von π (λ1 + λ2 ) ist. Mit Satz 6.1 folgt
nun, dass π (λ1 + λ2 ) = π (λ1 ) ∗ π (λ2 ).
«
c. Für r1,2 ∈ N, p ∈ (0, 1) gilt
Nb(r1 , p) ∗ Nb(r2 , p) = Nb(r1 + r2 , p).
Die Summe von r unabhängigen Nb(1, p)-verteilten Zufallsvariablen ist also
Nb(r , p)-verteilt.
6. November 2011 13:28
111
6-C
6
Erzeugende und charakteristische Funktionen, Faltungen
2
∈ (0, ∞) gilt
d. Für a1,2 ∈ R, σ1,2
N(a1 , σ12 ) ∗ N(a2 , σ22 ) = N(a1 + a2 , σ12 + σ22 ).
e. Für λ ∈ (0, ∞), ν1,2 ∈ (0, ∞) gilt
Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 .
Die Summe von n unabhängigen exp(λ)-verteilten Zufallsvariablen ist Γλ,n verteilt.
Die Summe der Quadrate von n unabhängigen jeweils N(0, 1)-verteilten Zu2
fallsvariablen ist χn
-verteilt. Ç
Es lässt sich auch für nicht unabhängige reelle Zufallsvariablen X und Y nach
der Verteilung von X + Y fragen. Um diese zu berechnen kann man stets folgenden
Ansatz wählen,
FX+Y (t) = P [X + Y à t] = P [g ◦ (X, Y ) à t] = P [(X, Y ) ∈ g −1 (−∞, t]]
Z
= P(X,Y ) [g −1 (−∞, t]] =
1 dP(X,Y ) .
g −1 (−∞,t]
Besitzen X und Y eine gemeinsame Dichte, so kann man das eigentliche Integra
tionsgebiet g −1 (−∞, t] ∩ f(X,Y ) ≠ 0 (meißt geometrisch) bestimmen und so das
Integral berechnen.
112
6. November 2011 13:28
7-A
7 Spezielle Verteilungen
Wir wollen in diesem Kapitel die wesentlichen Eigenschaften der bisher vorgestellten Verteilungen zusammenfassen.
7-A Diskrete Verteilungen
Verteilungen, die auf höchstens abzählbare Mengen konzentriert sind, heißen diskret. Nimmt eine Zufallsvariable nur endlich oder abzählbar viele Werte an, so ist
ihre Verteilung PX diskret.
7.1 Definition Als Binomialverteilung b(n, p) mit Parametern n ∈ N, p ∈ (0, 1) oder
auch [0, 1] wird ein W-Maß auf B bezeichnet, das auf {0, 1, . . . , n} konzentriert ist
und die Zähldichte
k , b(n, p; k) Í
besitzt.
!
n k
p (1 − p)n−k , k ∈ N0
k
Ï
7.1 Satz Sei n ∈ N, p ∈ [0, 1]; q Í 1 − p.
a) Ist (X1 , . . . , Xn ) ein n-Tupel unabhängiger reeller Zufallsvariablen mit
P [Xi = 1] = p,
P [Xi = 0] = q,
d.h. mit jeweiliger b(1, p)-Verteilung, so ist
i = 1, . . . , n
Pn
i=1
Xi b(n, p)-verteilt.
b) Für eine Zufallsvariable X mit PX = b(n, p) gilt
EX = np,
V(X) = npq.
c) b(n, p) hat die erzeugende Funktion g mit g(s) = (q + ps)n .
6. November 2011 13:28
113
7
Spezielle Verteilungen
d) Für n1,2 ∈ N gilt
b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p),
d.h. für zwei unabhängige Zufallsvariablen X1 , X2 mit PX1 = b(n1 , p) und
PX2 = b(n2 , p) gilt PX1 +X2 = b(n1 + n2 , p). Ï
7.1 Bemerkung. Das n-Tupel (X1 , . . . , Xn ) von Zufallsvariablen aus Satz 7.1 beschreibt
ein n-Tupel von Bernoulli-Versuchen, d.h. Zufallsexperimenten ohne gegenseitige Beeinflussung mit Ausgängen 1 (“Erfolg”) oder 0 (“Misserfolg”) und jeweiliger
Pn
k=1 Xi gibt die Anzahl der Erfolge in n Bernoulli-
Erfolgswahrscheinlichkeit p;
Versuchen an.
Ç
7.2 Definition Als Poisson-Verteilung π (λ) mit Parameter λ > 0 wird ein W-Maß auf B
bezeichnet, das auf N0 konzentriert ist und die Zähldichte
k , π (λ; k) Í e−λ
besitzt.
λk
, k ∈ N0
k!
Ï
7.2 Satz Sei λ > 0.
a) Ist (b(n, pn ))n eine Folge von Binomialverteilungen mit n pn → λ für n → ∞,
dann konvergiert
b(n, pn ; k) → π (λ; k)
(n → ∞) für alle k ∈ N0 .
b) Für eine Zufallsvariable X mit PX = π (λ) gilt
EX = V(X) = λ.
c) π (λ) hat die erzeugende Funktion g mit g(s) = e−λ+λs .
d) Für λ1,2 > 0 gilt
π (λ1 ) ∗ π (λ2 ) = π (λ1 + λ2 ) .
Ï
7.2 Bemerkung. Bei einer rein zufälligen Aufteilung von n unterscheidbaren Teilchen
auf m gleichgroße mehrfach besetzbare Zellen in einem Euklidischen Raum wird
die Anzahl der Teilchen in einer vorgegebenen Zelle durch eine b(n,
Zufallsvariable angegeben.
Der Grenzübergang n → ∞, m → ∞ mit Belegungsintensität
gemäß Satz 7.2a zu einer π (λ)-verteilten Zufallsvariable. Ç
114
n
m
1
m )-verteilte
→ λ > 0 führt
6. November 2011 13:28
Diskrete Verteilungen
7.3 Definition Als negative Binomialverteilung oder Pascal-Verteilung Nb(r , p) mit Pa-
rametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder auch B) bezeichnet, das auf
N0 konzentriert ist und — mit q Í 1 − p — die Zähldichte
!
r +k−1 r k
k , Nb(r , p; k) Í
p q , k∈N
k
besitzt. Speziell wird Nb(1, p) — mit Zähldichte k , p(1 − p)k , k ∈ N0 — als
geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet.
Ï
7.3 Satz Sei r ∈ N, p ∈ (0, 1), q Í 1 − p.
a) Sei (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten Zufallsvariablen.
Die erweitert-reelle Zufallsvariable


n


X
Xk = r − r
X Í inf n ∈ N :


k=1
mit inf Í ∞ ist Nb(r , p)-verteilt.
b) Für eine Zufallsvariable X mit PX = Nb(r , p) gilt
EX =
rq
,
p
V(X) =
rq
.
p2
c) Nb(r , p) hat die erzeugende Funktion g mit g(s) = p r (1 − qs)−r .
d) Für r1,2 ∈ N gilt
Nb(r1 , p) ∗ Nb(r2 , p) = Nb(r1 + r2 , p).
Die Summe von r unabhängigen Nb(1, p)-verteilten Zufallsvariablen ist somit Nb(r , p)-verteilt.
Ï
7.3 Bemerkung. Für die Folge (Xn ) in Satz 7.3a wird durch die erweitert-reelle Zufalls-
variable


n


X
T Í inf n ∈ N :
Xk = r


k=1
mit inf Í ∞ die Wartezeit bis zum r -ten Auftreten der Eins in (Xn ) und durch die
erweitert-reelle Zufallsvariable X = T − r die Anzahl der Misserfolge bis zum r -ten
Erfolg bei der zu (Xn ) gehörigen Folge von Bernoulli-Versuchen angegeben. Ç
6. November 2011 13:28
115
7-A
7
Spezielle Verteilungen
7.4 Definition Als hypergeometrische Verteilung mit Parametern n, r , s ∈ N, wobei n ≤
r +s, wird ein W-Maß auf B bezeichnet, das auf {0, 1, . . . , n} — sogar auf {max (0, n−
s), . . . , min (n, r )} — konzentriert ist und die Zähldichte
k,
besitzt.
 r s 


 k n−k
,




r +s
n
0,
k = 0, 1, . . . , n
k = n + 1, n + 2, . . .
Ï
7.4 Bemerkung. Werden aus einer Urne mit r roten und s schwarzen Kugeln rein zu-
fällig n Kugeln ohne Zurücklegen gezogen (n, r , s wie in Definition 7.4), so wird
die Anzahl der gezogenen roten Kugeln durch eine Zufallsvariable angegeben, die
eine hypergeometrische Verteilung mit Parametern n, r , s besitzt. Anwendung der
hypergeometrischen Verteilung in der Qualitätskontrolle. Ç
116
6. November 2011 13:28
Totalstetige Verteilungen
7-B Totalstetige Verteilungen
Totalstetige Verteilungen sind die Verteilungen, die eine Dichtefunktion
f : R → R+
besitzen. Sie sind dann natürlich auch stetig, denn für ihre Verteilungsfunktion gilt
F (t) =
Zt
−∞
f (x) dx,
aber nicht jede stetige Verteilung besitzt eine Dichtefunktion. Mit Hilfe der Dichtefunktion können wir Randverteilungen, Erwartungswert, Varianz, Momente . . . sehr
leicht berechnen. Totalstetige Verteilungen sind also sehr angenehm.
7.5 Definition Als Gleichverteilung auf (a, b) mit −∞ < a < b < ∞ wird ein W-Maß auf
B bezeichnet, das eine Dichte
f =
besitzt.
1
1(a,b)
b−a
Ï
7.4 Satz Für eine Zufallsvariable X mit Gleichverteilung auf (a, b) gilt
EX =
a+b
,
2
V(X) =
(b − a)2
.
12
Ï
7.6 Definition Als (eindimensionale) Normalverteilung oder Gauß-Verteilung N(a, σ 2 )
mit Parametern a ∈ R, σ > 0 wird ein W-Maß auf B bezeichnet, das eine Dichte f
mit
f (x) = √
2
1
− (x−a)
e 2σ 2 ,
2π σ
x∈R
besitzt. Speziell heißt N(0, 1) standardisierte Normalverteilung.
Ï
a. Sei f wie in Definition 7.6. Der Graph von f heißt Gaußsche
1
Glockenkurve. Im Fall a = 0 ist f (0) = √
und hat f zwei Wendepunkte
2π σ
1
(±σ ; √
).
2π eσ
7.5 Bemerkungen.
b. Dichte- und die Verteilungsfunktion φ von N(0, 1) sind tabelliert.
6. November 2011 13:28
117
7-B
7
Spezielle Verteilungen
ϕ(t)
√ 1
2πσ
ϕ
7.1
t
σ
−σ
Gaußsche Glockenkurve mit Wendepunkten
c. Ist die Zufallsvariable X N(a, σ 2 )-verteilt, so ist
hierbei
X −a
N(0, 1)-verteilt. Es gilt
σ
P [a − σ ≤ X ≤ a + σ ]
=
2φ(1) − 1
≈
0, 683
P [a − 2σ ≤ X ≤ a + 2σ ]
=
2φ(2) − 1
≈
0, 954
P [a − 3σ ≤ X ≤ a + 3σ ]
=
2φ(3) − 1
≈
0, 997 .
d. Anwendung der Normalverteilung z.B. in der Theorie der Beobachtungsfehler.
Ç
7.5 Satz Sei a ∈ R, σ > 0.
a) Für eine Zufallsvariable X mit Verteilung N(a, σ 2 ) gilt:
E(X − a)2k−1 = 0,
E(X − a)2k = σ 2k
k
Y
j=1
(2j − 1),
k ∈ N;
insbesondere EX = a, V(X) = σ 2 . Die Zufallsvariable Y = cX + b mit 0 ≠ c ∈
R, b ∈ R hat die Verteilung N(ca + b, c 2 σ 2 ).
b) Die charakteristische Funktion von N(a, σ 2 ) ist ϕ mit
ϕ(u) = eiau e−
σ 2 u2
2
.
c) Für a1,2 ∈ R, σ1,2 > 0 gilt
N(a1 , σ12 ) ∗ N(a2 , σ22 ) = N(a1 + a2 , σ12 + σ22 ) .
118
Ï
6. November 2011 13:28
Totalstetige Verteilungen
7.7 Definition Als Exponentialverteilung exp(λ) mit Parameter λ > 0 wird ein W-Maß
auf B oder B bezeichnet, das eine Dichtefunktion f mit


λe−λx , x > 0,
f (x) =

0,
x ≤ 0,
besitzt.
Ï
7.6 Satz Sei λ > 0.
a) Sei X eine erweitert-reelle Zufallsvariable, deren Verteilung auf R+ konzentriert sei, mit P [0 < X < ∞] > 0. X erfüllt
∀ s, t ∈ (0, ∞) : P [X > t + s | X > s] = P [X > t].
genau dann, wenn PX eine Exponentialverteilung ist. Diese Eigenschaft heißt
“Gedächtnislosigkeit”.
b) Für eine Zufallsvariable X mit PX = exp(λ) gilt
EX =
1
,
λ
V(X) =
1
.
λ2
c) exp(λ) hat die charakteristische Funktion ϕ mit
ϕ(u) =
λ
.
λ − iu
Ï
7.6 Bemerkung. Die zufällige Lebensdauer eines radioaktiven Atoms wird durch eine
exponentialverteilte Zufallsvariable angegeben. Ç
7.8 Definition Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν > 0 wird ein W-Maß auf
B oder B bezeichnet, das eine Dichtefunktion f mit



λν ν−1 −λx
x
e
,
Γ (ν)
f (x) =


0,
x>0
x≤0
2
besitzt. Hierbei gilt Γλ,1 = exp(λ). Γ 1 , n wird als Chi-Quadrat-Verteilung χn
mit n(∈
N) Freiheitsgraden bezeichnet. Ï
2 2
7.7 Satz Seien λ, ν > 0, n ∈ N.
6. November 2011 13:28
119
7-B
7
Spezielle Verteilungen
a) Für eine Zufallsvariable X mit PX = Γλ,ν gilt EX =
ν
λ,
V(X) =
ν
λ2
.
b) Γλ,ν hat die charakteristische Funktion ϕ mit
ϕ(u) =
λ
λ − iu
ν
.
c) Für ν1,2 > 0 gilt
Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 .
Insbesondere ist Γλ,n die n-fache Faltung von exp(λ).
d) Die Summe der Quadrate von n unabhängigen jeweils N(0, 1)-verteilten re2
ellen Zufallsvariablen ist χn
-verteilt.
Ï
7.7 Bemerkung. Sind X, Y zwei unabhängige reelle Zufallsvariablen mit PX = N(0, 1)
X
2
als t -Verteilung
und PY = χn
, so wird die Verteilung der Zufallsvariablen p
Y /n
oder Student-Verteilung tn bzw. Stn mit n Freiheitsgraden bezeichnet (n ∈ N). t1
2
bzw. St1 ist eine sogenannte Cauchy-Verteilung — Anwendung von χn
und Stn in
der Statistik.
Ç
Sei {Tn : n ∈ N} eine unabhängige Folge nichtnegativ-reeller Zufallsvariablen
(d.h. Ti und Tj haben jeweils dieselbe Verteilung) mit P [Tn = 0] < 1.
Definiere die Zufallsvariable Nt Í sup {n ∈ N : T1 + . . . + Tn ≤ t} für t ∈ R+ und
der Konvention sup = 0.
Bsp 1 In einem technischen System wird ein Bauelement mit endlicher zufälliger
Lebensdauer bei Ausfall durch ein gleichartiges Element ersetzt. Die einzelnen Lebensdauern seien Realisierung der Zufallsvariablen Tn . Nt gibt die Anzahl der Erneuerungen im Zeitintervall [0, t] an. 7.8 Satz Ist — mit den obigen Bezeichnungen — Tn exp(λ)-verteilt (λ > 0), so ist Nt
π (λt)-verteilt, t ∈ R+ . Ï
» Setze Sk Í T1 + . . . + Tk mit k ∈ N, wobei S0 = 0. Gesucht ist nun
P [Nt = k] = P [Sk à t, Sk+1 > t] = P [Sk à t] − P [Sk+1 à t],
120
6. November 2011 13:28
Totalstetige Verteilungen
denn [Sk+1 > t] = [Sk+1 à t]c und somit ist
[Sk à t] ∩ [Sk+1 à t]c = [Sk à t] \ [Sk+1 à t].
Nun ist Sk Γλ,k verteilt und Sk+1 Γλ,k+1 verteilt. Für die Dichte erhalten wir somit,
P [Nt = k] =
Zt
=e
0
λk
x k−1 e−λx dx −
(k − 1)!
−λt
(λt)k
k!
Zt
0
λk+1 k −λx
x e
dx
k!
Der letzte Schritt folgt durch Differenzieren der Integrale nach t, Zusammenfassen
und anschließendes Integrieren.
«
7.8 Bemerkung. Die Familie {Nt | t ∈ R+ } aus Satz 7.8 ist ein sogenannter Poisson-
Prozess.
Ç
6. November 2011 13:28
121
7-B
8-A
8 Gesetze der großen Zahlen
8-A Konvergenzbegriffe
8.1 Definition Seien Xn , X reelle Zufallsvariablen (für n ∈ N) auf einem W-Raum
(Ω, A, P ). Die Folge (Xn ) heißt gegen X
1.) vollständig konvergent, wenn für jedes ε > 0 gilt
X
n∈N
P [|Xn − X|] á ε] → 0.
c
Schreibweise Xn → X.
2.) konvergent P -fast sicher (P -f.s., f.s.), wenn
P [Xn → X] = 1.
3.) konvergent nach Wahrscheinlichkeit oder stochastisch konvergent, wenn für
jedes ε > 0 gilt
P [|Xn − X| á ε] → 0.
P
Schreibweise Xn → X,
4.) konvergent im r -ten Mittel (r > 0), wenn E |Xn |r , E |X|r < ∞ für n ∈ N und
E |Xn − X|r → 0.
Spezialfall: r = 2, . . . konvergenz im quadratischen Mittel.
5.) konvergent nach Verteilung, wenn für jede beschränkte stetige Funktion g :
R → R gilt
Eg(Xn ) → Eg(X),
6. November 2011 13:28
n → ∞,
123
8
Gesetze der großen Zahlen
oder — hier äquivalent — wenn für die Verteilungsfunktion Fn und F von Xn
bzw. X gilt
Fn (x) → F (x),
n → ∞,
D
in jedem Stetigkeitspunkt x von F . Schreibweise Xn → X. Ï
8.1 Bemerkungen.
a. Seien Fn Verteilungsfunktionen für n ∈ N, dann impliziert (Fn )
konvergiert nicht, dass lim Fn eine Verteilungsfunktion ist.
n→∞
b. Die Grenzverteilungsfunktion in Definition 8.1 e) ist eindeutig bestimmt.
c. Die Konvergenz in e.) entspricht einer schwach*-Konvergenz der Fn im Dualraum von Cb (R). Ç
8.1 Satz Seien Xn , X reelle Zufallsvariablen auf einem W-Raum (Ω, A, P ).
c
a) Falls Xn → X, so gilt Xn → X f.s.
P
b) Falls Xn → X f.s., so gilt Xn → X.
P
c) Falls für r > 0, Xn → X im r -ten Mittel, so gilt Xn → X.
D
P
d) Falls Xn → X, so gilt Xn → X. Ï
» Vorbetrachtung. Seien Xn , X reelle Zufallsvariablen, so gilt
Xn → X P -f.s. a P [ lim Xn = X] = 1
n→∞


\ [ \
aP
[|Xm − X| < ε] = 1
0<ε∈Q n∈N mán
Wobei sich die letzte Äquivalenz direkt aus dem ε − δ-Kriterium für konvergente
Folgen ergibt, wenn man sich für die Wahl von ε auf Q zurückzieht.
Dies ist natürlich äquivalent zu


[ \ [
P
[|Xm − X| á ε] = 0
0<ε∈Q n∈N mán




\ [



a∀ε>0:P
[|Xm − X| á ε] = 0


mán
n∈N |
{z
}
ÍAn (ε)
124
6. November 2011 13:28
Konvergenzbegriffe
Nun ist An ↓ A, d.h. wir können dies auch schreiben als
∀ ε > 0 : lim P (An (ε)) = 0
n→∞
a ∀ ε > 0 : lim P
n→∞
sup |Xm − X| á ε
mán
!
= 0.
Weiterhin gilt
P [|Xn − X| á ε] à P [sup |Xn − X| á ε] à
c
a) Falls Xn → X, dann gilt
P
mán
X
mán
P [|Xn − X| á ε] .
P [|Xn − X| á ε] → 0 und damit auch
Xn → X f.s.
b) Falls Xn → X f.s., so gilt P [sup |Xn − X| á ε] → 0 und damit auch
P [|Xn − X| á ε] → 0.
c) Unter Verwendung der Markov-Ungleichung erhalten wir
P [|Xn − X| á ε] à
1
E |Xn − X|r
εr
P
also Xn → X, wenn Xn → X im r -ten Mittel.
P
d) Sei g : R → R beschränkt und stetig und Xn → X. Es existiert also zu jeder Teil-
folge (Xn0 ) eine konvergente Teilfolge (Xn00 ), die gegen X konvergiert. Somit
gilt g(Xn00 ) → g(X) f.s.
Mit dem Satz von der dominierten Konvergenz erhalten wir somit
Eg(Xn00 ) → Eg(X).
Nun verwenden wir den Satz aus der Analysis, dass eine Folge genau dann
konvergiert, wenn jede Teilfolge eine konvergente Teilfolge besitzt, und alle
diese Teilfolgen denselben Grenzwert haben und erhalten somit, Eg(Xn ) →
D
Eg(X), d.h. Xn → X.
6. November 2011 13:28
«
125
8-B
8
Gesetze der großen Zahlen
8-B Schwache und starke Gesetze der großen Zahlen
8.2 Definition Eine Folge (Xn ) von integrierbaren reellen Zufallsvariablen auf einem
W-Raum (Ω, A, P ) genügt dem schwachen bzw. starken Gesetz der großen Zahlen,
wenn
n
1 X
(Xk − EXk ) → 0,
n k=1
n → ∞ nach Wahrscheinlichkeit bzw. P -f.s.
Ï
8.2 Bemerkung. Genügt eine Folge von Zufallsvariablen dem starken Gesetzt der großen
Zahlen, dann genügt sie auch dem schwachen Gesetz der großen Zahlen. Die Umkehrung gilt im Allgemeinen nicht. Ç
8.2 Kriterium von Kolmogorov für das starke Gesetz der großen Zahlen Eine unab-
hängige Folge (Xn ) quadratisch integrierbarer reeller Zufallsvariablen mit
∞
X
n=1
n−2 V(Xn ) < ∞
genügt dem starken Gesetz der großen Zahlen. Ï
» Wir wollen den Satz zunächst nur unter der stärkeren Bedingung
sup V(Xn ) Î C < ∞
n
(jedoch unter der schwächeren Voraussetzung der paarweisen Unkorreliertheit der
(Xn ) anstatt der Unabhängigkeit). Einen vollständigen Beweis werden wir mit Hilfe
der Martingaltheorie geben können.
Wir zeigen nun
und


X
1 n
C

∀ ε > 0 : P 
Xj − EXj á ε à nε2
n
j=1
(1)
n
1 X
(Xj − EXj ) → 0
n j=1
126
6. November 2011 13:28
Schwache und starke Gesetze der großen Zahlen
im quadratischen Mittel und P -f.s.. Setze Yj Í Xj − EXj , Zn Í
1
n
der Markov-Ungleichung erhalten wir
n
P
j=1
Yj . Mit Hilfe


n
n
1  X  Bienayme 1 X C
ε P [|Zn | á ε] à V(Zn ) = 2 V
Yj
V Yj à .
=
n
n2 j=1
n
j=1
2
Somit folgt (1) und damit
n
1 X
Xj − EXj → 0,
n j=1
im quadratischen Mittel.
Es verbleibt die P -f.s. konvergenz zu zeigen. Betrachte dazu
∞
C X 1
P [Zn2 á ε] à 2
.
ε n=1 n2
n=1
∞
X
also konvergiert Zn2 vollständig und insbesondere auch P -f.s. gegen 0 (mit Satz
8.1). Sei nun n ∈ N, setze
n
o
m(n) Í max m ∈ N : m2 à n
dann folgt m(n)2 à n < (m(n) + 1)2 .
2
m(n)
1 X
1
|Zn | à Y
j + n
n
j=1
|
1
Nun ist n
m(n)
P2 1
Yj à m(n)
2
j=1
Yj j=m(n)2 +1
{z
}
n
X
ÎRn
m(n)
P2
j=1
Yj → 0 P -f.s.. Es genügt also zu zeigen, dass
Rn → 0 P -f.s.. Sei also ε > 0, dann folgt mit der Markov-Ungleichung und dem Satz
von Bienayme
ε2 P [|Rn | á ε] à V(Rn ) à
1
n2
n
X
j=m(n)2 +1
V(Yj ) à
C
(n − m(n)2 )
n2
C
((m(n) + 1)2 − 1 − m(n)2 )
n2
√
C
n
= 2 (2m(n)) à 2C 2 = 2Cn−3/2 .
n
n
à
Da
P
ná0
n−3/2 < ∞, folgt (Rn ) konvergiert vollständig gegen 0.
6. November 2011 13:28
«
127
8-B
8
Gesetze der großen Zahlen
8.3 Kolmogorovsches starkes Gesetz der großen Zahlen Für eine unabhängige Fol-
ge (Xn ) identisch verteilter integrierbarer reeller Zufallsvariablen gilt
n
1 X
Xk → EX1 ,
n k=1
n → ∞, f .s.
Ï
» Um die quadratische Integrierbarkeit der Zufallsvariablen zu gewährleisten, führen wir gestutzte Zufallsvariablen ein durch
Xi0 Í Xi 1[|Xi |ài]
Insbesondere folgt aus der Unabhängigkeit der Xn auch die Unabhängigkeit der Xn0 .
Setze weiterhin
Sn0 =
n
X
i=1
Xi0 ,
kn Í bϑn c
Sn Í
n
X
Xi ,
i=1
für beliebiges aber fest gewähltes ϑ > 1.
∞
X
ε2
n=1
à
à
P
kn
∞
∞
X
X
1 1 X
1
0
Skn − ESk0 n à
V(Sk0 n ) =
V(Xk0 )
2
2
kn
k
k
n=1 n k=1
n=1 n
kn
kn
∞
∞
X
X
1 X
1 X
E((Xk0 )2 ) à
E(Xk2 1[|Xk |àk] )
2
2
k
k
n=1 n k=1
n=1 n k=1
kn
∞
X
1 X
E(X12 1[|X1 |àkn ] ),
k2
n=1 n k=1
denn da alle Zufallsvariablen dieselbe Verteilung besitzten, ist es für den Erwartungswert unerheblich, welche Zufallsvariable speziell ausgewählt wird. Aufgrund
der Linearität von E und dem Satz der monotonen Konvergenz folgt,
à

E X12

∞
X
1
1[|X1 |àkn ]  .
k
n=1 n
Setzen wir n0 Í min {n ∈ N : |X1 | à kn }, so gilt

= E X12
128
∞
X
n=n0

1
1[|X1 |àkn ]  .
kn
6. November 2011 13:28
Schwache und starke Gesetze der großen Zahlen
Außerdem |X1 | à kn0 = bϑn0 c à ϑn0 , also
∞
X
n=n0
wobei
1
bϑn0 c
∞
∞
X
1
1 X 2
2
1
1
1[|X1 |àkn ] à
à n
= n
n
n
0
0
kn
bϑ
c
ϑ
ϑ
ϑ
1
−
n=n0
n=0
à
2
ϑ n0
1
ϑ
à
2
ϑ
,
|X1 | ϑ − 1
, denn es gilt allgemein für positive reelle Zahlen bpc >
erhalten wir für den Erwartungswert,


∞
X
1
ϑ
2ϑ
2
2

E X1
1[|X1 |àkn ]  à E X12
=
E |X1 | < ∞,
k
|X
|
ϑ
−
1
ϑ
−1
1
n=n0 n
p
2.
Also
da E |Xn | < ∞ nach Voraussetzung.
Mit Satz 8.1 folgt
1 0
Skn − ESk0 n → 0,
kn
P -f.s. für n → ∞
wobei
kn
1 X
1
ESk0 n =
E(X1 1[|X1 |àk] ).
kn
kn k=1
Mit dem Satz von der dominierten Konvergenz folgt E(X1 1[|X1 |àk] ) → EX1 und damit,
kn
1 X
E(X1 1[|X1 |àk] ) → EX
kn k=1
nach dem Satz von Césaro–Stolz bzw. dem Cauchyschen Grenzwertsatz.
Sk
Außerdem konvergiert n → EX1 P -f.s., denn
kn
∞
X
n=1
P [Xn =
Xn0 ]
=
∞
X
n=1
P [|Xn | > n] à
dom.konv
=
Z∞
0
n
∞ Z
X
n=1 n−1
P [|Xn | > t] dt
P [|Xn | > t] dt = EX1 .
Mit Lemma von Borel-Cantelli folgt dass Xn und Xn0 für alle bis auf endlich viele n
übereinstimmen, damit
Skn − Sk0 n
kn
6. November 2011 13:28
→ 0,
P -f.s. für n → ∞.
129
8-B
8
Gesetze der großen Zahlen
Zusammenfassend erhalten wir also
Skn − Sk0 n
Sk0 − ESk0 n
ESk0 n
S kn
=
+ n
+
→ EX1 f.s.
kn
kn
kn
k
|
{z
} |
{z
}
| {zn }
→0 f.s.
→0 f.s.
→EX1 f.s.
Sei zunächst Xi á 0 für alle i ∈ N. Dann gilt für alle i mit kn à i à kn+1 ,
Sk
Sk
kn Skn
kn+1
kn Si
Si
à n+1 à n+1
à
à
.
kn+1 kn
kn+1 kn
i
i
kn+1 kn
per definitionem ist
kn
bϑn c
ϑn − 1
1
=
á
→
kn+1
bϑn+1 c
ϑn+1
ϑ
analog erhält man
kn+1
kn
→ ϑ. Somit folgt
1
Sn
Sn
EX1 à lim inf
à lim sup
à ϑEX1 .
n
ϑ
n
n
n
Da ϑ > 1 beliebig und obige Gleichung für alle ϑ gilt, folgt durch den Übergang
ϑ ↓ 1,
EX1 = lim
n→∞
Sn
,
n
P -f.s. n → ∞.
Sei jetzt Xi reellwertig, mit Xi = Xi+ − Xi− , dann ist
n
n
n
1 X
1 X +
1 X −
Xi =
Xi −
X → EX1+ − EX1− = EX1 ,
n i=1
n i=1
n i=1 i
8.3 Bemerkungen.
P -f.s. für n → ∞. «
a. In Satz 8.3 darf die Integrierbarkeitsvoraussetzung nicht weg-
gelassen werden.
b. Die Voraussetzung der Unabhängigkeit in Satz 8.4 kann zur Voraussetzung der
paarweisen Unabhängigkeit abgeschwächt werden (Etemadi).
c. In Satz 8.2 kann bei
P
n−2 V(Xn )(log n)2 < ∞ die Unabhängigkeitsvorausset-
zung zur Voraussetzung der paarweisen Unkorreliertheit (s.u.) abgeschwächt
werden (Rademacher, Menchov). Ç
130
6. November 2011 13:28
Schwache und starke Gesetze der großen Zahlen
8.4 Satz von Tschebyschev Eine Folge (Xn ) quadratisch integrierbarer paarweise un-
korrelierter, d.h. es gilt
∀ j ≠ k : E(Xj − EXj )(Xk − EXk ) = 0,
reeller Zufallsvariablen mit
n−2
n
X
k=1
V(Xk ) → 0,
n → ∞,
genügt dem schwachen Gesetz der großen Zahlen. Ï
8.4 Bemerkung. Für eine unabhängige Folge (Xn ) identisch verteilter reeller Zufallsva-
riablen mit P [X1 = 1] = p, P [X1 = 0] = 1 − p (festes p ∈ [0, 1]) gilt
n
1 X
Xk → p,
n k=1
n→∞
P -f.s. und nach Wahrscheinlichkeit.
Borelsches Gesetz der großen Zahlen bzw. Bernoullisches schwaches Gesetzt der
großen Zahlen.
Ç
Bemerkung 8.4 stellt ein theoretisches Gegenstück zu der Erfahrungstatsache
dar, dass im Allgemeinen die relative Häufigkeit eines Ereignisses bei großer Zahl
der unter gleichen Bedingungen unabhängig durchgeführten Zufallsexperimente
näherungsweise konstant ist.
Wir betrachten nun zwei Beispiele zu Satz 8.3 und Bemerkung 8.4.
Bsp 1 Es seien X1 , X2 , . . . unabhängige identisch verteilte Zufallsvariablen Zn mit
existierenden (endlichen) EX1 Î a und V(X1 ) Î σ 2 . Aufgrund der beobachteten
Realisierungen x1 , . . . , xn von X1 , . . . , Xn wird a geschätzt durch
xn Í
n
1 X
xi
n i=1
das sogenannte empirische Mittel und σ 2 durch
2
sn
Í
n
1 X
(xi − x n )2
n − 1 i=1
die sogenannte empirische Varianz. Für
Xn Í
n
1 X
Xi ,
n i=1
6. November 2011 13:28
Sn2 Í
n
1 X
(Xi − X n )2
n − 1 i=1
131
8-B
8
Gesetze der großen Zahlen
gilt EX n = a, ESn2 = σ 2 (sogenannte Erwartungstreue der Schätzung) und ferner
für n → ∞,
X n → a f.s.,
Sn2 → σ 2 f.s.,
sogenannte Konsistzenz der Schätzfolgen. » Wir zeigen Sn2 → σ 2 P -f.s.. Setzen wir µ = EX1 , so gilt
Sn2


n
n
1 X
n 1 X
2
2
Í
(Xi − X n ) =
(Xi − µ + µ − X n )
n − 1 i=1
n − 1 n i=1




 X

n
n
n
X
X

2
1
n 
1

(Xi − µ)2 +
(Xi − µ) (µ − X n ) +
(µ − X n )2 
=

,
| {z } n
n
−
1
n
n


| {z }  i=1
i=1
i=1

→0 f.s.
|
|
{z
}
{z
}
{z
}
|
→1
2
→σ 2 P -f.s.
→0 P -f.s.
(µ−X n )2 →0 f.s.
→ σ f.s. Bsp 2 Für eine Menge von n radioaktiven Atomen mit unabhängigen exp(λ)-verteilten
Lebensdauern (mit Verteilungsfunktion F ) gebe - bei festem T > 0 - die Zufallsvariable Zn die zufällige Anzahl der Atome an, die von jetzt (Zeitpunkt 0) an bis zum
Zeitpunkt T zerfallen. Die Wahrscheinlichkeit, dass ein gewisses Atom im Zeitintervall [0, T ] zerfällt, ist p = F (T ) = 1 − e−λT . Nach Bemerkung 8.4 konvergiert mit
1
Wahrscheinlichkeit Eins Zn /n → p für n → ∞. Wählt man T so, dass F (T ) = 2 , d.h.
T = (ln 2)/λ (T sog. Median von exp(λ)), dann gilt
f.s.
Zn
1
→ ,
n
2
n → ∞.
Dieses T wird als Halbwertszeit des radioaktiven Elements bezeichnet (nach T Zeiteinheiten ist i.A. bei großem n ungefähr die Hälfte der Atome zerfallen). Bsp 3 Aus der Analysis ist der Satz von Weierstraß bekannt, dass jede stetige Funk-
tion f : R → R auf einem kompakten Intervall gleichmäßiger Limes von Polynomen
ist.
Wir wollen diesen Satz nun unter Verwendung des Kolmogorovschen starken
Gesetz der großen Zahlen beweisen. Dazu verwenden wir Bernstein-Polynome, um
stetige Funktionen über einem kompakten Intervall zu approximieren.
132
6. November 2011 13:28
Schwache und starke Gesetze der großen Zahlen
Sei f : [0, 1] → R stetig. Die Bernsteinpolynome n-ten Grades sind definiert
durch
fn (p) =
n
X
f
k=0
k
n
!
n k
p (1 − p)n−k ,
k
p ∈ [0, 1].
Wir versehen also [0, 1] mit einem Gitter mit Gitterabstand
und multiplizieren mit speziellen Gewichten.
1
n,
werten f an
k
n
aus
Seien U1 , . . . , Un unabhängige auf [0, 1] identisch gleichverteilte Zufallsvariablen.
Wähle p ∈ [0, 1] fest und setze
Xi Í 1[0,p] (Ui ) = 1Ui ∈[0,p] .
Die Xi sind dann unabhängige und b(1, p)-verteilte Zufallsvariablen.
 



n
X

1
E f 
1[0,p] (Ui ) = E 
f
n i=1


 
=
n
X
f
k=0
k
n







n
1 X
Xi
n i=1
| {z }
∈{0,1/n,2/n,...,1}
!
n k
p (1 − p)k = fn (p)
k








Sei ε > 0 beliebig. Da f auf dem kompakten Intervall [0, 1] gleichmäßig stetig,
existiert ein δ > 0, so dass
x − y < δ ⇒ f (x) − f (y) < ε,
für x, y ∈ [0, 1].
Somit gilt
 

n
X
fn (p) − f (p) = E f  1


1[0,p] (Ui )
− f (p)
n
i=1

 



n
n
X
X
1
1
= E f 
1[0,p] (Ui ) − f (p) à E f 
1[0,p] (Ui ) − f (p)
n i=1
n i=1
P
1 n
Falls nun n
1[0,p] (Ui ) − p < δ, ist der Erwartungswert < ε, andernfalls schät i=0
6. November 2011 13:28
133
8-B
8
Gesetze der großen Zahlen
zen wir grob durch die Dreiecksungleichung ab,
#
"
à E ε + 2 f ∞ · 1 1 P
n
n
1
(U )−p áδ i=0 [0,p] i


X
1 n
V 1[0,p] (U1 )

= ε + 2 f ∞ P 
1[0,p] (Ui ) − p n
áδ àε+2 f ∞
nδ2
i=0
p(1 − p)
1
à ε + 2 f ∞
= ε + 2 f ∞
2
nδ
nδ2
Somit fn % f gleichmäßig auf [0, 1].
Bernstein-Polynome haben sehr angenehme Eigenschaften. Ist beispielsweise f
monoton, so ist auch fn monoton. Ist f konvex, so ist auch fn konvex.
134
6. November 2011 13:28
9-A
9 Zentrale Grenzwertsätze
9-A Schwache Konvergenz von Wahrscheinlichkeitsmaßen
in R
Im Folgenden sei stets n ∈ N und “→” bezeichne die Konvergenz für n → ∞.
1.) Seien Qn , Q W-Maße auf der σ -Algebra B der Borelschen Mengen
9.1 Definition
in R. Die Folge (Qn ) heißt gegen Q schwach konvergent (weakly convergent)
— Schreibweise Qn → Q schwach — , wenn für jede beschränkte stetige Funk-
tion g : R → R gilt,
Z
R
g dQ n →
Z
R
g dQ ,
n → ∞.
2.) Seien Xn , X reelle Zufallsvariablen (nicht notwendig auf demselben W-Raum
definiert). Die Folge (Xn ) heißt gegen X nach Verteilung konvergent (converD
gent in distribution, convergent in law) — Schreibweise Xn → X (n → ∞) — ,
wenn PXn → PX schwach, d.h. für jede beschränkte stetige Funktion g : R → R
gilt
Z
R
g dPXn →
Z
R
g dPX ,
n→∞
oder (äquivalent nach dem Transformationssatz für Integrale)
Eg(Xn ) → Eg(X),
9.1 Bemerkungen.
n → ∞.
Ï
a. In Definition 9.1a ist das Grenz-W-Maß Q eindeutig bestimmt.
b. In Definition 9.1b können Xn , X durch reelle Zufallsvariablen Xn0 , X 0 mit PXn0 =
PXn , PX 0 = PX ersetzt werden. Ç
6. November 2011 13:28
135
9
Zentrale Grenzwertsätze
Bevor wir die Eindeutigkeit des Grenz-W-Maßes beweisen, betrachten wir zunächst den Poissonschen Grenzwertsatz
∀ k ∈ N0 : b(n, pn ; k) → π (λ; k),
n → ∞,
falls npn → λ. Dies ist (hier) äquivalent zu
∀ x ∈ R : Fn (x) → F (x),
wobei Fn Verteilungsfunktion einer b(n, p)-verteilten und F Verteilungsfunktion
einer π (λ)-verteilten Zufallsvariable ist.
Seien Xn , X reelle Zufallsvariablen mit Xn =
für n → ∞.
1
f.s., X Í 0 f.s., so gilt Xn → X f.s.
Fn
F
1
n
9.1
1
n
t
Verteilungsfunktionen von X und Xn .
Für die Verteilungsfunktionen folgt
∀ x ∈ R \ {0} : Fn (x) → F (x),
denn 0 ist Unstetigkeitsstelle von F . Wir sehen an diesem Beispiel, dass die Konvergenz der Verteilungsfunktion in Unstetigkeitsstellen im Allgemeinen nicht fordern
können. Wir können jedoch die Konvergenz nach Verteilung durch die Konvergenz
der Fn in Stetigkeitspunkten charakterisieren.
Klassische Definition der Verteilungskonvergenz Seien Xn , X reelle Zufallsvariablen bzw. Qn , Q W-Maße mit Verteilungsfunktion Fn bzw. F . Dann ist
D
Xn → X,
bzw.
Qn → Q schwach,
136
6. November 2011 13:28
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
wenn
∀ Stetigkeitspunkte x von F : Fn (x) → F (x),
n → ∞.
Ï
Diese Definition ist jedoch nicht so allgemein wie die in 9.1, da sie sich nicht auf
unendlichdimensionale Räume übertragen lässt.
» Beweis der Eindeutigkeit des Grenz-W-Maßes. Falls Qn → Q∗ schwach und Qn →
Q∗∗ schwach, so gilt nach Satz 9.2 (noch zu zeigen),
Fn (x) → F ∗ (x),
Fn (x) → F ∗∗ (x)
für jede Stetigkeitsstelle x von F ∗ bzw. F ∗∗ . Aufgrund der rechtsseitigen Stetigkeit
einer Verteilungsfunktion folgt,
∀ x ∈ R : F ∗ (x) = F ∗∗ (x)
und damit auch Q∗ = Q∗∗ .
«
9.1 Satz Seien Xn , X reelle Zufallsvariablen auf (Ω, A, P ). Dann gilt
D
P
Xn → X ⇒ Xn → X.
Ï
» Sei g : R → R stetig und beschränkt. Angenommen E(g(Xn ) − g(X)) konvergiert
nicht gegen Null, es gibt also eine Teilfolge (nk ), so dass
E(g(Xn ) − g(X)) > ε,
k
∀ k ∈ N.
P
Aber da auch Xnk → X, besitzt Xnk eine Teilfolge, die P -f.s. konvergiert. Da g stetig,
folgt somit auch
g(Xnkl ) → g(X) P -f.s.
Da außerdem g beschränkt, können wir den Satz von der dominierten Konvergenz
anwenden und erhalten somit
Eg(Xnkl ) → Eg(X),
im Widerspruch zur Annahme, dass Eg(Xn ) nicht gegen Eg(X) konvergiert.
6. November 2011 13:28
«
137
9-A
9
Zentrale Grenzwertsätze
9.2 Satz Seien Qn , Q W-Maße auf B bzw. reelle Zufallsvariablen Xn , X mit Verteilungs-
funktion Fn , F .
D
Qn → Q schwach bzw. Xn → X gilt genau dann, wenn Fn (x) → F (x) für alle
Stetigkeitspunkte x von F . Ï
D
» “⇒”: Es gelte Xn → X. Sei D Í {x ∈ R : F (x−) = F (x)} die Menge der Stetigkeitspunkte von F . D ist dicht in R, denn F ist monoton und daher ist D c höchstens
abzählbar. Sei x ∈ D. Für jedes p ∈ N setze



1,



fp (y) Í p(x − y),





0,



1,



gp (y) Í p(x − y),




0,
y à x,
xày àx+
x+
1
p
à y,
1
p,
y àx−
x−
1
p
à y à x,
x à y.
gp
x−
9.2
1
p,
1(−∞,x]
1
p
x
fp
x+
1
p
t
Verteilungsfunktionen von X und Xn .
fp , gp : R → [0, 1] sind stetige, beschränkte Approximationen von 1(−∞,x] (y),
wobei
fp (y) ↓ 1(−∞,x] (y),
gp (y) ↑ 1(−∞,x] (y),
p → ∞.
Da Xn nach Verteilung konvergiert, gilt
∀ p ∈ N : lim Efp (Xn ) = Efp (X),
n→∞
∀ p ∈ N : lim Egp (Xn ) = Egp (X).
n→∞
138
6. November 2011 13:28
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
Nach Definition der Verteilungsfunktion ist Fn (x) = E1(−∞,x] (X), also gilt auch
Egp (Xn ) à Fn (x) à Efp (Xn ).
Mit dem Lemma von Fatou folgt außerdem
∀ p ∈ N : Egp (X) à lim inf Egp (Xn ) à lim inf Fn (x) à lim sup Fn (x)
n→∞
n→∞
n→∞
à lim sup Efp (Xn ) à Efp (X),
(*)
n→∞
da fp beschränkt. Weiterhin folgt mit dem Satz von der monotonen Konvergenz,
lim Efp (X) = E1(−∞,x] (X) = P [X à x] = F (x),
p→∞
lim Egp (X) = E1(−∞,x) (X) = P [X < x] = F (x−).
p→∞
Mit (*) folgt F (x − 0) à lim inf Fn (x) à lim sup Fn (x) à F (x). Für x ∈ D gilt
n→∞
n→∞
F (x−) = F (x),
also auch
lim Fn (x) = F (x).
n→∞
“⇐”: Diese Richtung ist etwas mühsamer. Hier approximiert man umgekehrt zur
Hinrichtung eine stetige, beschränkte Funktion g durch Stufenfunktionen. Details
findet man in [Jacod J, Protter P. Probability Essentials].
«
9.3 Satz Seien Xn , X reelle Zufallsvariablen auf (Ω, A, P ). Ist X P-f.s. konstant, so gilt:
D
P
Xn → X a Xn → X.
Ï
» “⇐”: Klar nach Satz 9.1.
“⇒”: Sei X = c P -f.s. mit Verteilungsfunktion F . c ist die einzige Unstetigkeits-
stelle von F .
D
Da Xn → X nach Voraussetzung folt mit Satz 9.1,
∀ R \ {c} : Fn (x) → F (x).
6. November 2011 13:28
139
9-A
9
Zentrale Grenzwertsätze
1
F
c
9.3
x
Verteilungsfunktionen von X.
Sei ε > 0 beliebig aber fest, so gilt
P [|Xn − X| > ε] = 1 − P [|Xn − X| à ε]
P [|Xn − X| à ε] = P [c − ε à Xn à c + ε] á P [c − ε < Xn à c + ε]
= Fn (c + ε) − Fn (c − ε) → 1.
|
{z
} |
{z
}
→F (c+ε)
→F (c−ε)
Somit konvergiert P [c − ε < Xn à c + ε] → 1, also P [|Xn − X| > ε] → 0.
«
9.4 Satz Seien Xn , Yn , X reelle Zufallsvariablen auf (Ω, A, P ). Gilt
D
P
Xn → X,
|Xn − Yn | → 0,
so folgt
D
Yn → X.
Ï
» Sei g : R → R stetig und beschränkt. Ohne Einschränkung können wir annehmen,
dass g gleichmäßig stetig ist (siehe Satz 9.9). Außerdem gilt ohne Einschränkung
|Xn − Yn | → 0 P -f.s.
ansonsten gehen wir zu einer Teilfolge (nk ) über. Betrachte
Eg(Yn ) = Eg(Xn ) + E[g(Yn ) − g(Xn )].
da g gleichmäßig stetig und |Xn − Yn | → 0 P -f.s. gilt g(Yn ) − g(Xn ) → 0 P -f.s..
g(Yn ) − g(Xn ) à c, da g beschränkt, also können wir den Satz von der dominierten Konvergenz anwenden und erhalten E[g(Yn ) − g(Xn )] → 0.
140
6. November 2011 13:28
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
Somit gilt
Eg(Yn ) = Eg(Xn ) + E[g(Yn ) − g(Xn )] → Eg(X) P -f.s..
| {z }
|
{z
}
«
→0 P -f.s.
→Eg(X) P -f.s.
9.5 Spezialfall des Darstellungssatzes von Skorokhod Seien Xn , X reelle ZufallsvaD
riablen mit Xn → X. Dann existiert ein W-Raum (Ω∗ , A∗ , P ∗ ) — wobei man Ω∗ =
[0, 1], A∗ = [0, 1] ∩ B, P ∗ = L-B-Maß auf A∗ wählen kann — und reelle Zufallsvariablen Xn∗ , X ∗ auf (Ω∗ , A∗ , P ∗ ) derart, dass
∀ n ∈ N : PXn = PX∗n∗ , PX = PX∗∗ , Xn∗ → X ∗ P ∗ -f.s. Ï
» Beweisidee. Wähle als Ansatz für Xn∗ , X ∗ die verallgemeinerte Inverse von Fn und
F,
Xn∗ (ω) Í inf {t ∈ R : Fn (t) á ω} ,
X ∗ (ω) Í inf {t ∈ R : F (t) á ω} .
D
Nach Annahme konvergiert Xn → X und daher Fn (x) → F (x) in den Stetigkeitspunkten von F . Zu zeigen ist nun
Xn∗ (ω) → X ∗ (ω)
in den Stetigkeitspunkten ω von X ∗ , also λ-f.ü..
Formaler Beweis. Wähle Ω∗ = (0, 1), A∗ = (0, 1) ∩ B und P ∗ = λA∗ . Seien Fn
und F die Verteilungsfunktionen von Xn und X. Nun setzen wir
Xn∗ (ω) Í inf {t ∈ R : Fn (t) á ω} ,
X ∗ (ω) Í inf {t ∈ R : F (t) á ω} ,
d.h. Xn∗ und X ∗ sind die verallgemeinerten Inversen von Fn bzw. F . Somit sind
Xn∗ und X ∗ monotone Funktionen und damit insbesondere messbar. Wähle für die
Verteilung von X ∗ ,
P ∗ [X ∗ à x] Í F (x) = P [X à x],
so gilt PX∗∗ = PX , entsprechend für Xn und Xn∗ . Somit ist auch klar, dass X ∗ höchstens abzählbar viele Unsteigkeitsstellen hat.
6. November 2011 13:28
141
9-A
9
Zentrale Grenzwertsätze
Es genügt nun zu zeigen Xn∗ → X ∗ für alle Stetigkeitspunkte ω von X ∗ . Sei ω
Stetigkeitspunkt von X ∗ und ε > 0. Es existieren dann Stetigkeitspunkte x1 und x2
von F mit
x1 < X ∗ (ω) < x2 und x2 − x1 < ε,
(*)
Hierbei gilt auch F (x1 ) < ω < F (x2 ), da ω Stetigkeitspunkt von X ∗ , sowie Fn (x1 ) →
D
F (x1 ) und Fn (x2 ) → F (x2 ), da x1 , x2 Stetigkeitspunkte von F und Xn → X. Also
∃ n0 ∈ N ∀ n á n0 : Fn (x1 ) < ω < Fn (x2 )
und damit auch
∀ n á n0 : x1 à Xn∗ (ω) à x2 ,
(**)
wobei lediglich benötigt wird, dass ω Stetigkeitspunkt von X ∗ , nicht unbedingt von
Xn∗ .
Aus (*) und (**) folgt nun Xn∗ (ω) − X ∗ (ω) < ε.
«
D
9.6 Satz von der stetigen Abbildung Seien Xn , X reelle Zufallsvariablen mit Xn → X.
Sei die Abbildung
h : (R, B) → (R, B)
D
PX -f.ü. stetig. Dann gilt h(Xn ) → h(X). Ï
» Sei D Í x ∈ R : h unstetig in x . Den Beweis D ∈ B überspringen wir. Nach
Voraussetzung ist PX (D) = 0.
Nach Satz 9.5 existieren ein W-Raum (Ω∗ , A∗ , P ∗ ) und Zufallsvariablen Xn∗ , X ∗ :
(Ω∗ , A∗ , P ∗ ) → (R, B) mit Xn∗ → X ∗ P ∗ -f.ü. und
PX∗n∗ = PXn ,
PX∗∗ = PX .
Da h stetig, gilt
h(Xn∗ (ω)) → h(X ∗ (ω))
für ω ∈ D c , aber
P ∗ ( ω ∈ Ω∗ : X ∗ (ω) ∈ D ) = P ∗ [X ∗ ∈ D] = PX∗∗ (D) = PX (D) = 0,
142
6. November 2011 13:28
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
D
also gilt h(Xn∗ ) → h(X ∗ ) P ∗ f.s. Somit folgt nach Satz 9.1 h(Xn∗ ) → h(X ∗ ), also
∗
∗
Ph(X
∗ → Ph(X ∗ )
n)
schwach.
∗
∗
∗
Nun ist Ph(X
∗ = (P ∗ )h = (PXn )h = Ph(Xn ) , analog Ph(X ∗ ) = Ph(X ∗ ) . Somit
Xn
n)
Ph(Xn ) → Ph(X)
schwach. «
Wie wir gesehen haben, vertauscht der Limes Operator der Verteilungskonvergenz im Allgemeinen nicht mit der Addition oder der Multiplikation. Für spezielle
Zufallsvariablen erhalten wir jedoch Vertauschbarkeit.
9.7 Satz von Slutsky Seien Xn , Yn und X reelle Zufallsvariablen auf (Ω, A, P ) und c ∈
R.
D
Xn → X,
P
Yn → c,

D

Xn + Yn →
X + c,
⇒
D


 Y X → cX. Ï



n
n
» Sei c ∈ R und Zn Í Xn + (Yn − c), so gilt
|Xn − Zn | = |Yn − c| = 0 f.s.,
P
insbesondere |Xn − Zn | → 0. Somit ist 9.4 anwendbar und daher,
D
Xn + (Yn − c) = Zn → X.
Nun wenden wir den Satz von der stetigen Abbildung an mit
h : R → R,
x , x + c,
so gilt
D
Xn + Yn = h(Xn + (Yn − c)) → h(X) = X + c.
«
9.8 Satz Für reellwertige Zufallsvariablen Xn , X mit Dichten fn bzw. f gilt:
D
fn → f λ-f.ü. ⇒ Xn → X.
6. November 2011 13:28
Ï
143
9-A
9
Zentrale Grenzwertsätze
» Sei g ∈ Cb (R). Wähle c ∈ R, so dass g à c, so folgt
g + c á 0.
Da dPX = f dλ erhalten wir,
Z
Z
Z
g dPX = −c + (c + g) dPX = −c + (c + g)f dλ.
R
R
R
Nun ist f = lim fn = lim inf fn λ-f.ü. nach Vorraussetzung. Da f , fn Dichten und
n→∞
n→∞
daher positiv, können wir das Lemma von Fatou anwenden und erhalten,
Z
Z
Z
gfn dλ
g dPX à −c + lim inf (c + g)fn dλ = lim inf
n→∞
n→∞
R
R
R
Z
Z
à lim sup
gfn dλ = − lim inf
−gfn dλ
n→∞
n→∞
R
R
Z
Z
= c − lim inf
(c − g) fn dλ à c −
lim inf(c − g)fn dλ
n→∞
R | {z }
R n→∞
=
á0
Z
R
gf dλ.
Es gilt also
Z
Z
Z
Z
gfn dλ à lim sup
gfn dλ à
g dPX .
g dPX à lim inf
n→∞
R
Somit existiert lim
R
n→∞ R
lim
n→∞
Z
R
R
n→∞
R
R
gfn dλ und es gilt
g dPXn =
Z
R
g dPX . «
D
Um Xn → X nachzuweisen, müssen wir für jedes stetige beschränkte g nachwei-
sen
Eg(Xn ) → Eg(X).
Der nächste Satz zeigt, dass es genügt, sich auf eine kleinere Menge von Funktionen
zurückzuziehen.
Definition Eine Funktion g : R → R heißt Lipschitz-stetig, falls eine Konstante L ∈ R
existiert, so dass
g(x) − g(y) à L x − y ,
144
∀ x, y ∈ R.
Ï
6. November 2011 13:28
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
Jede lipschitzstetige Funktion ist gleichmäßig stetig und jede gleichmäßig stetige
Funktion ist stetig. Die Umkehrungen gelten im Allgemeinen nicht.
Die gleichmäßig stetigen Funktionen auf R bilden eine echte Teilmenge der stetigen Funktionen.
9.9 Satz Für reellwertige Zufallsvariablen Xn , X gilt:
D
Xn → X a Ef (Xn ) → Ef (X)
für alle beschränkten gleichmäßig stetigen Funktionen f : R → R. Ï
» “⇒”: Klar, denn die Aussage gilt nach Voraussetzung für stetige beschränkte und
somit insbesondere für gleichmäßig stetige beschränkte Funktionen.
“⇐”: Sei f ∈ Cb (R). Zu zeigen ist Ef (Xn ) → Ef (X), da f lediglich stetig und
beschränkt. Setzen wir
α Í sup f (x) = f ∞ .
x∈R
Wir zeigen nun, dass für jedes i ∈ N eine Lipschitz-stetige Funktion gi : R → R
existiert mit
−α à gi à gi+1 à α,
∀ x ∈ R : gi (x) → f (x),
i → ∞.
(*)
Haben wir die Existenz der gi gezeigt, so gilt für i ∈ N
lim inf Ef (Xn ) á lim inf Egi (Xn ) = lim Egi (Xn ) = Egi (X),
n
n→∞
n→∞
(**)
denn die gi sind gleichmäßig stetig und daher konvergiert der Erwartungswert nach
Voraussetzung.
Da die gi durch α beschränkt sind, ist gi (X) + α á 0 und es gilt
lim E(gi (X) + α)
i→∞
mon.konv
=
E(f (X) + α).
Somit gilt auch lim E(gi (X)) = Ef (X). Zusammen mit (**) erhalten wir also
i→∞
lim inf Ef (Xn ) á Ef (X).
n→∞
Analog erhalten wir mit f ersetzt durch −f ,
lim sup Ef (Xn ) à Ef (X).
n→∞
6. November 2011 13:28
145
9-A
9
Zentrale Grenzwertsätze
Insgesamt gilt also Ef (Xn ) → Ef (X) und die Behauptung ist gezeigt.
Wir müssen also noch die Behauptung (*) nachweisen. Es genügt, eine Folge
(hk )k∈N Lipschitz-stetiger Funktionen zu finden mit
hk á −α und ∀ x ∈ R : sup hk (x) = f (x).
k∈N
Denn dann leistet gi mit gi (x) = max {h1 (x), . . . , hi (x)} das Gewünschte, denn
das Maximum über endlich viele Lipschitz-stetige Funktionen ist wieder Lipschitzstetig.
Wir können ohne Einschränkung davon ausgehen, dass f á 0, ansonsten ersetzen wir f durch f˜ = f + α á 0. Wähle A ∈ B und setze
dA (x) = inf x − y : y ∈ A .
dA ist der Hausdorffabstand des Punktes x von der Menge A. Sei r á 0 rational,
m ∈ N und
n
o
hm,r (x) = min r , (m · d{t:f (t)àr } (x)) ,
so sind die hm,r lipschitz, denn
hm,r (x) − hm,r (y) à m d{t:f (t)àr } (x) − d{t:f (t)àr } (y) à m x − y ,
außerdem sind die hm,r beschränkt, denn hm,r à r , und hm,r (x) = 0 für x
mit f (x) à r . Insbesondere
0 à hm,r (x) à f (x),
∀ x ∈ R.
Wähle x ∈ R, ε > 0 beliebig aber fest. Wähle außerdem 0 à r ∈ Q so, dass
f (x) − ε < r < f (x).
Es gilt f (y) > r für alle y aus einer hinreichend kleinen Umgebung von x, da f
stetig. Somit folgt
d{t:f (t)àr } (x) > 0,
also ist auch
hm,r (x) = r
146


< f (x),

> f (x) − ε,
6. November 2011 13:28
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R
f
h2,r
h1,r
x
9.4
hm,r (x) für f (x) = x 2 , r = 1 und m = 1, 2.
für m hinreichend groß.
Die Menge hm,r : m ∈ N, 0 à r ∈ Q ist abzählbar. Sei
{hk : k ∈ N}
eine Abzählung dieser Menge. Nach Konstruktion gilt nun


à f (x),
sup hk (x)
á f (x) − ε,

k∈N
also sup hk (x) = f (x), da ε > 0 beliebig.
k∈N
«
9.10 Satz von Lévy-Cramér; Stetigkeitssatz Seien Qn , Q W-Maße auf B mit charakte-
ristischen Funktionen ϕn , ϕ : R → C. Dann gilt:
Qn → Q schwach a ∀ u ∈ R : ϕn (u) → ϕ(u).
Ï
» “⇒”: Sei ϕn die charakteristische Funktion von Qn , also
Z
Z
Z
ϕn (u) =
eiux dQ n (x) =
cos(ux) dQ n (x) + i
sin(ux) dQ n (x).
R
R
R
sin und cos sind beschränkte Funktionen also,
Z
Z
Z
ϕn (u) →
cos(ux) dQ (x) + i
sin(ux) dQ (x) =
eiux dQ (x)
R
R
R
= ϕ(u).
6. November 2011 13:28
147
9-A
9
Zentrale Grenzwertsätze
“⇐”: Seien Yn , Y0 , X unabhängige Zufallsvariablen auf (Ω, A, P ) mit Yn ∼ Qn , Y0 ∼
Q, X ∼ N(0, 1). Dann gilt für alle α > 0,
PYn +αX = PYn ∗ PαX .
Nach Übungsaufgabe 40 besitzt PYn +αX die Dichte
gn,α (x) =
1
2π
Z
e−ux ϕn (u)e−
(αu)2
2
du .
Der Integrand besitzt eine integrierbare Majorante, denn
2 2
−ux
− (αu)
e
à e−ux e− (αu)
2
2
,
ϕ
(u)e
n
also können wir den Satz von der dominierten Konvergenz anwenden und erhalten,
∀ x ∈ R : gn,α (x) →
1
2π
Z
R
e−ux ϕ(u)e−
(αx)2
2
du .
Unter Verwendung des Satzes 9.8 erhalten wir
D
Yn + αX → Y0 + αX.
(*)
D
Zum Nachweis von Yn → Y0 genügt es nach Satz 9.9 zu zeigen, dass für beliebige
beschränkte gleichmäßig stetige Funktionen gilt f : R → R
Z
f (Yn ) dP →
Z
f (Y0 ) dP .
Seien also f wie vorausgesetzt, ε > 0 und δ > 0, so dass
f (y + x) − f (y) < ε ,
6
∀ x, y ∈ R mit |x| < δ.
Wähle außerdem α > 0 mit
P [|αX| á δ] à
ε
.
12 f ∞
Nach (*) existiert ein n0 so, dass
Z
ε
∀ n á n0 : f (Yn + αX) − f (Y0 + αX) dP < 3 .
Ω
148
6. November 2011 13:28
Zentrale Grenzwertsätze
Dann gilt für n á n0 ,
Z
Z
f (Yn ) − f (Yn + αX) dP
f (Yn ) − f (Y0 ) dP à
Ω
|Ω
{z
}
(1)
Z
+
f (Yn + αX) − f (Y0 + αX) dP Ω
|
{z
}
(2)
Z
f (Y0 + αX) − f (Y0 ) dP .
+
Ω
|
{z
}
(3)
(1): Wir nutzen die gleichmäßige Stetigkeit von f aus,
Z
Z
f (Yn ) − f (Yn + αX) dP =
f (Yn ) − f (Yn + αX) dP
Ω
|αX|áδ
Z
f (Yn ) − f (Yn + αX) dP
+
|αX|<δ
(2) <
(3) <
ε
3 für n á n0 .
ε
6 P [|αX| < δ]
ε
< 2 f ∞ P [|αX| á δ] + P [|αX| < δ]
6
ε
ε
ε
+ ·1= .
à 2 f ∞
12 f ∞
6
3
+ 2 f ∞ P [|αX| á δ] à 3ε .
D
Somit Ef (Yn ) → Ef (Y0 ), d.h. Yn → Y0 .
«
9.2 Bemerkung. Die obigen Definitionen und Sätze lassen sich auf W-Maße auf Bk bzw.
k-dim. Zufallsvektoren übertragen.
Ç
9-B Zentrale Grenzwertsätze
Ausssagen über die Approximation von Verteilungen, insbesondere der Verteilungen von Summen von Zufallsvariablen, durch die Normalverteilung im Sinne der
schwachen Konvergenz werden als zentrale Grenzwertsätze bezeichnet.
9.11 Zentraler Grenzwertsatz von Lindeberg-Lévy im 1-dim. Fall Sei (Xn )n∈N eine un-
abhängige Folge identisch verteilter quadratisch integrierbarer reeller Zufallsvariablen mit EX1 Î a, V(X1 ) Î σ 2 mit σ > 0. Dann
√
n
1 X
(Xk − a)
nσ k=1
6. November 2011 13:28
D
-→
N(0, 1)-verteilte reelle Zufallsvariable. Ï
149
9-B
9
Zentrale Grenzwertsätze
» Ohne Einschränkung können wir a = 0 und σ = 1 annehmen (andernfalls ersetzen wir Xk durch
n
X
Xk −a
σ ).
X1 habe die charakteristische Funktion ϕ, dann besitzt
Xk
k=1
nach Satz 6.4 die charakteristische Funktion ϕn . Somit hat
n
1 X
√
Xk
n k=1
·
die charakteristische Funktion ϕn ( √n ). Nach Satz 9.10 genügt es zu zeigen,
∀ x ∈ R : ϕn
e−
u2
2
u
√
n
→ e−
u2
2
.
ist nach Bemerkung 6.4 die charakterisitsche Funktion einer N(0, 1)-Verteilung.
Nach Satz 6.6 besitzt ϕ wegen EX12 < ∞ eine stetige 2. Ableitung und daher nach
dem Satz von Taylor eine Darstellung
ϕ(u) = ϕ(0) + uϕ0 (0) +
= 1 + iuEX1 −
u2 00
ϕ (0) + ρ(u)
2
u2
EX12 + ρ(u),
2
mit einem Restterm ρ(u) der Ordnung o(u2 ), d.h.
lim
u→0
ρ(u)
= 0.
u2
Nach Voraussetzung ist EX1 = a = 0 und EX1 (X1 − 1) = EX12 = VX1 = 1 und daher
u2
+ ρ(u).
2
ϕ(u) = 1 −
Für u ∈ R beliebig aber fest gilt
ϕ
2
u
√
n
=

!n
u2
u
1−
= 1 −
+ρ √
2n
n
Nach Voraussetzung nρ

1 −
150
u2
2
+ nρ
n
√u
n
√u
n
n
u2
2
+ nρ
n
√u
n
n

→ 0 für n → ∞, also
 → e−
u2
2
.
«
6. November 2011 13:28
Zentrale Grenzwertsätze
Als unmittelbares Korollar erhalten wir.
9.2 Zentraler Grenzwertsatz von de Moivre und Laplace Für eine unabhängige Folge
(Xn )n∈N identisch verteilter reeller Zufallsvariablen auf (Ω, A, P ) mit
P [X1 = 1] = p,
gilt für n → ∞
P [X1 = 0] = 1 − p Î q,
"
∀α<β∈R:P α <
(=)
Pn
(0 < p < 1)
#
Zβ
Xk − np
1
2
<β → √
e−t /2 dt .
√
npq
(=)
2π α
k=1
Ï
Bsp 1 Volksabstimmung zu Vorschlägen A und B. Eine resolute Minderheit von
3.000 Personen stimmt für A. Weitere 1.000.000 Personen stimmen zufällig ab.
Wie groß ist die Wahrscheinlichkeit, dass A angenommen wird? Bezeichne die
“gleichgültigen” Wähler mit den Nummern k = 1, 2, 3, . . . , 1.000.000,


1, Wähler wählt A,
Xk =
0, Wähler wählt B.

Somit sind X1 , X2 , . . . unabhängig und b(1, 1/2)-verteilt. Seien n = 1.000.000, r =
3.000, so wird der Vorschlag A angenommen, wenn
n
X
k=1
Xk + r > n −
n
X
Xk ,
k=1
d.h. genau dann, wenn
n
X
Xk >
k=1
n−r
= 498.500.
2
Die Wahrscheinlichkeit dafür ist gegeben durch,
P

n
n
n
X
Xk − 2
498.500
−
500.000
k=1
q
P[
Xk > 498.500] = P 
>
= −3 .
500
n 14
k=1
Korollar 9.2 besagt, dass
P
P
n
k=1
6. November 2011 13:28
Xk −
q
1
n4
n
2
Pn
k=1
q

Xk −
1
n4
n
2
annähernd N(0, 1)-verteilt ist, d.h.
P
> −3 = 1 − P 
n
k=1
q
Xk −
n
2
1
n4
≈ 1 − Φ(−3) = 0.9986.

à −3
151
9-B
9
Zentrale Grenzwertsätze
Obwohl lediglich 3.000 Personen sicher für A stimmen, wird der Vorschlag mit
einer Wahrscheinlichkeit von 99.86% angenommen.
Dies ist auch der Grund dafür, dass Vorschläge, die den Großteil der Abstimmenden nicht interessieren, bereits von einer kleinen Gruppe von Entschlossenen
durchgesetzt werden können. Normal- oder Poisson-Approximation?
Seien Xn unabhängige b(1, p)-verteilte Zufallsvariablen. Nach dem Grenzwertsatz von de Moivre-Laplace gilt
n
X
i=1
|
D
X −p
p i
≈ N(0, 1)-verteilt für “große” n.
np(1 − p)
{z
}
(1)
→N(0,1)−vert. ZV
Andererseits gilt nach dem Grenzwertsatz von Poisson
n
X
j=1
Xi ≈ π (npn ), falls n “groß” und pn “klein”,
(2)
| {z }
D
→π (λ)
und npn → λ ∈ (0, ∞) (siehe Übungsaufgabe 45).
Im Fall (1) sind die Summanden dem Betrag nach klein für großes n, während im
Fall (2) nur die Wahrscheinlichkeit, pn = P [Xn = 1], klein ist, dass die Summanden
nicht klein sind.
Als Faustregel gilt
(a) Normal-Approximation ist “gut”, falls np(1 − p) á 9.
(b) Poisson-Approximation ist “gut”, falls n á 50 und p à 0.05.
Im Allgemeinen können Poisson- und Normal-Approximation (für kleine n) nicht
gleichzeitig angewendet werden.
9.3 Bemerkungen.
a. Seien Xn unabhängige, identisch verteilte reelle Zufallsvaria-
blen mit endlichen Varianzen und µ = EX1 , so gilt nach dem starken Gesetz
der großen Zahlen,
n
1 X
1
Sn Í
Xi → µ,
n
n i=1
152
P -f.s. und L2 .
6. November 2011 13:28
Zentrale Grenzwertsätze
Sei ε > 0. Wie groß ist nun n0 zu wählen, so dass
1
Sn − µ < ε,
n
n á n0 ?
Mit Standardmethoden der Analysis lässt sich die Fragestellung umformulieren
zu
Sn
∃ α > 0 ∃ c ≠ 0 : lim nα − µ
= c,
n→∞
n
P -f.s.?
Ein solches α existiert nicht, da nach dem zentralgen Grenzwertsatz
1
n2
Für α <
1
2
Sn
D
− µ → N(0, V(X1 ))-verteilte Zufallsvariable.
n
liegt nach dem Satz von Slutsky Verteilungs-Konvergenz gegen Null
vor, also auch nach Wahrscheinlichkeit.
b. In der Praxis ist die Verteilungsfunktion F der Zufallsvariablen X meist unbekannt. Seien dazu X1 , . . . , Xn unabhängige Zufallsvariablen mit Verteilungsfunktion F . Schätze Fn durch
F̂n (x) Í F̂n (x, ω) Í
n
1 X
1[Xi (ω)àx] ,
n i=1
x ∈ R,
wobei F̂n (x) die relative Anzahl derjenigen X1 , . . . , Xn bezeichnet mit Xi à
x. F̂n heißt empirische Verteilungsfunktion zu X1 , . . . , Xn . Nach dem starken
Gesetz der großen Zahlen von Kolmogorov gilt P -f.s.
lim F̂n (x) = lim
n→∞
n→∞
n
1 X
1[Xi àx] = EY1 (x) = E1[X1 àx] = P [X1 à x]
n i=1 | {z
}
ÍYi (x)
= F (x),
also F̂n (x) → F (x) P -f.s. und L2 . Eine Verschärfung dieser Aussage liefert der
Satz von Glivenko-Cantelli Seien Xn , X unabhängige und identisch verteilte
Zufallsvariablen. Die empirische Verteilungsfunktion F̂n konvergiert P-f.s. gleichmäßig gegen F , d.h.
∀ ε > 0 ∃ n0 ∈ N ∀ x ∈ R, n á n0 : sup F̂n (x) − F (x) < ε f.s..
x∈R
6. November 2011 13:28
Ï
153
9-B
9
Zentrale Grenzwertsätze
Dieser Satz wird in der mathematischen Statistik bewiesen und heißt auch
Hauptsatz der Statistik.
Nach dem zentralen Grenzwertsatz gilt


n
√
√ 1 X

n F̂n (x) − F (x) = n
1[Xi àx] − E1[X1 àx] 
n i=1
Pn
i=1 1[Xi àx] − E1[X1 àx] D
√
=
→ N(0, σ 2 (x))
n
wobei σ 2 (x) = V(1[X1 àx] ) = F (x)(1 − F (x)) und 1[X1 àx] eine b(1, F (x)) ver
F (x)(1−F (x)
teilte Zufallsvariable. Somit ist F̂n (x) − F (x) approximativ N 0,
n
verteilt.
Da σ (x) à 1/4 für alle x ∈ R, gilt für ein vorgegebenes ε > 0 und eine N(0, 1)-
verteilte Zufallsvariable Z,
"
s
n
P [|F̂n (x) − F (x)| à ε] ≈ P |Z| à F (x)(1 − F (x))
√ á P |Z| à 2 nε
√
= 2Φ(2ε n) − 1
#
Zahlenbeispiel ε = 0.1, n = 100, dann ist P [|F̂n (x) − F (x)| à ε] Û 0, 955 für
jedes x und jede Verteilfungsfunktion F . c. Satz von Berry-Esseen Seien Xn unabhängige identisch verteilte Zufallsvariablen mit EX1 = µ, V(X1 ) = σ 2 und E |X1 |3 < ∞. Dann gilt
"
#
Pn
√
E |X1 |3
i=1 (Xi − µ)
n
sup P
à x − Φ(x) à c 3 √ ,
nσ
σ n
x∈R
mit c < 0.7975, wobei
"
√
P
n
Pn
i=1 (Xi
nσ
− µ)
àx
#
→ Φ(x) =
nach dem zentralen Grenzwertsatz. Ï
154
Zx
−∞
1 − t2
e 2 dt .
2π
Ç
6. November 2011 13:28
Zentrale Grenzwertsätze
9.12 Zentraler Grenzwertsatz von Lindeberg Die Folge (Xn )n∈N quadratisch integrier-
barer reeller Zufallsvariablen
mit EX12 > 0, EXn = 0, sei unabhängig und erfülle —
q
P
n
2
2
Í i=1 EXi2 , sn = sn
mit sn
— die klassische Lindeberg-Bedingung
n
1 X
E(Xi2 1[|Xi |>εsn ] ) → 0.
2
sn
i=1
∀ε>0:
(LB)
Dann
n
1 X
Xi
sn i=1
D
-→
N(0, 1)-verteilte Zufallsvariable.
Ï
Die Lindeberg-Bedingung stellt sicher, dass der Einfluss aller Zufallsvariablen ungefähr “gleich groß ist”. Salop kann man sagen, dass ein Zentraler Grenzwertsatz
immer existiert, wenn man eine Größe betrachtet, die aus sehr vielen aber kleinen und nahezu unabhängigen Einflüssen besteht. In diesem Fall kann man stets
vermuten, dass die Summe der Einflüsse normalverteilt ist.
Als Beispiel sei der Kurs einer Aktien genannt, die sich im Streubesitzt befindet. Durch unabhängige Kauf- und Verkaufsaktionen haben die Aktienbesitzer nur
einen geringen Einfluss auf den Kurs, in ihrer Gesamtheit führt dies aber zu normalverteilten Tages-Renditen. Befindet sich die Aktie dagegen im Besitz einiger
weniger Großaktionäre, sind die Aktienkurse nicht mehr (log)normalverteilt.
9.4 Bemerkungen.
a. In Satz 9.12 dient die Folge (sn ) zur Normierung. Die Lindeberg-
Bedingung (LB) schränkt den Einfluss der einzelnen Zufallsvariablen ein.
b. In Satz 9.12 — mit am Erwartungswert zentrierten Zufallsvariablen — impliziert
die klassische Lindeberg-Bedingung (LB) die klassische Feller-Bedingung
max
i=1,...,n
1
EXi2
2
sn
!
→0
und wird ihrerseits durch die klassische Ljapunov-Bedingung
∃δ>0:
1
2+δ
sn
n
X
i=1
E|Xi |2+δ → 0
impliziert. Bei nicht am Erwartungswert zentrierten Zufallsvariablen ist jeweils
Xi durch Xi − EXi , auch in der Definition von sn , zu ersetzen.
c. Satz 9.12 ⇒ Satz 9.11. Ç
6. November 2011 13:28
155
9-B
9
Zentrale Grenzwertsätze
Satz 9.12 folgt aus
9.13 Zentraler Grenzwertsatz von Lindeberg für Dreiecksschemata von ZVn Für jedes
n ∈ N seien Xn,1 , . . . , Xn,mn unabhängige quadratisch integrierbare reelle Zufallsvariablen mit mn → ∞ für n → ∞. Ferner seien
m
Xn
EXn,i = 0,
i=1
2
EXn,i
=1
und die Lindeberg-Bedingung
∀ε>0:
m
Xn
i=1
2
E Xn,i
1[|Xi |>ε] → 0.
erfüllt. Dann
m
Xn
i=1
D
Xn,i → N(0, 1)-verteilte Zufallsvariable.
Ï
Bevor wir den Satz beweisen, betrachten wir folgendes Beispiel.
Bsp 2 Seien Xn unabhängige, identisch verteilte, quadratisch integrierbare reelle
Zufallsvariablen mit
EX1 = 0,
EX12 = 1,
Sn Í
n
X
Xi .
i=1
Wir zeigen
3
n− 2
n
X
k=1
Sk → N(0,
1
)-verteilte Zufallsvariable.
3
Der zentrale Grenzwertsatz von Lindeberg 9.12 lässt sich so nicht anwenden, da
beispielsweise die Unabhängikeit in Bezug auf die Sk verletzt ist. Es gilt jedoch,
n
n
k
n
p
p
p
3 X
3 X X
3 X
3n− 2
Sk = 3n− 2
Xj = 3n− 2
k=1
k=1 j=1
j=1
n
X
Xj .
k=j
| {z }
(n−j+1)Xj
Die Vertauschbarkeit der Summen macht man sich schnell an der Skizze klar.
156
6. November 2011 13:28
Zentrale Grenzwertsätze
j
n
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
n k
9.5
Zur Vertauschbarkeit der Summen.
Setzen wir nun Xn,j =
√
9.13 erfüllt, denn
EXn,j = 0,
m
Xn
2
EXn,j
=
j=1
n
X
E
j=1
→3
Z1
0
p
3
3n− 2 (n − j + 1)Xj , so sind die Voraussetzung von Satz
3
3n− 2 (n − j + 1)Xj
2
=3
n 1 X
j−1 2
1−
n j=1
n
(1 − t)2 dt = 1.
Außerdem ist (LB) erfüllt, da für ε > 0,
3
n
X
j=1
à
En−3 (n − j + 1)2 Xj2 1
3
√
[ 3n− 2 (n−j+1)Xj >ε]
n
3 X
1
E X21 √
→ 0,
n j=1 | 1 [ 3n{z− 2 |X1 |>ε]}
→0 in Ω
denn X12 1
1
√
[ 3n− 2 |X1 |>ε]
à X12 und EX12 < ∞, also können wir den Satz von der do-
minierten Konvergenz anwenden. Somit konvergieren die Erwartungswerte gegen
Null und nach dem Satz von Stolz-Cesàro konvergiert daher auch das arithmetische
Mittel gegen Null.
Somit gilt
n
n
X
p
3 X
D
3n− 2
Sk =
Xn,j → N(0, 1)
k=1
j=1
Zur Beweisvorbereitung benötigen wir noch einige Ergebnisse.
6. November 2011 13:28
157
9-B
9
Zentrale Grenzwertsätze
Lemma Seien zi , ηi ∈ C mit |zi | , |ηi | < 1, so gilt,
Y
X
n
n
Y
n
zi −
|zi − ηi | . Ï
ηi à
i=1
i=1
i=1
» Der Beweis erfolgt durch Induktion. Der Induktionsanfang mit n = 1 ist klar.
“n = 2”:
z1 z2 − η1 η2 = z1 (z2 − η2 ) + η2 (z1 − η1 ),
⇒ |z1 z2 − η1 η2 | à |z2 + η2 | + |z1 + η1 | .
Der Induktionsschritt erfolgt analog.
«
Aus der Analysis kennen wir die
Taylor-Formel mit Integralrestglied Sei I ⊂ R ein Intervall und f : I → C mindestens (n + 1)-mal stetig differenzierbar, so gilt für a ∈ I
f (x) =
Z
n
X
f (k) (0)
1 x
(x − a)k +
(x − t)n f (n+1) (t) dt .
k!
n! a
k=0
Ï
Als unmittelbare Konsequenz erhalten wir
x2 Hilfsformel 1 eix − (1 + ix − 2 ) à min x 2 , x 3 . Ï
» Nach dem Taylor-Formel gilt für a = 0 und m ∈ N,
ix
e
Z
m
X
1 x m
1
k
i (x − s)m eis ds .
(ix) +
=
k!
m! 0
k=0
Zx
|x|2
is
à
m = 1 : eix − (1 + ix) = ,
ie
(x
−
s)
ds
2
0
3
x2 |x|
m = 2 : eix − (1 + ix −
) à
à |x|3 .
2 6
und folglich
|x|2
x2 ix
e − (1 + ix −
) à eix − (1 + ix) +
à |x|2 .
2 2
Zusammenfassend also
n o
x2 ix
e − (1 + ix −
) à min x 2 , x 3 . «
2
158
6. November 2011 13:28
Zentrale Grenzwertsätze
1
Hilfsformel 2 Für x á 0 gilt |e−x − (1 − x)| à 2 x 2 . Ï
» |e−x − (1 − x)| à
Rx
0
|e−s (x − s)| ds à
Rx
0
|x − s| ds = 21 x 2 .
«
» Beweis von Satz 9.13 Wir zeigen zunächst, dass das Maximum der Varianzen von
Xn,1 , . . . , Xn,nm gegen Null konvergiert. Sei also ε > 0
Z
2
2
max V(Xn,i ) = max
Xn,i
1[|Xn,i |àε] + Xn,i
1[|Xn,i |>ε] dP
i∈{1,...,mn }
i∈{1,...,mn }
à ε2 +
Z m
Xn
|
Ω
i=1
Ω
2
Xn,i
1[|Xn,i |>ε] dP .
{z
→0 nach Vor.
}
Somit konvergiert das Maximum gegen Null, da ε beliebig.
Pn
Pn
Seien nun Sn = i=1 Xi und Cn,i Í VXn,i , so gilt nach Annahme i=1 Cn,i = 1.
Nach Satz 6.7 gilt für t ∈ R,
Y
X
m
n 2 2 2 Yn
n
−Cn,i t2 ϕS (t) − e− t2 = ϕX (t) − e−Cn,i t2 , (*)
e
ϕXn,i (t) −
n
à
n,i
i=1
i=1
i=1
nach dem obigen Lemma. Anwendung von Hilfsformel 1 und EXn,i = 0 ergibt,
! Z
!
2
t2 2 t
= eitXn,i − 1 − itXn,i − Xn,i
ϕn,i (t) − 1 − cn,i
dP 2 Ω
2
Z
n
2 3 o
HF1
à
min tXn,i , tXn,i dP
Ω
n
oZ
2
à max 1, |t|3
Xn,i
min 1, Xn,i dP ,
|
{z
} Ω
α
wobei
Z
2
Xn,i
min 1, Xn,i dP à
Durch Summation erhalten wir,
Z
[|Xn,i |>ε]
2
Xn,i
dP +
Z
2 Xn,i
Xn,i dP
|
{z
}
[|Xn,i |àε]
àε
2
à E Xn,i
1[|Xn,i |>ε] + εCn,i .


m

!
m
m

 Xn Xn
Xn t2 

2
ϕn,i (t) − 1 − Cn,i
à α
E Xn,i 1[Xn,i >ε] +ε
Cn,i 


2 i=1

i=1
i=1
|
{z
}
| {z }
→0,
6. November 2011 13:28
n→∞
(1)
=1
159
9-B
9
Zentrale Grenzwertsätze
Also konvergiert der gesamte Ausdruck gegen Null für n → ∞, da ε > 0 beliebig.
Da Cn,i Varianz, ist Cn,i á 0. Wir können somit Hilfsformel 2 anwenden und
erhalten,
!
mn
m
Xn
t2 t2
−Cn,i t22
HF2 t 2 X 2
e
à
Cn,i à
max Cn,i
Cn,i .
− 1 − Cn,i
2
4 i=1
4 1àiàmn
i=1
|
{z
} j=1
| {z }
m
Xn
→0,
n→∞
(2)
=1
Wenden wir die Dreieckungsungleichugn sowie (1) und (2) auf (*) an, so folgt
t2
∀ t ∈ R : ϕSn (t) → e− 2 . «
Multivariate zentrale Grenzwertsätze
Ist X ein d-dimensionaler integrierbarer Zufallsvektor, d.h. E kXk < ∞, so heißt
EX = (EX1 , . . . , EXd )>
Erwartungsvektor von X.
Ist X ein d-dimensionaler quadratisch integrierbarer Zufallsvektor, d.h. E kXk2 <
∞, so heißt
Cov(X) Í (Cov(Xi , Xj ))i,j∈{1,...,d}
Kovarianzmatrix von X, wobei die einzelnen Einträge die Kovarianzen
Cov(Xi , Xj ) Í E(Xi − EXi )(Xj − EXj )
der reellwertigen Zufallsvariablen Xi und Xj darstellen.
Auf der Hauptdiagonalen der Kovarianzmatrix stehen die Varianzen der Xi . Insbesondere ist im eindimensionalen Fall gerade VX = Cov(X). Die Nebendiagonal-
elemente können als Maß für die stochastische Abhängigkeit der Xi , Xj interpretiert werden. Sind alle Komponenten unabhängig, so ist die Kovarianzmatrix eine
Diagonalmatrix.
9.2 Definition Ein d-dimensionaler Zufallsvektor X = (X1 , . . . , Xd )> heißt multivariat
normalverteilt (oder auch d-dimensional normalverteilt), falls für jedes u ∈ Rd die
Pd
Zufallsvariable hu, Xi = ut X = i=1 ui Xi eindimensional normalverteilt ist, wobei
eine 1-dimensionale Normalverteilung mit Varianz 0 als eine Dirac-Verteilung δa im
Punkt a interpretiert wird.
160
Ï
6. November 2011 13:28
Zentrale Grenzwertsätze
9.3 Definition Seien Xn , X d-dimensionale Zufallsvektoren so konvergiert Xn → X nach
Verteilung für n → ∞, wenn
∀ f ∈ Cb (Rn ) : Ef (Xn ) → Ef (X).
D
Schreibe Xn → X. Ï
D
9.14 Satz (Cramér-Wold-Device) Für d-dimensionale Zufallsvektoren Xn und X gilt Xn →
D
X genau dann, wenn hu, Xn i → hu, Xi für alle u ∈ Rd . Ï
» Der Beweis wird in den Übungen behandelt.
«
9.15 Multivariater zentraler Grenzwertsatz Seien Xn,1 , . . . , Xn,mn unabhängige quadra-
tisch integrierbare d-dimensionale Zufallsvariablen mit mn → ∞ für n → ∞. Des
Weiteren gelte
(a) ∀ n ∈ N ∀ i ∈ {1, . . . , mn } : EXn,i = 0,
(b) ∀ n ∈ N :
(c) ∀ ε > 0 :
Dann
m
Xn
i=1
» Sn Í
P mn
i=1
P mn
i=1
Cov(Xn,i ) = C ∈ Rd×d ,
E kXk2n,i 1[kXi k>ε] → 0.
D
Xn,i → N(0, C)-verteilten Zufallsvektor.
P mn
i=1
Ï
Xn,i . Wegen Satz 9.14 genügt es zu zeigen,
D
∀ u ∈ Rd : hu, Sn i → N(0, hu, Cui).
1. Fall hu, Cui = 0. Dann ist
V(hu, Sn i) = 0,
also hu, Sn i = 0 P -f.s.
2. Fall hu, Cui > 0. Wende Satz 9.13 auf
1
u, Xn,i
X̃n,i = p
hu, Cui
6. November 2011 13:28
161
9-B
9
Zentrale Grenzwertsätze
an, so erhalten wir für den Erwartungswert
also
1
EX̃n,i = p
u, EXn,i = 0,
hu, Cui
m
Xn
i=1
V(X̃n,i ) =
m
Xn 1
V( u, Xn,i ) = 1.
hu, Cui i=1
|
{z
}
hu,Cui
Zum Nachweis der Lindebergbedingung betrachte
m
Xn
i=1
m
Xn 2 1
E u, Xn,i
1 √ 1
|hu,Xn,i i|>ε
{z
}
hu, Cui i=1 |
hu,Cui
2
àkuk2 kXn,i k
m
Xn 2 1
E kuk2 Xn,i 1 √ kuk
à
kXn,i k>ε
hu, Cui i=1
hu,Cui
2
E X̃n,i
1[|X̃n,i |>ε] =
à
mn
2
kuk2 X √
E Xn,i 1
→ 0,
hu,Cui
[kXn,i k> kuk ε]
hu, Cui i=1
nach Voraussetzung für n → ∞. Damit sind alle Voraussetzungen von Satz 9.13
erfüllt.
«
9.3 Korollar Ist (Xn )n∈N eine unabhängige Folge identisch verteilter quadratisch inte-
grierbarer Zufallsvektoren, so gilt
mn
1 X
D
√
(Xi − EXi ) → N(0, Cov(X1 ))-verteilte ZV.
n i=1
162
Ï
6. November 2011 13:28
10-
10 Bedingte Erwartungen
Bedingte Erwartungen stellen den mathematischen Rahmen zur Untersuchung der
Fragestellung, welchen Mittelwert eine Zufallsvariable Y annimmt unter der Voraussetzung, dass eine andere Zufallsvariable X den Wert x annimmt,
E(Y | X = c).
Als Beispiel sei die Suche des mittleren Körpergewichts einer gegebenen Bevölkerungsschicht, unter Vorraussetzung einer gewissen Körpergröße, genannt.
Erinnern wir uns zurück an die Definition des Erwartungswerts, so können wir
diesen als Verallgemeinerung des Begriffes der Wahrscheinlichkeit für das Eintreten eines Ereignisses interpretieren. Allgemeiner gilt
P (A | X = x) = E(1A | X = x).
Als Beispiel sei das Ereignis A, die Straße ist glatt, unter der Voraussetzung, dass
die Lufttemperatur X den Wert x annimmt.
Unsere bisherige Definition von P (A | X = x) schließt den Fall P [X = x] = 0
nicht mit ein. Wir werden dieses Manko durch die Definition einer allgemeinen
“bedingten Erwartung” beheben.
6. November 2011 13:28
163
10
Bedingte Erwartungen
10-A Grundlagen
Wie immer sei (Ω, A, P ) ein W-Raum.
Erinnern wir uns zunächst an die Definition der Messbarkeit einer Abbildung. f
ist C-B-messbar a f −1 (B) ⊆ C.
Eine reellwertige Funktion ist eine Zufallsvariable, falls sie A − B messbar ist.
Bedingte Erwartungen sind spezielle Zufallsvariablen, bei denen die Messbarkeitsforderung noch verschärft wird.
Zum Beweis des folgenden Satzes benötigen wir den Satz von Radon-Nikodym
(siehe Anhang), der ein Verhältnis zwischen zwei Maßen µ und ν herstellt.
10.1 Satz Sei X : (Ω, A, P ) → (R, B) integrierbare Zufallsvariable und C ⊂ A σ -Algebra.
Dann existiert eine Zufallsvariable
Z : (Ω, A, P ) → (R, B)
mit folgenden Eigenschaften:
(a) Z ist integrierbar und C-B-messbar,
(b) ∀ C ∈ C :
R
C
X dP =
R
C
Z dP . Ï
» Ohne Einschränkung sei X á 0, ansonsten zerlegen wir X in X+ und X− . Sei
ϕ : C → R definiert durch
Z
ϕ(C) Í
X dP ,
C ∈ C,
C
so ist ϕ aufgrund der Integrierbarkeit von X wohldefiniert und ein Maß. Außerdem
ist ϕ ein P -stetiges endliches Maß auf C.
C
Somit sind alle Voraussetzungen des Satzes von Radon-Nikodyn erfüllt und es
folgt die Existenz einer bis auf die Äquivalenz “= P C -f.ü.” eindeutige, C − B-
messbare Funktion
Z : Ω → R+ .
Weiterhin ist Z P C -integrierbar, wobei
∀ C ∈ C : ϕ(C) =
Z
C
Z dP C =
Z
C
Z dP . «
Z ist auch A − B-messbar und bezüglich P integrierbar.
164
«
6. November 2011 13:28
Grundlagen
Die Aussage des Satzes mag zunächst unscheinbar sein. Es ist jedoch zu beachten, dass die Zufallsvariable Z tatsächlich so konstruiert werden kann, dass
sie C-B-messbar ist. Da man C als echte Teilmenge von A wählen kann, ist dies
überhaupt nicht offensichtlich
Z ist eindeutig bis auf die Äquivalenz “ P C -f.ü.’
10.1 Definition Sei X : (Ω, A, P ) → (R, B) integrierbare Zufallsvariable und C ⊂ A σ -
Algebra. Die Äquivalenzklasse (im oberen Sinne) der Zufallsvariablen Z: (Ω, A, P ) →
(R, B) mit (a) und (b) — oder auch ein Repräsentant dieser Äquivalenzklasse — heißt
bedingte Erwartung von X bei gegebenem C. Man bezeichnet Z mit E(X | C).
Häufig wird ein Repräsentant dieser Äquivalenzklasse als eine Version von E(X |
C) bezeichnet. Ï
Die bedingte Erwartung E(X | C) stellt im Allgemeinen also keine reelle Zahl
sondern eine Zufallsvariable dar! E(X | C) kann man als eine “Vergröberung” von
X betrachten, da C gröber als A und Z daher weniger Möglichkeiten der Variation
als X besitzt. (Siehe Abbildung 11.2)
Bemerkungen.
a. Zur Eindeutigkeit von Satz 10.1 betrachte zwei Zufallsvariablen
Z1 und Z2 , so gilt
Z
∀ C ∈ C : (Z1 − Z2 ) dP = 0 ⇒ Z1 = Z2 P C -f.ü.
C
b. E(X | C) =
dϕ
dP C
, wobei ϕ(C) =
R
C
X dP für C ∈ C. Ç
Bsp 1 a.) Sei C = A, so gilt E(X | C) = X f.s.
b.) Sei C = {, Ω} so gilt E(X | C) = EX, denn
Z
Z
Z
Z
X dP =
EX dP ,
X dP =
EX dP .
Ω
Ω
}
| {z } | ∅ {z
=0
=0
c.) Sei C = {, B, B c , Ω} für festes B mit 0 < P (B) < 1. So gilt

R

 1
P (B) B X dP Î E(X | B), ω ∈ B
(E(X | C))(ω) =
 1 R X dP ,

ω ∈ Bc .
P (B c ) B c
E(X | B) heißt bedingter Erwartungswert von X unter der Hypothese B.
6. November 2011 13:28
165
10-A
10
Bedingte Erwartungen
4
X
Z
3
2
1
1
4
10.1
Ω = [0, 1], A = σ
1
2
3
4
ω
1
n
o
n
o
[0, 41 ), [ 14 , 12 ), [ 12 , 34 ), [ 34 , 1] , C = σ [0, 12 ), [ 21 , 1] ⊊ A.
» Scharfes Hinsehen liefert, dass die rechte Seite nach obiger Definition C − Bmessbar ist. Weiterhin gilt
Z
Z
“rechte Seite" dP = 0 =
X dP ,
∅
∅
R
Z
Z
Z
1 dP
“rechte Seite" dP = B
X dP =
X dP ,
P (B) B
B
B
R
Z
Z
Z
c 1 dP
X dP =
X dP ,
“rechte Seite" dP = B c
c
P (B ) B c
Bc
ZB
Z
Z
“rechte Seite" dP =
“rechte Seite" dP +
“rechte Seite" dP
c
Ω
ZB
Z
ZB
=
X dP +
X dP =
X dP . « Bc
B
Ω
10.2 Satz Seien X, Xi integrierbar, C ⊂ A σ -Algebra und c, α1,2 ∈ R.
a) ∀ C ∈ C :
R
C
E(X | C) dP =
R
C
X dP .
b) X = c P-f.s. ⇒ E(X | C) = c f.s.
c) X ≥ 0 P-f.s. ⇒ E(X | C) ≥ 0 f.s.
d) E(α1 X1 + α2 X2 | C) = α1 E(X1 | C) + α2 E(X2 | C) f.s.
e) X1 ≤ X2 P-f.s. ⇒ E(X1 | C) ≤ E(X2 | C) f.s.
166
6. November 2011 13:28
Grundlagen
f) X C-B-messbar ⇒ X = E(X | C) f.s.
g) X integrierbar, Y C-B-messbar, XY integrierbar
⇒ E(XY | C) = Y E(X | C) f.s.
g’) X, X 0 integrierbar, XE(X 0 | C) integrierbar
⇒ E(XE(X 0 | C) | C) = E(X | C)E(X 0 | C) f.s.
h) σ -Algebra C1,2 mit C1 ⊂ C2 ⊂ A, X integrierbar
E(E(X | C1 ) | C2 ) = E(X | C1 ) f.s.
E(E(X | C2 ) | C1 ) = E(X | C1 ) f.s.
Hier bedeutet f.s., Rest C2 P-f.s. bzw. Rest C1 P-f.s.
»
Ï
a) Folgt sofort aus der Definition der bedingten Erwartung.
b) Klar, denn Glättung einer Konstanten ergibt die Konstante selbst.
c) Für eine C − B-messbare Funktion Z mit ∀ C ∈ C :
P - f.s.
C
R
C
Z dP á 0 folgt Z á 0
d) Folgt direkt aus der Linearität des Intergrals.
e) Folgt direkt aus der Monotonie des Integrals, denn für C − B-messbare Zufallsvariablen Z1,2 mit
∀C∈C:
Z
C
Z1 dP à
Z
C
Z2 dP
gilt auch Z1 à Z2 P C - f.s.
f) Klar.
g) Es folgt sofort, dass XY und Y E(X | C) C − B-messbar. Es verbleibt zu zeigen,
dass
∀C∈C:
6. November 2011 13:28
Z
C
Y E(X | C) dP =
Z
C
XY dP .
167
10-A
10
Bedingte Erwartungen
Ohne Einschränkung ist X á 0, ansonsten gehen wir zu X+ und X− über. Sei
C ∈ C so gilt
Z
Z
Y E(X | C) dP =
Y E(X | C) dP C ,
C
C
wobei E(X | C) =
dϕ
dP C
mit ϕ(C) =
R
C
X dP für C ∈ C, so dass nach dem Zusatz
zum Satz von Radon-Nikodym,
Z
Z
Z
Y E(X | C) dP C =
Y dϕ =
Y dϕ∗ ,
C
C
∗
mit ϕ (A) =
R
A
C
X dP für A ∈ A (also ϕ = ϕ∗ C ). Somit ist ϕ∗ ein endliches
Maß auf A. Erneute Anwendung des Zusatzes zum Satz von Radon-Nikodym
ergibt,
Z
C
Nun ist
Z
Y dϕ∗ =
dϕ∗
dP
C
Y
Z
C
Y
dϕ∗
dP .
dP
= X P -f.s. und daher
dϕ∗
dP =
dP
Z
C
Y X dP .
g’) Folgt sofort aus g), wenn wir Y = E(X | C) setzen.
h) (α) Aus g) folgt direkt, dass
E(E(X | C1 ) | C2 ) = E(X | C1 ) E(1 | C2 ),
| {z }
1
da E(X | C1 ) C1 − B-messbar.
(β) Die zweite Gleichung ist plausibel, da die Vergröberung von X über C2 zur
noch kleineren σ -Algebra C1 dasselbe liefert, wie die unmittelbare Vergröberung über C1 .
Seien also Z Í E(X | C1 ) und Y Í E(X | C2 ). Es ist zu zeigen, dass Z =
E(Y | C1 ). Zunächst ist nach Definition Z auch C1 − B-messbar. Weiterhin
sei C ∈ C1 ⊆ C2 , so gilt per definitionem,
Z
Z
Z
Z
Z dP =
X dP ,
Y dP =
X dP ,
C
C
ZC
ZC
⇒
Y dP =
Z dP . «
C
168
C
6. November 2011 13:28
Grundlagen
10.2 Definition Sei C ⊂ A σ -Algebra und A ∈ A.
P (A | C) Í E(1A | C)
heißt bedingte Wahrscheinlichkeit von A bei gegebenem C. Ï
Setzen wir C = {∅, Ω}, so ist E(1A | C) = E1A = P (A) (vgl. Bsp 1). Nach Definition
10.2 gilt dann
E(1A | C) = P (A | C).
10.1 Bemerkung zu Definition 10.2.
∀C∈C:
Z
C
P (A | C) dP = P (A ∩ C).
» Sei C ∈ C, so gilt
Z
C
P (A | C) dP =
Z
C
E(1A | C) dP =
Z
C
Ç
1A dP =
Z
Ω
1A 1C dP = P (A ∩ C).
«
Bsp 2 Sei C = {, B, B c , Ω} mit 0 < P (B) < 1. Sei A ∈ A, so gilt
denn


 P (A∩B) Î P (A | B),
ω∈B
P (B)
(P (A | C))(ω) = P (A∩B c )

c
c

P (B c ) Î P (A | B ), ω ∈ B ,
(P (A | C))(ω)
vgl. Bsp 1
E(1A | C)(ω)
1 R
P (A∩B)
ω ∈ B,
P (B) B 1A dP = P (B) = P (A | B),
=
R
c)
1
P
(A∩B

c
 c B c 1A dP =
P (B )
P (B c ) = P (A | B ), ω ∉ B. =



1.) Seien X : (Ω, A, P ) → (R, B), Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsva-
10.3 Definition
riablen und X integrierbar.
E(X | Y ) Í E(X | Y −1 (A0 ))
heißt bedingte Erwartung von X bei gegebenem Y . Y −1 (A) bezeichnet hier
die kleinste σ -Algebra in Ω, bzgl. der Y messbar ist.
6. November 2011 13:28
169
10-A
10
Bedingte Erwartungen
2.) Seien X : (Ω, A, P ) → (R, B), Yi : (Ω, A, P ) → (Ωi0 , A0i ) für i ∈ I Zufallsvariablen und X integrierbar.
C ⊂ A sei die kleinste
σ -Algebra in Ω, bzgl. der alle Yi messbar sind, d.h.
S
−1
C=F
i∈I Yi (Ai ) . So heißt
E(X | (Yi )i∈I ) Í E(X | C)
bedingte Erwartung von X bei gegebenen Yi , i ∈ I.
3.) Sei A ∈ A und Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariable.
P (A | Y ) Í E(1A | Y )
heißt bedingte Wahrscheinlichkeit von A bei gegebenem Y . Ï
10.2 Bemerkungen. Sei X : (Ω, A, P ) → (R, B) eine integrierbare Zufallsvariable.
a. Sei C σ -Algebra in A. Dann gilt
(X −1 (B), C) unabhängig ⇒ E(X | C) = EX f.s.
b. Sei Y : (Ω, A, P ) → (Ω0 , A0 ) eine Zufallsvariable. Dann gilt
(X, Y ) unabhängig ⇒ E(X | Y ) = EX f.s. Ç
»
a. Zu zeigen ist, dass
∀C∈C:
Z
C
EX dP =
Z
C
X dP .
Schreiben wir
Z
Z
EX dP = (EX)
1C dP = (EX)(P (C)),
C
Ω
sowie
Z
C
X dP =
Z
Ω
1C X dP = E(1C X) = E(1C )EX,
mit Hilfe der Unabhängigkeit, so ist die Gleichheit offensichtlich.
b. Folgt direkt mit a).
170
«
6. November 2011 13:28
Grundlagen
10.3 Satz Seien X : (Ω, A, P ) → (R, B), Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariablen. Dann
existiert eine Abbildung
g : (Ω0 , A0 ) → (R, B),
mit E(X | Y ) = g ◦ Y . g ist die sog. Faktorisierung der bedingten Erwartung. g ist
eindeutig bis auf die Äquivalenz “= PY -f.ü. ”.
Ç
» Sei Z Í E(X | Y ), dann
Z : (Ω, F (Y )) → (R, B).
a) Existenz 1. Schritt. Rückführung auf Indikatorfunktionen. Sei Z = 1A für ein
A ∈ F (Y ) = Y −1 (A0 ), also existiert ein A0 ∈ A0 , so dass Y −1 (A0 ) = A.
1A0 (Y (ω)) =


1,
Y (ω) ∈ A0 , d.h. ω ∈ A,
= 1A (ω).

0, sonst
Also ist Z = g ◦ Y mit g = 1A0 .
2. Schritt. Z sei nichtnegativ und einfach. Dann folgt die Existenz von g mit
Z = g ◦ Y direkt aus dem 1. Schritt.
3. Schritt. Z sei nichtnegativ und C − B-messbar. Dann existiert einer Folge
von einfachen Zufallsvariablen Zn mit Zn ↑ Z. Nach dem 2. Schritt existieren
gn : (Ω0 , A0 ) → (R, B0 ) mit Zn = gn ◦ Y . Setzen wir
g ∗ Í sup gn ,
n∈N
so ist g ∗ messbar und setzten wir weiterhin
g = g ∗ 1[g ∗ <∞] ,
so ist g reellwertig. Da Z = supn∈N Zn , gilt auch P -f.s.
Z = g ◦ Y.
4. Schritt. Sei Z messbar, so besitzt Z eine Darstellung Z = Z+ − Z− , mit Z+ , Z−
positiv und messbar. Nach dem 3. Schritt existieren Abbildungen g+ , g− mit
Z+ = g+ ◦ Y und Z− = g− ◦ Y . g Í g+ − g− ist die gesuchte Abbildung.
6. November 2011 13:28
171
10-A
10
Bedingte Erwartungen
b) Eindeutigkeit. Es gelte E(X | Y ) = g1 ◦ Y f.s. = g2 ◦ Y f.s. und somit
Z
Z
Z
∀ C ∈ F (Y ) :
g1 ◦ Y dP =
X dP =
g2 ◦ Y dP .
C
C
Z C
Z
⇒ ∀ C 0 ∈ A0 :
g1 ◦ Y dP =
g2 ◦ Y dP .
Y −1 (C 0 )
Y −1 (C 0 )
Nach dem Transformationssatz gilt somit
Z
Z
∀ C 0 ∈ A0 :
g1 dPY =
g2 dPY ,
C0
C0
d.h. gerade
∀ C 0 ∈ A0 :
Z
C0
(g1 − g2 ) dPY = 0
und daher g1 = g2 PY -f.ü.
«
10.4 Definition Sei X : (Ω, A, P ) → (R, B) bzw. A ∈ A eine integrierbare Zufallsva-
riable und Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariable. Sei g bzw. gA eine — bis auf
Äquivalenz “= PY - f.ü.” eindeutig bestimmte — Faktorisierung von E(X|Y ) bzw. von
P (A | Y ).
E(X | Y = y) Í g(y)
heißt bedingte Erwartung von X unter der Hypothese Y = y.
P (A | Y = y) Í gA (y)
heißt bedingte Wahrscheinlichkeit von A unter der Hypoththese. Y = y
E(X | Y = ·) = g,
P (A | Y = ·) = gA .
Ï
10.4 Satz Sei X : (Ω, A, P ) → (R, B) bzw. A ∈ A integrierbare Zufallsvariable und Y :
(Ω, A, P ) → (Ω0 , A0 ) Zufallsvariable. Dann gelten
a) ∀ A0 ∈ A0 :
insbesondere
b) ∀ A0 ∈ A0 :
insbesondere
172
R
A0
R
R
E(X | Y = y) dPY (y) =
Ω0
A0
R
R
Y −1 (A0 )
X dP ,
E(X | Y = y) dPY (y) = EX.
P (A | Y = y) dPY (y) = P (Y −1 (A0 ) ∩ A).
Ω0
P (A | Y = y) dPY (y) = P (A). Ï
6. November 2011 13:28
Grundlagen
R
In vielen Anwendungen ist es tatsächlicher einfacher, die bedingte Erwartung
Ω0
»
E(X | Y = y) dPY (y) anstelle des Erwartungswerts EY zu berechnen.
a) Sei g eine Faktorisierung von E(X | Y ) (deren Existenz sichert Satz 10.3) und
A0 ∈ A0 . So gilt
Z
Z
Z
Satz 10.3
X dP =
E(X | Y ) dP
=
g ◦ Y dP
Y −1 (A0 )
Y −1 (A0 )
Y −1 (A0 )
Z
Z
Def 10.4
=
g(y) dPY (y) =
E(X | Y = y) dPY (y).
A0
A0
b) Folgt direkt aus dem Vorangegangenen mit X = 1A .
«
Bsp 3 Seien X bzw. A sowie Y wie zuvor. Sei y ∈ Ω0 wobei y
y] = PY ( y ) > 0.
∈ A0 und P [Y =
a.) E(X | Y = y) = E(X | [Y = y]).
|
{z
} |
{z
}
s. Bsp 1
s. Definition 10.4
0
» Sei also y ∈ Ω fest mit
y ∈ A0 und PY ( y ) > 0. Nach Satz 10.4
ist E(X | Y = y) eindeutig, denn für zwei Faktorisierungen g1 und g2 von
E(X | Y ) stimmen g1 und g2 bis auf eine Menge vom PY -Maß Null überein, aber
PY ( y ) > 0, also g1 (y) = g2 (y).
Sei also g eine Faktorisierung von E(X | Y ), so ist E(X | Y ) = g(y) unabhängig
von der Wahl von g. Nach Satz 10.4 gilt
Z
Z
g(y 0 ) dPY (y 0 ) =
X dP ,
[Y =y]
{y }
Z
1
X dP . «
⇒g(y) =
P [Y = y] [Y =y]
b.) P (A | Y = y) = P (A | [Y = y]). |
{z
} |
{z
}
s. Definition 10.4
s. Bsp 2
10.5 Satz Sei X : (Ω, A, P ) → (R, B) integrierbare Zufallsvariable und Y : (Ω, A) →
(Ω0 , A0 ) Zufallsvariable.
a) X = cf.s. ⇒ E(X | Y = ·) = c PY -f.ü..
b) X ≥ 0 f.s. ⇒ E(X | Y = ·) ≥ 0 PY -f.ü..
c) E(αX1 + βX2 | Y = ·) = αE(X1 | Y = ·) + βE(X2 | Y = ·) PY -f.ü..
6. November 2011 13:28
173
10-A
10
Bedingte Erwartungen
d) X1 ≤ X2 f.s. ⇒ E(X1 | Y = ·) ≤ E(X2 | Y = ·) PY -f.ü..
Ï
» Diese Eigenschaften ergeben sich sofort aus Satz 10.2 und Satz 10.3.
«
10.6 Satz Seien C ⊂ A eine Sub-σ -Algebra und X, Xn integrierbare Zufallsvariablen.
Dann gilt:
a) Ist 0 à Xn ↑ X f.s., so folgt
E(Xn | C) → E(X | C) f.s.
(Satz von der monotonen Konvergenz für bedingte Erwartungen).
b) Ist Xn → X f.s., |Xn | à Y f.s. und Y eine integrierbare Zufallsvariable, so folgt
E(Xn | C) → E(X | C) f.s.
(Satz von der dominierten Konvergenz für bedingte Erwartungen). Ï
»
a) Sei 0 à Xn ↑ X f.s., so folgt mit dem klassischen Satz von der monotonen
Konvergenz, dass
E |Xn − X| = EXn − EX → 0.
Außerdem folgt aus der Dreiecksungleichung oder aus Satz 10.7,
E(E(|Xn − X| | C)) á E(|E((Xn − X) | C)|) = E(|E(Xn | C) − E(X | C)|),
L1
wobei die linke Seite gegen Null konvergiert, also E(Xn | C) → E(X | C). Nun
existiert eine Teilfolge, so dass E(Xnk | C) → E(X | C) f.s. und da Xnk ↑ X f.s. ist
auch die Konvergenz von (E(Xnk | C)) monoton und da (E(Xn | C)) monoton
folgt
E(Xn | C) ↑ E(X | C).
b) Sei Xn → X f.s. Setzen wir Zn Í sup |Xk − X|, so ist klar, dass Zn ↓ 0 P -f.s. und
es gilt
kán
|E(Xn | C) − E(X | C)| à E(|Xn − X| | C) à E(Zn | C),
174
6. November 2011 13:28
Grundlagen
aufgrund der Monotonie der bedingten Erwartung. Es genügt nun zu zeigen,
dass E(Zn | C) ↓ 0 P -f.s.
Da Zn ↓ 0 P -f.s., konvergiert auch E(Zn | C) P -f.s. punktweise gegen eine nicht-
negative Zufallsvariable. Sei also U Í lim E(Zn | C). Nun gilt
n→∞
0 à Zn à sup |Xn | + |X| à 2Y .
n∈N
Wir können schreiben
E(U ) = E(E(U | C)) à E(E(Zn | C)) = E(Zn ) → 0,
nach dem klassischen Satz von der dominierten Konvergenz, denn die Zn konvergieren f.s. und werden durch eine integrierbare Zufallsvariable majorisiert.
Somit ist U = 0 f.s.
«
10.7 Jensen’sche Ungleichung Sei C ⊂ A eine Sub-σ -Algebra, I ⊂ R ein Intervall, f :
I → R eine konvexe Funktion und X : Ω → I eine integrierbare Zufallsvariable. Dann
ist E(X | C) ∈ I fast sicher. Ist f (X) integrierbar, so gilt
f (E(X | C)) à E(f (X) | C) f.s. Ï
» Falls a à X bzw. X à b, so ist a à E(X | C) bzw. E(X | C) à b und daher
E(X | C) ∈ I.
Eine konvexe Funktion f : I → R besitzt eine Darstellung als
f (x) = sup v(x),
v∈V
V Í v : I → R : v(t) = a + bt à f (t),
t∈I .
Somit gilt aufgrund der Linearität
f (E(X | C)) = sup v(E(X | C)) = sup(E(v(X) | C)).
v∈V
v∈V
Nun ist sup v(X) à f (X) und somit,
v∈V
sup(E(v(X) | C)) à E(f (X) | C).
v∈V
6. November 2011 13:28
«
175
10-A
11-
11 Martingale
Ziel dieses Kapitels ist es, Kriterien für ein starkes Gesetz der großen Zahlen auch
für abhängige Zufallsvariablen zu finden. Dazu untersuchen wir zunächst spezielle
Folgen von Zufallsvariablen, die Martingale, für die sehr angenehme Konvergenzsätze existieren, auch wenn die Zufallsvariablen der Folge abhängig sind.
Martingale spielen eine große Rolle in der Spieltheorie, in der Finanzmathematik
und in der stochastischen Analysis.
Für alles Weitere sei (Ω, A, P ) ein W-Raum, n ∈ N und sofern nicht anders ange-
geben, mit “→” die Konvergenz für n → ∞ bezeichnet.
11.1 Definition Eine Folge (Xn ) integrierbarer Zufallsvariablen Xn : (Ω, A, P ) → (R, B)
heißt bei gegebener monoton wachsender Folge (An ) von σ -Algebren An ⊂ A mit
An -B-Messbarkeit von Xn
a) ein Martingal bzgl. (An ), wenn
E(Xn+1 | An ) = Xn f.s.,
n á 1,
b) ein Submartingal bzgl. (An ), wenn
E(Xn+1 | An ) ≥ Xn f.s.,
n á 1,
c) ein Supermartingal bzgl. (An ), wenn (−Xn ) ein Submartingal bzgl. (An )
ist.
Ï
Eine Folge von Zufallsvariablen ist nicht per se ein Martingal sondern immer
nur in Bezug auf eine Folge von σ -Algebren. Ein wichtiger Spezialfall ist An =
F (X1 , . . . , Xn ) und sofern nicht anders angegeben, gehen wir immer von dieser
Wahl von An aus.
11.1 Bemerkung. Ein Martingal (Xn ) bezüglich (An ) ist stets auch ein Martingal be-
züglich (F (X1 , . . . , Xn )). Denn nach Voraussetzung ist jedes Xn An -B-messbar, so
6. November 2011 13:28
177
11
Martingale
dass Xn−1 (B) = F (Xn ) ⊂ An . Aus der Monotonie von An folgt dass F (X1 , . . . , Xn ) ⊂
An und somit
E(Xn+1 | X1 , . . . , Xn ) = E(E(Xn+1 | An ) | F (X1 , . . . , Xn ))
|
{z
}
áXn
á E(Xn | F (X1 , . . . , Xn )) = Xn .
Entsprechend für Sub-, Supermartingal.
Ç
11.1 Satz Sei (Vn ) eine Folge von Zufallsvariablen Vn : (Ω, A, P ) → (R, B). Die Partial-
summenfolge Sn =
Pn
j=1
Vj ist genau dann ein Martingal bzw. Submartingal bzgl.
(F (V1 , V1 + V2 , . . . , V1 + . . . + Vn )) = (F (V1 , . . . , Vn )), wenn für jedes n gilt
a) Vn ist integrierbar, und
b) E(Vn+1 | V1 , . . . , Vn ) = 0 bzw. ≥ 0 f.s. Ï
» Die Integrierbarkeit sichert die Existenz der bedingten Erwartungen. Weiterhin
gilt für jedes n á 0

n+1
X
E
j=1

X
n
Vj | Fn  = E Vn+1 | Fn +
Vj ,
j=1
nach Satz 10.2, denn Vj ist Fn -messbar für
ist ist die Partialsummen j à n. Somit
folge genau dann ein Martingal, wenn E Vn+1 | Fn = 0, bzw. ein Submartingal,
wenn á 0.
«
11.2 Definition Ein Spiel mit zufälligen Gewinnständen X1 , X2 , . . . nach dem 1., 2., . . .
Schritt heißt fair, wenn EX1 = 0 und (Xn ) ein Martingal ist, d.h. für jedes n gilt
EXn = 0 und
E(Xn+1 | X1 = x1 , . . . , Xn = xn ) = xn für P(X1 ,...,Xn ) -f.a. (x1 , . . . , xn ).
Ï
11.2 Satz Seien die Vn : (Ω, A, P ) → (R, B) quadratisch integrierbare Zufallsvariablen
und die Partialsummenfolge Sn =
se unkorreliert, d.h.
E(Vi Vj ) = 0,
178
i ≠ j.
Pn
j=1
Vj ein Martingal. Dann sind die Vn paarwei-
Ï
6. November 2011 13:28
11-
» Da Vi und Vj quadratisch integrierbar sind, folgt mit der Cauchy-Schwartz-Ungleichung,
dass
(E(Vj Vi ))2 à (EVj2 )(EVi2 ) < ∞.
Also ist Vj Vi integrierbar. Falls i < j, so ist Vi Fj -messbar und wir erhalten
10.2
E(Vj Vi ) = E(E(Vj Vi | Vi )) = E(Vi E(Vj | Vi ))
= E(E(Vj | V1 , . . . , Vj−1 ) | Vi ).
|
{z
}
«
=0 f.s. nach 11.1
Pn
Bsp 1 Ein Beispiel für ein Martingal ist die Partialsummenfolge (
i=1
Vj )n zu ei-
ner unabhängigen Folge (Vn ) von integrierbaren reellen Zufallsvariablen mit Erwartungswerten 0. » Nach Satz 11.1 genügt es zu zeigen, dass
E(Vn+1 | V1 , . . . , Vn ) = 0 f.s.
da (F (Vn+1 ), F (V1 , . . . , Vn )) ein unabhängiges Paar von σ -Algebren ist, gilt nach
Bemerkung 10.2,
E(Vn+1 | V1 , . . . , Vn ) = EVn+1 = 0. «
11.3 (Sub-/Super-)Martingalkonvergenztheorem von Doob Sei (Xn ) ein Sub-, Super- oder
Martingal mit lim sup E|Xn | < ∞. Dann existiert eine integrierbare reelle Zufallsvan→∞
riable X, so dass Xn → X P -f.s. Ï
Zur Beweisvorbereitung benötigen wir noch Definition 11.3 und 11.4, sowie Satz
11.4 und 11.5.
11.3 Definition Sei (An ) eine monoton wachsende Folge von σ -Algebren An ⊂ A. Eine
Zufallsvariable
T : (Ω, A, P ) → (N, P(N)),
N Í N ∪ {∞}
heißt Stoppzeit bzgl. (An ), wenn
∀ k ∈ N : [T = k] ∈ Ak .
Hierbei heißt T Stoppzeit im engeren Sinne, falls P [T < ∞] = 1 (“Kein Vorgriff auf
die Zukunft”).
Wichtiger Spezialfall: An = F (X1 , . . . , Xn ) mit Zufallsvariablen Xn . Ï
6. November 2011 13:28
179
11
Martingale
Man kann (Xn ) als Folge der Gewinnstände in einem Spiel interpretieren. Ein
Spieler ohne prophetische Gaben bricht das Spiel im zufälligen Zeitpunkt T aufgrund des bisherigen Spielverlaufs, d.h. aufgrund der Informationen, die bis zu
diesem Zeitpunkt zur Verfügung stehen, ab.
Bsp 2 T (ω) = inf {n ∈ N : Xn (ω) ∈ B}, ω ∈ Ω — festes messbares B.
Zum Beispiel habe sich ein Aktienhändler einen festen Minimalwert vorgegege-
ben, bei dessen Unterschreitung er seine Aktien verkaufen will. B stellt dann das
Ereignis dar, dass eine Aktie den Minimalwert unterschreitet, und Xn den Aktienkurs seiner Aktien. Seine Bedingung lautet damit “Verkaufe die Aktien für das
kleinste n, so dass Xn ∈ B”. 11.4 Definition Sei (Xn ) eine Folge von Zufallsvariablen Xn : (Ω, A, P ) → (R, B) und
(Tn ) eine Folge von Stoppzeiten bzgl. (Xn ) [d.h. bzgl. (F (X1 , . . . , Xn ))] mit T1 ≤
T2 ≤ . . . < ∞.
So wird eine neue Folge (XTn )n von Zufallsvariablen definiert durch
(XTn )(ω) Í XTn (ω) (ω),
ω ∈ Ω.
Der Übergang von (Xn ) zu (XTn ) heißt optional sampling [frei gewählte Stichprobenbildung].
Ï
Man kann optional sampling z.B. als ein Testen des Spielverlaufs zu den Zeitpunkten Tn (ω) interpretieren.
Anschaulich greift man aus einer vorgegebenen Menge von Zufallsvariablen eine
zufällige Teilmenge heraus. Dabei ist es durchaus möglich, dass eine Zufallsvariable mehrfach auftritt.
Vorsicht: Die (XTn ) stellen keine Teilfolge von (Xn ) dar!
11.4 Optional Sampling Theorem Sei (Xn ) ein Submartingal, M ∈ N fest und (Tn ) eine
Folge von Stoppzeiten bzgl. (Xn ) mit T1 ≤ T2 ≤ . . . ≤ M.
Die durch optional sampling erhaltene Folge (XTn )n∈N ist ebenfalls ein Submar-
tingal. — Entsprechend für Martingal statt Submartingal. Ï
Die Martingaleigenschaft ist invariant unter “Stoppen”. Interpretieren wir (Xn )
z.B. als Folge von Gewinnständen in einem Spiel, so besagt der Satz, dass sich die
Fairness eines Spielverlaufs nicht ändert.
180
6. November 2011 13:28
» Wir führen den Beweis für Submartingale. Martingale werden analog behandelt.
Für alles weitere sei n ∈ N fest und C ∈ F (XT1 , . . . , XTn ). Setzen wir T = Tn+1
und S = Tn , so ist S à T à M und wir haben zu zeigen, dass
Z
Z
XT dP á
XS dP .
C
Da C =
C
PM
j=1
C ∩ [S = j] genügt es obige Ungleichung auf Dj Í C ∩ [S = j] zu
zeigen. Es sei noch bemerkt, dass Dj ∈ Aj = F (X1 , . . . , Xj ).
Wir zeigen nun per Induktion, dass für jedes m á j
Z
Z
XT dP á
Xm dP .
Dj ∩[T ám]
Dj ∩[T ám]
Somit folgt da j à T auf Dj ,
Z
Z
Z
XT dP =
XT dP á
Dj
Dj ∩[T áj]
Dj
Xj dP =
Z
Dj
XS dP .
Für den Induktionsanfang bemerken wir, dass [T á M] = [T = M], also folgt die
Behauptung unmittelbar. Für m á j ist Dj ∩ [T á m + 1] = Dj ∩ [T à m]c ∈ Am ,
also folgt mit der Submartingaleigenschaft von X
Z
Z
Xm+1 dP á
Xm dP .
Dj ∩[T ám+1]
Dj ∩[T ám+1]
Zusammen mit der Induktionsvoraussetzung gilt also
Z
Z
Z
XT dP =
XT dP +
Dj ∩[T ám]
Dj ∩[T ám+1]
á
á
Z
Dj ∩[T ám+1]
Z
Dj ∩[T ám]
Dj ∩[T =m]
Xm+1 dP +
Z
XT dP
Dj ∩[T =m]
XT dP
Xm dP .
Damit ist die Induktion komplett und es gilt E(XTn+1 | XT1 , . . . , XTn ) á XTn , was zu
zeigen war.
«
11.5 Upcrossing inequality von Doob Sei (X1 , . . . , Xn ) ein bei n á 1 abbrechendes Sub-
martingal und a < b reelle Zahlen. Die Zufallsvariable U[a, b] gebe die Anzahl der
aufsteigenden Überquerungen des Intervalls [a, b] durch X1 , . . . , Xn an (d.h. die Anzahl der Übergänge der abbrechenden Folge von einem Wert ≤ a zu einem Wert
≥ b). Dann gilt
(b − a)EU [a, b] ≤ E(Xn − a)+ − E(X1 − a)+ .
6. November 2011 13:28
Ï
181
11-
11
Martingale
b
b
b
b
b
b
b
a
b
b
b
b
1
11.1
2
3
4
5
6
7
8
9
10
ω
Zur Upcrossing Inequality. Xn (ω) mit Überquerungen, U10 [a, b] = 2.
» Da (X1 , . . . , Xn ) ein Submartingal ist, ist auch (X1 − a, . . . , Xn − a) ein Submartin-
gal und ebenso ((X1 − a)+ , . . . , (Xn − a)+ ), aufgrund der Monotonie der bedingten
Erwartung. Somit gibt U[a, b] die Anzahl der aufsteigenden Überschreitungen des
Intervalls [0, b − a] durch ((X1 − a)+ , . . . , (Xn − a)+ ) an. Deshalb können wir ohne
Einschränkung a = 0 und Xi á 0 annehmen.
Zu zeigen ist nun b EU[0, b] à EXn − EX1 . Wir definieren uns Zufallsvariablen
T1 , . . . , Tn+1 durch folgende Vorschrift:
T1 (ω)
T2j (ω)
T2j+1 (ω)
Tn+1 (ω)
= 1,

n
o

min i : T2j−1 à i à n, Xi (ω) = 0 ,
=

n,

n
o

min i : T2j (ω) à i à n, Xi (ω) á b ,
=

n,
falls existent,
sonst,
falls existent,
sonst,
= n.
Die geraden Zeiten T2j geben die Zeitpunkte der Unterschreitungen von [0, b − a]
an, und die ungeraden Zeiten T2j+1 geben die Zeitpunkte der Überschreitungen an.
So definiert sind T1 , . . . , Tn+1 sind Stoppzeiten mit T1 à . . . à Tn+1 = n.
Nach Satz 11.4 überträgt sich die Submartingaleigenschaft von X auf (XT1 , . . . , XTn )
182
6. November 2011 13:28
11-
und ein Teleskopsummenargument liefert
Xn − X1 =
n
X
(XTk+1 − XTk ) =
k=1
Also EXn − EX1 á bEU [0, b].
X X
XT2j+1 − XT2j +
XT2j − XT2j−1
|
{z
}
|
{z
}
|
«
áb, da Aufsteigung
{z
ábU[0,b]
}
E...á0, da Submartingal
Nun können wir einen Beweis für Satz 11.3 geben.
» Beweis von 11.3. Es gilt lim infn Xn à lim supn Xn und beide Zufallsvariablen sind
messbar. Angenommen [lim infn Xn ≠ lim supn Xn ] habe positives Maß, so gilt aufgrund der Stetigkeit von P , dass für ein ε > 0
P [lim sup Xn − lim inf Xn > ε] > 0.
n
n
Also existieren reelle Zahlen a < b, so dass auch
P [lim inf Xn < a < b < lim sup Xn ] > 0.
n
(?)
n
Gebe nun Un [a, b] die Anzahl der aufsteigenden Überquerungen des Intervalls
[a, b] durch X1 , . . . , Xn an. Nach Voraussetzung ist supná1 E |Xn | à M < ∞, also
gilt nach Doobs Upcrossing Inequality 11.5
(b − a)EUn [a, b] à E(Xn − a)+ à M + |a| < ∞,
n á 1.
Nach (?) überqueren die Xn auf einer Menge mit positivem Maß das Intervall [a, b]
jedoch unendlich oft, d.h. EUn [a, b] ↑ ∞ im Widerspruch zur Upcrossing Inequality. Somit ist die Annahme falsch und es gilt
P [lim inf Xn = lim sup Xn ] = 1.
n
n
Setzen wir also X = lim Xn wann immer der Limes erklärt ist, so gilt Xn → X
f.s..
«
n→∞
11.1 Korollar Ist (Un ) eine Folge integrierbarer nichtnegativ-reeller Zufallsvariablen auf
(Ω, A, P ) und (An ) eine monoton wachsende Folge von Sub-σ -Algebren von A mit
An -B+ -Messbarkeit von Un und gilt weiterhin
E(Un+1 | An ) ≤ (1 + αn )Un + βn ,
P
P
wobei αn , βn ∈ R+ mit αn < ∞, βn < ∞, dann konvergiert (Un ) f.s. — (Un ) ist
“fast ein nichtnegatives Supermartingal”.
Auch (EUn ) konvergiert. Ï
6. November 2011 13:28
183
11
Martingale
Zusatz zum Martingalkonvergenztheorem Ist das Martingal (Xn ) bezüglich der
Folge (An ) gleichgradig integrierbar, d.h.
sup E(|Xn | · 1[|Xn |ác] ) → 0,
ná1
c → ∞,
so gilt zusätzlich
L1
Xn -→ X,
Xn = E(X | An ).
Ï
» Sei ε > 0 fest. Dann existiert ein c > 0, so dass
sup E(|Xn | · 1[|Xn |>c] ) < ε,
ná1
da (Xn ) gleichgradig integrierbar. Nun gilt
E |Xn | = E(|Xn | | 1[|Xn |>c] ) + E(|Xn | | 1[|Xn |àc] ) < c + ε.
|
{z
} |
{z
}
<ε
àc
Also ist (Xn ) L1 -beschränkt. Mit Satz 11.3 folgt somit lim Xn Î X existiert f.s. und
n→∞
X ∈ L1 .
Wir zeigen nun, dass Xn → X in L1 , d.h. E |Xn − X| → 0. Setze dazu



c,
x > c,



fc (x) Í x,
−c à x à c,





−c, x < −c,
so ist f lipschitz stetig und wegen der gleichgradigen Integrierbarkeit der Xn existiert ein c > 0, so dass
ε
E fc (Xn ) − Xn < ,
3
ε
E fc (X) − X < ,
3
ná1
(1)
(2)
Da lim Xn = X f.s. folgt
n→∞
fc (Xn ) → fc (X) f.s.
und fc (Xn ) à c. Mit dem Satz von der dominierten Konvergenz folgt
E fc (Xn ) − fc (X) → 0 f.s.
184
6. November 2011 13:28
11-
Zusammenfassend ergibt sich,
E |Xn − X| à E Xn − fc (Xn ) + E fc (Xn ) − fc (X) + E fc (X) − X < ε
also Xn → X in L1 .
Es verbleibt zu zeigen, dass Xn = E(X | An ) f.s.. Sei C ∈ Am und n á m. Da
(Xn ) ein Martingal ist, gilt E(Xn 1C ) = E(Xm 1C ). Betrachte
|E(Xn 1C ) − E(X1C )| à E(|Xn − X| 1C ) à E(|Xn − X|) → 0,
so folgt E(Xm 1C ) = E(X1C ).
«
c
ω
11.2
Zur gleichgradigen Integrierbarkeit.
11.6 Satz Sei (Vn ) eine Folge von quadratisch integrierbaren reellen Zufallsvariablen mit
P∞
n=1
V(Vn ) < ∞. Dann ist
∞
X
(Vn − E(Vn | V1 , . . . , Vn−1 )) f.s. konvergent.
n=1
Sind die Vn zusätzlich unabhängig, dann ist
P∞
n=1 (Vn
− EVn ) f.s. konvergent.
Ï
» Ohne Einschränkung sei EVn = 0 ansonsten ersetze Vn durch Vn − EVn . Setze
Wn = Vn − E(Vn | V1 , . . . , Vn−1 ),
so ist Wn integrierbar und Fn = F (V1 , . . . , Vn )-messbar. Wir haben zu zeigen, dass
Pn
Sn = j=1 Wj f.s. konvergiert. Zunächst ist
E(Wn+1 | V1 , . . . , Vn )
= E(Vn+1 | V1 , . . . , Vn ) − E(E(Vn+1 | V1 , . . . , Vn ) | V1 , . . . , Vn ) = 0,
6. November 2011 13:28
185
11
Martingale
also ist Sn ein Martingal.
Im nächsten Schritt zeigen wir, dass supná1 E |Sn | < ∞ ist. Betrachte dazu
2
.
Sn2 = (Wn + Sn−1 )2 = Wn2 + 2Wn Sn−1 + Sn−1
Nach Satz 11.2 sind Wn und Sn−1 unkorreliert, so dass
2
ESn2 = EWn2 + ESn−1
= ... =
n
X
j=1
EWj2 .
Weiterhin gilt
EWn2 = E(Vn − E(Vn | V1 , . . . , Vn−1 ))2
à 2E(Vn2 + E(Vn | V1 , . . . , Vn−1 )2 )
à 2E(Vn2 + E(Vn2 | V1 , . . . , Vn−1 ))
= 4EVn2 = 4VVn2 .
Pn
Pn
Somit folgt ESn2 = j=1 Wj2 à 4 j=1 VVj2 . Also ist (E |Sn |)2 à ESn2 beschränkt.
Mit dem Martingalkonvergensatz 11.3 folgt nun die Behauptung, dass Sn f.s.
konvergiert.
Sind die Vn außerdem unabhängig, so können wir Bemerkung 10.2 anwenden
und erhalten E(Vn | V1 , . . . , Vn−1 ) = EVn f.s.
«
11.7 Satz Sei (Vn ) eine Folge von quadratisch integrierbaren reellen Zufallsvariablen mit
P∞
n=1
n−2 V(Vn ) < ∞. Dann gilt
n
1 X
(Vj − E(Vj | V1 , . . . , Vj−1 )) → 0
n j=1
Falls zusätzlich (Vn ) unabhängig, dann
1
n
f.s.
Pn
j=1 (Vj
− EVj ) → 0 f.s.
(Kriterium von Kolmogorov zum starken Gesetz der großen Zahlen) Ï
» Wenden wir Satz 11.6 auf n−1 Vn an, erhalten wir
∞
X
Vn − E(Vn | V1 , . . . , Vn−1 )
konvergiert f.s..
n
n=1
Daraus folgt mit dem Lemma von Kronecker (s.u.),
n
1 X
(Vi − E(Vi | V1 , . . . , Vi−1 ) → 0 f.s..
n i=1
Falls die Vn unabhängig sind, können wir Bemerkung 10.2 anwenden und erhalten
so den Zusatz.
186
«
6. November 2011 13:28
11-
11.1 Lemma von Kronecker Sei (cn ) eine Folge reeller Zahlen.
∞
n
X
cn
1 X
konvergiert ⇒
cj → 0.
n
n j=1
n=1
» Sei sn =
Pn
j=1
Ï
j −1 cj , so ist (sn ) nach Voraussetzung konvergent, sei s der Grenz-
wert. Offensichtlich ist sn − sn−1 = n−1 cn mit s0 = 0 und daher
n
X
j=1
cj =
n
X
j=1
j(sj − sj−1 ) = nsn −
n
X
j=1
Somit gilt
(j − (j − 1)) sj−1 .
{z
}
|
1
n
n
1 X
1 X
cj = sn −
sj−1 → 0. «
n j=1
n j=1
|
{z
}
→s
11.2 Bemerkung. Aus Satz 11.6 bzw. 11.7 ergibt sich unmittelbar für eine Folge (Vn )
quadratisch integrierbarer reeller Zufallsvariablen eine hinreichende Bedingung für
Pn
1 Pn
die f.s.-Konvergenz der Reihe j=1 Vn bzw. für n j=1 Vj → 0 f.s. Ï
11.8 Kriterium von Kolmogorov für das starke Gesetz der großen Zahlen Eine unab-
hängige Folge (Xn ) quadratisch integrierbarer reeller Zufallsvariablen mit
∞
X
n=1
n−2 V (Xn ) < ∞
genügt dem starken Gesetz der großen Zahlen. Ï
11.9 Kolmogorovsches starkes Gesetz der großen Zahlen Für eine unabhängige Fol-
ge (Xn )n∈N identisch verteilter integrierbarer reeller Zufallsvariablen gilt
n
1 X
Xk → EX1 f.s. Ï
n k=1
Der Satz wurde bereits im Kapitel 8 beweisen, wir wollen nun unter Verwendung
der Martingaltheorie einen eleganteren Beweis geben.
Stutzungslemma Sei (Xn ) eine Folge unabhängiger, identisch verteilter Zufallsvariablen mit E |X1 | < ∞. Setze Yn Í Xn 1[|Xn |àn] . Dann gilt
6. November 2011 13:28
187
11
Martingale
a) EYn → EX1 ,
b) P [Xn = Yn für fast alle n] = 1,
c) (Yn ) erfüllt die Kolmogorov-Bedingung,
∞
X
n=1
»
n−2 V(Yn ) < ∞.
Ï
a) Sei Zn Í X1 1[|X1 |àn] . Für jedes n ∈ N haben X1 und Xn dieselbe Verteilgung
also besitzen auch Yn und Zn dieselbe Verteilung.
Somit gilt EZn = EYn . Ferner ist |Zn | à |Xn | und Zn → X1 f.s. also nach dem
Satz von der dominierten Konvergenz
EYn = EZn → EX1 f.s.
b)
∞
X
n=1
P [Xn ≠ Yn ] =
∞
X
P [Xn > n] à
n=1
Lemma 4.1
=
Z∞
0
P [|X1 | > t] dt
E |X1 | < ∞.
Mit dem 1. Lemma von Borel und Cantelli folgt somit
P [Xn ≠ Yn für fast alle n] = 0.
c) Für jedes n ∈ N gilt nach Partialbruchzerlegung,
1
2
1
1
à
à
2
−
.
n2
n(n + 1)
n
n+1
Damit erhalten wir eine Abschätzung für den Reihenrest
X 1
2
à .
2
n
k
nák
(*)
Somit folgt
∞
X
X
|X1 |2 1[|X1 |àn]
à
2
n
n=1
námax{1,|X
1 |}
|X1 |2
2 |X1 |2
à
à 2 |X1 | .
2
n
max {1, |X1 |}
Also gilt auch für die Summe der Varianzen
∞
∞
∞
X
X
X
V(Yn )
E |Yn |2
E |Zn |2
à
=
à 2E |X1 | < ∞. «
n2
n2
n2
n=1
n=1
n=1
188
6. November 2011 13:28
11-
» Beweis von Satz 11.9. Wir betrachten die gestutzten Zufallsvariablen
Yn Í Xn 1[|Xn |àn] ,
Sn Í
n
X
Xi .
i=1
Nach Betrachtung b) im obigen Lemma genügt es zu zeigen,
n
1 X
Yi → EX1 f.s.
n i=1
Dazu betrachten wir die Zerlegung
n
n
n
1 X
1 X
1 X
Yi =
EYi +
(Yi − EYi ).
n i=1
n i=1
n i=1
Nach dem Grenzwertsatz von Caesaro gilt
n
1 X
EYi → EX1 f.s.
n i=1
und nach Satz 11.8 gilt außerdem
n
1 X
(Yi − EYi ) → 0 f.s.
n i=1
«
11.2 Korollar Sei (Xn ) eine Folge von unabhängigen identisch verteilten reell-erweiterten
Zufallsvariablen mit EX1− < ∞ und EX1+ = ∞, d.h. EX1 = ∞. Dann gilt
∞
1 X
Xi → ∞ f.s. Ï
n n=1
» Mit Satz 11.9 gilt
∞
1 X −
X → EX1− f.s.
n i=1 i
Deshalb können wir ohne Einschränkung davon ausgehen, dass Xi á 0. Sei k ∈ N
beliebig aber fest und setze
Zn(k) Í Xn 1[Xn àk] .
6. November 2011 13:28
189
Martingale
(k)
So folgt Zn à k und
n
n
1 X
1 X (k)
(k)
Xi á
Z
→ EZ1 f.s.
n i=1
n i=1 i
(k)
Aber Z1
↑ X1 und mit dem Satz von der monotonen Konvergenz folgt
(k)
EZ1
(**)
↑ EX1 .
Mit (**) folgt jedoch, dass
n
1 X
Xi → ∞ f.s.
n i=1
190
«
6. November 2011 13:28
1-
A Begriffe und Sätze der Maß- und
Integrationstheorie
Sei (Ω, A, µ) ein Maßraum.
Satz von der monotonen Konvergenz (B. Levi) Für erweitert reellwertige messbaR
re Funktionen fn mit fn ≥ 0 und fn ↑ f existiert lim fn dµ und es gilt
n
lim
n
Z
fn dµ =
Z
lim fn dµ.
n
Ï
Lemma von Fatou Für jede Folge (fn ) von erweitert reellwertigen messbaren Funktionen mit fn á 0 µ-f.ü. gilt
Z
Z
lim inf fn dµ à lim inf fn dµ.
Ï
Satz von der dominierten Konvergenz (Lebesgue) Für erweitert-reellwertige messbare Funktionen fn , f und g mit fn → f µ-f.ü., |fn | à g µ-f.ü. für alle n und
R
R
g dµ < ∞ existiert limn→∞ fn dµ und es gilt
Z
Z
lim fn dµ = f dµ. Ï
n→∞
Definition
1.) Das Maß µ heißt σ -endlich, wenn es ein Folge von Mengen An ∈ A
gibt mit An ↑ Ω und µ(An ) < ∞.
2.) Ein Maß ν auf A heißt µ-stetig, falls
∀ A ∈ A : µ(A) = 0 ⇒ ν(A) = 0.
Ï
Satz von Radon-Nikodym Seien (Ω, A) Messraum, µ und ν σ -endliche Maße auf
A und ν sei µ-stetig. Dann existiert eine Funktion f : (Ω, A) → (R+ , B+ ) mit
Z
∀ A ∈ A : ν(A) =
f dµ
A
6. November 2011 13:28
191
A
Begriffe und Sätze der Maß- und Integrationstheorie
f ist eindeutig bis auf Äquivalenz “=µ-f.ü.”.
f ist die sog. Radon-Nikodym-Ableitung von ν nach µ und wird häufig kurz durch
dν
dµ
angegeben. Ï
» Zum Beweis siehe Elstrodt.
«
Bsp 1 Sei Q ein W-Maß auf B, λ das LB-Maß auf B und Q sei λ-stetig. Dann ist die
Radon-Nikodyn-Ableitung
dQ
dλ
die gewöhnliche Dichte von Q. Zusatz Seien µ, ν, ϕ σ -endliche Maße, ϕ sei ν-stetig und ν sei µ-stetig. Dann gilt
dϕ
dϕ dν
=
·
.
dµ
dν dµ
192
Ï
6. November 2011 13:28
1-
Literaturverzeichnis
[1] Bauer, H. Wahrscheinlichkeitstheorie; de Gruyter, Berlin (1990), 4. Aufl.
[2] Bauer, H. Maß- und Integrationstheorie; de Gruyter, Berlin (1998), 2. Aufl.
[3] Billingsley, P. Probability and Measure; Wiley, New York (1995), 3rd ed.
[4] Capiński, M., Kopp, E. Measure Integral and Probability; Springer (2004), 2nd
ed.
[5] Dudley, R.M. Real Analysis and Probability; Cambridge University Press (2002),
2nd ed.
[6] Elstrodt, J. Maß- und Integrationstheorie; Springer (2009), 6. Aufl.
[7] Feller, W. An Introduction to Probability and Its Applications I,II; Wiley, New
York (1970/71), 3rd ed./2nd ed.
[8] Fisz, M. Wahrscheinlichkeitsrechnung und mathematische Statistik; VEB Deutscher Verlag der Wissenschaften, Berlin (1970), 5. Aufl.
[9] Gänssler, P., Stute, W. Wahrscheinlichkeitstheorie; Springer, Berlin (1977).
[10] Henze, N. Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt
des Zufalls; Vieweg+Teubner (2008), 7. Aufl.
[11] Hesse, C. Wahrscheinlichkeitstheorie — Eine Einführung mit Beispielen und
Anwendungen. Vieweg+Teubner (2009), 2. Aufl.
[12] Hinderer, K. Grundbegriffe der Wahrscheinlichkeitstheorie; Springer, Berlin
(1985), 3. korr. Nachdruck.
[13] Jacod, J., Protter, P. Probability Essentials. Springer, Berlin (2004), 2nd ed.
[14] Kallenberg, O. Foundations of Modern Probability. Springer, New York (2001),
2nd ed.
6. November 2011 13:28
193
A
Literaturverzeichnis
[15] Klenke, A. Wahrscheinlichkeitstheorie; Springer, Heidelberg (2006)
[16] Krengel, U. Einführung in die Wahrscheinlichkeitstheorie und Statistik; Vieweg, Braunschweig (2003), 7. Aufl.
[17] Loève, M. Probability Theory I,II; Springer, Berlin (1977/78), 4th ed.
[18] Meintrup D., Schäffler S. Stochastik — Theorie und Anwendungen; Springer
(2004).
[19] Williams, D. Probability with Martingales; Cambridge University Press (1991).
[20] Wengenroth, J. Wahrscheinlichkeitstheorie. De Gruyter (2008).
[21] Williams, D. Weighing the Odds — A Course in Probability and Statistics; Cambridge University Press (2001).
194
6. November 2011 13:28